{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.25,
  "eval_steps": 1000,
  "global_step": 120000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.0833333333333333e-05,
      "grad_norm": 7.369266510009766,
      "learning_rate": 1.4999999999999998e-06,
      "loss": 3.9784,
      "step": 10
    },
    {
      "epoch": 4.1666666666666665e-05,
      "grad_norm": 6.514930248260498,
      "learning_rate": 2.9999999999999997e-06,
      "loss": 4.0876,
      "step": 20
    },
    {
      "epoch": 6.25e-05,
      "grad_norm": 6.609025001525879,
      "learning_rate": 4.499999999999999e-06,
      "loss": 4.1488,
      "step": 30
    },
    {
      "epoch": 8.333333333333333e-05,
      "grad_norm": 6.772834300994873,
      "learning_rate": 5.999999999999999e-06,
      "loss": 3.8901,
      "step": 40
    },
    {
      "epoch": 0.00010416666666666667,
      "grad_norm": 7.126350402832031,
      "learning_rate": 7.499999999999999e-06,
      "loss": 4.0864,
      "step": 50
    },
    {
      "epoch": 0.000125,
      "grad_norm": 6.566469192504883,
      "learning_rate": 8.999999999999999e-06,
      "loss": 4.1959,
      "step": 60
    },
    {
      "epoch": 0.00014583333333333335,
      "grad_norm": 5.515867710113525,
      "learning_rate": 1.05e-05,
      "loss": 3.8084,
      "step": 70
    },
    {
      "epoch": 0.00016666666666666666,
      "grad_norm": 5.790792942047119,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 4.0739,
      "step": 80
    },
    {
      "epoch": 0.0001875,
      "grad_norm": 6.053430557250977,
      "learning_rate": 1.3499999999999998e-05,
      "loss": 4.2123,
      "step": 90
    },
    {
      "epoch": 0.00020833333333333335,
      "grad_norm": 5.650411128997803,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 3.9249,
      "step": 100
    },
    {
      "epoch": 0.00022916666666666666,
      "grad_norm": 5.531260013580322,
      "learning_rate": 1.6499999999999998e-05,
      "loss": 4.0193,
      "step": 110
    },
    {
      "epoch": 0.00025,
      "grad_norm": 4.885991096496582,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 3.724,
      "step": 120
    },
    {
      "epoch": 0.0002708333333333333,
      "grad_norm": 5.165462970733643,
      "learning_rate": 1.95e-05,
      "loss": 3.9344,
      "step": 130
    },
    {
      "epoch": 0.0002916666666666667,
      "grad_norm": 4.782204627990723,
      "learning_rate": 2.1e-05,
      "loss": 4.0379,
      "step": 140
    },
    {
      "epoch": 0.0003125,
      "grad_norm": 4.9411420822143555,
      "learning_rate": 2.2499999999999998e-05,
      "loss": 4.0888,
      "step": 150
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 4.048075199127197,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 3.9382,
      "step": 160
    },
    {
      "epoch": 0.0003541666666666667,
      "grad_norm": 4.106828212738037,
      "learning_rate": 2.55e-05,
      "loss": 3.9063,
      "step": 170
    },
    {
      "epoch": 0.000375,
      "grad_norm": 3.967660903930664,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 3.8479,
      "step": 180
    },
    {
      "epoch": 0.0003958333333333333,
      "grad_norm": 4.1011834144592285,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 4.0807,
      "step": 190
    },
    {
      "epoch": 0.0004166666666666667,
      "grad_norm": 3.6805419921875,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 4.1101,
      "step": 200
    },
    {
      "epoch": 0.0004375,
      "grad_norm": 4.586904048919678,
      "learning_rate": 3.149999999999999e-05,
      "loss": 3.8571,
      "step": 210
    },
    {
      "epoch": 0.0004583333333333333,
      "grad_norm": 3.1647002696990967,
      "learning_rate": 3.2999999999999996e-05,
      "loss": 3.729,
      "step": 220
    },
    {
      "epoch": 0.00047916666666666664,
      "grad_norm": 2.835263729095459,
      "learning_rate": 3.45e-05,
      "loss": 3.9869,
      "step": 230
    },
    {
      "epoch": 0.0005,
      "grad_norm": 3.3656539916992188,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 3.918,
      "step": 240
    },
    {
      "epoch": 0.0005208333333333333,
      "grad_norm": 2.8719184398651123,
      "learning_rate": 3.75e-05,
      "loss": 3.7732,
      "step": 250
    },
    {
      "epoch": 0.0005416666666666666,
      "grad_norm": 2.6891679763793945,
      "learning_rate": 3.9e-05,
      "loss": 3.7452,
      "step": 260
    },
    {
      "epoch": 0.0005625,
      "grad_norm": 2.6710000038146973,
      "learning_rate": 4.05e-05,
      "loss": 3.7136,
      "step": 270
    },
    {
      "epoch": 0.0005833333333333334,
      "grad_norm": 2.977600574493408,
      "learning_rate": 4.2e-05,
      "loss": 3.7154,
      "step": 280
    },
    {
      "epoch": 0.0006041666666666667,
      "grad_norm": 2.6756129264831543,
      "learning_rate": 4.3499999999999993e-05,
      "loss": 4.0673,
      "step": 290
    },
    {
      "epoch": 0.000625,
      "grad_norm": 2.4988200664520264,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 4.0176,
      "step": 300
    },
    {
      "epoch": 0.0006458333333333333,
      "grad_norm": 2.9364583492279053,
      "learning_rate": 4.65e-05,
      "loss": 3.952,
      "step": 310
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 2.2746999263763428,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 3.9988,
      "step": 320
    },
    {
      "epoch": 0.0006875,
      "grad_norm": 3.031714916229248,
      "learning_rate": 4.95e-05,
      "loss": 3.9168,
      "step": 330
    },
    {
      "epoch": 0.0007083333333333334,
      "grad_norm": 2.9307734966278076,
      "learning_rate": 5.1e-05,
      "loss": 3.6942,
      "step": 340
    },
    {
      "epoch": 0.0007291666666666667,
      "grad_norm": 2.580369234085083,
      "learning_rate": 5.2499999999999995e-05,
      "loss": 3.9896,
      "step": 350
    },
    {
      "epoch": 0.00075,
      "grad_norm": 2.8122284412384033,
      "learning_rate": 5.399999999999999e-05,
      "loss": 3.9724,
      "step": 360
    },
    {
      "epoch": 0.0007708333333333333,
      "grad_norm": 2.378981113433838,
      "learning_rate": 5.5499999999999994e-05,
      "loss": 3.9802,
      "step": 370
    },
    {
      "epoch": 0.0007916666666666666,
      "grad_norm": 2.870683431625366,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 3.9385,
      "step": 380
    },
    {
      "epoch": 0.0008125,
      "grad_norm": 2.762826442718506,
      "learning_rate": 5.85e-05,
      "loss": 3.7719,
      "step": 390
    },
    {
      "epoch": 0.0008333333333333334,
      "grad_norm": 2.886190891265869,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 3.8097,
      "step": 400
    },
    {
      "epoch": 0.0008541666666666667,
      "grad_norm": 2.836409568786621,
      "learning_rate": 6.149999999999999e-05,
      "loss": 3.818,
      "step": 410
    },
    {
      "epoch": 0.000875,
      "grad_norm": 2.8510560989379883,
      "learning_rate": 6.299999999999999e-05,
      "loss": 3.8657,
      "step": 420
    },
    {
      "epoch": 0.0008958333333333333,
      "grad_norm": 2.677159309387207,
      "learning_rate": 6.45e-05,
      "loss": 3.772,
      "step": 430
    },
    {
      "epoch": 0.0009166666666666666,
      "grad_norm": 2.7777462005615234,
      "learning_rate": 6.599999999999999e-05,
      "loss": 3.9021,
      "step": 440
    },
    {
      "epoch": 0.0009375,
      "grad_norm": 2.45473313331604,
      "learning_rate": 6.75e-05,
      "loss": 3.829,
      "step": 450
    },
    {
      "epoch": 0.0009583333333333333,
      "grad_norm": 2.926514148712158,
      "learning_rate": 6.9e-05,
      "loss": 3.898,
      "step": 460
    },
    {
      "epoch": 0.0009791666666666666,
      "grad_norm": 2.252542495727539,
      "learning_rate": 7.049999999999999e-05,
      "loss": 4.0223,
      "step": 470
    },
    {
      "epoch": 0.001,
      "grad_norm": 2.351160764694214,
      "learning_rate": 7.199999999999999e-05,
      "loss": 3.9716,
      "step": 480
    },
    {
      "epoch": 0.0010208333333333332,
      "grad_norm": 2.2558159828186035,
      "learning_rate": 7.35e-05,
      "loss": 3.8676,
      "step": 490
    },
    {
      "epoch": 0.0010416666666666667,
      "grad_norm": 2.1864795684814453,
      "learning_rate": 7.5e-05,
      "loss": 3.935,
      "step": 500
    },
    {
      "epoch": 0.0010625,
      "grad_norm": 2.233490228652954,
      "learning_rate": 7.649999999999999e-05,
      "loss": 3.9034,
      "step": 510
    },
    {
      "epoch": 0.0010833333333333333,
      "grad_norm": 2.337550163269043,
      "learning_rate": 7.8e-05,
      "loss": 3.8822,
      "step": 520
    },
    {
      "epoch": 0.0011041666666666667,
      "grad_norm": 2.284830093383789,
      "learning_rate": 7.95e-05,
      "loss": 3.9275,
      "step": 530
    },
    {
      "epoch": 0.001125,
      "grad_norm": 2.2319915294647217,
      "learning_rate": 8.1e-05,
      "loss": 3.8581,
      "step": 540
    },
    {
      "epoch": 0.0011458333333333333,
      "grad_norm": 2.0077998638153076,
      "learning_rate": 8.25e-05,
      "loss": 4.1426,
      "step": 550
    },
    {
      "epoch": 0.0011666666666666668,
      "grad_norm": 1.9239250421524048,
      "learning_rate": 8.4e-05,
      "loss": 4.0844,
      "step": 560
    },
    {
      "epoch": 0.0011875,
      "grad_norm": 2.4204318523406982,
      "learning_rate": 8.549999999999999e-05,
      "loss": 3.824,
      "step": 570
    },
    {
      "epoch": 0.0012083333333333334,
      "grad_norm": 3.8920788764953613,
      "learning_rate": 8.699999999999999e-05,
      "loss": 3.9309,
      "step": 580
    },
    {
      "epoch": 0.0012291666666666666,
      "grad_norm": 2.097668409347534,
      "learning_rate": 8.849999999999998e-05,
      "loss": 3.8477,
      "step": 590
    },
    {
      "epoch": 0.00125,
      "grad_norm": 2.2848875522613525,
      "learning_rate": 8.999999999999999e-05,
      "loss": 3.8475,
      "step": 600
    },
    {
      "epoch": 0.0012708333333333332,
      "grad_norm": 2.121750831604004,
      "learning_rate": 9.149999999999999e-05,
      "loss": 3.9012,
      "step": 610
    },
    {
      "epoch": 0.0012916666666666667,
      "grad_norm": 1.888998031616211,
      "learning_rate": 9.3e-05,
      "loss": 4.2044,
      "step": 620
    },
    {
      "epoch": 0.0013125,
      "grad_norm": 1.9981203079223633,
      "learning_rate": 9.449999999999999e-05,
      "loss": 3.8536,
      "step": 630
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 2.53363299369812,
      "learning_rate": 9.599999999999999e-05,
      "loss": 3.8059,
      "step": 640
    },
    {
      "epoch": 0.0013541666666666667,
      "grad_norm": 2.019169569015503,
      "learning_rate": 9.75e-05,
      "loss": 4.0733,
      "step": 650
    },
    {
      "epoch": 0.001375,
      "grad_norm": 2.37184739112854,
      "learning_rate": 9.9e-05,
      "loss": 3.9411,
      "step": 660
    },
    {
      "epoch": 0.0013958333333333333,
      "grad_norm": 2.0165822505950928,
      "learning_rate": 0.0001005,
      "loss": 4.0182,
      "step": 670
    },
    {
      "epoch": 0.0014166666666666668,
      "grad_norm": 1.9455044269561768,
      "learning_rate": 0.000102,
      "loss": 3.8239,
      "step": 680
    },
    {
      "epoch": 0.0014375,
      "grad_norm": 1.9293179512023926,
      "learning_rate": 0.00010349999999999998,
      "loss": 3.8611,
      "step": 690
    },
    {
      "epoch": 0.0014583333333333334,
      "grad_norm": 2.145423650741577,
      "learning_rate": 0.00010499999999999999,
      "loss": 4.0455,
      "step": 700
    },
    {
      "epoch": 0.0014791666666666666,
      "grad_norm": 2.0064008235931396,
      "learning_rate": 0.00010649999999999999,
      "loss": 3.9075,
      "step": 710
    },
    {
      "epoch": 0.0015,
      "grad_norm": 1.8732527494430542,
      "learning_rate": 0.00010799999999999998,
      "loss": 3.9255,
      "step": 720
    },
    {
      "epoch": 0.0015208333333333332,
      "grad_norm": 1.9233214855194092,
      "learning_rate": 0.00010949999999999999,
      "loss": 3.8687,
      "step": 730
    },
    {
      "epoch": 0.0015416666666666667,
      "grad_norm": 1.7792178392410278,
      "learning_rate": 0.00011099999999999999,
      "loss": 4.0953,
      "step": 740
    },
    {
      "epoch": 0.0015625,
      "grad_norm": 1.6663944721221924,
      "learning_rate": 0.0001125,
      "loss": 3.9122,
      "step": 750
    },
    {
      "epoch": 0.0015833333333333333,
      "grad_norm": 1.86878502368927,
      "learning_rate": 0.00011399999999999999,
      "loss": 3.7749,
      "step": 760
    },
    {
      "epoch": 0.0016041666666666667,
      "grad_norm": 1.9254858493804932,
      "learning_rate": 0.00011549999999999999,
      "loss": 3.8661,
      "step": 770
    },
    {
      "epoch": 0.001625,
      "grad_norm": 1.8493620157241821,
      "learning_rate": 0.000117,
      "loss": 3.8769,
      "step": 780
    },
    {
      "epoch": 0.0016458333333333333,
      "grad_norm": 1.7688013315200806,
      "learning_rate": 0.0001185,
      "loss": 3.8536,
      "step": 790
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 1.916062831878662,
      "learning_rate": 0.00011999999999999999,
      "loss": 4.1509,
      "step": 800
    },
    {
      "epoch": 0.0016875,
      "grad_norm": 1.925788164138794,
      "learning_rate": 0.0001215,
      "loss": 4.0038,
      "step": 810
    },
    {
      "epoch": 0.0017083333333333334,
      "grad_norm": 1.761607050895691,
      "learning_rate": 0.00012299999999999998,
      "loss": 4.0914,
      "step": 820
    },
    {
      "epoch": 0.0017291666666666666,
      "grad_norm": 1.664099931716919,
      "learning_rate": 0.0001245,
      "loss": 4.0469,
      "step": 830
    },
    {
      "epoch": 0.00175,
      "grad_norm": 1.8013993501663208,
      "learning_rate": 0.00012599999999999997,
      "loss": 3.8813,
      "step": 840
    },
    {
      "epoch": 0.0017708333333333332,
      "grad_norm": 1.6956766843795776,
      "learning_rate": 0.00012749999999999998,
      "loss": 3.822,
      "step": 850
    },
    {
      "epoch": 0.0017916666666666667,
      "grad_norm": 2.446249008178711,
      "learning_rate": 0.000129,
      "loss": 4.1627,
      "step": 860
    },
    {
      "epoch": 0.0018125,
      "grad_norm": 1.7902626991271973,
      "learning_rate": 0.0001305,
      "loss": 3.9155,
      "step": 870
    },
    {
      "epoch": 0.0018333333333333333,
      "grad_norm": 1.739357590675354,
      "learning_rate": 0.00013199999999999998,
      "loss": 3.9453,
      "step": 880
    },
    {
      "epoch": 0.0018541666666666667,
      "grad_norm": 1.642500638961792,
      "learning_rate": 0.0001335,
      "loss": 3.923,
      "step": 890
    },
    {
      "epoch": 0.001875,
      "grad_norm": 1.722559928894043,
      "learning_rate": 0.000135,
      "loss": 3.6202,
      "step": 900
    },
    {
      "epoch": 0.0018958333333333334,
      "grad_norm": 1.6645526885986328,
      "learning_rate": 0.00013649999999999998,
      "loss": 3.9847,
      "step": 910
    },
    {
      "epoch": 0.0019166666666666666,
      "grad_norm": 1.858047604560852,
      "learning_rate": 0.000138,
      "loss": 3.9687,
      "step": 920
    },
    {
      "epoch": 0.0019375,
      "grad_norm": 1.6346834897994995,
      "learning_rate": 0.0001395,
      "loss": 3.8396,
      "step": 930
    },
    {
      "epoch": 0.001958333333333333,
      "grad_norm": 1.6274609565734863,
      "learning_rate": 0.00014099999999999998,
      "loss": 3.9659,
      "step": 940
    },
    {
      "epoch": 0.001979166666666667,
      "grad_norm": 1.5527580976486206,
      "learning_rate": 0.0001425,
      "loss": 4.1579,
      "step": 950
    },
    {
      "epoch": 0.002,
      "grad_norm": 1.4515953063964844,
      "learning_rate": 0.00014399999999999998,
      "loss": 4.0735,
      "step": 960
    },
    {
      "epoch": 0.0020208333333333332,
      "grad_norm": 1.5999442338943481,
      "learning_rate": 0.00014549999999999999,
      "loss": 3.7239,
      "step": 970
    },
    {
      "epoch": 0.0020416666666666665,
      "grad_norm": 1.4522101879119873,
      "learning_rate": 0.000147,
      "loss": 3.9694,
      "step": 980
    },
    {
      "epoch": 0.0020625,
      "grad_norm": 1.5093501806259155,
      "learning_rate": 0.00014849999999999998,
      "loss": 3.9805,
      "step": 990
    },
    {
      "epoch": 0.0020833333333333333,
      "grad_norm": 1.4990453720092773,
      "learning_rate": 0.00015,
      "loss": 3.9406,
      "step": 1000
    },
    {
      "epoch": 0.0020833333333333333,
      "eval_loss": 4.242117404937744,
      "eval_runtime": 10.3451,
      "eval_samples_per_second": 0.967,
      "eval_steps_per_second": 0.29,
      "step": 1000
    },
    {
      "epoch": 0.0021041666666666665,
      "grad_norm": 1.5953153371810913,
      "learning_rate": 0.0001515,
      "loss": 3.973,
      "step": 1010
    },
    {
      "epoch": 0.002125,
      "grad_norm": 1.5966213941574097,
      "learning_rate": 0.00015299999999999998,
      "loss": 4.0613,
      "step": 1020
    },
    {
      "epoch": 0.0021458333333333334,
      "grad_norm": 1.6065714359283447,
      "learning_rate": 0.0001545,
      "loss": 3.9056,
      "step": 1030
    },
    {
      "epoch": 0.0021666666666666666,
      "grad_norm": 1.5830721855163574,
      "learning_rate": 0.000156,
      "loss": 3.8975,
      "step": 1040
    },
    {
      "epoch": 0.0021875,
      "grad_norm": 2.020400047302246,
      "learning_rate": 0.00015749999999999998,
      "loss": 4.0566,
      "step": 1050
    },
    {
      "epoch": 0.0022083333333333334,
      "grad_norm": 1.5964298248291016,
      "learning_rate": 0.000159,
      "loss": 3.8835,
      "step": 1060
    },
    {
      "epoch": 0.0022291666666666666,
      "grad_norm": 1.416454792022705,
      "learning_rate": 0.0001605,
      "loss": 3.8443,
      "step": 1070
    },
    {
      "epoch": 0.00225,
      "grad_norm": 1.5983104705810547,
      "learning_rate": 0.000162,
      "loss": 3.9339,
      "step": 1080
    },
    {
      "epoch": 0.0022708333333333335,
      "grad_norm": 1.468064785003662,
      "learning_rate": 0.0001635,
      "loss": 3.9165,
      "step": 1090
    },
    {
      "epoch": 0.0022916666666666667,
      "grad_norm": 1.4951664209365845,
      "learning_rate": 0.000165,
      "loss": 4.1157,
      "step": 1100
    },
    {
      "epoch": 0.0023125,
      "grad_norm": 1.4276723861694336,
      "learning_rate": 0.0001665,
      "loss": 4.1812,
      "step": 1110
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 1.5610439777374268,
      "learning_rate": 0.000168,
      "loss": 3.8691,
      "step": 1120
    },
    {
      "epoch": 0.0023541666666666667,
      "grad_norm": 1.53255295753479,
      "learning_rate": 0.00016949999999999997,
      "loss": 3.9833,
      "step": 1130
    },
    {
      "epoch": 0.002375,
      "grad_norm": 1.3743901252746582,
      "learning_rate": 0.00017099999999999998,
      "loss": 4.0057,
      "step": 1140
    },
    {
      "epoch": 0.002395833333333333,
      "grad_norm": 1.3765223026275635,
      "learning_rate": 0.00017249999999999996,
      "loss": 4.0022,
      "step": 1150
    },
    {
      "epoch": 0.002416666666666667,
      "grad_norm": 1.446834683418274,
      "learning_rate": 0.00017399999999999997,
      "loss": 3.9921,
      "step": 1160
    },
    {
      "epoch": 0.0024375,
      "grad_norm": 1.5292930603027344,
      "learning_rate": 0.00017549999999999998,
      "loss": 4.0972,
      "step": 1170
    },
    {
      "epoch": 0.002458333333333333,
      "grad_norm": 2.05924654006958,
      "learning_rate": 0.00017699999999999997,
      "loss": 3.9467,
      "step": 1180
    },
    {
      "epoch": 0.002479166666666667,
      "grad_norm": 1.3823415040969849,
      "learning_rate": 0.00017849999999999997,
      "loss": 3.9854,
      "step": 1190
    },
    {
      "epoch": 0.0025,
      "grad_norm": 1.386183738708496,
      "learning_rate": 0.00017999999999999998,
      "loss": 4.0909,
      "step": 1200
    },
    {
      "epoch": 0.0025208333333333333,
      "grad_norm": 1.5277749300003052,
      "learning_rate": 0.00018149999999999997,
      "loss": 4.3117,
      "step": 1210
    },
    {
      "epoch": 0.0025416666666666665,
      "grad_norm": 1.3108004331588745,
      "learning_rate": 0.00018299999999999998,
      "loss": 4.0516,
      "step": 1220
    },
    {
      "epoch": 0.0025625,
      "grad_norm": 1.484606385231018,
      "learning_rate": 0.00018449999999999999,
      "loss": 4.1339,
      "step": 1230
    },
    {
      "epoch": 0.0025833333333333333,
      "grad_norm": 1.4781019687652588,
      "learning_rate": 0.000186,
      "loss": 4.2401,
      "step": 1240
    },
    {
      "epoch": 0.0026041666666666665,
      "grad_norm": 1.3698230981826782,
      "learning_rate": 0.00018749999999999998,
      "loss": 3.8749,
      "step": 1250
    },
    {
      "epoch": 0.002625,
      "grad_norm": 1.4999946355819702,
      "learning_rate": 0.00018899999999999999,
      "loss": 4.2945,
      "step": 1260
    },
    {
      "epoch": 0.0026458333333333334,
      "grad_norm": 1.264510154724121,
      "learning_rate": 0.0001905,
      "loss": 4.0403,
      "step": 1270
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 1.4496684074401855,
      "learning_rate": 0.00019199999999999998,
      "loss": 3.9182,
      "step": 1280
    },
    {
      "epoch": 0.0026875,
      "grad_norm": 1.4432339668273926,
      "learning_rate": 0.0001935,
      "loss": 4.0175,
      "step": 1290
    },
    {
      "epoch": 0.0027083333333333334,
      "grad_norm": 1.306222677230835,
      "learning_rate": 0.000195,
      "loss": 4.0138,
      "step": 1300
    },
    {
      "epoch": 0.0027291666666666666,
      "grad_norm": 1.4940820932388306,
      "learning_rate": 0.00019649999999999998,
      "loss": 4.0746,
      "step": 1310
    },
    {
      "epoch": 0.00275,
      "grad_norm": 1.342800498008728,
      "learning_rate": 0.000198,
      "loss": 3.9512,
      "step": 1320
    },
    {
      "epoch": 0.0027708333333333335,
      "grad_norm": 1.2622003555297852,
      "learning_rate": 0.0001995,
      "loss": 3.956,
      "step": 1330
    },
    {
      "epoch": 0.0027916666666666667,
      "grad_norm": 1.3727186918258667,
      "learning_rate": 0.000201,
      "loss": 3.9796,
      "step": 1340
    },
    {
      "epoch": 0.0028125,
      "grad_norm": 1.2846344709396362,
      "learning_rate": 0.0002025,
      "loss": 4.0527,
      "step": 1350
    },
    {
      "epoch": 0.0028333333333333335,
      "grad_norm": 1.3601651191711426,
      "learning_rate": 0.000204,
      "loss": 3.9333,
      "step": 1360
    },
    {
      "epoch": 0.0028541666666666667,
      "grad_norm": 1.3182964324951172,
      "learning_rate": 0.0002055,
      "loss": 3.991,
      "step": 1370
    },
    {
      "epoch": 0.002875,
      "grad_norm": 1.363232135772705,
      "learning_rate": 0.00020699999999999996,
      "loss": 4.1472,
      "step": 1380
    },
    {
      "epoch": 0.002895833333333333,
      "grad_norm": 1.6237571239471436,
      "learning_rate": 0.00020849999999999997,
      "loss": 3.9768,
      "step": 1390
    },
    {
      "epoch": 0.002916666666666667,
      "grad_norm": 1.8679720163345337,
      "learning_rate": 0.00020999999999999998,
      "loss": 3.9835,
      "step": 1400
    },
    {
      "epoch": 0.0029375,
      "grad_norm": 1.1690763235092163,
      "learning_rate": 0.00021149999999999996,
      "loss": 4.1292,
      "step": 1410
    },
    {
      "epoch": 0.002958333333333333,
      "grad_norm": 1.364965558052063,
      "learning_rate": 0.00021299999999999997,
      "loss": 3.8245,
      "step": 1420
    },
    {
      "epoch": 0.002979166666666667,
      "grad_norm": 1.122480869293213,
      "learning_rate": 0.00021449999999999998,
      "loss": 4.0,
      "step": 1430
    },
    {
      "epoch": 0.003,
      "grad_norm": 1.2842473983764648,
      "learning_rate": 0.00021599999999999996,
      "loss": 4.0448,
      "step": 1440
    },
    {
      "epoch": 0.0030208333333333333,
      "grad_norm": 1.4669883251190186,
      "learning_rate": 0.00021749999999999997,
      "loss": 4.1627,
      "step": 1450
    },
    {
      "epoch": 0.0030416666666666665,
      "grad_norm": 1.3798481225967407,
      "learning_rate": 0.00021899999999999998,
      "loss": 3.9475,
      "step": 1460
    },
    {
      "epoch": 0.0030625,
      "grad_norm": 1.3747225999832153,
      "learning_rate": 0.00022049999999999997,
      "loss": 3.9597,
      "step": 1470
    },
    {
      "epoch": 0.0030833333333333333,
      "grad_norm": 1.3016811609268188,
      "learning_rate": 0.00022199999999999998,
      "loss": 4.0458,
      "step": 1480
    },
    {
      "epoch": 0.0031041666666666665,
      "grad_norm": 1.2116535902023315,
      "learning_rate": 0.00022349999999999998,
      "loss": 4.1549,
      "step": 1490
    },
    {
      "epoch": 0.003125,
      "grad_norm": 1.475224256515503,
      "learning_rate": 0.000225,
      "loss": 4.0192,
      "step": 1500
    },
    {
      "epoch": 0.0031458333333333334,
      "grad_norm": 1.411436915397644,
      "learning_rate": 0.00022649999999999998,
      "loss": 4.0533,
      "step": 1510
    },
    {
      "epoch": 0.0031666666666666666,
      "grad_norm": 1.175031304359436,
      "learning_rate": 0.00022799999999999999,
      "loss": 3.994,
      "step": 1520
    },
    {
      "epoch": 0.0031875,
      "grad_norm": 1.2909666299819946,
      "learning_rate": 0.0002295,
      "loss": 4.1104,
      "step": 1530
    },
    {
      "epoch": 0.0032083333333333334,
      "grad_norm": 1.1881543397903442,
      "learning_rate": 0.00023099999999999998,
      "loss": 4.1381,
      "step": 1540
    },
    {
      "epoch": 0.0032291666666666666,
      "grad_norm": 1.2744104862213135,
      "learning_rate": 0.00023249999999999999,
      "loss": 4.0251,
      "step": 1550
    },
    {
      "epoch": 0.00325,
      "grad_norm": 1.3131662607192993,
      "learning_rate": 0.000234,
      "loss": 4.167,
      "step": 1560
    },
    {
      "epoch": 0.0032708333333333335,
      "grad_norm": 1.2335139513015747,
      "learning_rate": 0.00023549999999999998,
      "loss": 3.8963,
      "step": 1570
    },
    {
      "epoch": 0.0032916666666666667,
      "grad_norm": 1.1656324863433838,
      "learning_rate": 0.000237,
      "loss": 4.2505,
      "step": 1580
    },
    {
      "epoch": 0.0033125,
      "grad_norm": 1.3538964986801147,
      "learning_rate": 0.0002385,
      "loss": 3.9851,
      "step": 1590
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 1.3212934732437134,
      "learning_rate": 0.00023999999999999998,
      "loss": 4.1367,
      "step": 1600
    },
    {
      "epoch": 0.0033541666666666668,
      "grad_norm": 1.171884298324585,
      "learning_rate": 0.0002415,
      "loss": 4.2488,
      "step": 1610
    },
    {
      "epoch": 0.003375,
      "grad_norm": 1.3764070272445679,
      "learning_rate": 0.000243,
      "loss": 4.1123,
      "step": 1620
    },
    {
      "epoch": 0.003395833333333333,
      "grad_norm": 1.267585277557373,
      "learning_rate": 0.0002445,
      "loss": 4.1675,
      "step": 1630
    },
    {
      "epoch": 0.003416666666666667,
      "grad_norm": 1.3058395385742188,
      "learning_rate": 0.00024599999999999996,
      "loss": 3.8901,
      "step": 1640
    },
    {
      "epoch": 0.0034375,
      "grad_norm": 1.341983675956726,
      "learning_rate": 0.00024749999999999994,
      "loss": 4.0792,
      "step": 1650
    },
    {
      "epoch": 0.0034583333333333332,
      "grad_norm": 1.173112392425537,
      "learning_rate": 0.000249,
      "loss": 3.8471,
      "step": 1660
    },
    {
      "epoch": 0.003479166666666667,
      "grad_norm": 1.409528374671936,
      "learning_rate": 0.00025049999999999996,
      "loss": 4.0386,
      "step": 1670
    },
    {
      "epoch": 0.0035,
      "grad_norm": 1.1081422567367554,
      "learning_rate": 0.00025199999999999995,
      "loss": 4.0552,
      "step": 1680
    },
    {
      "epoch": 0.0035208333333333333,
      "grad_norm": 1.300365924835205,
      "learning_rate": 0.0002535,
      "loss": 4.0157,
      "step": 1690
    },
    {
      "epoch": 0.0035416666666666665,
      "grad_norm": 1.1579424142837524,
      "learning_rate": 0.00025499999999999996,
      "loss": 3.979,
      "step": 1700
    },
    {
      "epoch": 0.0035625,
      "grad_norm": 1.1906883716583252,
      "learning_rate": 0.00025649999999999995,
      "loss": 4.0803,
      "step": 1710
    },
    {
      "epoch": 0.0035833333333333333,
      "grad_norm": 1.1819592714309692,
      "learning_rate": 0.000258,
      "loss": 4.0365,
      "step": 1720
    },
    {
      "epoch": 0.0036041666666666665,
      "grad_norm": 1.3222588300704956,
      "learning_rate": 0.00025949999999999997,
      "loss": 4.0097,
      "step": 1730
    },
    {
      "epoch": 0.003625,
      "grad_norm": 1.2372713088989258,
      "learning_rate": 0.000261,
      "loss": 4.2415,
      "step": 1740
    },
    {
      "epoch": 0.0036458333333333334,
      "grad_norm": 1.192972183227539,
      "learning_rate": 0.0002625,
      "loss": 3.9821,
      "step": 1750
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 1.2455264329910278,
      "learning_rate": 0.00026399999999999997,
      "loss": 4.2005,
      "step": 1760
    },
    {
      "epoch": 0.0036875,
      "grad_norm": 1.2281546592712402,
      "learning_rate": 0.0002655,
      "loss": 3.9592,
      "step": 1770
    },
    {
      "epoch": 0.0037083333333333334,
      "grad_norm": 2.3578450679779053,
      "learning_rate": 0.000267,
      "loss": 4.0041,
      "step": 1780
    },
    {
      "epoch": 0.0037291666666666667,
      "grad_norm": 1.2774590253829956,
      "learning_rate": 0.00026849999999999997,
      "loss": 3.9978,
      "step": 1790
    },
    {
      "epoch": 0.00375,
      "grad_norm": 1.3133232593536377,
      "learning_rate": 0.00027,
      "loss": 4.1734,
      "step": 1800
    },
    {
      "epoch": 0.0037708333333333335,
      "grad_norm": 1.335173487663269,
      "learning_rate": 0.0002715,
      "loss": 4.117,
      "step": 1810
    },
    {
      "epoch": 0.0037916666666666667,
      "grad_norm": 1.1842995882034302,
      "learning_rate": 0.00027299999999999997,
      "loss": 3.9825,
      "step": 1820
    },
    {
      "epoch": 0.0038125,
      "grad_norm": 1.1911958456039429,
      "learning_rate": 0.0002745,
      "loss": 4.1208,
      "step": 1830
    },
    {
      "epoch": 0.003833333333333333,
      "grad_norm": 1.4115355014801025,
      "learning_rate": 0.000276,
      "loss": 4.0871,
      "step": 1840
    },
    {
      "epoch": 0.0038541666666666668,
      "grad_norm": 1.940555214881897,
      "learning_rate": 0.00027749999999999997,
      "loss": 4.0454,
      "step": 1850
    },
    {
      "epoch": 0.003875,
      "grad_norm": 1.300365924835205,
      "learning_rate": 0.000279,
      "loss": 3.9271,
      "step": 1860
    },
    {
      "epoch": 0.003895833333333333,
      "grad_norm": 1.2404224872589111,
      "learning_rate": 0.0002805,
      "loss": 4.0941,
      "step": 1870
    },
    {
      "epoch": 0.003916666666666666,
      "grad_norm": 1.1379237174987793,
      "learning_rate": 0.00028199999999999997,
      "loss": 4.1332,
      "step": 1880
    },
    {
      "epoch": 0.0039375,
      "grad_norm": 1.171494483947754,
      "learning_rate": 0.00028349999999999995,
      "loss": 4.0771,
      "step": 1890
    },
    {
      "epoch": 0.003958333333333334,
      "grad_norm": 1.444305658340454,
      "learning_rate": 0.000285,
      "loss": 4.0065,
      "step": 1900
    },
    {
      "epoch": 0.0039791666666666664,
      "grad_norm": 1.1444891691207886,
      "learning_rate": 0.00028649999999999997,
      "loss": 4.0505,
      "step": 1910
    },
    {
      "epoch": 0.004,
      "grad_norm": 1.1751891374588013,
      "learning_rate": 0.00028799999999999995,
      "loss": 4.04,
      "step": 1920
    },
    {
      "epoch": 0.004020833333333334,
      "grad_norm": 1.3004765510559082,
      "learning_rate": 0.0002895,
      "loss": 4.0351,
      "step": 1930
    },
    {
      "epoch": 0.0040416666666666665,
      "grad_norm": 1.166332721710205,
      "learning_rate": 0.00029099999999999997,
      "loss": 3.8519,
      "step": 1940
    },
    {
      "epoch": 0.0040625,
      "grad_norm": 1.0714452266693115,
      "learning_rate": 0.00029249999999999995,
      "loss": 4.0759,
      "step": 1950
    },
    {
      "epoch": 0.004083333333333333,
      "grad_norm": 1.2121813297271729,
      "learning_rate": 0.000294,
      "loss": 3.9862,
      "step": 1960
    },
    {
      "epoch": 0.0041041666666666666,
      "grad_norm": 1.2187029123306274,
      "learning_rate": 0.00029549999999999997,
      "loss": 4.1827,
      "step": 1970
    },
    {
      "epoch": 0.004125,
      "grad_norm": 1.1891403198242188,
      "learning_rate": 0.00029699999999999996,
      "loss": 4.203,
      "step": 1980
    },
    {
      "epoch": 0.004145833333333333,
      "grad_norm": 1.3048672676086426,
      "learning_rate": 0.0002985,
      "loss": 4.1336,
      "step": 1990
    },
    {
      "epoch": 0.004166666666666667,
      "grad_norm": 1.2116934061050415,
      "learning_rate": 0.0003,
      "loss": 4.1862,
      "step": 2000
    },
    {
      "epoch": 0.004166666666666667,
      "eval_loss": 4.382291316986084,
      "eval_runtime": 10.3886,
      "eval_samples_per_second": 0.963,
      "eval_steps_per_second": 0.289,
      "step": 2000
    },
    {
      "epoch": 0.0041875,
      "grad_norm": 1.0577685832977295,
      "learning_rate": 0.00029999999967602963,
      "loss": 4.2605,
      "step": 2010
    },
    {
      "epoch": 0.004208333333333333,
      "grad_norm": 1.0988579988479614,
      "learning_rate": 0.0002999999987041187,
      "loss": 4.1993,
      "step": 2020
    },
    {
      "epoch": 0.004229166666666667,
      "grad_norm": 1.1419802904129028,
      "learning_rate": 0.00029999999708426716,
      "loss": 4.0242,
      "step": 2030
    },
    {
      "epoch": 0.00425,
      "grad_norm": 1.0286445617675781,
      "learning_rate": 0.000299999994816475,
      "loss": 3.8877,
      "step": 2040
    },
    {
      "epoch": 0.004270833333333333,
      "grad_norm": 1.1018036603927612,
      "learning_rate": 0.0002999999919007422,
      "loss": 4.264,
      "step": 2050
    },
    {
      "epoch": 0.004291666666666667,
      "grad_norm": 1.399141788482666,
      "learning_rate": 0.00029999998833706883,
      "loss": 4.3198,
      "step": 2060
    },
    {
      "epoch": 0.0043125,
      "grad_norm": 1.1172322034835815,
      "learning_rate": 0.0002999999841254549,
      "loss": 4.1278,
      "step": 2070
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 1.2724196910858154,
      "learning_rate": 0.0002999999792659004,
      "loss": 4.2393,
      "step": 2080
    },
    {
      "epoch": 0.004354166666666667,
      "grad_norm": 1.2641189098358154,
      "learning_rate": 0.00029999997375840536,
      "loss": 4.0983,
      "step": 2090
    },
    {
      "epoch": 0.004375,
      "grad_norm": 1.0351061820983887,
      "learning_rate": 0.0002999999676029699,
      "loss": 4.1453,
      "step": 2100
    },
    {
      "epoch": 0.004395833333333333,
      "grad_norm": 1.1754543781280518,
      "learning_rate": 0.00029999996079959376,
      "loss": 4.0488,
      "step": 2110
    },
    {
      "epoch": 0.004416666666666667,
      "grad_norm": 1.1882072687149048,
      "learning_rate": 0.0002999999533482773,
      "loss": 4.0995,
      "step": 2120
    },
    {
      "epoch": 0.0044375,
      "grad_norm": 1.2081167697906494,
      "learning_rate": 0.0002999999452490204,
      "loss": 4.0441,
      "step": 2130
    },
    {
      "epoch": 0.004458333333333333,
      "grad_norm": 1.2373205423355103,
      "learning_rate": 0.0002999999365018231,
      "loss": 4.1271,
      "step": 2140
    },
    {
      "epoch": 0.004479166666666667,
      "grad_norm": 1.3180184364318848,
      "learning_rate": 0.00029999992710668543,
      "loss": 4.152,
      "step": 2150
    },
    {
      "epoch": 0.0045,
      "grad_norm": 1.0901281833648682,
      "learning_rate": 0.00029999991706360747,
      "loss": 4.0374,
      "step": 2160
    },
    {
      "epoch": 0.004520833333333333,
      "grad_norm": 1.6377564668655396,
      "learning_rate": 0.0002999999063725892,
      "loss": 4.0079,
      "step": 2170
    },
    {
      "epoch": 0.004541666666666667,
      "grad_norm": 1.2074567079544067,
      "learning_rate": 0.00029999989503363077,
      "loss": 4.0182,
      "step": 2180
    },
    {
      "epoch": 0.0045625,
      "grad_norm": 1.2036203145980835,
      "learning_rate": 0.00029999988304673216,
      "loss": 3.9318,
      "step": 2190
    },
    {
      "epoch": 0.004583333333333333,
      "grad_norm": 1.0758192539215088,
      "learning_rate": 0.0002999998704118934,
      "loss": 4.1446,
      "step": 2200
    },
    {
      "epoch": 0.004604166666666667,
      "grad_norm": 1.3355058431625366,
      "learning_rate": 0.0002999998571291146,
      "loss": 4.117,
      "step": 2210
    },
    {
      "epoch": 0.004625,
      "grad_norm": 1.189584493637085,
      "learning_rate": 0.0002999998431983958,
      "loss": 4.1027,
      "step": 2220
    },
    {
      "epoch": 0.004645833333333333,
      "grad_norm": 1.054349660873413,
      "learning_rate": 0.000299999828619737,
      "loss": 4.2338,
      "step": 2230
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 1.0139858722686768,
      "learning_rate": 0.00029999981339313834,
      "loss": 4.0107,
      "step": 2240
    },
    {
      "epoch": 0.0046875,
      "grad_norm": 1.1467679738998413,
      "learning_rate": 0.00029999979751859984,
      "loss": 4.2146,
      "step": 2250
    },
    {
      "epoch": 0.0047083333333333335,
      "grad_norm": 1.0526251792907715,
      "learning_rate": 0.00029999978099612163,
      "loss": 4.0815,
      "step": 2260
    },
    {
      "epoch": 0.004729166666666666,
      "grad_norm": 1.1610180139541626,
      "learning_rate": 0.0002999997638257037,
      "loss": 4.002,
      "step": 2270
    },
    {
      "epoch": 0.00475,
      "grad_norm": 1.1730180978775024,
      "learning_rate": 0.0002999997460073462,
      "loss": 4.2205,
      "step": 2280
    },
    {
      "epoch": 0.0047708333333333335,
      "grad_norm": 1.184383511543274,
      "learning_rate": 0.0002999997275410492,
      "loss": 3.9301,
      "step": 2290
    },
    {
      "epoch": 0.004791666666666666,
      "grad_norm": 1.253609299659729,
      "learning_rate": 0.00029999970842681267,
      "loss": 4.3028,
      "step": 2300
    },
    {
      "epoch": 0.0048125,
      "grad_norm": 1.12043297290802,
      "learning_rate": 0.00029999968866463683,
      "loss": 4.1619,
      "step": 2310
    },
    {
      "epoch": 0.004833333333333334,
      "grad_norm": 1.2768105268478394,
      "learning_rate": 0.00029999966825452166,
      "loss": 4.2285,
      "step": 2320
    },
    {
      "epoch": 0.004854166666666666,
      "grad_norm": 1.096865177154541,
      "learning_rate": 0.00029999964719646733,
      "loss": 3.9927,
      "step": 2330
    },
    {
      "epoch": 0.004875,
      "grad_norm": 1.147199273109436,
      "learning_rate": 0.00029999962549047394,
      "loss": 4.1024,
      "step": 2340
    },
    {
      "epoch": 0.004895833333333334,
      "grad_norm": 1.2145557403564453,
      "learning_rate": 0.0002999996031365415,
      "loss": 4.1925,
      "step": 2350
    },
    {
      "epoch": 0.004916666666666666,
      "grad_norm": 1.2878481149673462,
      "learning_rate": 0.00029999958013467013,
      "loss": 4.29,
      "step": 2360
    },
    {
      "epoch": 0.0049375,
      "grad_norm": 1.0913647413253784,
      "learning_rate": 0.00029999955648485994,
      "loss": 4.0452,
      "step": 2370
    },
    {
      "epoch": 0.004958333333333334,
      "grad_norm": 1.0784485340118408,
      "learning_rate": 0.00029999953218711107,
      "loss": 3.9526,
      "step": 2380
    },
    {
      "epoch": 0.0049791666666666665,
      "grad_norm": 1.2260849475860596,
      "learning_rate": 0.0002999995072414236,
      "loss": 4.0098,
      "step": 2390
    },
    {
      "epoch": 0.005,
      "grad_norm": 1.08518648147583,
      "learning_rate": 0.0002999994816477976,
      "loss": 4.2647,
      "step": 2400
    },
    {
      "epoch": 0.005020833333333334,
      "grad_norm": 1.3454649448394775,
      "learning_rate": 0.00029999945540623324,
      "loss": 4.1582,
      "step": 2410
    },
    {
      "epoch": 0.0050416666666666665,
      "grad_norm": 1.1058865785598755,
      "learning_rate": 0.00029999942851673063,
      "loss": 4.2149,
      "step": 2420
    },
    {
      "epoch": 0.0050625,
      "grad_norm": 1.1923335790634155,
      "learning_rate": 0.0002999994009792898,
      "loss": 4.1541,
      "step": 2430
    },
    {
      "epoch": 0.005083333333333333,
      "grad_norm": 1.142852544784546,
      "learning_rate": 0.000299999372793911,
      "loss": 4.0744,
      "step": 2440
    },
    {
      "epoch": 0.005104166666666667,
      "grad_norm": 1.1746304035186768,
      "learning_rate": 0.00029999934396059423,
      "loss": 4.231,
      "step": 2450
    },
    {
      "epoch": 0.005125,
      "grad_norm": 0.9712422490119934,
      "learning_rate": 0.0002999993144793397,
      "loss": 4.3394,
      "step": 2460
    },
    {
      "epoch": 0.005145833333333333,
      "grad_norm": 1.2291202545166016,
      "learning_rate": 0.0002999992843501475,
      "loss": 4.028,
      "step": 2470
    },
    {
      "epoch": 0.005166666666666667,
      "grad_norm": 1.145798683166504,
      "learning_rate": 0.00029999925357301774,
      "loss": 4.114,
      "step": 2480
    },
    {
      "epoch": 0.0051875,
      "grad_norm": 1.0704258680343628,
      "learning_rate": 0.0002999992221479506,
      "loss": 4.3541,
      "step": 2490
    },
    {
      "epoch": 0.005208333333333333,
      "grad_norm": 1.0827873945236206,
      "learning_rate": 0.0002999991900749462,
      "loss": 4.099,
      "step": 2500
    },
    {
      "epoch": 0.005229166666666667,
      "grad_norm": 1.0499145984649658,
      "learning_rate": 0.0002999991573540047,
      "loss": 4.2679,
      "step": 2510
    },
    {
      "epoch": 0.00525,
      "grad_norm": 1.093379259109497,
      "learning_rate": 0.0002999991239851261,
      "loss": 4.1012,
      "step": 2520
    },
    {
      "epoch": 0.005270833333333333,
      "grad_norm": 1.046856164932251,
      "learning_rate": 0.00029999908996831075,
      "loss": 4.2928,
      "step": 2530
    },
    {
      "epoch": 0.005291666666666667,
      "grad_norm": 1.163751482963562,
      "learning_rate": 0.0002999990553035587,
      "loss": 4.3245,
      "step": 2540
    },
    {
      "epoch": 0.0053125,
      "grad_norm": 1.4320194721221924,
      "learning_rate": 0.00029999901999087014,
      "loss": 3.9341,
      "step": 2550
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 1.0278105735778809,
      "learning_rate": 0.0002999989840302451,
      "loss": 4.1493,
      "step": 2560
    },
    {
      "epoch": 0.005354166666666667,
      "grad_norm": 1.0652390718460083,
      "learning_rate": 0.00029999894742168385,
      "loss": 4.194,
      "step": 2570
    },
    {
      "epoch": 0.005375,
      "grad_norm": 1.0480515956878662,
      "learning_rate": 0.0002999989101651866,
      "loss": 3.9721,
      "step": 2580
    },
    {
      "epoch": 0.005395833333333333,
      "grad_norm": 1.142817497253418,
      "learning_rate": 0.0002999988722607533,
      "loss": 3.9859,
      "step": 2590
    },
    {
      "epoch": 0.005416666666666667,
      "grad_norm": 1.164863109588623,
      "learning_rate": 0.00029999883370838434,
      "loss": 4.058,
      "step": 2600
    },
    {
      "epoch": 0.0054375,
      "grad_norm": 1.197238802909851,
      "learning_rate": 0.00029999879450807977,
      "loss": 3.9827,
      "step": 2610
    },
    {
      "epoch": 0.005458333333333333,
      "grad_norm": 1.0357304811477661,
      "learning_rate": 0.00029999875465983977,
      "loss": 4.1392,
      "step": 2620
    },
    {
      "epoch": 0.005479166666666667,
      "grad_norm": 1.1916322708129883,
      "learning_rate": 0.00029999871416366456,
      "loss": 4.19,
      "step": 2630
    },
    {
      "epoch": 0.0055,
      "grad_norm": 4.384791374206543,
      "learning_rate": 0.00029999867301955425,
      "loss": 4.0635,
      "step": 2640
    },
    {
      "epoch": 0.005520833333333333,
      "grad_norm": 1.0943084955215454,
      "learning_rate": 0.000299998631227509,
      "loss": 4.1459,
      "step": 2650
    },
    {
      "epoch": 0.005541666666666667,
      "grad_norm": 0.9524834752082825,
      "learning_rate": 0.0002999985887875291,
      "loss": 4.0846,
      "step": 2660
    },
    {
      "epoch": 0.0055625,
      "grad_norm": 1.2036954164505005,
      "learning_rate": 0.00029999854569961467,
      "loss": 4.0522,
      "step": 2670
    },
    {
      "epoch": 0.005583333333333333,
      "grad_norm": 1.0524048805236816,
      "learning_rate": 0.00029999850196376585,
      "loss": 4.1405,
      "step": 2680
    },
    {
      "epoch": 0.005604166666666667,
      "grad_norm": 0.9235457181930542,
      "learning_rate": 0.0002999984575799829,
      "loss": 4.2421,
      "step": 2690
    },
    {
      "epoch": 0.005625,
      "grad_norm": 1.0990880727767944,
      "learning_rate": 0.000299998412548266,
      "loss": 4.282,
      "step": 2700
    },
    {
      "epoch": 0.005645833333333333,
      "grad_norm": 0.926478922367096,
      "learning_rate": 0.0002999983668686153,
      "loss": 4.2851,
      "step": 2710
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 1.0308059453964233,
      "learning_rate": 0.00029999832054103105,
      "loss": 4.1306,
      "step": 2720
    },
    {
      "epoch": 0.0056875,
      "grad_norm": 1.2634823322296143,
      "learning_rate": 0.00029999827356551345,
      "loss": 4.1079,
      "step": 2730
    },
    {
      "epoch": 0.0057083333333333335,
      "grad_norm": 1.12738835811615,
      "learning_rate": 0.0002999982259420627,
      "loss": 4.0866,
      "step": 2740
    },
    {
      "epoch": 0.005729166666666666,
      "grad_norm": 1.2450400590896606,
      "learning_rate": 0.00029999817767067895,
      "loss": 4.1577,
      "step": 2750
    },
    {
      "epoch": 0.00575,
      "grad_norm": 1.7179460525512695,
      "learning_rate": 0.0002999981287513624,
      "loss": 4.146,
      "step": 2760
    },
    {
      "epoch": 0.0057708333333333335,
      "grad_norm": 1.095332384109497,
      "learning_rate": 0.00029999807918411336,
      "loss": 4.1192,
      "step": 2770
    },
    {
      "epoch": 0.005791666666666666,
      "grad_norm": 1.1595033407211304,
      "learning_rate": 0.00029999802896893196,
      "loss": 4.1392,
      "step": 2780
    },
    {
      "epoch": 0.0058125,
      "grad_norm": 1.1099618673324585,
      "learning_rate": 0.0002999979781058185,
      "loss": 4.1111,
      "step": 2790
    },
    {
      "epoch": 0.005833333333333334,
      "grad_norm": 0.9408655166625977,
      "learning_rate": 0.0002999979265947731,
      "loss": 4.1332,
      "step": 2800
    },
    {
      "epoch": 0.005854166666666666,
      "grad_norm": 1.1000653505325317,
      "learning_rate": 0.00029999787443579605,
      "loss": 4.4146,
      "step": 2810
    },
    {
      "epoch": 0.005875,
      "grad_norm": 1.7831401824951172,
      "learning_rate": 0.0002999978216288876,
      "loss": 4.1126,
      "step": 2820
    },
    {
      "epoch": 0.005895833333333334,
      "grad_norm": 1.0727406740188599,
      "learning_rate": 0.00029999776817404784,
      "loss": 4.0295,
      "step": 2830
    },
    {
      "epoch": 0.005916666666666666,
      "grad_norm": 1.111051082611084,
      "learning_rate": 0.0002999977140712772,
      "loss": 4.0813,
      "step": 2840
    },
    {
      "epoch": 0.0059375,
      "grad_norm": 1.1414178609848022,
      "learning_rate": 0.0002999976593205757,
      "loss": 4.1177,
      "step": 2850
    },
    {
      "epoch": 0.005958333333333334,
      "grad_norm": 0.964155912399292,
      "learning_rate": 0.00029999760392194374,
      "loss": 4.1353,
      "step": 2860
    },
    {
      "epoch": 0.0059791666666666665,
      "grad_norm": 0.9044974446296692,
      "learning_rate": 0.0002999975478753815,
      "loss": 4.2462,
      "step": 2870
    },
    {
      "epoch": 0.006,
      "grad_norm": 1.0221383571624756,
      "learning_rate": 0.00029999749118088924,
      "loss": 4.1503,
      "step": 2880
    },
    {
      "epoch": 0.006020833333333334,
      "grad_norm": 0.9620047211647034,
      "learning_rate": 0.0002999974338384672,
      "loss": 4.0076,
      "step": 2890
    },
    {
      "epoch": 0.0060416666666666665,
      "grad_norm": 0.9373981356620789,
      "learning_rate": 0.0002999973758481156,
      "loss": 4.2175,
      "step": 2900
    },
    {
      "epoch": 0.0060625,
      "grad_norm": 1.0862994194030762,
      "learning_rate": 0.00029999731720983466,
      "loss": 4.0353,
      "step": 2910
    },
    {
      "epoch": 0.006083333333333333,
      "grad_norm": 1.1491087675094604,
      "learning_rate": 0.00029999725792362477,
      "loss": 4.1164,
      "step": 2920
    },
    {
      "epoch": 0.006104166666666667,
      "grad_norm": 1.0262116193771362,
      "learning_rate": 0.000299997197989486,
      "loss": 4.0479,
      "step": 2930
    },
    {
      "epoch": 0.006125,
      "grad_norm": 1.1843056678771973,
      "learning_rate": 0.0002999971374074188,
      "loss": 4.1838,
      "step": 2940
    },
    {
      "epoch": 0.006145833333333333,
      "grad_norm": 1.049102544784546,
      "learning_rate": 0.0002999970761774233,
      "loss": 4.1142,
      "step": 2950
    },
    {
      "epoch": 0.006166666666666667,
      "grad_norm": 0.9689348936080933,
      "learning_rate": 0.0002999970142994998,
      "loss": 4.1138,
      "step": 2960
    },
    {
      "epoch": 0.0061875,
      "grad_norm": 1.0530732870101929,
      "learning_rate": 0.0002999969517736486,
      "loss": 4.29,
      "step": 2970
    },
    {
      "epoch": 0.006208333333333333,
      "grad_norm": 1.7195388078689575,
      "learning_rate": 0.0002999968885998699,
      "loss": 4.1257,
      "step": 2980
    },
    {
      "epoch": 0.006229166666666667,
      "grad_norm": 1.0450174808502197,
      "learning_rate": 0.000299996824778164,
      "loss": 4.1088,
      "step": 2990
    },
    {
      "epoch": 0.00625,
      "grad_norm": 1.228456735610962,
      "learning_rate": 0.00029999676030853127,
      "loss": 4.2825,
      "step": 3000
    },
    {
      "epoch": 0.00625,
      "eval_loss": 4.378960609436035,
      "eval_runtime": 8.8477,
      "eval_samples_per_second": 1.13,
      "eval_steps_per_second": 0.339,
      "step": 3000
    },
    {
      "epoch": 0.006270833333333333,
      "grad_norm": 1.0226293802261353,
      "learning_rate": 0.00029999669519097187,
      "loss": 4.0176,
      "step": 3010
    },
    {
      "epoch": 0.006291666666666667,
      "grad_norm": 1.0989165306091309,
      "learning_rate": 0.0002999966294254861,
      "loss": 4.0433,
      "step": 3020
    },
    {
      "epoch": 0.0063125,
      "grad_norm": 1.1580628156661987,
      "learning_rate": 0.00029999656301207426,
      "loss": 4.2991,
      "step": 3030
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 1.0603053569793701,
      "learning_rate": 0.0002999964959507367,
      "loss": 4.2655,
      "step": 3040
    },
    {
      "epoch": 0.006354166666666667,
      "grad_norm": 1.0689760446548462,
      "learning_rate": 0.00029999642824147355,
      "loss": 4.2025,
      "step": 3050
    },
    {
      "epoch": 0.006375,
      "grad_norm": 0.9069424867630005,
      "learning_rate": 0.00029999635988428526,
      "loss": 4.1641,
      "step": 3060
    },
    {
      "epoch": 0.006395833333333333,
      "grad_norm": 1.004957914352417,
      "learning_rate": 0.0002999962908791721,
      "loss": 4.0479,
      "step": 3070
    },
    {
      "epoch": 0.006416666666666667,
      "grad_norm": 1.0289911031723022,
      "learning_rate": 0.0002999962212261343,
      "loss": 4.2761,
      "step": 3080
    },
    {
      "epoch": 0.0064375,
      "grad_norm": 1.219789981842041,
      "learning_rate": 0.0002999961509251722,
      "loss": 4.1492,
      "step": 3090
    },
    {
      "epoch": 0.006458333333333333,
      "grad_norm": 1.4861950874328613,
      "learning_rate": 0.0002999960799762861,
      "loss": 4.0238,
      "step": 3100
    },
    {
      "epoch": 0.006479166666666667,
      "grad_norm": 0.96826171875,
      "learning_rate": 0.00029999600837947633,
      "loss": 4.1346,
      "step": 3110
    },
    {
      "epoch": 0.0065,
      "grad_norm": 1.0257459878921509,
      "learning_rate": 0.00029999593613474313,
      "loss": 4.0958,
      "step": 3120
    },
    {
      "epoch": 0.006520833333333333,
      "grad_norm": 1.6640087366104126,
      "learning_rate": 0.00029999586324208687,
      "loss": 3.9899,
      "step": 3130
    },
    {
      "epoch": 0.006541666666666667,
      "grad_norm": 1.0861214399337769,
      "learning_rate": 0.0002999957897015079,
      "loss": 3.9649,
      "step": 3140
    },
    {
      "epoch": 0.0065625,
      "grad_norm": 0.9673305153846741,
      "learning_rate": 0.00029999571551300643,
      "loss": 4.0539,
      "step": 3150
    },
    {
      "epoch": 0.006583333333333333,
      "grad_norm": 0.9759741425514221,
      "learning_rate": 0.0002999956406765829,
      "loss": 4.0037,
      "step": 3160
    },
    {
      "epoch": 0.006604166666666667,
      "grad_norm": 1.2089710235595703,
      "learning_rate": 0.0002999955651922376,
      "loss": 4.0834,
      "step": 3170
    },
    {
      "epoch": 0.006625,
      "grad_norm": 1.2135523557662964,
      "learning_rate": 0.00029999548905997075,
      "loss": 4.2219,
      "step": 3180
    },
    {
      "epoch": 0.0066458333333333335,
      "grad_norm": 0.9745142459869385,
      "learning_rate": 0.00029999541227978275,
      "loss": 4.1502,
      "step": 3190
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 0.9930278658866882,
      "learning_rate": 0.00029999533485167395,
      "loss": 4.0187,
      "step": 3200
    },
    {
      "epoch": 0.0066875,
      "grad_norm": 0.9936468601226807,
      "learning_rate": 0.0002999952567756447,
      "loss": 3.9984,
      "step": 3210
    },
    {
      "epoch": 0.0067083333333333335,
      "grad_norm": 1.0657151937484741,
      "learning_rate": 0.00029999517805169535,
      "loss": 3.9239,
      "step": 3220
    },
    {
      "epoch": 0.006729166666666666,
      "grad_norm": 1.2029967308044434,
      "learning_rate": 0.00029999509867982614,
      "loss": 4.0249,
      "step": 3230
    },
    {
      "epoch": 0.00675,
      "grad_norm": 1.0581333637237549,
      "learning_rate": 0.00029999501866003755,
      "loss": 4.1263,
      "step": 3240
    },
    {
      "epoch": 0.0067708333333333336,
      "grad_norm": 0.9429060220718384,
      "learning_rate": 0.00029999493799232974,
      "loss": 4.1181,
      "step": 3250
    },
    {
      "epoch": 0.006791666666666666,
      "grad_norm": 1.3834877014160156,
      "learning_rate": 0.00029999485667670325,
      "loss": 4.0355,
      "step": 3260
    },
    {
      "epoch": 0.0068125,
      "grad_norm": 1.0421152114868164,
      "learning_rate": 0.00029999477471315836,
      "loss": 4.0786,
      "step": 3270
    },
    {
      "epoch": 0.006833333333333334,
      "grad_norm": 0.9363729953765869,
      "learning_rate": 0.00029999469210169533,
      "loss": 4.2617,
      "step": 3280
    },
    {
      "epoch": 0.006854166666666666,
      "grad_norm": 0.9872600436210632,
      "learning_rate": 0.0002999946088423147,
      "loss": 4.3244,
      "step": 3290
    },
    {
      "epoch": 0.006875,
      "grad_norm": 0.9648100137710571,
      "learning_rate": 0.0002999945249350167,
      "loss": 4.209,
      "step": 3300
    },
    {
      "epoch": 0.006895833333333334,
      "grad_norm": 0.9150853157043457,
      "learning_rate": 0.00029999444037980173,
      "loss": 4.1278,
      "step": 3310
    },
    {
      "epoch": 0.0069166666666666664,
      "grad_norm": 1.055658221244812,
      "learning_rate": 0.0002999943551766701,
      "loss": 4.0166,
      "step": 3320
    },
    {
      "epoch": 0.0069375,
      "grad_norm": 1.0330820083618164,
      "learning_rate": 0.0002999942693256223,
      "loss": 3.9702,
      "step": 3330
    },
    {
      "epoch": 0.006958333333333334,
      "grad_norm": 1.051222801208496,
      "learning_rate": 0.00029999418282665864,
      "loss": 3.9864,
      "step": 3340
    },
    {
      "epoch": 0.0069791666666666665,
      "grad_norm": 1.012973427772522,
      "learning_rate": 0.00029999409567977935,
      "loss": 3.9872,
      "step": 3350
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.0198677778244019,
      "learning_rate": 0.0002999940078849851,
      "loss": 4.0731,
      "step": 3360
    },
    {
      "epoch": 0.007020833333333333,
      "grad_norm": 0.8081440925598145,
      "learning_rate": 0.000299993919442276,
      "loss": 4.1988,
      "step": 3370
    },
    {
      "epoch": 0.0070416666666666666,
      "grad_norm": 0.9568122029304504,
      "learning_rate": 0.0002999938303516526,
      "loss": 4.0705,
      "step": 3380
    },
    {
      "epoch": 0.0070625,
      "grad_norm": 1.230553150177002,
      "learning_rate": 0.0002999937406131152,
      "loss": 4.1092,
      "step": 3390
    },
    {
      "epoch": 0.007083333333333333,
      "grad_norm": 1.1079275608062744,
      "learning_rate": 0.00029999365022666415,
      "loss": 4.2416,
      "step": 3400
    },
    {
      "epoch": 0.007104166666666667,
      "grad_norm": 0.9667612910270691,
      "learning_rate": 0.00029999355919229997,
      "loss": 4.194,
      "step": 3410
    },
    {
      "epoch": 0.007125,
      "grad_norm": 1.2702641487121582,
      "learning_rate": 0.00029999346751002296,
      "loss": 4.179,
      "step": 3420
    },
    {
      "epoch": 0.007145833333333333,
      "grad_norm": 1.158349871635437,
      "learning_rate": 0.00029999337517983357,
      "loss": 3.9772,
      "step": 3430
    },
    {
      "epoch": 0.007166666666666667,
      "grad_norm": 1.153567910194397,
      "learning_rate": 0.00029999328220173217,
      "loss": 3.9881,
      "step": 3440
    },
    {
      "epoch": 0.0071875,
      "grad_norm": 0.9724677801132202,
      "learning_rate": 0.0002999931885757192,
      "loss": 4.0156,
      "step": 3450
    },
    {
      "epoch": 0.007208333333333333,
      "grad_norm": 0.9752664566040039,
      "learning_rate": 0.0002999930943017949,
      "loss": 4.0632,
      "step": 3460
    },
    {
      "epoch": 0.007229166666666667,
      "grad_norm": 1.0466904640197754,
      "learning_rate": 0.00029999299937995993,
      "loss": 4.1103,
      "step": 3470
    },
    {
      "epoch": 0.00725,
      "grad_norm": 1.1763368844985962,
      "learning_rate": 0.0002999929038102145,
      "loss": 3.9864,
      "step": 3480
    },
    {
      "epoch": 0.007270833333333333,
      "grad_norm": 1.0249053239822388,
      "learning_rate": 0.00029999280759255913,
      "loss": 4.1273,
      "step": 3490
    },
    {
      "epoch": 0.007291666666666667,
      "grad_norm": 1.0555284023284912,
      "learning_rate": 0.0002999927107269942,
      "loss": 4.0869,
      "step": 3500
    },
    {
      "epoch": 0.0073125,
      "grad_norm": 0.8717091083526611,
      "learning_rate": 0.0002999926132135202,
      "loss": 4.1583,
      "step": 3510
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 0.9739394187927246,
      "learning_rate": 0.00029999251505213734,
      "loss": 4.0874,
      "step": 3520
    },
    {
      "epoch": 0.007354166666666667,
      "grad_norm": 1.0422697067260742,
      "learning_rate": 0.00029999241624284624,
      "loss": 4.2855,
      "step": 3530
    },
    {
      "epoch": 0.007375,
      "grad_norm": 0.8878806233406067,
      "learning_rate": 0.0002999923167856473,
      "loss": 4.0969,
      "step": 3540
    },
    {
      "epoch": 0.007395833333333333,
      "grad_norm": 0.9929745197296143,
      "learning_rate": 0.0002999922166805409,
      "loss": 4.181,
      "step": 3550
    },
    {
      "epoch": 0.007416666666666667,
      "grad_norm": 1.059216022491455,
      "learning_rate": 0.0002999921159275275,
      "loss": 4.0431,
      "step": 3560
    },
    {
      "epoch": 0.0074375,
      "grad_norm": 0.9647489190101624,
      "learning_rate": 0.0002999920145266076,
      "loss": 3.9452,
      "step": 3570
    },
    {
      "epoch": 0.007458333333333333,
      "grad_norm": 0.9883825182914734,
      "learning_rate": 0.0002999919124777815,
      "loss": 3.9943,
      "step": 3580
    },
    {
      "epoch": 0.007479166666666667,
      "grad_norm": 1.7491518259048462,
      "learning_rate": 0.00029999180978104966,
      "loss": 4.2686,
      "step": 3590
    },
    {
      "epoch": 0.0075,
      "grad_norm": 0.9396332502365112,
      "learning_rate": 0.00029999170643641267,
      "loss": 4.0992,
      "step": 3600
    },
    {
      "epoch": 0.007520833333333333,
      "grad_norm": 1.0325697660446167,
      "learning_rate": 0.0002999916024438708,
      "loss": 4.0462,
      "step": 3610
    },
    {
      "epoch": 0.007541666666666667,
      "grad_norm": 1.132477879524231,
      "learning_rate": 0.0002999914978034246,
      "loss": 4.0857,
      "step": 3620
    },
    {
      "epoch": 0.0075625,
      "grad_norm": 0.9360105395317078,
      "learning_rate": 0.0002999913925150746,
      "loss": 4.1431,
      "step": 3630
    },
    {
      "epoch": 0.007583333333333333,
      "grad_norm": 1.0355085134506226,
      "learning_rate": 0.000299991286578821,
      "loss": 4.0801,
      "step": 3640
    },
    {
      "epoch": 0.007604166666666667,
      "grad_norm": 1.011344313621521,
      "learning_rate": 0.0002999911799946645,
      "loss": 4.0594,
      "step": 3650
    },
    {
      "epoch": 0.007625,
      "grad_norm": 1.94801926612854,
      "learning_rate": 0.00029999107276260545,
      "loss": 3.8672,
      "step": 3660
    },
    {
      "epoch": 0.0076458333333333335,
      "grad_norm": 1.0276235342025757,
      "learning_rate": 0.00029999096488264436,
      "loss": 4.2793,
      "step": 3670
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 1.0639641284942627,
      "learning_rate": 0.00029999085635478166,
      "loss": 4.1022,
      "step": 3680
    },
    {
      "epoch": 0.0076875,
      "grad_norm": 1.0312830209732056,
      "learning_rate": 0.0002999907471790178,
      "loss": 4.1329,
      "step": 3690
    },
    {
      "epoch": 0.0077083333333333335,
      "grad_norm": 0.9456416368484497,
      "learning_rate": 0.0002999906373553533,
      "loss": 4.1512,
      "step": 3700
    },
    {
      "epoch": 0.007729166666666666,
      "grad_norm": 1.0327266454696655,
      "learning_rate": 0.00029999052688378864,
      "loss": 4.0437,
      "step": 3710
    },
    {
      "epoch": 0.00775,
      "grad_norm": 1.0199079513549805,
      "learning_rate": 0.00029999041576432426,
      "loss": 4.1266,
      "step": 3720
    },
    {
      "epoch": 0.007770833333333334,
      "grad_norm": 0.9087216854095459,
      "learning_rate": 0.00029999030399696067,
      "loss": 4.0776,
      "step": 3730
    },
    {
      "epoch": 0.007791666666666666,
      "grad_norm": 1.1087385416030884,
      "learning_rate": 0.0002999901915816983,
      "loss": 4.2229,
      "step": 3740
    },
    {
      "epoch": 0.0078125,
      "grad_norm": 0.8982157707214355,
      "learning_rate": 0.0002999900785185377,
      "loss": 4.1174,
      "step": 3750
    },
    {
      "epoch": 0.007833333333333333,
      "grad_norm": 0.8922094106674194,
      "learning_rate": 0.0002999899648074793,
      "loss": 4.1664,
      "step": 3760
    },
    {
      "epoch": 0.007854166666666667,
      "grad_norm": 0.9248464107513428,
      "learning_rate": 0.00029998985044852363,
      "loss": 3.9535,
      "step": 3770
    },
    {
      "epoch": 0.007875,
      "grad_norm": 1.0945724248886108,
      "learning_rate": 0.0002999897354416712,
      "loss": 4.0894,
      "step": 3780
    },
    {
      "epoch": 0.007895833333333333,
      "grad_norm": 1.1510943174362183,
      "learning_rate": 0.0002999896197869225,
      "loss": 4.1383,
      "step": 3790
    },
    {
      "epoch": 0.007916666666666667,
      "grad_norm": 1.1635935306549072,
      "learning_rate": 0.000299989503484278,
      "loss": 4.1987,
      "step": 3800
    },
    {
      "epoch": 0.0079375,
      "grad_norm": 0.8856581449508667,
      "learning_rate": 0.0002999893865337382,
      "loss": 4.2426,
      "step": 3810
    },
    {
      "epoch": 0.007958333333333333,
      "grad_norm": 0.9936603903770447,
      "learning_rate": 0.00029998926893530357,
      "loss": 4.0476,
      "step": 3820
    },
    {
      "epoch": 0.007979166666666667,
      "grad_norm": 1.0611181259155273,
      "learning_rate": 0.0002999891506889747,
      "loss": 4.0121,
      "step": 3830
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.9917404651641846,
      "learning_rate": 0.0002999890317947521,
      "loss": 4.1045,
      "step": 3840
    },
    {
      "epoch": 0.008020833333333333,
      "grad_norm": 0.9718139171600342,
      "learning_rate": 0.0002999889122526363,
      "loss": 4.0057,
      "step": 3850
    },
    {
      "epoch": 0.008041666666666667,
      "grad_norm": 0.9431995749473572,
      "learning_rate": 0.00029998879206262767,
      "loss": 3.978,
      "step": 3860
    },
    {
      "epoch": 0.0080625,
      "grad_norm": 0.9864229559898376,
      "learning_rate": 0.0002999886712247269,
      "loss": 4.0648,
      "step": 3870
    },
    {
      "epoch": 0.008083333333333333,
      "grad_norm": 0.941291868686676,
      "learning_rate": 0.0002999885497389344,
      "loss": 3.9596,
      "step": 3880
    },
    {
      "epoch": 0.008104166666666668,
      "grad_norm": 0.9219740033149719,
      "learning_rate": 0.00029998842760525074,
      "loss": 3.9756,
      "step": 3890
    },
    {
      "epoch": 0.008125,
      "grad_norm": 0.9785711169242859,
      "learning_rate": 0.00029998830482367645,
      "loss": 4.0041,
      "step": 3900
    },
    {
      "epoch": 0.008145833333333333,
      "grad_norm": 1.0201159715652466,
      "learning_rate": 0.00029998818139421204,
      "loss": 3.9864,
      "step": 3910
    },
    {
      "epoch": 0.008166666666666666,
      "grad_norm": 0.9140158891677856,
      "learning_rate": 0.0002999880573168581,
      "loss": 4.0738,
      "step": 3920
    },
    {
      "epoch": 0.0081875,
      "grad_norm": 1.0216072797775269,
      "learning_rate": 0.00029998793259161503,
      "loss": 4.0114,
      "step": 3930
    },
    {
      "epoch": 0.008208333333333333,
      "grad_norm": 1.4922420978546143,
      "learning_rate": 0.00029998780721848356,
      "loss": 4.1293,
      "step": 3940
    },
    {
      "epoch": 0.008229166666666666,
      "grad_norm": 1.0311052799224854,
      "learning_rate": 0.00029998768119746404,
      "loss": 4.2765,
      "step": 3950
    },
    {
      "epoch": 0.00825,
      "grad_norm": 1.01318359375,
      "learning_rate": 0.0002999875545285572,
      "loss": 4.221,
      "step": 3960
    },
    {
      "epoch": 0.008270833333333333,
      "grad_norm": 1.1478917598724365,
      "learning_rate": 0.0002999874272117634,
      "loss": 4.2538,
      "step": 3970
    },
    {
      "epoch": 0.008291666666666666,
      "grad_norm": 0.9388420581817627,
      "learning_rate": 0.0002999872992470833,
      "loss": 4.1074,
      "step": 3980
    },
    {
      "epoch": 0.0083125,
      "grad_norm": 0.9623293876647949,
      "learning_rate": 0.0002999871706345175,
      "loss": 4.1475,
      "step": 3990
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 0.9232184886932373,
      "learning_rate": 0.0002999870413740665,
      "loss": 4.1645,
      "step": 4000
    },
    {
      "epoch": 0.008333333333333333,
      "eval_loss": 4.344626426696777,
      "eval_runtime": 8.8815,
      "eval_samples_per_second": 1.126,
      "eval_steps_per_second": 0.338,
      "step": 4000
    },
    {
      "epoch": 0.008354166666666666,
      "grad_norm": 1.1243256330490112,
      "learning_rate": 0.00029998691146573077,
      "loss": 4.1855,
      "step": 4010
    },
    {
      "epoch": 0.008375,
      "grad_norm": 1.0673884153366089,
      "learning_rate": 0.000299986780909511,
      "loss": 4.1537,
      "step": 4020
    },
    {
      "epoch": 0.008395833333333333,
      "grad_norm": 1.016884684562683,
      "learning_rate": 0.00029998664970540766,
      "loss": 4.1361,
      "step": 4030
    },
    {
      "epoch": 0.008416666666666666,
      "grad_norm": 1.143649935722351,
      "learning_rate": 0.0002999865178534214,
      "loss": 4.2514,
      "step": 4040
    },
    {
      "epoch": 0.0084375,
      "grad_norm": 0.955266535282135,
      "learning_rate": 0.0002999863853535528,
      "loss": 4.0963,
      "step": 4050
    },
    {
      "epoch": 0.008458333333333333,
      "grad_norm": 0.9963364601135254,
      "learning_rate": 0.00029998625220580233,
      "loss": 4.1306,
      "step": 4060
    },
    {
      "epoch": 0.008479166666666666,
      "grad_norm": 1.0318132638931274,
      "learning_rate": 0.00029998611841017064,
      "loss": 4.0334,
      "step": 4070
    },
    {
      "epoch": 0.0085,
      "grad_norm": 1.06947660446167,
      "learning_rate": 0.00029998598396665827,
      "loss": 4.0345,
      "step": 4080
    },
    {
      "epoch": 0.008520833333333333,
      "grad_norm": 0.7951093912124634,
      "learning_rate": 0.0002999858488752658,
      "loss": 4.0281,
      "step": 4090
    },
    {
      "epoch": 0.008541666666666666,
      "grad_norm": 1.0295147895812988,
      "learning_rate": 0.00029998571313599384,
      "loss": 3.9276,
      "step": 4100
    },
    {
      "epoch": 0.0085625,
      "grad_norm": 1.0354214906692505,
      "learning_rate": 0.000299985576748843,
      "loss": 4.0168,
      "step": 4110
    },
    {
      "epoch": 0.008583333333333333,
      "grad_norm": 1.069574236869812,
      "learning_rate": 0.0002999854397138138,
      "loss": 4.0646,
      "step": 4120
    },
    {
      "epoch": 0.008604166666666666,
      "grad_norm": 0.9855145215988159,
      "learning_rate": 0.0002999853020309069,
      "loss": 4.1169,
      "step": 4130
    },
    {
      "epoch": 0.008625,
      "grad_norm": 0.9590917825698853,
      "learning_rate": 0.00029998516370012286,
      "loss": 4.3467,
      "step": 4140
    },
    {
      "epoch": 0.008645833333333333,
      "grad_norm": 1.0236679315567017,
      "learning_rate": 0.00029998502472146224,
      "loss": 4.0406,
      "step": 4150
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 1.089318871498108,
      "learning_rate": 0.00029998488509492573,
      "loss": 4.0066,
      "step": 4160
    },
    {
      "epoch": 0.0086875,
      "grad_norm": 0.9119101762771606,
      "learning_rate": 0.00029998474482051385,
      "loss": 4.0957,
      "step": 4170
    },
    {
      "epoch": 0.008708333333333334,
      "grad_norm": 0.9008681774139404,
      "learning_rate": 0.00029998460389822726,
      "loss": 4.0443,
      "step": 4180
    },
    {
      "epoch": 0.008729166666666666,
      "grad_norm": 1.3638948202133179,
      "learning_rate": 0.00029998446232806656,
      "loss": 4.1917,
      "step": 4190
    },
    {
      "epoch": 0.00875,
      "grad_norm": 1.1425158977508545,
      "learning_rate": 0.00029998432011003233,
      "loss": 4.0617,
      "step": 4200
    },
    {
      "epoch": 0.008770833333333334,
      "grad_norm": 1.031792163848877,
      "learning_rate": 0.0002999841772441252,
      "loss": 3.9981,
      "step": 4210
    },
    {
      "epoch": 0.008791666666666666,
      "grad_norm": 1.0319832563400269,
      "learning_rate": 0.00029998403373034577,
      "loss": 3.9967,
      "step": 4220
    },
    {
      "epoch": 0.0088125,
      "grad_norm": 0.9644712805747986,
      "learning_rate": 0.0002999838895686947,
      "loss": 4.1769,
      "step": 4230
    },
    {
      "epoch": 0.008833333333333334,
      "grad_norm": 1.019997477531433,
      "learning_rate": 0.00029998374475917266,
      "loss": 4.052,
      "step": 4240
    },
    {
      "epoch": 0.008854166666666666,
      "grad_norm": 1.0303020477294922,
      "learning_rate": 0.0002999835993017801,
      "loss": 4.143,
      "step": 4250
    },
    {
      "epoch": 0.008875,
      "grad_norm": 0.9148163795471191,
      "learning_rate": 0.00029998345319651783,
      "loss": 4.1927,
      "step": 4260
    },
    {
      "epoch": 0.008895833333333334,
      "grad_norm": 0.8995682597160339,
      "learning_rate": 0.00029998330644338643,
      "loss": 4.0264,
      "step": 4270
    },
    {
      "epoch": 0.008916666666666666,
      "grad_norm": 0.9485030770301819,
      "learning_rate": 0.00029998315904238644,
      "loss": 4.2882,
      "step": 4280
    },
    {
      "epoch": 0.0089375,
      "grad_norm": 1.0049161911010742,
      "learning_rate": 0.0002999830109935187,
      "loss": 4.1111,
      "step": 4290
    },
    {
      "epoch": 0.008958333333333334,
      "grad_norm": 0.9980230927467346,
      "learning_rate": 0.0002999828622967836,
      "loss": 4.0975,
      "step": 4300
    },
    {
      "epoch": 0.008979166666666667,
      "grad_norm": 1.0125739574432373,
      "learning_rate": 0.0002999827129521819,
      "loss": 3.983,
      "step": 4310
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.9592376947402954,
      "learning_rate": 0.0002999825629597143,
      "loss": 4.1672,
      "step": 4320
    },
    {
      "epoch": 0.009020833333333334,
      "grad_norm": 0.9460607767105103,
      "learning_rate": 0.00029998241231938134,
      "loss": 3.9299,
      "step": 4330
    },
    {
      "epoch": 0.009041666666666667,
      "grad_norm": 0.8304726481437683,
      "learning_rate": 0.00029998226103118377,
      "loss": 4.2397,
      "step": 4340
    },
    {
      "epoch": 0.0090625,
      "grad_norm": 0.9739450216293335,
      "learning_rate": 0.00029998210909512217,
      "loss": 3.9122,
      "step": 4350
    },
    {
      "epoch": 0.009083333333333334,
      "grad_norm": 1.1449451446533203,
      "learning_rate": 0.0002999819565111973,
      "loss": 3.9826,
      "step": 4360
    },
    {
      "epoch": 0.009104166666666667,
      "grad_norm": 1.0574077367782593,
      "learning_rate": 0.00029998180327940973,
      "loss": 4.1161,
      "step": 4370
    },
    {
      "epoch": 0.009125,
      "grad_norm": 1.0234532356262207,
      "learning_rate": 0.00029998164939976004,
      "loss": 4.0794,
      "step": 4380
    },
    {
      "epoch": 0.009145833333333334,
      "grad_norm": 0.8376774787902832,
      "learning_rate": 0.0002999814948722491,
      "loss": 4.1355,
      "step": 4390
    },
    {
      "epoch": 0.009166666666666667,
      "grad_norm": 0.8910546898841858,
      "learning_rate": 0.0002999813396968774,
      "loss": 4.0935,
      "step": 4400
    },
    {
      "epoch": 0.0091875,
      "grad_norm": 0.8840876817703247,
      "learning_rate": 0.0002999811838736457,
      "loss": 4.3061,
      "step": 4410
    },
    {
      "epoch": 0.009208333333333334,
      "grad_norm": 0.9769382476806641,
      "learning_rate": 0.0002999810274025546,
      "loss": 4.0736,
      "step": 4420
    },
    {
      "epoch": 0.009229166666666667,
      "grad_norm": 1.0291005373001099,
      "learning_rate": 0.0002999808702836049,
      "loss": 4.1609,
      "step": 4430
    },
    {
      "epoch": 0.00925,
      "grad_norm": 0.9491590261459351,
      "learning_rate": 0.00029998071251679723,
      "loss": 4.0267,
      "step": 4440
    },
    {
      "epoch": 0.009270833333333334,
      "grad_norm": 1.089226245880127,
      "learning_rate": 0.00029998055410213216,
      "loss": 4.0875,
      "step": 4450
    },
    {
      "epoch": 0.009291666666666667,
      "grad_norm": 1.0706385374069214,
      "learning_rate": 0.00029998039503961055,
      "loss": 4.0191,
      "step": 4460
    },
    {
      "epoch": 0.0093125,
      "grad_norm": 0.9832356572151184,
      "learning_rate": 0.0002999802353292329,
      "loss": 4.2588,
      "step": 4470
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 0.966361939907074,
      "learning_rate": 0.0002999800749710001,
      "loss": 4.0292,
      "step": 4480
    },
    {
      "epoch": 0.009354166666666667,
      "grad_norm": 0.9859091639518738,
      "learning_rate": 0.00029997991396491267,
      "loss": 4.2235,
      "step": 4490
    },
    {
      "epoch": 0.009375,
      "grad_norm": 0.9760363698005676,
      "learning_rate": 0.0002999797523109714,
      "loss": 4.1272,
      "step": 4500
    },
    {
      "epoch": 0.009395833333333334,
      "grad_norm": 1.1319416761398315,
      "learning_rate": 0.000299979590009177,
      "loss": 3.8141,
      "step": 4510
    },
    {
      "epoch": 0.009416666666666667,
      "grad_norm": 1.058521032333374,
      "learning_rate": 0.0002999794270595301,
      "loss": 4.2047,
      "step": 4520
    },
    {
      "epoch": 0.0094375,
      "grad_norm": 0.9600679874420166,
      "learning_rate": 0.0002999792634620314,
      "loss": 4.0714,
      "step": 4530
    },
    {
      "epoch": 0.009458333333333332,
      "grad_norm": 1.0818012952804565,
      "learning_rate": 0.0002999790992166817,
      "loss": 4.0849,
      "step": 4540
    },
    {
      "epoch": 0.009479166666666667,
      "grad_norm": 1.0046089887619019,
      "learning_rate": 0.00029997893432348165,
      "loss": 3.9717,
      "step": 4550
    },
    {
      "epoch": 0.0095,
      "grad_norm": 1.1016243696212769,
      "learning_rate": 0.00029997876878243204,
      "loss": 4.26,
      "step": 4560
    },
    {
      "epoch": 0.009520833333333333,
      "grad_norm": 1.1213055849075317,
      "learning_rate": 0.00029997860259353346,
      "loss": 3.9202,
      "step": 4570
    },
    {
      "epoch": 0.009541666666666667,
      "grad_norm": 1.0830364227294922,
      "learning_rate": 0.00029997843575678667,
      "loss": 4.0014,
      "step": 4580
    },
    {
      "epoch": 0.0095625,
      "grad_norm": 0.892376720905304,
      "learning_rate": 0.0002999782682721924,
      "loss": 4.1357,
      "step": 4590
    },
    {
      "epoch": 0.009583333333333333,
      "grad_norm": 1.0177985429763794,
      "learning_rate": 0.00029997810013975137,
      "loss": 4.0604,
      "step": 4600
    },
    {
      "epoch": 0.009604166666666667,
      "grad_norm": 1.0660438537597656,
      "learning_rate": 0.0002999779313594643,
      "loss": 4.1728,
      "step": 4610
    },
    {
      "epoch": 0.009625,
      "grad_norm": 0.9619247913360596,
      "learning_rate": 0.000299977761931332,
      "loss": 4.0696,
      "step": 4620
    },
    {
      "epoch": 0.009645833333333333,
      "grad_norm": 1.0453952550888062,
      "learning_rate": 0.0002999775918553551,
      "loss": 4.2251,
      "step": 4630
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 0.9851884245872498,
      "learning_rate": 0.0002999774211315343,
      "loss": 4.1434,
      "step": 4640
    },
    {
      "epoch": 0.0096875,
      "grad_norm": 0.9162231683731079,
      "learning_rate": 0.0002999772497598705,
      "loss": 4.1694,
      "step": 4650
    },
    {
      "epoch": 0.009708333333333333,
      "grad_norm": 1.106068730354309,
      "learning_rate": 0.0002999770777403643,
      "loss": 4.081,
      "step": 4660
    },
    {
      "epoch": 0.009729166666666667,
      "grad_norm": 0.8733890652656555,
      "learning_rate": 0.0002999769050730165,
      "loss": 4.2417,
      "step": 4670
    },
    {
      "epoch": 0.00975,
      "grad_norm": 0.9880221486091614,
      "learning_rate": 0.00029997673175782786,
      "loss": 4.2314,
      "step": 4680
    },
    {
      "epoch": 0.009770833333333333,
      "grad_norm": 1.1616184711456299,
      "learning_rate": 0.00029997655779479904,
      "loss": 4.1721,
      "step": 4690
    },
    {
      "epoch": 0.009791666666666667,
      "grad_norm": 0.8936964869499207,
      "learning_rate": 0.00029997638318393096,
      "loss": 4.2603,
      "step": 4700
    },
    {
      "epoch": 0.0098125,
      "grad_norm": 0.9306889176368713,
      "learning_rate": 0.00029997620792522416,
      "loss": 4.2908,
      "step": 4710
    },
    {
      "epoch": 0.009833333333333333,
      "grad_norm": 1.1105449199676514,
      "learning_rate": 0.00029997603201867957,
      "loss": 4.1358,
      "step": 4720
    },
    {
      "epoch": 0.009854166666666667,
      "grad_norm": 1.1639209985733032,
      "learning_rate": 0.00029997585546429783,
      "loss": 4.0373,
      "step": 4730
    },
    {
      "epoch": 0.009875,
      "grad_norm": 1.1427661180496216,
      "learning_rate": 0.0002999756782620798,
      "loss": 4.0461,
      "step": 4740
    },
    {
      "epoch": 0.009895833333333333,
      "grad_norm": 1.0038659572601318,
      "learning_rate": 0.00029997550041202623,
      "loss": 4.1233,
      "step": 4750
    },
    {
      "epoch": 0.009916666666666667,
      "grad_norm": 0.9660082459449768,
      "learning_rate": 0.00029997532191413783,
      "loss": 4.2012,
      "step": 4760
    },
    {
      "epoch": 0.0099375,
      "grad_norm": 0.8811535835266113,
      "learning_rate": 0.0002999751427684154,
      "loss": 4.223,
      "step": 4770
    },
    {
      "epoch": 0.009958333333333333,
      "grad_norm": 0.8887596726417542,
      "learning_rate": 0.00029997496297485974,
      "loss": 3.9292,
      "step": 4780
    },
    {
      "epoch": 0.009979166666666667,
      "grad_norm": 1.0434662103652954,
      "learning_rate": 0.00029997478253347156,
      "loss": 4.1467,
      "step": 4790
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9406684041023254,
      "learning_rate": 0.0002999746014442517,
      "loss": 4.1734,
      "step": 4800
    },
    {
      "epoch": 0.010020833333333333,
      "grad_norm": 1.1713988780975342,
      "learning_rate": 0.0002999744197072009,
      "loss": 4.1302,
      "step": 4810
    },
    {
      "epoch": 0.010041666666666667,
      "grad_norm": 1.012882947921753,
      "learning_rate": 0.00029997423732232005,
      "loss": 3.896,
      "step": 4820
    },
    {
      "epoch": 0.0100625,
      "grad_norm": 1.1197835206985474,
      "learning_rate": 0.0002999740542896098,
      "loss": 3.9719,
      "step": 4830
    },
    {
      "epoch": 0.010083333333333333,
      "grad_norm": 1.0985404253005981,
      "learning_rate": 0.00029997387060907104,
      "loss": 3.9741,
      "step": 4840
    },
    {
      "epoch": 0.010104166666666666,
      "grad_norm": 0.9690613150596619,
      "learning_rate": 0.0002999736862807045,
      "loss": 4.4011,
      "step": 4850
    },
    {
      "epoch": 0.010125,
      "grad_norm": 3.1978161334991455,
      "learning_rate": 0.000299973501304511,
      "loss": 4.09,
      "step": 4860
    },
    {
      "epoch": 0.010145833333333333,
      "grad_norm": 1.0629050731658936,
      "learning_rate": 0.00029997331568049133,
      "loss": 3.9067,
      "step": 4870
    },
    {
      "epoch": 0.010166666666666666,
      "grad_norm": 0.9088018536567688,
      "learning_rate": 0.0002999731294086463,
      "loss": 4.0977,
      "step": 4880
    },
    {
      "epoch": 0.0101875,
      "grad_norm": 1.1026993989944458,
      "learning_rate": 0.0002999729424889767,
      "loss": 4.048,
      "step": 4890
    },
    {
      "epoch": 0.010208333333333333,
      "grad_norm": 0.9417087435722351,
      "learning_rate": 0.00029997275492148337,
      "loss": 3.9495,
      "step": 4900
    },
    {
      "epoch": 0.010229166666666666,
      "grad_norm": 1.0456846952438354,
      "learning_rate": 0.0002999725667061671,
      "loss": 4.0785,
      "step": 4910
    },
    {
      "epoch": 0.01025,
      "grad_norm": 0.9317986369132996,
      "learning_rate": 0.00029997237784302875,
      "loss": 4.1543,
      "step": 4920
    },
    {
      "epoch": 0.010270833333333333,
      "grad_norm": 1.1679273843765259,
      "learning_rate": 0.0002999721883320691,
      "loss": 4.088,
      "step": 4930
    },
    {
      "epoch": 0.010291666666666666,
      "grad_norm": 0.9274995923042297,
      "learning_rate": 0.0002999719981732889,
      "loss": 4.0281,
      "step": 4940
    },
    {
      "epoch": 0.0103125,
      "grad_norm": 1.1864968538284302,
      "learning_rate": 0.000299971807366689,
      "loss": 3.9755,
      "step": 4950
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 0.9755812883377075,
      "learning_rate": 0.0002999716159122703,
      "loss": 4.1841,
      "step": 4960
    },
    {
      "epoch": 0.010354166666666666,
      "grad_norm": 0.9211527109146118,
      "learning_rate": 0.00029997142381003357,
      "loss": 4.0401,
      "step": 4970
    },
    {
      "epoch": 0.010375,
      "grad_norm": 1.3366219997406006,
      "learning_rate": 0.00029997123105997964,
      "loss": 4.1101,
      "step": 4980
    },
    {
      "epoch": 0.010395833333333333,
      "grad_norm": 0.9389422535896301,
      "learning_rate": 0.00029997103766210944,
      "loss": 3.8959,
      "step": 4990
    },
    {
      "epoch": 0.010416666666666666,
      "grad_norm": 0.8832875490188599,
      "learning_rate": 0.0002999708436164236,
      "loss": 4.2677,
      "step": 5000
    },
    {
      "epoch": 0.010416666666666666,
      "eval_loss": 4.370577812194824,
      "eval_runtime": 8.8729,
      "eval_samples_per_second": 1.127,
      "eval_steps_per_second": 0.338,
      "step": 5000
    },
    {
      "epoch": 0.0104375,
      "grad_norm": 0.873633861541748,
      "learning_rate": 0.00029997064892292314,
      "loss": 4.1391,
      "step": 5010
    },
    {
      "epoch": 0.010458333333333333,
      "grad_norm": 1.0159385204315186,
      "learning_rate": 0.00029997045358160884,
      "loss": 4.1271,
      "step": 5020
    },
    {
      "epoch": 0.010479166666666666,
      "grad_norm": 0.9279839396476746,
      "learning_rate": 0.0002999702575924815,
      "loss": 4.0717,
      "step": 5030
    },
    {
      "epoch": 0.0105,
      "grad_norm": 0.8764974474906921,
      "learning_rate": 0.00029997006095554204,
      "loss": 4.0442,
      "step": 5040
    },
    {
      "epoch": 0.010520833333333333,
      "grad_norm": 0.9061101675033569,
      "learning_rate": 0.0002999698636707913,
      "loss": 4.1291,
      "step": 5050
    },
    {
      "epoch": 0.010541666666666666,
      "grad_norm": 1.1503463983535767,
      "learning_rate": 0.0002999696657382301,
      "loss": 4.0456,
      "step": 5060
    },
    {
      "epoch": 0.0105625,
      "grad_norm": 1.005418062210083,
      "learning_rate": 0.0002999694671578593,
      "loss": 4.1166,
      "step": 5070
    },
    {
      "epoch": 0.010583333333333333,
      "grad_norm": 0.9875721335411072,
      "learning_rate": 0.00029996926792967977,
      "loss": 4.0771,
      "step": 5080
    },
    {
      "epoch": 0.010604166666666666,
      "grad_norm": 0.9183871746063232,
      "learning_rate": 0.0002999690680536924,
      "loss": 4.1778,
      "step": 5090
    },
    {
      "epoch": 0.010625,
      "grad_norm": 1.0354697704315186,
      "learning_rate": 0.000299968867529898,
      "loss": 4.0515,
      "step": 5100
    },
    {
      "epoch": 0.010645833333333334,
      "grad_norm": 0.9327830672264099,
      "learning_rate": 0.0002999686663582974,
      "loss": 4.061,
      "step": 5110
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 1.0666239261627197,
      "learning_rate": 0.0002999684645388915,
      "loss": 3.9381,
      "step": 5120
    },
    {
      "epoch": 0.0106875,
      "grad_norm": 0.8940494060516357,
      "learning_rate": 0.00029996826207168126,
      "loss": 4.1398,
      "step": 5130
    },
    {
      "epoch": 0.010708333333333334,
      "grad_norm": 1.1079604625701904,
      "learning_rate": 0.0002999680589566675,
      "loss": 4.2036,
      "step": 5140
    },
    {
      "epoch": 0.010729166666666666,
      "grad_norm": 0.9707878232002258,
      "learning_rate": 0.00029996785519385106,
      "loss": 4.0504,
      "step": 5150
    },
    {
      "epoch": 0.01075,
      "grad_norm": 0.923814594745636,
      "learning_rate": 0.00029996765078323285,
      "loss": 4.2121,
      "step": 5160
    },
    {
      "epoch": 0.010770833333333334,
      "grad_norm": 0.86277174949646,
      "learning_rate": 0.00029996744572481377,
      "loss": 4.1438,
      "step": 5170
    },
    {
      "epoch": 0.010791666666666666,
      "grad_norm": 1.055037260055542,
      "learning_rate": 0.0002999672400185947,
      "loss": 3.9951,
      "step": 5180
    },
    {
      "epoch": 0.0108125,
      "grad_norm": 0.9854041337966919,
      "learning_rate": 0.00029996703366457644,
      "loss": 3.9555,
      "step": 5190
    },
    {
      "epoch": 0.010833333333333334,
      "grad_norm": 0.9806405305862427,
      "learning_rate": 0.00029996682666276,
      "loss": 4.1025,
      "step": 5200
    },
    {
      "epoch": 0.010854166666666666,
      "grad_norm": 0.8483632206916809,
      "learning_rate": 0.0002999666190131462,
      "loss": 4.0765,
      "step": 5210
    },
    {
      "epoch": 0.010875,
      "grad_norm": 0.9474264979362488,
      "learning_rate": 0.000299966410715736,
      "loss": 4.2195,
      "step": 5220
    },
    {
      "epoch": 0.010895833333333334,
      "grad_norm": 1.0165170431137085,
      "learning_rate": 0.0002999662017705303,
      "loss": 4.0818,
      "step": 5230
    },
    {
      "epoch": 0.010916666666666667,
      "grad_norm": 0.9026477932929993,
      "learning_rate": 0.0002999659921775299,
      "loss": 4.0267,
      "step": 5240
    },
    {
      "epoch": 0.0109375,
      "grad_norm": 0.8660348653793335,
      "learning_rate": 0.0002999657819367358,
      "loss": 4.0821,
      "step": 5250
    },
    {
      "epoch": 0.010958333333333334,
      "grad_norm": 0.946662962436676,
      "learning_rate": 0.0002999655710481489,
      "loss": 4.1237,
      "step": 5260
    },
    {
      "epoch": 0.010979166666666667,
      "grad_norm": 0.8683421611785889,
      "learning_rate": 0.0002999653595117701,
      "loss": 4.0454,
      "step": 5270
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.072624921798706,
      "learning_rate": 0.0002999651473276003,
      "loss": 4.0367,
      "step": 5280
    },
    {
      "epoch": 0.011020833333333334,
      "grad_norm": 1.0327613353729248,
      "learning_rate": 0.0002999649344956404,
      "loss": 4.1558,
      "step": 5290
    },
    {
      "epoch": 0.011041666666666667,
      "grad_norm": 0.9970088601112366,
      "learning_rate": 0.0002999647210158913,
      "loss": 4.1735,
      "step": 5300
    },
    {
      "epoch": 0.0110625,
      "grad_norm": 0.9861274361610413,
      "learning_rate": 0.00029996450688835405,
      "loss": 3.8541,
      "step": 5310
    },
    {
      "epoch": 0.011083333333333334,
      "grad_norm": 0.8053154349327087,
      "learning_rate": 0.00029996429211302946,
      "loss": 4.0191,
      "step": 5320
    },
    {
      "epoch": 0.011104166666666667,
      "grad_norm": 0.9291845560073853,
      "learning_rate": 0.00029996407668991847,
      "loss": 4.1135,
      "step": 5330
    },
    {
      "epoch": 0.011125,
      "grad_norm": 0.9447972178459167,
      "learning_rate": 0.00029996386061902205,
      "loss": 4.1278,
      "step": 5340
    },
    {
      "epoch": 0.011145833333333334,
      "grad_norm": 0.9961071610450745,
      "learning_rate": 0.00029996364390034113,
      "loss": 4.0927,
      "step": 5350
    },
    {
      "epoch": 0.011166666666666667,
      "grad_norm": 0.9535923004150391,
      "learning_rate": 0.0002999634265338766,
      "loss": 4.1082,
      "step": 5360
    },
    {
      "epoch": 0.0111875,
      "grad_norm": 1.1580954790115356,
      "learning_rate": 0.00029996320851962945,
      "loss": 4.0574,
      "step": 5370
    },
    {
      "epoch": 0.011208333333333334,
      "grad_norm": 0.9974673986434937,
      "learning_rate": 0.00029996298985760053,
      "loss": 4.2132,
      "step": 5380
    },
    {
      "epoch": 0.011229166666666667,
      "grad_norm": 0.9261285662651062,
      "learning_rate": 0.00029996277054779096,
      "loss": 4.0746,
      "step": 5390
    },
    {
      "epoch": 0.01125,
      "grad_norm": 0.997142493724823,
      "learning_rate": 0.0002999625505902015,
      "loss": 3.9265,
      "step": 5400
    },
    {
      "epoch": 0.011270833333333334,
      "grad_norm": 1.008379340171814,
      "learning_rate": 0.0002999623299848332,
      "loss": 4.0246,
      "step": 5410
    },
    {
      "epoch": 0.011291666666666667,
      "grad_norm": 0.948972761631012,
      "learning_rate": 0.00029996210873168704,
      "loss": 4.225,
      "step": 5420
    },
    {
      "epoch": 0.0113125,
      "grad_norm": 0.9582616686820984,
      "learning_rate": 0.0002999618868307639,
      "loss": 4.1497,
      "step": 5430
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 1.0417988300323486,
      "learning_rate": 0.00029996166428206475,
      "loss": 4.2742,
      "step": 5440
    },
    {
      "epoch": 0.011354166666666667,
      "grad_norm": 1.0113927125930786,
      "learning_rate": 0.0002999614410855906,
      "loss": 3.9904,
      "step": 5450
    },
    {
      "epoch": 0.011375,
      "grad_norm": 1.043034315109253,
      "learning_rate": 0.0002999612172413423,
      "loss": 4.188,
      "step": 5460
    },
    {
      "epoch": 0.011395833333333332,
      "grad_norm": 1.0352418422698975,
      "learning_rate": 0.000299960992749321,
      "loss": 4.1515,
      "step": 5470
    },
    {
      "epoch": 0.011416666666666667,
      "grad_norm": 0.8755269646644592,
      "learning_rate": 0.00029996076760952753,
      "loss": 3.9161,
      "step": 5480
    },
    {
      "epoch": 0.0114375,
      "grad_norm": 0.9631335139274597,
      "learning_rate": 0.0002999605418219629,
      "loss": 4.1547,
      "step": 5490
    },
    {
      "epoch": 0.011458333333333333,
      "grad_norm": 1.0319585800170898,
      "learning_rate": 0.00029996031538662805,
      "loss": 4.1003,
      "step": 5500
    },
    {
      "epoch": 0.011479166666666667,
      "grad_norm": 0.9601361155509949,
      "learning_rate": 0.00029996008830352405,
      "loss": 4.2062,
      "step": 5510
    },
    {
      "epoch": 0.0115,
      "grad_norm": 0.9250887632369995,
      "learning_rate": 0.00029995986057265186,
      "loss": 3.9637,
      "step": 5520
    },
    {
      "epoch": 0.011520833333333333,
      "grad_norm": 1.027815818786621,
      "learning_rate": 0.00029995963219401234,
      "loss": 4.0546,
      "step": 5530
    },
    {
      "epoch": 0.011541666666666667,
      "grad_norm": 1.0670416355133057,
      "learning_rate": 0.0002999594031676066,
      "loss": 4.1225,
      "step": 5540
    },
    {
      "epoch": 0.0115625,
      "grad_norm": 0.8062381744384766,
      "learning_rate": 0.00029995917349343563,
      "loss": 4.1337,
      "step": 5550
    },
    {
      "epoch": 0.011583333333333333,
      "grad_norm": 0.9995294213294983,
      "learning_rate": 0.0002999589431715004,
      "loss": 4.0815,
      "step": 5560
    },
    {
      "epoch": 0.011604166666666667,
      "grad_norm": 1.3284013271331787,
      "learning_rate": 0.00029995871220180184,
      "loss": 4.202,
      "step": 5570
    },
    {
      "epoch": 0.011625,
      "grad_norm": 1.006390929222107,
      "learning_rate": 0.000299958480584341,
      "loss": 4.1928,
      "step": 5580
    },
    {
      "epoch": 0.011645833333333333,
      "grad_norm": 0.9090350270271301,
      "learning_rate": 0.0002999582483191189,
      "loss": 4.024,
      "step": 5590
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 0.8780757188796997,
      "learning_rate": 0.0002999580154061365,
      "loss": 4.1662,
      "step": 5600
    },
    {
      "epoch": 0.0116875,
      "grad_norm": 0.9481406807899475,
      "learning_rate": 0.0002999577818453949,
      "loss": 4.0606,
      "step": 5610
    },
    {
      "epoch": 0.011708333333333333,
      "grad_norm": 1.0547072887420654,
      "learning_rate": 0.000299957547636895,
      "loss": 3.9856,
      "step": 5620
    },
    {
      "epoch": 0.011729166666666667,
      "grad_norm": 1.0377051830291748,
      "learning_rate": 0.00029995731278063787,
      "loss": 4.1613,
      "step": 5630
    },
    {
      "epoch": 0.01175,
      "grad_norm": 0.9384186267852783,
      "learning_rate": 0.00029995707727662445,
      "loss": 3.8926,
      "step": 5640
    },
    {
      "epoch": 0.011770833333333333,
      "grad_norm": 1.188773512840271,
      "learning_rate": 0.00029995684112485584,
      "loss": 4.1437,
      "step": 5650
    },
    {
      "epoch": 0.011791666666666667,
      "grad_norm": 1.2075719833374023,
      "learning_rate": 0.00029995660432533303,
      "loss": 4.1929,
      "step": 5660
    },
    {
      "epoch": 0.0118125,
      "grad_norm": 0.872288703918457,
      "learning_rate": 0.0002999563668780571,
      "loss": 4.0513,
      "step": 5670
    },
    {
      "epoch": 0.011833333333333333,
      "grad_norm": 0.922525942325592,
      "learning_rate": 0.000299956128783029,
      "loss": 4.2275,
      "step": 5680
    },
    {
      "epoch": 0.011854166666666667,
      "grad_norm": 0.9171212315559387,
      "learning_rate": 0.0002999558900402497,
      "loss": 4.0624,
      "step": 5690
    },
    {
      "epoch": 0.011875,
      "grad_norm": 1.0454503297805786,
      "learning_rate": 0.00029995565064972043,
      "loss": 3.8801,
      "step": 5700
    },
    {
      "epoch": 0.011895833333333333,
      "grad_norm": 0.8571341037750244,
      "learning_rate": 0.000299955410611442,
      "loss": 4.1946,
      "step": 5710
    },
    {
      "epoch": 0.011916666666666667,
      "grad_norm": 0.8365829586982727,
      "learning_rate": 0.0002999551699254156,
      "loss": 3.9604,
      "step": 5720
    },
    {
      "epoch": 0.0119375,
      "grad_norm": 0.9211521148681641,
      "learning_rate": 0.00029995492859164223,
      "loss": 4.2924,
      "step": 5730
    },
    {
      "epoch": 0.011958333333333333,
      "grad_norm": 0.8443504571914673,
      "learning_rate": 0.000299954686610123,
      "loss": 4.2304,
      "step": 5740
    },
    {
      "epoch": 0.011979166666666667,
      "grad_norm": 0.860998809337616,
      "learning_rate": 0.00029995444398085876,
      "loss": 4.0858,
      "step": 5750
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.8654314875602722,
      "learning_rate": 0.0002999542007038507,
      "loss": 4.1007,
      "step": 5760
    },
    {
      "epoch": 0.012020833333333333,
      "grad_norm": 0.9083671569824219,
      "learning_rate": 0.0002999539567790999,
      "loss": 3.9845,
      "step": 5770
    },
    {
      "epoch": 0.012041666666666668,
      "grad_norm": 0.9409719705581665,
      "learning_rate": 0.00029995371220660727,
      "loss": 4.1631,
      "step": 5780
    },
    {
      "epoch": 0.0120625,
      "grad_norm": 0.9629682898521423,
      "learning_rate": 0.00029995346698637404,
      "loss": 4.1025,
      "step": 5790
    },
    {
      "epoch": 0.012083333333333333,
      "grad_norm": 0.9104552268981934,
      "learning_rate": 0.0002999532211184012,
      "loss": 4.1618,
      "step": 5800
    },
    {
      "epoch": 0.012104166666666666,
      "grad_norm": 0.9406991600990295,
      "learning_rate": 0.00029995297460268976,
      "loss": 4.2904,
      "step": 5810
    },
    {
      "epoch": 0.012125,
      "grad_norm": 0.970385730266571,
      "learning_rate": 0.0002999527274392408,
      "loss": 4.0907,
      "step": 5820
    },
    {
      "epoch": 0.012145833333333333,
      "grad_norm": 1.0111403465270996,
      "learning_rate": 0.00029995247962805546,
      "loss": 4.2463,
      "step": 5830
    },
    {
      "epoch": 0.012166666666666666,
      "grad_norm": 1.0769060850143433,
      "learning_rate": 0.0002999522311691347,
      "loss": 4.1208,
      "step": 5840
    },
    {
      "epoch": 0.0121875,
      "grad_norm": 0.9502212405204773,
      "learning_rate": 0.00029995198206247975,
      "loss": 3.9436,
      "step": 5850
    },
    {
      "epoch": 0.012208333333333333,
      "grad_norm": 0.9658715128898621,
      "learning_rate": 0.00029995173230809157,
      "loss": 3.9633,
      "step": 5860
    },
    {
      "epoch": 0.012229166666666666,
      "grad_norm": 1.1009750366210938,
      "learning_rate": 0.0002999514819059712,
      "loss": 4.1194,
      "step": 5870
    },
    {
      "epoch": 0.01225,
      "grad_norm": 1.1324915885925293,
      "learning_rate": 0.0002999512308561198,
      "loss": 3.992,
      "step": 5880
    },
    {
      "epoch": 0.012270833333333333,
      "grad_norm": 1.1784034967422485,
      "learning_rate": 0.0002999509791585385,
      "loss": 3.9714,
      "step": 5890
    },
    {
      "epoch": 0.012291666666666666,
      "grad_norm": 1.0563786029815674,
      "learning_rate": 0.00029995072681322825,
      "loss": 4.1235,
      "step": 5900
    },
    {
      "epoch": 0.0123125,
      "grad_norm": 0.8993197679519653,
      "learning_rate": 0.0002999504738201903,
      "loss": 3.98,
      "step": 5910
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 1.2406171560287476,
      "learning_rate": 0.0002999502201794256,
      "loss": 4.2188,
      "step": 5920
    },
    {
      "epoch": 0.012354166666666666,
      "grad_norm": 1.0735266208648682,
      "learning_rate": 0.00029994996589093525,
      "loss": 4.0805,
      "step": 5930
    },
    {
      "epoch": 0.012375,
      "grad_norm": 0.9529826641082764,
      "learning_rate": 0.0002999497109547205,
      "loss": 4.0163,
      "step": 5940
    },
    {
      "epoch": 0.012395833333333333,
      "grad_norm": 1.1779168844223022,
      "learning_rate": 0.0002999494553707823,
      "loss": 4.1448,
      "step": 5950
    },
    {
      "epoch": 0.012416666666666666,
      "grad_norm": 1.0238772630691528,
      "learning_rate": 0.00029994919913912184,
      "loss": 4.3096,
      "step": 5960
    },
    {
      "epoch": 0.0124375,
      "grad_norm": 0.8970621824264526,
      "learning_rate": 0.00029994894225974014,
      "loss": 3.9828,
      "step": 5970
    },
    {
      "epoch": 0.012458333333333333,
      "grad_norm": 1.086896538734436,
      "learning_rate": 0.0002999486847326384,
      "loss": 4.1389,
      "step": 5980
    },
    {
      "epoch": 0.012479166666666666,
      "grad_norm": 1.0852673053741455,
      "learning_rate": 0.0002999484265578177,
      "loss": 4.3322,
      "step": 5990
    },
    {
      "epoch": 0.0125,
      "grad_norm": 1.1359448432922363,
      "learning_rate": 0.00029994816773527914,
      "loss": 4.0537,
      "step": 6000
    },
    {
      "epoch": 0.0125,
      "eval_loss": 4.364706993103027,
      "eval_runtime": 8.6358,
      "eval_samples_per_second": 1.158,
      "eval_steps_per_second": 0.347,
      "step": 6000
    },
    {
      "epoch": 0.012520833333333333,
      "grad_norm": 1.1655429601669312,
      "learning_rate": 0.0002999479082650239,
      "loss": 4.0653,
      "step": 6010
    },
    {
      "epoch": 0.012541666666666666,
      "grad_norm": 0.957078754901886,
      "learning_rate": 0.00029994764814705296,
      "loss": 4.2411,
      "step": 6020
    },
    {
      "epoch": 0.0125625,
      "grad_norm": 1.0028799772262573,
      "learning_rate": 0.0002999473873813676,
      "loss": 4.1531,
      "step": 6030
    },
    {
      "epoch": 0.012583333333333334,
      "grad_norm": 0.8951534032821655,
      "learning_rate": 0.00029994712596796886,
      "loss": 3.9969,
      "step": 6040
    },
    {
      "epoch": 0.012604166666666666,
      "grad_norm": 0.8129245042800903,
      "learning_rate": 0.0002999468639068579,
      "loss": 4.1812,
      "step": 6050
    },
    {
      "epoch": 0.012625,
      "grad_norm": 0.8950570225715637,
      "learning_rate": 0.0002999466011980358,
      "loss": 4.0424,
      "step": 6060
    },
    {
      "epoch": 0.012645833333333334,
      "grad_norm": 0.8109812140464783,
      "learning_rate": 0.00029994633784150373,
      "loss": 4.1283,
      "step": 6070
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 1.0479668378829956,
      "learning_rate": 0.0002999460738372629,
      "loss": 3.9377,
      "step": 6080
    },
    {
      "epoch": 0.0126875,
      "grad_norm": 0.9200255870819092,
      "learning_rate": 0.0002999458091853143,
      "loss": 3.9175,
      "step": 6090
    },
    {
      "epoch": 0.012708333333333334,
      "grad_norm": 0.923332691192627,
      "learning_rate": 0.00029994554388565925,
      "loss": 4.1298,
      "step": 6100
    },
    {
      "epoch": 0.012729166666666666,
      "grad_norm": 0.9668201804161072,
      "learning_rate": 0.00029994527793829876,
      "loss": 4.1153,
      "step": 6110
    },
    {
      "epoch": 0.01275,
      "grad_norm": 0.8372182846069336,
      "learning_rate": 0.00029994501134323405,
      "loss": 4.0196,
      "step": 6120
    },
    {
      "epoch": 0.012770833333333334,
      "grad_norm": 0.9949009418487549,
      "learning_rate": 0.0002999447441004662,
      "loss": 3.9416,
      "step": 6130
    },
    {
      "epoch": 0.012791666666666666,
      "grad_norm": 0.9004925489425659,
      "learning_rate": 0.0002999444762099964,
      "loss": 4.0651,
      "step": 6140
    },
    {
      "epoch": 0.0128125,
      "grad_norm": 0.9128996729850769,
      "learning_rate": 0.0002999442076718258,
      "loss": 4.2135,
      "step": 6150
    },
    {
      "epoch": 0.012833333333333334,
      "grad_norm": 0.9584335088729858,
      "learning_rate": 0.00029994393848595567,
      "loss": 4.1165,
      "step": 6160
    },
    {
      "epoch": 0.012854166666666667,
      "grad_norm": 0.9648441672325134,
      "learning_rate": 0.000299943668652387,
      "loss": 3.9458,
      "step": 6170
    },
    {
      "epoch": 0.012875,
      "grad_norm": 0.8765039443969727,
      "learning_rate": 0.00029994339817112107,
      "loss": 4.1653,
      "step": 6180
    },
    {
      "epoch": 0.012895833333333334,
      "grad_norm": 0.9018328785896301,
      "learning_rate": 0.000299943127042159,
      "loss": 4.1809,
      "step": 6190
    },
    {
      "epoch": 0.012916666666666667,
      "grad_norm": 0.8819262981414795,
      "learning_rate": 0.00029994285526550196,
      "loss": 4.1164,
      "step": 6200
    },
    {
      "epoch": 0.0129375,
      "grad_norm": 1.068333625793457,
      "learning_rate": 0.00029994258284115114,
      "loss": 3.9838,
      "step": 6210
    },
    {
      "epoch": 0.012958333333333334,
      "grad_norm": 0.9078938961029053,
      "learning_rate": 0.0002999423097691077,
      "loss": 3.9797,
      "step": 6220
    },
    {
      "epoch": 0.012979166666666667,
      "grad_norm": 0.9527643918991089,
      "learning_rate": 0.0002999420360493729,
      "loss": 4.0528,
      "step": 6230
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.9671280384063721,
      "learning_rate": 0.0002999417616819478,
      "loss": 3.9915,
      "step": 6240
    },
    {
      "epoch": 0.013020833333333334,
      "grad_norm": 1.0323084592819214,
      "learning_rate": 0.00029994148666683364,
      "loss": 4.2473,
      "step": 6250
    },
    {
      "epoch": 0.013041666666666667,
      "grad_norm": 1.008888840675354,
      "learning_rate": 0.00029994121100403154,
      "loss": 4.0077,
      "step": 6260
    },
    {
      "epoch": 0.0130625,
      "grad_norm": 0.8360439538955688,
      "learning_rate": 0.0002999409346935429,
      "loss": 4.0394,
      "step": 6270
    },
    {
      "epoch": 0.013083333333333334,
      "grad_norm": 1.0562629699707031,
      "learning_rate": 0.00029994065773536867,
      "loss": 4.1728,
      "step": 6280
    },
    {
      "epoch": 0.013104166666666667,
      "grad_norm": 0.8998481631278992,
      "learning_rate": 0.00029994038012951023,
      "loss": 4.0647,
      "step": 6290
    },
    {
      "epoch": 0.013125,
      "grad_norm": 0.9556834101676941,
      "learning_rate": 0.00029994010187596866,
      "loss": 4.1575,
      "step": 6300
    },
    {
      "epoch": 0.013145833333333334,
      "grad_norm": 0.9387531280517578,
      "learning_rate": 0.0002999398229747452,
      "loss": 4.2053,
      "step": 6310
    },
    {
      "epoch": 0.013166666666666667,
      "grad_norm": 1.059512734413147,
      "learning_rate": 0.00029993954342584105,
      "loss": 4.1122,
      "step": 6320
    },
    {
      "epoch": 0.0131875,
      "grad_norm": 0.8863552212715149,
      "learning_rate": 0.0002999392632292574,
      "loss": 4.0638,
      "step": 6330
    },
    {
      "epoch": 0.013208333333333334,
      "grad_norm": 0.96615070104599,
      "learning_rate": 0.00029993898238499554,
      "loss": 4.069,
      "step": 6340
    },
    {
      "epoch": 0.013229166666666667,
      "grad_norm": 0.9637752175331116,
      "learning_rate": 0.00029993870089305657,
      "loss": 4.059,
      "step": 6350
    },
    {
      "epoch": 0.01325,
      "grad_norm": 0.9568811655044556,
      "learning_rate": 0.0002999384187534418,
      "loss": 4.0715,
      "step": 6360
    },
    {
      "epoch": 0.013270833333333334,
      "grad_norm": 0.9379424452781677,
      "learning_rate": 0.00029993813596615237,
      "loss": 4.0718,
      "step": 6370
    },
    {
      "epoch": 0.013291666666666667,
      "grad_norm": 1.0933842658996582,
      "learning_rate": 0.00029993785253118954,
      "loss": 4.0454,
      "step": 6380
    },
    {
      "epoch": 0.0133125,
      "grad_norm": 0.9435713887214661,
      "learning_rate": 0.00029993756844855457,
      "loss": 4.0584,
      "step": 6390
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 0.8405054211616516,
      "learning_rate": 0.00029993728371824867,
      "loss": 3.871,
      "step": 6400
    },
    {
      "epoch": 0.013354166666666667,
      "grad_norm": 0.933931291103363,
      "learning_rate": 0.000299936998340273,
      "loss": 4.1761,
      "step": 6410
    },
    {
      "epoch": 0.013375,
      "grad_norm": 0.8940505981445312,
      "learning_rate": 0.0002999367123146289,
      "loss": 4.0246,
      "step": 6420
    },
    {
      "epoch": 0.013395833333333333,
      "grad_norm": 0.9127814173698425,
      "learning_rate": 0.00029993642564131754,
      "loss": 4.0734,
      "step": 6430
    },
    {
      "epoch": 0.013416666666666667,
      "grad_norm": 0.9094292521476746,
      "learning_rate": 0.00029993613832034015,
      "loss": 3.946,
      "step": 6440
    },
    {
      "epoch": 0.0134375,
      "grad_norm": 1.2239240407943726,
      "learning_rate": 0.000299935850351698,
      "loss": 3.9459,
      "step": 6450
    },
    {
      "epoch": 0.013458333333333333,
      "grad_norm": 0.8955016732215881,
      "learning_rate": 0.00029993556173539234,
      "loss": 3.8617,
      "step": 6460
    },
    {
      "epoch": 0.013479166666666667,
      "grad_norm": 0.8669296503067017,
      "learning_rate": 0.00029993527247142436,
      "loss": 4.0158,
      "step": 6470
    },
    {
      "epoch": 0.0135,
      "grad_norm": 0.8309480547904968,
      "learning_rate": 0.0002999349825597954,
      "loss": 4.0057,
      "step": 6480
    },
    {
      "epoch": 0.013520833333333333,
      "grad_norm": 0.8429121971130371,
      "learning_rate": 0.0002999346920005066,
      "loss": 4.0032,
      "step": 6490
    },
    {
      "epoch": 0.013541666666666667,
      "grad_norm": 0.897562563419342,
      "learning_rate": 0.00029993440079355933,
      "loss": 4.052,
      "step": 6500
    },
    {
      "epoch": 0.0135625,
      "grad_norm": 0.8948218822479248,
      "learning_rate": 0.00029993410893895477,
      "loss": 4.0736,
      "step": 6510
    },
    {
      "epoch": 0.013583333333333333,
      "grad_norm": 0.9286693930625916,
      "learning_rate": 0.00029993381643669424,
      "loss": 4.1823,
      "step": 6520
    },
    {
      "epoch": 0.013604166666666667,
      "grad_norm": 0.8896878361701965,
      "learning_rate": 0.000299933523286779,
      "loss": 4.1354,
      "step": 6530
    },
    {
      "epoch": 0.013625,
      "grad_norm": 0.9024227261543274,
      "learning_rate": 0.00029993322948921024,
      "loss": 4.1706,
      "step": 6540
    },
    {
      "epoch": 0.013645833333333333,
      "grad_norm": 0.9716841578483582,
      "learning_rate": 0.00029993293504398927,
      "loss": 4.0001,
      "step": 6550
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 0.8848289251327515,
      "learning_rate": 0.00029993263995111737,
      "loss": 4.1008,
      "step": 6560
    },
    {
      "epoch": 0.0136875,
      "grad_norm": 0.9355757832527161,
      "learning_rate": 0.00029993234421059583,
      "loss": 4.0402,
      "step": 6570
    },
    {
      "epoch": 0.013708333333333333,
      "grad_norm": 0.9168696403503418,
      "learning_rate": 0.00029993204782242586,
      "loss": 4.0907,
      "step": 6580
    },
    {
      "epoch": 0.013729166666666667,
      "grad_norm": 1.1814876794815063,
      "learning_rate": 0.00029993175078660885,
      "loss": 4.1214,
      "step": 6590
    },
    {
      "epoch": 0.01375,
      "grad_norm": 1.0008504390716553,
      "learning_rate": 0.000299931453103146,
      "loss": 4.0659,
      "step": 6600
    },
    {
      "epoch": 0.013770833333333333,
      "grad_norm": 1.0081291198730469,
      "learning_rate": 0.00029993115477203864,
      "loss": 3.9152,
      "step": 6610
    },
    {
      "epoch": 0.013791666666666667,
      "grad_norm": 1.0494648218154907,
      "learning_rate": 0.000299930855793288,
      "loss": 4.0762,
      "step": 6620
    },
    {
      "epoch": 0.0138125,
      "grad_norm": 1.0659271478652954,
      "learning_rate": 0.0002999305561668955,
      "loss": 4.0953,
      "step": 6630
    },
    {
      "epoch": 0.013833333333333333,
      "grad_norm": 0.9607105851173401,
      "learning_rate": 0.00029993025589286225,
      "loss": 3.9694,
      "step": 6640
    },
    {
      "epoch": 0.013854166666666667,
      "grad_norm": 1.063226342201233,
      "learning_rate": 0.0002999299549711897,
      "loss": 4.0232,
      "step": 6650
    },
    {
      "epoch": 0.013875,
      "grad_norm": 0.8980494737625122,
      "learning_rate": 0.00029992965340187904,
      "loss": 4.0558,
      "step": 6660
    },
    {
      "epoch": 0.013895833333333333,
      "grad_norm": 0.8890358805656433,
      "learning_rate": 0.00029992935118493166,
      "loss": 4.0773,
      "step": 6670
    },
    {
      "epoch": 0.013916666666666667,
      "grad_norm": 1.0375691652297974,
      "learning_rate": 0.00029992904832034875,
      "loss": 4.2058,
      "step": 6680
    },
    {
      "epoch": 0.0139375,
      "grad_norm": 0.9427799582481384,
      "learning_rate": 0.0002999287448081318,
      "loss": 4.1623,
      "step": 6690
    },
    {
      "epoch": 0.013958333333333333,
      "grad_norm": 0.9718566536903381,
      "learning_rate": 0.00029992844064828195,
      "loss": 4.1282,
      "step": 6700
    },
    {
      "epoch": 0.013979166666666668,
      "grad_norm": 0.9963191747665405,
      "learning_rate": 0.00029992813584080066,
      "loss": 4.1961,
      "step": 6710
    },
    {
      "epoch": 0.014,
      "grad_norm": 0.887082576751709,
      "learning_rate": 0.0002999278303856891,
      "loss": 3.9252,
      "step": 6720
    },
    {
      "epoch": 0.014020833333333333,
      "grad_norm": 0.8736108541488647,
      "learning_rate": 0.00029992752428294867,
      "loss": 3.9604,
      "step": 6730
    },
    {
      "epoch": 0.014041666666666666,
      "grad_norm": 0.9039258360862732,
      "learning_rate": 0.0002999272175325807,
      "loss": 4.2475,
      "step": 6740
    },
    {
      "epoch": 0.0140625,
      "grad_norm": 0.9288772940635681,
      "learning_rate": 0.00029992691013458646,
      "loss": 3.9646,
      "step": 6750
    },
    {
      "epoch": 0.014083333333333333,
      "grad_norm": 0.9164652824401855,
      "learning_rate": 0.0002999266020889674,
      "loss": 4.0333,
      "step": 6760
    },
    {
      "epoch": 0.014104166666666666,
      "grad_norm": 0.8952393531799316,
      "learning_rate": 0.00029992629339572465,
      "loss": 4.0806,
      "step": 6770
    },
    {
      "epoch": 0.014125,
      "grad_norm": 0.8376536965370178,
      "learning_rate": 0.0002999259840548597,
      "loss": 3.9286,
      "step": 6780
    },
    {
      "epoch": 0.014145833333333333,
      "grad_norm": 0.9379526972770691,
      "learning_rate": 0.0002999256740663739,
      "loss": 4.1664,
      "step": 6790
    },
    {
      "epoch": 0.014166666666666666,
      "grad_norm": 0.977990448474884,
      "learning_rate": 0.00029992536343026845,
      "loss": 3.9658,
      "step": 6800
    },
    {
      "epoch": 0.0141875,
      "grad_norm": 0.8667201399803162,
      "learning_rate": 0.00029992505214654477,
      "loss": 3.9671,
      "step": 6810
    },
    {
      "epoch": 0.014208333333333333,
      "grad_norm": 0.9429517388343811,
      "learning_rate": 0.00029992474021520426,
      "loss": 3.98,
      "step": 6820
    },
    {
      "epoch": 0.014229166666666666,
      "grad_norm": 0.8257001042366028,
      "learning_rate": 0.0002999244276362482,
      "loss": 3.9335,
      "step": 6830
    },
    {
      "epoch": 0.01425,
      "grad_norm": 0.9612383842468262,
      "learning_rate": 0.000299924114409678,
      "loss": 4.0503,
      "step": 6840
    },
    {
      "epoch": 0.014270833333333333,
      "grad_norm": 0.7644697427749634,
      "learning_rate": 0.0002999238005354949,
      "loss": 4.2029,
      "step": 6850
    },
    {
      "epoch": 0.014291666666666666,
      "grad_norm": 0.8802212476730347,
      "learning_rate": 0.0002999234860137004,
      "loss": 4.0442,
      "step": 6860
    },
    {
      "epoch": 0.0143125,
      "grad_norm": 1.0356061458587646,
      "learning_rate": 0.0002999231708442957,
      "loss": 3.8788,
      "step": 6870
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 0.8861193656921387,
      "learning_rate": 0.0002999228550272823,
      "loss": 4.1211,
      "step": 6880
    },
    {
      "epoch": 0.014354166666666666,
      "grad_norm": 0.8845570683479309,
      "learning_rate": 0.0002999225385626615,
      "loss": 4.1261,
      "step": 6890
    },
    {
      "epoch": 0.014375,
      "grad_norm": 0.9453163743019104,
      "learning_rate": 0.0002999222214504347,
      "loss": 4.0783,
      "step": 6900
    },
    {
      "epoch": 0.014395833333333333,
      "grad_norm": 1.037510633468628,
      "learning_rate": 0.00029992190369060323,
      "loss": 4.0957,
      "step": 6910
    },
    {
      "epoch": 0.014416666666666666,
      "grad_norm": 0.9237430691719055,
      "learning_rate": 0.0002999215852831685,
      "loss": 4.0247,
      "step": 6920
    },
    {
      "epoch": 0.0144375,
      "grad_norm": 0.8403300642967224,
      "learning_rate": 0.0002999212662281318,
      "loss": 3.8862,
      "step": 6930
    },
    {
      "epoch": 0.014458333333333333,
      "grad_norm": 0.9654322862625122,
      "learning_rate": 0.00029992094652549455,
      "loss": 3.989,
      "step": 6940
    },
    {
      "epoch": 0.014479166666666666,
      "grad_norm": 0.9429084062576294,
      "learning_rate": 0.00029992062617525825,
      "loss": 4.1007,
      "step": 6950
    },
    {
      "epoch": 0.0145,
      "grad_norm": 0.9030852913856506,
      "learning_rate": 0.00029992030517742415,
      "loss": 3.996,
      "step": 6960
    },
    {
      "epoch": 0.014520833333333334,
      "grad_norm": 0.9190139770507812,
      "learning_rate": 0.00029991998353199364,
      "loss": 4.0217,
      "step": 6970
    },
    {
      "epoch": 0.014541666666666666,
      "grad_norm": 1.0145999193191528,
      "learning_rate": 0.0002999196612389682,
      "loss": 3.925,
      "step": 6980
    },
    {
      "epoch": 0.0145625,
      "grad_norm": 0.9598746299743652,
      "learning_rate": 0.00029991933829834913,
      "loss": 4.0229,
      "step": 6990
    },
    {
      "epoch": 0.014583333333333334,
      "grad_norm": 0.8927167654037476,
      "learning_rate": 0.0002999190147101379,
      "loss": 4.0605,
      "step": 7000
    },
    {
      "epoch": 0.014583333333333334,
      "eval_loss": 4.340586185455322,
      "eval_runtime": 11.0302,
      "eval_samples_per_second": 0.907,
      "eval_steps_per_second": 0.272,
      "step": 7000
    },
    {
      "epoch": 0.014604166666666666,
      "grad_norm": 1.0125157833099365,
      "learning_rate": 0.0002999186904743358,
      "loss": 3.9642,
      "step": 7010
    },
    {
      "epoch": 0.014625,
      "grad_norm": 0.9457781910896301,
      "learning_rate": 0.00029991836559094433,
      "loss": 4.0079,
      "step": 7020
    },
    {
      "epoch": 0.014645833333333334,
      "grad_norm": 0.9316348433494568,
      "learning_rate": 0.00029991804005996493,
      "loss": 4.0168,
      "step": 7030
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 0.9104083180427551,
      "learning_rate": 0.00029991771388139884,
      "loss": 4.0599,
      "step": 7040
    },
    {
      "epoch": 0.0146875,
      "grad_norm": 0.9380168914794922,
      "learning_rate": 0.00029991738705524763,
      "loss": 3.9804,
      "step": 7050
    },
    {
      "epoch": 0.014708333333333334,
      "grad_norm": 0.8020222187042236,
      "learning_rate": 0.0002999170595815126,
      "loss": 4.0416,
      "step": 7060
    },
    {
      "epoch": 0.014729166666666666,
      "grad_norm": 0.895160973072052,
      "learning_rate": 0.00029991673146019526,
      "loss": 4.0953,
      "step": 7070
    },
    {
      "epoch": 0.01475,
      "grad_norm": 0.9720396399497986,
      "learning_rate": 0.000299916402691297,
      "loss": 4.1505,
      "step": 7080
    },
    {
      "epoch": 0.014770833333333334,
      "grad_norm": 0.9162779450416565,
      "learning_rate": 0.00029991607327481916,
      "loss": 3.9746,
      "step": 7090
    },
    {
      "epoch": 0.014791666666666667,
      "grad_norm": 0.9347497224807739,
      "learning_rate": 0.00029991574321076327,
      "loss": 3.8849,
      "step": 7100
    },
    {
      "epoch": 0.0148125,
      "grad_norm": 1.1414587497711182,
      "learning_rate": 0.00029991541249913066,
      "loss": 4.1746,
      "step": 7110
    },
    {
      "epoch": 0.014833333333333334,
      "grad_norm": 0.8596989512443542,
      "learning_rate": 0.00029991508113992284,
      "loss": 4.0042,
      "step": 7120
    },
    {
      "epoch": 0.014854166666666667,
      "grad_norm": 1.5247185230255127,
      "learning_rate": 0.00029991474913314124,
      "loss": 4.0133,
      "step": 7130
    },
    {
      "epoch": 0.014875,
      "grad_norm": 1.1025023460388184,
      "learning_rate": 0.0002999144164787872,
      "loss": 4.0831,
      "step": 7140
    },
    {
      "epoch": 0.014895833333333334,
      "grad_norm": 0.8815367221832275,
      "learning_rate": 0.0002999140831768623,
      "loss": 4.1567,
      "step": 7150
    },
    {
      "epoch": 0.014916666666666667,
      "grad_norm": 0.8190339207649231,
      "learning_rate": 0.0002999137492273678,
      "loss": 4.0352,
      "step": 7160
    },
    {
      "epoch": 0.0149375,
      "grad_norm": 0.9389554858207703,
      "learning_rate": 0.0002999134146303053,
      "loss": 4.0819,
      "step": 7170
    },
    {
      "epoch": 0.014958333333333334,
      "grad_norm": 0.844062864780426,
      "learning_rate": 0.0002999130793856762,
      "loss": 4.1883,
      "step": 7180
    },
    {
      "epoch": 0.014979166666666667,
      "grad_norm": 0.9921501874923706,
      "learning_rate": 0.0002999127434934819,
      "loss": 4.0527,
      "step": 7190
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.8162594437599182,
      "learning_rate": 0.00029991240695372397,
      "loss": 4.1004,
      "step": 7200
    },
    {
      "epoch": 0.015020833333333334,
      "grad_norm": 0.9247971177101135,
      "learning_rate": 0.0002999120697664037,
      "loss": 4.0457,
      "step": 7210
    },
    {
      "epoch": 0.015041666666666667,
      "grad_norm": 0.8534733057022095,
      "learning_rate": 0.00029991173193152264,
      "loss": 4.056,
      "step": 7220
    },
    {
      "epoch": 0.0150625,
      "grad_norm": 0.9703700542449951,
      "learning_rate": 0.0002999113934490822,
      "loss": 3.9965,
      "step": 7230
    },
    {
      "epoch": 0.015083333333333334,
      "grad_norm": 0.9544861912727356,
      "learning_rate": 0.000299911054319084,
      "loss": 4.1055,
      "step": 7240
    },
    {
      "epoch": 0.015104166666666667,
      "grad_norm": 0.9065807461738586,
      "learning_rate": 0.0002999107145415293,
      "loss": 4.0456,
      "step": 7250
    },
    {
      "epoch": 0.015125,
      "grad_norm": 0.9795711636543274,
      "learning_rate": 0.00029991037411641967,
      "loss": 3.8591,
      "step": 7260
    },
    {
      "epoch": 0.015145833333333334,
      "grad_norm": 0.9871900081634521,
      "learning_rate": 0.00029991003304375655,
      "loss": 4.0524,
      "step": 7270
    },
    {
      "epoch": 0.015166666666666667,
      "grad_norm": 0.8816227316856384,
      "learning_rate": 0.00029990969132354144,
      "loss": 4.2103,
      "step": 7280
    },
    {
      "epoch": 0.0151875,
      "grad_norm": 0.9611108899116516,
      "learning_rate": 0.0002999093489557758,
      "loss": 4.1064,
      "step": 7290
    },
    {
      "epoch": 0.015208333333333334,
      "grad_norm": 0.9315329194068909,
      "learning_rate": 0.0002999090059404611,
      "loss": 3.9858,
      "step": 7300
    },
    {
      "epoch": 0.015229166666666667,
      "grad_norm": 0.8917229771614075,
      "learning_rate": 0.0002999086622775988,
      "loss": 4.1627,
      "step": 7310
    },
    {
      "epoch": 0.01525,
      "grad_norm": 1.0180741548538208,
      "learning_rate": 0.0002999083179671905,
      "loss": 4.0763,
      "step": 7320
    },
    {
      "epoch": 0.015270833333333334,
      "grad_norm": 0.9636371731758118,
      "learning_rate": 0.00029990797300923755,
      "loss": 3.9742,
      "step": 7330
    },
    {
      "epoch": 0.015291666666666667,
      "grad_norm": 1.1485958099365234,
      "learning_rate": 0.00029990762740374145,
      "loss": 3.9178,
      "step": 7340
    },
    {
      "epoch": 0.0153125,
      "grad_norm": 0.900506317615509,
      "learning_rate": 0.0002999072811507038,
      "loss": 4.1424,
      "step": 7350
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 0.9068747162818909,
      "learning_rate": 0.000299906934250126,
      "loss": 4.0313,
      "step": 7360
    },
    {
      "epoch": 0.015354166666666667,
      "grad_norm": 1.0739527940750122,
      "learning_rate": 0.0002999065867020097,
      "loss": 4.0776,
      "step": 7370
    },
    {
      "epoch": 0.015375,
      "grad_norm": 0.8621461987495422,
      "learning_rate": 0.0002999062385063561,
      "loss": 4.1099,
      "step": 7380
    },
    {
      "epoch": 0.015395833333333333,
      "grad_norm": 0.925075113773346,
      "learning_rate": 0.000299905889663167,
      "loss": 3.9909,
      "step": 7390
    },
    {
      "epoch": 0.015416666666666667,
      "grad_norm": 1.0692356824874878,
      "learning_rate": 0.00029990554017244377,
      "loss": 4.2384,
      "step": 7400
    },
    {
      "epoch": 0.0154375,
      "grad_norm": 0.8479160666465759,
      "learning_rate": 0.0002999051900341879,
      "loss": 3.983,
      "step": 7410
    },
    {
      "epoch": 0.015458333333333333,
      "grad_norm": 0.9838065505027771,
      "learning_rate": 0.000299904839248401,
      "loss": 3.9416,
      "step": 7420
    },
    {
      "epoch": 0.015479166666666667,
      "grad_norm": 0.8836420178413391,
      "learning_rate": 0.00029990448781508453,
      "loss": 4.1588,
      "step": 7430
    },
    {
      "epoch": 0.0155,
      "grad_norm": 0.8008750677108765,
      "learning_rate": 0.00029990413573424,
      "loss": 4.3644,
      "step": 7440
    },
    {
      "epoch": 0.015520833333333333,
      "grad_norm": 0.8938660621643066,
      "learning_rate": 0.00029990378300586893,
      "loss": 4.077,
      "step": 7450
    },
    {
      "epoch": 0.015541666666666667,
      "grad_norm": 0.9481860995292664,
      "learning_rate": 0.0002999034296299729,
      "loss": 4.0922,
      "step": 7460
    },
    {
      "epoch": 0.0155625,
      "grad_norm": 0.8930200934410095,
      "learning_rate": 0.00029990307560655326,
      "loss": 3.995,
      "step": 7470
    },
    {
      "epoch": 0.015583333333333333,
      "grad_norm": 1.2217803001403809,
      "learning_rate": 0.00029990272093561183,
      "loss": 3.9935,
      "step": 7480
    },
    {
      "epoch": 0.015604166666666667,
      "grad_norm": 1.000601887702942,
      "learning_rate": 0.0002999023656171499,
      "loss": 4.0182,
      "step": 7490
    },
    {
      "epoch": 0.015625,
      "grad_norm": 0.8854073882102966,
      "learning_rate": 0.0002999020096511691,
      "loss": 3.9662,
      "step": 7500
    },
    {
      "epoch": 0.015645833333333335,
      "grad_norm": 1.2044990062713623,
      "learning_rate": 0.0002999016530376709,
      "loss": 3.9801,
      "step": 7510
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 0.9241108298301697,
      "learning_rate": 0.00029990129577665695,
      "loss": 4.0193,
      "step": 7520
    },
    {
      "epoch": 0.0156875,
      "grad_norm": 0.7738756537437439,
      "learning_rate": 0.0002999009378681287,
      "loss": 3.9725,
      "step": 7530
    },
    {
      "epoch": 0.015708333333333335,
      "grad_norm": 0.9775682687759399,
      "learning_rate": 0.0002999005793120878,
      "loss": 4.1193,
      "step": 7540
    },
    {
      "epoch": 0.015729166666666666,
      "grad_norm": 0.9840127825737,
      "learning_rate": 0.0002999002201085357,
      "loss": 4.0843,
      "step": 7550
    },
    {
      "epoch": 0.01575,
      "grad_norm": 0.900884747505188,
      "learning_rate": 0.000299899860257474,
      "loss": 4.009,
      "step": 7560
    },
    {
      "epoch": 0.015770833333333335,
      "grad_norm": 0.8358213901519775,
      "learning_rate": 0.0002998994997589042,
      "loss": 4.149,
      "step": 7570
    },
    {
      "epoch": 0.015791666666666666,
      "grad_norm": 0.8391352891921997,
      "learning_rate": 0.00029989913861282793,
      "loss": 3.9244,
      "step": 7580
    },
    {
      "epoch": 0.0158125,
      "grad_norm": 0.9761918783187866,
      "learning_rate": 0.0002998987768192467,
      "loss": 4.0347,
      "step": 7590
    },
    {
      "epoch": 0.015833333333333335,
      "grad_norm": 1.1620367765426636,
      "learning_rate": 0.0002998984143781621,
      "loss": 3.9484,
      "step": 7600
    },
    {
      "epoch": 0.015854166666666666,
      "grad_norm": 0.9000586271286011,
      "learning_rate": 0.0002998980512895756,
      "loss": 4.0313,
      "step": 7610
    },
    {
      "epoch": 0.015875,
      "grad_norm": 0.9657297134399414,
      "learning_rate": 0.00029989768755348895,
      "loss": 4.0561,
      "step": 7620
    },
    {
      "epoch": 0.015895833333333335,
      "grad_norm": 1.0161843299865723,
      "learning_rate": 0.0002998973231699036,
      "loss": 4.1927,
      "step": 7630
    },
    {
      "epoch": 0.015916666666666666,
      "grad_norm": 0.9004241824150085,
      "learning_rate": 0.0002998969581388211,
      "loss": 4.1073,
      "step": 7640
    },
    {
      "epoch": 0.0159375,
      "grad_norm": 0.9844752550125122,
      "learning_rate": 0.00029989659246024315,
      "loss": 4.1457,
      "step": 7650
    },
    {
      "epoch": 0.015958333333333335,
      "grad_norm": 0.9914301633834839,
      "learning_rate": 0.0002998962261341712,
      "loss": 4.1176,
      "step": 7660
    },
    {
      "epoch": 0.015979166666666666,
      "grad_norm": 0.9517707228660583,
      "learning_rate": 0.0002998958591606069,
      "loss": 4.0301,
      "step": 7670
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.9848448634147644,
      "learning_rate": 0.0002998954915395519,
      "loss": 3.9633,
      "step": 7680
    },
    {
      "epoch": 0.016020833333333335,
      "grad_norm": 0.9697771668434143,
      "learning_rate": 0.0002998951232710076,
      "loss": 4.0888,
      "step": 7690
    },
    {
      "epoch": 0.016041666666666666,
      "grad_norm": 0.8675816655158997,
      "learning_rate": 0.0002998947543549757,
      "loss": 4.1535,
      "step": 7700
    },
    {
      "epoch": 0.0160625,
      "grad_norm": 0.888594925403595,
      "learning_rate": 0.00029989438479145785,
      "loss": 4.0266,
      "step": 7710
    },
    {
      "epoch": 0.016083333333333335,
      "grad_norm": 0.8527824878692627,
      "learning_rate": 0.0002998940145804556,
      "loss": 4.076,
      "step": 7720
    },
    {
      "epoch": 0.016104166666666666,
      "grad_norm": 0.8573829531669617,
      "learning_rate": 0.0002998936437219705,
      "loss": 4.1426,
      "step": 7730
    },
    {
      "epoch": 0.016125,
      "grad_norm": 0.8374878168106079,
      "learning_rate": 0.0002998932722160042,
      "loss": 4.2586,
      "step": 7740
    },
    {
      "epoch": 0.016145833333333335,
      "grad_norm": 0.9867334365844727,
      "learning_rate": 0.0002998929000625583,
      "loss": 3.9878,
      "step": 7750
    },
    {
      "epoch": 0.016166666666666666,
      "grad_norm": 1.0349607467651367,
      "learning_rate": 0.0002998925272616344,
      "loss": 3.9155,
      "step": 7760
    },
    {
      "epoch": 0.0161875,
      "grad_norm": 0.9910019040107727,
      "learning_rate": 0.00029989215381323413,
      "loss": 4.1652,
      "step": 7770
    },
    {
      "epoch": 0.016208333333333335,
      "grad_norm": 1.1321102380752563,
      "learning_rate": 0.0002998917797173591,
      "loss": 3.9685,
      "step": 7780
    },
    {
      "epoch": 0.016229166666666666,
      "grad_norm": 0.8418395519256592,
      "learning_rate": 0.00029989140497401086,
      "loss": 4.1075,
      "step": 7790
    },
    {
      "epoch": 0.01625,
      "grad_norm": 0.8726577758789062,
      "learning_rate": 0.0002998910295831911,
      "loss": 4.1443,
      "step": 7800
    },
    {
      "epoch": 0.016270833333333335,
      "grad_norm": 0.9628142714500427,
      "learning_rate": 0.00029989065354490144,
      "loss": 3.9348,
      "step": 7810
    },
    {
      "epoch": 0.016291666666666666,
      "grad_norm": 0.875770092010498,
      "learning_rate": 0.00029989027685914344,
      "loss": 4.152,
      "step": 7820
    },
    {
      "epoch": 0.0163125,
      "grad_norm": 0.890224039554596,
      "learning_rate": 0.0002998898995259188,
      "loss": 4.1304,
      "step": 7830
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 0.9940407276153564,
      "learning_rate": 0.00029988952154522917,
      "loss": 4.1147,
      "step": 7840
    },
    {
      "epoch": 0.016354166666666666,
      "grad_norm": 1.057767629623413,
      "learning_rate": 0.0002998891429170761,
      "loss": 4.0949,
      "step": 7850
    },
    {
      "epoch": 0.016375,
      "grad_norm": 0.8641510009765625,
      "learning_rate": 0.00029988876364146126,
      "loss": 4.0559,
      "step": 7860
    },
    {
      "epoch": 0.01639583333333333,
      "grad_norm": 1.054960012435913,
      "learning_rate": 0.00029988838371838633,
      "loss": 3.9667,
      "step": 7870
    },
    {
      "epoch": 0.016416666666666666,
      "grad_norm": 0.887367308139801,
      "learning_rate": 0.0002998880031478528,
      "loss": 4.2097,
      "step": 7880
    },
    {
      "epoch": 0.0164375,
      "grad_norm": 1.0446540117263794,
      "learning_rate": 0.0002998876219298625,
      "loss": 3.9531,
      "step": 7890
    },
    {
      "epoch": 0.016458333333333332,
      "grad_norm": 0.8754667043685913,
      "learning_rate": 0.00029988724006441706,
      "loss": 4.1747,
      "step": 7900
    },
    {
      "epoch": 0.016479166666666666,
      "grad_norm": 0.867599606513977,
      "learning_rate": 0.00029988685755151805,
      "loss": 4.2133,
      "step": 7910
    },
    {
      "epoch": 0.0165,
      "grad_norm": 0.8551528453826904,
      "learning_rate": 0.00029988647439116705,
      "loss": 4.0214,
      "step": 7920
    },
    {
      "epoch": 0.016520833333333332,
      "grad_norm": 0.9514595866203308,
      "learning_rate": 0.0002998860905833659,
      "loss": 4.0321,
      "step": 7930
    },
    {
      "epoch": 0.016541666666666666,
      "grad_norm": 0.9246469140052795,
      "learning_rate": 0.0002998857061281161,
      "loss": 4.0849,
      "step": 7940
    },
    {
      "epoch": 0.0165625,
      "grad_norm": 0.8294110298156738,
      "learning_rate": 0.00029988532102541947,
      "loss": 3.8799,
      "step": 7950
    },
    {
      "epoch": 0.016583333333333332,
      "grad_norm": 0.9265419840812683,
      "learning_rate": 0.0002998849352752775,
      "loss": 4.2849,
      "step": 7960
    },
    {
      "epoch": 0.016604166666666666,
      "grad_norm": 0.9284372329711914,
      "learning_rate": 0.000299884548877692,
      "loss": 3.9457,
      "step": 7970
    },
    {
      "epoch": 0.016625,
      "grad_norm": 0.8611606955528259,
      "learning_rate": 0.00029988416183266456,
      "loss": 3.8719,
      "step": 7980
    },
    {
      "epoch": 0.016645833333333332,
      "grad_norm": 0.975935161113739,
      "learning_rate": 0.00029988377414019685,
      "loss": 4.0905,
      "step": 7990
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 0.8938225507736206,
      "learning_rate": 0.00029988338580029056,
      "loss": 4.0504,
      "step": 8000
    },
    {
      "epoch": 0.016666666666666666,
      "eval_loss": 4.359135627746582,
      "eval_runtime": 9.6608,
      "eval_samples_per_second": 1.035,
      "eval_steps_per_second": 0.311,
      "step": 8000
    },
    {
      "epoch": 0.0166875,
      "grad_norm": 0.8844358325004578,
      "learning_rate": 0.0002998829968129474,
      "loss": 4.159,
      "step": 8010
    },
    {
      "epoch": 0.016708333333333332,
      "grad_norm": 0.945570170879364,
      "learning_rate": 0.00029988260717816903,
      "loss": 4.0678,
      "step": 8020
    },
    {
      "epoch": 0.016729166666666666,
      "grad_norm": 0.9997355341911316,
      "learning_rate": 0.00029988221689595705,
      "loss": 4.2037,
      "step": 8030
    },
    {
      "epoch": 0.01675,
      "grad_norm": 0.9758825898170471,
      "learning_rate": 0.00029988182596631325,
      "loss": 3.8107,
      "step": 8040
    },
    {
      "epoch": 0.016770833333333332,
      "grad_norm": 0.7964422702789307,
      "learning_rate": 0.00029988143438923937,
      "loss": 4.2898,
      "step": 8050
    },
    {
      "epoch": 0.016791666666666667,
      "grad_norm": 0.903896689414978,
      "learning_rate": 0.000299881042164737,
      "loss": 4.1031,
      "step": 8060
    },
    {
      "epoch": 0.0168125,
      "grad_norm": 0.9570715427398682,
      "learning_rate": 0.00029988064929280776,
      "loss": 3.9441,
      "step": 8070
    },
    {
      "epoch": 0.016833333333333332,
      "grad_norm": 1.100372076034546,
      "learning_rate": 0.00029988025577345345,
      "loss": 4.1331,
      "step": 8080
    },
    {
      "epoch": 0.016854166666666667,
      "grad_norm": 1.2692229747772217,
      "learning_rate": 0.00029987986160667584,
      "loss": 4.1688,
      "step": 8090
    },
    {
      "epoch": 0.016875,
      "grad_norm": 0.9311814904212952,
      "learning_rate": 0.00029987946679247655,
      "loss": 4.0383,
      "step": 8100
    },
    {
      "epoch": 0.016895833333333332,
      "grad_norm": 0.9424052834510803,
      "learning_rate": 0.00029987907133085726,
      "loss": 4.4557,
      "step": 8110
    },
    {
      "epoch": 0.016916666666666667,
      "grad_norm": 0.9361470341682434,
      "learning_rate": 0.0002998786752218197,
      "loss": 3.956,
      "step": 8120
    },
    {
      "epoch": 0.0169375,
      "grad_norm": 0.9429013133049011,
      "learning_rate": 0.0002998782784653656,
      "loss": 4.072,
      "step": 8130
    },
    {
      "epoch": 0.016958333333333332,
      "grad_norm": 0.9332160949707031,
      "learning_rate": 0.00029987788106149664,
      "loss": 4.1583,
      "step": 8140
    },
    {
      "epoch": 0.016979166666666667,
      "grad_norm": 0.8462079167366028,
      "learning_rate": 0.0002998774830102146,
      "loss": 4.1381,
      "step": 8150
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.9293659925460815,
      "learning_rate": 0.00029987708431152113,
      "loss": 4.1782,
      "step": 8160
    },
    {
      "epoch": 0.017020833333333332,
      "grad_norm": 0.931438684463501,
      "learning_rate": 0.000299876684965418,
      "loss": 4.243,
      "step": 8170
    },
    {
      "epoch": 0.017041666666666667,
      "grad_norm": 0.8117160797119141,
      "learning_rate": 0.0002998762849719069,
      "loss": 4.0017,
      "step": 8180
    },
    {
      "epoch": 0.0170625,
      "grad_norm": 1.0574076175689697,
      "learning_rate": 0.0002998758843309896,
      "loss": 4.1704,
      "step": 8190
    },
    {
      "epoch": 0.017083333333333332,
      "grad_norm": 0.9583580493927002,
      "learning_rate": 0.0002998754830426678,
      "loss": 4.0298,
      "step": 8200
    },
    {
      "epoch": 0.017104166666666667,
      "grad_norm": 0.8882920145988464,
      "learning_rate": 0.00029987508110694317,
      "loss": 3.9623,
      "step": 8210
    },
    {
      "epoch": 0.017125,
      "grad_norm": 0.9885251522064209,
      "learning_rate": 0.00029987467852381764,
      "loss": 3.901,
      "step": 8220
    },
    {
      "epoch": 0.017145833333333332,
      "grad_norm": 1.0381290912628174,
      "learning_rate": 0.0002998742752932927,
      "loss": 4.1142,
      "step": 8230
    },
    {
      "epoch": 0.017166666666666667,
      "grad_norm": 1.0162827968597412,
      "learning_rate": 0.0002998738714153703,
      "loss": 3.8985,
      "step": 8240
    },
    {
      "epoch": 0.0171875,
      "grad_norm": 1.0146030187606812,
      "learning_rate": 0.00029987346689005204,
      "loss": 3.9436,
      "step": 8250
    },
    {
      "epoch": 0.017208333333333332,
      "grad_norm": 0.8633815050125122,
      "learning_rate": 0.00029987306171733977,
      "loss": 4.2695,
      "step": 8260
    },
    {
      "epoch": 0.017229166666666667,
      "grad_norm": 0.8891245722770691,
      "learning_rate": 0.0002998726558972352,
      "loss": 4.0899,
      "step": 8270
    },
    {
      "epoch": 0.01725,
      "grad_norm": 0.9359492063522339,
      "learning_rate": 0.00029987224942974006,
      "loss": 3.9815,
      "step": 8280
    },
    {
      "epoch": 0.017270833333333332,
      "grad_norm": 0.9664071798324585,
      "learning_rate": 0.0002998718423148561,
      "loss": 4.1807,
      "step": 8290
    },
    {
      "epoch": 0.017291666666666667,
      "grad_norm": 1.0486708879470825,
      "learning_rate": 0.00029987143455258516,
      "loss": 4.1797,
      "step": 8300
    },
    {
      "epoch": 0.0173125,
      "grad_norm": 0.9385436773300171,
      "learning_rate": 0.0002998710261429289,
      "loss": 4.0756,
      "step": 8310
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 0.9213384389877319,
      "learning_rate": 0.00029987061708588916,
      "loss": 4.0342,
      "step": 8320
    },
    {
      "epoch": 0.017354166666666667,
      "grad_norm": 0.948731541633606,
      "learning_rate": 0.00029987020738146767,
      "loss": 4.118,
      "step": 8330
    },
    {
      "epoch": 0.017375,
      "grad_norm": 0.9450809955596924,
      "learning_rate": 0.0002998697970296662,
      "loss": 4.1192,
      "step": 8340
    },
    {
      "epoch": 0.017395833333333333,
      "grad_norm": 0.8671319484710693,
      "learning_rate": 0.0002998693860304865,
      "loss": 4.0003,
      "step": 8350
    },
    {
      "epoch": 0.017416666666666667,
      "grad_norm": 0.9694793224334717,
      "learning_rate": 0.00029986897438393043,
      "loss": 3.8087,
      "step": 8360
    },
    {
      "epoch": 0.0174375,
      "grad_norm": 0.9735819101333618,
      "learning_rate": 0.0002998685620899997,
      "loss": 4.1153,
      "step": 8370
    },
    {
      "epoch": 0.017458333333333333,
      "grad_norm": 0.9942685961723328,
      "learning_rate": 0.0002998681491486961,
      "loss": 4.0003,
      "step": 8380
    },
    {
      "epoch": 0.017479166666666667,
      "grad_norm": 0.9571182727813721,
      "learning_rate": 0.0002998677355600214,
      "loss": 4.0935,
      "step": 8390
    },
    {
      "epoch": 0.0175,
      "grad_norm": 0.7830858826637268,
      "learning_rate": 0.0002998673213239774,
      "loss": 4.2864,
      "step": 8400
    },
    {
      "epoch": 0.017520833333333333,
      "grad_norm": 1.0673060417175293,
      "learning_rate": 0.0002998669064405659,
      "loss": 3.9124,
      "step": 8410
    },
    {
      "epoch": 0.017541666666666667,
      "grad_norm": 0.8895696997642517,
      "learning_rate": 0.0002998664909097887,
      "loss": 4.0705,
      "step": 8420
    },
    {
      "epoch": 0.0175625,
      "grad_norm": 1.176624059677124,
      "learning_rate": 0.0002998660747316476,
      "loss": 4.1571,
      "step": 8430
    },
    {
      "epoch": 0.017583333333333333,
      "grad_norm": 1.1625657081604004,
      "learning_rate": 0.00029986565790614435,
      "loss": 4.0164,
      "step": 8440
    },
    {
      "epoch": 0.017604166666666667,
      "grad_norm": 1.1032110452651978,
      "learning_rate": 0.0002998652404332808,
      "loss": 3.9599,
      "step": 8450
    },
    {
      "epoch": 0.017625,
      "grad_norm": 1.0995789766311646,
      "learning_rate": 0.0002998648223130587,
      "loss": 4.0638,
      "step": 8460
    },
    {
      "epoch": 0.017645833333333333,
      "grad_norm": 0.8630760312080383,
      "learning_rate": 0.0002998644035454799,
      "loss": 3.9497,
      "step": 8470
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 0.838282585144043,
      "learning_rate": 0.0002998639841305462,
      "loss": 4.0781,
      "step": 8480
    },
    {
      "epoch": 0.0176875,
      "grad_norm": 0.7680670022964478,
      "learning_rate": 0.0002998635640682594,
      "loss": 4.1953,
      "step": 8490
    },
    {
      "epoch": 0.017708333333333333,
      "grad_norm": 0.8610295653343201,
      "learning_rate": 0.00029986314335862135,
      "loss": 4.0202,
      "step": 8500
    },
    {
      "epoch": 0.017729166666666667,
      "grad_norm": 0.9679912328720093,
      "learning_rate": 0.0002998627220016338,
      "loss": 4.1376,
      "step": 8510
    },
    {
      "epoch": 0.01775,
      "grad_norm": 0.8499793410301208,
      "learning_rate": 0.0002998622999972987,
      "loss": 4.2573,
      "step": 8520
    },
    {
      "epoch": 0.017770833333333333,
      "grad_norm": 0.918820321559906,
      "learning_rate": 0.00029986187734561766,
      "loss": 4.1539,
      "step": 8530
    },
    {
      "epoch": 0.017791666666666667,
      "grad_norm": 1.0979641675949097,
      "learning_rate": 0.0002998614540465927,
      "loss": 4.0731,
      "step": 8540
    },
    {
      "epoch": 0.0178125,
      "grad_norm": 0.9051472544670105,
      "learning_rate": 0.0002998610301002256,
      "loss": 4.0903,
      "step": 8550
    },
    {
      "epoch": 0.017833333333333333,
      "grad_norm": 0.9612399935722351,
      "learning_rate": 0.0002998606055065181,
      "loss": 3.9094,
      "step": 8560
    },
    {
      "epoch": 0.017854166666666667,
      "grad_norm": 1.085081696510315,
      "learning_rate": 0.00029986018026547214,
      "loss": 4.0771,
      "step": 8570
    },
    {
      "epoch": 0.017875,
      "grad_norm": 0.9349003434181213,
      "learning_rate": 0.0002998597543770895,
      "loss": 4.1552,
      "step": 8580
    },
    {
      "epoch": 0.017895833333333333,
      "grad_norm": 0.8839707374572754,
      "learning_rate": 0.0002998593278413721,
      "loss": 4.0256,
      "step": 8590
    },
    {
      "epoch": 0.017916666666666668,
      "grad_norm": 0.958372950553894,
      "learning_rate": 0.00029985890065832165,
      "loss": 4.0301,
      "step": 8600
    },
    {
      "epoch": 0.0179375,
      "grad_norm": 1.2134268283843994,
      "learning_rate": 0.0002998584728279401,
      "loss": 4.1408,
      "step": 8610
    },
    {
      "epoch": 0.017958333333333333,
      "grad_norm": 0.9239814281463623,
      "learning_rate": 0.0002998580443502293,
      "loss": 4.0323,
      "step": 8620
    },
    {
      "epoch": 0.017979166666666668,
      "grad_norm": 0.843664824962616,
      "learning_rate": 0.00029985761522519094,
      "loss": 3.9146,
      "step": 8630
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.2419476509094238,
      "learning_rate": 0.00029985718545282714,
      "loss": 4.1792,
      "step": 8640
    },
    {
      "epoch": 0.018020833333333333,
      "grad_norm": 1.329093098640442,
      "learning_rate": 0.00029985675503313956,
      "loss": 4.2059,
      "step": 8650
    },
    {
      "epoch": 0.018041666666666668,
      "grad_norm": 0.8298959136009216,
      "learning_rate": 0.0002998563239661301,
      "loss": 3.9852,
      "step": 8660
    },
    {
      "epoch": 0.0180625,
      "grad_norm": 0.7582468390464783,
      "learning_rate": 0.0002998558922518007,
      "loss": 4.084,
      "step": 8670
    },
    {
      "epoch": 0.018083333333333333,
      "grad_norm": 0.9785591959953308,
      "learning_rate": 0.0002998554598901531,
      "loss": 4.0348,
      "step": 8680
    },
    {
      "epoch": 0.018104166666666668,
      "grad_norm": 0.9617912769317627,
      "learning_rate": 0.00029985502688118925,
      "loss": 3.9361,
      "step": 8690
    },
    {
      "epoch": 0.018125,
      "grad_norm": 0.9017140865325928,
      "learning_rate": 0.000299854593224911,
      "loss": 4.1316,
      "step": 8700
    },
    {
      "epoch": 0.018145833333333333,
      "grad_norm": 0.8073142170906067,
      "learning_rate": 0.00029985415892132023,
      "loss": 3.9029,
      "step": 8710
    },
    {
      "epoch": 0.018166666666666668,
      "grad_norm": 1.0022088289260864,
      "learning_rate": 0.0002998537239704188,
      "loss": 4.1955,
      "step": 8720
    },
    {
      "epoch": 0.0181875,
      "grad_norm": 0.8683967590332031,
      "learning_rate": 0.0002998532883722086,
      "loss": 3.9902,
      "step": 8730
    },
    {
      "epoch": 0.018208333333333333,
      "grad_norm": 0.8850433230400085,
      "learning_rate": 0.0002998528521266915,
      "loss": 3.9935,
      "step": 8740
    },
    {
      "epoch": 0.018229166666666668,
      "grad_norm": 0.9850907921791077,
      "learning_rate": 0.0002998524152338694,
      "loss": 4.1306,
      "step": 8750
    },
    {
      "epoch": 0.01825,
      "grad_norm": 0.9019120335578918,
      "learning_rate": 0.00029985197769374423,
      "loss": 4.0238,
      "step": 8760
    },
    {
      "epoch": 0.018270833333333333,
      "grad_norm": 0.9077861309051514,
      "learning_rate": 0.0002998515395063177,
      "loss": 4.0197,
      "step": 8770
    },
    {
      "epoch": 0.018291666666666668,
      "grad_norm": 1.1095470190048218,
      "learning_rate": 0.000299851100671592,
      "loss": 3.9661,
      "step": 8780
    },
    {
      "epoch": 0.0183125,
      "grad_norm": 0.8263306617736816,
      "learning_rate": 0.0002998506611895688,
      "loss": 4.087,
      "step": 8790
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 1.001594066619873,
      "learning_rate": 0.00029985022106025,
      "loss": 4.042,
      "step": 8800
    },
    {
      "epoch": 0.018354166666666668,
      "grad_norm": 0.7825855016708374,
      "learning_rate": 0.0002998497802836376,
      "loss": 3.9146,
      "step": 8810
    },
    {
      "epoch": 0.018375,
      "grad_norm": 0.8702734708786011,
      "learning_rate": 0.00029984933885973355,
      "loss": 4.0408,
      "step": 8820
    },
    {
      "epoch": 0.018395833333333333,
      "grad_norm": 0.8864033222198486,
      "learning_rate": 0.00029984889678853955,
      "loss": 4.0739,
      "step": 8830
    },
    {
      "epoch": 0.018416666666666668,
      "grad_norm": 1.0076587200164795,
      "learning_rate": 0.00029984845407005767,
      "loss": 4.013,
      "step": 8840
    },
    {
      "epoch": 0.0184375,
      "grad_norm": 0.935309886932373,
      "learning_rate": 0.00029984801070428974,
      "loss": 4.1587,
      "step": 8850
    },
    {
      "epoch": 0.018458333333333334,
      "grad_norm": 0.8029825687408447,
      "learning_rate": 0.00029984756669123783,
      "loss": 4.055,
      "step": 8860
    },
    {
      "epoch": 0.018479166666666668,
      "grad_norm": 0.8799611926078796,
      "learning_rate": 0.00029984712203090367,
      "loss": 3.9093,
      "step": 8870
    },
    {
      "epoch": 0.0185,
      "grad_norm": 0.9531365633010864,
      "learning_rate": 0.0002998466767232892,
      "loss": 3.9717,
      "step": 8880
    },
    {
      "epoch": 0.018520833333333334,
      "grad_norm": 0.884185254573822,
      "learning_rate": 0.0002998462307683965,
      "loss": 3.9517,
      "step": 8890
    },
    {
      "epoch": 0.018541666666666668,
      "grad_norm": 0.9882393479347229,
      "learning_rate": 0.00029984578416622737,
      "loss": 4.0974,
      "step": 8900
    },
    {
      "epoch": 0.0185625,
      "grad_norm": 0.8401179313659668,
      "learning_rate": 0.0002998453369167838,
      "loss": 4.1953,
      "step": 8910
    },
    {
      "epoch": 0.018583333333333334,
      "grad_norm": 0.9629188179969788,
      "learning_rate": 0.0002998448890200676,
      "loss": 4.0424,
      "step": 8920
    },
    {
      "epoch": 0.018604166666666668,
      "grad_norm": 1.0426764488220215,
      "learning_rate": 0.0002998444404760808,
      "loss": 4.0312,
      "step": 8930
    },
    {
      "epoch": 0.018625,
      "grad_norm": 0.9690893292427063,
      "learning_rate": 0.0002998439912848254,
      "loss": 3.9159,
      "step": 8940
    },
    {
      "epoch": 0.018645833333333334,
      "grad_norm": 0.8988893032073975,
      "learning_rate": 0.0002998435414463032,
      "loss": 4.1215,
      "step": 8950
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 1.0951426029205322,
      "learning_rate": 0.00029984309096051624,
      "loss": 3.9974,
      "step": 8960
    },
    {
      "epoch": 0.0186875,
      "grad_norm": 0.858089029788971,
      "learning_rate": 0.0002998426398274665,
      "loss": 3.8983,
      "step": 8970
    },
    {
      "epoch": 0.018708333333333334,
      "grad_norm": 0.9532752633094788,
      "learning_rate": 0.0002998421880471558,
      "loss": 4.1317,
      "step": 8980
    },
    {
      "epoch": 0.01872916666666667,
      "grad_norm": 1.2736117839813232,
      "learning_rate": 0.00029984173561958615,
      "loss": 4.2258,
      "step": 8990
    },
    {
      "epoch": 0.01875,
      "grad_norm": 1.0548949241638184,
      "learning_rate": 0.0002998412825447595,
      "loss": 4.1096,
      "step": 9000
    },
    {
      "epoch": 0.01875,
      "eval_loss": 4.345475673675537,
      "eval_runtime": 10.5435,
      "eval_samples_per_second": 0.948,
      "eval_steps_per_second": 0.285,
      "step": 9000
    },
    {
      "epoch": 0.018770833333333334,
      "grad_norm": 0.9277525544166565,
      "learning_rate": 0.00029984082882267786,
      "loss": 4.2696,
      "step": 9010
    },
    {
      "epoch": 0.01879166666666667,
      "grad_norm": 1.0537359714508057,
      "learning_rate": 0.00029984037445334317,
      "loss": 4.113,
      "step": 9020
    },
    {
      "epoch": 0.0188125,
      "grad_norm": 0.8888839483261108,
      "learning_rate": 0.0002998399194367574,
      "loss": 4.0897,
      "step": 9030
    },
    {
      "epoch": 0.018833333333333334,
      "grad_norm": 0.9012905955314636,
      "learning_rate": 0.0002998394637729224,
      "loss": 4.0483,
      "step": 9040
    },
    {
      "epoch": 0.01885416666666667,
      "grad_norm": 0.966414749622345,
      "learning_rate": 0.00029983900746184027,
      "loss": 4.183,
      "step": 9050
    },
    {
      "epoch": 0.018875,
      "grad_norm": 0.8427063822746277,
      "learning_rate": 0.00029983855050351297,
      "loss": 3.8561,
      "step": 9060
    },
    {
      "epoch": 0.018895833333333334,
      "grad_norm": 0.823745608329773,
      "learning_rate": 0.0002998380928979424,
      "loss": 4.0483,
      "step": 9070
    },
    {
      "epoch": 0.018916666666666665,
      "grad_norm": 0.9898422360420227,
      "learning_rate": 0.00029983763464513057,
      "loss": 3.9237,
      "step": 9080
    },
    {
      "epoch": 0.0189375,
      "grad_norm": 0.8690701723098755,
      "learning_rate": 0.00029983717574507947,
      "loss": 4.0887,
      "step": 9090
    },
    {
      "epoch": 0.018958333333333334,
      "grad_norm": 1.0593056678771973,
      "learning_rate": 0.0002998367161977911,
      "loss": 4.2075,
      "step": 9100
    },
    {
      "epoch": 0.018979166666666665,
      "grad_norm": 1.0398879051208496,
      "learning_rate": 0.0002998362560032674,
      "loss": 4.1353,
      "step": 9110
    },
    {
      "epoch": 0.019,
      "grad_norm": 0.871092677116394,
      "learning_rate": 0.00029983579516151045,
      "loss": 4.1322,
      "step": 9120
    },
    {
      "epoch": 0.019020833333333334,
      "grad_norm": 0.8651396036148071,
      "learning_rate": 0.0002998353336725221,
      "loss": 3.9945,
      "step": 9130
    },
    {
      "epoch": 0.019041666666666665,
      "grad_norm": 0.8620742559432983,
      "learning_rate": 0.00029983487153630446,
      "loss": 4.0121,
      "step": 9140
    },
    {
      "epoch": 0.0190625,
      "grad_norm": 0.9897534847259521,
      "learning_rate": 0.00029983440875285943,
      "loss": 3.8512,
      "step": 9150
    },
    {
      "epoch": 0.019083333333333334,
      "grad_norm": 0.912268340587616,
      "learning_rate": 0.0002998339453221891,
      "loss": 4.0959,
      "step": 9160
    },
    {
      "epoch": 0.019104166666666665,
      "grad_norm": 0.9242444634437561,
      "learning_rate": 0.0002998334812442955,
      "loss": 3.9677,
      "step": 9170
    },
    {
      "epoch": 0.019125,
      "grad_norm": 0.9498921036720276,
      "learning_rate": 0.00029983301651918045,
      "loss": 3.9376,
      "step": 9180
    },
    {
      "epoch": 0.019145833333333334,
      "grad_norm": 0.9305335879325867,
      "learning_rate": 0.0002998325511468462,
      "loss": 4.0968,
      "step": 9190
    },
    {
      "epoch": 0.019166666666666665,
      "grad_norm": 0.8681609034538269,
      "learning_rate": 0.0002998320851272945,
      "loss": 3.9807,
      "step": 9200
    },
    {
      "epoch": 0.0191875,
      "grad_norm": 0.8862873911857605,
      "learning_rate": 0.0002998316184605276,
      "loss": 3.9169,
      "step": 9210
    },
    {
      "epoch": 0.019208333333333334,
      "grad_norm": 1.2506145238876343,
      "learning_rate": 0.0002998311511465474,
      "loss": 4.0204,
      "step": 9220
    },
    {
      "epoch": 0.019229166666666665,
      "grad_norm": 0.8647387027740479,
      "learning_rate": 0.0002998306831853559,
      "loss": 4.1874,
      "step": 9230
    },
    {
      "epoch": 0.01925,
      "grad_norm": 0.8172548413276672,
      "learning_rate": 0.00029983021457695517,
      "loss": 4.0949,
      "step": 9240
    },
    {
      "epoch": 0.019270833333333334,
      "grad_norm": 0.9220440983772278,
      "learning_rate": 0.0002998297453213472,
      "loss": 4.0685,
      "step": 9250
    },
    {
      "epoch": 0.019291666666666665,
      "grad_norm": 0.843744695186615,
      "learning_rate": 0.0002998292754185341,
      "loss": 4.0763,
      "step": 9260
    },
    {
      "epoch": 0.0193125,
      "grad_norm": 0.8689762949943542,
      "learning_rate": 0.0002998288048685178,
      "loss": 4.0799,
      "step": 9270
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 0.9222022294998169,
      "learning_rate": 0.00029982833367130036,
      "loss": 4.103,
      "step": 9280
    },
    {
      "epoch": 0.019354166666666665,
      "grad_norm": 0.8696931004524231,
      "learning_rate": 0.00029982786182688385,
      "loss": 4.0024,
      "step": 9290
    },
    {
      "epoch": 0.019375,
      "grad_norm": 0.9493642449378967,
      "learning_rate": 0.00029982738933527026,
      "loss": 3.9488,
      "step": 9300
    },
    {
      "epoch": 0.019395833333333334,
      "grad_norm": 0.8894075751304626,
      "learning_rate": 0.0002998269161964617,
      "loss": 3.9632,
      "step": 9310
    },
    {
      "epoch": 0.019416666666666665,
      "grad_norm": 0.9133402109146118,
      "learning_rate": 0.00029982644241046004,
      "loss": 4.0253,
      "step": 9320
    },
    {
      "epoch": 0.0194375,
      "grad_norm": 0.9435531497001648,
      "learning_rate": 0.00029982596797726755,
      "loss": 4.0884,
      "step": 9330
    },
    {
      "epoch": 0.019458333333333334,
      "grad_norm": 0.8678200840950012,
      "learning_rate": 0.0002998254928968862,
      "loss": 4.1925,
      "step": 9340
    },
    {
      "epoch": 0.019479166666666665,
      "grad_norm": 0.8157002925872803,
      "learning_rate": 0.000299825017169318,
      "loss": 4.1566,
      "step": 9350
    },
    {
      "epoch": 0.0195,
      "grad_norm": 0.8052384853363037,
      "learning_rate": 0.000299824540794565,
      "loss": 4.3168,
      "step": 9360
    },
    {
      "epoch": 0.019520833333333334,
      "grad_norm": 0.8435333967208862,
      "learning_rate": 0.00029982406377262934,
      "loss": 3.9149,
      "step": 9370
    },
    {
      "epoch": 0.019541666666666666,
      "grad_norm": 0.7847732305526733,
      "learning_rate": 0.000299823586103513,
      "loss": 4.0877,
      "step": 9380
    },
    {
      "epoch": 0.0195625,
      "grad_norm": 0.94866544008255,
      "learning_rate": 0.0002998231077872181,
      "loss": 4.0232,
      "step": 9390
    },
    {
      "epoch": 0.019583333333333335,
      "grad_norm": 0.8169416785240173,
      "learning_rate": 0.00029982262882374664,
      "loss": 3.9902,
      "step": 9400
    },
    {
      "epoch": 0.019604166666666666,
      "grad_norm": 0.9127697944641113,
      "learning_rate": 0.00029982214921310074,
      "loss": 3.9247,
      "step": 9410
    },
    {
      "epoch": 0.019625,
      "grad_norm": 0.9711620807647705,
      "learning_rate": 0.0002998216689552825,
      "loss": 4.1867,
      "step": 9420
    },
    {
      "epoch": 0.019645833333333335,
      "grad_norm": 0.9964255094528198,
      "learning_rate": 0.0002998211880502939,
      "loss": 4.0062,
      "step": 9430
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 1.0919461250305176,
      "learning_rate": 0.00029982070649813713,
      "loss": 4.0073,
      "step": 9440
    },
    {
      "epoch": 0.0196875,
      "grad_norm": 0.8851948380470276,
      "learning_rate": 0.0002998202242988141,
      "loss": 3.8325,
      "step": 9450
    },
    {
      "epoch": 0.019708333333333335,
      "grad_norm": 1.0363069772720337,
      "learning_rate": 0.0002998197414523271,
      "loss": 4.0856,
      "step": 9460
    },
    {
      "epoch": 0.019729166666666666,
      "grad_norm": 0.8468578457832336,
      "learning_rate": 0.0002998192579586781,
      "loss": 4.161,
      "step": 9470
    },
    {
      "epoch": 0.01975,
      "grad_norm": 1.2036677598953247,
      "learning_rate": 0.00029981877381786925,
      "loss": 4.2491,
      "step": 9480
    },
    {
      "epoch": 0.019770833333333335,
      "grad_norm": 0.9143335819244385,
      "learning_rate": 0.00029981828902990253,
      "loss": 3.9455,
      "step": 9490
    },
    {
      "epoch": 0.019791666666666666,
      "grad_norm": 0.8497856259346008,
      "learning_rate": 0.0002998178035947801,
      "loss": 3.9328,
      "step": 9500
    },
    {
      "epoch": 0.0198125,
      "grad_norm": 0.9727890491485596,
      "learning_rate": 0.0002998173175125041,
      "loss": 4.0492,
      "step": 9510
    },
    {
      "epoch": 0.019833333333333335,
      "grad_norm": 0.8242268562316895,
      "learning_rate": 0.00029981683078307656,
      "loss": 4.1791,
      "step": 9520
    },
    {
      "epoch": 0.019854166666666666,
      "grad_norm": 0.8298456072807312,
      "learning_rate": 0.00029981634340649964,
      "loss": 3.8701,
      "step": 9530
    },
    {
      "epoch": 0.019875,
      "grad_norm": 1.0017644166946411,
      "learning_rate": 0.0002998158553827754,
      "loss": 3.8854,
      "step": 9540
    },
    {
      "epoch": 0.019895833333333335,
      "grad_norm": 0.7783777713775635,
      "learning_rate": 0.000299815366711906,
      "loss": 4.1866,
      "step": 9550
    },
    {
      "epoch": 0.019916666666666666,
      "grad_norm": 0.8830393552780151,
      "learning_rate": 0.0002998148773938935,
      "loss": 4.0029,
      "step": 9560
    },
    {
      "epoch": 0.0199375,
      "grad_norm": 0.9470157623291016,
      "learning_rate": 0.00029981438742874,
      "loss": 4.0531,
      "step": 9570
    },
    {
      "epoch": 0.019958333333333335,
      "grad_norm": 0.9863994717597961,
      "learning_rate": 0.00029981389681644767,
      "loss": 4.1668,
      "step": 9580
    },
    {
      "epoch": 0.019979166666666666,
      "grad_norm": 0.8077663779258728,
      "learning_rate": 0.0002998134055570186,
      "loss": 3.9715,
      "step": 9590
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8208444714546204,
      "learning_rate": 0.0002998129136504549,
      "loss": 4.0146,
      "step": 9600
    },
    {
      "epoch": 0.020020833333333335,
      "grad_norm": 0.8585996627807617,
      "learning_rate": 0.00029981242109675875,
      "loss": 4.0237,
      "step": 9610
    },
    {
      "epoch": 0.020041666666666666,
      "grad_norm": 0.9613497853279114,
      "learning_rate": 0.0002998119278959322,
      "loss": 4.0188,
      "step": 9620
    },
    {
      "epoch": 0.0200625,
      "grad_norm": 0.8470491170883179,
      "learning_rate": 0.0002998114340479775,
      "loss": 4.0296,
      "step": 9630
    },
    {
      "epoch": 0.020083333333333335,
      "grad_norm": 0.8715327978134155,
      "learning_rate": 0.0002998109395528966,
      "loss": 4.19,
      "step": 9640
    },
    {
      "epoch": 0.020104166666666666,
      "grad_norm": 1.0012080669403076,
      "learning_rate": 0.00029981044441069186,
      "loss": 4.0675,
      "step": 9650
    },
    {
      "epoch": 0.020125,
      "grad_norm": 0.8255970478057861,
      "learning_rate": 0.00029980994862136516,
      "loss": 4.0845,
      "step": 9660
    },
    {
      "epoch": 0.020145833333333335,
      "grad_norm": 0.908376157283783,
      "learning_rate": 0.0002998094521849189,
      "loss": 3.9606,
      "step": 9670
    },
    {
      "epoch": 0.020166666666666666,
      "grad_norm": 0.8726487755775452,
      "learning_rate": 0.00029980895510135503,
      "loss": 4.0282,
      "step": 9680
    },
    {
      "epoch": 0.0201875,
      "grad_norm": 0.8931153416633606,
      "learning_rate": 0.0002998084573706758,
      "loss": 4.0197,
      "step": 9690
    },
    {
      "epoch": 0.02020833333333333,
      "grad_norm": 0.7906998991966248,
      "learning_rate": 0.00029980795899288334,
      "loss": 3.8319,
      "step": 9700
    },
    {
      "epoch": 0.020229166666666666,
      "grad_norm": 0.8168278932571411,
      "learning_rate": 0.0002998074599679798,
      "loss": 3.7907,
      "step": 9710
    },
    {
      "epoch": 0.02025,
      "grad_norm": 0.8812684416770935,
      "learning_rate": 0.0002998069602959673,
      "loss": 4.0428,
      "step": 9720
    },
    {
      "epoch": 0.02027083333333333,
      "grad_norm": 0.9491397142410278,
      "learning_rate": 0.00029980645997684807,
      "loss": 3.9361,
      "step": 9730
    },
    {
      "epoch": 0.020291666666666666,
      "grad_norm": 0.995573878288269,
      "learning_rate": 0.0002998059590106242,
      "loss": 4.0512,
      "step": 9740
    },
    {
      "epoch": 0.0203125,
      "grad_norm": 0.9225786924362183,
      "learning_rate": 0.0002998054573972979,
      "loss": 4.0591,
      "step": 9750
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 0.8943817615509033,
      "learning_rate": 0.00029980495513687126,
      "loss": 3.8922,
      "step": 9760
    },
    {
      "epoch": 0.020354166666666666,
      "grad_norm": 1.1089351177215576,
      "learning_rate": 0.0002998044522293466,
      "loss": 4.0297,
      "step": 9770
    },
    {
      "epoch": 0.020375,
      "grad_norm": 0.7932626008987427,
      "learning_rate": 0.000299803948674726,
      "loss": 3.9693,
      "step": 9780
    },
    {
      "epoch": 0.020395833333333332,
      "grad_norm": 0.9082998633384705,
      "learning_rate": 0.0002998034444730116,
      "loss": 4.2084,
      "step": 9790
    },
    {
      "epoch": 0.020416666666666666,
      "grad_norm": 0.7732157707214355,
      "learning_rate": 0.0002998029396242056,
      "loss": 4.2553,
      "step": 9800
    },
    {
      "epoch": 0.0204375,
      "grad_norm": 0.9002898931503296,
      "learning_rate": 0.00029980243412831023,
      "loss": 4.104,
      "step": 9810
    },
    {
      "epoch": 0.020458333333333332,
      "grad_norm": 0.815901517868042,
      "learning_rate": 0.0002998019279853276,
      "loss": 4.0168,
      "step": 9820
    },
    {
      "epoch": 0.020479166666666666,
      "grad_norm": 0.8804150223731995,
      "learning_rate": 0.00029980142119526,
      "loss": 4.0835,
      "step": 9830
    },
    {
      "epoch": 0.0205,
      "grad_norm": 1.1327600479125977,
      "learning_rate": 0.0002998009137581095,
      "loss": 4.0576,
      "step": 9840
    },
    {
      "epoch": 0.020520833333333332,
      "grad_norm": 0.807758629322052,
      "learning_rate": 0.0002998004056738784,
      "loss": 4.0875,
      "step": 9850
    },
    {
      "epoch": 0.020541666666666666,
      "grad_norm": 0.8243554830551147,
      "learning_rate": 0.0002997998969425688,
      "loss": 4.1321,
      "step": 9860
    },
    {
      "epoch": 0.0205625,
      "grad_norm": 0.8303701877593994,
      "learning_rate": 0.00029979938756418296,
      "loss": 4.0612,
      "step": 9870
    },
    {
      "epoch": 0.020583333333333332,
      "grad_norm": 0.8470600843429565,
      "learning_rate": 0.00029979887753872305,
      "loss": 3.9121,
      "step": 9880
    },
    {
      "epoch": 0.020604166666666666,
      "grad_norm": 0.8359178304672241,
      "learning_rate": 0.0002997983668661913,
      "loss": 3.9522,
      "step": 9890
    },
    {
      "epoch": 0.020625,
      "grad_norm": 0.9217105507850647,
      "learning_rate": 0.0002997978555465899,
      "loss": 4.0739,
      "step": 9900
    },
    {
      "epoch": 0.020645833333333332,
      "grad_norm": 0.9166182279586792,
      "learning_rate": 0.000299797343579921,
      "loss": 4.0379,
      "step": 9910
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 0.9592489004135132,
      "learning_rate": 0.0002997968309661869,
      "loss": 4.0243,
      "step": 9920
    },
    {
      "epoch": 0.0206875,
      "grad_norm": 0.9903649091720581,
      "learning_rate": 0.00029979631770538984,
      "loss": 4.0429,
      "step": 9930
    },
    {
      "epoch": 0.020708333333333332,
      "grad_norm": 0.8367807269096375,
      "learning_rate": 0.0002997958037975319,
      "loss": 4.2466,
      "step": 9940
    },
    {
      "epoch": 0.020729166666666667,
      "grad_norm": 0.9227380752563477,
      "learning_rate": 0.0002997952892426154,
      "loss": 4.0022,
      "step": 9950
    },
    {
      "epoch": 0.02075,
      "grad_norm": 0.8208871483802795,
      "learning_rate": 0.0002997947740406426,
      "loss": 4.0196,
      "step": 9960
    },
    {
      "epoch": 0.020770833333333332,
      "grad_norm": 0.8958483934402466,
      "learning_rate": 0.00029979425819161564,
      "loss": 4.147,
      "step": 9970
    },
    {
      "epoch": 0.020791666666666667,
      "grad_norm": 0.8915866613388062,
      "learning_rate": 0.00029979374169553677,
      "loss": 4.0215,
      "step": 9980
    },
    {
      "epoch": 0.0208125,
      "grad_norm": 1.0059232711791992,
      "learning_rate": 0.0002997932245524082,
      "loss": 4.0795,
      "step": 9990
    },
    {
      "epoch": 0.020833333333333332,
      "grad_norm": 0.8215759992599487,
      "learning_rate": 0.00029979270676223224,
      "loss": 3.9671,
      "step": 10000
    },
    {
      "epoch": 0.020833333333333332,
      "eval_loss": 4.33560848236084,
      "eval_runtime": 9.8481,
      "eval_samples_per_second": 1.015,
      "eval_steps_per_second": 0.305,
      "step": 10000
    },
    {
      "epoch": 0.020854166666666667,
      "grad_norm": 0.9175835847854614,
      "learning_rate": 0.0002997921883250111,
      "loss": 3.9231,
      "step": 10010
    },
    {
      "epoch": 0.020875,
      "grad_norm": 0.8828879594802856,
      "learning_rate": 0.0002997916692407469,
      "loss": 4.173,
      "step": 10020
    },
    {
      "epoch": 0.020895833333333332,
      "grad_norm": 0.7833811044692993,
      "learning_rate": 0.0002997911495094421,
      "loss": 4.1142,
      "step": 10030
    },
    {
      "epoch": 0.020916666666666667,
      "grad_norm": 0.8361049294471741,
      "learning_rate": 0.0002997906291310987,
      "loss": 4.0808,
      "step": 10040
    },
    {
      "epoch": 0.0209375,
      "grad_norm": 0.9083168506622314,
      "learning_rate": 0.0002997901081057192,
      "loss": 4.0225,
      "step": 10050
    },
    {
      "epoch": 0.020958333333333332,
      "grad_norm": 0.9234095215797424,
      "learning_rate": 0.00029978958643330563,
      "loss": 3.9358,
      "step": 10060
    },
    {
      "epoch": 0.020979166666666667,
      "grad_norm": 0.9170847535133362,
      "learning_rate": 0.00029978906411386034,
      "loss": 3.9666,
      "step": 10070
    },
    {
      "epoch": 0.021,
      "grad_norm": 0.9088347554206848,
      "learning_rate": 0.00029978854114738563,
      "loss": 3.8923,
      "step": 10080
    },
    {
      "epoch": 0.021020833333333332,
      "grad_norm": 0.8774302005767822,
      "learning_rate": 0.0002997880175338837,
      "loss": 4.0738,
      "step": 10090
    },
    {
      "epoch": 0.021041666666666667,
      "grad_norm": 0.8774318695068359,
      "learning_rate": 0.0002997874932733568,
      "loss": 3.9997,
      "step": 10100
    },
    {
      "epoch": 0.0210625,
      "grad_norm": 0.9026405215263367,
      "learning_rate": 0.00029978696836580727,
      "loss": 4.0601,
      "step": 10110
    },
    {
      "epoch": 0.021083333333333332,
      "grad_norm": 0.8695791363716125,
      "learning_rate": 0.0002997864428112373,
      "loss": 4.0592,
      "step": 10120
    },
    {
      "epoch": 0.021104166666666667,
      "grad_norm": 0.8792867064476013,
      "learning_rate": 0.00029978591660964913,
      "loss": 4.082,
      "step": 10130
    },
    {
      "epoch": 0.021125,
      "grad_norm": 0.8485450744628906,
      "learning_rate": 0.00029978538976104517,
      "loss": 3.9627,
      "step": 10140
    },
    {
      "epoch": 0.021145833333333332,
      "grad_norm": 0.9313712120056152,
      "learning_rate": 0.00029978486226542756,
      "loss": 3.974,
      "step": 10150
    },
    {
      "epoch": 0.021166666666666667,
      "grad_norm": 0.8878106474876404,
      "learning_rate": 0.0002997843341227987,
      "loss": 4.0948,
      "step": 10160
    },
    {
      "epoch": 0.0211875,
      "grad_norm": 0.7925577759742737,
      "learning_rate": 0.00029978380533316075,
      "loss": 4.0406,
      "step": 10170
    },
    {
      "epoch": 0.021208333333333333,
      "grad_norm": 1.175937533378601,
      "learning_rate": 0.00029978327589651605,
      "loss": 4.038,
      "step": 10180
    },
    {
      "epoch": 0.021229166666666667,
      "grad_norm": 0.8927673697471619,
      "learning_rate": 0.00029978274581286693,
      "loss": 3.995,
      "step": 10190
    },
    {
      "epoch": 0.02125,
      "grad_norm": 0.9335274696350098,
      "learning_rate": 0.00029978221508221556,
      "loss": 4.0519,
      "step": 10200
    },
    {
      "epoch": 0.021270833333333333,
      "grad_norm": 0.9304651021957397,
      "learning_rate": 0.00029978168370456437,
      "loss": 3.9445,
      "step": 10210
    },
    {
      "epoch": 0.021291666666666667,
      "grad_norm": 0.9953484535217285,
      "learning_rate": 0.0002997811516799156,
      "loss": 3.8738,
      "step": 10220
    },
    {
      "epoch": 0.0213125,
      "grad_norm": 0.8957852721214294,
      "learning_rate": 0.0002997806190082715,
      "loss": 4.1393,
      "step": 10230
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 1.2486326694488525,
      "learning_rate": 0.00029978008568963446,
      "loss": 3.9038,
      "step": 10240
    },
    {
      "epoch": 0.021354166666666667,
      "grad_norm": 0.9966117143630981,
      "learning_rate": 0.0002997795517240067,
      "loss": 3.9363,
      "step": 10250
    },
    {
      "epoch": 0.021375,
      "grad_norm": 0.9372152090072632,
      "learning_rate": 0.0002997790171113906,
      "loss": 4.0399,
      "step": 10260
    },
    {
      "epoch": 0.021395833333333333,
      "grad_norm": 0.8523468375205994,
      "learning_rate": 0.0002997784818517884,
      "loss": 4.0605,
      "step": 10270
    },
    {
      "epoch": 0.021416666666666667,
      "grad_norm": 0.7862476706504822,
      "learning_rate": 0.00029977794594520247,
      "loss": 4.004,
      "step": 10280
    },
    {
      "epoch": 0.0214375,
      "grad_norm": 0.8762577176094055,
      "learning_rate": 0.00029977740939163505,
      "loss": 4.148,
      "step": 10290
    },
    {
      "epoch": 0.021458333333333333,
      "grad_norm": 0.9351198673248291,
      "learning_rate": 0.0002997768721910886,
      "loss": 4.0516,
      "step": 10300
    },
    {
      "epoch": 0.021479166666666667,
      "grad_norm": 0.8949923515319824,
      "learning_rate": 0.0002997763343435653,
      "loss": 4.0902,
      "step": 10310
    },
    {
      "epoch": 0.0215,
      "grad_norm": 0.9014841318130493,
      "learning_rate": 0.0002997757958490675,
      "loss": 3.921,
      "step": 10320
    },
    {
      "epoch": 0.021520833333333333,
      "grad_norm": 0.9985924363136292,
      "learning_rate": 0.0002997752567075975,
      "loss": 3.9606,
      "step": 10330
    },
    {
      "epoch": 0.021541666666666667,
      "grad_norm": 0.8761548399925232,
      "learning_rate": 0.0002997747169191577,
      "loss": 3.9699,
      "step": 10340
    },
    {
      "epoch": 0.0215625,
      "grad_norm": 0.9579183459281921,
      "learning_rate": 0.0002997741764837505,
      "loss": 4.066,
      "step": 10350
    },
    {
      "epoch": 0.021583333333333333,
      "grad_norm": 0.9612360000610352,
      "learning_rate": 0.0002997736354013781,
      "loss": 4.1511,
      "step": 10360
    },
    {
      "epoch": 0.021604166666666667,
      "grad_norm": 0.9254598617553711,
      "learning_rate": 0.00029977309367204286,
      "loss": 3.999,
      "step": 10370
    },
    {
      "epoch": 0.021625,
      "grad_norm": 0.8962486386299133,
      "learning_rate": 0.00029977255129574713,
      "loss": 3.983,
      "step": 10380
    },
    {
      "epoch": 0.021645833333333333,
      "grad_norm": 0.9430379867553711,
      "learning_rate": 0.0002997720082724933,
      "loss": 4.0404,
      "step": 10390
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 0.7899466753005981,
      "learning_rate": 0.0002997714646022836,
      "loss": 3.9925,
      "step": 10400
    },
    {
      "epoch": 0.0216875,
      "grad_norm": 0.8284606337547302,
      "learning_rate": 0.00029977092028512055,
      "loss": 4.0593,
      "step": 10410
    },
    {
      "epoch": 0.021708333333333333,
      "grad_norm": 1.0812290906906128,
      "learning_rate": 0.00029977037532100635,
      "loss": 3.9444,
      "step": 10420
    },
    {
      "epoch": 0.021729166666666667,
      "grad_norm": 0.9192953705787659,
      "learning_rate": 0.0002997698297099434,
      "loss": 3.9267,
      "step": 10430
    },
    {
      "epoch": 0.02175,
      "grad_norm": 0.9366044402122498,
      "learning_rate": 0.0002997692834519341,
      "loss": 4.0496,
      "step": 10440
    },
    {
      "epoch": 0.021770833333333333,
      "grad_norm": 0.8483167886734009,
      "learning_rate": 0.0002997687365469808,
      "loss": 3.9238,
      "step": 10450
    },
    {
      "epoch": 0.021791666666666668,
      "grad_norm": 0.8915597200393677,
      "learning_rate": 0.0002997681889950858,
      "loss": 4.2339,
      "step": 10460
    },
    {
      "epoch": 0.0218125,
      "grad_norm": 0.8934999108314514,
      "learning_rate": 0.00029976764079625156,
      "loss": 4.131,
      "step": 10470
    },
    {
      "epoch": 0.021833333333333333,
      "grad_norm": 0.8878239989280701,
      "learning_rate": 0.0002997670919504803,
      "loss": 3.9485,
      "step": 10480
    },
    {
      "epoch": 0.021854166666666668,
      "grad_norm": 0.8602654933929443,
      "learning_rate": 0.0002997665424577746,
      "loss": 3.9105,
      "step": 10490
    },
    {
      "epoch": 0.021875,
      "grad_norm": 0.9528221487998962,
      "learning_rate": 0.00029976599231813664,
      "loss": 4.2378,
      "step": 10500
    },
    {
      "epoch": 0.021895833333333333,
      "grad_norm": 0.9370319247245789,
      "learning_rate": 0.0002997654415315689,
      "loss": 4.2288,
      "step": 10510
    },
    {
      "epoch": 0.021916666666666668,
      "grad_norm": 0.7875895500183105,
      "learning_rate": 0.00029976489009807375,
      "loss": 4.0764,
      "step": 10520
    },
    {
      "epoch": 0.0219375,
      "grad_norm": 0.9264360070228577,
      "learning_rate": 0.0002997643380176535,
      "loss": 4.0363,
      "step": 10530
    },
    {
      "epoch": 0.021958333333333333,
      "grad_norm": 0.8552992939949036,
      "learning_rate": 0.0002997637852903107,
      "loss": 3.9913,
      "step": 10540
    },
    {
      "epoch": 0.021979166666666668,
      "grad_norm": 1.1128019094467163,
      "learning_rate": 0.0002997632319160475,
      "loss": 3.8398,
      "step": 10550
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.8485172390937805,
      "learning_rate": 0.00029976267789486646,
      "loss": 4.1162,
      "step": 10560
    },
    {
      "epoch": 0.022020833333333333,
      "grad_norm": 0.9465807676315308,
      "learning_rate": 0.00029976212322676995,
      "loss": 3.9185,
      "step": 10570
    },
    {
      "epoch": 0.022041666666666668,
      "grad_norm": 1.2987678050994873,
      "learning_rate": 0.0002997615679117604,
      "loss": 4.2336,
      "step": 10580
    },
    {
      "epoch": 0.0220625,
      "grad_norm": 0.8820592761039734,
      "learning_rate": 0.00029976101194984005,
      "loss": 4.0848,
      "step": 10590
    },
    {
      "epoch": 0.022083333333333333,
      "grad_norm": 0.8876746892929077,
      "learning_rate": 0.0002997604553410114,
      "loss": 4.1007,
      "step": 10600
    },
    {
      "epoch": 0.022104166666666668,
      "grad_norm": 0.9467823505401611,
      "learning_rate": 0.00029975989808527696,
      "loss": 4.2496,
      "step": 10610
    },
    {
      "epoch": 0.022125,
      "grad_norm": 0.9303798079490662,
      "learning_rate": 0.000299759340182639,
      "loss": 4.0466,
      "step": 10620
    },
    {
      "epoch": 0.022145833333333333,
      "grad_norm": 0.8960623741149902,
      "learning_rate": 0.00029975878163309995,
      "loss": 4.0465,
      "step": 10630
    },
    {
      "epoch": 0.022166666666666668,
      "grad_norm": 0.9176632761955261,
      "learning_rate": 0.00029975822243666225,
      "loss": 3.9194,
      "step": 10640
    },
    {
      "epoch": 0.0221875,
      "grad_norm": 0.8917275071144104,
      "learning_rate": 0.00029975766259332835,
      "loss": 4.1391,
      "step": 10650
    },
    {
      "epoch": 0.022208333333333333,
      "grad_norm": 0.8651731014251709,
      "learning_rate": 0.0002997571021031006,
      "loss": 4.1422,
      "step": 10660
    },
    {
      "epoch": 0.022229166666666668,
      "grad_norm": 0.8034875392913818,
      "learning_rate": 0.00029975654096598146,
      "loss": 4.0413,
      "step": 10670
    },
    {
      "epoch": 0.02225,
      "grad_norm": 1.0791233777999878,
      "learning_rate": 0.00029975597918197326,
      "loss": 4.0712,
      "step": 10680
    },
    {
      "epoch": 0.022270833333333333,
      "grad_norm": 0.9171955585479736,
      "learning_rate": 0.0002997554167510786,
      "loss": 4.1109,
      "step": 10690
    },
    {
      "epoch": 0.022291666666666668,
      "grad_norm": 0.9943594336509705,
      "learning_rate": 0.00029975485367329975,
      "loss": 4.0721,
      "step": 10700
    },
    {
      "epoch": 0.0223125,
      "grad_norm": 0.8181750178337097,
      "learning_rate": 0.00029975428994863927,
      "loss": 4.1605,
      "step": 10710
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 1.0147671699523926,
      "learning_rate": 0.0002997537255770995,
      "loss": 4.0986,
      "step": 10720
    },
    {
      "epoch": 0.022354166666666668,
      "grad_norm": 0.7744315266609192,
      "learning_rate": 0.00029975316055868293,
      "loss": 4.0211,
      "step": 10730
    },
    {
      "epoch": 0.022375,
      "grad_norm": 0.9602259397506714,
      "learning_rate": 0.00029975259489339195,
      "loss": 3.9665,
      "step": 10740
    },
    {
      "epoch": 0.022395833333333334,
      "grad_norm": 1.1291271448135376,
      "learning_rate": 0.00029975202858122904,
      "loss": 4.1789,
      "step": 10750
    },
    {
      "epoch": 0.022416666666666668,
      "grad_norm": 0.8661361336708069,
      "learning_rate": 0.0002997514616221967,
      "loss": 4.0007,
      "step": 10760
    },
    {
      "epoch": 0.0224375,
      "grad_norm": 1.1890524625778198,
      "learning_rate": 0.0002997508940162973,
      "loss": 3.9188,
      "step": 10770
    },
    {
      "epoch": 0.022458333333333334,
      "grad_norm": 0.9199486374855042,
      "learning_rate": 0.0002997503257635333,
      "loss": 4.0073,
      "step": 10780
    },
    {
      "epoch": 0.022479166666666668,
      "grad_norm": 0.8084762692451477,
      "learning_rate": 0.00029974975686390714,
      "loss": 4.1919,
      "step": 10790
    },
    {
      "epoch": 0.0225,
      "grad_norm": 0.8930673599243164,
      "learning_rate": 0.0002997491873174213,
      "loss": 4.1507,
      "step": 10800
    },
    {
      "epoch": 0.022520833333333334,
      "grad_norm": 0.9139108061790466,
      "learning_rate": 0.0002997486171240783,
      "loss": 4.0313,
      "step": 10810
    },
    {
      "epoch": 0.022541666666666668,
      "grad_norm": 0.8556119203567505,
      "learning_rate": 0.0002997480462838805,
      "loss": 4.0711,
      "step": 10820
    },
    {
      "epoch": 0.0225625,
      "grad_norm": 0.8903327584266663,
      "learning_rate": 0.0002997474747968305,
      "loss": 4.0011,
      "step": 10830
    },
    {
      "epoch": 0.022583333333333334,
      "grad_norm": 0.9576094150543213,
      "learning_rate": 0.00029974690266293055,
      "loss": 4.009,
      "step": 10840
    },
    {
      "epoch": 0.022604166666666668,
      "grad_norm": 1.0656836032867432,
      "learning_rate": 0.0002997463298821834,
      "loss": 3.931,
      "step": 10850
    },
    {
      "epoch": 0.022625,
      "grad_norm": 1.2704850435256958,
      "learning_rate": 0.00029974575645459127,
      "loss": 3.8534,
      "step": 10860
    },
    {
      "epoch": 0.022645833333333334,
      "grad_norm": 0.8838678598403931,
      "learning_rate": 0.0002997451823801568,
      "loss": 4.135,
      "step": 10870
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 0.9709188342094421,
      "learning_rate": 0.00029974460765888237,
      "loss": 3.9732,
      "step": 10880
    },
    {
      "epoch": 0.0226875,
      "grad_norm": 0.9118921160697937,
      "learning_rate": 0.00029974403229077054,
      "loss": 4.0216,
      "step": 10890
    },
    {
      "epoch": 0.022708333333333334,
      "grad_norm": 1.0146132707595825,
      "learning_rate": 0.00029974345627582376,
      "loss": 3.9529,
      "step": 10900
    },
    {
      "epoch": 0.02272916666666667,
      "grad_norm": 0.9561675786972046,
      "learning_rate": 0.0002997428796140445,
      "loss": 4.0696,
      "step": 10910
    },
    {
      "epoch": 0.02275,
      "grad_norm": 0.880499541759491,
      "learning_rate": 0.0002997423023054353,
      "loss": 4.1694,
      "step": 10920
    },
    {
      "epoch": 0.022770833333333334,
      "grad_norm": 0.9527094960212708,
      "learning_rate": 0.0002997417243499986,
      "loss": 4.3075,
      "step": 10930
    },
    {
      "epoch": 0.022791666666666665,
      "grad_norm": 0.8859124183654785,
      "learning_rate": 0.000299741145747737,
      "loss": 4.2147,
      "step": 10940
    },
    {
      "epoch": 0.0228125,
      "grad_norm": 0.8555907011032104,
      "learning_rate": 0.00029974056649865284,
      "loss": 3.8823,
      "step": 10950
    },
    {
      "epoch": 0.022833333333333334,
      "grad_norm": 0.7757290005683899,
      "learning_rate": 0.0002997399866027487,
      "loss": 3.9952,
      "step": 10960
    },
    {
      "epoch": 0.022854166666666665,
      "grad_norm": 0.8428161144256592,
      "learning_rate": 0.0002997394060600271,
      "loss": 3.9607,
      "step": 10970
    },
    {
      "epoch": 0.022875,
      "grad_norm": 0.9961905479431152,
      "learning_rate": 0.00029973882487049057,
      "loss": 4.1028,
      "step": 10980
    },
    {
      "epoch": 0.022895833333333334,
      "grad_norm": 1.4699156284332275,
      "learning_rate": 0.0002997382430341416,
      "loss": 4.1332,
      "step": 10990
    },
    {
      "epoch": 0.022916666666666665,
      "grad_norm": 1.0499873161315918,
      "learning_rate": 0.0002997376605509826,
      "loss": 3.9795,
      "step": 11000
    },
    {
      "epoch": 0.022916666666666665,
      "eval_loss": 4.343177318572998,
      "eval_runtime": 9.1751,
      "eval_samples_per_second": 1.09,
      "eval_steps_per_second": 0.327,
      "step": 11000
    },
    {
      "epoch": 0.0229375,
      "grad_norm": 0.9371368885040283,
      "learning_rate": 0.0002997370774210163,
      "loss": 4.0407,
      "step": 11010
    },
    {
      "epoch": 0.022958333333333334,
      "grad_norm": 0.9600356817245483,
      "learning_rate": 0.000299736493644245,
      "loss": 3.9043,
      "step": 11020
    },
    {
      "epoch": 0.022979166666666665,
      "grad_norm": 0.7833398580551147,
      "learning_rate": 0.00029973590922067133,
      "loss": 3.9522,
      "step": 11030
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.8882167935371399,
      "learning_rate": 0.00029973532415029783,
      "loss": 3.9925,
      "step": 11040
    },
    {
      "epoch": 0.023020833333333334,
      "grad_norm": 0.7728996872901917,
      "learning_rate": 0.000299734738433127,
      "loss": 4.0763,
      "step": 11050
    },
    {
      "epoch": 0.023041666666666665,
      "grad_norm": 0.9067636728286743,
      "learning_rate": 0.00029973415206916137,
      "loss": 3.9489,
      "step": 11060
    },
    {
      "epoch": 0.0230625,
      "grad_norm": 1.0445528030395508,
      "learning_rate": 0.00029973356505840344,
      "loss": 4.143,
      "step": 11070
    },
    {
      "epoch": 0.023083333333333334,
      "grad_norm": 0.9083755016326904,
      "learning_rate": 0.0002997329774008558,
      "loss": 4.0993,
      "step": 11080
    },
    {
      "epoch": 0.023104166666666665,
      "grad_norm": 0.9739083051681519,
      "learning_rate": 0.000299732389096521,
      "loss": 4.0222,
      "step": 11090
    },
    {
      "epoch": 0.023125,
      "grad_norm": 0.8349357843399048,
      "learning_rate": 0.00029973180014540145,
      "loss": 3.9285,
      "step": 11100
    },
    {
      "epoch": 0.023145833333333334,
      "grad_norm": 0.8716956973075867,
      "learning_rate": 0.0002997312105474999,
      "loss": 3.9409,
      "step": 11110
    },
    {
      "epoch": 0.023166666666666665,
      "grad_norm": 0.8104733824729919,
      "learning_rate": 0.0002997306203028187,
      "loss": 3.9957,
      "step": 11120
    },
    {
      "epoch": 0.0231875,
      "grad_norm": 0.9289116859436035,
      "learning_rate": 0.00029973002941136056,
      "loss": 3.8664,
      "step": 11130
    },
    {
      "epoch": 0.023208333333333334,
      "grad_norm": 0.9071303606033325,
      "learning_rate": 0.00029972943787312794,
      "loss": 4.0065,
      "step": 11140
    },
    {
      "epoch": 0.023229166666666665,
      "grad_norm": 0.9404611587524414,
      "learning_rate": 0.0002997288456881234,
      "loss": 3.9897,
      "step": 11150
    },
    {
      "epoch": 0.02325,
      "grad_norm": 0.7688071131706238,
      "learning_rate": 0.0002997282528563495,
      "loss": 4.1101,
      "step": 11160
    },
    {
      "epoch": 0.023270833333333334,
      "grad_norm": 0.995836615562439,
      "learning_rate": 0.0002997276593778089,
      "loss": 3.9776,
      "step": 11170
    },
    {
      "epoch": 0.023291666666666665,
      "grad_norm": 0.8275904655456543,
      "learning_rate": 0.00029972706525250393,
      "loss": 3.8802,
      "step": 11180
    },
    {
      "epoch": 0.0233125,
      "grad_norm": 1.0180919170379639,
      "learning_rate": 0.00029972647048043743,
      "loss": 4.0066,
      "step": 11190
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 0.8439503312110901,
      "learning_rate": 0.0002997258750616118,
      "loss": 4.0384,
      "step": 11200
    },
    {
      "epoch": 0.023354166666666665,
      "grad_norm": 0.9801731109619141,
      "learning_rate": 0.00029972527899602966,
      "loss": 4.179,
      "step": 11210
    },
    {
      "epoch": 0.023375,
      "grad_norm": 0.8554068803787231,
      "learning_rate": 0.00029972468228369354,
      "loss": 4.1592,
      "step": 11220
    },
    {
      "epoch": 0.023395833333333334,
      "grad_norm": 0.8108168840408325,
      "learning_rate": 0.0002997240849246061,
      "loss": 4.0526,
      "step": 11230
    },
    {
      "epoch": 0.023416666666666665,
      "grad_norm": 1.0166338682174683,
      "learning_rate": 0.00029972348691876985,
      "loss": 4.0115,
      "step": 11240
    },
    {
      "epoch": 0.0234375,
      "grad_norm": 0.8622210621833801,
      "learning_rate": 0.0002997228882661874,
      "loss": 4.0564,
      "step": 11250
    },
    {
      "epoch": 0.023458333333333335,
      "grad_norm": 0.9354560375213623,
      "learning_rate": 0.0002997222889668614,
      "loss": 4.0369,
      "step": 11260
    },
    {
      "epoch": 0.023479166666666666,
      "grad_norm": 0.9387855529785156,
      "learning_rate": 0.00029972168902079433,
      "loss": 3.9696,
      "step": 11270
    },
    {
      "epoch": 0.0235,
      "grad_norm": 0.8381744623184204,
      "learning_rate": 0.0002997210884279888,
      "loss": 4.0454,
      "step": 11280
    },
    {
      "epoch": 0.023520833333333335,
      "grad_norm": 0.9276353120803833,
      "learning_rate": 0.00029972048718844747,
      "loss": 4.1896,
      "step": 11290
    },
    {
      "epoch": 0.023541666666666666,
      "grad_norm": 0.9661759734153748,
      "learning_rate": 0.00029971988530217293,
      "loss": 4.0251,
      "step": 11300
    },
    {
      "epoch": 0.0235625,
      "grad_norm": 0.9178288578987122,
      "learning_rate": 0.00029971928276916767,
      "loss": 3.9935,
      "step": 11310
    },
    {
      "epoch": 0.023583333333333335,
      "grad_norm": 0.9038762450218201,
      "learning_rate": 0.00029971867958943446,
      "loss": 4.1352,
      "step": 11320
    },
    {
      "epoch": 0.023604166666666666,
      "grad_norm": 1.0172170400619507,
      "learning_rate": 0.00029971807576297573,
      "loss": 4.2188,
      "step": 11330
    },
    {
      "epoch": 0.023625,
      "grad_norm": 0.8191777467727661,
      "learning_rate": 0.00029971747128979426,
      "loss": 4.0965,
      "step": 11340
    },
    {
      "epoch": 0.023645833333333335,
      "grad_norm": 0.8614866733551025,
      "learning_rate": 0.0002997168661698925,
      "loss": 4.0379,
      "step": 11350
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 0.8880031704902649,
      "learning_rate": 0.00029971626040327316,
      "loss": 4.165,
      "step": 11360
    },
    {
      "epoch": 0.0236875,
      "grad_norm": 1.225572109222412,
      "learning_rate": 0.00029971565398993885,
      "loss": 3.8343,
      "step": 11370
    },
    {
      "epoch": 0.023708333333333335,
      "grad_norm": 0.8210449814796448,
      "learning_rate": 0.0002997150469298922,
      "loss": 3.978,
      "step": 11380
    },
    {
      "epoch": 0.023729166666666666,
      "grad_norm": 0.9902667999267578,
      "learning_rate": 0.00029971443922313575,
      "loss": 3.9446,
      "step": 11390
    },
    {
      "epoch": 0.02375,
      "grad_norm": 0.7885863780975342,
      "learning_rate": 0.0002997138308696722,
      "loss": 4.1039,
      "step": 11400
    },
    {
      "epoch": 0.023770833333333335,
      "grad_norm": 0.8365364074707031,
      "learning_rate": 0.00029971322186950417,
      "loss": 4.0357,
      "step": 11410
    },
    {
      "epoch": 0.023791666666666666,
      "grad_norm": 0.9556369185447693,
      "learning_rate": 0.0002997126122226343,
      "loss": 3.9189,
      "step": 11420
    },
    {
      "epoch": 0.0238125,
      "grad_norm": 0.9085677862167358,
      "learning_rate": 0.0002997120019290652,
      "loss": 4.0772,
      "step": 11430
    },
    {
      "epoch": 0.023833333333333335,
      "grad_norm": 0.9845913648605347,
      "learning_rate": 0.00029971139098879953,
      "loss": 3.8277,
      "step": 11440
    },
    {
      "epoch": 0.023854166666666666,
      "grad_norm": 0.8270093202590942,
      "learning_rate": 0.00029971077940183985,
      "loss": 4.232,
      "step": 11450
    },
    {
      "epoch": 0.023875,
      "grad_norm": 0.9064054489135742,
      "learning_rate": 0.0002997101671681889,
      "loss": 3.9641,
      "step": 11460
    },
    {
      "epoch": 0.023895833333333335,
      "grad_norm": 0.7581167817115784,
      "learning_rate": 0.0002997095542878493,
      "loss": 4.0586,
      "step": 11470
    },
    {
      "epoch": 0.023916666666666666,
      "grad_norm": 0.9204100370407104,
      "learning_rate": 0.0002997089407608237,
      "loss": 4.1889,
      "step": 11480
    },
    {
      "epoch": 0.0239375,
      "grad_norm": 0.9697321653366089,
      "learning_rate": 0.0002997083265871147,
      "loss": 3.9386,
      "step": 11490
    },
    {
      "epoch": 0.023958333333333335,
      "grad_norm": 0.8670743703842163,
      "learning_rate": 0.00029970771176672495,
      "loss": 4.0658,
      "step": 11500
    },
    {
      "epoch": 0.023979166666666666,
      "grad_norm": 0.8086011409759521,
      "learning_rate": 0.00029970709629965724,
      "loss": 4.0686,
      "step": 11510
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.9494633078575134,
      "learning_rate": 0.0002997064801859141,
      "loss": 4.204,
      "step": 11520
    },
    {
      "epoch": 0.024020833333333335,
      "grad_norm": 0.9828088879585266,
      "learning_rate": 0.00029970586342549814,
      "loss": 3.9099,
      "step": 11530
    },
    {
      "epoch": 0.024041666666666666,
      "grad_norm": 0.8706547617912292,
      "learning_rate": 0.00029970524601841223,
      "loss": 4.1493,
      "step": 11540
    },
    {
      "epoch": 0.0240625,
      "grad_norm": 0.99277663230896,
      "learning_rate": 0.0002997046279646588,
      "loss": 4.0736,
      "step": 11550
    },
    {
      "epoch": 0.024083333333333335,
      "grad_norm": 0.8699033260345459,
      "learning_rate": 0.0002997040092642407,
      "loss": 3.8887,
      "step": 11560
    },
    {
      "epoch": 0.024104166666666666,
      "grad_norm": 1.0016510486602783,
      "learning_rate": 0.00029970338991716053,
      "loss": 4.1261,
      "step": 11570
    },
    {
      "epoch": 0.024125,
      "grad_norm": 0.8793927431106567,
      "learning_rate": 0.00029970276992342097,
      "loss": 3.9855,
      "step": 11580
    },
    {
      "epoch": 0.02414583333333333,
      "grad_norm": 1.1882140636444092,
      "learning_rate": 0.0002997021492830247,
      "loss": 4.0677,
      "step": 11590
    },
    {
      "epoch": 0.024166666666666666,
      "grad_norm": 0.9322487711906433,
      "learning_rate": 0.0002997015279959744,
      "loss": 4.1846,
      "step": 11600
    },
    {
      "epoch": 0.0241875,
      "grad_norm": 1.0617856979370117,
      "learning_rate": 0.00029970090606227276,
      "loss": 3.9028,
      "step": 11610
    },
    {
      "epoch": 0.02420833333333333,
      "grad_norm": 0.8267401456832886,
      "learning_rate": 0.0002997002834819225,
      "loss": 4.1305,
      "step": 11620
    },
    {
      "epoch": 0.024229166666666666,
      "grad_norm": 0.8641538619995117,
      "learning_rate": 0.0002996996602549262,
      "loss": 4.1329,
      "step": 11630
    },
    {
      "epoch": 0.02425,
      "grad_norm": 0.9014443755149841,
      "learning_rate": 0.00029969903638128666,
      "loss": 4.0151,
      "step": 11640
    },
    {
      "epoch": 0.024270833333333332,
      "grad_norm": 0.9461457133293152,
      "learning_rate": 0.0002996984118610065,
      "loss": 4.0554,
      "step": 11650
    },
    {
      "epoch": 0.024291666666666666,
      "grad_norm": 1.0932786464691162,
      "learning_rate": 0.0002996977866940885,
      "loss": 4.0661,
      "step": 11660
    },
    {
      "epoch": 0.0243125,
      "grad_norm": 0.9318457245826721,
      "learning_rate": 0.00029969716088053527,
      "loss": 3.8919,
      "step": 11670
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 0.7869840860366821,
      "learning_rate": 0.0002996965344203496,
      "loss": 4.0947,
      "step": 11680
    },
    {
      "epoch": 0.024354166666666666,
      "grad_norm": 0.8918207287788391,
      "learning_rate": 0.00029969590731353414,
      "loss": 4.201,
      "step": 11690
    },
    {
      "epoch": 0.024375,
      "grad_norm": 0.9626954793930054,
      "learning_rate": 0.00029969527956009165,
      "loss": 3.8744,
      "step": 11700
    },
    {
      "epoch": 0.024395833333333332,
      "grad_norm": 0.8035925030708313,
      "learning_rate": 0.00029969465116002475,
      "loss": 4.0591,
      "step": 11710
    },
    {
      "epoch": 0.024416666666666666,
      "grad_norm": 0.8319073915481567,
      "learning_rate": 0.00029969402211333626,
      "loss": 4.0101,
      "step": 11720
    },
    {
      "epoch": 0.0244375,
      "grad_norm": 0.834764838218689,
      "learning_rate": 0.00029969339242002884,
      "loss": 3.9293,
      "step": 11730
    },
    {
      "epoch": 0.024458333333333332,
      "grad_norm": 0.9337142705917358,
      "learning_rate": 0.0002996927620801052,
      "loss": 3.9905,
      "step": 11740
    },
    {
      "epoch": 0.024479166666666666,
      "grad_norm": 0.8090513348579407,
      "learning_rate": 0.0002996921310935681,
      "loss": 4.1999,
      "step": 11750
    },
    {
      "epoch": 0.0245,
      "grad_norm": 0.8323469161987305,
      "learning_rate": 0.00029969149946042017,
      "loss": 4.0175,
      "step": 11760
    },
    {
      "epoch": 0.024520833333333332,
      "grad_norm": 0.9457613825798035,
      "learning_rate": 0.00029969086718066427,
      "loss": 4.0886,
      "step": 11770
    },
    {
      "epoch": 0.024541666666666666,
      "grad_norm": 0.9197525978088379,
      "learning_rate": 0.0002996902342543031,
      "loss": 3.9411,
      "step": 11780
    },
    {
      "epoch": 0.0245625,
      "grad_norm": 0.9073978066444397,
      "learning_rate": 0.0002996896006813393,
      "loss": 4.2741,
      "step": 11790
    },
    {
      "epoch": 0.024583333333333332,
      "grad_norm": 0.8798359632492065,
      "learning_rate": 0.00029968896646177573,
      "loss": 4.034,
      "step": 11800
    },
    {
      "epoch": 0.024604166666666667,
      "grad_norm": 0.9270487427711487,
      "learning_rate": 0.0002996883315956151,
      "loss": 3.9394,
      "step": 11810
    },
    {
      "epoch": 0.024625,
      "grad_norm": 0.8634020686149597,
      "learning_rate": 0.00029968769608286006,
      "loss": 4.1361,
      "step": 11820
    },
    {
      "epoch": 0.024645833333333332,
      "grad_norm": 0.782271683216095,
      "learning_rate": 0.00029968705992351345,
      "loss": 4.2818,
      "step": 11830
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 0.8318779468536377,
      "learning_rate": 0.00029968642311757805,
      "loss": 4.0002,
      "step": 11840
    },
    {
      "epoch": 0.0246875,
      "grad_norm": 0.7912973165512085,
      "learning_rate": 0.0002996857856650565,
      "loss": 4.0727,
      "step": 11850
    },
    {
      "epoch": 0.024708333333333332,
      "grad_norm": 1.0303070545196533,
      "learning_rate": 0.00029968514756595165,
      "loss": 4.0927,
      "step": 11860
    },
    {
      "epoch": 0.024729166666666667,
      "grad_norm": 0.8014335632324219,
      "learning_rate": 0.0002996845088202661,
      "loss": 3.9301,
      "step": 11870
    },
    {
      "epoch": 0.02475,
      "grad_norm": 0.9272903800010681,
      "learning_rate": 0.0002996838694280028,
      "loss": 4.1477,
      "step": 11880
    },
    {
      "epoch": 0.024770833333333332,
      "grad_norm": 0.8557513952255249,
      "learning_rate": 0.0002996832293891644,
      "loss": 4.1443,
      "step": 11890
    },
    {
      "epoch": 0.024791666666666667,
      "grad_norm": 0.8178189396858215,
      "learning_rate": 0.0002996825887037538,
      "loss": 4.0479,
      "step": 11900
    },
    {
      "epoch": 0.0248125,
      "grad_norm": 0.8239704966545105,
      "learning_rate": 0.0002996819473717736,
      "loss": 4.0242,
      "step": 11910
    },
    {
      "epoch": 0.024833333333333332,
      "grad_norm": 0.8839130401611328,
      "learning_rate": 0.0002996813053932266,
      "loss": 3.9996,
      "step": 11920
    },
    {
      "epoch": 0.024854166666666667,
      "grad_norm": 0.9180129766464233,
      "learning_rate": 0.0002996806627681156,
      "loss": 4.1706,
      "step": 11930
    },
    {
      "epoch": 0.024875,
      "grad_norm": 0.9097622632980347,
      "learning_rate": 0.00029968001949644344,
      "loss": 3.9873,
      "step": 11940
    },
    {
      "epoch": 0.024895833333333332,
      "grad_norm": 0.8870061039924622,
      "learning_rate": 0.0002996793755782128,
      "loss": 4.1646,
      "step": 11950
    },
    {
      "epoch": 0.024916666666666667,
      "grad_norm": 0.7925917506217957,
      "learning_rate": 0.0002996787310134265,
      "loss": 3.9,
      "step": 11960
    },
    {
      "epoch": 0.0249375,
      "grad_norm": 0.8051598072052002,
      "learning_rate": 0.0002996780858020874,
      "loss": 3.9708,
      "step": 11970
    },
    {
      "epoch": 0.024958333333333332,
      "grad_norm": 0.7883305549621582,
      "learning_rate": 0.00029967743994419813,
      "loss": 4.0361,
      "step": 11980
    },
    {
      "epoch": 0.024979166666666667,
      "grad_norm": 0.8263134360313416,
      "learning_rate": 0.00029967679343976167,
      "loss": 3.9609,
      "step": 11990
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.9787063598632812,
      "learning_rate": 0.0002996761462887806,
      "loss": 3.9739,
      "step": 12000
    },
    {
      "epoch": 0.025,
      "eval_loss": 4.355993747711182,
      "eval_runtime": 9.4117,
      "eval_samples_per_second": 1.063,
      "eval_steps_per_second": 0.319,
      "step": 12000
    },
    {
      "epoch": 0.025020833333333332,
      "grad_norm": 0.9648151397705078,
      "learning_rate": 0.0002996754984912579,
      "loss": 4.0873,
      "step": 12010
    },
    {
      "epoch": 0.025041666666666667,
      "grad_norm": 0.9900327920913696,
      "learning_rate": 0.00029967485004719625,
      "loss": 4.1845,
      "step": 12020
    },
    {
      "epoch": 0.0250625,
      "grad_norm": 0.7829849720001221,
      "learning_rate": 0.0002996742009565985,
      "loss": 4.098,
      "step": 12030
    },
    {
      "epoch": 0.025083333333333332,
      "grad_norm": 0.7555475831031799,
      "learning_rate": 0.00029967355121946745,
      "loss": 4.1276,
      "step": 12040
    },
    {
      "epoch": 0.025104166666666667,
      "grad_norm": 1.2551724910736084,
      "learning_rate": 0.0002996729008358059,
      "loss": 4.1739,
      "step": 12050
    },
    {
      "epoch": 0.025125,
      "grad_norm": 0.8260138034820557,
      "learning_rate": 0.0002996722498056167,
      "loss": 4.132,
      "step": 12060
    },
    {
      "epoch": 0.025145833333333333,
      "grad_norm": 0.8505834937095642,
      "learning_rate": 0.0002996715981289026,
      "loss": 4.1513,
      "step": 12070
    },
    {
      "epoch": 0.025166666666666667,
      "grad_norm": 0.8663877248764038,
      "learning_rate": 0.0002996709458056664,
      "loss": 4.0009,
      "step": 12080
    },
    {
      "epoch": 0.0251875,
      "grad_norm": 0.9046712517738342,
      "learning_rate": 0.000299670292835911,
      "loss": 3.9447,
      "step": 12090
    },
    {
      "epoch": 0.025208333333333333,
      "grad_norm": 0.8156468272209167,
      "learning_rate": 0.00029966963921963915,
      "loss": 3.9951,
      "step": 12100
    },
    {
      "epoch": 0.025229166666666667,
      "grad_norm": 0.8045362830162048,
      "learning_rate": 0.00029966898495685377,
      "loss": 3.9991,
      "step": 12110
    },
    {
      "epoch": 0.02525,
      "grad_norm": 0.8384324908256531,
      "learning_rate": 0.00029966833004755754,
      "loss": 4.0331,
      "step": 12120
    },
    {
      "epoch": 0.025270833333333333,
      "grad_norm": 0.8372187614440918,
      "learning_rate": 0.0002996676744917534,
      "loss": 4.073,
      "step": 12130
    },
    {
      "epoch": 0.025291666666666667,
      "grad_norm": 0.8713473677635193,
      "learning_rate": 0.00029966701828944417,
      "loss": 4.0687,
      "step": 12140
    },
    {
      "epoch": 0.0253125,
      "grad_norm": 0.8944408297538757,
      "learning_rate": 0.0002996663614406326,
      "loss": 4.1542,
      "step": 12150
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 0.8797274231910706,
      "learning_rate": 0.0002996657039453216,
      "loss": 3.9635,
      "step": 12160
    },
    {
      "epoch": 0.025354166666666667,
      "grad_norm": 0.8559905886650085,
      "learning_rate": 0.00029966504580351404,
      "loss": 4.1181,
      "step": 12170
    },
    {
      "epoch": 0.025375,
      "grad_norm": 1.1843395233154297,
      "learning_rate": 0.00029966438701521273,
      "loss": 4.0031,
      "step": 12180
    },
    {
      "epoch": 0.025395833333333333,
      "grad_norm": 0.9130030274391174,
      "learning_rate": 0.00029966372758042053,
      "loss": 4.0628,
      "step": 12190
    },
    {
      "epoch": 0.025416666666666667,
      "grad_norm": 0.7298511266708374,
      "learning_rate": 0.0002996630674991402,
      "loss": 4.0176,
      "step": 12200
    },
    {
      "epoch": 0.0254375,
      "grad_norm": 0.8563189506530762,
      "learning_rate": 0.0002996624067713747,
      "loss": 4.0227,
      "step": 12210
    },
    {
      "epoch": 0.025458333333333333,
      "grad_norm": 0.9190595746040344,
      "learning_rate": 0.00029966174539712684,
      "loss": 4.0652,
      "step": 12220
    },
    {
      "epoch": 0.025479166666666667,
      "grad_norm": 0.7569317817687988,
      "learning_rate": 0.0002996610833763995,
      "loss": 4.0059,
      "step": 12230
    },
    {
      "epoch": 0.0255,
      "grad_norm": 0.8048116564750671,
      "learning_rate": 0.00029966042070919544,
      "loss": 3.9274,
      "step": 12240
    },
    {
      "epoch": 0.025520833333333333,
      "grad_norm": 0.9239625334739685,
      "learning_rate": 0.0002996597573955177,
      "loss": 4.0971,
      "step": 12250
    },
    {
      "epoch": 0.025541666666666667,
      "grad_norm": 1.0842387676239014,
      "learning_rate": 0.000299659093435369,
      "loss": 4.0068,
      "step": 12260
    },
    {
      "epoch": 0.0255625,
      "grad_norm": 0.8540835976600647,
      "learning_rate": 0.00029965842882875225,
      "loss": 4.0468,
      "step": 12270
    },
    {
      "epoch": 0.025583333333333333,
      "grad_norm": 0.8760429620742798,
      "learning_rate": 0.0002996577635756703,
      "loss": 4.0911,
      "step": 12280
    },
    {
      "epoch": 0.025604166666666667,
      "grad_norm": 0.8791810870170593,
      "learning_rate": 0.00029965709767612613,
      "loss": 3.9895,
      "step": 12290
    },
    {
      "epoch": 0.025625,
      "grad_norm": 1.0496407747268677,
      "learning_rate": 0.00029965643113012247,
      "loss": 4.0144,
      "step": 12300
    },
    {
      "epoch": 0.025645833333333333,
      "grad_norm": 0.9198064208030701,
      "learning_rate": 0.00029965576393766233,
      "loss": 4.0595,
      "step": 12310
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 1.3422293663024902,
      "learning_rate": 0.00029965509609874844,
      "loss": 3.9287,
      "step": 12320
    },
    {
      "epoch": 0.0256875,
      "grad_norm": 0.8336278200149536,
      "learning_rate": 0.00029965442761338383,
      "loss": 4.069,
      "step": 12330
    },
    {
      "epoch": 0.025708333333333333,
      "grad_norm": 0.8513005971908569,
      "learning_rate": 0.0002996537584815713,
      "loss": 4.1971,
      "step": 12340
    },
    {
      "epoch": 0.025729166666666668,
      "grad_norm": 0.8377391695976257,
      "learning_rate": 0.0002996530887033138,
      "loss": 4.0051,
      "step": 12350
    },
    {
      "epoch": 0.02575,
      "grad_norm": 0.8428595662117004,
      "learning_rate": 0.0002996524182786142,
      "loss": 3.9223,
      "step": 12360
    },
    {
      "epoch": 0.025770833333333333,
      "grad_norm": 0.8020024299621582,
      "learning_rate": 0.00029965174720747537,
      "loss": 3.9248,
      "step": 12370
    },
    {
      "epoch": 0.025791666666666668,
      "grad_norm": 0.8445428013801575,
      "learning_rate": 0.0002996510754899002,
      "loss": 4.1044,
      "step": 12380
    },
    {
      "epoch": 0.0258125,
      "grad_norm": 0.8422583341598511,
      "learning_rate": 0.00029965040312589166,
      "loss": 4.0739,
      "step": 12390
    },
    {
      "epoch": 0.025833333333333333,
      "grad_norm": 0.77658611536026,
      "learning_rate": 0.0002996497301154526,
      "loss": 4.0383,
      "step": 12400
    },
    {
      "epoch": 0.025854166666666668,
      "grad_norm": 0.8723292946815491,
      "learning_rate": 0.00029964905645858594,
      "loss": 3.942,
      "step": 12410
    },
    {
      "epoch": 0.025875,
      "grad_norm": 0.8531607389450073,
      "learning_rate": 0.0002996483821552946,
      "loss": 4.1756,
      "step": 12420
    },
    {
      "epoch": 0.025895833333333333,
      "grad_norm": 0.865697979927063,
      "learning_rate": 0.0002996477072055815,
      "loss": 4.0767,
      "step": 12430
    },
    {
      "epoch": 0.025916666666666668,
      "grad_norm": 0.7985309362411499,
      "learning_rate": 0.00029964703160944954,
      "loss": 4.0182,
      "step": 12440
    },
    {
      "epoch": 0.0259375,
      "grad_norm": 0.9476754665374756,
      "learning_rate": 0.0002996463553669016,
      "loss": 4.0276,
      "step": 12450
    },
    {
      "epoch": 0.025958333333333333,
      "grad_norm": 0.8182475566864014,
      "learning_rate": 0.00029964567847794063,
      "loss": 4.037,
      "step": 12460
    },
    {
      "epoch": 0.025979166666666668,
      "grad_norm": 0.7820776700973511,
      "learning_rate": 0.0002996450009425696,
      "loss": 4.1314,
      "step": 12470
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.953820526599884,
      "learning_rate": 0.0002996443227607914,
      "loss": 4.0649,
      "step": 12480
    },
    {
      "epoch": 0.026020833333333333,
      "grad_norm": 0.9297104477882385,
      "learning_rate": 0.00029964364393260894,
      "loss": 3.9231,
      "step": 12490
    },
    {
      "epoch": 0.026041666666666668,
      "grad_norm": 0.8150413036346436,
      "learning_rate": 0.0002996429644580252,
      "loss": 4.0518,
      "step": 12500
    },
    {
      "epoch": 0.0260625,
      "grad_norm": 0.9100131392478943,
      "learning_rate": 0.00029964228433704303,
      "loss": 4.112,
      "step": 12510
    },
    {
      "epoch": 0.026083333333333333,
      "grad_norm": 0.8346758484840393,
      "learning_rate": 0.00029964160356966545,
      "loss": 4.0265,
      "step": 12520
    },
    {
      "epoch": 0.026104166666666668,
      "grad_norm": 1.0204684734344482,
      "learning_rate": 0.00029964092215589537,
      "loss": 4.0501,
      "step": 12530
    },
    {
      "epoch": 0.026125,
      "grad_norm": 0.8823035955429077,
      "learning_rate": 0.00029964024009573577,
      "loss": 4.1322,
      "step": 12540
    },
    {
      "epoch": 0.026145833333333333,
      "grad_norm": 1.1147531270980835,
      "learning_rate": 0.00029963955738918953,
      "loss": 4.002,
      "step": 12550
    },
    {
      "epoch": 0.026166666666666668,
      "grad_norm": 0.8762080669403076,
      "learning_rate": 0.0002996388740362597,
      "loss": 4.1656,
      "step": 12560
    },
    {
      "epoch": 0.0261875,
      "grad_norm": 0.8316856026649475,
      "learning_rate": 0.0002996381900369491,
      "loss": 4.1048,
      "step": 12570
    },
    {
      "epoch": 0.026208333333333333,
      "grad_norm": 0.9266704320907593,
      "learning_rate": 0.00029963750539126075,
      "loss": 4.2185,
      "step": 12580
    },
    {
      "epoch": 0.026229166666666668,
      "grad_norm": 0.9004167318344116,
      "learning_rate": 0.00029963682009919763,
      "loss": 4.0116,
      "step": 12590
    },
    {
      "epoch": 0.02625,
      "grad_norm": 0.8255387544631958,
      "learning_rate": 0.0002996361341607627,
      "loss": 3.9482,
      "step": 12600
    },
    {
      "epoch": 0.026270833333333334,
      "grad_norm": 0.8466336131095886,
      "learning_rate": 0.00029963544757595885,
      "loss": 3.9322,
      "step": 12610
    },
    {
      "epoch": 0.026291666666666668,
      "grad_norm": 0.8526718616485596,
      "learning_rate": 0.0002996347603447891,
      "loss": 4.0327,
      "step": 12620
    },
    {
      "epoch": 0.0263125,
      "grad_norm": 0.9007949829101562,
      "learning_rate": 0.00029963407246725644,
      "loss": 4.0894,
      "step": 12630
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 0.810897707939148,
      "learning_rate": 0.0002996333839433638,
      "loss": 3.9678,
      "step": 12640
    },
    {
      "epoch": 0.026354166666666668,
      "grad_norm": 0.9200378656387329,
      "learning_rate": 0.0002996326947731142,
      "loss": 3.911,
      "step": 12650
    },
    {
      "epoch": 0.026375,
      "grad_norm": 0.9246525764465332,
      "learning_rate": 0.00029963200495651055,
      "loss": 3.8677,
      "step": 12660
    },
    {
      "epoch": 0.026395833333333334,
      "grad_norm": 0.8256850242614746,
      "learning_rate": 0.0002996313144935559,
      "loss": 3.9736,
      "step": 12670
    },
    {
      "epoch": 0.026416666666666668,
      "grad_norm": 0.8702117204666138,
      "learning_rate": 0.0002996306233842532,
      "loss": 3.9605,
      "step": 12680
    },
    {
      "epoch": 0.0264375,
      "grad_norm": 0.8772563934326172,
      "learning_rate": 0.0002996299316286054,
      "loss": 4.2239,
      "step": 12690
    },
    {
      "epoch": 0.026458333333333334,
      "grad_norm": 0.9275411367416382,
      "learning_rate": 0.0002996292392266155,
      "loss": 3.9043,
      "step": 12700
    },
    {
      "epoch": 0.026479166666666668,
      "grad_norm": 0.9481557607650757,
      "learning_rate": 0.0002996285461782866,
      "loss": 4.0144,
      "step": 12710
    },
    {
      "epoch": 0.0265,
      "grad_norm": 0.978755533695221,
      "learning_rate": 0.00029962785248362157,
      "loss": 3.953,
      "step": 12720
    },
    {
      "epoch": 0.026520833333333334,
      "grad_norm": 0.8623465299606323,
      "learning_rate": 0.0002996271581426234,
      "loss": 4.0704,
      "step": 12730
    },
    {
      "epoch": 0.02654166666666667,
      "grad_norm": 0.8921887278556824,
      "learning_rate": 0.0002996264631552952,
      "loss": 3.8152,
      "step": 12740
    },
    {
      "epoch": 0.0265625,
      "grad_norm": 0.839424192905426,
      "learning_rate": 0.0002996257675216399,
      "loss": 4.1187,
      "step": 12750
    },
    {
      "epoch": 0.026583333333333334,
      "grad_norm": 0.8677070140838623,
      "learning_rate": 0.00029962507124166044,
      "loss": 4.1257,
      "step": 12760
    },
    {
      "epoch": 0.02660416666666667,
      "grad_norm": 1.0243782997131348,
      "learning_rate": 0.00029962437431536,
      "loss": 4.018,
      "step": 12770
    },
    {
      "epoch": 0.026625,
      "grad_norm": 0.789656937122345,
      "learning_rate": 0.00029962367674274144,
      "loss": 4.0919,
      "step": 12780
    },
    {
      "epoch": 0.026645833333333334,
      "grad_norm": 0.9391693472862244,
      "learning_rate": 0.00029962297852380776,
      "loss": 3.9415,
      "step": 12790
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.8821779489517212,
      "learning_rate": 0.0002996222796585621,
      "loss": 4.0768,
      "step": 12800
    },
    {
      "epoch": 0.0266875,
      "grad_norm": 0.8409366607666016,
      "learning_rate": 0.0002996215801470074,
      "loss": 4.0558,
      "step": 12810
    },
    {
      "epoch": 0.026708333333333334,
      "grad_norm": 0.8120698928833008,
      "learning_rate": 0.0002996208799891467,
      "loss": 4.193,
      "step": 12820
    },
    {
      "epoch": 0.026729166666666665,
      "grad_norm": 0.8941954970359802,
      "learning_rate": 0.00029962017918498305,
      "loss": 3.9991,
      "step": 12830
    },
    {
      "epoch": 0.02675,
      "grad_norm": 0.8437336683273315,
      "learning_rate": 0.0002996194777345194,
      "loss": 4.0258,
      "step": 12840
    },
    {
      "epoch": 0.026770833333333334,
      "grad_norm": 0.9636651277542114,
      "learning_rate": 0.0002996187756377589,
      "loss": 4.0927,
      "step": 12850
    },
    {
      "epoch": 0.026791666666666665,
      "grad_norm": 0.8670513033866882,
      "learning_rate": 0.00029961807289470446,
      "loss": 3.9893,
      "step": 12860
    },
    {
      "epoch": 0.0268125,
      "grad_norm": 0.8243114352226257,
      "learning_rate": 0.00029961736950535916,
      "loss": 4.0284,
      "step": 12870
    },
    {
      "epoch": 0.026833333333333334,
      "grad_norm": 0.867907702922821,
      "learning_rate": 0.0002996166654697261,
      "loss": 4.0451,
      "step": 12880
    },
    {
      "epoch": 0.026854166666666665,
      "grad_norm": 0.9168021082878113,
      "learning_rate": 0.00029961596078780824,
      "loss": 3.9235,
      "step": 12890
    },
    {
      "epoch": 0.026875,
      "grad_norm": 0.9834937453269958,
      "learning_rate": 0.00029961525545960864,
      "loss": 4.0184,
      "step": 12900
    },
    {
      "epoch": 0.026895833333333334,
      "grad_norm": 0.9485666155815125,
      "learning_rate": 0.0002996145494851303,
      "loss": 4.1428,
      "step": 12910
    },
    {
      "epoch": 0.026916666666666665,
      "grad_norm": 0.9374496936798096,
      "learning_rate": 0.00029961384286437644,
      "loss": 4.0228,
      "step": 12920
    },
    {
      "epoch": 0.0269375,
      "grad_norm": 1.150719165802002,
      "learning_rate": 0.0002996131355973499,
      "loss": 4.0496,
      "step": 12930
    },
    {
      "epoch": 0.026958333333333334,
      "grad_norm": 0.8332419991493225,
      "learning_rate": 0.00029961242768405396,
      "loss": 4.3133,
      "step": 12940
    },
    {
      "epoch": 0.026979166666666665,
      "grad_norm": 1.0052791833877563,
      "learning_rate": 0.00029961171912449143,
      "loss": 4.0232,
      "step": 12950
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.8669558167457581,
      "learning_rate": 0.0002996110099186655,
      "loss": 4.0503,
      "step": 12960
    },
    {
      "epoch": 0.027020833333333334,
      "grad_norm": 0.8199687600135803,
      "learning_rate": 0.00029961030006657934,
      "loss": 3.9457,
      "step": 12970
    },
    {
      "epoch": 0.027041666666666665,
      "grad_norm": 0.7889499664306641,
      "learning_rate": 0.0002996095895682358,
      "loss": 4.09,
      "step": 12980
    },
    {
      "epoch": 0.0270625,
      "grad_norm": 0.8110848665237427,
      "learning_rate": 0.0002996088784236381,
      "loss": 4.0489,
      "step": 12990
    },
    {
      "epoch": 0.027083333333333334,
      "grad_norm": 0.8707507848739624,
      "learning_rate": 0.00029960816663278925,
      "loss": 4.0854,
      "step": 13000
    },
    {
      "epoch": 0.027083333333333334,
      "eval_loss": 4.359851837158203,
      "eval_runtime": 9.5293,
      "eval_samples_per_second": 1.049,
      "eval_steps_per_second": 0.315,
      "step": 13000
    },
    {
      "epoch": 0.027104166666666665,
      "grad_norm": 0.8259526491165161,
      "learning_rate": 0.0002996074541956923,
      "loss": 3.9867,
      "step": 13010
    },
    {
      "epoch": 0.027125,
      "grad_norm": 0.8513361811637878,
      "learning_rate": 0.0002996067411123504,
      "loss": 4.2101,
      "step": 13020
    },
    {
      "epoch": 0.027145833333333334,
      "grad_norm": 0.8666677474975586,
      "learning_rate": 0.00029960602738276663,
      "loss": 4.1288,
      "step": 13030
    },
    {
      "epoch": 0.027166666666666665,
      "grad_norm": 0.8560096621513367,
      "learning_rate": 0.00029960531300694403,
      "loss": 4.0676,
      "step": 13040
    },
    {
      "epoch": 0.0271875,
      "grad_norm": 0.8779157996177673,
      "learning_rate": 0.00029960459798488565,
      "loss": 4.3977,
      "step": 13050
    },
    {
      "epoch": 0.027208333333333334,
      "grad_norm": 0.8502326011657715,
      "learning_rate": 0.0002996038823165947,
      "loss": 4.1232,
      "step": 13060
    },
    {
      "epoch": 0.027229166666666665,
      "grad_norm": 0.8127399682998657,
      "learning_rate": 0.00029960316600207413,
      "loss": 3.9757,
      "step": 13070
    },
    {
      "epoch": 0.02725,
      "grad_norm": 0.9204973578453064,
      "learning_rate": 0.0002996024490413271,
      "loss": 3.9006,
      "step": 13080
    },
    {
      "epoch": 0.027270833333333334,
      "grad_norm": 0.7315559387207031,
      "learning_rate": 0.00029960173143435675,
      "loss": 4.122,
      "step": 13090
    },
    {
      "epoch": 0.027291666666666665,
      "grad_norm": 0.7884310483932495,
      "learning_rate": 0.0002996010131811661,
      "loss": 3.988,
      "step": 13100
    },
    {
      "epoch": 0.0273125,
      "grad_norm": 0.7562890648841858,
      "learning_rate": 0.0002996002942817583,
      "loss": 4.0558,
      "step": 13110
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 0.8700065016746521,
      "learning_rate": 0.00029959957473613645,
      "loss": 4.1028,
      "step": 13120
    },
    {
      "epoch": 0.027354166666666666,
      "grad_norm": 0.9044538736343384,
      "learning_rate": 0.00029959885454430363,
      "loss": 4.0376,
      "step": 13130
    },
    {
      "epoch": 0.027375,
      "grad_norm": 1.1886190176010132,
      "learning_rate": 0.000299598133706263,
      "loss": 4.0132,
      "step": 13140
    },
    {
      "epoch": 0.027395833333333335,
      "grad_norm": 0.822162926197052,
      "learning_rate": 0.00029959741222201767,
      "loss": 4.038,
      "step": 13150
    },
    {
      "epoch": 0.027416666666666666,
      "grad_norm": 0.7957779765129089,
      "learning_rate": 0.0002995966900915707,
      "loss": 3.956,
      "step": 13160
    },
    {
      "epoch": 0.0274375,
      "grad_norm": 0.8780480623245239,
      "learning_rate": 0.0002995959673149252,
      "loss": 4.3233,
      "step": 13170
    },
    {
      "epoch": 0.027458333333333335,
      "grad_norm": 0.8577442169189453,
      "learning_rate": 0.0002995952438920844,
      "loss": 4.1567,
      "step": 13180
    },
    {
      "epoch": 0.027479166666666666,
      "grad_norm": 0.7436883449554443,
      "learning_rate": 0.0002995945198230514,
      "loss": 4.0913,
      "step": 13190
    },
    {
      "epoch": 0.0275,
      "grad_norm": 0.875278890132904,
      "learning_rate": 0.0002995937951078292,
      "loss": 4.0634,
      "step": 13200
    },
    {
      "epoch": 0.027520833333333335,
      "grad_norm": 0.8415312170982361,
      "learning_rate": 0.00029959306974642106,
      "loss": 4.0181,
      "step": 13210
    },
    {
      "epoch": 0.027541666666666666,
      "grad_norm": 0.8785003423690796,
      "learning_rate": 0.00029959234373883004,
      "loss": 3.9336,
      "step": 13220
    },
    {
      "epoch": 0.0275625,
      "grad_norm": 0.8308568596839905,
      "learning_rate": 0.00029959161708505936,
      "loss": 4.2094,
      "step": 13230
    },
    {
      "epoch": 0.027583333333333335,
      "grad_norm": 0.818951427936554,
      "learning_rate": 0.00029959088978511204,
      "loss": 4.0752,
      "step": 13240
    },
    {
      "epoch": 0.027604166666666666,
      "grad_norm": 0.955394983291626,
      "learning_rate": 0.00029959016183899134,
      "loss": 3.9359,
      "step": 13250
    },
    {
      "epoch": 0.027625,
      "grad_norm": 0.8723248839378357,
      "learning_rate": 0.00029958943324670035,
      "loss": 3.9903,
      "step": 13260
    },
    {
      "epoch": 0.027645833333333335,
      "grad_norm": 0.7435494065284729,
      "learning_rate": 0.00029958870400824216,
      "loss": 4.0909,
      "step": 13270
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 0.9011809229850769,
      "learning_rate": 0.00029958797412362,
      "loss": 4.1353,
      "step": 13280
    },
    {
      "epoch": 0.0276875,
      "grad_norm": 0.7393107414245605,
      "learning_rate": 0.0002995872435928371,
      "loss": 4.0422,
      "step": 13290
    },
    {
      "epoch": 0.027708333333333335,
      "grad_norm": 0.8635237812995911,
      "learning_rate": 0.00029958651241589646,
      "loss": 3.9878,
      "step": 13300
    },
    {
      "epoch": 0.027729166666666666,
      "grad_norm": 0.9227210879325867,
      "learning_rate": 0.0002995857805928012,
      "loss": 3.8942,
      "step": 13310
    },
    {
      "epoch": 0.02775,
      "grad_norm": 0.8019893765449524,
      "learning_rate": 0.00029958504812355473,
      "loss": 3.9775,
      "step": 13320
    },
    {
      "epoch": 0.027770833333333335,
      "grad_norm": 0.8776654005050659,
      "learning_rate": 0.00029958431500815995,
      "loss": 4.0897,
      "step": 13330
    },
    {
      "epoch": 0.027791666666666666,
      "grad_norm": 0.8234403729438782,
      "learning_rate": 0.0002995835812466202,
      "loss": 4.1636,
      "step": 13340
    },
    {
      "epoch": 0.0278125,
      "grad_norm": 0.8834239840507507,
      "learning_rate": 0.0002995828468389386,
      "loss": 4.1159,
      "step": 13350
    },
    {
      "epoch": 0.027833333333333335,
      "grad_norm": 0.8409972190856934,
      "learning_rate": 0.0002995821117851183,
      "loss": 4.1387,
      "step": 13360
    },
    {
      "epoch": 0.027854166666666666,
      "grad_norm": 0.8174935579299927,
      "learning_rate": 0.00029958137608516246,
      "loss": 4.1037,
      "step": 13370
    },
    {
      "epoch": 0.027875,
      "grad_norm": 1.0774798393249512,
      "learning_rate": 0.00029958063973907424,
      "loss": 3.8952,
      "step": 13380
    },
    {
      "epoch": 0.027895833333333335,
      "grad_norm": 1.0032036304473877,
      "learning_rate": 0.00029957990274685694,
      "loss": 4.0937,
      "step": 13390
    },
    {
      "epoch": 0.027916666666666666,
      "grad_norm": 0.8382406830787659,
      "learning_rate": 0.0002995791651085136,
      "loss": 4.1684,
      "step": 13400
    },
    {
      "epoch": 0.0279375,
      "grad_norm": 0.7782190442085266,
      "learning_rate": 0.00029957842682404757,
      "loss": 4.0188,
      "step": 13410
    },
    {
      "epoch": 0.027958333333333335,
      "grad_norm": 0.8803874850273132,
      "learning_rate": 0.0002995776878934619,
      "loss": 4.0396,
      "step": 13420
    },
    {
      "epoch": 0.027979166666666666,
      "grad_norm": 0.827543318271637,
      "learning_rate": 0.0002995769483167598,
      "loss": 4.2623,
      "step": 13430
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.861603856086731,
      "learning_rate": 0.0002995762080939445,
      "loss": 3.97,
      "step": 13440
    },
    {
      "epoch": 0.02802083333333333,
      "grad_norm": 0.9303983449935913,
      "learning_rate": 0.0002995754672250192,
      "loss": 4.1121,
      "step": 13450
    },
    {
      "epoch": 0.028041666666666666,
      "grad_norm": 0.9568511247634888,
      "learning_rate": 0.0002995747257099871,
      "loss": 3.9798,
      "step": 13460
    },
    {
      "epoch": 0.0280625,
      "grad_norm": 0.8132941126823425,
      "learning_rate": 0.00029957398354885133,
      "loss": 4.019,
      "step": 13470
    },
    {
      "epoch": 0.02808333333333333,
      "grad_norm": 0.9443039894104004,
      "learning_rate": 0.0002995732407416152,
      "loss": 4.1122,
      "step": 13480
    },
    {
      "epoch": 0.028104166666666666,
      "grad_norm": 0.9273906350135803,
      "learning_rate": 0.0002995724972882819,
      "loss": 4.0012,
      "step": 13490
    },
    {
      "epoch": 0.028125,
      "grad_norm": 0.7813358306884766,
      "learning_rate": 0.0002995717531888546,
      "loss": 3.9752,
      "step": 13500
    },
    {
      "epoch": 0.02814583333333333,
      "grad_norm": 0.9638699293136597,
      "learning_rate": 0.0002995710084433365,
      "loss": 4.0382,
      "step": 13510
    },
    {
      "epoch": 0.028166666666666666,
      "grad_norm": 1.0133676528930664,
      "learning_rate": 0.0002995702630517309,
      "loss": 4.0428,
      "step": 13520
    },
    {
      "epoch": 0.0281875,
      "grad_norm": 1.0262118577957153,
      "learning_rate": 0.0002995695170140409,
      "loss": 4.3586,
      "step": 13530
    },
    {
      "epoch": 0.028208333333333332,
      "grad_norm": 0.92856365442276,
      "learning_rate": 0.00029956877033026984,
      "loss": 3.9101,
      "step": 13540
    },
    {
      "epoch": 0.028229166666666666,
      "grad_norm": 0.8816470503807068,
      "learning_rate": 0.0002995680230004209,
      "loss": 4.1489,
      "step": 13550
    },
    {
      "epoch": 0.02825,
      "grad_norm": 1.0170079469680786,
      "learning_rate": 0.0002995672750244973,
      "loss": 4.1837,
      "step": 13560
    },
    {
      "epoch": 0.028270833333333332,
      "grad_norm": 0.9074510931968689,
      "learning_rate": 0.00029956652640250223,
      "loss": 4.1081,
      "step": 13570
    },
    {
      "epoch": 0.028291666666666666,
      "grad_norm": 0.8010416030883789,
      "learning_rate": 0.000299565777134439,
      "loss": 4.072,
      "step": 13580
    },
    {
      "epoch": 0.0283125,
      "grad_norm": 0.7508525252342224,
      "learning_rate": 0.0002995650272203108,
      "loss": 4.0573,
      "step": 13590
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 0.9767383933067322,
      "learning_rate": 0.0002995642766601209,
      "loss": 4.0596,
      "step": 13600
    },
    {
      "epoch": 0.028354166666666666,
      "grad_norm": 0.9028267860412598,
      "learning_rate": 0.00029956352545387256,
      "loss": 3.9044,
      "step": 13610
    },
    {
      "epoch": 0.028375,
      "grad_norm": 0.987820565700531,
      "learning_rate": 0.000299562773601569,
      "loss": 3.8103,
      "step": 13620
    },
    {
      "epoch": 0.028395833333333332,
      "grad_norm": 0.7659754753112793,
      "learning_rate": 0.0002995620211032134,
      "loss": 3.9897,
      "step": 13630
    },
    {
      "epoch": 0.028416666666666666,
      "grad_norm": 0.8494104146957397,
      "learning_rate": 0.00029956126795880906,
      "loss": 3.9812,
      "step": 13640
    },
    {
      "epoch": 0.0284375,
      "grad_norm": 0.8383607268333435,
      "learning_rate": 0.00029956051416835924,
      "loss": 4.2454,
      "step": 13650
    },
    {
      "epoch": 0.028458333333333332,
      "grad_norm": 0.9371084570884705,
      "learning_rate": 0.00029955975973186723,
      "loss": 3.9576,
      "step": 13660
    },
    {
      "epoch": 0.028479166666666667,
      "grad_norm": 0.9145421385765076,
      "learning_rate": 0.0002995590046493363,
      "loss": 4.195,
      "step": 13670
    },
    {
      "epoch": 0.0285,
      "grad_norm": 0.9933358430862427,
      "learning_rate": 0.0002995582489207696,
      "loss": 4.0705,
      "step": 13680
    },
    {
      "epoch": 0.028520833333333332,
      "grad_norm": 0.7886926531791687,
      "learning_rate": 0.0002995574925461705,
      "loss": 4.1436,
      "step": 13690
    },
    {
      "epoch": 0.028541666666666667,
      "grad_norm": 0.8565403819084167,
      "learning_rate": 0.0002995567355255422,
      "loss": 3.9428,
      "step": 13700
    },
    {
      "epoch": 0.0285625,
      "grad_norm": 0.9245144128799438,
      "learning_rate": 0.00029955597785888806,
      "loss": 4.0552,
      "step": 13710
    },
    {
      "epoch": 0.028583333333333332,
      "grad_norm": 0.9167112708091736,
      "learning_rate": 0.00029955521954621125,
      "loss": 3.9909,
      "step": 13720
    },
    {
      "epoch": 0.028604166666666667,
      "grad_norm": 0.8368225693702698,
      "learning_rate": 0.00029955446058751507,
      "loss": 4.1241,
      "step": 13730
    },
    {
      "epoch": 0.028625,
      "grad_norm": 0.9742733836174011,
      "learning_rate": 0.0002995537009828028,
      "loss": 3.9613,
      "step": 13740
    },
    {
      "epoch": 0.028645833333333332,
      "grad_norm": 0.7571779489517212,
      "learning_rate": 0.0002995529407320778,
      "loss": 3.9219,
      "step": 13750
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 0.821368932723999,
      "learning_rate": 0.0002995521798353433,
      "loss": 4.2434,
      "step": 13760
    },
    {
      "epoch": 0.0286875,
      "grad_norm": 0.88266521692276,
      "learning_rate": 0.0002995514182926026,
      "loss": 4.0037,
      "step": 13770
    },
    {
      "epoch": 0.028708333333333332,
      "grad_norm": 0.959341287612915,
      "learning_rate": 0.0002995506561038589,
      "loss": 4.0222,
      "step": 13780
    },
    {
      "epoch": 0.028729166666666667,
      "grad_norm": 0.7965496182441711,
      "learning_rate": 0.00029954989326911555,
      "loss": 4.0164,
      "step": 13790
    },
    {
      "epoch": 0.02875,
      "grad_norm": 0.8554810881614685,
      "learning_rate": 0.00029954912978837593,
      "loss": 3.9433,
      "step": 13800
    },
    {
      "epoch": 0.028770833333333332,
      "grad_norm": 0.9147219061851501,
      "learning_rate": 0.00029954836566164323,
      "loss": 4.1305,
      "step": 13810
    },
    {
      "epoch": 0.028791666666666667,
      "grad_norm": 0.9397408366203308,
      "learning_rate": 0.00029954760088892076,
      "loss": 3.913,
      "step": 13820
    },
    {
      "epoch": 0.0288125,
      "grad_norm": 0.9073673486709595,
      "learning_rate": 0.0002995468354702119,
      "loss": 4.0855,
      "step": 13830
    },
    {
      "epoch": 0.028833333333333332,
      "grad_norm": 0.7644234895706177,
      "learning_rate": 0.0002995460694055199,
      "loss": 4.0826,
      "step": 13840
    },
    {
      "epoch": 0.028854166666666667,
      "grad_norm": 0.8978095650672913,
      "learning_rate": 0.00029954530269484805,
      "loss": 4.147,
      "step": 13850
    },
    {
      "epoch": 0.028875,
      "grad_norm": 0.7489539384841919,
      "learning_rate": 0.00029954453533819966,
      "loss": 4.0548,
      "step": 13860
    },
    {
      "epoch": 0.028895833333333332,
      "grad_norm": 0.9819786548614502,
      "learning_rate": 0.0002995437673355781,
      "loss": 4.1459,
      "step": 13870
    },
    {
      "epoch": 0.028916666666666667,
      "grad_norm": 0.935992956161499,
      "learning_rate": 0.0002995429986869867,
      "loss": 4.1125,
      "step": 13880
    },
    {
      "epoch": 0.0289375,
      "grad_norm": 1.3112685680389404,
      "learning_rate": 0.0002995422293924287,
      "loss": 4.027,
      "step": 13890
    },
    {
      "epoch": 0.028958333333333332,
      "grad_norm": 0.8548194766044617,
      "learning_rate": 0.0002995414594519074,
      "loss": 3.9184,
      "step": 13900
    },
    {
      "epoch": 0.028979166666666667,
      "grad_norm": 0.8113975524902344,
      "learning_rate": 0.0002995406888654263,
      "loss": 4.0994,
      "step": 13910
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.9581493139266968,
      "learning_rate": 0.00029953991763298856,
      "loss": 4.0694,
      "step": 13920
    },
    {
      "epoch": 0.029020833333333333,
      "grad_norm": 0.7941803932189941,
      "learning_rate": 0.00029953914575459755,
      "loss": 4.1715,
      "step": 13930
    },
    {
      "epoch": 0.029041666666666667,
      "grad_norm": 0.9321348667144775,
      "learning_rate": 0.00029953837323025667,
      "loss": 4.0293,
      "step": 13940
    },
    {
      "epoch": 0.0290625,
      "grad_norm": 1.9892157316207886,
      "learning_rate": 0.00029953760005996916,
      "loss": 3.8948,
      "step": 13950
    },
    {
      "epoch": 0.029083333333333333,
      "grad_norm": 1.0032389163970947,
      "learning_rate": 0.0002995368262437384,
      "loss": 4.0357,
      "step": 13960
    },
    {
      "epoch": 0.029104166666666667,
      "grad_norm": 0.8386779427528381,
      "learning_rate": 0.00029953605178156784,
      "loss": 4.1822,
      "step": 13970
    },
    {
      "epoch": 0.029125,
      "grad_norm": 0.7913174629211426,
      "learning_rate": 0.00029953527667346064,
      "loss": 4.188,
      "step": 13980
    },
    {
      "epoch": 0.029145833333333333,
      "grad_norm": 1.1361711025238037,
      "learning_rate": 0.00029953450091942026,
      "loss": 4.2595,
      "step": 13990
    },
    {
      "epoch": 0.029166666666666667,
      "grad_norm": 0.8619164228439331,
      "learning_rate": 0.00029953372451945,
      "loss": 3.9751,
      "step": 14000
    },
    {
      "epoch": 0.029166666666666667,
      "eval_loss": 4.356916427612305,
      "eval_runtime": 9.3544,
      "eval_samples_per_second": 1.069,
      "eval_steps_per_second": 0.321,
      "step": 14000
    },
    {
      "epoch": 0.0291875,
      "grad_norm": 0.7936063408851624,
      "learning_rate": 0.00029953294747355326,
      "loss": 4.091,
      "step": 14010
    },
    {
      "epoch": 0.029208333333333333,
      "grad_norm": 1.0108964443206787,
      "learning_rate": 0.00029953216978173335,
      "loss": 4.0172,
      "step": 14020
    },
    {
      "epoch": 0.029229166666666667,
      "grad_norm": 0.9538745880126953,
      "learning_rate": 0.0002995313914439937,
      "loss": 4.1773,
      "step": 14030
    },
    {
      "epoch": 0.02925,
      "grad_norm": 0.856364369392395,
      "learning_rate": 0.00029953061246033765,
      "loss": 3.9308,
      "step": 14040
    },
    {
      "epoch": 0.029270833333333333,
      "grad_norm": 0.8447313904762268,
      "learning_rate": 0.0002995298328307685,
      "loss": 4.0601,
      "step": 14050
    },
    {
      "epoch": 0.029291666666666667,
      "grad_norm": 0.8464942574501038,
      "learning_rate": 0.0002995290525552897,
      "loss": 4.0141,
      "step": 14060
    },
    {
      "epoch": 0.0293125,
      "grad_norm": 0.9490212202072144,
      "learning_rate": 0.0002995282716339045,
      "loss": 4.1654,
      "step": 14070
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 0.8684578537940979,
      "learning_rate": 0.0002995274900666164,
      "loss": 4.1965,
      "step": 14080
    },
    {
      "epoch": 0.029354166666666667,
      "grad_norm": 0.998436450958252,
      "learning_rate": 0.00029952670785342875,
      "loss": 3.9991,
      "step": 14090
    },
    {
      "epoch": 0.029375,
      "grad_norm": 0.7740040421485901,
      "learning_rate": 0.0002995259249943449,
      "loss": 4.2114,
      "step": 14100
    },
    {
      "epoch": 0.029395833333333333,
      "grad_norm": 1.4362983703613281,
      "learning_rate": 0.0002995251414893682,
      "loss": 3.9309,
      "step": 14110
    },
    {
      "epoch": 0.029416666666666667,
      "grad_norm": 0.8584771156311035,
      "learning_rate": 0.0002995243573385021,
      "loss": 4.0263,
      "step": 14120
    },
    {
      "epoch": 0.0294375,
      "grad_norm": 0.8559417724609375,
      "learning_rate": 0.00029952357254175,
      "loss": 4.1697,
      "step": 14130
    },
    {
      "epoch": 0.029458333333333333,
      "grad_norm": 0.9709491729736328,
      "learning_rate": 0.0002995227870991152,
      "loss": 4.2842,
      "step": 14140
    },
    {
      "epoch": 0.029479166666666667,
      "grad_norm": 0.8047007322311401,
      "learning_rate": 0.00029952200101060114,
      "loss": 3.9945,
      "step": 14150
    },
    {
      "epoch": 0.0295,
      "grad_norm": 0.8429526090621948,
      "learning_rate": 0.00029952121427621127,
      "loss": 4.2002,
      "step": 14160
    },
    {
      "epoch": 0.029520833333333333,
      "grad_norm": 0.946507453918457,
      "learning_rate": 0.0002995204268959489,
      "loss": 4.1771,
      "step": 14170
    },
    {
      "epoch": 0.029541666666666667,
      "grad_norm": 0.8206014037132263,
      "learning_rate": 0.00029951963886981744,
      "loss": 3.8681,
      "step": 14180
    },
    {
      "epoch": 0.0295625,
      "grad_norm": 0.8725135922431946,
      "learning_rate": 0.0002995188501978204,
      "loss": 4.0012,
      "step": 14190
    },
    {
      "epoch": 0.029583333333333333,
      "grad_norm": 0.8647250533103943,
      "learning_rate": 0.0002995180608799611,
      "loss": 3.835,
      "step": 14200
    },
    {
      "epoch": 0.029604166666666668,
      "grad_norm": 0.8583681583404541,
      "learning_rate": 0.0002995172709162429,
      "loss": 4.0018,
      "step": 14210
    },
    {
      "epoch": 0.029625,
      "grad_norm": 0.9821990728378296,
      "learning_rate": 0.0002995164803066693,
      "loss": 4.0503,
      "step": 14220
    },
    {
      "epoch": 0.029645833333333333,
      "grad_norm": 0.8250752091407776,
      "learning_rate": 0.0002995156890512437,
      "loss": 4.0846,
      "step": 14230
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 0.9520192742347717,
      "learning_rate": 0.0002995148971499695,
      "loss": 3.9514,
      "step": 14240
    },
    {
      "epoch": 0.0296875,
      "grad_norm": 1.0640666484832764,
      "learning_rate": 0.00029951410460285016,
      "loss": 4.094,
      "step": 14250
    },
    {
      "epoch": 0.029708333333333333,
      "grad_norm": 0.8637073040008545,
      "learning_rate": 0.00029951331140988904,
      "loss": 4.1746,
      "step": 14260
    },
    {
      "epoch": 0.029729166666666668,
      "grad_norm": 0.7906662821769714,
      "learning_rate": 0.0002995125175710896,
      "loss": 4.187,
      "step": 14270
    },
    {
      "epoch": 0.02975,
      "grad_norm": 0.8535051941871643,
      "learning_rate": 0.00029951172308645527,
      "loss": 4.2243,
      "step": 14280
    },
    {
      "epoch": 0.029770833333333333,
      "grad_norm": 0.8398330807685852,
      "learning_rate": 0.00029951092795598946,
      "loss": 3.992,
      "step": 14290
    },
    {
      "epoch": 0.029791666666666668,
      "grad_norm": 0.8448793292045593,
      "learning_rate": 0.00029951013217969564,
      "loss": 4.1865,
      "step": 14300
    },
    {
      "epoch": 0.0298125,
      "grad_norm": 0.991813600063324,
      "learning_rate": 0.00029950933575757717,
      "loss": 4.1371,
      "step": 14310
    },
    {
      "epoch": 0.029833333333333333,
      "grad_norm": 0.939232349395752,
      "learning_rate": 0.00029950853868963764,
      "loss": 4.1055,
      "step": 14320
    },
    {
      "epoch": 0.029854166666666668,
      "grad_norm": 0.9091331958770752,
      "learning_rate": 0.00029950774097588033,
      "loss": 3.8969,
      "step": 14330
    },
    {
      "epoch": 0.029875,
      "grad_norm": 0.8256743550300598,
      "learning_rate": 0.0002995069426163088,
      "loss": 4.0185,
      "step": 14340
    },
    {
      "epoch": 0.029895833333333333,
      "grad_norm": 0.9156287312507629,
      "learning_rate": 0.00029950614361092643,
      "loss": 4.046,
      "step": 14350
    },
    {
      "epoch": 0.029916666666666668,
      "grad_norm": 0.9120573401451111,
      "learning_rate": 0.00029950534395973676,
      "loss": 4.1613,
      "step": 14360
    },
    {
      "epoch": 0.0299375,
      "grad_norm": 0.8116564154624939,
      "learning_rate": 0.0002995045436627431,
      "loss": 4.1115,
      "step": 14370
    },
    {
      "epoch": 0.029958333333333333,
      "grad_norm": 0.8502389192581177,
      "learning_rate": 0.0002995037427199491,
      "loss": 4.1647,
      "step": 14380
    },
    {
      "epoch": 0.029979166666666668,
      "grad_norm": 0.8279502987861633,
      "learning_rate": 0.00029950294113135795,
      "loss": 3.976,
      "step": 14390
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7861356735229492,
      "learning_rate": 0.00029950213889697334,
      "loss": 4.0995,
      "step": 14400
    },
    {
      "epoch": 0.030020833333333333,
      "grad_norm": 0.8641905784606934,
      "learning_rate": 0.0002995013360167987,
      "loss": 4.0781,
      "step": 14410
    },
    {
      "epoch": 0.030041666666666668,
      "grad_norm": 0.9762683510780334,
      "learning_rate": 0.00029950053249083746,
      "loss": 3.9164,
      "step": 14420
    },
    {
      "epoch": 0.0300625,
      "grad_norm": 0.8936527371406555,
      "learning_rate": 0.0002994997283190931,
      "loss": 4.0197,
      "step": 14430
    },
    {
      "epoch": 0.030083333333333333,
      "grad_norm": 0.9123913645744324,
      "learning_rate": 0.0002994989235015691,
      "loss": 4.2142,
      "step": 14440
    },
    {
      "epoch": 0.030104166666666668,
      "grad_norm": 0.7833881378173828,
      "learning_rate": 0.00029949811803826887,
      "loss": 4.1087,
      "step": 14450
    },
    {
      "epoch": 0.030125,
      "grad_norm": 0.9175639152526855,
      "learning_rate": 0.000299497311929196,
      "loss": 4.0483,
      "step": 14460
    },
    {
      "epoch": 0.030145833333333334,
      "grad_norm": 1.0885392427444458,
      "learning_rate": 0.0002994965051743539,
      "loss": 4.1156,
      "step": 14470
    },
    {
      "epoch": 0.030166666666666668,
      "grad_norm": 0.7812568545341492,
      "learning_rate": 0.00029949569777374606,
      "loss": 4.2049,
      "step": 14480
    },
    {
      "epoch": 0.0301875,
      "grad_norm": 0.7951915264129639,
      "learning_rate": 0.00029949488972737595,
      "loss": 4.2044,
      "step": 14490
    },
    {
      "epoch": 0.030208333333333334,
      "grad_norm": 0.889025866985321,
      "learning_rate": 0.0002994940810352472,
      "loss": 4.0133,
      "step": 14500
    },
    {
      "epoch": 0.030229166666666668,
      "grad_norm": 0.8385442495346069,
      "learning_rate": 0.0002994932716973631,
      "loss": 3.9657,
      "step": 14510
    },
    {
      "epoch": 0.03025,
      "grad_norm": 0.8191893100738525,
      "learning_rate": 0.00029949246171372725,
      "loss": 3.9902,
      "step": 14520
    },
    {
      "epoch": 0.030270833333333334,
      "grad_norm": 0.8516495227813721,
      "learning_rate": 0.00029949165108434316,
      "loss": 3.8266,
      "step": 14530
    },
    {
      "epoch": 0.030291666666666668,
      "grad_norm": 0.8472347259521484,
      "learning_rate": 0.00029949083980921427,
      "loss": 4.1477,
      "step": 14540
    },
    {
      "epoch": 0.0303125,
      "grad_norm": 0.7125795483589172,
      "learning_rate": 0.0002994900278883441,
      "loss": 3.9867,
      "step": 14550
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 0.7736186385154724,
      "learning_rate": 0.00029948921532173625,
      "loss": 3.9828,
      "step": 14560
    },
    {
      "epoch": 0.030354166666666668,
      "grad_norm": 0.9110493659973145,
      "learning_rate": 0.0002994884021093942,
      "loss": 4.0417,
      "step": 14570
    },
    {
      "epoch": 0.030375,
      "grad_norm": 0.823752224445343,
      "learning_rate": 0.0002994875882513214,
      "loss": 4.0839,
      "step": 14580
    },
    {
      "epoch": 0.030395833333333334,
      "grad_norm": 0.8900298476219177,
      "learning_rate": 0.0002994867737475213,
      "loss": 4.0366,
      "step": 14590
    },
    {
      "epoch": 0.030416666666666668,
      "grad_norm": 0.8623661994934082,
      "learning_rate": 0.0002994859585979976,
      "loss": 4.2338,
      "step": 14600
    },
    {
      "epoch": 0.0304375,
      "grad_norm": 0.9114215970039368,
      "learning_rate": 0.00029948514280275367,
      "loss": 3.738,
      "step": 14610
    },
    {
      "epoch": 0.030458333333333334,
      "grad_norm": 0.794955849647522,
      "learning_rate": 0.00029948432636179315,
      "loss": 4.1121,
      "step": 14620
    },
    {
      "epoch": 0.03047916666666667,
      "grad_norm": 0.9092820286750793,
      "learning_rate": 0.00029948350927511944,
      "loss": 4.1745,
      "step": 14630
    },
    {
      "epoch": 0.0305,
      "grad_norm": 0.8599286079406738,
      "learning_rate": 0.0002994826915427362,
      "loss": 4.2106,
      "step": 14640
    },
    {
      "epoch": 0.030520833333333334,
      "grad_norm": 0.9800681471824646,
      "learning_rate": 0.0002994818731646469,
      "loss": 4.0644,
      "step": 14650
    },
    {
      "epoch": 0.03054166666666667,
      "grad_norm": 0.8235310912132263,
      "learning_rate": 0.0002994810541408551,
      "loss": 4.0764,
      "step": 14660
    },
    {
      "epoch": 0.0305625,
      "grad_norm": 0.8471696972846985,
      "learning_rate": 0.0002994802344713643,
      "loss": 4.0903,
      "step": 14670
    },
    {
      "epoch": 0.030583333333333334,
      "grad_norm": 0.900359570980072,
      "learning_rate": 0.00029947941415617795,
      "loss": 4.0169,
      "step": 14680
    },
    {
      "epoch": 0.030604166666666665,
      "grad_norm": 0.8637657165527344,
      "learning_rate": 0.00029947859319529984,
      "loss": 4.077,
      "step": 14690
    },
    {
      "epoch": 0.030625,
      "grad_norm": 0.86497563123703,
      "learning_rate": 0.00029947777158873326,
      "loss": 4.0702,
      "step": 14700
    },
    {
      "epoch": 0.030645833333333334,
      "grad_norm": 0.7919631004333496,
      "learning_rate": 0.00029947694933648195,
      "loss": 4.0094,
      "step": 14710
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 0.927245557308197,
      "learning_rate": 0.00029947612643854937,
      "loss": 4.1117,
      "step": 14720
    },
    {
      "epoch": 0.0306875,
      "grad_norm": 1.019700050354004,
      "learning_rate": 0.0002994753028949391,
      "loss": 4.1263,
      "step": 14730
    },
    {
      "epoch": 0.030708333333333334,
      "grad_norm": 0.8786669373512268,
      "learning_rate": 0.0002994744787056547,
      "loss": 4.0432,
      "step": 14740
    },
    {
      "epoch": 0.030729166666666665,
      "grad_norm": 0.8385117650032043,
      "learning_rate": 0.0002994736538706997,
      "loss": 4.0987,
      "step": 14750
    },
    {
      "epoch": 0.03075,
      "grad_norm": 0.746900737285614,
      "learning_rate": 0.0002994728283900776,
      "loss": 4.0355,
      "step": 14760
    },
    {
      "epoch": 0.030770833333333334,
      "grad_norm": 0.8696882724761963,
      "learning_rate": 0.0002994720022637922,
      "loss": 4.2424,
      "step": 14770
    },
    {
      "epoch": 0.030791666666666665,
      "grad_norm": 0.8687977194786072,
      "learning_rate": 0.0002994711754918468,
      "loss": 3.9462,
      "step": 14780
    },
    {
      "epoch": 0.0308125,
      "grad_norm": 0.9078602194786072,
      "learning_rate": 0.00029947034807424513,
      "loss": 4.013,
      "step": 14790
    },
    {
      "epoch": 0.030833333333333334,
      "grad_norm": 1.294808268547058,
      "learning_rate": 0.0002994695200109907,
      "loss": 3.987,
      "step": 14800
    },
    {
      "epoch": 0.030854166666666665,
      "grad_norm": 0.9757322072982788,
      "learning_rate": 0.00029946869130208713,
      "loss": 4.1635,
      "step": 14810
    },
    {
      "epoch": 0.030875,
      "grad_norm": 0.768364667892456,
      "learning_rate": 0.00029946786194753796,
      "loss": 4.0322,
      "step": 14820
    },
    {
      "epoch": 0.030895833333333334,
      "grad_norm": 0.7371079921722412,
      "learning_rate": 0.0002994670319473468,
      "loss": 4.0079,
      "step": 14830
    },
    {
      "epoch": 0.030916666666666665,
      "grad_norm": 0.8342958092689514,
      "learning_rate": 0.00029946620130151725,
      "loss": 4.0807,
      "step": 14840
    },
    {
      "epoch": 0.0309375,
      "grad_norm": 0.9092526435852051,
      "learning_rate": 0.0002994653700100528,
      "loss": 4.1937,
      "step": 14850
    },
    {
      "epoch": 0.030958333333333334,
      "grad_norm": 0.9627977013587952,
      "learning_rate": 0.00029946453807295717,
      "loss": 4.1064,
      "step": 14860
    },
    {
      "epoch": 0.030979166666666665,
      "grad_norm": 0.8539911508560181,
      "learning_rate": 0.00029946370549023386,
      "loss": 4.1365,
      "step": 14870
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.872199296951294,
      "learning_rate": 0.00029946287226188654,
      "loss": 4.0328,
      "step": 14880
    },
    {
      "epoch": 0.031020833333333334,
      "grad_norm": 0.9470723867416382,
      "learning_rate": 0.00029946203838791883,
      "loss": 4.0389,
      "step": 14890
    },
    {
      "epoch": 0.031041666666666665,
      "grad_norm": 0.9475892186164856,
      "learning_rate": 0.0002994612038683342,
      "loss": 4.1021,
      "step": 14900
    },
    {
      "epoch": 0.0310625,
      "grad_norm": 0.881456732749939,
      "learning_rate": 0.0002994603687031363,
      "loss": 3.895,
      "step": 14910
    },
    {
      "epoch": 0.031083333333333334,
      "grad_norm": 0.8027737140655518,
      "learning_rate": 0.0002994595328923288,
      "loss": 4.1018,
      "step": 14920
    },
    {
      "epoch": 0.031104166666666665,
      "grad_norm": 0.9134830236434937,
      "learning_rate": 0.00029945869643591534,
      "loss": 4.0712,
      "step": 14930
    },
    {
      "epoch": 0.031125,
      "grad_norm": 0.9590940475463867,
      "learning_rate": 0.00029945785933389944,
      "loss": 4.144,
      "step": 14940
    },
    {
      "epoch": 0.031145833333333334,
      "grad_norm": 0.8448448777198792,
      "learning_rate": 0.0002994570215862847,
      "loss": 3.9476,
      "step": 14950
    },
    {
      "epoch": 0.031166666666666665,
      "grad_norm": 0.8625873327255249,
      "learning_rate": 0.00029945618319307483,
      "loss": 4.2291,
      "step": 14960
    },
    {
      "epoch": 0.0311875,
      "grad_norm": 0.8199671506881714,
      "learning_rate": 0.00029945534415427334,
      "loss": 4.2394,
      "step": 14970
    },
    {
      "epoch": 0.031208333333333334,
      "grad_norm": 0.9125764966011047,
      "learning_rate": 0.000299454504469884,
      "loss": 3.9974,
      "step": 14980
    },
    {
      "epoch": 0.031229166666666665,
      "grad_norm": 1.252485752105713,
      "learning_rate": 0.0002994536641399103,
      "loss": 3.9833,
      "step": 14990
    },
    {
      "epoch": 0.03125,
      "grad_norm": 0.8720163702964783,
      "learning_rate": 0.000299452823164356,
      "loss": 4.178,
      "step": 15000
    },
    {
      "epoch": 0.03125,
      "eval_loss": 4.33093786239624,
      "eval_runtime": 9.0611,
      "eval_samples_per_second": 1.104,
      "eval_steps_per_second": 0.331,
      "step": 15000
    },
    {
      "epoch": 0.03127083333333333,
      "grad_norm": 0.878359317779541,
      "learning_rate": 0.00029945198154322463,
      "loss": 4.1393,
      "step": 15010
    },
    {
      "epoch": 0.03129166666666667,
      "grad_norm": 0.8419456481933594,
      "learning_rate": 0.00029945113927651985,
      "loss": 4.1687,
      "step": 15020
    },
    {
      "epoch": 0.0313125,
      "grad_norm": 0.9828937649726868,
      "learning_rate": 0.00029945029636424525,
      "loss": 3.9624,
      "step": 15030
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 0.8137750029563904,
      "learning_rate": 0.0002994494528064046,
      "loss": 3.9851,
      "step": 15040
    },
    {
      "epoch": 0.03135416666666667,
      "grad_norm": 0.8770872354507446,
      "learning_rate": 0.0002994486086030015,
      "loss": 4.0027,
      "step": 15050
    },
    {
      "epoch": 0.031375,
      "grad_norm": 0.760393500328064,
      "learning_rate": 0.0002994477637540395,
      "loss": 4.015,
      "step": 15060
    },
    {
      "epoch": 0.03139583333333333,
      "grad_norm": 1.043774962425232,
      "learning_rate": 0.00029944691825952227,
      "loss": 4.0337,
      "step": 15070
    },
    {
      "epoch": 0.03141666666666667,
      "grad_norm": 0.8033528327941895,
      "learning_rate": 0.0002994460721194536,
      "loss": 4.0333,
      "step": 15080
    },
    {
      "epoch": 0.0314375,
      "grad_norm": 0.9265820980072021,
      "learning_rate": 0.00029944522533383706,
      "loss": 3.9952,
      "step": 15090
    },
    {
      "epoch": 0.03145833333333333,
      "grad_norm": 0.82586669921875,
      "learning_rate": 0.0002994443779026762,
      "loss": 4.0545,
      "step": 15100
    },
    {
      "epoch": 0.03147916666666667,
      "grad_norm": 0.910287082195282,
      "learning_rate": 0.0002994435298259749,
      "loss": 3.9704,
      "step": 15110
    },
    {
      "epoch": 0.0315,
      "grad_norm": 0.7352041602134705,
      "learning_rate": 0.00029944268110373664,
      "loss": 4.0829,
      "step": 15120
    },
    {
      "epoch": 0.03152083333333333,
      "grad_norm": 0.7913026213645935,
      "learning_rate": 0.00029944183173596516,
      "loss": 4.0073,
      "step": 15130
    },
    {
      "epoch": 0.03154166666666667,
      "grad_norm": 0.8794562220573425,
      "learning_rate": 0.00029944098172266415,
      "loss": 4.0265,
      "step": 15140
    },
    {
      "epoch": 0.0315625,
      "grad_norm": 0.8485791087150574,
      "learning_rate": 0.00029944013106383724,
      "loss": 4.0441,
      "step": 15150
    },
    {
      "epoch": 0.03158333333333333,
      "grad_norm": 0.7684953212738037,
      "learning_rate": 0.00029943927975948807,
      "loss": 4.1521,
      "step": 15160
    },
    {
      "epoch": 0.03160416666666667,
      "grad_norm": 0.8206188678741455,
      "learning_rate": 0.00029943842780962037,
      "loss": 4.1218,
      "step": 15170
    },
    {
      "epoch": 0.031625,
      "grad_norm": 0.7914516925811768,
      "learning_rate": 0.00029943757521423784,
      "loss": 3.9008,
      "step": 15180
    },
    {
      "epoch": 0.03164583333333333,
      "grad_norm": 0.8451589345932007,
      "learning_rate": 0.00029943672197334416,
      "loss": 3.9649,
      "step": 15190
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 0.8165528774261475,
      "learning_rate": 0.00029943586808694295,
      "loss": 4.1614,
      "step": 15200
    },
    {
      "epoch": 0.0316875,
      "grad_norm": 0.9129602909088135,
      "learning_rate": 0.000299435013555038,
      "loss": 4.1485,
      "step": 15210
    },
    {
      "epoch": 0.03170833333333333,
      "grad_norm": 0.9809873700141907,
      "learning_rate": 0.00029943415837763285,
      "loss": 4.0221,
      "step": 15220
    },
    {
      "epoch": 0.03172916666666667,
      "grad_norm": 0.8489075899124146,
      "learning_rate": 0.0002994333025547313,
      "loss": 4.275,
      "step": 15230
    },
    {
      "epoch": 0.03175,
      "grad_norm": 0.8379136919975281,
      "learning_rate": 0.0002994324460863371,
      "loss": 4.1557,
      "step": 15240
    },
    {
      "epoch": 0.03177083333333333,
      "grad_norm": 0.903752863407135,
      "learning_rate": 0.00029943158897245383,
      "loss": 4.0205,
      "step": 15250
    },
    {
      "epoch": 0.03179166666666667,
      "grad_norm": 0.9514161348342896,
      "learning_rate": 0.0002994307312130853,
      "loss": 4.0831,
      "step": 15260
    },
    {
      "epoch": 0.0318125,
      "grad_norm": 0.8124263286590576,
      "learning_rate": 0.0002994298728082351,
      "loss": 4.1813,
      "step": 15270
    },
    {
      "epoch": 0.03183333333333333,
      "grad_norm": 0.8268098831176758,
      "learning_rate": 0.00029942901375790707,
      "loss": 4.0504,
      "step": 15280
    },
    {
      "epoch": 0.03185416666666667,
      "grad_norm": 0.9709042906761169,
      "learning_rate": 0.0002994281540621048,
      "loss": 4.0775,
      "step": 15290
    },
    {
      "epoch": 0.031875,
      "grad_norm": 0.8725966215133667,
      "learning_rate": 0.00029942729372083206,
      "loss": 4.1487,
      "step": 15300
    },
    {
      "epoch": 0.03189583333333333,
      "grad_norm": 0.9131580591201782,
      "learning_rate": 0.0002994264327340925,
      "loss": 4.1491,
      "step": 15310
    },
    {
      "epoch": 0.03191666666666667,
      "grad_norm": 0.8566455841064453,
      "learning_rate": 0.00029942557110189,
      "loss": 3.8982,
      "step": 15320
    },
    {
      "epoch": 0.0319375,
      "grad_norm": 0.8703935742378235,
      "learning_rate": 0.0002994247088242281,
      "loss": 4.0579,
      "step": 15330
    },
    {
      "epoch": 0.03195833333333333,
      "grad_norm": 0.8805674314498901,
      "learning_rate": 0.00029942384590111066,
      "loss": 4.113,
      "step": 15340
    },
    {
      "epoch": 0.03197916666666667,
      "grad_norm": 0.8759633898735046,
      "learning_rate": 0.0002994229823325413,
      "loss": 4.1328,
      "step": 15350
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.7107021808624268,
      "learning_rate": 0.00029942211811852384,
      "loss": 4.1089,
      "step": 15360
    },
    {
      "epoch": 0.03202083333333333,
      "grad_norm": 0.7688440084457397,
      "learning_rate": 0.00029942125325906196,
      "loss": 4.0989,
      "step": 15370
    },
    {
      "epoch": 0.03204166666666667,
      "grad_norm": 0.7890715003013611,
      "learning_rate": 0.0002994203877541594,
      "loss": 4.0704,
      "step": 15380
    },
    {
      "epoch": 0.0320625,
      "grad_norm": 0.9604535698890686,
      "learning_rate": 0.0002994195216038199,
      "loss": 3.9661,
      "step": 15390
    },
    {
      "epoch": 0.03208333333333333,
      "grad_norm": 0.9563435912132263,
      "learning_rate": 0.0002994186548080473,
      "loss": 4.0421,
      "step": 15400
    },
    {
      "epoch": 0.03210416666666667,
      "grad_norm": 0.7535944581031799,
      "learning_rate": 0.0002994177873668451,
      "loss": 4.1313,
      "step": 15410
    },
    {
      "epoch": 0.032125,
      "grad_norm": 0.8137538433074951,
      "learning_rate": 0.00029941691928021737,
      "loss": 4.1078,
      "step": 15420
    },
    {
      "epoch": 0.03214583333333333,
      "grad_norm": 0.7604168653488159,
      "learning_rate": 0.0002994160505481676,
      "loss": 4.2108,
      "step": 15430
    },
    {
      "epoch": 0.03216666666666667,
      "grad_norm": 0.8974458575248718,
      "learning_rate": 0.0002994151811706996,
      "loss": 4.0118,
      "step": 15440
    },
    {
      "epoch": 0.0321875,
      "grad_norm": 0.8392168879508972,
      "learning_rate": 0.0002994143111478172,
      "loss": 4.1775,
      "step": 15450
    },
    {
      "epoch": 0.03220833333333333,
      "grad_norm": 0.7376740574836731,
      "learning_rate": 0.00029941344047952417,
      "loss": 4.3068,
      "step": 15460
    },
    {
      "epoch": 0.03222916666666667,
      "grad_norm": 0.7751104235649109,
      "learning_rate": 0.0002994125691658242,
      "loss": 3.8922,
      "step": 15470
    },
    {
      "epoch": 0.03225,
      "grad_norm": 0.8617166876792908,
      "learning_rate": 0.00029941169720672104,
      "loss": 3.9637,
      "step": 15480
    },
    {
      "epoch": 0.03227083333333333,
      "grad_norm": 0.8667832016944885,
      "learning_rate": 0.0002994108246022185,
      "loss": 3.9956,
      "step": 15490
    },
    {
      "epoch": 0.03229166666666667,
      "grad_norm": 0.8785979747772217,
      "learning_rate": 0.0002994099513523204,
      "loss": 3.9887,
      "step": 15500
    },
    {
      "epoch": 0.0323125,
      "grad_norm": 0.9857479333877563,
      "learning_rate": 0.0002994090774570303,
      "loss": 4.0639,
      "step": 15510
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 0.8522710204124451,
      "learning_rate": 0.0002994082029163522,
      "loss": 4.1742,
      "step": 15520
    },
    {
      "epoch": 0.03235416666666667,
      "grad_norm": 0.8661463856697083,
      "learning_rate": 0.00029940732773028986,
      "loss": 4.031,
      "step": 15530
    },
    {
      "epoch": 0.032375,
      "grad_norm": 0.7796003222465515,
      "learning_rate": 0.00029940645189884696,
      "loss": 4.0595,
      "step": 15540
    },
    {
      "epoch": 0.03239583333333333,
      "grad_norm": 0.8311572670936584,
      "learning_rate": 0.0002994055754220273,
      "loss": 3.9215,
      "step": 15550
    },
    {
      "epoch": 0.03241666666666667,
      "grad_norm": 0.8599438667297363,
      "learning_rate": 0.00029940469829983475,
      "loss": 4.0982,
      "step": 15560
    },
    {
      "epoch": 0.0324375,
      "grad_norm": 0.9948984384536743,
      "learning_rate": 0.000299403820532273,
      "loss": 4.0887,
      "step": 15570
    },
    {
      "epoch": 0.03245833333333333,
      "grad_norm": 0.8569654822349548,
      "learning_rate": 0.0002994029421193459,
      "loss": 3.904,
      "step": 15580
    },
    {
      "epoch": 0.03247916666666667,
      "grad_norm": 0.8488124012947083,
      "learning_rate": 0.00029940206306105723,
      "loss": 4.0056,
      "step": 15590
    },
    {
      "epoch": 0.0325,
      "grad_norm": 0.7372636198997498,
      "learning_rate": 0.00029940118335741077,
      "loss": 4.1109,
      "step": 15600
    },
    {
      "epoch": 0.03252083333333333,
      "grad_norm": 0.7716682553291321,
      "learning_rate": 0.0002994003030084103,
      "loss": 4.0849,
      "step": 15610
    },
    {
      "epoch": 0.03254166666666667,
      "grad_norm": 1.0652674436569214,
      "learning_rate": 0.0002993994220140597,
      "loss": 4.3322,
      "step": 15620
    },
    {
      "epoch": 0.0325625,
      "grad_norm": 0.89274662733078,
      "learning_rate": 0.00029939854037436275,
      "loss": 4.2091,
      "step": 15630
    },
    {
      "epoch": 0.03258333333333333,
      "grad_norm": 0.843664824962616,
      "learning_rate": 0.00029939765808932324,
      "loss": 4.0918,
      "step": 15640
    },
    {
      "epoch": 0.03260416666666666,
      "grad_norm": 0.7798587083816528,
      "learning_rate": 0.00029939677515894496,
      "loss": 4.2316,
      "step": 15650
    },
    {
      "epoch": 0.032625,
      "grad_norm": 0.908891499042511,
      "learning_rate": 0.00029939589158323177,
      "loss": 4.0584,
      "step": 15660
    },
    {
      "epoch": 0.03264583333333333,
      "grad_norm": 0.800485372543335,
      "learning_rate": 0.00029939500736218745,
      "loss": 3.8963,
      "step": 15670
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 0.8182084560394287,
      "learning_rate": 0.0002993941224958158,
      "loss": 3.8216,
      "step": 15680
    },
    {
      "epoch": 0.0326875,
      "grad_norm": 0.8195801973342896,
      "learning_rate": 0.0002993932369841207,
      "loss": 4.0306,
      "step": 15690
    },
    {
      "epoch": 0.03270833333333333,
      "grad_norm": 0.8744678497314453,
      "learning_rate": 0.000299392350827106,
      "loss": 3.8719,
      "step": 15700
    },
    {
      "epoch": 0.03272916666666666,
      "grad_norm": 0.8203961849212646,
      "learning_rate": 0.00029939146402477545,
      "loss": 4.2014,
      "step": 15710
    },
    {
      "epoch": 0.03275,
      "grad_norm": 0.8917534351348877,
      "learning_rate": 0.0002993905765771329,
      "loss": 4.1067,
      "step": 15720
    },
    {
      "epoch": 0.03277083333333333,
      "grad_norm": 0.8452229499816895,
      "learning_rate": 0.00029938968848418216,
      "loss": 4.2494,
      "step": 15730
    },
    {
      "epoch": 0.03279166666666666,
      "grad_norm": 0.8527575731277466,
      "learning_rate": 0.00029938879974592713,
      "loss": 4.0757,
      "step": 15740
    },
    {
      "epoch": 0.0328125,
      "grad_norm": 0.8027780055999756,
      "learning_rate": 0.0002993879103623716,
      "loss": 3.9564,
      "step": 15750
    },
    {
      "epoch": 0.03283333333333333,
      "grad_norm": 0.8674333691596985,
      "learning_rate": 0.00029938702033351945,
      "loss": 4.0269,
      "step": 15760
    },
    {
      "epoch": 0.03285416666666666,
      "grad_norm": 0.9531248211860657,
      "learning_rate": 0.0002993861296593745,
      "loss": 4.0679,
      "step": 15770
    },
    {
      "epoch": 0.032875,
      "grad_norm": 0.7846377491950989,
      "learning_rate": 0.0002993852383399406,
      "loss": 4.1212,
      "step": 15780
    },
    {
      "epoch": 0.03289583333333333,
      "grad_norm": 0.893591582775116,
      "learning_rate": 0.00029938434637522156,
      "loss": 4.0796,
      "step": 15790
    },
    {
      "epoch": 0.032916666666666664,
      "grad_norm": 0.8073575496673584,
      "learning_rate": 0.0002993834537652213,
      "loss": 3.9846,
      "step": 15800
    },
    {
      "epoch": 0.0329375,
      "grad_norm": 0.8872947692871094,
      "learning_rate": 0.0002993825605099437,
      "loss": 4.0895,
      "step": 15810
    },
    {
      "epoch": 0.03295833333333333,
      "grad_norm": 0.8714396953582764,
      "learning_rate": 0.0002993816666093925,
      "loss": 4.1946,
      "step": 15820
    },
    {
      "epoch": 0.032979166666666664,
      "grad_norm": 0.8361475467681885,
      "learning_rate": 0.0002993807720635717,
      "loss": 4.0983,
      "step": 15830
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.8470453023910522,
      "learning_rate": 0.000299379876872485,
      "loss": 4.0223,
      "step": 15840
    },
    {
      "epoch": 0.03302083333333333,
      "grad_norm": 0.8411586880683899,
      "learning_rate": 0.00029937898103613643,
      "loss": 4.0823,
      "step": 15850
    },
    {
      "epoch": 0.033041666666666664,
      "grad_norm": 1.0533279180526733,
      "learning_rate": 0.0002993780845545298,
      "loss": 3.9746,
      "step": 15860
    },
    {
      "epoch": 0.0330625,
      "grad_norm": 0.8105953931808472,
      "learning_rate": 0.00029937718742766896,
      "loss": 3.9854,
      "step": 15870
    },
    {
      "epoch": 0.03308333333333333,
      "grad_norm": 0.8612307906150818,
      "learning_rate": 0.00029937628965555775,
      "loss": 4.2088,
      "step": 15880
    },
    {
      "epoch": 0.033104166666666664,
      "grad_norm": 0.8461914658546448,
      "learning_rate": 0.0002993753912382001,
      "loss": 4.0537,
      "step": 15890
    },
    {
      "epoch": 0.033125,
      "grad_norm": 0.8008294701576233,
      "learning_rate": 0.00029937449217559996,
      "loss": 4.0422,
      "step": 15900
    },
    {
      "epoch": 0.03314583333333333,
      "grad_norm": 0.7430229783058167,
      "learning_rate": 0.00029937359246776107,
      "loss": 4.0021,
      "step": 15910
    },
    {
      "epoch": 0.033166666666666664,
      "grad_norm": 0.775693953037262,
      "learning_rate": 0.0002993726921146874,
      "loss": 4.1492,
      "step": 15920
    },
    {
      "epoch": 0.0331875,
      "grad_norm": 0.8002509474754333,
      "learning_rate": 0.00029937179111638284,
      "loss": 4.126,
      "step": 15930
    },
    {
      "epoch": 0.03320833333333333,
      "grad_norm": 0.7978214025497437,
      "learning_rate": 0.0002993708894728513,
      "loss": 4.007,
      "step": 15940
    },
    {
      "epoch": 0.033229166666666664,
      "grad_norm": 0.9126216769218445,
      "learning_rate": 0.0002993699871840966,
      "loss": 4.1246,
      "step": 15950
    },
    {
      "epoch": 0.03325,
      "grad_norm": 0.9049301147460938,
      "learning_rate": 0.00029936908425012273,
      "loss": 4.0706,
      "step": 15960
    },
    {
      "epoch": 0.03327083333333333,
      "grad_norm": 0.8548170924186707,
      "learning_rate": 0.00029936818067093345,
      "loss": 4.0023,
      "step": 15970
    },
    {
      "epoch": 0.033291666666666664,
      "grad_norm": 0.8215303421020508,
      "learning_rate": 0.0002993672764465328,
      "loss": 4.0278,
      "step": 15980
    },
    {
      "epoch": 0.0333125,
      "grad_norm": 0.8506315350532532,
      "learning_rate": 0.00029936637157692463,
      "loss": 4.1399,
      "step": 15990
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.9001700282096863,
      "learning_rate": 0.0002993654660621129,
      "loss": 3.9919,
      "step": 16000
    },
    {
      "epoch": 0.03333333333333333,
      "eval_loss": 4.3315629959106445,
      "eval_runtime": 8.8322,
      "eval_samples_per_second": 1.132,
      "eval_steps_per_second": 0.34,
      "step": 16000
    },
    {
      "epoch": 0.033354166666666664,
      "grad_norm": 0.9198235869407654,
      "learning_rate": 0.00029936455990210145,
      "loss": 3.9796,
      "step": 16010
    },
    {
      "epoch": 0.033375,
      "grad_norm": 0.9833637475967407,
      "learning_rate": 0.00029936365309689425,
      "loss": 3.9212,
      "step": 16020
    },
    {
      "epoch": 0.03339583333333333,
      "grad_norm": 0.8164150714874268,
      "learning_rate": 0.00029936274564649513,
      "loss": 3.9538,
      "step": 16030
    },
    {
      "epoch": 0.033416666666666664,
      "grad_norm": 0.9178228974342346,
      "learning_rate": 0.0002993618375509081,
      "loss": 3.8791,
      "step": 16040
    },
    {
      "epoch": 0.0334375,
      "grad_norm": 0.7732407450675964,
      "learning_rate": 0.00029936092881013707,
      "loss": 4.0548,
      "step": 16050
    },
    {
      "epoch": 0.03345833333333333,
      "grad_norm": 0.7776960134506226,
      "learning_rate": 0.0002993600194241859,
      "loss": 4.071,
      "step": 16060
    },
    {
      "epoch": 0.033479166666666664,
      "grad_norm": 0.8848630785942078,
      "learning_rate": 0.00029935910939305865,
      "loss": 3.9908,
      "step": 16070
    },
    {
      "epoch": 0.0335,
      "grad_norm": 0.7808995246887207,
      "learning_rate": 0.0002993581987167591,
      "loss": 3.7747,
      "step": 16080
    },
    {
      "epoch": 0.03352083333333333,
      "grad_norm": 0.8991162776947021,
      "learning_rate": 0.0002993572873952913,
      "loss": 4.072,
      "step": 16090
    },
    {
      "epoch": 0.033541666666666664,
      "grad_norm": 0.8174862861633301,
      "learning_rate": 0.0002993563754286591,
      "loss": 4.1168,
      "step": 16100
    },
    {
      "epoch": 0.0335625,
      "grad_norm": 0.916215717792511,
      "learning_rate": 0.0002993554628168665,
      "loss": 3.989,
      "step": 16110
    },
    {
      "epoch": 0.03358333333333333,
      "grad_norm": 0.8327673673629761,
      "learning_rate": 0.00029935454955991737,
      "loss": 3.8921,
      "step": 16120
    },
    {
      "epoch": 0.033604166666666664,
      "grad_norm": 0.8554166555404663,
      "learning_rate": 0.0002993536356578158,
      "loss": 4.0543,
      "step": 16130
    },
    {
      "epoch": 0.033625,
      "grad_norm": 1.07235848903656,
      "learning_rate": 0.00029935272111056554,
      "loss": 3.9233,
      "step": 16140
    },
    {
      "epoch": 0.03364583333333333,
      "grad_norm": 0.828044593334198,
      "learning_rate": 0.00029935180591817074,
      "loss": 4.189,
      "step": 16150
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 1.0246752500534058,
      "learning_rate": 0.00029935089008063516,
      "loss": 3.7772,
      "step": 16160
    },
    {
      "epoch": 0.0336875,
      "grad_norm": 1.3070342540740967,
      "learning_rate": 0.0002993499735979629,
      "loss": 4.0821,
      "step": 16170
    },
    {
      "epoch": 0.03370833333333333,
      "grad_norm": 0.8444189429283142,
      "learning_rate": 0.00029934905647015784,
      "loss": 3.9954,
      "step": 16180
    },
    {
      "epoch": 0.033729166666666664,
      "grad_norm": 0.8488497734069824,
      "learning_rate": 0.000299348138697224,
      "loss": 3.9739,
      "step": 16190
    },
    {
      "epoch": 0.03375,
      "grad_norm": 0.8595477342605591,
      "learning_rate": 0.00029934722027916534,
      "loss": 3.7662,
      "step": 16200
    },
    {
      "epoch": 0.03377083333333333,
      "grad_norm": 0.7659378051757812,
      "learning_rate": 0.0002993463012159858,
      "loss": 4.0534,
      "step": 16210
    },
    {
      "epoch": 0.033791666666666664,
      "grad_norm": 0.924866795539856,
      "learning_rate": 0.00029934538150768933,
      "loss": 4.0921,
      "step": 16220
    },
    {
      "epoch": 0.0338125,
      "grad_norm": 0.9497525691986084,
      "learning_rate": 0.0002993444611542799,
      "loss": 4.0723,
      "step": 16230
    },
    {
      "epoch": 0.03383333333333333,
      "grad_norm": 0.8364046216011047,
      "learning_rate": 0.0002993435401557616,
      "loss": 4.0529,
      "step": 16240
    },
    {
      "epoch": 0.033854166666666664,
      "grad_norm": 0.9190325736999512,
      "learning_rate": 0.00029934261851213823,
      "loss": 4.0683,
      "step": 16250
    },
    {
      "epoch": 0.033875,
      "grad_norm": 1.1025983095169067,
      "learning_rate": 0.0002993416962234139,
      "loss": 4.1098,
      "step": 16260
    },
    {
      "epoch": 0.03389583333333333,
      "grad_norm": 0.886742889881134,
      "learning_rate": 0.00029934077328959256,
      "loss": 4.0909,
      "step": 16270
    },
    {
      "epoch": 0.033916666666666664,
      "grad_norm": 0.9103668928146362,
      "learning_rate": 0.0002993398497106782,
      "loss": 4.1457,
      "step": 16280
    },
    {
      "epoch": 0.0339375,
      "grad_norm": 0.8327091932296753,
      "learning_rate": 0.0002993389254866748,
      "loss": 4.0765,
      "step": 16290
    },
    {
      "epoch": 0.03395833333333333,
      "grad_norm": 0.9820424914360046,
      "learning_rate": 0.0002993380006175863,
      "loss": 4.0279,
      "step": 16300
    },
    {
      "epoch": 0.033979166666666664,
      "grad_norm": 0.90031898021698,
      "learning_rate": 0.0002993370751034168,
      "loss": 4.2943,
      "step": 16310
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.8743019700050354,
      "learning_rate": 0.00029933614894417024,
      "loss": 3.9105,
      "step": 16320
    },
    {
      "epoch": 0.034020833333333333,
      "grad_norm": 0.8995828032493591,
      "learning_rate": 0.00029933522213985064,
      "loss": 3.9209,
      "step": 16330
    },
    {
      "epoch": 0.034041666666666665,
      "grad_norm": 0.8196219801902771,
      "learning_rate": 0.000299334294690462,
      "loss": 4.0775,
      "step": 16340
    },
    {
      "epoch": 0.0340625,
      "grad_norm": 0.8875076174736023,
      "learning_rate": 0.00029933336659600826,
      "loss": 4.052,
      "step": 16350
    },
    {
      "epoch": 0.034083333333333334,
      "grad_norm": 0.8845887184143066,
      "learning_rate": 0.00029933243785649355,
      "loss": 4.0091,
      "step": 16360
    },
    {
      "epoch": 0.034104166666666665,
      "grad_norm": 0.9027897715568542,
      "learning_rate": 0.00029933150847192175,
      "loss": 4.087,
      "step": 16370
    },
    {
      "epoch": 0.034125,
      "grad_norm": 0.9315267205238342,
      "learning_rate": 0.000299330578442297,
      "loss": 3.9661,
      "step": 16380
    },
    {
      "epoch": 0.034145833333333334,
      "grad_norm": 0.7526669502258301,
      "learning_rate": 0.00029932964776762327,
      "loss": 4.1032,
      "step": 16390
    },
    {
      "epoch": 0.034166666666666665,
      "grad_norm": 0.7556225061416626,
      "learning_rate": 0.0002993287164479045,
      "loss": 3.9778,
      "step": 16400
    },
    {
      "epoch": 0.0341875,
      "grad_norm": 0.8363755345344543,
      "learning_rate": 0.0002993277844831449,
      "loss": 4.0933,
      "step": 16410
    },
    {
      "epoch": 0.034208333333333334,
      "grad_norm": 0.8591242432594299,
      "learning_rate": 0.00029932685187334827,
      "loss": 4.0136,
      "step": 16420
    },
    {
      "epoch": 0.034229166666666665,
      "grad_norm": 0.8140270709991455,
      "learning_rate": 0.0002993259186185188,
      "loss": 4.0605,
      "step": 16430
    },
    {
      "epoch": 0.03425,
      "grad_norm": 0.8638515472412109,
      "learning_rate": 0.0002993249847186604,
      "loss": 4.1236,
      "step": 16440
    },
    {
      "epoch": 0.034270833333333334,
      "grad_norm": 0.9182011485099792,
      "learning_rate": 0.00029932405017377725,
      "loss": 4.0033,
      "step": 16450
    },
    {
      "epoch": 0.034291666666666665,
      "grad_norm": 0.741743266582489,
      "learning_rate": 0.0002993231149838733,
      "loss": 3.9522,
      "step": 16460
    },
    {
      "epoch": 0.0343125,
      "grad_norm": 0.7912690043449402,
      "learning_rate": 0.0002993221791489526,
      "loss": 4.0326,
      "step": 16470
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 0.8383122682571411,
      "learning_rate": 0.0002993212426690191,
      "loss": 3.8846,
      "step": 16480
    },
    {
      "epoch": 0.034354166666666665,
      "grad_norm": 0.8124603033065796,
      "learning_rate": 0.0002993203055440771,
      "loss": 4.1269,
      "step": 16490
    },
    {
      "epoch": 0.034375,
      "grad_norm": 0.8415465354919434,
      "learning_rate": 0.00029931936777413036,
      "loss": 4.1155,
      "step": 16500
    },
    {
      "epoch": 0.034395833333333334,
      "grad_norm": 0.8443299531936646,
      "learning_rate": 0.0002993184293591831,
      "loss": 4.1101,
      "step": 16510
    },
    {
      "epoch": 0.034416666666666665,
      "grad_norm": 0.7773112654685974,
      "learning_rate": 0.0002993174902992393,
      "loss": 4.093,
      "step": 16520
    },
    {
      "epoch": 0.0344375,
      "grad_norm": 0.9969574213027954,
      "learning_rate": 0.0002993165505943031,
      "loss": 3.892,
      "step": 16530
    },
    {
      "epoch": 0.034458333333333334,
      "grad_norm": 0.885007917881012,
      "learning_rate": 0.0002993156102443785,
      "loss": 4.0801,
      "step": 16540
    },
    {
      "epoch": 0.034479166666666665,
      "grad_norm": 0.9501005411148071,
      "learning_rate": 0.0002993146692494695,
      "loss": 4.0472,
      "step": 16550
    },
    {
      "epoch": 0.0345,
      "grad_norm": 1.0263216495513916,
      "learning_rate": 0.0002993137276095803,
      "loss": 4.0818,
      "step": 16560
    },
    {
      "epoch": 0.034520833333333334,
      "grad_norm": 0.8649660348892212,
      "learning_rate": 0.00029931278532471485,
      "loss": 4.3089,
      "step": 16570
    },
    {
      "epoch": 0.034541666666666665,
      "grad_norm": 0.9227863550186157,
      "learning_rate": 0.0002993118423948773,
      "loss": 4.0961,
      "step": 16580
    },
    {
      "epoch": 0.0345625,
      "grad_norm": 0.9151936769485474,
      "learning_rate": 0.0002993108988200717,
      "loss": 4.2533,
      "step": 16590
    },
    {
      "epoch": 0.034583333333333334,
      "grad_norm": 0.8485237956047058,
      "learning_rate": 0.0002993099546003021,
      "loss": 3.999,
      "step": 16600
    },
    {
      "epoch": 0.034604166666666665,
      "grad_norm": 0.9053081274032593,
      "learning_rate": 0.0002993090097355726,
      "loss": 4.198,
      "step": 16610
    },
    {
      "epoch": 0.034625,
      "grad_norm": 0.9125163555145264,
      "learning_rate": 0.0002993080642258873,
      "loss": 3.8507,
      "step": 16620
    },
    {
      "epoch": 0.034645833333333334,
      "grad_norm": 0.8891355395317078,
      "learning_rate": 0.0002993071180712502,
      "loss": 4.0648,
      "step": 16630
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 0.8034995198249817,
      "learning_rate": 0.0002993061712716655,
      "loss": 3.8943,
      "step": 16640
    },
    {
      "epoch": 0.0346875,
      "grad_norm": 0.8404164910316467,
      "learning_rate": 0.00029930522382713725,
      "loss": 4.125,
      "step": 16650
    },
    {
      "epoch": 0.034708333333333334,
      "grad_norm": 0.8723776936531067,
      "learning_rate": 0.00029930427573766953,
      "loss": 4.1484,
      "step": 16660
    },
    {
      "epoch": 0.034729166666666665,
      "grad_norm": 0.9118918180465698,
      "learning_rate": 0.00029930332700326643,
      "loss": 3.9387,
      "step": 16670
    },
    {
      "epoch": 0.03475,
      "grad_norm": 0.8488430380821228,
      "learning_rate": 0.000299302377623932,
      "loss": 4.0746,
      "step": 16680
    },
    {
      "epoch": 0.034770833333333334,
      "grad_norm": 0.7929940223693848,
      "learning_rate": 0.0002993014275996705,
      "loss": 4.0733,
      "step": 16690
    },
    {
      "epoch": 0.034791666666666665,
      "grad_norm": 0.8379742503166199,
      "learning_rate": 0.00029930047693048584,
      "loss": 3.9553,
      "step": 16700
    },
    {
      "epoch": 0.0348125,
      "grad_norm": 0.781258761882782,
      "learning_rate": 0.0002992995256163823,
      "loss": 4.011,
      "step": 16710
    },
    {
      "epoch": 0.034833333333333334,
      "grad_norm": 0.8825591802597046,
      "learning_rate": 0.00029929857365736383,
      "loss": 4.0178,
      "step": 16720
    },
    {
      "epoch": 0.034854166666666665,
      "grad_norm": 0.7728365659713745,
      "learning_rate": 0.00029929762105343466,
      "loss": 4.0435,
      "step": 16730
    },
    {
      "epoch": 0.034875,
      "grad_norm": 0.9625519514083862,
      "learning_rate": 0.0002992966678045988,
      "loss": 4.0808,
      "step": 16740
    },
    {
      "epoch": 0.034895833333333334,
      "grad_norm": 1.0772294998168945,
      "learning_rate": 0.00029929571391086054,
      "loss": 4.0629,
      "step": 16750
    },
    {
      "epoch": 0.034916666666666665,
      "grad_norm": 0.9131920337677002,
      "learning_rate": 0.00029929475937222376,
      "loss": 4.1774,
      "step": 16760
    },
    {
      "epoch": 0.0349375,
      "grad_norm": 0.8400788903236389,
      "learning_rate": 0.0002992938041886928,
      "loss": 3.8498,
      "step": 16770
    },
    {
      "epoch": 0.034958333333333334,
      "grad_norm": 0.8904976844787598,
      "learning_rate": 0.0002992928483602717,
      "loss": 4.0129,
      "step": 16780
    },
    {
      "epoch": 0.034979166666666665,
      "grad_norm": 0.8708992600440979,
      "learning_rate": 0.0002992918918869646,
      "loss": 4.006,
      "step": 16790
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.7637060284614563,
      "learning_rate": 0.0002992909347687756,
      "loss": 4.0009,
      "step": 16800
    },
    {
      "epoch": 0.035020833333333334,
      "grad_norm": 0.9666843414306641,
      "learning_rate": 0.0002992899770057088,
      "loss": 3.9724,
      "step": 16810
    },
    {
      "epoch": 0.035041666666666665,
      "grad_norm": 0.8615291714668274,
      "learning_rate": 0.00029928901859776845,
      "loss": 4.169,
      "step": 16820
    },
    {
      "epoch": 0.0350625,
      "grad_norm": 0.875882089138031,
      "learning_rate": 0.00029928805954495863,
      "loss": 3.9065,
      "step": 16830
    },
    {
      "epoch": 0.035083333333333334,
      "grad_norm": 0.7698918581008911,
      "learning_rate": 0.00029928709984728346,
      "loss": 3.881,
      "step": 16840
    },
    {
      "epoch": 0.035104166666666665,
      "grad_norm": 0.8980772495269775,
      "learning_rate": 0.00029928613950474717,
      "loss": 4.0857,
      "step": 16850
    },
    {
      "epoch": 0.035125,
      "grad_norm": 0.8362685441970825,
      "learning_rate": 0.0002992851785173538,
      "loss": 4.0175,
      "step": 16860
    },
    {
      "epoch": 0.035145833333333334,
      "grad_norm": 0.8589380979537964,
      "learning_rate": 0.00029928421688510756,
      "loss": 4.1152,
      "step": 16870
    },
    {
      "epoch": 0.035166666666666666,
      "grad_norm": 0.8299537301063538,
      "learning_rate": 0.00029928325460801264,
      "loss": 4.0223,
      "step": 16880
    },
    {
      "epoch": 0.0351875,
      "grad_norm": 0.7935989499092102,
      "learning_rate": 0.0002992822916860731,
      "loss": 3.9743,
      "step": 16890
    },
    {
      "epoch": 0.035208333333333335,
      "grad_norm": 0.8624267578125,
      "learning_rate": 0.0002992813281192931,
      "loss": 4.1329,
      "step": 16900
    },
    {
      "epoch": 0.035229166666666666,
      "grad_norm": 0.8893835544586182,
      "learning_rate": 0.0002992803639076769,
      "loss": 4.0249,
      "step": 16910
    },
    {
      "epoch": 0.03525,
      "grad_norm": 0.8192248940467834,
      "learning_rate": 0.00029927939905122864,
      "loss": 4.0329,
      "step": 16920
    },
    {
      "epoch": 0.035270833333333335,
      "grad_norm": 0.9476098418235779,
      "learning_rate": 0.00029927843354995244,
      "loss": 4.2627,
      "step": 16930
    },
    {
      "epoch": 0.035291666666666666,
      "grad_norm": 0.7768537402153015,
      "learning_rate": 0.0002992774674038525,
      "loss": 4.0038,
      "step": 16940
    },
    {
      "epoch": 0.0353125,
      "grad_norm": 0.829410970211029,
      "learning_rate": 0.000299276500612933,
      "loss": 4.1452,
      "step": 16950
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 0.8985475897789001,
      "learning_rate": 0.00029927553317719814,
      "loss": 3.9532,
      "step": 16960
    },
    {
      "epoch": 0.035354166666666666,
      "grad_norm": 0.9217942357063293,
      "learning_rate": 0.000299274565096652,
      "loss": 4.1556,
      "step": 16970
    },
    {
      "epoch": 0.035375,
      "grad_norm": 0.8565150499343872,
      "learning_rate": 0.0002992735963712988,
      "loss": 4.236,
      "step": 16980
    },
    {
      "epoch": 0.035395833333333335,
      "grad_norm": 0.8029810786247253,
      "learning_rate": 0.00029927262700114285,
      "loss": 4.2272,
      "step": 16990
    },
    {
      "epoch": 0.035416666666666666,
      "grad_norm": 0.8682880401611328,
      "learning_rate": 0.0002992716569861882,
      "loss": 4.1456,
      "step": 17000
    },
    {
      "epoch": 0.035416666666666666,
      "eval_loss": 4.325911045074463,
      "eval_runtime": 10.5687,
      "eval_samples_per_second": 0.946,
      "eval_steps_per_second": 0.284,
      "step": 17000
    },
    {
      "epoch": 0.0354375,
      "grad_norm": 0.862125039100647,
      "learning_rate": 0.00029927068632643907,
      "loss": 3.9567,
      "step": 17010
    },
    {
      "epoch": 0.035458333333333335,
      "grad_norm": 0.9618183970451355,
      "learning_rate": 0.0002992697150218996,
      "loss": 4.1078,
      "step": 17020
    },
    {
      "epoch": 0.035479166666666666,
      "grad_norm": 0.9096365571022034,
      "learning_rate": 0.0002992687430725741,
      "loss": 4.0195,
      "step": 17030
    },
    {
      "epoch": 0.0355,
      "grad_norm": 1.1312155723571777,
      "learning_rate": 0.0002992677704784667,
      "loss": 4.3551,
      "step": 17040
    },
    {
      "epoch": 0.035520833333333335,
      "grad_norm": 0.9860330820083618,
      "learning_rate": 0.00029926679723958166,
      "loss": 3.8919,
      "step": 17050
    },
    {
      "epoch": 0.035541666666666666,
      "grad_norm": 0.9555772542953491,
      "learning_rate": 0.0002992658233559231,
      "loss": 4.2192,
      "step": 17060
    },
    {
      "epoch": 0.0355625,
      "grad_norm": 0.8637245893478394,
      "learning_rate": 0.0002992648488274953,
      "loss": 4.1481,
      "step": 17070
    },
    {
      "epoch": 0.035583333333333335,
      "grad_norm": 1.1291141510009766,
      "learning_rate": 0.00029926387365430246,
      "loss": 3.9657,
      "step": 17080
    },
    {
      "epoch": 0.035604166666666666,
      "grad_norm": 0.8090156316757202,
      "learning_rate": 0.0002992628978363487,
      "loss": 4.1061,
      "step": 17090
    },
    {
      "epoch": 0.035625,
      "grad_norm": 0.8619391918182373,
      "learning_rate": 0.0002992619213736383,
      "loss": 4.119,
      "step": 17100
    },
    {
      "epoch": 0.035645833333333335,
      "grad_norm": 0.8947673439979553,
      "learning_rate": 0.0002992609442661755,
      "loss": 4.128,
      "step": 17110
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 0.812449038028717,
      "learning_rate": 0.0002992599665139645,
      "loss": 4.0285,
      "step": 17120
    },
    {
      "epoch": 0.0356875,
      "grad_norm": 0.8342782855033875,
      "learning_rate": 0.0002992589881170096,
      "loss": 4.0616,
      "step": 17130
    },
    {
      "epoch": 0.035708333333333335,
      "grad_norm": 0.9633160829544067,
      "learning_rate": 0.0002992580090753149,
      "loss": 4.079,
      "step": 17140
    },
    {
      "epoch": 0.035729166666666666,
      "grad_norm": 0.696545422077179,
      "learning_rate": 0.00029925702938888465,
      "loss": 4.1578,
      "step": 17150
    },
    {
      "epoch": 0.03575,
      "grad_norm": 0.845102071762085,
      "learning_rate": 0.00029925604905772313,
      "loss": 4.0031,
      "step": 17160
    },
    {
      "epoch": 0.035770833333333335,
      "grad_norm": 0.8604733943939209,
      "learning_rate": 0.0002992550680818345,
      "loss": 3.9297,
      "step": 17170
    },
    {
      "epoch": 0.035791666666666666,
      "grad_norm": 0.8403083682060242,
      "learning_rate": 0.00029925408646122316,
      "loss": 3.9781,
      "step": 17180
    },
    {
      "epoch": 0.0358125,
      "grad_norm": 0.8128111362457275,
      "learning_rate": 0.0002992531041958932,
      "loss": 4.0022,
      "step": 17190
    },
    {
      "epoch": 0.035833333333333335,
      "grad_norm": 0.8753374814987183,
      "learning_rate": 0.0002992521212858489,
      "loss": 4.0949,
      "step": 17200
    },
    {
      "epoch": 0.035854166666666666,
      "grad_norm": 0.8012135028839111,
      "learning_rate": 0.00029925113773109454,
      "loss": 4.0268,
      "step": 17210
    },
    {
      "epoch": 0.035875,
      "grad_norm": 0.9229749441146851,
      "learning_rate": 0.00029925015353163433,
      "loss": 3.9247,
      "step": 17220
    },
    {
      "epoch": 0.035895833333333335,
      "grad_norm": 0.8255541324615479,
      "learning_rate": 0.0002992491686874725,
      "loss": 3.9456,
      "step": 17230
    },
    {
      "epoch": 0.035916666666666666,
      "grad_norm": 0.8966618180274963,
      "learning_rate": 0.0002992481831986134,
      "loss": 4.0809,
      "step": 17240
    },
    {
      "epoch": 0.0359375,
      "grad_norm": 0.7697514295578003,
      "learning_rate": 0.0002992471970650612,
      "loss": 4.0766,
      "step": 17250
    },
    {
      "epoch": 0.035958333333333335,
      "grad_norm": 0.9949625730514526,
      "learning_rate": 0.00029924621028682016,
      "loss": 3.9723,
      "step": 17260
    },
    {
      "epoch": 0.035979166666666666,
      "grad_norm": 0.8245081901550293,
      "learning_rate": 0.00029924522286389456,
      "loss": 4.172,
      "step": 17270
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.9166048765182495,
      "learning_rate": 0.0002992442347962887,
      "loss": 4.0882,
      "step": 17280
    },
    {
      "epoch": 0.036020833333333335,
      "grad_norm": 0.8413297533988953,
      "learning_rate": 0.00029924324608400683,
      "loss": 4.1594,
      "step": 17290
    },
    {
      "epoch": 0.036041666666666666,
      "grad_norm": 0.8478891253471375,
      "learning_rate": 0.0002992422567270532,
      "loss": 4.2285,
      "step": 17300
    },
    {
      "epoch": 0.0360625,
      "grad_norm": 0.8254544138908386,
      "learning_rate": 0.0002992412667254321,
      "loss": 4.0286,
      "step": 17310
    },
    {
      "epoch": 0.036083333333333335,
      "grad_norm": 0.9407104849815369,
      "learning_rate": 0.0002992402760791478,
      "loss": 3.9764,
      "step": 17320
    },
    {
      "epoch": 0.036104166666666666,
      "grad_norm": 0.7729441523551941,
      "learning_rate": 0.0002992392847882046,
      "loss": 4.192,
      "step": 17330
    },
    {
      "epoch": 0.036125,
      "grad_norm": 0.7948728203773499,
      "learning_rate": 0.00029923829285260676,
      "loss": 4.0012,
      "step": 17340
    },
    {
      "epoch": 0.036145833333333335,
      "grad_norm": 0.8187624216079712,
      "learning_rate": 0.0002992373002723585,
      "loss": 4.0948,
      "step": 17350
    },
    {
      "epoch": 0.036166666666666666,
      "grad_norm": 0.8051158785820007,
      "learning_rate": 0.0002992363070474642,
      "loss": 4.0792,
      "step": 17360
    },
    {
      "epoch": 0.0361875,
      "grad_norm": 0.8741142749786377,
      "learning_rate": 0.00029923531317792816,
      "loss": 4.0455,
      "step": 17370
    },
    {
      "epoch": 0.036208333333333335,
      "grad_norm": 0.923941433429718,
      "learning_rate": 0.0002992343186637547,
      "loss": 4.1369,
      "step": 17380
    },
    {
      "epoch": 0.036229166666666666,
      "grad_norm": 0.7342715263366699,
      "learning_rate": 0.0002992333235049479,
      "loss": 4.0837,
      "step": 17390
    },
    {
      "epoch": 0.03625,
      "grad_norm": 0.9889044165611267,
      "learning_rate": 0.0002992323277015123,
      "loss": 3.9174,
      "step": 17400
    },
    {
      "epoch": 0.036270833333333335,
      "grad_norm": 0.8009507060050964,
      "learning_rate": 0.00029923133125345214,
      "loss": 4.1974,
      "step": 17410
    },
    {
      "epoch": 0.036291666666666667,
      "grad_norm": 0.9379335641860962,
      "learning_rate": 0.00029923033416077164,
      "loss": 4.003,
      "step": 17420
    },
    {
      "epoch": 0.0363125,
      "grad_norm": 0.7982138991355896,
      "learning_rate": 0.0002992293364234752,
      "loss": 4.0089,
      "step": 17430
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 0.8073444962501526,
      "learning_rate": 0.00029922833804156714,
      "loss": 4.0755,
      "step": 17440
    },
    {
      "epoch": 0.03635416666666667,
      "grad_norm": 0.9774671196937561,
      "learning_rate": 0.00029922733901505165,
      "loss": 4.0084,
      "step": 17450
    },
    {
      "epoch": 0.036375,
      "grad_norm": 0.9018422365188599,
      "learning_rate": 0.00029922633934393315,
      "loss": 4.1354,
      "step": 17460
    },
    {
      "epoch": 0.036395833333333336,
      "grad_norm": 0.9321247935295105,
      "learning_rate": 0.00029922533902821595,
      "loss": 4.1484,
      "step": 17470
    },
    {
      "epoch": 0.03641666666666667,
      "grad_norm": 0.8886778950691223,
      "learning_rate": 0.0002992243380679043,
      "loss": 3.9415,
      "step": 17480
    },
    {
      "epoch": 0.0364375,
      "grad_norm": 0.831596851348877,
      "learning_rate": 0.0002992233364630026,
      "loss": 4.2244,
      "step": 17490
    },
    {
      "epoch": 0.036458333333333336,
      "grad_norm": 0.8984707593917847,
      "learning_rate": 0.0002992223342135152,
      "loss": 4.1016,
      "step": 17500
    },
    {
      "epoch": 0.03647916666666667,
      "grad_norm": 0.9435588121414185,
      "learning_rate": 0.00029922133131944634,
      "loss": 4.0101,
      "step": 17510
    },
    {
      "epoch": 0.0365,
      "grad_norm": 1.0250800848007202,
      "learning_rate": 0.0002992203277808004,
      "loss": 3.8668,
      "step": 17520
    },
    {
      "epoch": 0.036520833333333336,
      "grad_norm": 0.8414269685745239,
      "learning_rate": 0.0002992193235975817,
      "loss": 3.9304,
      "step": 17530
    },
    {
      "epoch": 0.03654166666666667,
      "grad_norm": 0.7908039093017578,
      "learning_rate": 0.0002992183187697946,
      "loss": 3.9574,
      "step": 17540
    },
    {
      "epoch": 0.0365625,
      "grad_norm": 0.9662392139434814,
      "learning_rate": 0.00029921731329744344,
      "loss": 4.1924,
      "step": 17550
    },
    {
      "epoch": 0.036583333333333336,
      "grad_norm": 0.7853904962539673,
      "learning_rate": 0.0002992163071805325,
      "loss": 4.092,
      "step": 17560
    },
    {
      "epoch": 0.03660416666666667,
      "grad_norm": 0.8106274604797363,
      "learning_rate": 0.0002992153004190662,
      "loss": 4.0854,
      "step": 17570
    },
    {
      "epoch": 0.036625,
      "grad_norm": 0.9367853403091431,
      "learning_rate": 0.0002992142930130489,
      "loss": 4.1014,
      "step": 17580
    },
    {
      "epoch": 0.036645833333333336,
      "grad_norm": 0.9035178422927856,
      "learning_rate": 0.000299213284962485,
      "loss": 3.9992,
      "step": 17590
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 0.8327311277389526,
      "learning_rate": 0.0002992122762673786,
      "loss": 4.0078,
      "step": 17600
    },
    {
      "epoch": 0.0366875,
      "grad_norm": 0.8424521684646606,
      "learning_rate": 0.00029921126692773433,
      "loss": 3.8943,
      "step": 17610
    },
    {
      "epoch": 0.036708333333333336,
      "grad_norm": 0.8831633925437927,
      "learning_rate": 0.0002992102569435564,
      "loss": 4.1153,
      "step": 17620
    },
    {
      "epoch": 0.03672916666666667,
      "grad_norm": 0.7973224520683289,
      "learning_rate": 0.00029920924631484926,
      "loss": 4.0758,
      "step": 17630
    },
    {
      "epoch": 0.03675,
      "grad_norm": 0.9161110520362854,
      "learning_rate": 0.00029920823504161716,
      "loss": 4.1701,
      "step": 17640
    },
    {
      "epoch": 0.036770833333333336,
      "grad_norm": 0.8322612643241882,
      "learning_rate": 0.0002992072231238646,
      "loss": 4.1645,
      "step": 17650
    },
    {
      "epoch": 0.03679166666666667,
      "grad_norm": 0.8155104517936707,
      "learning_rate": 0.00029920621056159593,
      "loss": 3.8653,
      "step": 17660
    },
    {
      "epoch": 0.0368125,
      "grad_norm": 0.7626095414161682,
      "learning_rate": 0.00029920519735481547,
      "loss": 4.1585,
      "step": 17670
    },
    {
      "epoch": 0.036833333333333336,
      "grad_norm": 0.862581729888916,
      "learning_rate": 0.0002992041835035276,
      "loss": 4.0399,
      "step": 17680
    },
    {
      "epoch": 0.03685416666666667,
      "grad_norm": 0.9299867749214172,
      "learning_rate": 0.0002992031690077367,
      "loss": 4.0202,
      "step": 17690
    },
    {
      "epoch": 0.036875,
      "grad_norm": 0.8643673062324524,
      "learning_rate": 0.0002992021538674472,
      "loss": 4.1596,
      "step": 17700
    },
    {
      "epoch": 0.036895833333333336,
      "grad_norm": 1.0663188695907593,
      "learning_rate": 0.00029920113808266344,
      "loss": 3.9553,
      "step": 17710
    },
    {
      "epoch": 0.03691666666666667,
      "grad_norm": 0.7960526347160339,
      "learning_rate": 0.00029920012165338984,
      "loss": 4.0284,
      "step": 17720
    },
    {
      "epoch": 0.0369375,
      "grad_norm": 0.9164923429489136,
      "learning_rate": 0.00029919910457963076,
      "loss": 4.1748,
      "step": 17730
    },
    {
      "epoch": 0.036958333333333336,
      "grad_norm": 0.8116590976715088,
      "learning_rate": 0.0002991980868613906,
      "loss": 4.0241,
      "step": 17740
    },
    {
      "epoch": 0.03697916666666667,
      "grad_norm": 0.8403971195220947,
      "learning_rate": 0.00029919706849867376,
      "loss": 4.0968,
      "step": 17750
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.8196402788162231,
      "learning_rate": 0.0002991960494914846,
      "loss": 4.1031,
      "step": 17760
    },
    {
      "epoch": 0.037020833333333336,
      "grad_norm": 0.8030466437339783,
      "learning_rate": 0.00029919502983982764,
      "loss": 4.0138,
      "step": 17770
    },
    {
      "epoch": 0.03704166666666667,
      "grad_norm": 0.7459415793418884,
      "learning_rate": 0.00029919400954370716,
      "loss": 4.1023,
      "step": 17780
    },
    {
      "epoch": 0.0370625,
      "grad_norm": 0.8701621294021606,
      "learning_rate": 0.00029919298860312763,
      "loss": 4.032,
      "step": 17790
    },
    {
      "epoch": 0.037083333333333336,
      "grad_norm": 0.8480597138404846,
      "learning_rate": 0.00029919196701809345,
      "loss": 3.9828,
      "step": 17800
    },
    {
      "epoch": 0.03710416666666667,
      "grad_norm": 1.05820631980896,
      "learning_rate": 0.000299190944788609,
      "loss": 3.9067,
      "step": 17810
    },
    {
      "epoch": 0.037125,
      "grad_norm": 1.13596510887146,
      "learning_rate": 0.00029918992191467876,
      "loss": 4.155,
      "step": 17820
    },
    {
      "epoch": 0.037145833333333336,
      "grad_norm": 0.7410834431648254,
      "learning_rate": 0.0002991888983963071,
      "loss": 4.1258,
      "step": 17830
    },
    {
      "epoch": 0.03716666666666667,
      "grad_norm": 0.9526194334030151,
      "learning_rate": 0.00029918787423349844,
      "loss": 4.1948,
      "step": 17840
    },
    {
      "epoch": 0.0371875,
      "grad_norm": 0.7553843855857849,
      "learning_rate": 0.00029918684942625726,
      "loss": 3.9481,
      "step": 17850
    },
    {
      "epoch": 0.037208333333333336,
      "grad_norm": 1.279346227645874,
      "learning_rate": 0.0002991858239745879,
      "loss": 3.977,
      "step": 17860
    },
    {
      "epoch": 0.03722916666666667,
      "grad_norm": 0.9270862340927124,
      "learning_rate": 0.00029918479787849475,
      "loss": 4.0444,
      "step": 17870
    },
    {
      "epoch": 0.03725,
      "grad_norm": 1.1202037334442139,
      "learning_rate": 0.0002991837711379825,
      "loss": 3.9636,
      "step": 17880
    },
    {
      "epoch": 0.037270833333333336,
      "grad_norm": 1.1282846927642822,
      "learning_rate": 0.0002991827437530553,
      "loss": 3.9992,
      "step": 17890
    },
    {
      "epoch": 0.03729166666666667,
      "grad_norm": 0.9895198941230774,
      "learning_rate": 0.0002991817157237177,
      "loss": 3.9932,
      "step": 17900
    },
    {
      "epoch": 0.0373125,
      "grad_norm": 0.8551687002182007,
      "learning_rate": 0.0002991806870499741,
      "loss": 3.8968,
      "step": 17910
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 0.8136470913887024,
      "learning_rate": 0.0002991796577318291,
      "loss": 4.143,
      "step": 17920
    },
    {
      "epoch": 0.03735416666666667,
      "grad_norm": 0.8662888407707214,
      "learning_rate": 0.00029917862776928695,
      "loss": 3.9867,
      "step": 17930
    },
    {
      "epoch": 0.037375,
      "grad_norm": 0.7878057360649109,
      "learning_rate": 0.0002991775971623522,
      "loss": 4.0166,
      "step": 17940
    },
    {
      "epoch": 0.037395833333333336,
      "grad_norm": 0.8428813219070435,
      "learning_rate": 0.00029917656591102926,
      "loss": 3.9418,
      "step": 17950
    },
    {
      "epoch": 0.03741666666666667,
      "grad_norm": 0.9037641882896423,
      "learning_rate": 0.00029917553401532257,
      "loss": 3.9226,
      "step": 17960
    },
    {
      "epoch": 0.0374375,
      "grad_norm": 0.8467386960983276,
      "learning_rate": 0.0002991745014752367,
      "loss": 4.1006,
      "step": 17970
    },
    {
      "epoch": 0.03745833333333334,
      "grad_norm": 0.8506113290786743,
      "learning_rate": 0.00029917346829077597,
      "loss": 3.8726,
      "step": 17980
    },
    {
      "epoch": 0.03747916666666667,
      "grad_norm": 0.9531418681144714,
      "learning_rate": 0.000299172434461945,
      "loss": 4.0024,
      "step": 17990
    },
    {
      "epoch": 0.0375,
      "grad_norm": 0.7978168725967407,
      "learning_rate": 0.00029917139998874805,
      "loss": 4.0668,
      "step": 18000
    },
    {
      "epoch": 0.0375,
      "eval_loss": 4.329977989196777,
      "eval_runtime": 11.2845,
      "eval_samples_per_second": 0.886,
      "eval_steps_per_second": 0.266,
      "step": 18000
    },
    {
      "epoch": 0.03752083333333334,
      "grad_norm": 0.89188551902771,
      "learning_rate": 0.0002991703648711897,
      "loss": 4.0169,
      "step": 18010
    },
    {
      "epoch": 0.03754166666666667,
      "grad_norm": 0.8431882858276367,
      "learning_rate": 0.0002991693291092745,
      "loss": 3.9835,
      "step": 18020
    },
    {
      "epoch": 0.0375625,
      "grad_norm": 0.762832760810852,
      "learning_rate": 0.00029916829270300674,
      "loss": 4.0664,
      "step": 18030
    },
    {
      "epoch": 0.03758333333333334,
      "grad_norm": 0.9033599495887756,
      "learning_rate": 0.0002991672556523911,
      "loss": 4.2116,
      "step": 18040
    },
    {
      "epoch": 0.03760416666666667,
      "grad_norm": 0.9286917448043823,
      "learning_rate": 0.0002991662179574319,
      "loss": 4.0503,
      "step": 18050
    },
    {
      "epoch": 0.037625,
      "grad_norm": 0.7415966987609863,
      "learning_rate": 0.00029916517961813373,
      "loss": 4.1049,
      "step": 18060
    },
    {
      "epoch": 0.03764583333333334,
      "grad_norm": 0.8961454033851624,
      "learning_rate": 0.000299164140634501,
      "loss": 4.0114,
      "step": 18070
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 0.8220148682594299,
      "learning_rate": 0.0002991631010065382,
      "loss": 4.0936,
      "step": 18080
    },
    {
      "epoch": 0.0376875,
      "grad_norm": 0.9560121893882751,
      "learning_rate": 0.0002991620607342499,
      "loss": 3.9289,
      "step": 18090
    },
    {
      "epoch": 0.03770833333333334,
      "grad_norm": 0.8255181908607483,
      "learning_rate": 0.0002991610198176405,
      "loss": 4.0217,
      "step": 18100
    },
    {
      "epoch": 0.03772916666666667,
      "grad_norm": 0.7874506115913391,
      "learning_rate": 0.0002991599782567146,
      "loss": 4.0854,
      "step": 18110
    },
    {
      "epoch": 0.03775,
      "grad_norm": 0.7824701070785522,
      "learning_rate": 0.0002991589360514765,
      "loss": 4.1276,
      "step": 18120
    },
    {
      "epoch": 0.03777083333333333,
      "grad_norm": 0.8541786670684814,
      "learning_rate": 0.00029915789320193097,
      "loss": 4.2043,
      "step": 18130
    },
    {
      "epoch": 0.03779166666666667,
      "grad_norm": 0.794258713722229,
      "learning_rate": 0.00029915684970808234,
      "loss": 4.0339,
      "step": 18140
    },
    {
      "epoch": 0.0378125,
      "grad_norm": 0.9189763069152832,
      "learning_rate": 0.00029915580556993514,
      "loss": 3.9248,
      "step": 18150
    },
    {
      "epoch": 0.03783333333333333,
      "grad_norm": 0.7932783961296082,
      "learning_rate": 0.0002991547607874939,
      "loss": 4.2718,
      "step": 18160
    },
    {
      "epoch": 0.03785416666666667,
      "grad_norm": 0.8350664973258972,
      "learning_rate": 0.00029915371536076317,
      "loss": 4.044,
      "step": 18170
    },
    {
      "epoch": 0.037875,
      "grad_norm": 0.8246133327484131,
      "learning_rate": 0.0002991526692897474,
      "loss": 4.0622,
      "step": 18180
    },
    {
      "epoch": 0.03789583333333333,
      "grad_norm": 0.8944045305252075,
      "learning_rate": 0.00029915162257445114,
      "loss": 3.9538,
      "step": 18190
    },
    {
      "epoch": 0.03791666666666667,
      "grad_norm": 0.9330810904502869,
      "learning_rate": 0.0002991505752148789,
      "loss": 3.8877,
      "step": 18200
    },
    {
      "epoch": 0.0379375,
      "grad_norm": 0.8224648237228394,
      "learning_rate": 0.0002991495272110352,
      "loss": 3.8945,
      "step": 18210
    },
    {
      "epoch": 0.03795833333333333,
      "grad_norm": 0.8624475002288818,
      "learning_rate": 0.00029914847856292464,
      "loss": 4.0377,
      "step": 18220
    },
    {
      "epoch": 0.03797916666666667,
      "grad_norm": 0.8436950445175171,
      "learning_rate": 0.00029914742927055166,
      "loss": 4.0767,
      "step": 18230
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.7826711535453796,
      "learning_rate": 0.0002991463793339208,
      "loss": 4.112,
      "step": 18240
    },
    {
      "epoch": 0.03802083333333333,
      "grad_norm": 0.7982813119888306,
      "learning_rate": 0.00029914532875303663,
      "loss": 4.0583,
      "step": 18250
    },
    {
      "epoch": 0.03804166666666667,
      "grad_norm": 0.7626778483390808,
      "learning_rate": 0.0002991442775279037,
      "loss": 4.0081,
      "step": 18260
    },
    {
      "epoch": 0.0380625,
      "grad_norm": 0.7969287633895874,
      "learning_rate": 0.0002991432256585265,
      "loss": 3.9837,
      "step": 18270
    },
    {
      "epoch": 0.03808333333333333,
      "grad_norm": 0.8490894436836243,
      "learning_rate": 0.0002991421731449096,
      "loss": 4.113,
      "step": 18280
    },
    {
      "epoch": 0.03810416666666667,
      "grad_norm": 0.8685401082038879,
      "learning_rate": 0.00029914111998705756,
      "loss": 4.1729,
      "step": 18290
    },
    {
      "epoch": 0.038125,
      "grad_norm": 0.8926373720169067,
      "learning_rate": 0.0002991400661849749,
      "loss": 4.1568,
      "step": 18300
    },
    {
      "epoch": 0.03814583333333333,
      "grad_norm": 0.8474584817886353,
      "learning_rate": 0.0002991390117386662,
      "loss": 4.0374,
      "step": 18310
    },
    {
      "epoch": 0.03816666666666667,
      "grad_norm": 0.7464219927787781,
      "learning_rate": 0.000299137956648136,
      "loss": 4.0927,
      "step": 18320
    },
    {
      "epoch": 0.0381875,
      "grad_norm": 1.1224325895309448,
      "learning_rate": 0.00029913690091338884,
      "loss": 3.888,
      "step": 18330
    },
    {
      "epoch": 0.03820833333333333,
      "grad_norm": 0.8654627203941345,
      "learning_rate": 0.0002991358445344294,
      "loss": 3.978,
      "step": 18340
    },
    {
      "epoch": 0.03822916666666667,
      "grad_norm": 0.805236279964447,
      "learning_rate": 0.000299134787511262,
      "loss": 4.2926,
      "step": 18350
    },
    {
      "epoch": 0.03825,
      "grad_norm": 0.8852526545524597,
      "learning_rate": 0.0002991337298438914,
      "loss": 4.0587,
      "step": 18360
    },
    {
      "epoch": 0.03827083333333333,
      "grad_norm": 0.8394462466239929,
      "learning_rate": 0.0002991326715323222,
      "loss": 4.1973,
      "step": 18370
    },
    {
      "epoch": 0.03829166666666667,
      "grad_norm": 0.9310835003852844,
      "learning_rate": 0.00029913161257655877,
      "loss": 4.086,
      "step": 18380
    },
    {
      "epoch": 0.0383125,
      "grad_norm": 0.8572797775268555,
      "learning_rate": 0.00029913055297660585,
      "loss": 4.0869,
      "step": 18390
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 0.8255114555358887,
      "learning_rate": 0.000299129492732468,
      "loss": 3.9834,
      "step": 18400
    },
    {
      "epoch": 0.03835416666666667,
      "grad_norm": 0.7923405766487122,
      "learning_rate": 0.00029912843184414975,
      "loss": 4.1786,
      "step": 18410
    },
    {
      "epoch": 0.038375,
      "grad_norm": 0.9362053871154785,
      "learning_rate": 0.00029912737031165563,
      "loss": 4.081,
      "step": 18420
    },
    {
      "epoch": 0.03839583333333333,
      "grad_norm": 0.7293967008590698,
      "learning_rate": 0.00029912630813499043,
      "loss": 4.0674,
      "step": 18430
    },
    {
      "epoch": 0.03841666666666667,
      "grad_norm": 0.9222938418388367,
      "learning_rate": 0.00029912524531415855,
      "loss": 4.2324,
      "step": 18440
    },
    {
      "epoch": 0.0384375,
      "grad_norm": 1.0506500005722046,
      "learning_rate": 0.00029912418184916464,
      "loss": 4.1515,
      "step": 18450
    },
    {
      "epoch": 0.03845833333333333,
      "grad_norm": 0.9396284222602844,
      "learning_rate": 0.00029912311774001326,
      "loss": 4.1479,
      "step": 18460
    },
    {
      "epoch": 0.03847916666666667,
      "grad_norm": 0.898797333240509,
      "learning_rate": 0.00029912205298670907,
      "loss": 4.115,
      "step": 18470
    },
    {
      "epoch": 0.0385,
      "grad_norm": 0.8962081074714661,
      "learning_rate": 0.0002991209875892566,
      "loss": 4.1352,
      "step": 18480
    },
    {
      "epoch": 0.03852083333333333,
      "grad_norm": 0.9243101477622986,
      "learning_rate": 0.0002991199215476606,
      "loss": 3.8898,
      "step": 18490
    },
    {
      "epoch": 0.03854166666666667,
      "grad_norm": 0.8865892291069031,
      "learning_rate": 0.00029911885486192546,
      "loss": 4.1713,
      "step": 18500
    },
    {
      "epoch": 0.0385625,
      "grad_norm": 0.7877585887908936,
      "learning_rate": 0.0002991177875320559,
      "loss": 4.0824,
      "step": 18510
    },
    {
      "epoch": 0.03858333333333333,
      "grad_norm": 0.9386928677558899,
      "learning_rate": 0.00029911671955805657,
      "loss": 4.0002,
      "step": 18520
    },
    {
      "epoch": 0.03860416666666667,
      "grad_norm": 0.7505200505256653,
      "learning_rate": 0.000299115650939932,
      "loss": 4.0505,
      "step": 18530
    },
    {
      "epoch": 0.038625,
      "grad_norm": 0.9526666402816772,
      "learning_rate": 0.0002991145816776869,
      "loss": 3.9049,
      "step": 18540
    },
    {
      "epoch": 0.03864583333333333,
      "grad_norm": 1.0136090517044067,
      "learning_rate": 0.0002991135117713257,
      "loss": 4.0518,
      "step": 18550
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 0.9006969332695007,
      "learning_rate": 0.0002991124412208533,
      "loss": 3.955,
      "step": 18560
    },
    {
      "epoch": 0.0386875,
      "grad_norm": 0.9038065671920776,
      "learning_rate": 0.00029911137002627407,
      "loss": 4.1199,
      "step": 18570
    },
    {
      "epoch": 0.03870833333333333,
      "grad_norm": 0.8486124873161316,
      "learning_rate": 0.0002991102981875928,
      "loss": 4.0811,
      "step": 18580
    },
    {
      "epoch": 0.03872916666666667,
      "grad_norm": 1.0298998355865479,
      "learning_rate": 0.00029910922570481404,
      "loss": 3.9936,
      "step": 18590
    },
    {
      "epoch": 0.03875,
      "grad_norm": 1.0010906457901,
      "learning_rate": 0.00029910815257794244,
      "loss": 4.1464,
      "step": 18600
    },
    {
      "epoch": 0.03877083333333333,
      "grad_norm": 0.7848183512687683,
      "learning_rate": 0.00029910707880698265,
      "loss": 4.0499,
      "step": 18610
    },
    {
      "epoch": 0.03879166666666667,
      "grad_norm": 0.8498455286026001,
      "learning_rate": 0.00029910600439193933,
      "loss": 4.0583,
      "step": 18620
    },
    {
      "epoch": 0.0388125,
      "grad_norm": 0.9235027432441711,
      "learning_rate": 0.00029910492933281704,
      "loss": 3.9502,
      "step": 18630
    },
    {
      "epoch": 0.03883333333333333,
      "grad_norm": 0.7915307283401489,
      "learning_rate": 0.0002991038536296205,
      "loss": 3.9124,
      "step": 18640
    },
    {
      "epoch": 0.03885416666666667,
      "grad_norm": 0.9006110429763794,
      "learning_rate": 0.00029910277728235435,
      "loss": 4.0343,
      "step": 18650
    },
    {
      "epoch": 0.038875,
      "grad_norm": 0.8040832281112671,
      "learning_rate": 0.0002991017002910232,
      "loss": 4.0883,
      "step": 18660
    },
    {
      "epoch": 0.03889583333333333,
      "grad_norm": 0.8139463067054749,
      "learning_rate": 0.0002991006226556317,
      "loss": 3.9423,
      "step": 18670
    },
    {
      "epoch": 0.03891666666666667,
      "grad_norm": 0.9146645069122314,
      "learning_rate": 0.0002990995443761846,
      "loss": 4.0034,
      "step": 18680
    },
    {
      "epoch": 0.0389375,
      "grad_norm": 0.8637332320213318,
      "learning_rate": 0.00029909846545268646,
      "loss": 4.0658,
      "step": 18690
    },
    {
      "epoch": 0.03895833333333333,
      "grad_norm": 0.795529305934906,
      "learning_rate": 0.00029909738588514194,
      "loss": 4.1287,
      "step": 18700
    },
    {
      "epoch": 0.03897916666666667,
      "grad_norm": 0.7612804770469666,
      "learning_rate": 0.0002990963056735557,
      "loss": 4.0551,
      "step": 18710
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.8011635541915894,
      "learning_rate": 0.00029909522481793254,
      "loss": 3.9135,
      "step": 18720
    },
    {
      "epoch": 0.03902083333333333,
      "grad_norm": 0.8500843048095703,
      "learning_rate": 0.00029909414331827697,
      "loss": 4.2049,
      "step": 18730
    },
    {
      "epoch": 0.03904166666666667,
      "grad_norm": 0.86812424659729,
      "learning_rate": 0.00029909306117459366,
      "loss": 4.1068,
      "step": 18740
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 0.9230269193649292,
      "learning_rate": 0.0002990919783868874,
      "loss": 4.0994,
      "step": 18750
    },
    {
      "epoch": 0.03908333333333333,
      "grad_norm": 0.8421009182929993,
      "learning_rate": 0.0002990908949551628,
      "loss": 4.0894,
      "step": 18760
    },
    {
      "epoch": 0.03910416666666667,
      "grad_norm": 0.8920373320579529,
      "learning_rate": 0.00029908981087942453,
      "loss": 4.0574,
      "step": 18770
    },
    {
      "epoch": 0.039125,
      "grad_norm": 0.7673577070236206,
      "learning_rate": 0.0002990887261596773,
      "loss": 4.0279,
      "step": 18780
    },
    {
      "epoch": 0.03914583333333333,
      "grad_norm": 0.7957242727279663,
      "learning_rate": 0.0002990876407959258,
      "loss": 3.988,
      "step": 18790
    },
    {
      "epoch": 0.03916666666666667,
      "grad_norm": 0.9724499583244324,
      "learning_rate": 0.0002990865547881747,
      "loss": 4.226,
      "step": 18800
    },
    {
      "epoch": 0.0391875,
      "grad_norm": 0.8133620023727417,
      "learning_rate": 0.00029908546813642864,
      "loss": 4.0273,
      "step": 18810
    },
    {
      "epoch": 0.03920833333333333,
      "grad_norm": 0.8466202020645142,
      "learning_rate": 0.0002990843808406925,
      "loss": 4.112,
      "step": 18820
    },
    {
      "epoch": 0.03922916666666667,
      "grad_norm": 0.7579261064529419,
      "learning_rate": 0.00029908329290097074,
      "loss": 4.045,
      "step": 18830
    },
    {
      "epoch": 0.03925,
      "grad_norm": 0.9687149524688721,
      "learning_rate": 0.0002990822043172682,
      "loss": 4.051,
      "step": 18840
    },
    {
      "epoch": 0.03927083333333333,
      "grad_norm": 0.7535285353660583,
      "learning_rate": 0.00029908111508958953,
      "loss": 4.1092,
      "step": 18850
    },
    {
      "epoch": 0.03929166666666667,
      "grad_norm": 0.796410083770752,
      "learning_rate": 0.00029908002521793946,
      "loss": 4.045,
      "step": 18860
    },
    {
      "epoch": 0.0393125,
      "grad_norm": 0.8584465384483337,
      "learning_rate": 0.0002990789347023227,
      "loss": 4.0383,
      "step": 18870
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 0.8105795383453369,
      "learning_rate": 0.000299077843542744,
      "loss": 4.0037,
      "step": 18880
    },
    {
      "epoch": 0.03935416666666667,
      "grad_norm": 0.8511812090873718,
      "learning_rate": 0.00029907675173920795,
      "loss": 4.1038,
      "step": 18890
    },
    {
      "epoch": 0.039375,
      "grad_norm": 0.7357218861579895,
      "learning_rate": 0.0002990756592917193,
      "loss": 4.0421,
      "step": 18900
    },
    {
      "epoch": 0.03939583333333333,
      "grad_norm": 0.8205394148826599,
      "learning_rate": 0.00029907456620028287,
      "loss": 4.0321,
      "step": 18910
    },
    {
      "epoch": 0.03941666666666667,
      "grad_norm": 0.8561420440673828,
      "learning_rate": 0.00029907347246490337,
      "loss": 4.1758,
      "step": 18920
    },
    {
      "epoch": 0.0394375,
      "grad_norm": 0.9624341726303101,
      "learning_rate": 0.0002990723780855854,
      "loss": 4.2025,
      "step": 18930
    },
    {
      "epoch": 0.03945833333333333,
      "grad_norm": 0.9427738785743713,
      "learning_rate": 0.00029907128306233386,
      "loss": 4.2542,
      "step": 18940
    },
    {
      "epoch": 0.03947916666666667,
      "grad_norm": 0.9757403135299683,
      "learning_rate": 0.0002990701873951533,
      "loss": 4.1038,
      "step": 18950
    },
    {
      "epoch": 0.0395,
      "grad_norm": 0.9808940291404724,
      "learning_rate": 0.00029906909108404857,
      "loss": 4.0875,
      "step": 18960
    },
    {
      "epoch": 0.03952083333333333,
      "grad_norm": 1.2218230962753296,
      "learning_rate": 0.00029906799412902436,
      "loss": 3.8337,
      "step": 18970
    },
    {
      "epoch": 0.03954166666666667,
      "grad_norm": 0.9045658111572266,
      "learning_rate": 0.0002990668965300854,
      "loss": 3.9948,
      "step": 18980
    },
    {
      "epoch": 0.0395625,
      "grad_norm": 0.9830717444419861,
      "learning_rate": 0.0002990657982872365,
      "loss": 3.9738,
      "step": 18990
    },
    {
      "epoch": 0.03958333333333333,
      "grad_norm": 0.7774221301078796,
      "learning_rate": 0.0002990646994004823,
      "loss": 4.1336,
      "step": 19000
    },
    {
      "epoch": 0.03958333333333333,
      "eval_loss": 4.341280460357666,
      "eval_runtime": 10.6438,
      "eval_samples_per_second": 0.94,
      "eval_steps_per_second": 0.282,
      "step": 19000
    },
    {
      "epoch": 0.03960416666666667,
      "grad_norm": 0.9579519033432007,
      "learning_rate": 0.00029906359986982766,
      "loss": 4.0295,
      "step": 19010
    },
    {
      "epoch": 0.039625,
      "grad_norm": 0.8091082572937012,
      "learning_rate": 0.0002990624996952772,
      "loss": 3.9964,
      "step": 19020
    },
    {
      "epoch": 0.03964583333333333,
      "grad_norm": 0.9176852703094482,
      "learning_rate": 0.0002990613988768358,
      "loss": 4.0226,
      "step": 19030
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 0.8329704403877258,
      "learning_rate": 0.00029906029741450814,
      "loss": 3.8441,
      "step": 19040
    },
    {
      "epoch": 0.0396875,
      "grad_norm": 0.9402167797088623,
      "learning_rate": 0.000299059195308299,
      "loss": 4.0174,
      "step": 19050
    },
    {
      "epoch": 0.03970833333333333,
      "grad_norm": 0.7524610161781311,
      "learning_rate": 0.00029905809255821315,
      "loss": 3.8213,
      "step": 19060
    },
    {
      "epoch": 0.03972916666666667,
      "grad_norm": 0.802990734577179,
      "learning_rate": 0.0002990569891642553,
      "loss": 4.1643,
      "step": 19070
    },
    {
      "epoch": 0.03975,
      "grad_norm": 0.7742749452590942,
      "learning_rate": 0.0002990558851264303,
      "loss": 3.973,
      "step": 19080
    },
    {
      "epoch": 0.03977083333333333,
      "grad_norm": 0.8257986307144165,
      "learning_rate": 0.0002990547804447429,
      "loss": 3.9735,
      "step": 19090
    },
    {
      "epoch": 0.03979166666666667,
      "grad_norm": 1.0188935995101929,
      "learning_rate": 0.00029905367511919777,
      "loss": 4.119,
      "step": 19100
    },
    {
      "epoch": 0.0398125,
      "grad_norm": 0.8712319135665894,
      "learning_rate": 0.00029905256914979984,
      "loss": 4.0557,
      "step": 19110
    },
    {
      "epoch": 0.03983333333333333,
      "grad_norm": 0.790169894695282,
      "learning_rate": 0.00029905146253655376,
      "loss": 3.9663,
      "step": 19120
    },
    {
      "epoch": 0.03985416666666667,
      "grad_norm": 0.7941786646842957,
      "learning_rate": 0.0002990503552794644,
      "loss": 4.1641,
      "step": 19130
    },
    {
      "epoch": 0.039875,
      "grad_norm": 0.7915155291557312,
      "learning_rate": 0.00029904924737853645,
      "loss": 4.0691,
      "step": 19140
    },
    {
      "epoch": 0.03989583333333333,
      "grad_norm": 0.8612808585166931,
      "learning_rate": 0.0002990481388337748,
      "loss": 4.2411,
      "step": 19150
    },
    {
      "epoch": 0.03991666666666667,
      "grad_norm": 0.8533260226249695,
      "learning_rate": 0.0002990470296451842,
      "loss": 4.0003,
      "step": 19160
    },
    {
      "epoch": 0.0399375,
      "grad_norm": 0.7836639881134033,
      "learning_rate": 0.00029904591981276936,
      "loss": 3.9807,
      "step": 19170
    },
    {
      "epoch": 0.03995833333333333,
      "grad_norm": 0.8117405772209167,
      "learning_rate": 0.0002990448093365352,
      "loss": 4.0027,
      "step": 19180
    },
    {
      "epoch": 0.03997916666666667,
      "grad_norm": 0.9094319343566895,
      "learning_rate": 0.00029904369821648645,
      "loss": 3.9399,
      "step": 19190
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8511267304420471,
      "learning_rate": 0.0002990425864526279,
      "loss": 3.9751,
      "step": 19200
    },
    {
      "epoch": 0.04002083333333333,
      "grad_norm": 0.8012973070144653,
      "learning_rate": 0.00029904147404496436,
      "loss": 4.2045,
      "step": 19210
    },
    {
      "epoch": 0.04004166666666667,
      "grad_norm": 0.8121950030326843,
      "learning_rate": 0.00029904036099350065,
      "loss": 4.0326,
      "step": 19220
    },
    {
      "epoch": 0.0400625,
      "grad_norm": 0.9457129836082458,
      "learning_rate": 0.00029903924729824164,
      "loss": 3.8929,
      "step": 19230
    },
    {
      "epoch": 0.04008333333333333,
      "grad_norm": 0.8939108848571777,
      "learning_rate": 0.000299038132959192,
      "loss": 4.0577,
      "step": 19240
    },
    {
      "epoch": 0.04010416666666667,
      "grad_norm": 0.9702565670013428,
      "learning_rate": 0.00029903701797635667,
      "loss": 4.0625,
      "step": 19250
    },
    {
      "epoch": 0.040125,
      "grad_norm": 0.8929636478424072,
      "learning_rate": 0.00029903590234974035,
      "loss": 3.8455,
      "step": 19260
    },
    {
      "epoch": 0.04014583333333333,
      "grad_norm": 0.770983099937439,
      "learning_rate": 0.000299034786079348,
      "loss": 3.9727,
      "step": 19270
    },
    {
      "epoch": 0.04016666666666667,
      "grad_norm": 0.7728239893913269,
      "learning_rate": 0.0002990336691651843,
      "loss": 4.1381,
      "step": 19280
    },
    {
      "epoch": 0.0401875,
      "grad_norm": 0.9467799067497253,
      "learning_rate": 0.0002990325516072542,
      "loss": 3.8386,
      "step": 19290
    },
    {
      "epoch": 0.04020833333333333,
      "grad_norm": 0.7413394451141357,
      "learning_rate": 0.0002990314334055625,
      "loss": 4.0526,
      "step": 19300
    },
    {
      "epoch": 0.04022916666666667,
      "grad_norm": 0.8904475569725037,
      "learning_rate": 0.0002990303145601139,
      "loss": 4.0035,
      "step": 19310
    },
    {
      "epoch": 0.04025,
      "grad_norm": 0.9265841245651245,
      "learning_rate": 0.0002990291950709134,
      "loss": 3.9815,
      "step": 19320
    },
    {
      "epoch": 0.04027083333333333,
      "grad_norm": 0.8558010458946228,
      "learning_rate": 0.0002990280749379657,
      "loss": 4.1903,
      "step": 19330
    },
    {
      "epoch": 0.04029166666666667,
      "grad_norm": 0.854515552520752,
      "learning_rate": 0.0002990269541612757,
      "loss": 4.0478,
      "step": 19340
    },
    {
      "epoch": 0.0403125,
      "grad_norm": 0.7501394152641296,
      "learning_rate": 0.0002990258327408483,
      "loss": 3.8788,
      "step": 19350
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 0.8303591012954712,
      "learning_rate": 0.0002990247106766883,
      "loss": 4.1537,
      "step": 19360
    },
    {
      "epoch": 0.04035416666666667,
      "grad_norm": 0.8489549160003662,
      "learning_rate": 0.00029902358796880053,
      "loss": 3.9616,
      "step": 19370
    },
    {
      "epoch": 0.040375,
      "grad_norm": 0.9887664318084717,
      "learning_rate": 0.0002990224646171898,
      "loss": 4.0038,
      "step": 19380
    },
    {
      "epoch": 0.04039583333333333,
      "grad_norm": 0.9427640438079834,
      "learning_rate": 0.0002990213406218611,
      "loss": 4.1949,
      "step": 19390
    },
    {
      "epoch": 0.04041666666666666,
      "grad_norm": 0.9842920303344727,
      "learning_rate": 0.00029902021598281913,
      "loss": 4.0348,
      "step": 19400
    },
    {
      "epoch": 0.0404375,
      "grad_norm": 0.932799220085144,
      "learning_rate": 0.00029901909070006885,
      "loss": 4.0667,
      "step": 19410
    },
    {
      "epoch": 0.04045833333333333,
      "grad_norm": 0.9740130305290222,
      "learning_rate": 0.00029901796477361506,
      "loss": 4.0779,
      "step": 19420
    },
    {
      "epoch": 0.04047916666666666,
      "grad_norm": 0.8243486881256104,
      "learning_rate": 0.0002990168382034626,
      "loss": 4.0661,
      "step": 19430
    },
    {
      "epoch": 0.0405,
      "grad_norm": 0.8936859965324402,
      "learning_rate": 0.0002990157109896165,
      "loss": 4.1681,
      "step": 19440
    },
    {
      "epoch": 0.04052083333333333,
      "grad_norm": 0.7526562809944153,
      "learning_rate": 0.0002990145831320814,
      "loss": 4.0743,
      "step": 19450
    },
    {
      "epoch": 0.04054166666666666,
      "grad_norm": 0.9612098336219788,
      "learning_rate": 0.0002990134546308623,
      "loss": 4.0618,
      "step": 19460
    },
    {
      "epoch": 0.0405625,
      "grad_norm": 0.8145372271537781,
      "learning_rate": 0.00029901232548596417,
      "loss": 4.0131,
      "step": 19470
    },
    {
      "epoch": 0.04058333333333333,
      "grad_norm": 0.7904540300369263,
      "learning_rate": 0.00029901119569739163,
      "loss": 4.029,
      "step": 19480
    },
    {
      "epoch": 0.04060416666666666,
      "grad_norm": 0.895660936832428,
      "learning_rate": 0.0002990100652651498,
      "loss": 4.0449,
      "step": 19490
    },
    {
      "epoch": 0.040625,
      "grad_norm": 0.774512529373169,
      "learning_rate": 0.00029900893418924345,
      "loss": 4.1697,
      "step": 19500
    },
    {
      "epoch": 0.04064583333333333,
      "grad_norm": 0.7943359017372131,
      "learning_rate": 0.00029900780246967746,
      "loss": 4.0913,
      "step": 19510
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 0.9477747678756714,
      "learning_rate": 0.0002990066701064568,
      "loss": 4.1187,
      "step": 19520
    },
    {
      "epoch": 0.0406875,
      "grad_norm": 0.7964714169502258,
      "learning_rate": 0.00029900553709958624,
      "loss": 4.0871,
      "step": 19530
    },
    {
      "epoch": 0.04070833333333333,
      "grad_norm": 0.9286220669746399,
      "learning_rate": 0.0002990044034490708,
      "loss": 3.9705,
      "step": 19540
    },
    {
      "epoch": 0.040729166666666664,
      "grad_norm": 0.8784612417221069,
      "learning_rate": 0.00029900326915491526,
      "loss": 4.2264,
      "step": 19550
    },
    {
      "epoch": 0.04075,
      "grad_norm": 0.9004016518592834,
      "learning_rate": 0.0002990021342171246,
      "loss": 4.134,
      "step": 19560
    },
    {
      "epoch": 0.04077083333333333,
      "grad_norm": 0.7956963181495667,
      "learning_rate": 0.0002990009986357037,
      "loss": 4.0411,
      "step": 19570
    },
    {
      "epoch": 0.040791666666666664,
      "grad_norm": 0.8759351372718811,
      "learning_rate": 0.0002989998624106575,
      "loss": 3.9668,
      "step": 19580
    },
    {
      "epoch": 0.0408125,
      "grad_norm": 0.7882117033004761,
      "learning_rate": 0.0002989987255419908,
      "loss": 3.9748,
      "step": 19590
    },
    {
      "epoch": 0.04083333333333333,
      "grad_norm": 0.7675451040267944,
      "learning_rate": 0.00029899758802970865,
      "loss": 3.9407,
      "step": 19600
    },
    {
      "epoch": 0.040854166666666664,
      "grad_norm": 0.8273264765739441,
      "learning_rate": 0.0002989964498738159,
      "loss": 3.9075,
      "step": 19610
    },
    {
      "epoch": 0.040875,
      "grad_norm": 0.8595001101493835,
      "learning_rate": 0.00029899531107431743,
      "loss": 4.2709,
      "step": 19620
    },
    {
      "epoch": 0.04089583333333333,
      "grad_norm": 0.7630137205123901,
      "learning_rate": 0.0002989941716312182,
      "loss": 4.1199,
      "step": 19630
    },
    {
      "epoch": 0.040916666666666664,
      "grad_norm": 0.8992254734039307,
      "learning_rate": 0.00029899303154452307,
      "loss": 3.9466,
      "step": 19640
    },
    {
      "epoch": 0.0409375,
      "grad_norm": 0.8261836171150208,
      "learning_rate": 0.0002989918908142371,
      "loss": 4.0807,
      "step": 19650
    },
    {
      "epoch": 0.04095833333333333,
      "grad_norm": 0.8630461096763611,
      "learning_rate": 0.00029899074944036514,
      "loss": 4.0508,
      "step": 19660
    },
    {
      "epoch": 0.040979166666666664,
      "grad_norm": 0.8429964184761047,
      "learning_rate": 0.00029898960742291204,
      "loss": 4.0517,
      "step": 19670
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.842780590057373,
      "learning_rate": 0.0002989884647618829,
      "loss": 3.9959,
      "step": 19680
    },
    {
      "epoch": 0.04102083333333333,
      "grad_norm": 0.8531880974769592,
      "learning_rate": 0.0002989873214572825,
      "loss": 4.0766,
      "step": 19690
    },
    {
      "epoch": 0.041041666666666664,
      "grad_norm": 0.8812277913093567,
      "learning_rate": 0.00029898617750911586,
      "loss": 4.0027,
      "step": 19700
    },
    {
      "epoch": 0.0410625,
      "grad_norm": 0.9288310408592224,
      "learning_rate": 0.00029898503291738793,
      "loss": 4.0754,
      "step": 19710
    },
    {
      "epoch": 0.04108333333333333,
      "grad_norm": 0.7201988101005554,
      "learning_rate": 0.0002989838876821036,
      "loss": 3.9664,
      "step": 19720
    },
    {
      "epoch": 0.041104166666666664,
      "grad_norm": 0.8363280296325684,
      "learning_rate": 0.0002989827418032679,
      "loss": 3.9896,
      "step": 19730
    },
    {
      "epoch": 0.041125,
      "grad_norm": 0.8436617851257324,
      "learning_rate": 0.0002989815952808857,
      "loss": 3.961,
      "step": 19740
    },
    {
      "epoch": 0.04114583333333333,
      "grad_norm": 0.7581911087036133,
      "learning_rate": 0.0002989804481149619,
      "loss": 3.973,
      "step": 19750
    },
    {
      "epoch": 0.041166666666666664,
      "grad_norm": 0.9866726994514465,
      "learning_rate": 0.0002989793003055016,
      "loss": 3.9393,
      "step": 19760
    },
    {
      "epoch": 0.0411875,
      "grad_norm": 0.8931960463523865,
      "learning_rate": 0.0002989781518525097,
      "loss": 4.1512,
      "step": 19770
    },
    {
      "epoch": 0.04120833333333333,
      "grad_norm": 0.8303420543670654,
      "learning_rate": 0.00029897700275599115,
      "loss": 3.9041,
      "step": 19780
    },
    {
      "epoch": 0.041229166666666664,
      "grad_norm": 0.8282143473625183,
      "learning_rate": 0.00029897585301595094,
      "loss": 4.0572,
      "step": 19790
    },
    {
      "epoch": 0.04125,
      "grad_norm": 0.8140398263931274,
      "learning_rate": 0.00029897470263239397,
      "loss": 3.8685,
      "step": 19800
    },
    {
      "epoch": 0.04127083333333333,
      "grad_norm": 0.8276671171188354,
      "learning_rate": 0.0002989735516053253,
      "loss": 4.214,
      "step": 19810
    },
    {
      "epoch": 0.041291666666666664,
      "grad_norm": 0.8132264614105225,
      "learning_rate": 0.0002989723999347498,
      "loss": 4.1084,
      "step": 19820
    },
    {
      "epoch": 0.0413125,
      "grad_norm": 0.8550259470939636,
      "learning_rate": 0.00029897124762067254,
      "loss": 3.9829,
      "step": 19830
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 0.8192998766899109,
      "learning_rate": 0.00029897009466309845,
      "loss": 4.0238,
      "step": 19840
    },
    {
      "epoch": 0.041354166666666664,
      "grad_norm": 0.8596383929252625,
      "learning_rate": 0.0002989689410620325,
      "loss": 4.0818,
      "step": 19850
    },
    {
      "epoch": 0.041375,
      "grad_norm": 0.8116164803504944,
      "learning_rate": 0.0002989677868174797,
      "loss": 4.0884,
      "step": 19860
    },
    {
      "epoch": 0.04139583333333333,
      "grad_norm": 0.7821484804153442,
      "learning_rate": 0.00029896663192944503,
      "loss": 4.0213,
      "step": 19870
    },
    {
      "epoch": 0.041416666666666664,
      "grad_norm": 0.8388898968696594,
      "learning_rate": 0.00029896547639793347,
      "loss": 4.1012,
      "step": 19880
    },
    {
      "epoch": 0.0414375,
      "grad_norm": 0.8078532218933105,
      "learning_rate": 0.00029896432022295,
      "loss": 3.987,
      "step": 19890
    },
    {
      "epoch": 0.04145833333333333,
      "grad_norm": 0.7909790873527527,
      "learning_rate": 0.0002989631634044997,
      "loss": 4.0759,
      "step": 19900
    },
    {
      "epoch": 0.041479166666666664,
      "grad_norm": 0.87013179063797,
      "learning_rate": 0.0002989620059425874,
      "loss": 4.0145,
      "step": 19910
    },
    {
      "epoch": 0.0415,
      "grad_norm": 0.9134252071380615,
      "learning_rate": 0.00029896084783721826,
      "loss": 4.2776,
      "step": 19920
    },
    {
      "epoch": 0.04152083333333333,
      "grad_norm": 0.8537418842315674,
      "learning_rate": 0.00029895968908839725,
      "loss": 3.9478,
      "step": 19930
    },
    {
      "epoch": 0.041541666666666664,
      "grad_norm": 0.7740315198898315,
      "learning_rate": 0.0002989585296961293,
      "loss": 3.9771,
      "step": 19940
    },
    {
      "epoch": 0.0415625,
      "grad_norm": 0.9200629591941833,
      "learning_rate": 0.0002989573696604194,
      "loss": 3.8804,
      "step": 19950
    },
    {
      "epoch": 0.04158333333333333,
      "grad_norm": 0.8819804787635803,
      "learning_rate": 0.00029895620898127273,
      "loss": 3.979,
      "step": 19960
    },
    {
      "epoch": 0.041604166666666664,
      "grad_norm": 0.7973604202270508,
      "learning_rate": 0.00029895504765869416,
      "loss": 4.0228,
      "step": 19970
    },
    {
      "epoch": 0.041625,
      "grad_norm": 0.7860952019691467,
      "learning_rate": 0.00029895388569268875,
      "loss": 4.1862,
      "step": 19980
    },
    {
      "epoch": 0.04164583333333333,
      "grad_norm": 0.7795244455337524,
      "learning_rate": 0.0002989527230832615,
      "loss": 4.0954,
      "step": 19990
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 0.8634036779403687,
      "learning_rate": 0.0002989515598304175,
      "loss": 4.0671,
      "step": 20000
    },
    {
      "epoch": 0.041666666666666664,
      "eval_loss": 4.356691837310791,
      "eval_runtime": 9.3469,
      "eval_samples_per_second": 1.07,
      "eval_steps_per_second": 0.321,
      "step": 20000
    },
    {
      "epoch": 0.0416875,
      "grad_norm": 0.8759312629699707,
      "learning_rate": 0.0002989503959341616,
      "loss": 3.9117,
      "step": 20010
    },
    {
      "epoch": 0.04170833333333333,
      "grad_norm": 0.7715888023376465,
      "learning_rate": 0.00029894923139449906,
      "loss": 4.0521,
      "step": 20020
    },
    {
      "epoch": 0.041729166666666664,
      "grad_norm": 0.8118507266044617,
      "learning_rate": 0.00029894806621143477,
      "loss": 4.0882,
      "step": 20030
    },
    {
      "epoch": 0.04175,
      "grad_norm": 0.8489455580711365,
      "learning_rate": 0.00029894690038497374,
      "loss": 4.0879,
      "step": 20040
    },
    {
      "epoch": 0.04177083333333333,
      "grad_norm": 0.7553942799568176,
      "learning_rate": 0.0002989457339151211,
      "loss": 4.2581,
      "step": 20050
    },
    {
      "epoch": 0.041791666666666664,
      "grad_norm": 0.7601281404495239,
      "learning_rate": 0.00029894456680188184,
      "loss": 4.0657,
      "step": 20060
    },
    {
      "epoch": 0.0418125,
      "grad_norm": 0.8257625102996826,
      "learning_rate": 0.000298943399045261,
      "loss": 4.1645,
      "step": 20070
    },
    {
      "epoch": 0.041833333333333333,
      "grad_norm": 0.9124462604522705,
      "learning_rate": 0.00029894223064526364,
      "loss": 4.0896,
      "step": 20080
    },
    {
      "epoch": 0.041854166666666665,
      "grad_norm": 0.7645278573036194,
      "learning_rate": 0.0002989410616018948,
      "loss": 3.9214,
      "step": 20090
    },
    {
      "epoch": 0.041875,
      "grad_norm": 0.7650265097618103,
      "learning_rate": 0.00029893989191515953,
      "loss": 3.9849,
      "step": 20100
    },
    {
      "epoch": 0.041895833333333334,
      "grad_norm": 0.8830063343048096,
      "learning_rate": 0.0002989387215850629,
      "loss": 4.0202,
      "step": 20110
    },
    {
      "epoch": 0.041916666666666665,
      "grad_norm": 0.9637686610221863,
      "learning_rate": 0.00029893755061160995,
      "loss": 3.9164,
      "step": 20120
    },
    {
      "epoch": 0.0419375,
      "grad_norm": 0.7511094212532043,
      "learning_rate": 0.0002989363789948057,
      "loss": 4.1804,
      "step": 20130
    },
    {
      "epoch": 0.041958333333333334,
      "grad_norm": 0.8582311272621155,
      "learning_rate": 0.0002989352067346553,
      "loss": 3.8717,
      "step": 20140
    },
    {
      "epoch": 0.041979166666666665,
      "grad_norm": 0.8694915175437927,
      "learning_rate": 0.0002989340338311637,
      "loss": 4.1398,
      "step": 20150
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.9513646960258484,
      "learning_rate": 0.0002989328602843361,
      "loss": 4.0545,
      "step": 20160
    },
    {
      "epoch": 0.042020833333333334,
      "grad_norm": 0.8045638799667358,
      "learning_rate": 0.00029893168609417735,
      "loss": 3.9002,
      "step": 20170
    },
    {
      "epoch": 0.042041666666666665,
      "grad_norm": 0.8433430790901184,
      "learning_rate": 0.0002989305112606928,
      "loss": 4.1201,
      "step": 20180
    },
    {
      "epoch": 0.0420625,
      "grad_norm": 0.9190186858177185,
      "learning_rate": 0.0002989293357838874,
      "loss": 3.9669,
      "step": 20190
    },
    {
      "epoch": 0.042083333333333334,
      "grad_norm": 0.8294636607170105,
      "learning_rate": 0.0002989281596637661,
      "loss": 4.0941,
      "step": 20200
    },
    {
      "epoch": 0.042104166666666665,
      "grad_norm": 0.7841537594795227,
      "learning_rate": 0.0002989269829003342,
      "loss": 3.9028,
      "step": 20210
    },
    {
      "epoch": 0.042125,
      "grad_norm": 0.8012672662734985,
      "learning_rate": 0.00029892580549359664,
      "loss": 4.0301,
      "step": 20220
    },
    {
      "epoch": 0.042145833333333334,
      "grad_norm": 0.7876178026199341,
      "learning_rate": 0.00029892462744355853,
      "loss": 4.0458,
      "step": 20230
    },
    {
      "epoch": 0.042166666666666665,
      "grad_norm": 0.8605347275733948,
      "learning_rate": 0.00029892344875022506,
      "loss": 4.1663,
      "step": 20240
    },
    {
      "epoch": 0.0421875,
      "grad_norm": 0.808997392654419,
      "learning_rate": 0.0002989222694136012,
      "loss": 4.1925,
      "step": 20250
    },
    {
      "epoch": 0.042208333333333334,
      "grad_norm": 0.9098405838012695,
      "learning_rate": 0.00029892108943369207,
      "loss": 4.1443,
      "step": 20260
    },
    {
      "epoch": 0.042229166666666665,
      "grad_norm": 1.0289746522903442,
      "learning_rate": 0.0002989199088105028,
      "loss": 4.0824,
      "step": 20270
    },
    {
      "epoch": 0.04225,
      "grad_norm": 1.152687668800354,
      "learning_rate": 0.00029891872754403843,
      "loss": 4.1575,
      "step": 20280
    },
    {
      "epoch": 0.042270833333333334,
      "grad_norm": 0.9322471618652344,
      "learning_rate": 0.0002989175456343041,
      "loss": 3.8919,
      "step": 20290
    },
    {
      "epoch": 0.042291666666666665,
      "grad_norm": 0.8055235147476196,
      "learning_rate": 0.00029891636308130497,
      "loss": 3.9307,
      "step": 20300
    },
    {
      "epoch": 0.0423125,
      "grad_norm": 0.8612207770347595,
      "learning_rate": 0.0002989151798850461,
      "loss": 3.8903,
      "step": 20310
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 0.8071341514587402,
      "learning_rate": 0.00029891399604553255,
      "loss": 4.1545,
      "step": 20320
    },
    {
      "epoch": 0.042354166666666665,
      "grad_norm": 0.8333863019943237,
      "learning_rate": 0.00029891281156276954,
      "loss": 4.1198,
      "step": 20330
    },
    {
      "epoch": 0.042375,
      "grad_norm": 0.9973903298377991,
      "learning_rate": 0.0002989116264367621,
      "loss": 4.0832,
      "step": 20340
    },
    {
      "epoch": 0.042395833333333334,
      "grad_norm": 0.91508549451828,
      "learning_rate": 0.00029891044066751533,
      "loss": 3.9209,
      "step": 20350
    },
    {
      "epoch": 0.042416666666666665,
      "grad_norm": 0.8464558720588684,
      "learning_rate": 0.00029890925425503443,
      "loss": 4.1249,
      "step": 20360
    },
    {
      "epoch": 0.0424375,
      "grad_norm": 0.9107999205589294,
      "learning_rate": 0.0002989080671993245,
      "loss": 3.9123,
      "step": 20370
    },
    {
      "epoch": 0.042458333333333334,
      "grad_norm": 0.8324167132377625,
      "learning_rate": 0.0002989068795003907,
      "loss": 4.1045,
      "step": 20380
    },
    {
      "epoch": 0.042479166666666665,
      "grad_norm": 1.1924091577529907,
      "learning_rate": 0.0002989056911582381,
      "loss": 4.1479,
      "step": 20390
    },
    {
      "epoch": 0.0425,
      "grad_norm": 0.7891703844070435,
      "learning_rate": 0.0002989045021728718,
      "loss": 3.8278,
      "step": 20400
    },
    {
      "epoch": 0.042520833333333334,
      "grad_norm": 0.9066067337989807,
      "learning_rate": 0.000298903312544297,
      "loss": 3.8816,
      "step": 20410
    },
    {
      "epoch": 0.042541666666666665,
      "grad_norm": 0.7761522531509399,
      "learning_rate": 0.0002989021222725189,
      "loss": 4.0225,
      "step": 20420
    },
    {
      "epoch": 0.0425625,
      "grad_norm": 0.7034361958503723,
      "learning_rate": 0.0002989009313575426,
      "loss": 3.9949,
      "step": 20430
    },
    {
      "epoch": 0.042583333333333334,
      "grad_norm": 0.8663376569747925,
      "learning_rate": 0.00029889973979937306,
      "loss": 3.9422,
      "step": 20440
    },
    {
      "epoch": 0.042604166666666665,
      "grad_norm": 0.8308099508285522,
      "learning_rate": 0.0002988985475980157,
      "loss": 4.1418,
      "step": 20450
    },
    {
      "epoch": 0.042625,
      "grad_norm": 0.8246246576309204,
      "learning_rate": 0.0002988973547534755,
      "loss": 4.1612,
      "step": 20460
    },
    {
      "epoch": 0.042645833333333334,
      "grad_norm": 0.8274480700492859,
      "learning_rate": 0.00029889616126575774,
      "loss": 4.0601,
      "step": 20470
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 0.8237221837043762,
      "learning_rate": 0.00029889496713486743,
      "loss": 4.0561,
      "step": 20480
    },
    {
      "epoch": 0.0426875,
      "grad_norm": 0.8102717399597168,
      "learning_rate": 0.0002988937723608098,
      "loss": 4.0598,
      "step": 20490
    },
    {
      "epoch": 0.042708333333333334,
      "grad_norm": 0.8775338530540466,
      "learning_rate": 0.00029889257694359005,
      "loss": 3.978,
      "step": 20500
    },
    {
      "epoch": 0.042729166666666665,
      "grad_norm": 0.9087735414505005,
      "learning_rate": 0.0002988913808832133,
      "loss": 3.9511,
      "step": 20510
    },
    {
      "epoch": 0.04275,
      "grad_norm": 0.8823198080062866,
      "learning_rate": 0.00029889018417968464,
      "loss": 4.1523,
      "step": 20520
    },
    {
      "epoch": 0.042770833333333334,
      "grad_norm": 0.7123168110847473,
      "learning_rate": 0.0002988889868330094,
      "loss": 4.2501,
      "step": 20530
    },
    {
      "epoch": 0.042791666666666665,
      "grad_norm": 0.838696300983429,
      "learning_rate": 0.00029888778884319266,
      "loss": 4.2978,
      "step": 20540
    },
    {
      "epoch": 0.0428125,
      "grad_norm": 0.8302586674690247,
      "learning_rate": 0.0002988865902102396,
      "loss": 4.1594,
      "step": 20550
    },
    {
      "epoch": 0.042833333333333334,
      "grad_norm": 0.7455853223800659,
      "learning_rate": 0.0002988853909341554,
      "loss": 3.9102,
      "step": 20560
    },
    {
      "epoch": 0.042854166666666665,
      "grad_norm": 0.8502945899963379,
      "learning_rate": 0.00029888419101494526,
      "loss": 4.2051,
      "step": 20570
    },
    {
      "epoch": 0.042875,
      "grad_norm": 0.9518006443977356,
      "learning_rate": 0.0002988829904526143,
      "loss": 4.1166,
      "step": 20580
    },
    {
      "epoch": 0.042895833333333334,
      "grad_norm": 0.9034779667854309,
      "learning_rate": 0.0002988817892471678,
      "loss": 4.0879,
      "step": 20590
    },
    {
      "epoch": 0.042916666666666665,
      "grad_norm": 0.85948246717453,
      "learning_rate": 0.00029888058739861094,
      "loss": 4.3566,
      "step": 20600
    },
    {
      "epoch": 0.0429375,
      "grad_norm": 0.9593669772148132,
      "learning_rate": 0.0002988793849069488,
      "loss": 3.9918,
      "step": 20610
    },
    {
      "epoch": 0.042958333333333334,
      "grad_norm": 0.8105344176292419,
      "learning_rate": 0.00029887818177218664,
      "loss": 4.051,
      "step": 20620
    },
    {
      "epoch": 0.042979166666666666,
      "grad_norm": 0.7919904589653015,
      "learning_rate": 0.00029887697799432973,
      "loss": 3.9889,
      "step": 20630
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.7364378571510315,
      "learning_rate": 0.0002988757735733831,
      "loss": 4.1475,
      "step": 20640
    },
    {
      "epoch": 0.043020833333333335,
      "grad_norm": 0.9468852281570435,
      "learning_rate": 0.0002988745685093522,
      "loss": 3.9732,
      "step": 20650
    },
    {
      "epoch": 0.043041666666666666,
      "grad_norm": 0.7278488278388977,
      "learning_rate": 0.000298873362802242,
      "loss": 3.9801,
      "step": 20660
    },
    {
      "epoch": 0.0430625,
      "grad_norm": 0.8633148670196533,
      "learning_rate": 0.00029887215645205785,
      "loss": 3.9939,
      "step": 20670
    },
    {
      "epoch": 0.043083333333333335,
      "grad_norm": 0.7592607140541077,
      "learning_rate": 0.00029887094945880483,
      "loss": 4.1462,
      "step": 20680
    },
    {
      "epoch": 0.043104166666666666,
      "grad_norm": 0.9357673525810242,
      "learning_rate": 0.0002988697418224883,
      "loss": 4.2028,
      "step": 20690
    },
    {
      "epoch": 0.043125,
      "grad_norm": 0.7456374168395996,
      "learning_rate": 0.0002988685335431134,
      "loss": 4.0889,
      "step": 20700
    },
    {
      "epoch": 0.043145833333333335,
      "grad_norm": 0.8095307350158691,
      "learning_rate": 0.00029886732462068534,
      "loss": 4.0449,
      "step": 20710
    },
    {
      "epoch": 0.043166666666666666,
      "grad_norm": 0.8302525877952576,
      "learning_rate": 0.0002988661150552094,
      "loss": 4.1706,
      "step": 20720
    },
    {
      "epoch": 0.0431875,
      "grad_norm": 0.8823374509811401,
      "learning_rate": 0.00029886490484669077,
      "loss": 4.0623,
      "step": 20730
    },
    {
      "epoch": 0.043208333333333335,
      "grad_norm": 0.8972064852714539,
      "learning_rate": 0.00029886369399513465,
      "loss": 3.984,
      "step": 20740
    },
    {
      "epoch": 0.043229166666666666,
      "grad_norm": 0.7620996832847595,
      "learning_rate": 0.0002988624825005463,
      "loss": 4.028,
      "step": 20750
    },
    {
      "epoch": 0.04325,
      "grad_norm": 0.7509312033653259,
      "learning_rate": 0.000298861270362931,
      "loss": 3.9502,
      "step": 20760
    },
    {
      "epoch": 0.043270833333333335,
      "grad_norm": 1.1475015878677368,
      "learning_rate": 0.0002988600575822938,
      "loss": 3.975,
      "step": 20770
    },
    {
      "epoch": 0.043291666666666666,
      "grad_norm": 0.8252683877944946,
      "learning_rate": 0.0002988588441586402,
      "loss": 4.1735,
      "step": 20780
    },
    {
      "epoch": 0.0433125,
      "grad_norm": 0.8755101561546326,
      "learning_rate": 0.00029885763009197526,
      "loss": 4.0033,
      "step": 20790
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 0.9288033246994019,
      "learning_rate": 0.0002988564153823043,
      "loss": 4.0037,
      "step": 20800
    },
    {
      "epoch": 0.043354166666666666,
      "grad_norm": 0.9187635779380798,
      "learning_rate": 0.00029885520002963256,
      "loss": 4.0188,
      "step": 20810
    },
    {
      "epoch": 0.043375,
      "grad_norm": 0.8449559211730957,
      "learning_rate": 0.0002988539840339653,
      "loss": 4.0035,
      "step": 20820
    },
    {
      "epoch": 0.043395833333333335,
      "grad_norm": 0.9719502925872803,
      "learning_rate": 0.0002988527673953077,
      "loss": 3.9277,
      "step": 20830
    },
    {
      "epoch": 0.043416666666666666,
      "grad_norm": 0.8123107552528381,
      "learning_rate": 0.00029885155011366506,
      "loss": 3.9122,
      "step": 20840
    },
    {
      "epoch": 0.0434375,
      "grad_norm": 0.9114618897438049,
      "learning_rate": 0.00029885033218904263,
      "loss": 4.028,
      "step": 20850
    },
    {
      "epoch": 0.043458333333333335,
      "grad_norm": 0.9195820093154907,
      "learning_rate": 0.00029884911362144576,
      "loss": 3.9208,
      "step": 20860
    },
    {
      "epoch": 0.043479166666666666,
      "grad_norm": 0.8139805793762207,
      "learning_rate": 0.0002988478944108796,
      "loss": 4.1397,
      "step": 20870
    },
    {
      "epoch": 0.0435,
      "grad_norm": 0.8421893119812012,
      "learning_rate": 0.0002988466745573494,
      "loss": 4.0376,
      "step": 20880
    },
    {
      "epoch": 0.043520833333333335,
      "grad_norm": 0.7710242867469788,
      "learning_rate": 0.00029884545406086053,
      "loss": 4.1664,
      "step": 20890
    },
    {
      "epoch": 0.043541666666666666,
      "grad_norm": 0.8128140568733215,
      "learning_rate": 0.0002988442329214182,
      "loss": 4.1851,
      "step": 20900
    },
    {
      "epoch": 0.0435625,
      "grad_norm": 0.9261941313743591,
      "learning_rate": 0.00029884301113902777,
      "loss": 4.2067,
      "step": 20910
    },
    {
      "epoch": 0.043583333333333335,
      "grad_norm": 0.713985800743103,
      "learning_rate": 0.00029884178871369434,
      "loss": 4.0594,
      "step": 20920
    },
    {
      "epoch": 0.043604166666666666,
      "grad_norm": 0.9778813123703003,
      "learning_rate": 0.0002988405656454234,
      "loss": 4.0018,
      "step": 20930
    },
    {
      "epoch": 0.043625,
      "grad_norm": 0.8556178212165833,
      "learning_rate": 0.00029883934193422005,
      "loss": 3.9153,
      "step": 20940
    },
    {
      "epoch": 0.043645833333333335,
      "grad_norm": 0.9584822058677673,
      "learning_rate": 0.0002988381175800897,
      "loss": 4.1116,
      "step": 20950
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 0.8164499402046204,
      "learning_rate": 0.0002988368925830376,
      "loss": 4.0733,
      "step": 20960
    },
    {
      "epoch": 0.0436875,
      "grad_norm": 0.8415399789810181,
      "learning_rate": 0.00029883566694306903,
      "loss": 3.8703,
      "step": 20970
    },
    {
      "epoch": 0.043708333333333335,
      "grad_norm": 0.8571978807449341,
      "learning_rate": 0.00029883444066018927,
      "loss": 3.9118,
      "step": 20980
    },
    {
      "epoch": 0.043729166666666666,
      "grad_norm": 0.9375819563865662,
      "learning_rate": 0.0002988332137344037,
      "loss": 4.011,
      "step": 20990
    },
    {
      "epoch": 0.04375,
      "grad_norm": 0.9054540395736694,
      "learning_rate": 0.00029883198616571745,
      "loss": 4.0745,
      "step": 21000
    },
    {
      "epoch": 0.04375,
      "eval_loss": 4.342305660247803,
      "eval_runtime": 10.6161,
      "eval_samples_per_second": 0.942,
      "eval_steps_per_second": 0.283,
      "step": 21000
    },
    {
      "epoch": 0.043770833333333335,
      "grad_norm": 0.7840487360954285,
      "learning_rate": 0.000298830757954136,
      "loss": 4.0177,
      "step": 21010
    },
    {
      "epoch": 0.043791666666666666,
      "grad_norm": 0.7767271995544434,
      "learning_rate": 0.0002988295290996646,
      "loss": 3.9951,
      "step": 21020
    },
    {
      "epoch": 0.0438125,
      "grad_norm": 0.8999386429786682,
      "learning_rate": 0.0002988282996023085,
      "loss": 3.9783,
      "step": 21030
    },
    {
      "epoch": 0.043833333333333335,
      "grad_norm": 0.8055039048194885,
      "learning_rate": 0.00029882706946207313,
      "loss": 3.9577,
      "step": 21040
    },
    {
      "epoch": 0.043854166666666666,
      "grad_norm": 0.955872654914856,
      "learning_rate": 0.0002988258386789637,
      "loss": 3.9639,
      "step": 21050
    },
    {
      "epoch": 0.043875,
      "grad_norm": 0.7130734324455261,
      "learning_rate": 0.00029882460725298547,
      "loss": 4.2128,
      "step": 21060
    },
    {
      "epoch": 0.043895833333333335,
      "grad_norm": 0.8525375127792358,
      "learning_rate": 0.00029882337518414393,
      "loss": 4.1003,
      "step": 21070
    },
    {
      "epoch": 0.043916666666666666,
      "grad_norm": 0.7908002734184265,
      "learning_rate": 0.00029882214247244434,
      "loss": 3.9476,
      "step": 21080
    },
    {
      "epoch": 0.0439375,
      "grad_norm": 0.9101952910423279,
      "learning_rate": 0.00029882090911789196,
      "loss": 4.1166,
      "step": 21090
    },
    {
      "epoch": 0.043958333333333335,
      "grad_norm": 0.8621652722358704,
      "learning_rate": 0.0002988196751204922,
      "loss": 4.1249,
      "step": 21100
    },
    {
      "epoch": 0.043979166666666666,
      "grad_norm": 0.842359721660614,
      "learning_rate": 0.0002988184404802503,
      "loss": 3.887,
      "step": 21110
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.9741432070732117,
      "learning_rate": 0.0002988172051971717,
      "loss": 4.1093,
      "step": 21120
    },
    {
      "epoch": 0.044020833333333335,
      "grad_norm": 0.7646159529685974,
      "learning_rate": 0.0002988159692712616,
      "loss": 3.9678,
      "step": 21130
    },
    {
      "epoch": 0.044041666666666666,
      "grad_norm": 0.8408020734786987,
      "learning_rate": 0.00029881473270252544,
      "loss": 3.903,
      "step": 21140
    },
    {
      "epoch": 0.0440625,
      "grad_norm": 0.8076792359352112,
      "learning_rate": 0.00029881349549096855,
      "loss": 4.2073,
      "step": 21150
    },
    {
      "epoch": 0.044083333333333335,
      "grad_norm": 0.8714789748191833,
      "learning_rate": 0.0002988122576365963,
      "loss": 4.0777,
      "step": 21160
    },
    {
      "epoch": 0.044104166666666667,
      "grad_norm": 0.7896570563316345,
      "learning_rate": 0.00029881101913941397,
      "loss": 4.0486,
      "step": 21170
    },
    {
      "epoch": 0.044125,
      "grad_norm": 0.9539129734039307,
      "learning_rate": 0.00029880977999942695,
      "loss": 3.9694,
      "step": 21180
    },
    {
      "epoch": 0.044145833333333336,
      "grad_norm": 0.8589633107185364,
      "learning_rate": 0.0002988085402166406,
      "loss": 4.1517,
      "step": 21190
    },
    {
      "epoch": 0.04416666666666667,
      "grad_norm": 0.7775989770889282,
      "learning_rate": 0.0002988072997910602,
      "loss": 3.8292,
      "step": 21200
    },
    {
      "epoch": 0.0441875,
      "grad_norm": 0.7837172150611877,
      "learning_rate": 0.0002988060587226912,
      "loss": 3.9982,
      "step": 21210
    },
    {
      "epoch": 0.044208333333333336,
      "grad_norm": 0.812075674533844,
      "learning_rate": 0.00029880481701153894,
      "loss": 4.0384,
      "step": 21220
    },
    {
      "epoch": 0.04422916666666667,
      "grad_norm": 0.7884976863861084,
      "learning_rate": 0.00029880357465760876,
      "loss": 4.0503,
      "step": 21230
    },
    {
      "epoch": 0.04425,
      "grad_norm": 0.8431472182273865,
      "learning_rate": 0.000298802331660906,
      "loss": 4.0609,
      "step": 21240
    },
    {
      "epoch": 0.044270833333333336,
      "grad_norm": 0.8969181776046753,
      "learning_rate": 0.00029880108802143613,
      "loss": 3.9494,
      "step": 21250
    },
    {
      "epoch": 0.04429166666666667,
      "grad_norm": 0.8280304670333862,
      "learning_rate": 0.00029879984373920446,
      "loss": 3.8908,
      "step": 21260
    },
    {
      "epoch": 0.0443125,
      "grad_norm": 1.0088303089141846,
      "learning_rate": 0.0002987985988142163,
      "loss": 4.0184,
      "step": 21270
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 0.8146201372146606,
      "learning_rate": 0.00029879735324647716,
      "loss": 4.0107,
      "step": 21280
    },
    {
      "epoch": 0.04435416666666667,
      "grad_norm": 0.7911062836647034,
      "learning_rate": 0.0002987961070359923,
      "loss": 4.1728,
      "step": 21290
    },
    {
      "epoch": 0.044375,
      "grad_norm": 0.8497121930122375,
      "learning_rate": 0.0002987948601827672,
      "loss": 3.9123,
      "step": 21300
    },
    {
      "epoch": 0.044395833333333336,
      "grad_norm": 0.9167283177375793,
      "learning_rate": 0.00029879361268680716,
      "loss": 3.9619,
      "step": 21310
    },
    {
      "epoch": 0.04441666666666667,
      "grad_norm": 0.8920363783836365,
      "learning_rate": 0.00029879236454811764,
      "loss": 3.9886,
      "step": 21320
    },
    {
      "epoch": 0.0444375,
      "grad_norm": 0.835915207862854,
      "learning_rate": 0.000298791115766704,
      "loss": 4.0911,
      "step": 21330
    },
    {
      "epoch": 0.044458333333333336,
      "grad_norm": 0.8288701772689819,
      "learning_rate": 0.00029878986634257167,
      "loss": 3.8817,
      "step": 21340
    },
    {
      "epoch": 0.04447916666666667,
      "grad_norm": 0.8506772518157959,
      "learning_rate": 0.00029878861627572595,
      "loss": 3.9851,
      "step": 21350
    },
    {
      "epoch": 0.0445,
      "grad_norm": 0.7778975367546082,
      "learning_rate": 0.0002987873655661723,
      "loss": 4.0973,
      "step": 21360
    },
    {
      "epoch": 0.044520833333333336,
      "grad_norm": 0.8713276982307434,
      "learning_rate": 0.00029878611421391615,
      "loss": 3.9076,
      "step": 21370
    },
    {
      "epoch": 0.04454166666666667,
      "grad_norm": 0.8287427425384521,
      "learning_rate": 0.0002987848622189629,
      "loss": 4.108,
      "step": 21380
    },
    {
      "epoch": 0.0445625,
      "grad_norm": 0.7868844866752625,
      "learning_rate": 0.0002987836095813179,
      "loss": 3.8827,
      "step": 21390
    },
    {
      "epoch": 0.044583333333333336,
      "grad_norm": 0.8835132718086243,
      "learning_rate": 0.0002987823563009866,
      "loss": 4.1014,
      "step": 21400
    },
    {
      "epoch": 0.04460416666666667,
      "grad_norm": 0.7861273288726807,
      "learning_rate": 0.00029878110237797445,
      "loss": 3.9649,
      "step": 21410
    },
    {
      "epoch": 0.044625,
      "grad_norm": 1.045042634010315,
      "learning_rate": 0.0002987798478122868,
      "loss": 3.9185,
      "step": 21420
    },
    {
      "epoch": 0.044645833333333336,
      "grad_norm": 0.8592798113822937,
      "learning_rate": 0.00029877859260392907,
      "loss": 4.2066,
      "step": 21430
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 0.9575827717781067,
      "learning_rate": 0.00029877733675290677,
      "loss": 3.9745,
      "step": 21440
    },
    {
      "epoch": 0.0446875,
      "grad_norm": 1.0012986660003662,
      "learning_rate": 0.00029877608025922526,
      "loss": 4.1846,
      "step": 21450
    },
    {
      "epoch": 0.044708333333333336,
      "grad_norm": 0.861296534538269,
      "learning_rate": 0.00029877482312288997,
      "loss": 4.0348,
      "step": 21460
    },
    {
      "epoch": 0.04472916666666667,
      "grad_norm": 0.8247374296188354,
      "learning_rate": 0.0002987735653439063,
      "loss": 4.0714,
      "step": 21470
    },
    {
      "epoch": 0.04475,
      "grad_norm": 0.8407560586929321,
      "learning_rate": 0.00029877230692227974,
      "loss": 4.002,
      "step": 21480
    },
    {
      "epoch": 0.044770833333333336,
      "grad_norm": 0.8621786832809448,
      "learning_rate": 0.00029877104785801565,
      "loss": 4.0648,
      "step": 21490
    },
    {
      "epoch": 0.04479166666666667,
      "grad_norm": 0.9582839608192444,
      "learning_rate": 0.0002987697881511196,
      "loss": 3.9656,
      "step": 21500
    },
    {
      "epoch": 0.0448125,
      "grad_norm": 0.8821082711219788,
      "learning_rate": 0.0002987685278015969,
      "loss": 4.046,
      "step": 21510
    },
    {
      "epoch": 0.044833333333333336,
      "grad_norm": 0.8624160885810852,
      "learning_rate": 0.0002987672668094531,
      "loss": 4.1448,
      "step": 21520
    },
    {
      "epoch": 0.04485416666666667,
      "grad_norm": 0.762911319732666,
      "learning_rate": 0.0002987660051746936,
      "loss": 4.0884,
      "step": 21530
    },
    {
      "epoch": 0.044875,
      "grad_norm": 0.7878764271736145,
      "learning_rate": 0.0002987647428973237,
      "loss": 4.0743,
      "step": 21540
    },
    {
      "epoch": 0.044895833333333336,
      "grad_norm": 0.8286069631576538,
      "learning_rate": 0.0002987634799773491,
      "loss": 3.9454,
      "step": 21550
    },
    {
      "epoch": 0.04491666666666667,
      "grad_norm": 0.8537937998771667,
      "learning_rate": 0.0002987622164147752,
      "loss": 3.9981,
      "step": 21560
    },
    {
      "epoch": 0.0449375,
      "grad_norm": 0.7299149632453918,
      "learning_rate": 0.00029876095220960735,
      "loss": 3.992,
      "step": 21570
    },
    {
      "epoch": 0.044958333333333336,
      "grad_norm": 0.868556797504425,
      "learning_rate": 0.0002987596873618511,
      "loss": 4.0636,
      "step": 21580
    },
    {
      "epoch": 0.04497916666666667,
      "grad_norm": 0.9318055510520935,
      "learning_rate": 0.00029875842187151183,
      "loss": 4.0708,
      "step": 21590
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.8826606869697571,
      "learning_rate": 0.0002987571557385951,
      "loss": 4.2334,
      "step": 21600
    },
    {
      "epoch": 0.045020833333333336,
      "grad_norm": 0.7222569584846497,
      "learning_rate": 0.00029875588896310636,
      "loss": 3.9474,
      "step": 21610
    },
    {
      "epoch": 0.04504166666666667,
      "grad_norm": 0.8353235125541687,
      "learning_rate": 0.00029875462154505103,
      "loss": 3.9243,
      "step": 21620
    },
    {
      "epoch": 0.0450625,
      "grad_norm": 0.8069102764129639,
      "learning_rate": 0.0002987533534844346,
      "loss": 4.0081,
      "step": 21630
    },
    {
      "epoch": 0.045083333333333336,
      "grad_norm": 0.8081286549568176,
      "learning_rate": 0.0002987520847812626,
      "loss": 3.8208,
      "step": 21640
    },
    {
      "epoch": 0.04510416666666667,
      "grad_norm": 0.9237086176872253,
      "learning_rate": 0.00029875081543554046,
      "loss": 3.9938,
      "step": 21650
    },
    {
      "epoch": 0.045125,
      "grad_norm": 0.7181043028831482,
      "learning_rate": 0.0002987495454472737,
      "loss": 4.2054,
      "step": 21660
    },
    {
      "epoch": 0.045145833333333336,
      "grad_norm": 0.7970734238624573,
      "learning_rate": 0.00029874827481646775,
      "loss": 3.9812,
      "step": 21670
    },
    {
      "epoch": 0.04516666666666667,
      "grad_norm": 0.9189584851264954,
      "learning_rate": 0.0002987470035431281,
      "loss": 3.8936,
      "step": 21680
    },
    {
      "epoch": 0.0451875,
      "grad_norm": 0.7783712148666382,
      "learning_rate": 0.0002987457316272603,
      "loss": 4.0323,
      "step": 21690
    },
    {
      "epoch": 0.045208333333333336,
      "grad_norm": 0.8427685499191284,
      "learning_rate": 0.00029874445906886987,
      "loss": 4.0199,
      "step": 21700
    },
    {
      "epoch": 0.04522916666666667,
      "grad_norm": 0.6924123167991638,
      "learning_rate": 0.0002987431858679622,
      "loss": 4.0269,
      "step": 21710
    },
    {
      "epoch": 0.04525,
      "grad_norm": 0.7433684468269348,
      "learning_rate": 0.00029874191202454285,
      "loss": 4.0587,
      "step": 21720
    },
    {
      "epoch": 0.04527083333333334,
      "grad_norm": 0.8644247651100159,
      "learning_rate": 0.00029874063753861736,
      "loss": 3.9536,
      "step": 21730
    },
    {
      "epoch": 0.04529166666666667,
      "grad_norm": 0.7696301937103271,
      "learning_rate": 0.0002987393624101911,
      "loss": 3.9833,
      "step": 21740
    },
    {
      "epoch": 0.0453125,
      "grad_norm": 0.8788250088691711,
      "learning_rate": 0.00029873808663926976,
      "loss": 3.957,
      "step": 21750
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 0.8382790684700012,
      "learning_rate": 0.0002987368102258587,
      "loss": 4.0449,
      "step": 21760
    },
    {
      "epoch": 0.04535416666666667,
      "grad_norm": 0.9234817028045654,
      "learning_rate": 0.00029873553316996353,
      "loss": 4.1019,
      "step": 21770
    },
    {
      "epoch": 0.045375,
      "grad_norm": 0.9328406453132629,
      "learning_rate": 0.00029873425547158973,
      "loss": 3.9747,
      "step": 21780
    },
    {
      "epoch": 0.04539583333333334,
      "grad_norm": 0.7501475811004639,
      "learning_rate": 0.0002987329771307428,
      "loss": 3.9689,
      "step": 21790
    },
    {
      "epoch": 0.04541666666666667,
      "grad_norm": 0.8602458238601685,
      "learning_rate": 0.00029873169814742827,
      "loss": 3.9403,
      "step": 21800
    },
    {
      "epoch": 0.0454375,
      "grad_norm": 0.8079740405082703,
      "learning_rate": 0.0002987304185216517,
      "loss": 3.9825,
      "step": 21810
    },
    {
      "epoch": 0.04545833333333334,
      "grad_norm": 0.8885995149612427,
      "learning_rate": 0.0002987291382534186,
      "loss": 4.0956,
      "step": 21820
    },
    {
      "epoch": 0.04547916666666667,
      "grad_norm": 0.9286413192749023,
      "learning_rate": 0.0002987278573427345,
      "loss": 3.9514,
      "step": 21830
    },
    {
      "epoch": 0.0455,
      "grad_norm": 0.826884925365448,
      "learning_rate": 0.0002987265757896049,
      "loss": 4.0596,
      "step": 21840
    },
    {
      "epoch": 0.04552083333333334,
      "grad_norm": 0.7914295196533203,
      "learning_rate": 0.0002987252935940354,
      "loss": 4.011,
      "step": 21850
    },
    {
      "epoch": 0.04554166666666667,
      "grad_norm": 0.9241766333580017,
      "learning_rate": 0.0002987240107560314,
      "loss": 3.9946,
      "step": 21860
    },
    {
      "epoch": 0.0455625,
      "grad_norm": 0.9710869193077087,
      "learning_rate": 0.00029872272727559865,
      "loss": 3.811,
      "step": 21870
    },
    {
      "epoch": 0.04558333333333333,
      "grad_norm": 1.0117418766021729,
      "learning_rate": 0.00029872144315274253,
      "loss": 4.0161,
      "step": 21880
    },
    {
      "epoch": 0.04560416666666667,
      "grad_norm": 0.7901581525802612,
      "learning_rate": 0.0002987201583874687,
      "loss": 3.8874,
      "step": 21890
    },
    {
      "epoch": 0.045625,
      "grad_norm": 0.9436231255531311,
      "learning_rate": 0.00029871887297978266,
      "loss": 3.9467,
      "step": 21900
    },
    {
      "epoch": 0.04564583333333333,
      "grad_norm": 0.7543326616287231,
      "learning_rate": 0.0002987175869296899,
      "loss": 4.1383,
      "step": 21910
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 0.8146910071372986,
      "learning_rate": 0.00029871630023719603,
      "loss": 3.7994,
      "step": 21920
    },
    {
      "epoch": 0.0456875,
      "grad_norm": 0.8492389917373657,
      "learning_rate": 0.0002987150129023066,
      "loss": 4.0704,
      "step": 21930
    },
    {
      "epoch": 0.04570833333333333,
      "grad_norm": 0.7508938312530518,
      "learning_rate": 0.0002987137249250272,
      "loss": 3.9807,
      "step": 21940
    },
    {
      "epoch": 0.04572916666666667,
      "grad_norm": 0.9773673415184021,
      "learning_rate": 0.0002987124363053634,
      "loss": 4.1246,
      "step": 21950
    },
    {
      "epoch": 0.04575,
      "grad_norm": 0.8136064410209656,
      "learning_rate": 0.0002987111470433207,
      "loss": 4.0942,
      "step": 21960
    },
    {
      "epoch": 0.04577083333333333,
      "grad_norm": 0.8137964606285095,
      "learning_rate": 0.00029870985713890475,
      "loss": 3.846,
      "step": 21970
    },
    {
      "epoch": 0.04579166666666667,
      "grad_norm": 0.8571567535400391,
      "learning_rate": 0.00029870856659212105,
      "loss": 4.0758,
      "step": 21980
    },
    {
      "epoch": 0.0458125,
      "grad_norm": 0.7699553370475769,
      "learning_rate": 0.0002987072754029752,
      "loss": 3.9059,
      "step": 21990
    },
    {
      "epoch": 0.04583333333333333,
      "grad_norm": 0.7438395619392395,
      "learning_rate": 0.0002987059835714728,
      "loss": 3.8593,
      "step": 22000
    },
    {
      "epoch": 0.04583333333333333,
      "eval_loss": 4.354062080383301,
      "eval_runtime": 11.5051,
      "eval_samples_per_second": 0.869,
      "eval_steps_per_second": 0.261,
      "step": 22000
    },
    {
      "epoch": 0.04585416666666667,
      "grad_norm": 0.963277280330658,
      "learning_rate": 0.0002987046910976194,
      "loss": 4.0335,
      "step": 22010
    },
    {
      "epoch": 0.045875,
      "grad_norm": 0.8337883949279785,
      "learning_rate": 0.00029870339798142065,
      "loss": 4.0478,
      "step": 22020
    },
    {
      "epoch": 0.04589583333333333,
      "grad_norm": 0.942034900188446,
      "learning_rate": 0.00029870210422288203,
      "loss": 4.0527,
      "step": 22030
    },
    {
      "epoch": 0.04591666666666667,
      "grad_norm": 0.7627479434013367,
      "learning_rate": 0.00029870080982200914,
      "loss": 4.0365,
      "step": 22040
    },
    {
      "epoch": 0.0459375,
      "grad_norm": 0.9044426083564758,
      "learning_rate": 0.00029869951477880767,
      "loss": 4.0874,
      "step": 22050
    },
    {
      "epoch": 0.04595833333333333,
      "grad_norm": 0.762162446975708,
      "learning_rate": 0.00029869821909328314,
      "loss": 4.1664,
      "step": 22060
    },
    {
      "epoch": 0.04597916666666667,
      "grad_norm": 0.9194058775901794,
      "learning_rate": 0.0002986969227654412,
      "loss": 4.1284,
      "step": 22070
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.8108769655227661,
      "learning_rate": 0.00029869562579528736,
      "loss": 4.2683,
      "step": 22080
    },
    {
      "epoch": 0.04602083333333333,
      "grad_norm": 0.8059133291244507,
      "learning_rate": 0.0002986943281828273,
      "loss": 3.9431,
      "step": 22090
    },
    {
      "epoch": 0.04604166666666667,
      "grad_norm": 0.8922027349472046,
      "learning_rate": 0.0002986930299280666,
      "loss": 3.9547,
      "step": 22100
    },
    {
      "epoch": 0.0460625,
      "grad_norm": 0.9259348511695862,
      "learning_rate": 0.00029869173103101086,
      "loss": 4.0867,
      "step": 22110
    },
    {
      "epoch": 0.04608333333333333,
      "grad_norm": 0.8041831851005554,
      "learning_rate": 0.0002986904314916657,
      "loss": 4.1057,
      "step": 22120
    },
    {
      "epoch": 0.04610416666666667,
      "grad_norm": 0.7673734426498413,
      "learning_rate": 0.0002986891313100367,
      "loss": 3.9661,
      "step": 22130
    },
    {
      "epoch": 0.046125,
      "grad_norm": 0.8898199796676636,
      "learning_rate": 0.0002986878304861296,
      "loss": 4.1018,
      "step": 22140
    },
    {
      "epoch": 0.04614583333333333,
      "grad_norm": 0.7537437677383423,
      "learning_rate": 0.0002986865290199498,
      "loss": 4.0202,
      "step": 22150
    },
    {
      "epoch": 0.04616666666666667,
      "grad_norm": 0.8874825239181519,
      "learning_rate": 0.00029868522691150313,
      "loss": 4.0891,
      "step": 22160
    },
    {
      "epoch": 0.0461875,
      "grad_norm": 1.0299723148345947,
      "learning_rate": 0.0002986839241607951,
      "loss": 4.1572,
      "step": 22170
    },
    {
      "epoch": 0.04620833333333333,
      "grad_norm": 1.2870489358901978,
      "learning_rate": 0.0002986826207678314,
      "loss": 3.9314,
      "step": 22180
    },
    {
      "epoch": 0.04622916666666667,
      "grad_norm": 2.1369118690490723,
      "learning_rate": 0.00029868131673261764,
      "loss": 4.1211,
      "step": 22190
    },
    {
      "epoch": 0.04625,
      "grad_norm": 0.7322140336036682,
      "learning_rate": 0.0002986800120551594,
      "loss": 4.1071,
      "step": 22200
    },
    {
      "epoch": 0.04627083333333333,
      "grad_norm": 0.9373006224632263,
      "learning_rate": 0.0002986787067354624,
      "loss": 4.0729,
      "step": 22210
    },
    {
      "epoch": 0.04629166666666667,
      "grad_norm": 0.8496093153953552,
      "learning_rate": 0.0002986774007735322,
      "loss": 4.0306,
      "step": 22220
    },
    {
      "epoch": 0.0463125,
      "grad_norm": 0.9111897945404053,
      "learning_rate": 0.0002986760941693745,
      "loss": 4.1942,
      "step": 22230
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 0.839640736579895,
      "learning_rate": 0.0002986747869229949,
      "loss": 3.7773,
      "step": 22240
    },
    {
      "epoch": 0.04635416666666667,
      "grad_norm": 0.9309871196746826,
      "learning_rate": 0.0002986734790343991,
      "loss": 4.0495,
      "step": 22250
    },
    {
      "epoch": 0.046375,
      "grad_norm": 0.7932628393173218,
      "learning_rate": 0.00029867217050359273,
      "loss": 3.8967,
      "step": 22260
    },
    {
      "epoch": 0.04639583333333333,
      "grad_norm": 0.9826204180717468,
      "learning_rate": 0.0002986708613305814,
      "loss": 4.0896,
      "step": 22270
    },
    {
      "epoch": 0.04641666666666667,
      "grad_norm": 0.8916264772415161,
      "learning_rate": 0.0002986695515153708,
      "loss": 3.9854,
      "step": 22280
    },
    {
      "epoch": 0.0464375,
      "grad_norm": 0.7940315008163452,
      "learning_rate": 0.00029866824105796665,
      "loss": 3.9841,
      "step": 22290
    },
    {
      "epoch": 0.04645833333333333,
      "grad_norm": 0.7411952018737793,
      "learning_rate": 0.00029866692995837447,
      "loss": 4.0936,
      "step": 22300
    },
    {
      "epoch": 0.04647916666666667,
      "grad_norm": 0.8142653107643127,
      "learning_rate": 0.0002986656182166,
      "loss": 4.1644,
      "step": 22310
    },
    {
      "epoch": 0.0465,
      "grad_norm": 0.8728663921356201,
      "learning_rate": 0.00029866430583264895,
      "loss": 3.9703,
      "step": 22320
    },
    {
      "epoch": 0.04652083333333333,
      "grad_norm": 0.7799032330513,
      "learning_rate": 0.0002986629928065269,
      "loss": 4.1193,
      "step": 22330
    },
    {
      "epoch": 0.04654166666666667,
      "grad_norm": 0.7886219620704651,
      "learning_rate": 0.00029866167913823955,
      "loss": 3.9689,
      "step": 22340
    },
    {
      "epoch": 0.0465625,
      "grad_norm": 0.9437947869300842,
      "learning_rate": 0.00029866036482779267,
      "loss": 4.0851,
      "step": 22350
    },
    {
      "epoch": 0.04658333333333333,
      "grad_norm": 0.7859421968460083,
      "learning_rate": 0.0002986590498751918,
      "loss": 3.987,
      "step": 22360
    },
    {
      "epoch": 0.04660416666666667,
      "grad_norm": 0.9420626759529114,
      "learning_rate": 0.0002986577342804427,
      "loss": 3.8112,
      "step": 22370
    },
    {
      "epoch": 0.046625,
      "grad_norm": 0.7825009226799011,
      "learning_rate": 0.000298656418043551,
      "loss": 4.1615,
      "step": 22380
    },
    {
      "epoch": 0.04664583333333333,
      "grad_norm": 0.8822476267814636,
      "learning_rate": 0.00029865510116452244,
      "loss": 3.85,
      "step": 22390
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 0.7992731928825378,
      "learning_rate": 0.0002986537836433627,
      "loss": 3.9237,
      "step": 22400
    },
    {
      "epoch": 0.0466875,
      "grad_norm": 0.8337991833686829,
      "learning_rate": 0.00029865246548007744,
      "loss": 3.93,
      "step": 22410
    },
    {
      "epoch": 0.04670833333333333,
      "grad_norm": 0.7592121362686157,
      "learning_rate": 0.0002986511466746724,
      "loss": 4.2034,
      "step": 22420
    },
    {
      "epoch": 0.04672916666666667,
      "grad_norm": 0.8443527817726135,
      "learning_rate": 0.0002986498272271532,
      "loss": 4.1472,
      "step": 22430
    },
    {
      "epoch": 0.04675,
      "grad_norm": 0.8086874485015869,
      "learning_rate": 0.0002986485071375256,
      "loss": 3.8892,
      "step": 22440
    },
    {
      "epoch": 0.04677083333333333,
      "grad_norm": 0.9691826701164246,
      "learning_rate": 0.0002986471864057953,
      "loss": 4.0856,
      "step": 22450
    },
    {
      "epoch": 0.04679166666666667,
      "grad_norm": 0.8090049624443054,
      "learning_rate": 0.00029864586503196793,
      "loss": 3.9837,
      "step": 22460
    },
    {
      "epoch": 0.0468125,
      "grad_norm": 0.8533264994621277,
      "learning_rate": 0.0002986445430160493,
      "loss": 3.805,
      "step": 22470
    },
    {
      "epoch": 0.04683333333333333,
      "grad_norm": 0.933143138885498,
      "learning_rate": 0.00029864322035804515,
      "loss": 4.0314,
      "step": 22480
    },
    {
      "epoch": 0.04685416666666667,
      "grad_norm": 0.9897992610931396,
      "learning_rate": 0.00029864189705796105,
      "loss": 3.9058,
      "step": 22490
    },
    {
      "epoch": 0.046875,
      "grad_norm": 0.837530255317688,
      "learning_rate": 0.0002986405731158028,
      "loss": 4.2135,
      "step": 22500
    },
    {
      "epoch": 0.04689583333333333,
      "grad_norm": 0.8330625295639038,
      "learning_rate": 0.0002986392485315762,
      "loss": 3.9353,
      "step": 22510
    },
    {
      "epoch": 0.04691666666666667,
      "grad_norm": 0.9670344591140747,
      "learning_rate": 0.00029863792330528675,
      "loss": 4.0792,
      "step": 22520
    },
    {
      "epoch": 0.0469375,
      "grad_norm": 0.7565240859985352,
      "learning_rate": 0.0002986365974369403,
      "loss": 4.0004,
      "step": 22530
    },
    {
      "epoch": 0.04695833333333333,
      "grad_norm": 0.8141567707061768,
      "learning_rate": 0.0002986352709265427,
      "loss": 4.0345,
      "step": 22540
    },
    {
      "epoch": 0.04697916666666667,
      "grad_norm": 0.8310573697090149,
      "learning_rate": 0.00029863394377409953,
      "loss": 3.9254,
      "step": 22550
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.8589280247688293,
      "learning_rate": 0.0002986326159796165,
      "loss": 4.0716,
      "step": 22560
    },
    {
      "epoch": 0.04702083333333333,
      "grad_norm": 0.7215357422828674,
      "learning_rate": 0.00029863128754309946,
      "loss": 3.9456,
      "step": 22570
    },
    {
      "epoch": 0.04704166666666667,
      "grad_norm": 0.7969028949737549,
      "learning_rate": 0.00029862995846455405,
      "loss": 4.0897,
      "step": 22580
    },
    {
      "epoch": 0.0470625,
      "grad_norm": 0.7791271805763245,
      "learning_rate": 0.0002986286287439861,
      "loss": 3.9209,
      "step": 22590
    },
    {
      "epoch": 0.04708333333333333,
      "grad_norm": 0.9344449043273926,
      "learning_rate": 0.0002986272983814013,
      "loss": 3.8205,
      "step": 22600
    },
    {
      "epoch": 0.04710416666666667,
      "grad_norm": 0.7766220569610596,
      "learning_rate": 0.00029862596737680535,
      "loss": 3.9536,
      "step": 22610
    },
    {
      "epoch": 0.047125,
      "grad_norm": 0.8056253790855408,
      "learning_rate": 0.00029862463573020404,
      "loss": 4.075,
      "step": 22620
    },
    {
      "epoch": 0.04714583333333333,
      "grad_norm": 0.9218420386314392,
      "learning_rate": 0.0002986233034416032,
      "loss": 3.9197,
      "step": 22630
    },
    {
      "epoch": 0.04716666666666667,
      "grad_norm": 0.778448224067688,
      "learning_rate": 0.00029862197051100847,
      "loss": 4.0624,
      "step": 22640
    },
    {
      "epoch": 0.0471875,
      "grad_norm": 0.7777163982391357,
      "learning_rate": 0.00029862063693842565,
      "loss": 4.1116,
      "step": 22650
    },
    {
      "epoch": 0.04720833333333333,
      "grad_norm": 0.8576770424842834,
      "learning_rate": 0.00029861930272386054,
      "loss": 3.9981,
      "step": 22660
    },
    {
      "epoch": 0.04722916666666667,
      "grad_norm": 0.7913747429847717,
      "learning_rate": 0.0002986179678673189,
      "loss": 4.1004,
      "step": 22670
    },
    {
      "epoch": 0.04725,
      "grad_norm": 0.7739566564559937,
      "learning_rate": 0.00029861663236880644,
      "loss": 3.9592,
      "step": 22680
    },
    {
      "epoch": 0.04727083333333333,
      "grad_norm": 0.7838767170906067,
      "learning_rate": 0.0002986152962283289,
      "loss": 3.9783,
      "step": 22690
    },
    {
      "epoch": 0.04729166666666667,
      "grad_norm": 1.0018246173858643,
      "learning_rate": 0.00029861395944589213,
      "loss": 3.9618,
      "step": 22700
    },
    {
      "epoch": 0.0473125,
      "grad_norm": 0.8772920966148376,
      "learning_rate": 0.0002986126220215019,
      "loss": 3.9055,
      "step": 22710
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 0.8416135907173157,
      "learning_rate": 0.00029861128395516397,
      "loss": 3.9989,
      "step": 22720
    },
    {
      "epoch": 0.04735416666666667,
      "grad_norm": 0.8006986975669861,
      "learning_rate": 0.00029860994524688416,
      "loss": 4.0264,
      "step": 22730
    },
    {
      "epoch": 0.047375,
      "grad_norm": 0.9206904768943787,
      "learning_rate": 0.00029860860589666814,
      "loss": 4.0113,
      "step": 22740
    },
    {
      "epoch": 0.04739583333333333,
      "grad_norm": 0.7833201885223389,
      "learning_rate": 0.00029860726590452176,
      "loss": 4.0429,
      "step": 22750
    },
    {
      "epoch": 0.04741666666666667,
      "grad_norm": 0.8064197897911072,
      "learning_rate": 0.0002986059252704509,
      "loss": 4.1145,
      "step": 22760
    },
    {
      "epoch": 0.0474375,
      "grad_norm": 0.8648513555526733,
      "learning_rate": 0.0002986045839944612,
      "loss": 4.1137,
      "step": 22770
    },
    {
      "epoch": 0.04745833333333333,
      "grad_norm": 0.7918399572372437,
      "learning_rate": 0.0002986032420765585,
      "loss": 4.1543,
      "step": 22780
    },
    {
      "epoch": 0.04747916666666667,
      "grad_norm": 0.8101834058761597,
      "learning_rate": 0.00029860189951674864,
      "loss": 3.9161,
      "step": 22790
    },
    {
      "epoch": 0.0475,
      "grad_norm": 0.819925844669342,
      "learning_rate": 0.00029860055631503743,
      "loss": 3.7748,
      "step": 22800
    },
    {
      "epoch": 0.04752083333333333,
      "grad_norm": 0.9304993152618408,
      "learning_rate": 0.00029859921247143056,
      "loss": 4.0368,
      "step": 22810
    },
    {
      "epoch": 0.04754166666666667,
      "grad_norm": 0.7387692928314209,
      "learning_rate": 0.00029859786798593394,
      "loss": 4.0492,
      "step": 22820
    },
    {
      "epoch": 0.0475625,
      "grad_norm": 0.8166192173957825,
      "learning_rate": 0.0002985965228585534,
      "loss": 4.2042,
      "step": 22830
    },
    {
      "epoch": 0.04758333333333333,
      "grad_norm": 0.7961153984069824,
      "learning_rate": 0.00029859517708929464,
      "loss": 4.0143,
      "step": 22840
    },
    {
      "epoch": 0.04760416666666667,
      "grad_norm": 0.9300776720046997,
      "learning_rate": 0.0002985938306781636,
      "loss": 4.1284,
      "step": 22850
    },
    {
      "epoch": 0.047625,
      "grad_norm": 0.6692639589309692,
      "learning_rate": 0.000298592483625166,
      "loss": 4.1159,
      "step": 22860
    },
    {
      "epoch": 0.04764583333333333,
      "grad_norm": 0.7543424963951111,
      "learning_rate": 0.00029859113593030766,
      "loss": 4.2312,
      "step": 22870
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 0.8469621539115906,
      "learning_rate": 0.00029858978759359444,
      "loss": 3.9753,
      "step": 22880
    },
    {
      "epoch": 0.0476875,
      "grad_norm": 0.7444190979003906,
      "learning_rate": 0.0002985884386150321,
      "loss": 3.8403,
      "step": 22890
    },
    {
      "epoch": 0.04770833333333333,
      "grad_norm": 0.8989748358726501,
      "learning_rate": 0.00029858708899462667,
      "loss": 4.1799,
      "step": 22900
    },
    {
      "epoch": 0.04772916666666667,
      "grad_norm": 0.8425635099411011,
      "learning_rate": 0.00029858573873238367,
      "loss": 3.9979,
      "step": 22910
    },
    {
      "epoch": 0.04775,
      "grad_norm": 0.8152500987052917,
      "learning_rate": 0.0002985843878283092,
      "loss": 4.218,
      "step": 22920
    },
    {
      "epoch": 0.04777083333333333,
      "grad_norm": 0.7674303650856018,
      "learning_rate": 0.000298583036282409,
      "loss": 3.9885,
      "step": 22930
    },
    {
      "epoch": 0.04779166666666667,
      "grad_norm": 0.9175886511802673,
      "learning_rate": 0.0002985816840946888,
      "loss": 4.0797,
      "step": 22940
    },
    {
      "epoch": 0.0478125,
      "grad_norm": 0.7852349877357483,
      "learning_rate": 0.0002985803312651546,
      "loss": 3.985,
      "step": 22950
    },
    {
      "epoch": 0.04783333333333333,
      "grad_norm": 0.8315421938896179,
      "learning_rate": 0.00029857897779381215,
      "loss": 3.946,
      "step": 22960
    },
    {
      "epoch": 0.04785416666666667,
      "grad_norm": 0.9046752452850342,
      "learning_rate": 0.00029857762368066734,
      "loss": 4.089,
      "step": 22970
    },
    {
      "epoch": 0.047875,
      "grad_norm": 0.8425107002258301,
      "learning_rate": 0.000298576268925726,
      "loss": 3.9325,
      "step": 22980
    },
    {
      "epoch": 0.04789583333333333,
      "grad_norm": 0.7931081056594849,
      "learning_rate": 0.000298574913528994,
      "loss": 3.9356,
      "step": 22990
    },
    {
      "epoch": 0.04791666666666667,
      "grad_norm": 0.8432623744010925,
      "learning_rate": 0.0002985735574904772,
      "loss": 4.0354,
      "step": 23000
    },
    {
      "epoch": 0.04791666666666667,
      "eval_loss": 4.345559120178223,
      "eval_runtime": 10.2992,
      "eval_samples_per_second": 0.971,
      "eval_steps_per_second": 0.291,
      "step": 23000
    },
    {
      "epoch": 0.0479375,
      "grad_norm": 0.8986987471580505,
      "learning_rate": 0.0002985722008101814,
      "loss": 4.1672,
      "step": 23010
    },
    {
      "epoch": 0.04795833333333333,
      "grad_norm": 0.7821569442749023,
      "learning_rate": 0.00029857084348811254,
      "loss": 4.1932,
      "step": 23020
    },
    {
      "epoch": 0.04797916666666667,
      "grad_norm": 0.7799119353294373,
      "learning_rate": 0.00029856948552427643,
      "loss": 3.9748,
      "step": 23030
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.6990039348602295,
      "learning_rate": 0.00029856812691867894,
      "loss": 4.0561,
      "step": 23040
    },
    {
      "epoch": 0.04802083333333333,
      "grad_norm": 0.7636101841926575,
      "learning_rate": 0.0002985667676713259,
      "loss": 3.9505,
      "step": 23050
    },
    {
      "epoch": 0.04804166666666667,
      "grad_norm": 0.7896153330802917,
      "learning_rate": 0.00029856540778222334,
      "loss": 4.0456,
      "step": 23060
    },
    {
      "epoch": 0.0480625,
      "grad_norm": 0.8444091081619263,
      "learning_rate": 0.000298564047251377,
      "loss": 4.0778,
      "step": 23070
    },
    {
      "epoch": 0.04808333333333333,
      "grad_norm": 0.8280452489852905,
      "learning_rate": 0.0002985626860787928,
      "loss": 4.0967,
      "step": 23080
    },
    {
      "epoch": 0.04810416666666667,
      "grad_norm": 0.7722503542900085,
      "learning_rate": 0.0002985613242644765,
      "loss": 3.9439,
      "step": 23090
    },
    {
      "epoch": 0.048125,
      "grad_norm": 0.7447543144226074,
      "learning_rate": 0.00029855996180843417,
      "loss": 3.877,
      "step": 23100
    },
    {
      "epoch": 0.04814583333333333,
      "grad_norm": 0.836034893989563,
      "learning_rate": 0.00029855859871067157,
      "loss": 3.9852,
      "step": 23110
    },
    {
      "epoch": 0.04816666666666667,
      "grad_norm": 0.7539575099945068,
      "learning_rate": 0.0002985572349711946,
      "loss": 4.1457,
      "step": 23120
    },
    {
      "epoch": 0.0481875,
      "grad_norm": 0.9515137076377869,
      "learning_rate": 0.00029855587059000925,
      "loss": 4.2138,
      "step": 23130
    },
    {
      "epoch": 0.04820833333333333,
      "grad_norm": 0.7746474146842957,
      "learning_rate": 0.0002985545055671213,
      "loss": 3.869,
      "step": 23140
    },
    {
      "epoch": 0.04822916666666666,
      "grad_norm": 0.9983747005462646,
      "learning_rate": 0.0002985531399025367,
      "loss": 3.8766,
      "step": 23150
    },
    {
      "epoch": 0.04825,
      "grad_norm": 0.8665918111801147,
      "learning_rate": 0.0002985517735962613,
      "loss": 4.001,
      "step": 23160
    },
    {
      "epoch": 0.04827083333333333,
      "grad_norm": 0.895491361618042,
      "learning_rate": 0.0002985504066483011,
      "loss": 3.9846,
      "step": 23170
    },
    {
      "epoch": 0.04829166666666666,
      "grad_norm": 0.7675134539604187,
      "learning_rate": 0.0002985490390586619,
      "loss": 4.0145,
      "step": 23180
    },
    {
      "epoch": 0.0483125,
      "grad_norm": 0.7956461310386658,
      "learning_rate": 0.0002985476708273497,
      "loss": 3.9626,
      "step": 23190
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 0.7424895763397217,
      "learning_rate": 0.00029854630195437026,
      "loss": 4.1756,
      "step": 23200
    },
    {
      "epoch": 0.04835416666666666,
      "grad_norm": 0.8789083957672119,
      "learning_rate": 0.00029854493243972974,
      "loss": 4.1089,
      "step": 23210
    },
    {
      "epoch": 0.048375,
      "grad_norm": 0.9808844923973083,
      "learning_rate": 0.0002985435622834338,
      "loss": 4.1352,
      "step": 23220
    },
    {
      "epoch": 0.04839583333333333,
      "grad_norm": 0.840724527835846,
      "learning_rate": 0.0002985421914854885,
      "loss": 3.8581,
      "step": 23230
    },
    {
      "epoch": 0.04841666666666666,
      "grad_norm": 0.7633494138717651,
      "learning_rate": 0.0002985408200458997,
      "loss": 3.9884,
      "step": 23240
    },
    {
      "epoch": 0.0484375,
      "grad_norm": 0.8793787956237793,
      "learning_rate": 0.0002985394479646734,
      "loss": 4.1357,
      "step": 23250
    },
    {
      "epoch": 0.04845833333333333,
      "grad_norm": 0.8369579315185547,
      "learning_rate": 0.0002985380752418155,
      "loss": 4.0,
      "step": 23260
    },
    {
      "epoch": 0.04847916666666666,
      "grad_norm": 0.8232877254486084,
      "learning_rate": 0.0002985367018773318,
      "loss": 4.1381,
      "step": 23270
    },
    {
      "epoch": 0.0485,
      "grad_norm": 0.7644029855728149,
      "learning_rate": 0.0002985353278712285,
      "loss": 4.0884,
      "step": 23280
    },
    {
      "epoch": 0.04852083333333333,
      "grad_norm": 0.779992938041687,
      "learning_rate": 0.00029853395322351127,
      "loss": 4.0118,
      "step": 23290
    },
    {
      "epoch": 0.048541666666666664,
      "grad_norm": 0.8719344735145569,
      "learning_rate": 0.0002985325779341862,
      "loss": 3.9963,
      "step": 23300
    },
    {
      "epoch": 0.0485625,
      "grad_norm": 0.8808066248893738,
      "learning_rate": 0.0002985312020032591,
      "loss": 3.9822,
      "step": 23310
    },
    {
      "epoch": 0.04858333333333333,
      "grad_norm": 0.7952739000320435,
      "learning_rate": 0.0002985298254307361,
      "loss": 4.135,
      "step": 23320
    },
    {
      "epoch": 0.048604166666666664,
      "grad_norm": 0.8016321063041687,
      "learning_rate": 0.000298528448216623,
      "loss": 4.0967,
      "step": 23330
    },
    {
      "epoch": 0.048625,
      "grad_norm": 0.8336403965950012,
      "learning_rate": 0.00029852707036092584,
      "loss": 4.0093,
      "step": 23340
    },
    {
      "epoch": 0.04864583333333333,
      "grad_norm": 0.9109510183334351,
      "learning_rate": 0.00029852569186365047,
      "loss": 4.1692,
      "step": 23350
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 0.9067474007606506,
      "learning_rate": 0.00029852431272480297,
      "loss": 4.0933,
      "step": 23360
    },
    {
      "epoch": 0.0486875,
      "grad_norm": 0.8083096146583557,
      "learning_rate": 0.0002985229329443892,
      "loss": 4.1891,
      "step": 23370
    },
    {
      "epoch": 0.04870833333333333,
      "grad_norm": 0.941169261932373,
      "learning_rate": 0.0002985215525224151,
      "loss": 4.0323,
      "step": 23380
    },
    {
      "epoch": 0.048729166666666664,
      "grad_norm": 0.8773019909858704,
      "learning_rate": 0.00029852017145888673,
      "loss": 4.0611,
      "step": 23390
    },
    {
      "epoch": 0.04875,
      "grad_norm": 0.7840174436569214,
      "learning_rate": 0.00029851878975381,
      "loss": 4.0132,
      "step": 23400
    },
    {
      "epoch": 0.04877083333333333,
      "grad_norm": 0.8746412992477417,
      "learning_rate": 0.00029851740740719087,
      "loss": 4.0547,
      "step": 23410
    },
    {
      "epoch": 0.048791666666666664,
      "grad_norm": 0.957899808883667,
      "learning_rate": 0.00029851602441903534,
      "loss": 3.9956,
      "step": 23420
    },
    {
      "epoch": 0.0488125,
      "grad_norm": 0.8321362137794495,
      "learning_rate": 0.00029851464078934937,
      "loss": 4.0338,
      "step": 23430
    },
    {
      "epoch": 0.04883333333333333,
      "grad_norm": 0.9092917442321777,
      "learning_rate": 0.00029851325651813896,
      "loss": 3.9863,
      "step": 23440
    },
    {
      "epoch": 0.048854166666666664,
      "grad_norm": 0.7861893177032471,
      "learning_rate": 0.00029851187160541003,
      "loss": 4.0301,
      "step": 23450
    },
    {
      "epoch": 0.048875,
      "grad_norm": 0.8398141860961914,
      "learning_rate": 0.0002985104860511686,
      "loss": 4.027,
      "step": 23460
    },
    {
      "epoch": 0.04889583333333333,
      "grad_norm": 0.7907713055610657,
      "learning_rate": 0.00029850909985542067,
      "loss": 4.0736,
      "step": 23470
    },
    {
      "epoch": 0.048916666666666664,
      "grad_norm": 0.9949638843536377,
      "learning_rate": 0.0002985077130181722,
      "loss": 3.9623,
      "step": 23480
    },
    {
      "epoch": 0.0489375,
      "grad_norm": 0.8502593636512756,
      "learning_rate": 0.0002985063255394292,
      "loss": 3.9878,
      "step": 23490
    },
    {
      "epoch": 0.04895833333333333,
      "grad_norm": 0.8614035248756409,
      "learning_rate": 0.0002985049374191977,
      "loss": 4.1044,
      "step": 23500
    },
    {
      "epoch": 0.048979166666666664,
      "grad_norm": 0.8500977754592896,
      "learning_rate": 0.0002985035486574836,
      "loss": 4.0118,
      "step": 23510
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.9270911812782288,
      "learning_rate": 0.000298502159254293,
      "loss": 3.9884,
      "step": 23520
    },
    {
      "epoch": 0.04902083333333333,
      "grad_norm": 0.7390990853309631,
      "learning_rate": 0.0002985007692096318,
      "loss": 4.1772,
      "step": 23530
    },
    {
      "epoch": 0.049041666666666664,
      "grad_norm": 0.8720413446426392,
      "learning_rate": 0.0002984993785235061,
      "loss": 4.1545,
      "step": 23540
    },
    {
      "epoch": 0.0490625,
      "grad_norm": 0.8146336674690247,
      "learning_rate": 0.0002984979871959218,
      "loss": 4.0268,
      "step": 23550
    },
    {
      "epoch": 0.04908333333333333,
      "grad_norm": 0.8770825862884521,
      "learning_rate": 0.000298496595226885,
      "loss": 3.949,
      "step": 23560
    },
    {
      "epoch": 0.049104166666666664,
      "grad_norm": 0.9566527605056763,
      "learning_rate": 0.00029849520261640176,
      "loss": 4.0052,
      "step": 23570
    },
    {
      "epoch": 0.049125,
      "grad_norm": 0.9146139621734619,
      "learning_rate": 0.00029849380936447793,
      "loss": 4.042,
      "step": 23580
    },
    {
      "epoch": 0.04914583333333333,
      "grad_norm": 0.7903580665588379,
      "learning_rate": 0.00029849241547111967,
      "loss": 3.9194,
      "step": 23590
    },
    {
      "epoch": 0.049166666666666664,
      "grad_norm": 0.8264316916465759,
      "learning_rate": 0.0002984910209363329,
      "loss": 4.0075,
      "step": 23600
    },
    {
      "epoch": 0.0491875,
      "grad_norm": 0.7081221342086792,
      "learning_rate": 0.00029848962576012377,
      "loss": 4.0911,
      "step": 23610
    },
    {
      "epoch": 0.04920833333333333,
      "grad_norm": 0.8810615539550781,
      "learning_rate": 0.0002984882299424982,
      "loss": 4.0778,
      "step": 23620
    },
    {
      "epoch": 0.049229166666666664,
      "grad_norm": 0.9713292121887207,
      "learning_rate": 0.0002984868334834623,
      "loss": 4.0909,
      "step": 23630
    },
    {
      "epoch": 0.04925,
      "grad_norm": 0.9011144042015076,
      "learning_rate": 0.000298485436383022,
      "loss": 4.0532,
      "step": 23640
    },
    {
      "epoch": 0.04927083333333333,
      "grad_norm": 0.7226399183273315,
      "learning_rate": 0.00029848403864118336,
      "loss": 4.0379,
      "step": 23650
    },
    {
      "epoch": 0.049291666666666664,
      "grad_norm": 0.8149161338806152,
      "learning_rate": 0.0002984826402579525,
      "loss": 4.0274,
      "step": 23660
    },
    {
      "epoch": 0.0493125,
      "grad_norm": 0.8129730820655823,
      "learning_rate": 0.0002984812412333354,
      "loss": 4.0539,
      "step": 23670
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 1.073933482170105,
      "learning_rate": 0.0002984798415673381,
      "loss": 3.9665,
      "step": 23680
    },
    {
      "epoch": 0.049354166666666664,
      "grad_norm": 0.7957851886749268,
      "learning_rate": 0.0002984784412599667,
      "loss": 3.9831,
      "step": 23690
    },
    {
      "epoch": 0.049375,
      "grad_norm": 0.7592307925224304,
      "learning_rate": 0.00029847704031122713,
      "loss": 4.1233,
      "step": 23700
    },
    {
      "epoch": 0.04939583333333333,
      "grad_norm": 0.782427191734314,
      "learning_rate": 0.00029847563872112555,
      "loss": 3.9348,
      "step": 23710
    },
    {
      "epoch": 0.049416666666666664,
      "grad_norm": 0.7728231549263,
      "learning_rate": 0.00029847423648966803,
      "loss": 3.8702,
      "step": 23720
    },
    {
      "epoch": 0.0494375,
      "grad_norm": 0.7528290748596191,
      "learning_rate": 0.0002984728336168605,
      "loss": 4.0914,
      "step": 23730
    },
    {
      "epoch": 0.04945833333333333,
      "grad_norm": 0.7910967469215393,
      "learning_rate": 0.0002984714301027091,
      "loss": 4.001,
      "step": 23740
    },
    {
      "epoch": 0.049479166666666664,
      "grad_norm": 0.8371394276618958,
      "learning_rate": 0.00029847002594721997,
      "loss": 4.1024,
      "step": 23750
    },
    {
      "epoch": 0.0495,
      "grad_norm": 0.8186953663825989,
      "learning_rate": 0.00029846862115039905,
      "loss": 4.0757,
      "step": 23760
    },
    {
      "epoch": 0.04952083333333333,
      "grad_norm": 0.92894047498703,
      "learning_rate": 0.00029846721571225244,
      "loss": 4.0526,
      "step": 23770
    },
    {
      "epoch": 0.049541666666666664,
      "grad_norm": 0.8800164461135864,
      "learning_rate": 0.00029846580963278625,
      "loss": 3.7911,
      "step": 23780
    },
    {
      "epoch": 0.0495625,
      "grad_norm": 0.8590853214263916,
      "learning_rate": 0.0002984644029120065,
      "loss": 4.0327,
      "step": 23790
    },
    {
      "epoch": 0.04958333333333333,
      "grad_norm": 0.7221733927726746,
      "learning_rate": 0.00029846299554991935,
      "loss": 3.9983,
      "step": 23800
    },
    {
      "epoch": 0.049604166666666664,
      "grad_norm": 0.7771899104118347,
      "learning_rate": 0.00029846158754653077,
      "loss": 3.87,
      "step": 23810
    },
    {
      "epoch": 0.049625,
      "grad_norm": 0.7342985272407532,
      "learning_rate": 0.0002984601789018469,
      "loss": 4.0121,
      "step": 23820
    },
    {
      "epoch": 0.049645833333333333,
      "grad_norm": 0.853218138217926,
      "learning_rate": 0.0002984587696158739,
      "loss": 4.0565,
      "step": 23830
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 0.8374419808387756,
      "learning_rate": 0.00029845735968861767,
      "loss": 3.8785,
      "step": 23840
    },
    {
      "epoch": 0.0496875,
      "grad_norm": 0.851003110408783,
      "learning_rate": 0.00029845594912008443,
      "loss": 4.1569,
      "step": 23850
    },
    {
      "epoch": 0.049708333333333334,
      "grad_norm": 0.833723783493042,
      "learning_rate": 0.0002984545379102803,
      "loss": 4.055,
      "step": 23860
    },
    {
      "epoch": 0.049729166666666665,
      "grad_norm": 0.8583168387413025,
      "learning_rate": 0.0002984531260592113,
      "loss": 3.9413,
      "step": 23870
    },
    {
      "epoch": 0.04975,
      "grad_norm": 0.7722224593162537,
      "learning_rate": 0.0002984517135668836,
      "loss": 4.149,
      "step": 23880
    },
    {
      "epoch": 0.049770833333333334,
      "grad_norm": 0.8198390603065491,
      "learning_rate": 0.0002984503004333032,
      "loss": 4.0969,
      "step": 23890
    },
    {
      "epoch": 0.049791666666666665,
      "grad_norm": 0.8864487409591675,
      "learning_rate": 0.0002984488866584763,
      "loss": 4.1366,
      "step": 23900
    },
    {
      "epoch": 0.0498125,
      "grad_norm": 0.6893771886825562,
      "learning_rate": 0.000298447472242409,
      "loss": 4.0697,
      "step": 23910
    },
    {
      "epoch": 0.049833333333333334,
      "grad_norm": 0.737511157989502,
      "learning_rate": 0.0002984460571851073,
      "loss": 3.9544,
      "step": 23920
    },
    {
      "epoch": 0.049854166666666665,
      "grad_norm": 1.0342742204666138,
      "learning_rate": 0.00029844464148657743,
      "loss": 4.0968,
      "step": 23930
    },
    {
      "epoch": 0.049875,
      "grad_norm": 0.8139572739601135,
      "learning_rate": 0.00029844322514682546,
      "loss": 3.8609,
      "step": 23940
    },
    {
      "epoch": 0.049895833333333334,
      "grad_norm": 0.7324793338775635,
      "learning_rate": 0.0002984418081658575,
      "loss": 3.9894,
      "step": 23950
    },
    {
      "epoch": 0.049916666666666665,
      "grad_norm": 0.7340117692947388,
      "learning_rate": 0.0002984403905436797,
      "loss": 3.98,
      "step": 23960
    },
    {
      "epoch": 0.0499375,
      "grad_norm": 0.851635217666626,
      "learning_rate": 0.0002984389722802982,
      "loss": 3.9136,
      "step": 23970
    },
    {
      "epoch": 0.049958333333333334,
      "grad_norm": 0.7983063459396362,
      "learning_rate": 0.0002984375533757191,
      "loss": 4.0232,
      "step": 23980
    },
    {
      "epoch": 0.049979166666666665,
      "grad_norm": 0.853800892829895,
      "learning_rate": 0.0002984361338299485,
      "loss": 3.8672,
      "step": 23990
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8548151254653931,
      "learning_rate": 0.00029843471364299256,
      "loss": 4.0783,
      "step": 24000
    },
    {
      "epoch": 0.05,
      "eval_loss": 4.347347736358643,
      "eval_runtime": 11.4296,
      "eval_samples_per_second": 0.875,
      "eval_steps_per_second": 0.262,
      "step": 24000
    },
    {
      "epoch": 0.050020833333333334,
      "grad_norm": 0.8277662396430969,
      "learning_rate": 0.0002984332928148574,
      "loss": 3.9539,
      "step": 24010
    },
    {
      "epoch": 0.050041666666666665,
      "grad_norm": 0.8331337571144104,
      "learning_rate": 0.00029843187134554914,
      "loss": 3.9732,
      "step": 24020
    },
    {
      "epoch": 0.0500625,
      "grad_norm": 0.9000012874603271,
      "learning_rate": 0.000298430449235074,
      "loss": 3.9963,
      "step": 24030
    },
    {
      "epoch": 0.050083333333333334,
      "grad_norm": 0.9151877760887146,
      "learning_rate": 0.00029842902648343807,
      "loss": 3.9517,
      "step": 24040
    },
    {
      "epoch": 0.050104166666666665,
      "grad_norm": 0.8493151068687439,
      "learning_rate": 0.0002984276030906475,
      "loss": 4.093,
      "step": 24050
    },
    {
      "epoch": 0.050125,
      "grad_norm": 0.7760912775993347,
      "learning_rate": 0.0002984261790567084,
      "loss": 4.055,
      "step": 24060
    },
    {
      "epoch": 0.050145833333333334,
      "grad_norm": 0.864129364490509,
      "learning_rate": 0.000298424754381627,
      "loss": 3.9772,
      "step": 24070
    },
    {
      "epoch": 0.050166666666666665,
      "grad_norm": 0.9417356848716736,
      "learning_rate": 0.00029842332906540933,
      "loss": 3.9935,
      "step": 24080
    },
    {
      "epoch": 0.0501875,
      "grad_norm": 0.8644965887069702,
      "learning_rate": 0.00029842190310806174,
      "loss": 3.932,
      "step": 24090
    },
    {
      "epoch": 0.050208333333333334,
      "grad_norm": 0.8468145728111267,
      "learning_rate": 0.0002984204765095902,
      "loss": 4.0962,
      "step": 24100
    },
    {
      "epoch": 0.050229166666666665,
      "grad_norm": 0.95412677526474,
      "learning_rate": 0.00029841904927000097,
      "loss": 4.073,
      "step": 24110
    },
    {
      "epoch": 0.05025,
      "grad_norm": 0.8298219442367554,
      "learning_rate": 0.0002984176213893002,
      "loss": 4.1402,
      "step": 24120
    },
    {
      "epoch": 0.050270833333333334,
      "grad_norm": 0.9508038759231567,
      "learning_rate": 0.0002984161928674941,
      "loss": 3.9665,
      "step": 24130
    },
    {
      "epoch": 0.050291666666666665,
      "grad_norm": 0.7885833382606506,
      "learning_rate": 0.00029841476370458876,
      "loss": 4.0473,
      "step": 24140
    },
    {
      "epoch": 0.0503125,
      "grad_norm": 0.9281105995178223,
      "learning_rate": 0.00029841333390059037,
      "loss": 4.0735,
      "step": 24150
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 0.9810423254966736,
      "learning_rate": 0.0002984119034555051,
      "loss": 4.1767,
      "step": 24160
    },
    {
      "epoch": 0.050354166666666665,
      "grad_norm": 0.8207609057426453,
      "learning_rate": 0.0002984104723693392,
      "loss": 4.0661,
      "step": 24170
    },
    {
      "epoch": 0.050375,
      "grad_norm": 0.8254885673522949,
      "learning_rate": 0.00029840904064209876,
      "loss": 3.9213,
      "step": 24180
    },
    {
      "epoch": 0.050395833333333334,
      "grad_norm": 1.1959748268127441,
      "learning_rate": 0.00029840760827379005,
      "loss": 3.8813,
      "step": 24190
    },
    {
      "epoch": 0.050416666666666665,
      "grad_norm": 0.8329674005508423,
      "learning_rate": 0.0002984061752644192,
      "loss": 4.0065,
      "step": 24200
    },
    {
      "epoch": 0.0504375,
      "grad_norm": 0.7591705918312073,
      "learning_rate": 0.00029840474161399244,
      "loss": 4.0899,
      "step": 24210
    },
    {
      "epoch": 0.050458333333333334,
      "grad_norm": 0.8808771967887878,
      "learning_rate": 0.0002984033073225159,
      "loss": 3.8932,
      "step": 24220
    },
    {
      "epoch": 0.050479166666666665,
      "grad_norm": 0.7809692025184631,
      "learning_rate": 0.00029840187238999586,
      "loss": 4.1626,
      "step": 24230
    },
    {
      "epoch": 0.0505,
      "grad_norm": 0.8034283518791199,
      "learning_rate": 0.0002984004368164384,
      "loss": 4.0652,
      "step": 24240
    },
    {
      "epoch": 0.050520833333333334,
      "grad_norm": 0.6930572390556335,
      "learning_rate": 0.00029839900060184987,
      "loss": 4.0517,
      "step": 24250
    },
    {
      "epoch": 0.050541666666666665,
      "grad_norm": 0.9040699601173401,
      "learning_rate": 0.0002983975637462364,
      "loss": 4.0113,
      "step": 24260
    },
    {
      "epoch": 0.0505625,
      "grad_norm": 0.8656926155090332,
      "learning_rate": 0.0002983961262496041,
      "loss": 4.0329,
      "step": 24270
    },
    {
      "epoch": 0.050583333333333334,
      "grad_norm": 0.967914879322052,
      "learning_rate": 0.00029839468811195934,
      "loss": 3.8955,
      "step": 24280
    },
    {
      "epoch": 0.050604166666666665,
      "grad_norm": 0.8455100655555725,
      "learning_rate": 0.00029839324933330833,
      "loss": 3.9037,
      "step": 24290
    },
    {
      "epoch": 0.050625,
      "grad_norm": 0.7704584002494812,
      "learning_rate": 0.0002983918099136571,
      "loss": 4.0779,
      "step": 24300
    },
    {
      "epoch": 0.050645833333333334,
      "grad_norm": 0.7977133989334106,
      "learning_rate": 0.00029839036985301203,
      "loss": 4.0039,
      "step": 24310
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 0.7024787664413452,
      "learning_rate": 0.00029838892915137933,
      "loss": 4.1259,
      "step": 24320
    },
    {
      "epoch": 0.0506875,
      "grad_norm": 0.9227488040924072,
      "learning_rate": 0.00029838748780876517,
      "loss": 4.1485,
      "step": 24330
    },
    {
      "epoch": 0.050708333333333334,
      "grad_norm": 0.872511088848114,
      "learning_rate": 0.0002983860458251758,
      "loss": 4.0785,
      "step": 24340
    },
    {
      "epoch": 0.050729166666666665,
      "grad_norm": 0.7802706956863403,
      "learning_rate": 0.00029838460320061745,
      "loss": 4.0116,
      "step": 24350
    },
    {
      "epoch": 0.05075,
      "grad_norm": 0.8472303748130798,
      "learning_rate": 0.00029838315993509635,
      "loss": 4.1154,
      "step": 24360
    },
    {
      "epoch": 0.050770833333333334,
      "grad_norm": 0.7653231620788574,
      "learning_rate": 0.00029838171602861874,
      "loss": 4.0464,
      "step": 24370
    },
    {
      "epoch": 0.050791666666666666,
      "grad_norm": 0.8424580693244934,
      "learning_rate": 0.0002983802714811908,
      "loss": 3.9846,
      "step": 24380
    },
    {
      "epoch": 0.0508125,
      "grad_norm": 0.7617825269699097,
      "learning_rate": 0.0002983788262928189,
      "loss": 4.0596,
      "step": 24390
    },
    {
      "epoch": 0.050833333333333335,
      "grad_norm": 0.8510026335716248,
      "learning_rate": 0.0002983773804635092,
      "loss": 3.9542,
      "step": 24400
    },
    {
      "epoch": 0.050854166666666666,
      "grad_norm": 0.8444216251373291,
      "learning_rate": 0.00029837593399326785,
      "loss": 4.0048,
      "step": 24410
    },
    {
      "epoch": 0.050875,
      "grad_norm": 0.863207221031189,
      "learning_rate": 0.00029837448688210127,
      "loss": 4.0538,
      "step": 24420
    },
    {
      "epoch": 0.050895833333333335,
      "grad_norm": 0.8117720484733582,
      "learning_rate": 0.00029837303913001563,
      "loss": 4.1629,
      "step": 24430
    },
    {
      "epoch": 0.050916666666666666,
      "grad_norm": 0.7415464520454407,
      "learning_rate": 0.0002983715907370172,
      "loss": 4.0591,
      "step": 24440
    },
    {
      "epoch": 0.0509375,
      "grad_norm": 0.8261129260063171,
      "learning_rate": 0.0002983701417031122,
      "loss": 3.9611,
      "step": 24450
    },
    {
      "epoch": 0.050958333333333335,
      "grad_norm": 0.7381312847137451,
      "learning_rate": 0.0002983686920283069,
      "loss": 3.969,
      "step": 24460
    },
    {
      "epoch": 0.050979166666666666,
      "grad_norm": 0.8820986151695251,
      "learning_rate": 0.0002983672417126077,
      "loss": 4.1006,
      "step": 24470
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.9130018949508667,
      "learning_rate": 0.0002983657907560206,
      "loss": 3.9329,
      "step": 24480
    },
    {
      "epoch": 0.051020833333333335,
      "grad_norm": 0.8240141272544861,
      "learning_rate": 0.00029836433915855206,
      "loss": 4.1243,
      "step": 24490
    },
    {
      "epoch": 0.051041666666666666,
      "grad_norm": 0.8886264562606812,
      "learning_rate": 0.0002983628869202083,
      "loss": 3.8389,
      "step": 24500
    },
    {
      "epoch": 0.0510625,
      "grad_norm": 0.906816840171814,
      "learning_rate": 0.00029836143404099566,
      "loss": 4.1605,
      "step": 24510
    },
    {
      "epoch": 0.051083333333333335,
      "grad_norm": 0.8155732154846191,
      "learning_rate": 0.00029835998052092026,
      "loss": 4.0416,
      "step": 24520
    },
    {
      "epoch": 0.051104166666666666,
      "grad_norm": 0.8686359524726868,
      "learning_rate": 0.00029835852635998845,
      "loss": 3.9916,
      "step": 24530
    },
    {
      "epoch": 0.051125,
      "grad_norm": 0.8684254288673401,
      "learning_rate": 0.00029835707155820664,
      "loss": 3.9057,
      "step": 24540
    },
    {
      "epoch": 0.051145833333333335,
      "grad_norm": 0.7405751943588257,
      "learning_rate": 0.00029835561611558096,
      "loss": 3.9584,
      "step": 24550
    },
    {
      "epoch": 0.051166666666666666,
      "grad_norm": 0.7128321528434753,
      "learning_rate": 0.0002983541600321177,
      "loss": 4.0761,
      "step": 24560
    },
    {
      "epoch": 0.0511875,
      "grad_norm": 0.8397940993309021,
      "learning_rate": 0.0002983527033078232,
      "loss": 4.1326,
      "step": 24570
    },
    {
      "epoch": 0.051208333333333335,
      "grad_norm": 0.7793668508529663,
      "learning_rate": 0.0002983512459427038,
      "loss": 4.0901,
      "step": 24580
    },
    {
      "epoch": 0.051229166666666666,
      "grad_norm": 0.8340938687324524,
      "learning_rate": 0.0002983497879367657,
      "loss": 4.0293,
      "step": 24590
    },
    {
      "epoch": 0.05125,
      "grad_norm": 0.7802310585975647,
      "learning_rate": 0.0002983483292900152,
      "loss": 3.8209,
      "step": 24600
    },
    {
      "epoch": 0.051270833333333335,
      "grad_norm": 0.7505518794059753,
      "learning_rate": 0.0002983468700024587,
      "loss": 4.028,
      "step": 24610
    },
    {
      "epoch": 0.051291666666666666,
      "grad_norm": 0.8410331010818481,
      "learning_rate": 0.0002983454100741024,
      "loss": 4.0063,
      "step": 24620
    },
    {
      "epoch": 0.0513125,
      "grad_norm": 0.8373920321464539,
      "learning_rate": 0.0002983439495049527,
      "loss": 4.1231,
      "step": 24630
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 0.8215093612670898,
      "learning_rate": 0.0002983424882950158,
      "loss": 4.0855,
      "step": 24640
    },
    {
      "epoch": 0.051354166666666666,
      "grad_norm": 0.8255186080932617,
      "learning_rate": 0.0002983410264442981,
      "loss": 3.9579,
      "step": 24650
    },
    {
      "epoch": 0.051375,
      "grad_norm": 0.8137394785881042,
      "learning_rate": 0.00029833956395280585,
      "loss": 4.2709,
      "step": 24660
    },
    {
      "epoch": 0.051395833333333335,
      "grad_norm": 0.9061751365661621,
      "learning_rate": 0.0002983381008205455,
      "loss": 3.8865,
      "step": 24670
    },
    {
      "epoch": 0.051416666666666666,
      "grad_norm": 0.8042217493057251,
      "learning_rate": 0.00029833663704752314,
      "loss": 3.9136,
      "step": 24680
    },
    {
      "epoch": 0.0514375,
      "grad_norm": 0.8291239738464355,
      "learning_rate": 0.0002983351726337453,
      "loss": 4.0106,
      "step": 24690
    },
    {
      "epoch": 0.051458333333333335,
      "grad_norm": 0.7796221971511841,
      "learning_rate": 0.0002983337075792182,
      "loss": 3.9272,
      "step": 24700
    },
    {
      "epoch": 0.051479166666666666,
      "grad_norm": 0.810979962348938,
      "learning_rate": 0.00029833224188394815,
      "loss": 4.1116,
      "step": 24710
    },
    {
      "epoch": 0.0515,
      "grad_norm": 0.9180625081062317,
      "learning_rate": 0.00029833077554794165,
      "loss": 4.0781,
      "step": 24720
    },
    {
      "epoch": 0.051520833333333335,
      "grad_norm": 0.8540144562721252,
      "learning_rate": 0.00029832930857120484,
      "loss": 3.9997,
      "step": 24730
    },
    {
      "epoch": 0.051541666666666666,
      "grad_norm": 0.856884777545929,
      "learning_rate": 0.0002983278409537441,
      "loss": 3.9783,
      "step": 24740
    },
    {
      "epoch": 0.0515625,
      "grad_norm": 0.8272156119346619,
      "learning_rate": 0.0002983263726955659,
      "loss": 3.9733,
      "step": 24750
    },
    {
      "epoch": 0.051583333333333335,
      "grad_norm": 0.877055823802948,
      "learning_rate": 0.0002983249037966764,
      "loss": 4.0,
      "step": 24760
    },
    {
      "epoch": 0.051604166666666666,
      "grad_norm": 0.7884106040000916,
      "learning_rate": 0.00029832343425708203,
      "loss": 4.3885,
      "step": 24770
    },
    {
      "epoch": 0.051625,
      "grad_norm": 0.7568530440330505,
      "learning_rate": 0.00029832196407678915,
      "loss": 4.2284,
      "step": 24780
    },
    {
      "epoch": 0.051645833333333335,
      "grad_norm": 1.0403521060943604,
      "learning_rate": 0.00029832049325580407,
      "loss": 4.0581,
      "step": 24790
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 0.7303665280342102,
      "learning_rate": 0.00029831902179413324,
      "loss": 3.9523,
      "step": 24800
    },
    {
      "epoch": 0.0516875,
      "grad_norm": 0.8102442622184753,
      "learning_rate": 0.0002983175496917829,
      "loss": 4.2264,
      "step": 24810
    },
    {
      "epoch": 0.051708333333333335,
      "grad_norm": 0.8393380641937256,
      "learning_rate": 0.00029831607694875945,
      "loss": 4.0427,
      "step": 24820
    },
    {
      "epoch": 0.051729166666666666,
      "grad_norm": 0.8443405628204346,
      "learning_rate": 0.0002983146035650692,
      "loss": 4.0817,
      "step": 24830
    },
    {
      "epoch": 0.05175,
      "grad_norm": 0.7182561755180359,
      "learning_rate": 0.0002983131295407187,
      "loss": 4.141,
      "step": 24840
    },
    {
      "epoch": 0.051770833333333335,
      "grad_norm": 0.8440575003623962,
      "learning_rate": 0.0002983116548757141,
      "loss": 3.8603,
      "step": 24850
    },
    {
      "epoch": 0.051791666666666666,
      "grad_norm": 0.8431190252304077,
      "learning_rate": 0.00029831017957006187,
      "loss": 4.0168,
      "step": 24860
    },
    {
      "epoch": 0.0518125,
      "grad_norm": 0.6841872930526733,
      "learning_rate": 0.00029830870362376836,
      "loss": 4.0044,
      "step": 24870
    },
    {
      "epoch": 0.051833333333333335,
      "grad_norm": 0.8726463913917542,
      "learning_rate": 0.00029830722703683995,
      "loss": 4.1405,
      "step": 24880
    },
    {
      "epoch": 0.051854166666666666,
      "grad_norm": 0.9809200763702393,
      "learning_rate": 0.00029830574980928303,
      "loss": 4.082,
      "step": 24890
    },
    {
      "epoch": 0.051875,
      "grad_norm": 0.786038875579834,
      "learning_rate": 0.000298304271941104,
      "loss": 3.9916,
      "step": 24900
    },
    {
      "epoch": 0.051895833333333335,
      "grad_norm": 0.8995456695556641,
      "learning_rate": 0.00029830279343230924,
      "loss": 4.1122,
      "step": 24910
    },
    {
      "epoch": 0.051916666666666667,
      "grad_norm": 0.9543859958648682,
      "learning_rate": 0.00029830131428290504,
      "loss": 4.0918,
      "step": 24920
    },
    {
      "epoch": 0.0519375,
      "grad_norm": 0.7774547934532166,
      "learning_rate": 0.00029829983449289793,
      "loss": 4.0482,
      "step": 24930
    },
    {
      "epoch": 0.051958333333333336,
      "grad_norm": 0.8629083037376404,
      "learning_rate": 0.00029829835406229414,
      "loss": 4.0204,
      "step": 24940
    },
    {
      "epoch": 0.05197916666666667,
      "grad_norm": 0.9175631403923035,
      "learning_rate": 0.0002982968729911003,
      "loss": 4.0845,
      "step": 24950
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.7594811320304871,
      "learning_rate": 0.00029829539127932254,
      "loss": 3.9998,
      "step": 24960
    },
    {
      "epoch": 0.052020833333333336,
      "grad_norm": 0.6801733374595642,
      "learning_rate": 0.0002982939089269675,
      "loss": 4.0655,
      "step": 24970
    },
    {
      "epoch": 0.05204166666666667,
      "grad_norm": 0.7805155515670776,
      "learning_rate": 0.00029829242593404137,
      "loss": 4.161,
      "step": 24980
    },
    {
      "epoch": 0.0520625,
      "grad_norm": 0.7797288298606873,
      "learning_rate": 0.00029829094230055073,
      "loss": 4.0497,
      "step": 24990
    },
    {
      "epoch": 0.052083333333333336,
      "grad_norm": 0.7731020450592041,
      "learning_rate": 0.0002982894580265019,
      "loss": 4.0063,
      "step": 25000
    },
    {
      "epoch": 0.052083333333333336,
      "eval_loss": 4.336343765258789,
      "eval_runtime": 10.9593,
      "eval_samples_per_second": 0.912,
      "eval_steps_per_second": 0.274,
      "step": 25000
    },
    {
      "epoch": 0.05210416666666667,
      "grad_norm": 0.8679764270782471,
      "learning_rate": 0.0002982879731119013,
      "loss": 3.9288,
      "step": 25010
    },
    {
      "epoch": 0.052125,
      "grad_norm": 0.9660125374794006,
      "learning_rate": 0.0002982864875567553,
      "loss": 4.0654,
      "step": 25020
    },
    {
      "epoch": 0.052145833333333336,
      "grad_norm": 0.8176667094230652,
      "learning_rate": 0.00029828500136107046,
      "loss": 3.8819,
      "step": 25030
    },
    {
      "epoch": 0.05216666666666667,
      "grad_norm": 0.9000110626220703,
      "learning_rate": 0.00029828351452485305,
      "loss": 4.068,
      "step": 25040
    },
    {
      "epoch": 0.0521875,
      "grad_norm": 0.8695964813232422,
      "learning_rate": 0.0002982820270481096,
      "loss": 3.9395,
      "step": 25050
    },
    {
      "epoch": 0.052208333333333336,
      "grad_norm": 0.8436212539672852,
      "learning_rate": 0.00029828053893084645,
      "loss": 3.9008,
      "step": 25060
    },
    {
      "epoch": 0.05222916666666667,
      "grad_norm": 0.9326121807098389,
      "learning_rate": 0.00029827905017307005,
      "loss": 4.1116,
      "step": 25070
    },
    {
      "epoch": 0.05225,
      "grad_norm": 0.8112564086914062,
      "learning_rate": 0.0002982775607747869,
      "loss": 4.0608,
      "step": 25080
    },
    {
      "epoch": 0.052270833333333336,
      "grad_norm": 0.7582147121429443,
      "learning_rate": 0.00029827607073600336,
      "loss": 3.951,
      "step": 25090
    },
    {
      "epoch": 0.05229166666666667,
      "grad_norm": 1.0393558740615845,
      "learning_rate": 0.00029827458005672586,
      "loss": 3.9703,
      "step": 25100
    },
    {
      "epoch": 0.0523125,
      "grad_norm": 0.8984432220458984,
      "learning_rate": 0.0002982730887369609,
      "loss": 3.8697,
      "step": 25110
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 0.8416324257850647,
      "learning_rate": 0.00029827159677671487,
      "loss": 4.0942,
      "step": 25120
    },
    {
      "epoch": 0.05235416666666667,
      "grad_norm": 0.883117139339447,
      "learning_rate": 0.0002982701041759942,
      "loss": 4.0695,
      "step": 25130
    },
    {
      "epoch": 0.052375,
      "grad_norm": 0.9035819172859192,
      "learning_rate": 0.00029826861093480543,
      "loss": 3.8093,
      "step": 25140
    },
    {
      "epoch": 0.052395833333333336,
      "grad_norm": 0.8934262990951538,
      "learning_rate": 0.00029826711705315494,
      "loss": 3.8761,
      "step": 25150
    },
    {
      "epoch": 0.05241666666666667,
      "grad_norm": 0.7317814826965332,
      "learning_rate": 0.00029826562253104915,
      "loss": 3.9768,
      "step": 25160
    },
    {
      "epoch": 0.0524375,
      "grad_norm": 0.8332627415657043,
      "learning_rate": 0.0002982641273684946,
      "loss": 3.9911,
      "step": 25170
    },
    {
      "epoch": 0.052458333333333336,
      "grad_norm": 0.8975181579589844,
      "learning_rate": 0.0002982626315654977,
      "loss": 4.1191,
      "step": 25180
    },
    {
      "epoch": 0.05247916666666667,
      "grad_norm": 0.7242105007171631,
      "learning_rate": 0.00029826113512206493,
      "loss": 4.1464,
      "step": 25190
    },
    {
      "epoch": 0.0525,
      "grad_norm": 0.9058417081832886,
      "learning_rate": 0.0002982596380382027,
      "loss": 4.1535,
      "step": 25200
    },
    {
      "epoch": 0.052520833333333336,
      "grad_norm": 0.8835211992263794,
      "learning_rate": 0.0002982581403139175,
      "loss": 4.1697,
      "step": 25210
    },
    {
      "epoch": 0.05254166666666667,
      "grad_norm": 0.7679778337478638,
      "learning_rate": 0.00029825664194921584,
      "loss": 4.1739,
      "step": 25220
    },
    {
      "epoch": 0.0525625,
      "grad_norm": 0.7050166130065918,
      "learning_rate": 0.00029825514294410424,
      "loss": 3.9807,
      "step": 25230
    },
    {
      "epoch": 0.052583333333333336,
      "grad_norm": 0.8627490401268005,
      "learning_rate": 0.00029825364329858905,
      "loss": 3.9646,
      "step": 25240
    },
    {
      "epoch": 0.05260416666666667,
      "grad_norm": 0.7679743766784668,
      "learning_rate": 0.00029825214301267683,
      "loss": 4.1079,
      "step": 25250
    },
    {
      "epoch": 0.052625,
      "grad_norm": 0.693442165851593,
      "learning_rate": 0.000298250642086374,
      "loss": 3.8797,
      "step": 25260
    },
    {
      "epoch": 0.052645833333333336,
      "grad_norm": 0.7887197732925415,
      "learning_rate": 0.00029824914051968703,
      "loss": 4.01,
      "step": 25270
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 0.7396295070648193,
      "learning_rate": 0.00029824763831262256,
      "loss": 4.0108,
      "step": 25280
    },
    {
      "epoch": 0.0526875,
      "grad_norm": 0.9091010689735413,
      "learning_rate": 0.0002982461354651869,
      "loss": 3.9888,
      "step": 25290
    },
    {
      "epoch": 0.052708333333333336,
      "grad_norm": 0.7854157090187073,
      "learning_rate": 0.00029824463197738663,
      "loss": 4.0078,
      "step": 25300
    },
    {
      "epoch": 0.05272916666666667,
      "grad_norm": 0.7814156413078308,
      "learning_rate": 0.0002982431278492283,
      "loss": 4.0492,
      "step": 25310
    },
    {
      "epoch": 0.05275,
      "grad_norm": 0.9090737104415894,
      "learning_rate": 0.00029824162308071824,
      "loss": 3.853,
      "step": 25320
    },
    {
      "epoch": 0.052770833333333336,
      "grad_norm": 0.8163498640060425,
      "learning_rate": 0.0002982401176718631,
      "loss": 3.9872,
      "step": 25330
    },
    {
      "epoch": 0.05279166666666667,
      "grad_norm": 0.8593524694442749,
      "learning_rate": 0.00029823861162266927,
      "loss": 3.9036,
      "step": 25340
    },
    {
      "epoch": 0.0528125,
      "grad_norm": 0.7348817586898804,
      "learning_rate": 0.00029823710493314336,
      "loss": 4.0633,
      "step": 25350
    },
    {
      "epoch": 0.052833333333333336,
      "grad_norm": 0.8376555442810059,
      "learning_rate": 0.0002982355976032919,
      "loss": 4.2846,
      "step": 25360
    },
    {
      "epoch": 0.05285416666666667,
      "grad_norm": 0.9028012752532959,
      "learning_rate": 0.0002982340896331212,
      "loss": 4.0197,
      "step": 25370
    },
    {
      "epoch": 0.052875,
      "grad_norm": 0.7531469464302063,
      "learning_rate": 0.000298232581022638,
      "loss": 4.0577,
      "step": 25380
    },
    {
      "epoch": 0.052895833333333336,
      "grad_norm": 0.7810875773429871,
      "learning_rate": 0.0002982310717718487,
      "loss": 4.1812,
      "step": 25390
    },
    {
      "epoch": 0.05291666666666667,
      "grad_norm": 0.9420462846755981,
      "learning_rate": 0.0002982295618807598,
      "loss": 4.0903,
      "step": 25400
    },
    {
      "epoch": 0.0529375,
      "grad_norm": 0.8849202394485474,
      "learning_rate": 0.0002982280513493779,
      "loss": 4.0536,
      "step": 25410
    },
    {
      "epoch": 0.052958333333333336,
      "grad_norm": 0.7876471281051636,
      "learning_rate": 0.00029822654017770954,
      "loss": 4.1859,
      "step": 25420
    },
    {
      "epoch": 0.05297916666666667,
      "grad_norm": 0.6946332454681396,
      "learning_rate": 0.00029822502836576113,
      "loss": 4.0652,
      "step": 25430
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.766572892665863,
      "learning_rate": 0.0002982235159135393,
      "loss": 4.0054,
      "step": 25440
    },
    {
      "epoch": 0.053020833333333336,
      "grad_norm": 0.7415236234664917,
      "learning_rate": 0.0002982220028210506,
      "loss": 3.9045,
      "step": 25450
    },
    {
      "epoch": 0.05304166666666667,
      "grad_norm": 0.8876575231552124,
      "learning_rate": 0.0002982204890883014,
      "loss": 4.091,
      "step": 25460
    },
    {
      "epoch": 0.0530625,
      "grad_norm": 0.7859832644462585,
      "learning_rate": 0.00029821897471529843,
      "loss": 4.0758,
      "step": 25470
    },
    {
      "epoch": 0.05308333333333334,
      "grad_norm": 0.8452519178390503,
      "learning_rate": 0.00029821745970204816,
      "loss": 4.0975,
      "step": 25480
    },
    {
      "epoch": 0.05310416666666667,
      "grad_norm": 0.8111564517021179,
      "learning_rate": 0.0002982159440485571,
      "loss": 4.1749,
      "step": 25490
    },
    {
      "epoch": 0.053125,
      "grad_norm": 0.7085198163986206,
      "learning_rate": 0.00029821442775483187,
      "loss": 4.0537,
      "step": 25500
    },
    {
      "epoch": 0.05314583333333334,
      "grad_norm": 0.9012235999107361,
      "learning_rate": 0.00029821291082087896,
      "loss": 4.176,
      "step": 25510
    },
    {
      "epoch": 0.05316666666666667,
      "grad_norm": 0.8650346994400024,
      "learning_rate": 0.000298211393246705,
      "loss": 3.9709,
      "step": 25520
    },
    {
      "epoch": 0.0531875,
      "grad_norm": 0.7626082897186279,
      "learning_rate": 0.0002982098750323164,
      "loss": 3.9534,
      "step": 25530
    },
    {
      "epoch": 0.05320833333333334,
      "grad_norm": 0.7616943120956421,
      "learning_rate": 0.00029820835617771986,
      "loss": 3.9295,
      "step": 25540
    },
    {
      "epoch": 0.05322916666666667,
      "grad_norm": 0.8339295387268066,
      "learning_rate": 0.0002982068366829218,
      "loss": 4.0818,
      "step": 25550
    },
    {
      "epoch": 0.05325,
      "grad_norm": 0.7236396670341492,
      "learning_rate": 0.000298205316547929,
      "loss": 4.1177,
      "step": 25560
    },
    {
      "epoch": 0.05327083333333334,
      "grad_norm": 0.7763800621032715,
      "learning_rate": 0.0002982037957727478,
      "loss": 4.0758,
      "step": 25570
    },
    {
      "epoch": 0.05329166666666667,
      "grad_norm": 0.9085537195205688,
      "learning_rate": 0.0002982022743573849,
      "loss": 4.014,
      "step": 25580
    },
    {
      "epoch": 0.0533125,
      "grad_norm": 0.8715782761573792,
      "learning_rate": 0.00029820075230184683,
      "loss": 4.1275,
      "step": 25590
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.8721398711204529,
      "learning_rate": 0.0002981992296061402,
      "loss": 4.0606,
      "step": 25600
    },
    {
      "epoch": 0.05335416666666667,
      "grad_norm": 0.7593717575073242,
      "learning_rate": 0.00029819770627027153,
      "loss": 3.9948,
      "step": 25610
    },
    {
      "epoch": 0.053375,
      "grad_norm": 0.7327515482902527,
      "learning_rate": 0.00029819618229424744,
      "loss": 4.123,
      "step": 25620
    },
    {
      "epoch": 0.05339583333333333,
      "grad_norm": 0.7870599627494812,
      "learning_rate": 0.0002981946576780745,
      "loss": 4.1349,
      "step": 25630
    },
    {
      "epoch": 0.05341666666666667,
      "grad_norm": 0.751373291015625,
      "learning_rate": 0.0002981931324217593,
      "loss": 4.174,
      "step": 25640
    },
    {
      "epoch": 0.0534375,
      "grad_norm": 0.9155678749084473,
      "learning_rate": 0.0002981916065253084,
      "loss": 4.1807,
      "step": 25650
    },
    {
      "epoch": 0.05345833333333333,
      "grad_norm": 0.8148955702781677,
      "learning_rate": 0.0002981900799887284,
      "loss": 4.0155,
      "step": 25660
    },
    {
      "epoch": 0.05347916666666667,
      "grad_norm": 0.9303485155105591,
      "learning_rate": 0.000298188552812026,
      "loss": 3.9967,
      "step": 25670
    },
    {
      "epoch": 0.0535,
      "grad_norm": 0.8783281445503235,
      "learning_rate": 0.00029818702499520767,
      "loss": 4.0327,
      "step": 25680
    },
    {
      "epoch": 0.05352083333333333,
      "grad_norm": 0.8327281475067139,
      "learning_rate": 0.00029818549653828,
      "loss": 3.8982,
      "step": 25690
    },
    {
      "epoch": 0.05354166666666667,
      "grad_norm": 0.8736926317214966,
      "learning_rate": 0.0002981839674412497,
      "loss": 4.2395,
      "step": 25700
    },
    {
      "epoch": 0.0535625,
      "grad_norm": 0.8507968187332153,
      "learning_rate": 0.00029818243770412324,
      "loss": 4.0424,
      "step": 25710
    },
    {
      "epoch": 0.05358333333333333,
      "grad_norm": 0.923012375831604,
      "learning_rate": 0.0002981809073269074,
      "loss": 4.1088,
      "step": 25720
    },
    {
      "epoch": 0.05360416666666667,
      "grad_norm": 0.8640167713165283,
      "learning_rate": 0.0002981793763096086,
      "loss": 3.9143,
      "step": 25730
    },
    {
      "epoch": 0.053625,
      "grad_norm": 0.7366524934768677,
      "learning_rate": 0.00029817784465223363,
      "loss": 4.1999,
      "step": 25740
    },
    {
      "epoch": 0.05364583333333333,
      "grad_norm": 0.7925456762313843,
      "learning_rate": 0.00029817631235478905,
      "loss": 4.1754,
      "step": 25750
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 0.7976001501083374,
      "learning_rate": 0.0002981747794172814,
      "loss": 3.9346,
      "step": 25760
    },
    {
      "epoch": 0.0536875,
      "grad_norm": 0.8176832795143127,
      "learning_rate": 0.00029817324583971734,
      "loss": 3.8272,
      "step": 25770
    },
    {
      "epoch": 0.05370833333333333,
      "grad_norm": 0.9460039138793945,
      "learning_rate": 0.0002981717116221035,
      "loss": 4.0609,
      "step": 25780
    },
    {
      "epoch": 0.05372916666666667,
      "grad_norm": 0.8226052522659302,
      "learning_rate": 0.00029817017676444656,
      "loss": 4.213,
      "step": 25790
    },
    {
      "epoch": 0.05375,
      "grad_norm": 0.7489712834358215,
      "learning_rate": 0.00029816864126675305,
      "loss": 4.0105,
      "step": 25800
    },
    {
      "epoch": 0.05377083333333333,
      "grad_norm": 0.821898877620697,
      "learning_rate": 0.00029816710512902973,
      "loss": 4.1611,
      "step": 25810
    },
    {
      "epoch": 0.05379166666666667,
      "grad_norm": 0.8764083385467529,
      "learning_rate": 0.0002981655683512831,
      "loss": 3.9773,
      "step": 25820
    },
    {
      "epoch": 0.0538125,
      "grad_norm": 0.9119960069656372,
      "learning_rate": 0.00029816403093351987,
      "loss": 4.3071,
      "step": 25830
    },
    {
      "epoch": 0.05383333333333333,
      "grad_norm": 0.8117544054985046,
      "learning_rate": 0.00029816249287574676,
      "loss": 3.9691,
      "step": 25840
    },
    {
      "epoch": 0.05385416666666667,
      "grad_norm": 0.8214718103408813,
      "learning_rate": 0.0002981609541779702,
      "loss": 3.9859,
      "step": 25850
    },
    {
      "epoch": 0.053875,
      "grad_norm": 0.8828718662261963,
      "learning_rate": 0.00029815941484019707,
      "loss": 4.1477,
      "step": 25860
    },
    {
      "epoch": 0.05389583333333333,
      "grad_norm": 0.7494086623191833,
      "learning_rate": 0.00029815787486243387,
      "loss": 4.0238,
      "step": 25870
    },
    {
      "epoch": 0.05391666666666667,
      "grad_norm": 0.7445788979530334,
      "learning_rate": 0.00029815633424468726,
      "loss": 3.9501,
      "step": 25880
    },
    {
      "epoch": 0.0539375,
      "grad_norm": 0.8191030621528625,
      "learning_rate": 0.000298154792986964,
      "loss": 3.8307,
      "step": 25890
    },
    {
      "epoch": 0.05395833333333333,
      "grad_norm": 0.800342321395874,
      "learning_rate": 0.00029815325108927063,
      "loss": 4.002,
      "step": 25900
    },
    {
      "epoch": 0.05397916666666667,
      "grad_norm": 0.8192203044891357,
      "learning_rate": 0.0002981517085516139,
      "loss": 3.8703,
      "step": 25910
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.793821394443512,
      "learning_rate": 0.00029815016537400037,
      "loss": 4.1342,
      "step": 25920
    },
    {
      "epoch": 0.05402083333333333,
      "grad_norm": 0.7684448957443237,
      "learning_rate": 0.00029814862155643683,
      "loss": 4.0141,
      "step": 25930
    },
    {
      "epoch": 0.05404166666666667,
      "grad_norm": 2.2807905673980713,
      "learning_rate": 0.00029814707709892985,
      "loss": 4.0951,
      "step": 25940
    },
    {
      "epoch": 0.0540625,
      "grad_norm": 0.9063512682914734,
      "learning_rate": 0.00029814553200148614,
      "loss": 3.9841,
      "step": 25950
    },
    {
      "epoch": 0.05408333333333333,
      "grad_norm": 0.9260051250457764,
      "learning_rate": 0.0002981439862641124,
      "loss": 4.1763,
      "step": 25960
    },
    {
      "epoch": 0.05410416666666667,
      "grad_norm": 0.7608188390731812,
      "learning_rate": 0.0002981424398868152,
      "loss": 3.8682,
      "step": 25970
    },
    {
      "epoch": 0.054125,
      "grad_norm": 0.8798760771751404,
      "learning_rate": 0.00029814089286960135,
      "loss": 4.0684,
      "step": 25980
    },
    {
      "epoch": 0.05414583333333333,
      "grad_norm": 0.9029885530471802,
      "learning_rate": 0.0002981393452124775,
      "loss": 3.8543,
      "step": 25990
    },
    {
      "epoch": 0.05416666666666667,
      "grad_norm": 0.8066505193710327,
      "learning_rate": 0.0002981377969154503,
      "loss": 4.0914,
      "step": 26000
    },
    {
      "epoch": 0.05416666666666667,
      "eval_loss": 4.327880859375,
      "eval_runtime": 9.9548,
      "eval_samples_per_second": 1.005,
      "eval_steps_per_second": 0.301,
      "step": 26000
    },
    {
      "epoch": 0.0541875,
      "grad_norm": 0.8141273856163025,
      "learning_rate": 0.00029813624797852645,
      "loss": 4.0672,
      "step": 26010
    },
    {
      "epoch": 0.05420833333333333,
      "grad_norm": 0.987872838973999,
      "learning_rate": 0.0002981346984017127,
      "loss": 4.019,
      "step": 26020
    },
    {
      "epoch": 0.05422916666666667,
      "grad_norm": 0.7986794710159302,
      "learning_rate": 0.0002981331481850156,
      "loss": 4.0217,
      "step": 26030
    },
    {
      "epoch": 0.05425,
      "grad_norm": 0.8378542065620422,
      "learning_rate": 0.000298131597328442,
      "loss": 4.0203,
      "step": 26040
    },
    {
      "epoch": 0.05427083333333333,
      "grad_norm": 0.7954228520393372,
      "learning_rate": 0.00029813004583199854,
      "loss": 4.042,
      "step": 26050
    },
    {
      "epoch": 0.05429166666666667,
      "grad_norm": 0.8431785702705383,
      "learning_rate": 0.00029812849369569185,
      "loss": 4.1244,
      "step": 26060
    },
    {
      "epoch": 0.0543125,
      "grad_norm": 0.9173063039779663,
      "learning_rate": 0.0002981269409195287,
      "loss": 4.029,
      "step": 26070
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 0.9336336255073547,
      "learning_rate": 0.00029812538750351587,
      "loss": 4.2161,
      "step": 26080
    },
    {
      "epoch": 0.05435416666666667,
      "grad_norm": 0.7570144534111023,
      "learning_rate": 0.00029812383344765997,
      "loss": 4.1046,
      "step": 26090
    },
    {
      "epoch": 0.054375,
      "grad_norm": 0.7910475134849548,
      "learning_rate": 0.0002981222787519677,
      "loss": 3.9664,
      "step": 26100
    },
    {
      "epoch": 0.05439583333333333,
      "grad_norm": 0.8541643023490906,
      "learning_rate": 0.00029812072341644586,
      "loss": 4.1627,
      "step": 26110
    },
    {
      "epoch": 0.05441666666666667,
      "grad_norm": 1.0798332691192627,
      "learning_rate": 0.00029811916744110114,
      "loss": 4.0423,
      "step": 26120
    },
    {
      "epoch": 0.0544375,
      "grad_norm": 0.8847834467887878,
      "learning_rate": 0.0002981176108259402,
      "loss": 4.0959,
      "step": 26130
    },
    {
      "epoch": 0.05445833333333333,
      "grad_norm": 0.8834118843078613,
      "learning_rate": 0.00029811605357096983,
      "loss": 4.1612,
      "step": 26140
    },
    {
      "epoch": 0.05447916666666667,
      "grad_norm": 0.7863786220550537,
      "learning_rate": 0.00029811449567619674,
      "loss": 4.1921,
      "step": 26150
    },
    {
      "epoch": 0.0545,
      "grad_norm": 0.7746523022651672,
      "learning_rate": 0.00029811293714162765,
      "loss": 4.0166,
      "step": 26160
    },
    {
      "epoch": 0.05452083333333333,
      "grad_norm": 0.9141077399253845,
      "learning_rate": 0.0002981113779672693,
      "loss": 3.9987,
      "step": 26170
    },
    {
      "epoch": 0.05454166666666667,
      "grad_norm": 0.8758476376533508,
      "learning_rate": 0.00029810981815312843,
      "loss": 4.0979,
      "step": 26180
    },
    {
      "epoch": 0.0545625,
      "grad_norm": 0.8166067004203796,
      "learning_rate": 0.0002981082576992118,
      "loss": 4.1661,
      "step": 26190
    },
    {
      "epoch": 0.05458333333333333,
      "grad_norm": 0.9543054699897766,
      "learning_rate": 0.00029810669660552605,
      "loss": 3.9377,
      "step": 26200
    },
    {
      "epoch": 0.05460416666666667,
      "grad_norm": 0.8993768692016602,
      "learning_rate": 0.00029810513487207803,
      "loss": 4.1213,
      "step": 26210
    },
    {
      "epoch": 0.054625,
      "grad_norm": 0.8368244767189026,
      "learning_rate": 0.00029810357249887445,
      "loss": 4.0153,
      "step": 26220
    },
    {
      "epoch": 0.05464583333333333,
      "grad_norm": 0.7785241603851318,
      "learning_rate": 0.0002981020094859221,
      "loss": 4.0867,
      "step": 26230
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 0.8933708071708679,
      "learning_rate": 0.00029810044583322763,
      "loss": 4.0624,
      "step": 26240
    },
    {
      "epoch": 0.0546875,
      "grad_norm": 0.8962421417236328,
      "learning_rate": 0.0002980988815407979,
      "loss": 3.9639,
      "step": 26250
    },
    {
      "epoch": 0.05470833333333333,
      "grad_norm": 0.684798538684845,
      "learning_rate": 0.0002980973166086396,
      "loss": 4.1126,
      "step": 26260
    },
    {
      "epoch": 0.05472916666666667,
      "grad_norm": 0.9264472723007202,
      "learning_rate": 0.00029809575103675954,
      "loss": 3.862,
      "step": 26270
    },
    {
      "epoch": 0.05475,
      "grad_norm": 0.843055248260498,
      "learning_rate": 0.00029809418482516445,
      "loss": 4.1021,
      "step": 26280
    },
    {
      "epoch": 0.05477083333333333,
      "grad_norm": 0.8278912305831909,
      "learning_rate": 0.00029809261797386107,
      "loss": 4.0889,
      "step": 26290
    },
    {
      "epoch": 0.05479166666666667,
      "grad_norm": 0.6960598230361938,
      "learning_rate": 0.00029809105048285623,
      "loss": 4.0218,
      "step": 26300
    },
    {
      "epoch": 0.0548125,
      "grad_norm": 0.9725921750068665,
      "learning_rate": 0.00029808948235215667,
      "loss": 4.1104,
      "step": 26310
    },
    {
      "epoch": 0.05483333333333333,
      "grad_norm": 0.8458218574523926,
      "learning_rate": 0.00029808791358176915,
      "loss": 3.9462,
      "step": 26320
    },
    {
      "epoch": 0.05485416666666667,
      "grad_norm": 0.8072821497917175,
      "learning_rate": 0.00029808634417170045,
      "loss": 3.8956,
      "step": 26330
    },
    {
      "epoch": 0.054875,
      "grad_norm": 0.8500383496284485,
      "learning_rate": 0.00029808477412195735,
      "loss": 4.0255,
      "step": 26340
    },
    {
      "epoch": 0.05489583333333333,
      "grad_norm": 0.8301315903663635,
      "learning_rate": 0.00029808320343254667,
      "loss": 4.1327,
      "step": 26350
    },
    {
      "epoch": 0.05491666666666667,
      "grad_norm": 0.8975498676300049,
      "learning_rate": 0.00029808163210347515,
      "loss": 3.9418,
      "step": 26360
    },
    {
      "epoch": 0.0549375,
      "grad_norm": 0.7640777230262756,
      "learning_rate": 0.00029808006013474966,
      "loss": 4.0775,
      "step": 26370
    },
    {
      "epoch": 0.05495833333333333,
      "grad_norm": 0.967329740524292,
      "learning_rate": 0.00029807848752637687,
      "loss": 3.8917,
      "step": 26380
    },
    {
      "epoch": 0.05497916666666667,
      "grad_norm": 0.9528917670249939,
      "learning_rate": 0.00029807691427836356,
      "loss": 4.3266,
      "step": 26390
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.7159419655799866,
      "learning_rate": 0.0002980753403907167,
      "loss": 4.1829,
      "step": 26400
    },
    {
      "epoch": 0.05502083333333333,
      "grad_norm": 0.9421341419219971,
      "learning_rate": 0.0002980737658634429,
      "loss": 4.3492,
      "step": 26410
    },
    {
      "epoch": 0.05504166666666667,
      "grad_norm": 0.7884871363639832,
      "learning_rate": 0.00029807219069654913,
      "loss": 4.0769,
      "step": 26420
    },
    {
      "epoch": 0.0550625,
      "grad_norm": 0.836663544178009,
      "learning_rate": 0.0002980706148900421,
      "loss": 4.0898,
      "step": 26430
    },
    {
      "epoch": 0.05508333333333333,
      "grad_norm": 0.8299884796142578,
      "learning_rate": 0.0002980690384439286,
      "loss": 4.2722,
      "step": 26440
    },
    {
      "epoch": 0.05510416666666667,
      "grad_norm": 0.827055811882019,
      "learning_rate": 0.0002980674613582154,
      "loss": 4.1584,
      "step": 26450
    },
    {
      "epoch": 0.055125,
      "grad_norm": 0.798271894454956,
      "learning_rate": 0.00029806588363290944,
      "loss": 4.1217,
      "step": 26460
    },
    {
      "epoch": 0.05514583333333333,
      "grad_norm": 0.7749260067939758,
      "learning_rate": 0.0002980643052680174,
      "loss": 4.0913,
      "step": 26470
    },
    {
      "epoch": 0.05516666666666667,
      "grad_norm": 0.8462902903556824,
      "learning_rate": 0.00029806272626354624,
      "loss": 3.9218,
      "step": 26480
    },
    {
      "epoch": 0.0551875,
      "grad_norm": 0.7688209414482117,
      "learning_rate": 0.00029806114661950274,
      "loss": 3.876,
      "step": 26490
    },
    {
      "epoch": 0.05520833333333333,
      "grad_norm": 0.7899056077003479,
      "learning_rate": 0.00029805956633589364,
      "loss": 4.1518,
      "step": 26500
    },
    {
      "epoch": 0.05522916666666667,
      "grad_norm": 0.7763992547988892,
      "learning_rate": 0.0002980579854127259,
      "loss": 4.1465,
      "step": 26510
    },
    {
      "epoch": 0.05525,
      "grad_norm": 0.7726714611053467,
      "learning_rate": 0.0002980564038500061,
      "loss": 4.07,
      "step": 26520
    },
    {
      "epoch": 0.05527083333333333,
      "grad_norm": 0.8705474734306335,
      "learning_rate": 0.0002980548216477414,
      "loss": 3.9944,
      "step": 26530
    },
    {
      "epoch": 0.05529166666666667,
      "grad_norm": 0.939509391784668,
      "learning_rate": 0.00029805323880593835,
      "loss": 4.1509,
      "step": 26540
    },
    {
      "epoch": 0.0553125,
      "grad_norm": 1.152762532234192,
      "learning_rate": 0.000298051655324604,
      "loss": 3.9186,
      "step": 26550
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 0.9585802555084229,
      "learning_rate": 0.0002980500712037451,
      "loss": 4.1011,
      "step": 26560
    },
    {
      "epoch": 0.05535416666666667,
      "grad_norm": 0.9303189516067505,
      "learning_rate": 0.00029804848644336847,
      "loss": 4.0939,
      "step": 26570
    },
    {
      "epoch": 0.055375,
      "grad_norm": 0.9007387161254883,
      "learning_rate": 0.000298046901043481,
      "loss": 4.162,
      "step": 26580
    },
    {
      "epoch": 0.05539583333333333,
      "grad_norm": 0.9668160676956177,
      "learning_rate": 0.0002980453150040895,
      "loss": 4.1048,
      "step": 26590
    },
    {
      "epoch": 0.05541666666666667,
      "grad_norm": 1.0031564235687256,
      "learning_rate": 0.00029804372832520083,
      "loss": 4.1194,
      "step": 26600
    },
    {
      "epoch": 0.0554375,
      "grad_norm": 0.7170320153236389,
      "learning_rate": 0.0002980421410068218,
      "loss": 3.9291,
      "step": 26610
    },
    {
      "epoch": 0.05545833333333333,
      "grad_norm": 0.9012174010276794,
      "learning_rate": 0.0002980405530489594,
      "loss": 4.0613,
      "step": 26620
    },
    {
      "epoch": 0.05547916666666667,
      "grad_norm": 0.8920809030532837,
      "learning_rate": 0.00029803896445162044,
      "loss": 3.9663,
      "step": 26630
    },
    {
      "epoch": 0.0555,
      "grad_norm": 0.8539957404136658,
      "learning_rate": 0.0002980373752148117,
      "loss": 4.1443,
      "step": 26640
    },
    {
      "epoch": 0.05552083333333333,
      "grad_norm": 0.7610334157943726,
      "learning_rate": 0.00029803578533854006,
      "loss": 4.0156,
      "step": 26650
    },
    {
      "epoch": 0.05554166666666667,
      "grad_norm": 0.8605121970176697,
      "learning_rate": 0.0002980341948228125,
      "loss": 4.0721,
      "step": 26660
    },
    {
      "epoch": 0.0555625,
      "grad_norm": 0.9511190056800842,
      "learning_rate": 0.00029803260366763573,
      "loss": 4.0147,
      "step": 26670
    },
    {
      "epoch": 0.05558333333333333,
      "grad_norm": 0.8601688742637634,
      "learning_rate": 0.0002980310118730168,
      "loss": 3.9876,
      "step": 26680
    },
    {
      "epoch": 0.05560416666666667,
      "grad_norm": 0.8312391042709351,
      "learning_rate": 0.00029802941943896246,
      "loss": 4.1528,
      "step": 26690
    },
    {
      "epoch": 0.055625,
      "grad_norm": 0.877134382724762,
      "learning_rate": 0.0002980278263654796,
      "loss": 4.0018,
      "step": 26700
    },
    {
      "epoch": 0.05564583333333333,
      "grad_norm": 0.7916426658630371,
      "learning_rate": 0.0002980262326525751,
      "loss": 4.0851,
      "step": 26710
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 1.0125732421875,
      "learning_rate": 0.00029802463830025594,
      "loss": 4.079,
      "step": 26720
    },
    {
      "epoch": 0.0556875,
      "grad_norm": 0.8588639497756958,
      "learning_rate": 0.0002980230433085289,
      "loss": 4.0211,
      "step": 26730
    },
    {
      "epoch": 0.05570833333333333,
      "grad_norm": 0.712783932685852,
      "learning_rate": 0.0002980214476774009,
      "loss": 3.9905,
      "step": 26740
    },
    {
      "epoch": 0.05572916666666667,
      "grad_norm": 0.8296897411346436,
      "learning_rate": 0.00029801985140687887,
      "loss": 3.9402,
      "step": 26750
    },
    {
      "epoch": 0.05575,
      "grad_norm": 0.8519870638847351,
      "learning_rate": 0.0002980182544969696,
      "loss": 3.9881,
      "step": 26760
    },
    {
      "epoch": 0.05577083333333333,
      "grad_norm": 0.775160551071167,
      "learning_rate": 0.0002980166569476801,
      "loss": 3.8696,
      "step": 26770
    },
    {
      "epoch": 0.05579166666666667,
      "grad_norm": 0.8488153219223022,
      "learning_rate": 0.00029801505875901724,
      "loss": 4.1092,
      "step": 26780
    },
    {
      "epoch": 0.0558125,
      "grad_norm": 0.8470948934555054,
      "learning_rate": 0.0002980134599309879,
      "loss": 3.9841,
      "step": 26790
    },
    {
      "epoch": 0.05583333333333333,
      "grad_norm": 0.8169370889663696,
      "learning_rate": 0.000298011860463599,
      "loss": 4.0456,
      "step": 26800
    },
    {
      "epoch": 0.05585416666666667,
      "grad_norm": 0.8172879815101624,
      "learning_rate": 0.00029801026035685747,
      "loss": 4.162,
      "step": 26810
    },
    {
      "epoch": 0.055875,
      "grad_norm": 0.8793221712112427,
      "learning_rate": 0.0002980086596107702,
      "loss": 3.8978,
      "step": 26820
    },
    {
      "epoch": 0.05589583333333333,
      "grad_norm": 0.7493585348129272,
      "learning_rate": 0.0002980070582253441,
      "loss": 4.1169,
      "step": 26830
    },
    {
      "epoch": 0.05591666666666667,
      "grad_norm": 0.7737422585487366,
      "learning_rate": 0.00029800545620058605,
      "loss": 4.1433,
      "step": 26840
    },
    {
      "epoch": 0.0559375,
      "grad_norm": 0.8545136451721191,
      "learning_rate": 0.0002980038535365031,
      "loss": 4.0284,
      "step": 26850
    },
    {
      "epoch": 0.05595833333333333,
      "grad_norm": 0.7985082268714905,
      "learning_rate": 0.00029800225023310205,
      "loss": 4.2711,
      "step": 26860
    },
    {
      "epoch": 0.05597916666666667,
      "grad_norm": 1.006777048110962,
      "learning_rate": 0.00029800064629038984,
      "loss": 4.1632,
      "step": 26870
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.8652099370956421,
      "learning_rate": 0.0002979990417083734,
      "loss": 3.9666,
      "step": 26880
    },
    {
      "epoch": 0.05602083333333333,
      "grad_norm": 0.8486884832382202,
      "learning_rate": 0.00029799743648705975,
      "loss": 3.9628,
      "step": 26890
    },
    {
      "epoch": 0.05604166666666666,
      "grad_norm": 0.7718522548675537,
      "learning_rate": 0.0002979958306264557,
      "loss": 4.1106,
      "step": 26900
    },
    {
      "epoch": 0.0560625,
      "grad_norm": 0.7484955191612244,
      "learning_rate": 0.0002979942241265683,
      "loss": 3.9871,
      "step": 26910
    },
    {
      "epoch": 0.05608333333333333,
      "grad_norm": 0.8751292824745178,
      "learning_rate": 0.0002979926169874044,
      "loss": 3.9829,
      "step": 26920
    },
    {
      "epoch": 0.05610416666666666,
      "grad_norm": 0.8743491768836975,
      "learning_rate": 0.00029799100920897093,
      "loss": 4.0426,
      "step": 26930
    },
    {
      "epoch": 0.056125,
      "grad_norm": 0.7279717326164246,
      "learning_rate": 0.000297989400791275,
      "loss": 4.3661,
      "step": 26940
    },
    {
      "epoch": 0.05614583333333333,
      "grad_norm": 0.9955036044120789,
      "learning_rate": 0.0002979877917343233,
      "loss": 4.0641,
      "step": 26950
    },
    {
      "epoch": 0.05616666666666666,
      "grad_norm": 0.9362075328826904,
      "learning_rate": 0.000297986182038123,
      "loss": 4.0888,
      "step": 26960
    },
    {
      "epoch": 0.0561875,
      "grad_norm": 0.8330509066581726,
      "learning_rate": 0.0002979845717026809,
      "loss": 4.0181,
      "step": 26970
    },
    {
      "epoch": 0.05620833333333333,
      "grad_norm": 0.8496983051300049,
      "learning_rate": 0.0002979829607280041,
      "loss": 3.9437,
      "step": 26980
    },
    {
      "epoch": 0.05622916666666666,
      "grad_norm": 0.8705129623413086,
      "learning_rate": 0.00029798134911409945,
      "loss": 4.0155,
      "step": 26990
    },
    {
      "epoch": 0.05625,
      "grad_norm": 0.8399545550346375,
      "learning_rate": 0.00029797973686097396,
      "loss": 4.1028,
      "step": 27000
    },
    {
      "epoch": 0.05625,
      "eval_loss": 4.34025764465332,
      "eval_runtime": 8.7535,
      "eval_samples_per_second": 1.142,
      "eval_steps_per_second": 0.343,
      "step": 27000
    },
    {
      "epoch": 0.05627083333333333,
      "grad_norm": 0.7662619352340698,
      "learning_rate": 0.0002979781239686346,
      "loss": 3.9422,
      "step": 27010
    },
    {
      "epoch": 0.05629166666666666,
      "grad_norm": 0.8046996593475342,
      "learning_rate": 0.00029797651043708825,
      "loss": 3.939,
      "step": 27020
    },
    {
      "epoch": 0.0563125,
      "grad_norm": 0.7235816717147827,
      "learning_rate": 0.000297974896266342,
      "loss": 3.8503,
      "step": 27030
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 0.7669816613197327,
      "learning_rate": 0.00029797328145640277,
      "loss": 3.9678,
      "step": 27040
    },
    {
      "epoch": 0.056354166666666664,
      "grad_norm": 0.9331650733947754,
      "learning_rate": 0.00029797166600727755,
      "loss": 3.9661,
      "step": 27050
    },
    {
      "epoch": 0.056375,
      "grad_norm": 0.8737671971321106,
      "learning_rate": 0.00029797004991897325,
      "loss": 4.083,
      "step": 27060
    },
    {
      "epoch": 0.05639583333333333,
      "grad_norm": 0.8824302554130554,
      "learning_rate": 0.0002979684331914969,
      "loss": 3.9502,
      "step": 27070
    },
    {
      "epoch": 0.056416666666666664,
      "grad_norm": 0.8021812438964844,
      "learning_rate": 0.0002979668158248556,
      "loss": 4.0736,
      "step": 27080
    },
    {
      "epoch": 0.0564375,
      "grad_norm": 0.8866938352584839,
      "learning_rate": 0.0002979651978190561,
      "loss": 4.099,
      "step": 27090
    },
    {
      "epoch": 0.05645833333333333,
      "grad_norm": 1.1149288415908813,
      "learning_rate": 0.0002979635791741056,
      "loss": 4.0386,
      "step": 27100
    },
    {
      "epoch": 0.056479166666666664,
      "grad_norm": 0.8148994445800781,
      "learning_rate": 0.00029796195989001097,
      "loss": 3.997,
      "step": 27110
    },
    {
      "epoch": 0.0565,
      "grad_norm": 0.9753552079200745,
      "learning_rate": 0.00029796033996677923,
      "loss": 3.9277,
      "step": 27120
    },
    {
      "epoch": 0.05652083333333333,
      "grad_norm": 0.7911841869354248,
      "learning_rate": 0.0002979587194044174,
      "loss": 4.129,
      "step": 27130
    },
    {
      "epoch": 0.056541666666666664,
      "grad_norm": 0.9248166680335999,
      "learning_rate": 0.00029795709820293245,
      "loss": 4.0083,
      "step": 27140
    },
    {
      "epoch": 0.0565625,
      "grad_norm": 0.8655888438224792,
      "learning_rate": 0.0002979554763623314,
      "loss": 4.0271,
      "step": 27150
    },
    {
      "epoch": 0.05658333333333333,
      "grad_norm": 0.818027138710022,
      "learning_rate": 0.0002979538538826213,
      "loss": 4.028,
      "step": 27160
    },
    {
      "epoch": 0.056604166666666664,
      "grad_norm": 0.7877675890922546,
      "learning_rate": 0.0002979522307638091,
      "loss": 4.0262,
      "step": 27170
    },
    {
      "epoch": 0.056625,
      "grad_norm": 0.8260944485664368,
      "learning_rate": 0.0002979506070059018,
      "loss": 3.796,
      "step": 27180
    },
    {
      "epoch": 0.05664583333333333,
      "grad_norm": 0.8311991095542908,
      "learning_rate": 0.0002979489826089065,
      "loss": 3.8647,
      "step": 27190
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 0.8984955549240112,
      "learning_rate": 0.0002979473575728301,
      "loss": 4.0896,
      "step": 27200
    },
    {
      "epoch": 0.0566875,
      "grad_norm": 0.7244242429733276,
      "learning_rate": 0.0002979457318976797,
      "loss": 3.9002,
      "step": 27210
    },
    {
      "epoch": 0.05670833333333333,
      "grad_norm": 0.9853846430778503,
      "learning_rate": 0.0002979441055834623,
      "loss": 3.9856,
      "step": 27220
    },
    {
      "epoch": 0.056729166666666664,
      "grad_norm": 0.8580873012542725,
      "learning_rate": 0.0002979424786301849,
      "loss": 4.0081,
      "step": 27230
    },
    {
      "epoch": 0.05675,
      "grad_norm": 0.8319786787033081,
      "learning_rate": 0.00029794085103785456,
      "loss": 4.0757,
      "step": 27240
    },
    {
      "epoch": 0.05677083333333333,
      "grad_norm": 0.8109108805656433,
      "learning_rate": 0.00029793922280647834,
      "loss": 4.1142,
      "step": 27250
    },
    {
      "epoch": 0.056791666666666664,
      "grad_norm": 0.8998830914497375,
      "learning_rate": 0.00029793759393606316,
      "loss": 4.0393,
      "step": 27260
    },
    {
      "epoch": 0.0568125,
      "grad_norm": 0.900560200214386,
      "learning_rate": 0.0002979359644266162,
      "loss": 4.0735,
      "step": 27270
    },
    {
      "epoch": 0.05683333333333333,
      "grad_norm": 0.7826215028762817,
      "learning_rate": 0.0002979343342781444,
      "loss": 4.1502,
      "step": 27280
    },
    {
      "epoch": 0.056854166666666664,
      "grad_norm": 0.9946727156639099,
      "learning_rate": 0.00029793270349065483,
      "loss": 4.1398,
      "step": 27290
    },
    {
      "epoch": 0.056875,
      "grad_norm": 0.7540108561515808,
      "learning_rate": 0.0002979310720641546,
      "loss": 4.0657,
      "step": 27300
    },
    {
      "epoch": 0.05689583333333333,
      "grad_norm": 0.8192663788795471,
      "learning_rate": 0.00029792943999865063,
      "loss": 4.0565,
      "step": 27310
    },
    {
      "epoch": 0.056916666666666664,
      "grad_norm": 0.8690114617347717,
      "learning_rate": 0.00029792780729415006,
      "loss": 3.9907,
      "step": 27320
    },
    {
      "epoch": 0.0569375,
      "grad_norm": 0.7957090139389038,
      "learning_rate": 0.00029792617395065987,
      "loss": 3.9551,
      "step": 27330
    },
    {
      "epoch": 0.05695833333333333,
      "grad_norm": 0.8989977836608887,
      "learning_rate": 0.0002979245399681872,
      "loss": 3.7973,
      "step": 27340
    },
    {
      "epoch": 0.056979166666666664,
      "grad_norm": 0.756544291973114,
      "learning_rate": 0.00029792290534673904,
      "loss": 3.9086,
      "step": 27350
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.765736997127533,
      "learning_rate": 0.00029792127008632254,
      "loss": 4.0317,
      "step": 27360
    },
    {
      "epoch": 0.05702083333333333,
      "grad_norm": 0.7790989279747009,
      "learning_rate": 0.00029791963418694466,
      "loss": 4.0469,
      "step": 27370
    },
    {
      "epoch": 0.057041666666666664,
      "grad_norm": 0.9195044040679932,
      "learning_rate": 0.0002979179976486125,
      "loss": 4.0934,
      "step": 27380
    },
    {
      "epoch": 0.0570625,
      "grad_norm": 0.776422917842865,
      "learning_rate": 0.00029791636047133313,
      "loss": 3.9163,
      "step": 27390
    },
    {
      "epoch": 0.05708333333333333,
      "grad_norm": 0.6974582672119141,
      "learning_rate": 0.00029791472265511374,
      "loss": 4.0636,
      "step": 27400
    },
    {
      "epoch": 0.057104166666666664,
      "grad_norm": 0.8672731518745422,
      "learning_rate": 0.00029791308419996115,
      "loss": 3.9009,
      "step": 27410
    },
    {
      "epoch": 0.057125,
      "grad_norm": 0.7101858854293823,
      "learning_rate": 0.0002979114451058827,
      "loss": 4.1968,
      "step": 27420
    },
    {
      "epoch": 0.05714583333333333,
      "grad_norm": 0.7952308654785156,
      "learning_rate": 0.0002979098053728853,
      "loss": 4.1748,
      "step": 27430
    },
    {
      "epoch": 0.057166666666666664,
      "grad_norm": 0.8893304467201233,
      "learning_rate": 0.0002979081650009761,
      "loss": 4.0173,
      "step": 27440
    },
    {
      "epoch": 0.0571875,
      "grad_norm": 0.7687021493911743,
      "learning_rate": 0.00029790652399016215,
      "loss": 4.025,
      "step": 27450
    },
    {
      "epoch": 0.05720833333333333,
      "grad_norm": 0.8946152925491333,
      "learning_rate": 0.0002979048823404506,
      "loss": 4.0742,
      "step": 27460
    },
    {
      "epoch": 0.057229166666666664,
      "grad_norm": 0.85627681016922,
      "learning_rate": 0.0002979032400518485,
      "loss": 4.0041,
      "step": 27470
    },
    {
      "epoch": 0.05725,
      "grad_norm": 0.7949414253234863,
      "learning_rate": 0.0002979015971243629,
      "loss": 4.0341,
      "step": 27480
    },
    {
      "epoch": 0.05727083333333333,
      "grad_norm": 0.8534319400787354,
      "learning_rate": 0.00029789995355800097,
      "loss": 4.159,
      "step": 27490
    },
    {
      "epoch": 0.057291666666666664,
      "grad_norm": 0.8384714722633362,
      "learning_rate": 0.0002978983093527698,
      "loss": 3.859,
      "step": 27500
    },
    {
      "epoch": 0.0573125,
      "grad_norm": 0.8197859525680542,
      "learning_rate": 0.00029789666450867646,
      "loss": 4.117,
      "step": 27510
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 1.0367538928985596,
      "learning_rate": 0.0002978950190257281,
      "loss": 4.1616,
      "step": 27520
    },
    {
      "epoch": 0.057354166666666664,
      "grad_norm": 0.99312424659729,
      "learning_rate": 0.0002978933729039318,
      "loss": 4.169,
      "step": 27530
    },
    {
      "epoch": 0.057375,
      "grad_norm": 0.8041914701461792,
      "learning_rate": 0.0002978917261432946,
      "loss": 4.0776,
      "step": 27540
    },
    {
      "epoch": 0.05739583333333333,
      "grad_norm": 0.8126703500747681,
      "learning_rate": 0.0002978900787438237,
      "loss": 4.0802,
      "step": 27550
    },
    {
      "epoch": 0.057416666666666664,
      "grad_norm": 0.9069227576255798,
      "learning_rate": 0.00029788843070552626,
      "loss": 3.9387,
      "step": 27560
    },
    {
      "epoch": 0.0574375,
      "grad_norm": 0.887240469455719,
      "learning_rate": 0.0002978867820284093,
      "loss": 3.9194,
      "step": 27570
    },
    {
      "epoch": 0.057458333333333333,
      "grad_norm": 0.9570077061653137,
      "learning_rate": 0.00029788513271247996,
      "loss": 4.0781,
      "step": 27580
    },
    {
      "epoch": 0.057479166666666665,
      "grad_norm": 0.8808181881904602,
      "learning_rate": 0.0002978834827577454,
      "loss": 4.1384,
      "step": 27590
    },
    {
      "epoch": 0.0575,
      "grad_norm": 0.8422778844833374,
      "learning_rate": 0.00029788183216421276,
      "loss": 4.1494,
      "step": 27600
    },
    {
      "epoch": 0.057520833333333334,
      "grad_norm": 0.6994836330413818,
      "learning_rate": 0.00029788018093188914,
      "loss": 4.1421,
      "step": 27610
    },
    {
      "epoch": 0.057541666666666665,
      "grad_norm": 0.8527041077613831,
      "learning_rate": 0.00029787852906078163,
      "loss": 4.1566,
      "step": 27620
    },
    {
      "epoch": 0.0575625,
      "grad_norm": 0.7462884783744812,
      "learning_rate": 0.00029787687655089744,
      "loss": 4.0049,
      "step": 27630
    },
    {
      "epoch": 0.057583333333333334,
      "grad_norm": 0.813798725605011,
      "learning_rate": 0.00029787522340224366,
      "loss": 4.0982,
      "step": 27640
    },
    {
      "epoch": 0.057604166666666665,
      "grad_norm": 0.8344324231147766,
      "learning_rate": 0.00029787356961482746,
      "loss": 4.0809,
      "step": 27650
    },
    {
      "epoch": 0.057625,
      "grad_norm": 1.0217283964157104,
      "learning_rate": 0.00029787191518865593,
      "loss": 3.9823,
      "step": 27660
    },
    {
      "epoch": 0.057645833333333334,
      "grad_norm": 0.9248143434524536,
      "learning_rate": 0.00029787026012373635,
      "loss": 3.8954,
      "step": 27670
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 0.7930680513381958,
      "learning_rate": 0.00029786860442007574,
      "loss": 4.1168,
      "step": 27680
    },
    {
      "epoch": 0.0576875,
      "grad_norm": 0.8671926856040955,
      "learning_rate": 0.00029786694807768123,
      "loss": 3.9908,
      "step": 27690
    },
    {
      "epoch": 0.057708333333333334,
      "grad_norm": 0.7984269857406616,
      "learning_rate": 0.0002978652910965601,
      "loss": 4.062,
      "step": 27700
    },
    {
      "epoch": 0.057729166666666665,
      "grad_norm": 1.006212830543518,
      "learning_rate": 0.00029786363347671937,
      "loss": 3.9895,
      "step": 27710
    },
    {
      "epoch": 0.05775,
      "grad_norm": 0.8185776472091675,
      "learning_rate": 0.0002978619752181663,
      "loss": 4.1555,
      "step": 27720
    },
    {
      "epoch": 0.057770833333333334,
      "grad_norm": 0.7997540235519409,
      "learning_rate": 0.00029786031632090805,
      "loss": 4.0457,
      "step": 27730
    },
    {
      "epoch": 0.057791666666666665,
      "grad_norm": 0.9799068570137024,
      "learning_rate": 0.0002978586567849518,
      "loss": 4.0002,
      "step": 27740
    },
    {
      "epoch": 0.0578125,
      "grad_norm": 0.7385460734367371,
      "learning_rate": 0.0002978569966103046,
      "loss": 4.0234,
      "step": 27750
    },
    {
      "epoch": 0.057833333333333334,
      "grad_norm": 0.8779273629188538,
      "learning_rate": 0.00029785533579697375,
      "loss": 4.0522,
      "step": 27760
    },
    {
      "epoch": 0.057854166666666665,
      "grad_norm": 0.914624035358429,
      "learning_rate": 0.00029785367434496636,
      "loss": 4.1752,
      "step": 27770
    },
    {
      "epoch": 0.057875,
      "grad_norm": 0.8123421669006348,
      "learning_rate": 0.00029785201225428963,
      "loss": 4.1883,
      "step": 27780
    },
    {
      "epoch": 0.057895833333333334,
      "grad_norm": 0.8019118905067444,
      "learning_rate": 0.0002978503495249507,
      "loss": 4.1303,
      "step": 27790
    },
    {
      "epoch": 0.057916666666666665,
      "grad_norm": 0.8312571048736572,
      "learning_rate": 0.0002978486861569568,
      "loss": 4.1969,
      "step": 27800
    },
    {
      "epoch": 0.0579375,
      "grad_norm": 0.8312780261039734,
      "learning_rate": 0.0002978470221503151,
      "loss": 4.1649,
      "step": 27810
    },
    {
      "epoch": 0.057958333333333334,
      "grad_norm": 0.9603740572929382,
      "learning_rate": 0.0002978453575050328,
      "loss": 3.848,
      "step": 27820
    },
    {
      "epoch": 0.057979166666666665,
      "grad_norm": 0.7763473391532898,
      "learning_rate": 0.00029784369222111707,
      "loss": 4.1055,
      "step": 27830
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.8713984489440918,
      "learning_rate": 0.0002978420262985751,
      "loss": 4.0039,
      "step": 27840
    },
    {
      "epoch": 0.058020833333333334,
      "grad_norm": 0.7909165024757385,
      "learning_rate": 0.00029784035973741413,
      "loss": 4.0107,
      "step": 27850
    },
    {
      "epoch": 0.058041666666666665,
      "grad_norm": 0.8102976083755493,
      "learning_rate": 0.0002978386925376413,
      "loss": 3.9948,
      "step": 27860
    },
    {
      "epoch": 0.0580625,
      "grad_norm": 0.7579713463783264,
      "learning_rate": 0.0002978370246992638,
      "loss": 4.0644,
      "step": 27870
    },
    {
      "epoch": 0.058083333333333334,
      "grad_norm": 0.8094449043273926,
      "learning_rate": 0.0002978353562222889,
      "loss": 4.0242,
      "step": 27880
    },
    {
      "epoch": 0.058104166666666665,
      "grad_norm": 0.8413870930671692,
      "learning_rate": 0.0002978336871067238,
      "loss": 4.1037,
      "step": 27890
    },
    {
      "epoch": 0.058125,
      "grad_norm": 0.9004387855529785,
      "learning_rate": 0.0002978320173525757,
      "loss": 3.9812,
      "step": 27900
    },
    {
      "epoch": 0.058145833333333334,
      "grad_norm": 0.8963835835456848,
      "learning_rate": 0.0002978303469598517,
      "loss": 4.0219,
      "step": 27910
    },
    {
      "epoch": 0.058166666666666665,
      "grad_norm": 0.7338860630989075,
      "learning_rate": 0.00029782867592855925,
      "loss": 4.0023,
      "step": 27920
    },
    {
      "epoch": 0.0581875,
      "grad_norm": 0.8324993848800659,
      "learning_rate": 0.0002978270042587054,
      "loss": 4.0042,
      "step": 27930
    },
    {
      "epoch": 0.058208333333333334,
      "grad_norm": 0.9510817527770996,
      "learning_rate": 0.00029782533195029737,
      "loss": 3.8577,
      "step": 27940
    },
    {
      "epoch": 0.058229166666666665,
      "grad_norm": 0.8871030211448669,
      "learning_rate": 0.0002978236590033424,
      "loss": 3.9181,
      "step": 27950
    },
    {
      "epoch": 0.05825,
      "grad_norm": 0.7444835901260376,
      "learning_rate": 0.0002978219854178478,
      "loss": 3.8736,
      "step": 27960
    },
    {
      "epoch": 0.058270833333333334,
      "grad_norm": 0.8341856598854065,
      "learning_rate": 0.0002978203111938207,
      "loss": 4.0376,
      "step": 27970
    },
    {
      "epoch": 0.058291666666666665,
      "grad_norm": 0.9582986235618591,
      "learning_rate": 0.00029781863633126837,
      "loss": 4.0826,
      "step": 27980
    },
    {
      "epoch": 0.0583125,
      "grad_norm": 0.7271352410316467,
      "learning_rate": 0.00029781696083019797,
      "loss": 4.0753,
      "step": 27990
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 0.7385260462760925,
      "learning_rate": 0.00029781528469061694,
      "loss": 3.9719,
      "step": 28000
    },
    {
      "epoch": 0.058333333333333334,
      "eval_loss": 4.3337297439575195,
      "eval_runtime": 9.7426,
      "eval_samples_per_second": 1.026,
      "eval_steps_per_second": 0.308,
      "step": 28000
    },
    {
      "epoch": 0.058354166666666665,
      "grad_norm": 0.9821462631225586,
      "learning_rate": 0.0002978136079125323,
      "loss": 3.8396,
      "step": 28010
    },
    {
      "epoch": 0.058375,
      "grad_norm": 0.8511221408843994,
      "learning_rate": 0.00029781193049595143,
      "loss": 4.1699,
      "step": 28020
    },
    {
      "epoch": 0.058395833333333334,
      "grad_norm": 0.8254387974739075,
      "learning_rate": 0.0002978102524408815,
      "loss": 4.082,
      "step": 28030
    },
    {
      "epoch": 0.058416666666666665,
      "grad_norm": 0.783639132976532,
      "learning_rate": 0.0002978085737473298,
      "loss": 3.9503,
      "step": 28040
    },
    {
      "epoch": 0.0584375,
      "grad_norm": 1.0915508270263672,
      "learning_rate": 0.00029780689441530355,
      "loss": 3.9063,
      "step": 28050
    },
    {
      "epoch": 0.058458333333333334,
      "grad_norm": 0.9193095564842224,
      "learning_rate": 0.00029780521444481,
      "loss": 4.0717,
      "step": 28060
    },
    {
      "epoch": 0.058479166666666665,
      "grad_norm": 0.9121372103691101,
      "learning_rate": 0.0002978035338358565,
      "loss": 3.9815,
      "step": 28070
    },
    {
      "epoch": 0.0585,
      "grad_norm": 0.787655234336853,
      "learning_rate": 0.0002978018525884502,
      "loss": 4.1139,
      "step": 28080
    },
    {
      "epoch": 0.058520833333333334,
      "grad_norm": 0.8940716981887817,
      "learning_rate": 0.0002978001707025984,
      "loss": 4.1568,
      "step": 28090
    },
    {
      "epoch": 0.058541666666666665,
      "grad_norm": 0.8758763670921326,
      "learning_rate": 0.0002977984881783084,
      "loss": 3.9863,
      "step": 28100
    },
    {
      "epoch": 0.0585625,
      "grad_norm": 0.7488703727722168,
      "learning_rate": 0.00029779680501558736,
      "loss": 3.8419,
      "step": 28110
    },
    {
      "epoch": 0.058583333333333334,
      "grad_norm": 0.771414041519165,
      "learning_rate": 0.0002977951212144427,
      "loss": 4.028,
      "step": 28120
    },
    {
      "epoch": 0.058604166666666666,
      "grad_norm": 1.0134316682815552,
      "learning_rate": 0.0002977934367748816,
      "loss": 3.9775,
      "step": 28130
    },
    {
      "epoch": 0.058625,
      "grad_norm": 0.8183576464653015,
      "learning_rate": 0.0002977917516969113,
      "loss": 4.0934,
      "step": 28140
    },
    {
      "epoch": 0.058645833333333335,
      "grad_norm": 0.8778153657913208,
      "learning_rate": 0.0002977900659805392,
      "loss": 4.0242,
      "step": 28150
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 1.1029689311981201,
      "learning_rate": 0.0002977883796257725,
      "loss": 4.0612,
      "step": 28160
    },
    {
      "epoch": 0.0586875,
      "grad_norm": 0.7578759789466858,
      "learning_rate": 0.00029778669263261844,
      "loss": 4.0755,
      "step": 28170
    },
    {
      "epoch": 0.058708333333333335,
      "grad_norm": 0.8067404627799988,
      "learning_rate": 0.0002977850050010844,
      "loss": 4.0353,
      "step": 28180
    },
    {
      "epoch": 0.058729166666666666,
      "grad_norm": 0.7950558066368103,
      "learning_rate": 0.00029778331673117767,
      "loss": 4.0281,
      "step": 28190
    },
    {
      "epoch": 0.05875,
      "grad_norm": 0.7035298347473145,
      "learning_rate": 0.0002977816278229055,
      "loss": 3.901,
      "step": 28200
    },
    {
      "epoch": 0.058770833333333335,
      "grad_norm": 0.8084566593170166,
      "learning_rate": 0.00029777993827627517,
      "loss": 4.137,
      "step": 28210
    },
    {
      "epoch": 0.058791666666666666,
      "grad_norm": 0.8556565642356873,
      "learning_rate": 0.000297778248091294,
      "loss": 4.2009,
      "step": 28220
    },
    {
      "epoch": 0.0588125,
      "grad_norm": 0.7428489923477173,
      "learning_rate": 0.0002977765572679693,
      "loss": 4.113,
      "step": 28230
    },
    {
      "epoch": 0.058833333333333335,
      "grad_norm": 0.7887394428253174,
      "learning_rate": 0.0002977748658063084,
      "loss": 4.0304,
      "step": 28240
    },
    {
      "epoch": 0.058854166666666666,
      "grad_norm": 0.8271185159683228,
      "learning_rate": 0.0002977731737063185,
      "loss": 4.0396,
      "step": 28250
    },
    {
      "epoch": 0.058875,
      "grad_norm": 0.7731518745422363,
      "learning_rate": 0.00029777148096800707,
      "loss": 4.0463,
      "step": 28260
    },
    {
      "epoch": 0.058895833333333335,
      "grad_norm": 0.8690152764320374,
      "learning_rate": 0.00029776978759138125,
      "loss": 4.0801,
      "step": 28270
    },
    {
      "epoch": 0.058916666666666666,
      "grad_norm": 0.8408668041229248,
      "learning_rate": 0.0002977680935764485,
      "loss": 4.0922,
      "step": 28280
    },
    {
      "epoch": 0.0589375,
      "grad_norm": 0.8092278838157654,
      "learning_rate": 0.00029776639892321606,
      "loss": 4.1257,
      "step": 28290
    },
    {
      "epoch": 0.058958333333333335,
      "grad_norm": 0.8814899325370789,
      "learning_rate": 0.0002977647036316913,
      "loss": 3.9045,
      "step": 28300
    },
    {
      "epoch": 0.058979166666666666,
      "grad_norm": 4.785010814666748,
      "learning_rate": 0.00029776300770188144,
      "loss": 3.9294,
      "step": 28310
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.7081260681152344,
      "learning_rate": 0.00029776131113379387,
      "loss": 4.0657,
      "step": 28320
    },
    {
      "epoch": 0.059020833333333335,
      "grad_norm": 0.7731541395187378,
      "learning_rate": 0.000297759613927436,
      "loss": 4.0361,
      "step": 28330
    },
    {
      "epoch": 0.059041666666666666,
      "grad_norm": 0.7795857787132263,
      "learning_rate": 0.000297757916082815,
      "loss": 4.0586,
      "step": 28340
    },
    {
      "epoch": 0.0590625,
      "grad_norm": 0.8129675984382629,
      "learning_rate": 0.0002977562175999384,
      "loss": 4.0363,
      "step": 28350
    },
    {
      "epoch": 0.059083333333333335,
      "grad_norm": 0.8184221386909485,
      "learning_rate": 0.00029775451847881333,
      "loss": 3.9616,
      "step": 28360
    },
    {
      "epoch": 0.059104166666666666,
      "grad_norm": 0.8976306319236755,
      "learning_rate": 0.00029775281871944725,
      "loss": 3.937,
      "step": 28370
    },
    {
      "epoch": 0.059125,
      "grad_norm": 0.7422711253166199,
      "learning_rate": 0.0002977511183218475,
      "loss": 4.097,
      "step": 28380
    },
    {
      "epoch": 0.059145833333333335,
      "grad_norm": 0.8507609963417053,
      "learning_rate": 0.00029774941728602137,
      "loss": 3.9694,
      "step": 28390
    },
    {
      "epoch": 0.059166666666666666,
      "grad_norm": 0.7471102476119995,
      "learning_rate": 0.00029774771561197626,
      "loss": 4.0232,
      "step": 28400
    },
    {
      "epoch": 0.0591875,
      "grad_norm": 0.8396421670913696,
      "learning_rate": 0.0002977460132997195,
      "loss": 3.911,
      "step": 28410
    },
    {
      "epoch": 0.059208333333333335,
      "grad_norm": 0.8948994278907776,
      "learning_rate": 0.00029774431034925846,
      "loss": 4.3207,
      "step": 28420
    },
    {
      "epoch": 0.059229166666666666,
      "grad_norm": 0.649896502494812,
      "learning_rate": 0.00029774260676060046,
      "loss": 4.1688,
      "step": 28430
    },
    {
      "epoch": 0.05925,
      "grad_norm": 0.8756998777389526,
      "learning_rate": 0.00029774090253375287,
      "loss": 3.9492,
      "step": 28440
    },
    {
      "epoch": 0.059270833333333335,
      "grad_norm": 1.0259588956832886,
      "learning_rate": 0.00029773919766872307,
      "loss": 3.9834,
      "step": 28450
    },
    {
      "epoch": 0.059291666666666666,
      "grad_norm": 1.091251015663147,
      "learning_rate": 0.0002977374921655184,
      "loss": 4.0844,
      "step": 28460
    },
    {
      "epoch": 0.0593125,
      "grad_norm": 0.8668212294578552,
      "learning_rate": 0.0002977357860241463,
      "loss": 4.1526,
      "step": 28470
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 0.8509314656257629,
      "learning_rate": 0.00029773407924461404,
      "loss": 3.9016,
      "step": 28480
    },
    {
      "epoch": 0.059354166666666666,
      "grad_norm": 0.8672800660133362,
      "learning_rate": 0.00029773237182692904,
      "loss": 4.1919,
      "step": 28490
    },
    {
      "epoch": 0.059375,
      "grad_norm": 0.8291724324226379,
      "learning_rate": 0.0002977306637710987,
      "loss": 3.9928,
      "step": 28500
    },
    {
      "epoch": 0.059395833333333335,
      "grad_norm": 0.7973001599311829,
      "learning_rate": 0.0002977289550771303,
      "loss": 4.2397,
      "step": 28510
    },
    {
      "epoch": 0.059416666666666666,
      "grad_norm": 0.8378255367279053,
      "learning_rate": 0.00029772724574503133,
      "loss": 4.1656,
      "step": 28520
    },
    {
      "epoch": 0.0594375,
      "grad_norm": 0.7942454218864441,
      "learning_rate": 0.00029772553577480916,
      "loss": 4.1935,
      "step": 28530
    },
    {
      "epoch": 0.059458333333333335,
      "grad_norm": 0.8349277377128601,
      "learning_rate": 0.0002977238251664711,
      "loss": 3.9162,
      "step": 28540
    },
    {
      "epoch": 0.059479166666666666,
      "grad_norm": 0.7770869731903076,
      "learning_rate": 0.0002977221139200246,
      "loss": 4.2089,
      "step": 28550
    },
    {
      "epoch": 0.0595,
      "grad_norm": 0.7684369683265686,
      "learning_rate": 0.0002977204020354771,
      "loss": 4.018,
      "step": 28560
    },
    {
      "epoch": 0.059520833333333335,
      "grad_norm": 0.7355980277061462,
      "learning_rate": 0.00029771868951283586,
      "loss": 4.0613,
      "step": 28570
    },
    {
      "epoch": 0.059541666666666666,
      "grad_norm": 0.7931314706802368,
      "learning_rate": 0.0002977169763521084,
      "loss": 4.1778,
      "step": 28580
    },
    {
      "epoch": 0.0595625,
      "grad_norm": 0.8197821378707886,
      "learning_rate": 0.000297715262553302,
      "loss": 4.0474,
      "step": 28590
    },
    {
      "epoch": 0.059583333333333335,
      "grad_norm": 0.9635288119316101,
      "learning_rate": 0.00029771354811642417,
      "loss": 4.0023,
      "step": 28600
    },
    {
      "epoch": 0.059604166666666666,
      "grad_norm": 0.8888946771621704,
      "learning_rate": 0.0002977118330414823,
      "loss": 4.0462,
      "step": 28610
    },
    {
      "epoch": 0.059625,
      "grad_norm": 0.7992176413536072,
      "learning_rate": 0.0002977101173284838,
      "loss": 3.917,
      "step": 28620
    },
    {
      "epoch": 0.059645833333333335,
      "grad_norm": 0.7799692749977112,
      "learning_rate": 0.000297708400977436,
      "loss": 4.0065,
      "step": 28630
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 0.8649428486824036,
      "learning_rate": 0.00029770668398834644,
      "loss": 4.1142,
      "step": 28640
    },
    {
      "epoch": 0.0596875,
      "grad_norm": 0.7527645230293274,
      "learning_rate": 0.0002977049663612224,
      "loss": 4.0586,
      "step": 28650
    },
    {
      "epoch": 0.059708333333333335,
      "grad_norm": 0.8963967561721802,
      "learning_rate": 0.0002977032480960715,
      "loss": 4.1482,
      "step": 28660
    },
    {
      "epoch": 0.059729166666666667,
      "grad_norm": 0.773729145526886,
      "learning_rate": 0.0002977015291929009,
      "loss": 3.9072,
      "step": 28670
    },
    {
      "epoch": 0.05975,
      "grad_norm": 0.8178229331970215,
      "learning_rate": 0.00029769980965171824,
      "loss": 3.8887,
      "step": 28680
    },
    {
      "epoch": 0.059770833333333336,
      "grad_norm": 0.8257982730865479,
      "learning_rate": 0.0002976980894725308,
      "loss": 3.9644,
      "step": 28690
    },
    {
      "epoch": 0.05979166666666667,
      "grad_norm": 0.686358630657196,
      "learning_rate": 0.0002976963686553461,
      "loss": 4.1402,
      "step": 28700
    },
    {
      "epoch": 0.0598125,
      "grad_norm": 0.7905331254005432,
      "learning_rate": 0.0002976946472001716,
      "loss": 4.0758,
      "step": 28710
    },
    {
      "epoch": 0.059833333333333336,
      "grad_norm": 0.7291516661643982,
      "learning_rate": 0.0002976929251070146,
      "loss": 4.0882,
      "step": 28720
    },
    {
      "epoch": 0.05985416666666667,
      "grad_norm": 0.8644330501556396,
      "learning_rate": 0.0002976912023758827,
      "loss": 4.0914,
      "step": 28730
    },
    {
      "epoch": 0.059875,
      "grad_norm": 0.8880428075790405,
      "learning_rate": 0.0002976894790067832,
      "loss": 3.9662,
      "step": 28740
    },
    {
      "epoch": 0.059895833333333336,
      "grad_norm": 0.8069501519203186,
      "learning_rate": 0.00029768775499972364,
      "loss": 3.9497,
      "step": 28750
    },
    {
      "epoch": 0.05991666666666667,
      "grad_norm": 0.8965879678726196,
      "learning_rate": 0.0002976860303547114,
      "loss": 3.895,
      "step": 28760
    },
    {
      "epoch": 0.0599375,
      "grad_norm": 0.9722900986671448,
      "learning_rate": 0.00029768430507175404,
      "loss": 4.2203,
      "step": 28770
    },
    {
      "epoch": 0.059958333333333336,
      "grad_norm": 0.9029613137245178,
      "learning_rate": 0.0002976825791508589,
      "loss": 3.9507,
      "step": 28780
    },
    {
      "epoch": 0.05997916666666667,
      "grad_norm": 0.9038407802581787,
      "learning_rate": 0.00029768085259203347,
      "loss": 4.0853,
      "step": 28790
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8156259059906006,
      "learning_rate": 0.00029767912539528527,
      "loss": 4.147,
      "step": 28800
    },
    {
      "epoch": 0.060020833333333336,
      "grad_norm": 0.7823668122291565,
      "learning_rate": 0.0002976773975606216,
      "loss": 3.7448,
      "step": 28810
    },
    {
      "epoch": 0.06004166666666667,
      "grad_norm": 0.7521113753318787,
      "learning_rate": 0.0002976756690880501,
      "loss": 4.2022,
      "step": 28820
    },
    {
      "epoch": 0.0600625,
      "grad_norm": 0.7777439951896667,
      "learning_rate": 0.0002976739399775782,
      "loss": 3.8334,
      "step": 28830
    },
    {
      "epoch": 0.060083333333333336,
      "grad_norm": 0.7256953716278076,
      "learning_rate": 0.00029767221022921323,
      "loss": 4.0322,
      "step": 28840
    },
    {
      "epoch": 0.06010416666666667,
      "grad_norm": 0.839480996131897,
      "learning_rate": 0.0002976704798429629,
      "loss": 4.0847,
      "step": 28850
    },
    {
      "epoch": 0.060125,
      "grad_norm": 0.788024365901947,
      "learning_rate": 0.0002976687488188344,
      "loss": 4.1183,
      "step": 28860
    },
    {
      "epoch": 0.060145833333333336,
      "grad_norm": 0.8533191084861755,
      "learning_rate": 0.0002976670171568354,
      "loss": 3.9709,
      "step": 28870
    },
    {
      "epoch": 0.06016666666666667,
      "grad_norm": 0.7956870198249817,
      "learning_rate": 0.0002976652848569734,
      "loss": 3.9244,
      "step": 28880
    },
    {
      "epoch": 0.0601875,
      "grad_norm": 0.8222197890281677,
      "learning_rate": 0.0002976635519192557,
      "loss": 4.0253,
      "step": 28890
    },
    {
      "epoch": 0.060208333333333336,
      "grad_norm": 0.9385104775428772,
      "learning_rate": 0.0002976618183436901,
      "loss": 3.9232,
      "step": 28900
    },
    {
      "epoch": 0.06022916666666667,
      "grad_norm": 0.7920111417770386,
      "learning_rate": 0.0002976600841302837,
      "loss": 3.9925,
      "step": 28910
    },
    {
      "epoch": 0.06025,
      "grad_norm": 0.791247546672821,
      "learning_rate": 0.0002976583492790443,
      "loss": 4.037,
      "step": 28920
    },
    {
      "epoch": 0.060270833333333336,
      "grad_norm": 0.7524693012237549,
      "learning_rate": 0.0002976566137899792,
      "loss": 4.0421,
      "step": 28930
    },
    {
      "epoch": 0.06029166666666667,
      "grad_norm": 0.8059237599372864,
      "learning_rate": 0.00029765487766309607,
      "loss": 4.1032,
      "step": 28940
    },
    {
      "epoch": 0.0603125,
      "grad_norm": 0.731202244758606,
      "learning_rate": 0.00029765314089840226,
      "loss": 4.2398,
      "step": 28950
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 0.8298438787460327,
      "learning_rate": 0.00029765140349590527,
      "loss": 4.0979,
      "step": 28960
    },
    {
      "epoch": 0.06035416666666667,
      "grad_norm": 0.8490571975708008,
      "learning_rate": 0.00029764966545561274,
      "loss": 4.0255,
      "step": 28970
    },
    {
      "epoch": 0.060375,
      "grad_norm": 0.7874022722244263,
      "learning_rate": 0.00029764792677753206,
      "loss": 4.1048,
      "step": 28980
    },
    {
      "epoch": 0.060395833333333336,
      "grad_norm": 0.7926114201545715,
      "learning_rate": 0.0002976461874616708,
      "loss": 3.9858,
      "step": 28990
    },
    {
      "epoch": 0.06041666666666667,
      "grad_norm": 0.8511772751808167,
      "learning_rate": 0.00029764444750803644,
      "loss": 3.9235,
      "step": 29000
    },
    {
      "epoch": 0.06041666666666667,
      "eval_loss": 4.322887420654297,
      "eval_runtime": 11.8134,
      "eval_samples_per_second": 0.846,
      "eval_steps_per_second": 0.254,
      "step": 29000
    },
    {
      "epoch": 0.0604375,
      "grad_norm": 0.7601058483123779,
      "learning_rate": 0.00029764270691663654,
      "loss": 4.1378,
      "step": 29010
    },
    {
      "epoch": 0.060458333333333336,
      "grad_norm": 0.8406563401222229,
      "learning_rate": 0.00029764096568747855,
      "loss": 4.1004,
      "step": 29020
    },
    {
      "epoch": 0.06047916666666667,
      "grad_norm": 0.7866235971450806,
      "learning_rate": 0.00029763922382057003,
      "loss": 3.9188,
      "step": 29030
    },
    {
      "epoch": 0.0605,
      "grad_norm": 0.7315018773078918,
      "learning_rate": 0.00029763748131591855,
      "loss": 4.1622,
      "step": 29040
    },
    {
      "epoch": 0.060520833333333336,
      "grad_norm": 0.8574497699737549,
      "learning_rate": 0.00029763573817353156,
      "loss": 3.9901,
      "step": 29050
    },
    {
      "epoch": 0.06054166666666667,
      "grad_norm": 0.7249524593353271,
      "learning_rate": 0.0002976339943934166,
      "loss": 3.8701,
      "step": 29060
    },
    {
      "epoch": 0.0605625,
      "grad_norm": 0.8211441040039062,
      "learning_rate": 0.00029763224997558124,
      "loss": 3.8699,
      "step": 29070
    },
    {
      "epoch": 0.060583333333333336,
      "grad_norm": 0.9947181344032288,
      "learning_rate": 0.00029763050492003293,
      "loss": 4.1574,
      "step": 29080
    },
    {
      "epoch": 0.06060416666666667,
      "grad_norm": 0.8259121179580688,
      "learning_rate": 0.0002976287592267794,
      "loss": 4.1622,
      "step": 29090
    },
    {
      "epoch": 0.060625,
      "grad_norm": 0.8960739970207214,
      "learning_rate": 0.000297627012895828,
      "loss": 4.2004,
      "step": 29100
    },
    {
      "epoch": 0.060645833333333336,
      "grad_norm": 0.7725949883460999,
      "learning_rate": 0.00029762526592718634,
      "loss": 4.1912,
      "step": 29110
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 0.8095203638076782,
      "learning_rate": 0.00029762351832086193,
      "loss": 3.8589,
      "step": 29120
    },
    {
      "epoch": 0.0606875,
      "grad_norm": 0.8058037161827087,
      "learning_rate": 0.00029762177007686244,
      "loss": 4.1732,
      "step": 29130
    },
    {
      "epoch": 0.060708333333333336,
      "grad_norm": 0.7959723472595215,
      "learning_rate": 0.00029762002119519524,
      "loss": 4.0271,
      "step": 29140
    },
    {
      "epoch": 0.06072916666666667,
      "grad_norm": 0.8201887011528015,
      "learning_rate": 0.00029761827167586804,
      "loss": 3.8185,
      "step": 29150
    },
    {
      "epoch": 0.06075,
      "grad_norm": 0.8226702213287354,
      "learning_rate": 0.00029761652151888835,
      "loss": 4.0489,
      "step": 29160
    },
    {
      "epoch": 0.060770833333333336,
      "grad_norm": 0.9228971004486084,
      "learning_rate": 0.0002976147707242637,
      "loss": 4.0783,
      "step": 29170
    },
    {
      "epoch": 0.06079166666666667,
      "grad_norm": 0.8470959663391113,
      "learning_rate": 0.00029761301929200166,
      "loss": 3.7855,
      "step": 29180
    },
    {
      "epoch": 0.0608125,
      "grad_norm": 0.892784059047699,
      "learning_rate": 0.0002976112672221098,
      "loss": 4.0425,
      "step": 29190
    },
    {
      "epoch": 0.060833333333333336,
      "grad_norm": 0.7882646322250366,
      "learning_rate": 0.0002976095145145957,
      "loss": 4.171,
      "step": 29200
    },
    {
      "epoch": 0.06085416666666667,
      "grad_norm": 0.9007334113121033,
      "learning_rate": 0.00029760776116946695,
      "loss": 4.0816,
      "step": 29210
    },
    {
      "epoch": 0.060875,
      "grad_norm": 0.7402275800704956,
      "learning_rate": 0.00029760600718673104,
      "loss": 4.1153,
      "step": 29220
    },
    {
      "epoch": 0.06089583333333334,
      "grad_norm": 0.7783899903297424,
      "learning_rate": 0.0002976042525663957,
      "loss": 3.9135,
      "step": 29230
    },
    {
      "epoch": 0.06091666666666667,
      "grad_norm": 0.7397148609161377,
      "learning_rate": 0.00029760249730846833,
      "loss": 4.1428,
      "step": 29240
    },
    {
      "epoch": 0.0609375,
      "grad_norm": 0.8965991139411926,
      "learning_rate": 0.0002976007414129566,
      "loss": 3.8902,
      "step": 29250
    },
    {
      "epoch": 0.06095833333333334,
      "grad_norm": 0.8673374056816101,
      "learning_rate": 0.00029759898487986814,
      "loss": 4.1646,
      "step": 29260
    },
    {
      "epoch": 0.06097916666666667,
      "grad_norm": 0.7434284090995789,
      "learning_rate": 0.00029759722770921046,
      "loss": 4.0116,
      "step": 29270
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.7829568982124329,
      "learning_rate": 0.00029759546990099116,
      "loss": 3.921,
      "step": 29280
    },
    {
      "epoch": 0.06102083333333334,
      "grad_norm": 0.7590770721435547,
      "learning_rate": 0.0002975937114552179,
      "loss": 4.0415,
      "step": 29290
    },
    {
      "epoch": 0.06104166666666667,
      "grad_norm": 0.8968276381492615,
      "learning_rate": 0.0002975919523718982,
      "loss": 4.0704,
      "step": 29300
    },
    {
      "epoch": 0.0610625,
      "grad_norm": 0.8446416854858398,
      "learning_rate": 0.0002975901926510397,
      "loss": 3.8829,
      "step": 29310
    },
    {
      "epoch": 0.06108333333333334,
      "grad_norm": 0.9309907555580139,
      "learning_rate": 0.00029758843229264997,
      "loss": 4.2758,
      "step": 29320
    },
    {
      "epoch": 0.06110416666666667,
      "grad_norm": 1.035027265548706,
      "learning_rate": 0.00029758667129673664,
      "loss": 4.248,
      "step": 29330
    },
    {
      "epoch": 0.061125,
      "grad_norm": 0.9120420217514038,
      "learning_rate": 0.00029758490966330734,
      "loss": 3.9837,
      "step": 29340
    },
    {
      "epoch": 0.06114583333333334,
      "grad_norm": 0.7119563221931458,
      "learning_rate": 0.0002975831473923696,
      "loss": 3.9887,
      "step": 29350
    },
    {
      "epoch": 0.06116666666666667,
      "grad_norm": 0.8198143243789673,
      "learning_rate": 0.0002975813844839311,
      "loss": 4.1055,
      "step": 29360
    },
    {
      "epoch": 0.0611875,
      "grad_norm": 0.8531615734100342,
      "learning_rate": 0.00029757962093799944,
      "loss": 3.9404,
      "step": 29370
    },
    {
      "epoch": 0.06120833333333333,
      "grad_norm": 0.8927220106124878,
      "learning_rate": 0.00029757785675458225,
      "loss": 4.2244,
      "step": 29380
    },
    {
      "epoch": 0.06122916666666667,
      "grad_norm": 0.8094875812530518,
      "learning_rate": 0.0002975760919336871,
      "loss": 4.1497,
      "step": 29390
    },
    {
      "epoch": 0.06125,
      "grad_norm": 0.7430135607719421,
      "learning_rate": 0.00029757432647532165,
      "loss": 4.1052,
      "step": 29400
    },
    {
      "epoch": 0.06127083333333333,
      "grad_norm": 0.8661625981330872,
      "learning_rate": 0.00029757256037949353,
      "loss": 3.8259,
      "step": 29410
    },
    {
      "epoch": 0.06129166666666667,
      "grad_norm": 0.7521441578865051,
      "learning_rate": 0.00029757079364621037,
      "loss": 3.9456,
      "step": 29420
    },
    {
      "epoch": 0.0613125,
      "grad_norm": 0.9092415571212769,
      "learning_rate": 0.0002975690262754798,
      "loss": 4.0387,
      "step": 29430
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 0.7576876878738403,
      "learning_rate": 0.00029756725826730944,
      "loss": 4.0582,
      "step": 29440
    },
    {
      "epoch": 0.06135416666666667,
      "grad_norm": 0.7739952802658081,
      "learning_rate": 0.0002975654896217069,
      "loss": 4.265,
      "step": 29450
    },
    {
      "epoch": 0.061375,
      "grad_norm": 0.7803800106048584,
      "learning_rate": 0.0002975637203386799,
      "loss": 3.9619,
      "step": 29460
    },
    {
      "epoch": 0.06139583333333333,
      "grad_norm": 0.7534099221229553,
      "learning_rate": 0.00029756195041823603,
      "loss": 4.1132,
      "step": 29470
    },
    {
      "epoch": 0.06141666666666667,
      "grad_norm": 0.8216633200645447,
      "learning_rate": 0.000297560179860383,
      "loss": 4.0204,
      "step": 29480
    },
    {
      "epoch": 0.0614375,
      "grad_norm": 0.7341957688331604,
      "learning_rate": 0.0002975584086651283,
      "loss": 4.2073,
      "step": 29490
    },
    {
      "epoch": 0.06145833333333333,
      "grad_norm": 0.8970953226089478,
      "learning_rate": 0.00029755663683247974,
      "loss": 4.1837,
      "step": 29500
    },
    {
      "epoch": 0.06147916666666667,
      "grad_norm": 0.7884898781776428,
      "learning_rate": 0.0002975548643624449,
      "loss": 3.8748,
      "step": 29510
    },
    {
      "epoch": 0.0615,
      "grad_norm": 0.7638188004493713,
      "learning_rate": 0.00029755309125503146,
      "loss": 4.1444,
      "step": 29520
    },
    {
      "epoch": 0.06152083333333333,
      "grad_norm": 0.9098157286643982,
      "learning_rate": 0.00029755131751024706,
      "loss": 3.9118,
      "step": 29530
    },
    {
      "epoch": 0.06154166666666667,
      "grad_norm": 0.7245421409606934,
      "learning_rate": 0.0002975495431280994,
      "loss": 4.0327,
      "step": 29540
    },
    {
      "epoch": 0.0615625,
      "grad_norm": 0.8401640057563782,
      "learning_rate": 0.0002975477681085961,
      "loss": 4.1407,
      "step": 29550
    },
    {
      "epoch": 0.06158333333333333,
      "grad_norm": 0.7999250888824463,
      "learning_rate": 0.0002975459924517448,
      "loss": 3.8629,
      "step": 29560
    },
    {
      "epoch": 0.06160416666666667,
      "grad_norm": 0.8138478994369507,
      "learning_rate": 0.00029754421615755324,
      "loss": 4.0969,
      "step": 29570
    },
    {
      "epoch": 0.061625,
      "grad_norm": 0.8567155003547668,
      "learning_rate": 0.0002975424392260291,
      "loss": 3.9414,
      "step": 29580
    },
    {
      "epoch": 0.06164583333333333,
      "grad_norm": 0.8274092674255371,
      "learning_rate": 0.00029754066165718,
      "loss": 3.9926,
      "step": 29590
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 0.8721805214881897,
      "learning_rate": 0.0002975388834510137,
      "loss": 4.1218,
      "step": 29600
    },
    {
      "epoch": 0.0616875,
      "grad_norm": 0.7927626371383667,
      "learning_rate": 0.00029753710460753775,
      "loss": 4.0701,
      "step": 29610
    },
    {
      "epoch": 0.06170833333333333,
      "grad_norm": 0.8384056091308594,
      "learning_rate": 0.0002975353251267599,
      "loss": 4.0369,
      "step": 29620
    },
    {
      "epoch": 0.06172916666666667,
      "grad_norm": 0.7487731575965881,
      "learning_rate": 0.0002975335450086879,
      "loss": 3.9579,
      "step": 29630
    },
    {
      "epoch": 0.06175,
      "grad_norm": 0.7705084681510925,
      "learning_rate": 0.00029753176425332937,
      "loss": 4.0489,
      "step": 29640
    },
    {
      "epoch": 0.06177083333333333,
      "grad_norm": 0.7480839490890503,
      "learning_rate": 0.000297529982860692,
      "loss": 4.1216,
      "step": 29650
    },
    {
      "epoch": 0.06179166666666667,
      "grad_norm": 0.8982182741165161,
      "learning_rate": 0.0002975282008307835,
      "loss": 4.0328,
      "step": 29660
    },
    {
      "epoch": 0.0618125,
      "grad_norm": 0.8441203236579895,
      "learning_rate": 0.00029752641816361154,
      "loss": 4.0597,
      "step": 29670
    },
    {
      "epoch": 0.06183333333333333,
      "grad_norm": 0.7914412617683411,
      "learning_rate": 0.0002975246348591839,
      "loss": 3.9471,
      "step": 29680
    },
    {
      "epoch": 0.06185416666666667,
      "grad_norm": 0.8117268085479736,
      "learning_rate": 0.00029752285091750826,
      "loss": 4.0691,
      "step": 29690
    },
    {
      "epoch": 0.061875,
      "grad_norm": 0.8864880800247192,
      "learning_rate": 0.0002975210663385922,
      "loss": 4.0181,
      "step": 29700
    },
    {
      "epoch": 0.06189583333333333,
      "grad_norm": 0.7351661920547485,
      "learning_rate": 0.0002975192811224436,
      "loss": 4.1602,
      "step": 29710
    },
    {
      "epoch": 0.06191666666666667,
      "grad_norm": 0.8308060765266418,
      "learning_rate": 0.0002975174952690701,
      "loss": 4.0104,
      "step": 29720
    },
    {
      "epoch": 0.0619375,
      "grad_norm": 0.7503709197044373,
      "learning_rate": 0.00029751570877847936,
      "loss": 4.0182,
      "step": 29730
    },
    {
      "epoch": 0.06195833333333333,
      "grad_norm": 0.9317289590835571,
      "learning_rate": 0.0002975139216506792,
      "loss": 4.0455,
      "step": 29740
    },
    {
      "epoch": 0.06197916666666667,
      "grad_norm": 0.7762730717658997,
      "learning_rate": 0.0002975121338856773,
      "loss": 4.0948,
      "step": 29750
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.8129236698150635,
      "learning_rate": 0.00029751034548348125,
      "loss": 3.9879,
      "step": 29760
    },
    {
      "epoch": 0.06202083333333333,
      "grad_norm": 0.8658553957939148,
      "learning_rate": 0.000297508556444099,
      "loss": 4.1238,
      "step": 29770
    },
    {
      "epoch": 0.06204166666666667,
      "grad_norm": 0.8257842659950256,
      "learning_rate": 0.00029750676676753814,
      "loss": 4.1069,
      "step": 29780
    },
    {
      "epoch": 0.0620625,
      "grad_norm": 0.7369842529296875,
      "learning_rate": 0.0002975049764538065,
      "loss": 3.9901,
      "step": 29790
    },
    {
      "epoch": 0.06208333333333333,
      "grad_norm": 0.7898491621017456,
      "learning_rate": 0.0002975031855029117,
      "loss": 4.22,
      "step": 29800
    },
    {
      "epoch": 0.06210416666666667,
      "grad_norm": 0.8031477928161621,
      "learning_rate": 0.00029750139391486154,
      "loss": 4.1133,
      "step": 29810
    },
    {
      "epoch": 0.062125,
      "grad_norm": 0.8880355954170227,
      "learning_rate": 0.00029749960168966365,
      "loss": 3.9919,
      "step": 29820
    },
    {
      "epoch": 0.06214583333333333,
      "grad_norm": 0.8185032606124878,
      "learning_rate": 0.000297497808827326,
      "loss": 4.1218,
      "step": 29830
    },
    {
      "epoch": 0.06216666666666667,
      "grad_norm": 0.7776533961296082,
      "learning_rate": 0.00029749601532785613,
      "loss": 4.1606,
      "step": 29840
    },
    {
      "epoch": 0.0621875,
      "grad_norm": 0.9000627994537354,
      "learning_rate": 0.00029749422119126185,
      "loss": 4.2967,
      "step": 29850
    },
    {
      "epoch": 0.06220833333333333,
      "grad_norm": 0.8902272582054138,
      "learning_rate": 0.00029749242641755096,
      "loss": 4.2825,
      "step": 29860
    },
    {
      "epoch": 0.06222916666666667,
      "grad_norm": 0.7393922209739685,
      "learning_rate": 0.0002974906310067311,
      "loss": 3.9437,
      "step": 29870
    },
    {
      "epoch": 0.06225,
      "grad_norm": 0.7200772762298584,
      "learning_rate": 0.0002974888349588102,
      "loss": 3.8702,
      "step": 29880
    },
    {
      "epoch": 0.06227083333333333,
      "grad_norm": 0.7521827816963196,
      "learning_rate": 0.00029748703827379584,
      "loss": 4.1196,
      "step": 29890
    },
    {
      "epoch": 0.06229166666666667,
      "grad_norm": 0.8694015741348267,
      "learning_rate": 0.0002974852409516958,
      "loss": 4.0499,
      "step": 29900
    },
    {
      "epoch": 0.0623125,
      "grad_norm": 0.9441766738891602,
      "learning_rate": 0.000297483442992518,
      "loss": 4.0785,
      "step": 29910
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 0.7816182374954224,
      "learning_rate": 0.00029748164439627006,
      "loss": 4.078,
      "step": 29920
    },
    {
      "epoch": 0.06235416666666667,
      "grad_norm": 0.9444436430931091,
      "learning_rate": 0.0002974798451629598,
      "loss": 4.0156,
      "step": 29930
    },
    {
      "epoch": 0.062375,
      "grad_norm": 0.9038636684417725,
      "learning_rate": 0.00029747804529259503,
      "loss": 4.0655,
      "step": 29940
    },
    {
      "epoch": 0.06239583333333333,
      "grad_norm": 0.7659188508987427,
      "learning_rate": 0.0002974762447851834,
      "loss": 4.0383,
      "step": 29950
    },
    {
      "epoch": 0.06241666666666667,
      "grad_norm": 0.8716976642608643,
      "learning_rate": 0.0002974744436407328,
      "loss": 4.0691,
      "step": 29960
    },
    {
      "epoch": 0.0624375,
      "grad_norm": 0.7936158776283264,
      "learning_rate": 0.00029747264185925104,
      "loss": 4.0111,
      "step": 29970
    },
    {
      "epoch": 0.06245833333333333,
      "grad_norm": 0.7584034204483032,
      "learning_rate": 0.0002974708394407458,
      "loss": 3.8973,
      "step": 29980
    },
    {
      "epoch": 0.06247916666666667,
      "grad_norm": 0.8849518895149231,
      "learning_rate": 0.0002974690363852248,
      "loss": 4.1221,
      "step": 29990
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.8789483308792114,
      "learning_rate": 0.0002974672326926961,
      "loss": 4.0542,
      "step": 30000
    },
    {
      "epoch": 0.0625,
      "eval_loss": 4.3088226318359375,
      "eval_runtime": 10.3979,
      "eval_samples_per_second": 0.962,
      "eval_steps_per_second": 0.289,
      "step": 30000
    },
    {
      "epoch": 0.06252083333333333,
      "grad_norm": 0.7615856528282166,
      "learning_rate": 0.0002974654283631672,
      "loss": 4.0688,
      "step": 30010
    },
    {
      "epoch": 0.06254166666666666,
      "grad_norm": 0.8719075322151184,
      "learning_rate": 0.00029746362339664613,
      "loss": 3.9027,
      "step": 30020
    },
    {
      "epoch": 0.0625625,
      "grad_norm": 0.7590094208717346,
      "learning_rate": 0.00029746181779314045,
      "loss": 4.1192,
      "step": 30030
    },
    {
      "epoch": 0.06258333333333334,
      "grad_norm": 0.8476407527923584,
      "learning_rate": 0.00029746001155265823,
      "loss": 4.2799,
      "step": 30040
    },
    {
      "epoch": 0.06260416666666667,
      "grad_norm": 0.7637699246406555,
      "learning_rate": 0.000297458204675207,
      "loss": 3.8025,
      "step": 30050
    },
    {
      "epoch": 0.062625,
      "grad_norm": 0.8245696425437927,
      "learning_rate": 0.00029745639716079474,
      "loss": 4.0993,
      "step": 30060
    },
    {
      "epoch": 0.06264583333333333,
      "grad_norm": 0.7953047752380371,
      "learning_rate": 0.00029745458900942923,
      "loss": 3.9929,
      "step": 30070
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 0.854537844657898,
      "learning_rate": 0.00029745278022111826,
      "loss": 4.0205,
      "step": 30080
    },
    {
      "epoch": 0.0626875,
      "grad_norm": 0.7934266924858093,
      "learning_rate": 0.00029745097079586963,
      "loss": 4.0638,
      "step": 30090
    },
    {
      "epoch": 0.06270833333333334,
      "grad_norm": 0.9018909335136414,
      "learning_rate": 0.0002974491607336912,
      "loss": 3.8446,
      "step": 30100
    },
    {
      "epoch": 0.06272916666666667,
      "grad_norm": 0.7847442030906677,
      "learning_rate": 0.0002974473500345907,
      "loss": 4.1644,
      "step": 30110
    },
    {
      "epoch": 0.06275,
      "grad_norm": 0.9136395454406738,
      "learning_rate": 0.0002974455386985761,
      "loss": 4.0613,
      "step": 30120
    },
    {
      "epoch": 0.06277083333333333,
      "grad_norm": 0.8492864370346069,
      "learning_rate": 0.00029744372672565507,
      "loss": 4.0666,
      "step": 30130
    },
    {
      "epoch": 0.06279166666666666,
      "grad_norm": 0.7803292274475098,
      "learning_rate": 0.0002974419141158355,
      "loss": 4.1496,
      "step": 30140
    },
    {
      "epoch": 0.0628125,
      "grad_norm": 0.957654595375061,
      "learning_rate": 0.0002974401008691252,
      "loss": 4.0739,
      "step": 30150
    },
    {
      "epoch": 0.06283333333333334,
      "grad_norm": 0.813822865486145,
      "learning_rate": 0.0002974382869855321,
      "loss": 4.1172,
      "step": 30160
    },
    {
      "epoch": 0.06285416666666667,
      "grad_norm": 0.775952935218811,
      "learning_rate": 0.00029743647246506397,
      "loss": 4.0997,
      "step": 30170
    },
    {
      "epoch": 0.062875,
      "grad_norm": 0.9162753224372864,
      "learning_rate": 0.0002974346573077286,
      "loss": 4.1247,
      "step": 30180
    },
    {
      "epoch": 0.06289583333333333,
      "grad_norm": 0.8309741616249084,
      "learning_rate": 0.00029743284151353386,
      "loss": 4.0527,
      "step": 30190
    },
    {
      "epoch": 0.06291666666666666,
      "grad_norm": 0.7462338805198669,
      "learning_rate": 0.0002974310250824876,
      "loss": 4.0192,
      "step": 30200
    },
    {
      "epoch": 0.0629375,
      "grad_norm": 0.7510952353477478,
      "learning_rate": 0.00029742920801459767,
      "loss": 4.0718,
      "step": 30210
    },
    {
      "epoch": 0.06295833333333334,
      "grad_norm": 0.8406834602355957,
      "learning_rate": 0.00029742739030987194,
      "loss": 4.0744,
      "step": 30220
    },
    {
      "epoch": 0.06297916666666667,
      "grad_norm": 1.1555323600769043,
      "learning_rate": 0.0002974255719683182,
      "loss": 4.0551,
      "step": 30230
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.9106763601303101,
      "learning_rate": 0.0002974237529899444,
      "loss": 4.184,
      "step": 30240
    },
    {
      "epoch": 0.06302083333333333,
      "grad_norm": 0.8510547280311584,
      "learning_rate": 0.00029742193337475826,
      "loss": 3.942,
      "step": 30250
    },
    {
      "epoch": 0.06304166666666666,
      "grad_norm": 0.8301993608474731,
      "learning_rate": 0.00029742011312276783,
      "loss": 4.0557,
      "step": 30260
    },
    {
      "epoch": 0.0630625,
      "grad_norm": 1.0253045558929443,
      "learning_rate": 0.0002974182922339808,
      "loss": 3.9317,
      "step": 30270
    },
    {
      "epoch": 0.06308333333333334,
      "grad_norm": 0.9290629625320435,
      "learning_rate": 0.0002974164707084051,
      "loss": 3.9818,
      "step": 30280
    },
    {
      "epoch": 0.06310416666666667,
      "grad_norm": 0.839447021484375,
      "learning_rate": 0.0002974146485460486,
      "loss": 4.1364,
      "step": 30290
    },
    {
      "epoch": 0.063125,
      "grad_norm": 0.9093735814094543,
      "learning_rate": 0.0002974128257469192,
      "loss": 4.0505,
      "step": 30300
    },
    {
      "epoch": 0.06314583333333333,
      "grad_norm": 0.8682764172554016,
      "learning_rate": 0.00029741100231102467,
      "loss": 4.196,
      "step": 30310
    },
    {
      "epoch": 0.06316666666666666,
      "grad_norm": 1.0093507766723633,
      "learning_rate": 0.000297409178238373,
      "loss": 4.0192,
      "step": 30320
    },
    {
      "epoch": 0.0631875,
      "grad_norm": 0.758405864238739,
      "learning_rate": 0.000297407353528972,
      "loss": 4.1125,
      "step": 30330
    },
    {
      "epoch": 0.06320833333333334,
      "grad_norm": 0.7153067588806152,
      "learning_rate": 0.00029740552818282966,
      "loss": 3.9845,
      "step": 30340
    },
    {
      "epoch": 0.06322916666666667,
      "grad_norm": 1.0695821046829224,
      "learning_rate": 0.00029740370219995374,
      "loss": 4.0491,
      "step": 30350
    },
    {
      "epoch": 0.06325,
      "grad_norm": 0.8226625323295593,
      "learning_rate": 0.0002974018755803522,
      "loss": 4.2443,
      "step": 30360
    },
    {
      "epoch": 0.06327083333333333,
      "grad_norm": 0.7931281328201294,
      "learning_rate": 0.00029740004832403284,
      "loss": 4.0016,
      "step": 30370
    },
    {
      "epoch": 0.06329166666666666,
      "grad_norm": 0.7048029899597168,
      "learning_rate": 0.0002973982204310036,
      "loss": 3.9643,
      "step": 30380
    },
    {
      "epoch": 0.0633125,
      "grad_norm": 0.9208285212516785,
      "learning_rate": 0.0002973963919012725,
      "loss": 4.0966,
      "step": 30390
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 0.8361964821815491,
      "learning_rate": 0.00029739456273484725,
      "loss": 4.143,
      "step": 30400
    },
    {
      "epoch": 0.06335416666666667,
      "grad_norm": 0.9277132749557495,
      "learning_rate": 0.00029739273293173587,
      "loss": 4.0723,
      "step": 30410
    },
    {
      "epoch": 0.063375,
      "grad_norm": 0.8738767504692078,
      "learning_rate": 0.0002973909024919462,
      "loss": 4.1602,
      "step": 30420
    },
    {
      "epoch": 0.06339583333333333,
      "grad_norm": 0.8876873850822449,
      "learning_rate": 0.00029738907141548616,
      "loss": 4.3174,
      "step": 30430
    },
    {
      "epoch": 0.06341666666666666,
      "grad_norm": 0.8104599714279175,
      "learning_rate": 0.00029738723970236373,
      "loss": 4.1129,
      "step": 30440
    },
    {
      "epoch": 0.0634375,
      "grad_norm": 0.827494740486145,
      "learning_rate": 0.0002973854073525868,
      "loss": 3.9899,
      "step": 30450
    },
    {
      "epoch": 0.06345833333333334,
      "grad_norm": 0.7558072209358215,
      "learning_rate": 0.0002973835743661631,
      "loss": 4.0355,
      "step": 30460
    },
    {
      "epoch": 0.06347916666666667,
      "grad_norm": 0.9447765350341797,
      "learning_rate": 0.0002973817407431008,
      "loss": 4.0774,
      "step": 30470
    },
    {
      "epoch": 0.0635,
      "grad_norm": 0.8737657070159912,
      "learning_rate": 0.0002973799064834077,
      "loss": 3.794,
      "step": 30480
    },
    {
      "epoch": 0.06352083333333333,
      "grad_norm": 0.8352288007736206,
      "learning_rate": 0.0002973780715870917,
      "loss": 4.1867,
      "step": 30490
    },
    {
      "epoch": 0.06354166666666666,
      "grad_norm": 0.7322183847427368,
      "learning_rate": 0.00029737623605416083,
      "loss": 4.0311,
      "step": 30500
    },
    {
      "epoch": 0.0635625,
      "grad_norm": 0.7374336123466492,
      "learning_rate": 0.0002973743998846229,
      "loss": 4.1752,
      "step": 30510
    },
    {
      "epoch": 0.06358333333333334,
      "grad_norm": 0.9266337752342224,
      "learning_rate": 0.0002973725630784859,
      "loss": 4.0956,
      "step": 30520
    },
    {
      "epoch": 0.06360416666666667,
      "grad_norm": 0.9650958180427551,
      "learning_rate": 0.00029737072563575784,
      "loss": 4.1907,
      "step": 30530
    },
    {
      "epoch": 0.063625,
      "grad_norm": 0.8382750749588013,
      "learning_rate": 0.0002973688875564465,
      "loss": 4.143,
      "step": 30540
    },
    {
      "epoch": 0.06364583333333333,
      "grad_norm": 0.8110083341598511,
      "learning_rate": 0.00029736704884055995,
      "loss": 4.1531,
      "step": 30550
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 0.8101698756217957,
      "learning_rate": 0.00029736520948810607,
      "loss": 3.9661,
      "step": 30560
    },
    {
      "epoch": 0.0636875,
      "grad_norm": 0.7475102543830872,
      "learning_rate": 0.0002973633694990928,
      "loss": 4.068,
      "step": 30570
    },
    {
      "epoch": 0.06370833333333334,
      "grad_norm": 0.8122192025184631,
      "learning_rate": 0.0002973615288735281,
      "loss": 4.1541,
      "step": 30580
    },
    {
      "epoch": 0.06372916666666667,
      "grad_norm": 0.7345097064971924,
      "learning_rate": 0.0002973596876114199,
      "loss": 4.0125,
      "step": 30590
    },
    {
      "epoch": 0.06375,
      "grad_norm": 0.8869519233703613,
      "learning_rate": 0.0002973578457127763,
      "loss": 4.1472,
      "step": 30600
    },
    {
      "epoch": 0.06377083333333333,
      "grad_norm": 0.8308647274971008,
      "learning_rate": 0.00029735600317760497,
      "loss": 3.9293,
      "step": 30610
    },
    {
      "epoch": 0.06379166666666666,
      "grad_norm": 0.7990361452102661,
      "learning_rate": 0.00029735416000591417,
      "loss": 4.003,
      "step": 30620
    },
    {
      "epoch": 0.0638125,
      "grad_norm": 0.9568301439285278,
      "learning_rate": 0.00029735231619771164,
      "loss": 4.0668,
      "step": 30630
    },
    {
      "epoch": 0.06383333333333334,
      "grad_norm": 0.9603811502456665,
      "learning_rate": 0.0002973504717530054,
      "loss": 4.0397,
      "step": 30640
    },
    {
      "epoch": 0.06385416666666667,
      "grad_norm": 0.8037965297698975,
      "learning_rate": 0.00029734862667180355,
      "loss": 3.96,
      "step": 30650
    },
    {
      "epoch": 0.063875,
      "grad_norm": 0.8071364164352417,
      "learning_rate": 0.00029734678095411386,
      "loss": 4.1265,
      "step": 30660
    },
    {
      "epoch": 0.06389583333333333,
      "grad_norm": 0.9483314156532288,
      "learning_rate": 0.0002973449345999445,
      "loss": 4.0536,
      "step": 30670
    },
    {
      "epoch": 0.06391666666666666,
      "grad_norm": 0.7776271104812622,
      "learning_rate": 0.0002973430876093033,
      "loss": 4.0215,
      "step": 30680
    },
    {
      "epoch": 0.0639375,
      "grad_norm": 0.955297589302063,
      "learning_rate": 0.00029734123998219824,
      "loss": 3.9222,
      "step": 30690
    },
    {
      "epoch": 0.06395833333333334,
      "grad_norm": 0.757895290851593,
      "learning_rate": 0.0002973393917186374,
      "loss": 4.0686,
      "step": 30700
    },
    {
      "epoch": 0.06397916666666667,
      "grad_norm": 1.2091442346572876,
      "learning_rate": 0.0002973375428186287,
      "loss": 4.1071,
      "step": 30710
    },
    {
      "epoch": 0.064,
      "grad_norm": 1.0378495454788208,
      "learning_rate": 0.0002973356932821801,
      "loss": 4.2626,
      "step": 30720
    },
    {
      "epoch": 0.06402083333333333,
      "grad_norm": 0.7644453048706055,
      "learning_rate": 0.00029733384310929965,
      "loss": 3.9924,
      "step": 30730
    },
    {
      "epoch": 0.06404166666666666,
      "grad_norm": 0.8094509840011597,
      "learning_rate": 0.00029733199229999534,
      "loss": 3.9202,
      "step": 30740
    },
    {
      "epoch": 0.0640625,
      "grad_norm": 0.7730520963668823,
      "learning_rate": 0.00029733014085427513,
      "loss": 4.2904,
      "step": 30750
    },
    {
      "epoch": 0.06408333333333334,
      "grad_norm": 0.765953004360199,
      "learning_rate": 0.000297328288772147,
      "loss": 4.0511,
      "step": 30760
    },
    {
      "epoch": 0.06410416666666667,
      "grad_norm": 0.8394192457199097,
      "learning_rate": 0.000297326436053619,
      "loss": 4.2438,
      "step": 30770
    },
    {
      "epoch": 0.064125,
      "grad_norm": 0.7873914241790771,
      "learning_rate": 0.0002973245826986991,
      "loss": 4.1383,
      "step": 30780
    },
    {
      "epoch": 0.06414583333333333,
      "grad_norm": 0.8852495551109314,
      "learning_rate": 0.00029732272870739535,
      "loss": 4.251,
      "step": 30790
    },
    {
      "epoch": 0.06416666666666666,
      "grad_norm": 0.763525128364563,
      "learning_rate": 0.00029732087407971573,
      "loss": 4.0772,
      "step": 30800
    },
    {
      "epoch": 0.0641875,
      "grad_norm": 0.8675146102905273,
      "learning_rate": 0.0002973190188156682,
      "loss": 3.9152,
      "step": 30810
    },
    {
      "epoch": 0.06420833333333334,
      "grad_norm": 0.7569173574447632,
      "learning_rate": 0.00029731716291526083,
      "loss": 3.9699,
      "step": 30820
    },
    {
      "epoch": 0.06422916666666667,
      "grad_norm": 0.8899872303009033,
      "learning_rate": 0.00029731530637850165,
      "loss": 3.9029,
      "step": 30830
    },
    {
      "epoch": 0.06425,
      "grad_norm": 0.8663697242736816,
      "learning_rate": 0.00029731344920539863,
      "loss": 4.0137,
      "step": 30840
    },
    {
      "epoch": 0.06427083333333333,
      "grad_norm": 0.7411839365959167,
      "learning_rate": 0.0002973115913959599,
      "loss": 4.2699,
      "step": 30850
    },
    {
      "epoch": 0.06429166666666666,
      "grad_norm": 0.974566638469696,
      "learning_rate": 0.0002973097329501933,
      "loss": 3.9777,
      "step": 30860
    },
    {
      "epoch": 0.0643125,
      "grad_norm": 0.814213216304779,
      "learning_rate": 0.000297307873868107,
      "loss": 4.0143,
      "step": 30870
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 0.8665851950645447,
      "learning_rate": 0.000297306014149709,
      "loss": 3.9548,
      "step": 30880
    },
    {
      "epoch": 0.06435416666666667,
      "grad_norm": 1.047326683998108,
      "learning_rate": 0.00029730415379500735,
      "loss": 4.0394,
      "step": 30890
    },
    {
      "epoch": 0.064375,
      "grad_norm": 0.7123035788536072,
      "learning_rate": 0.00029730229280401004,
      "loss": 4.1292,
      "step": 30900
    },
    {
      "epoch": 0.06439583333333333,
      "grad_norm": 0.8742004632949829,
      "learning_rate": 0.00029730043117672515,
      "loss": 4.1564,
      "step": 30910
    },
    {
      "epoch": 0.06441666666666666,
      "grad_norm": 0.8704647421836853,
      "learning_rate": 0.00029729856891316065,
      "loss": 4.0216,
      "step": 30920
    },
    {
      "epoch": 0.0644375,
      "grad_norm": 0.8091585636138916,
      "learning_rate": 0.0002972967060133247,
      "loss": 4.0617,
      "step": 30930
    },
    {
      "epoch": 0.06445833333333334,
      "grad_norm": 0.7084479331970215,
      "learning_rate": 0.0002972948424772253,
      "loss": 3.9508,
      "step": 30940
    },
    {
      "epoch": 0.06447916666666667,
      "grad_norm": 0.7011492848396301,
      "learning_rate": 0.0002972929783048704,
      "loss": 4.0573,
      "step": 30950
    },
    {
      "epoch": 0.0645,
      "grad_norm": 0.756658136844635,
      "learning_rate": 0.00029729111349626814,
      "loss": 4.164,
      "step": 30960
    },
    {
      "epoch": 0.06452083333333333,
      "grad_norm": 1.0252101421356201,
      "learning_rate": 0.00029728924805142663,
      "loss": 4.0559,
      "step": 30970
    },
    {
      "epoch": 0.06454166666666666,
      "grad_norm": 0.7813262343406677,
      "learning_rate": 0.00029728738197035387,
      "loss": 3.888,
      "step": 30980
    },
    {
      "epoch": 0.0645625,
      "grad_norm": 0.7838340401649475,
      "learning_rate": 0.0002972855152530579,
      "loss": 4.0857,
      "step": 30990
    },
    {
      "epoch": 0.06458333333333334,
      "grad_norm": 0.8517456650733948,
      "learning_rate": 0.00029728364789954675,
      "loss": 3.995,
      "step": 31000
    },
    {
      "epoch": 0.06458333333333334,
      "eval_loss": 4.327376365661621,
      "eval_runtime": 11.2178,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.267,
      "step": 31000
    },
    {
      "epoch": 0.06460416666666667,
      "grad_norm": 0.7699393630027771,
      "learning_rate": 0.0002972817799098286,
      "loss": 3.9777,
      "step": 31010
    },
    {
      "epoch": 0.064625,
      "grad_norm": 0.7769227027893066,
      "learning_rate": 0.00029727991128391146,
      "loss": 4.0379,
      "step": 31020
    },
    {
      "epoch": 0.06464583333333333,
      "grad_norm": 0.7739619612693787,
      "learning_rate": 0.0002972780420218034,
      "loss": 4.1631,
      "step": 31030
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 0.7439864277839661,
      "learning_rate": 0.0002972761721235125,
      "loss": 3.9989,
      "step": 31040
    },
    {
      "epoch": 0.0646875,
      "grad_norm": 0.7921522259712219,
      "learning_rate": 0.0002972743015890468,
      "loss": 3.9507,
      "step": 31050
    },
    {
      "epoch": 0.06470833333333334,
      "grad_norm": 0.8532997965812683,
      "learning_rate": 0.0002972724304184144,
      "loss": 4.215,
      "step": 31060
    },
    {
      "epoch": 0.06472916666666667,
      "grad_norm": 0.7538086175918579,
      "learning_rate": 0.00029727055861162346,
      "loss": 3.9818,
      "step": 31070
    },
    {
      "epoch": 0.06475,
      "grad_norm": 0.8587008118629456,
      "learning_rate": 0.000297268686168682,
      "loss": 3.9471,
      "step": 31080
    },
    {
      "epoch": 0.06477083333333333,
      "grad_norm": 1.573502540588379,
      "learning_rate": 0.000297266813089598,
      "loss": 3.9741,
      "step": 31090
    },
    {
      "epoch": 0.06479166666666666,
      "grad_norm": 0.8328423500061035,
      "learning_rate": 0.00029726493937437976,
      "loss": 3.9454,
      "step": 31100
    },
    {
      "epoch": 0.0648125,
      "grad_norm": 0.8369524478912354,
      "learning_rate": 0.00029726306502303527,
      "loss": 3.9664,
      "step": 31110
    },
    {
      "epoch": 0.06483333333333334,
      "grad_norm": 0.805446207523346,
      "learning_rate": 0.0002972611900355726,
      "loss": 3.9284,
      "step": 31120
    },
    {
      "epoch": 0.06485416666666667,
      "grad_norm": 0.8027258515357971,
      "learning_rate": 0.00029725931441199993,
      "loss": 4.0722,
      "step": 31130
    },
    {
      "epoch": 0.064875,
      "grad_norm": 0.8427593111991882,
      "learning_rate": 0.00029725743815232523,
      "loss": 3.9705,
      "step": 31140
    },
    {
      "epoch": 0.06489583333333333,
      "grad_norm": 0.8590787053108215,
      "learning_rate": 0.00029725556125655676,
      "loss": 4.0192,
      "step": 31150
    },
    {
      "epoch": 0.06491666666666666,
      "grad_norm": 0.7328251004219055,
      "learning_rate": 0.0002972536837247025,
      "loss": 4.0692,
      "step": 31160
    },
    {
      "epoch": 0.0649375,
      "grad_norm": 0.8321552276611328,
      "learning_rate": 0.00029725180555677065,
      "loss": 3.8933,
      "step": 31170
    },
    {
      "epoch": 0.06495833333333334,
      "grad_norm": 0.8210546374320984,
      "learning_rate": 0.0002972499267527692,
      "loss": 3.8613,
      "step": 31180
    },
    {
      "epoch": 0.06497916666666667,
      "grad_norm": 0.7840132117271423,
      "learning_rate": 0.00029724804731270644,
      "loss": 4.1586,
      "step": 31190
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.7932566404342651,
      "learning_rate": 0.0002972461672365904,
      "loss": 3.8534,
      "step": 31200
    },
    {
      "epoch": 0.06502083333333333,
      "grad_norm": 0.8288613557815552,
      "learning_rate": 0.00029724428652442913,
      "loss": 4.308,
      "step": 31210
    },
    {
      "epoch": 0.06504166666666666,
      "grad_norm": 0.749365508556366,
      "learning_rate": 0.0002972424051762309,
      "loss": 4.0178,
      "step": 31220
    },
    {
      "epoch": 0.0650625,
      "grad_norm": 0.6931217908859253,
      "learning_rate": 0.00029724052319200377,
      "loss": 4.23,
      "step": 31230
    },
    {
      "epoch": 0.06508333333333334,
      "grad_norm": 0.8485331535339355,
      "learning_rate": 0.0002972386405717558,
      "loss": 3.8514,
      "step": 31240
    },
    {
      "epoch": 0.06510416666666667,
      "grad_norm": 0.8824385404586792,
      "learning_rate": 0.00029723675731549524,
      "loss": 4.0208,
      "step": 31250
    },
    {
      "epoch": 0.065125,
      "grad_norm": 0.7513061761856079,
      "learning_rate": 0.0002972348734232301,
      "loss": 4.0345,
      "step": 31260
    },
    {
      "epoch": 0.06514583333333333,
      "grad_norm": 0.8242037892341614,
      "learning_rate": 0.00029723298889496865,
      "loss": 4.0345,
      "step": 31270
    },
    {
      "epoch": 0.06516666666666666,
      "grad_norm": 0.8075969815254211,
      "learning_rate": 0.00029723110373071896,
      "loss": 3.943,
      "step": 31280
    },
    {
      "epoch": 0.0651875,
      "grad_norm": 0.8235570192337036,
      "learning_rate": 0.0002972292179304892,
      "loss": 4.1328,
      "step": 31290
    },
    {
      "epoch": 0.06520833333333333,
      "grad_norm": 0.8061322569847107,
      "learning_rate": 0.00029722733149428743,
      "loss": 4.0461,
      "step": 31300
    },
    {
      "epoch": 0.06522916666666667,
      "grad_norm": 0.7223886847496033,
      "learning_rate": 0.0002972254444221219,
      "loss": 4.0573,
      "step": 31310
    },
    {
      "epoch": 0.06525,
      "grad_norm": 0.836357593536377,
      "learning_rate": 0.00029722355671400074,
      "loss": 4.0626,
      "step": 31320
    },
    {
      "epoch": 0.06527083333333333,
      "grad_norm": 0.8263186812400818,
      "learning_rate": 0.00029722166836993206,
      "loss": 4.1345,
      "step": 31330
    },
    {
      "epoch": 0.06529166666666666,
      "grad_norm": 0.7752527594566345,
      "learning_rate": 0.00029721977938992406,
      "loss": 4.0337,
      "step": 31340
    },
    {
      "epoch": 0.0653125,
      "grad_norm": 0.7923381328582764,
      "learning_rate": 0.00029721788977398486,
      "loss": 4.2156,
      "step": 31350
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 0.8020000457763672,
      "learning_rate": 0.0002972159995221227,
      "loss": 4.1175,
      "step": 31360
    },
    {
      "epoch": 0.06535416666666667,
      "grad_norm": 0.7421557903289795,
      "learning_rate": 0.0002972141086343457,
      "loss": 4.0763,
      "step": 31370
    },
    {
      "epoch": 0.065375,
      "grad_norm": 0.8899211883544922,
      "learning_rate": 0.00029721221711066195,
      "loss": 4.1089,
      "step": 31380
    },
    {
      "epoch": 0.06539583333333333,
      "grad_norm": 1.061769962310791,
      "learning_rate": 0.0002972103249510797,
      "loss": 4.0919,
      "step": 31390
    },
    {
      "epoch": 0.06541666666666666,
      "grad_norm": 0.803652286529541,
      "learning_rate": 0.0002972084321556072,
      "loss": 4.0907,
      "step": 31400
    },
    {
      "epoch": 0.0654375,
      "grad_norm": 0.9599441885948181,
      "learning_rate": 0.0002972065387242525,
      "loss": 4.0686,
      "step": 31410
    },
    {
      "epoch": 0.06545833333333333,
      "grad_norm": 1.2810839414596558,
      "learning_rate": 0.0002972046446570238,
      "loss": 4.1072,
      "step": 31420
    },
    {
      "epoch": 0.06547916666666667,
      "grad_norm": 0.772625207901001,
      "learning_rate": 0.0002972027499539293,
      "loss": 4.0324,
      "step": 31430
    },
    {
      "epoch": 0.0655,
      "grad_norm": 0.7917378544807434,
      "learning_rate": 0.0002972008546149772,
      "loss": 3.9718,
      "step": 31440
    },
    {
      "epoch": 0.06552083333333333,
      "grad_norm": 0.7269752025604248,
      "learning_rate": 0.0002971989586401757,
      "loss": 4.0404,
      "step": 31450
    },
    {
      "epoch": 0.06554166666666666,
      "grad_norm": 0.8392676711082458,
      "learning_rate": 0.00029719706202953295,
      "loss": 4.0295,
      "step": 31460
    },
    {
      "epoch": 0.0655625,
      "grad_norm": 0.858913779258728,
      "learning_rate": 0.00029719516478305714,
      "loss": 4.1028,
      "step": 31470
    },
    {
      "epoch": 0.06558333333333333,
      "grad_norm": 0.8909509778022766,
      "learning_rate": 0.0002971932669007565,
      "loss": 4.0115,
      "step": 31480
    },
    {
      "epoch": 0.06560416666666667,
      "grad_norm": 0.7191335558891296,
      "learning_rate": 0.0002971913683826392,
      "loss": 4.1224,
      "step": 31490
    },
    {
      "epoch": 0.065625,
      "grad_norm": 0.8361225128173828,
      "learning_rate": 0.00029718946922871345,
      "loss": 4.0749,
      "step": 31500
    },
    {
      "epoch": 0.06564583333333333,
      "grad_norm": 0.8083269000053406,
      "learning_rate": 0.00029718756943898747,
      "loss": 4.001,
      "step": 31510
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 0.784357488155365,
      "learning_rate": 0.0002971856690134694,
      "loss": 4.1027,
      "step": 31520
    },
    {
      "epoch": 0.0656875,
      "grad_norm": 0.8807656764984131,
      "learning_rate": 0.0002971837679521676,
      "loss": 3.935,
      "step": 31530
    },
    {
      "epoch": 0.06570833333333333,
      "grad_norm": 0.8418789505958557,
      "learning_rate": 0.0002971818662550901,
      "loss": 3.88,
      "step": 31540
    },
    {
      "epoch": 0.06572916666666667,
      "grad_norm": 0.8894891142845154,
      "learning_rate": 0.0002971799639222452,
      "loss": 3.9813,
      "step": 31550
    },
    {
      "epoch": 0.06575,
      "grad_norm": 0.8310811519622803,
      "learning_rate": 0.00029717806095364116,
      "loss": 4.0596,
      "step": 31560
    },
    {
      "epoch": 0.06577083333333333,
      "grad_norm": 0.8758858442306519,
      "learning_rate": 0.00029717615734928607,
      "loss": 3.886,
      "step": 31570
    },
    {
      "epoch": 0.06579166666666666,
      "grad_norm": 1.004859209060669,
      "learning_rate": 0.0002971742531091883,
      "loss": 4.2089,
      "step": 31580
    },
    {
      "epoch": 0.0658125,
      "grad_norm": 0.983969509601593,
      "learning_rate": 0.000297172348233356,
      "loss": 4.005,
      "step": 31590
    },
    {
      "epoch": 0.06583333333333333,
      "grad_norm": 0.7759684324264526,
      "learning_rate": 0.00029717044272179746,
      "loss": 4.0044,
      "step": 31600
    },
    {
      "epoch": 0.06585416666666667,
      "grad_norm": 0.7237251400947571,
      "learning_rate": 0.00029716853657452076,
      "loss": 4.1092,
      "step": 31610
    },
    {
      "epoch": 0.065875,
      "grad_norm": 0.7398350238800049,
      "learning_rate": 0.0002971666297915343,
      "loss": 4.0639,
      "step": 31620
    },
    {
      "epoch": 0.06589583333333333,
      "grad_norm": 0.9780521392822266,
      "learning_rate": 0.00029716472237284626,
      "loss": 4.0527,
      "step": 31630
    },
    {
      "epoch": 0.06591666666666667,
      "grad_norm": 0.8306523561477661,
      "learning_rate": 0.00029716281431846483,
      "loss": 4.0306,
      "step": 31640
    },
    {
      "epoch": 0.0659375,
      "grad_norm": 0.7594656348228455,
      "learning_rate": 0.00029716090562839837,
      "loss": 4.0069,
      "step": 31650
    },
    {
      "epoch": 0.06595833333333333,
      "grad_norm": 0.825843334197998,
      "learning_rate": 0.00029715899630265496,
      "loss": 4.0511,
      "step": 31660
    },
    {
      "epoch": 0.06597916666666667,
      "grad_norm": 0.8742634654045105,
      "learning_rate": 0.00029715708634124295,
      "loss": 4.1882,
      "step": 31670
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.8525441884994507,
      "learning_rate": 0.0002971551757441706,
      "loss": 4.1154,
      "step": 31680
    },
    {
      "epoch": 0.06602083333333333,
      "grad_norm": 0.761658787727356,
      "learning_rate": 0.00029715326451144615,
      "loss": 3.8906,
      "step": 31690
    },
    {
      "epoch": 0.06604166666666667,
      "grad_norm": 0.8600627779960632,
      "learning_rate": 0.0002971513526430778,
      "loss": 4.1001,
      "step": 31700
    },
    {
      "epoch": 0.0660625,
      "grad_norm": 0.8396868705749512,
      "learning_rate": 0.0002971494401390739,
      "loss": 4.0184,
      "step": 31710
    },
    {
      "epoch": 0.06608333333333333,
      "grad_norm": 0.8151586651802063,
      "learning_rate": 0.00029714752699944267,
      "loss": 4.1384,
      "step": 31720
    },
    {
      "epoch": 0.06610416666666667,
      "grad_norm": 0.8682240843772888,
      "learning_rate": 0.00029714561322419236,
      "loss": 3.9103,
      "step": 31730
    },
    {
      "epoch": 0.066125,
      "grad_norm": 0.9842267036437988,
      "learning_rate": 0.0002971436988133312,
      "loss": 3.9658,
      "step": 31740
    },
    {
      "epoch": 0.06614583333333333,
      "grad_norm": 0.7141526341438293,
      "learning_rate": 0.00029714178376686755,
      "loss": 3.7982,
      "step": 31750
    },
    {
      "epoch": 0.06616666666666667,
      "grad_norm": 0.8450179696083069,
      "learning_rate": 0.0002971398680848096,
      "loss": 4.0135,
      "step": 31760
    },
    {
      "epoch": 0.0661875,
      "grad_norm": 0.8115793466567993,
      "learning_rate": 0.0002971379517671657,
      "loss": 4.1593,
      "step": 31770
    },
    {
      "epoch": 0.06620833333333333,
      "grad_norm": 0.8941506743431091,
      "learning_rate": 0.0002971360348139441,
      "loss": 3.9621,
      "step": 31780
    },
    {
      "epoch": 0.06622916666666667,
      "grad_norm": 0.8005551695823669,
      "learning_rate": 0.000297134117225153,
      "loss": 4.0692,
      "step": 31790
    },
    {
      "epoch": 0.06625,
      "grad_norm": 0.838133692741394,
      "learning_rate": 0.0002971321990008008,
      "loss": 4.1592,
      "step": 31800
    },
    {
      "epoch": 0.06627083333333333,
      "grad_norm": 0.6778169274330139,
      "learning_rate": 0.0002971302801408957,
      "loss": 4.1142,
      "step": 31810
    },
    {
      "epoch": 0.06629166666666667,
      "grad_norm": 0.7644655704498291,
      "learning_rate": 0.00029712836064544614,
      "loss": 3.8673,
      "step": 31820
    },
    {
      "epoch": 0.0663125,
      "grad_norm": 0.8340640068054199,
      "learning_rate": 0.0002971264405144602,
      "loss": 4.0668,
      "step": 31830
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 0.8286347985267639,
      "learning_rate": 0.00029712451974794624,
      "loss": 4.0207,
      "step": 31840
    },
    {
      "epoch": 0.06635416666666667,
      "grad_norm": 0.8984985947608948,
      "learning_rate": 0.00029712259834591267,
      "loss": 3.938,
      "step": 31850
    },
    {
      "epoch": 0.066375,
      "grad_norm": 0.7914735078811646,
      "learning_rate": 0.0002971206763083677,
      "loss": 4.1784,
      "step": 31860
    },
    {
      "epoch": 0.06639583333333333,
      "grad_norm": 0.8044353723526001,
      "learning_rate": 0.00029711875363531965,
      "loss": 4.1324,
      "step": 31870
    },
    {
      "epoch": 0.06641666666666667,
      "grad_norm": 0.8105528354644775,
      "learning_rate": 0.0002971168303267768,
      "loss": 3.8935,
      "step": 31880
    },
    {
      "epoch": 0.0664375,
      "grad_norm": 0.868144690990448,
      "learning_rate": 0.00029711490638274746,
      "loss": 4.0305,
      "step": 31890
    },
    {
      "epoch": 0.06645833333333333,
      "grad_norm": 0.808652400970459,
      "learning_rate": 0.00029711298180324,
      "loss": 4.0267,
      "step": 31900
    },
    {
      "epoch": 0.06647916666666667,
      "grad_norm": 0.7524037957191467,
      "learning_rate": 0.00029711105658826264,
      "loss": 4.104,
      "step": 31910
    },
    {
      "epoch": 0.0665,
      "grad_norm": 0.9060965776443481,
      "learning_rate": 0.00029710913073782377,
      "loss": 4.1547,
      "step": 31920
    },
    {
      "epoch": 0.06652083333333333,
      "grad_norm": 0.6752282381057739,
      "learning_rate": 0.0002971072042519317,
      "loss": 4.0694,
      "step": 31930
    },
    {
      "epoch": 0.06654166666666667,
      "grad_norm": 0.8896430730819702,
      "learning_rate": 0.0002971052771305947,
      "loss": 3.8984,
      "step": 31940
    },
    {
      "epoch": 0.0665625,
      "grad_norm": 0.8401201963424683,
      "learning_rate": 0.0002971033493738211,
      "loss": 4.1298,
      "step": 31950
    },
    {
      "epoch": 0.06658333333333333,
      "grad_norm": 0.7810353636741638,
      "learning_rate": 0.00029710142098161933,
      "loss": 4.0069,
      "step": 31960
    },
    {
      "epoch": 0.06660416666666667,
      "grad_norm": 0.8506817817687988,
      "learning_rate": 0.0002970994919539976,
      "loss": 4.0399,
      "step": 31970
    },
    {
      "epoch": 0.066625,
      "grad_norm": 0.7968143224716187,
      "learning_rate": 0.00029709756229096435,
      "loss": 4.0042,
      "step": 31980
    },
    {
      "epoch": 0.06664583333333333,
      "grad_norm": 0.7629056572914124,
      "learning_rate": 0.00029709563199252785,
      "loss": 4.1703,
      "step": 31990
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.7136216163635254,
      "learning_rate": 0.0002970937010586964,
      "loss": 3.9575,
      "step": 32000
    },
    {
      "epoch": 0.06666666666666667,
      "eval_loss": 4.317984580993652,
      "eval_runtime": 10.0305,
      "eval_samples_per_second": 0.997,
      "eval_steps_per_second": 0.299,
      "step": 32000
    },
    {
      "epoch": 0.0666875,
      "grad_norm": 0.8806329965591431,
      "learning_rate": 0.0002970917694894784,
      "loss": 3.9776,
      "step": 32010
    },
    {
      "epoch": 0.06670833333333333,
      "grad_norm": 0.8076229691505432,
      "learning_rate": 0.00029708983728488216,
      "loss": 3.833,
      "step": 32020
    },
    {
      "epoch": 0.06672916666666667,
      "grad_norm": 0.7460716962814331,
      "learning_rate": 0.0002970879044449161,
      "loss": 3.978,
      "step": 32030
    },
    {
      "epoch": 0.06675,
      "grad_norm": 0.7601043581962585,
      "learning_rate": 0.00029708597096958847,
      "loss": 4.0981,
      "step": 32040
    },
    {
      "epoch": 0.06677083333333333,
      "grad_norm": 1.3620151281356812,
      "learning_rate": 0.00029708403685890767,
      "loss": 4.0756,
      "step": 32050
    },
    {
      "epoch": 0.06679166666666667,
      "grad_norm": 0.9241359233856201,
      "learning_rate": 0.00029708210211288206,
      "loss": 4.1327,
      "step": 32060
    },
    {
      "epoch": 0.0668125,
      "grad_norm": 0.8080127239227295,
      "learning_rate": 0.00029708016673152,
      "loss": 3.7964,
      "step": 32070
    },
    {
      "epoch": 0.06683333333333333,
      "grad_norm": 0.8615015149116516,
      "learning_rate": 0.0002970782307148298,
      "loss": 4.127,
      "step": 32080
    },
    {
      "epoch": 0.06685416666666667,
      "grad_norm": 0.8855525255203247,
      "learning_rate": 0.0002970762940628199,
      "loss": 4.0057,
      "step": 32090
    },
    {
      "epoch": 0.066875,
      "grad_norm": 0.8995692729949951,
      "learning_rate": 0.0002970743567754986,
      "loss": 4.134,
      "step": 32100
    },
    {
      "epoch": 0.06689583333333333,
      "grad_norm": 0.7830197811126709,
      "learning_rate": 0.0002970724188528743,
      "loss": 4.0404,
      "step": 32110
    },
    {
      "epoch": 0.06691666666666667,
      "grad_norm": 0.836725652217865,
      "learning_rate": 0.00029707048029495536,
      "loss": 4.0553,
      "step": 32120
    },
    {
      "epoch": 0.0669375,
      "grad_norm": 0.9917230010032654,
      "learning_rate": 0.0002970685411017502,
      "loss": 3.9583,
      "step": 32130
    },
    {
      "epoch": 0.06695833333333333,
      "grad_norm": 0.9153820276260376,
      "learning_rate": 0.0002970666012732671,
      "loss": 4.1199,
      "step": 32140
    },
    {
      "epoch": 0.06697916666666667,
      "grad_norm": 0.7497650980949402,
      "learning_rate": 0.00029706466080951457,
      "loss": 4.0236,
      "step": 32150
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.7608867287635803,
      "learning_rate": 0.00029706271971050084,
      "loss": 4.0119,
      "step": 32160
    },
    {
      "epoch": 0.06702083333333334,
      "grad_norm": 0.8883413672447205,
      "learning_rate": 0.0002970607779762344,
      "loss": 3.9867,
      "step": 32170
    },
    {
      "epoch": 0.06704166666666667,
      "grad_norm": 0.7936492562294006,
      "learning_rate": 0.0002970588356067236,
      "loss": 4.2201,
      "step": 32180
    },
    {
      "epoch": 0.0670625,
      "grad_norm": 0.8649752736091614,
      "learning_rate": 0.0002970568926019769,
      "loss": 4.1098,
      "step": 32190
    },
    {
      "epoch": 0.06708333333333333,
      "grad_norm": 0.8336516618728638,
      "learning_rate": 0.00029705494896200256,
      "loss": 3.9697,
      "step": 32200
    },
    {
      "epoch": 0.06710416666666667,
      "grad_norm": 0.8784851431846619,
      "learning_rate": 0.0002970530046868091,
      "loss": 3.9302,
      "step": 32210
    },
    {
      "epoch": 0.067125,
      "grad_norm": 0.7416805624961853,
      "learning_rate": 0.00029705105977640485,
      "loss": 4.0154,
      "step": 32220
    },
    {
      "epoch": 0.06714583333333334,
      "grad_norm": 1.0436137914657593,
      "learning_rate": 0.0002970491142307982,
      "loss": 4.0089,
      "step": 32230
    },
    {
      "epoch": 0.06716666666666667,
      "grad_norm": 0.8003923296928406,
      "learning_rate": 0.0002970471680499976,
      "loss": 4.102,
      "step": 32240
    },
    {
      "epoch": 0.0671875,
      "grad_norm": 0.8729292750358582,
      "learning_rate": 0.00029704522123401143,
      "loss": 3.7755,
      "step": 32250
    },
    {
      "epoch": 0.06720833333333333,
      "grad_norm": 0.7801644802093506,
      "learning_rate": 0.0002970432737828481,
      "loss": 3.9371,
      "step": 32260
    },
    {
      "epoch": 0.06722916666666667,
      "grad_norm": 0.8539013862609863,
      "learning_rate": 0.00029704132569651604,
      "loss": 4.2793,
      "step": 32270
    },
    {
      "epoch": 0.06725,
      "grad_norm": 0.8270050883293152,
      "learning_rate": 0.0002970393769750237,
      "loss": 4.0033,
      "step": 32280
    },
    {
      "epoch": 0.06727083333333334,
      "grad_norm": 0.9147341847419739,
      "learning_rate": 0.00029703742761837945,
      "loss": 3.89,
      "step": 32290
    },
    {
      "epoch": 0.06729166666666667,
      "grad_norm": 0.8416891098022461,
      "learning_rate": 0.00029703547762659167,
      "loss": 4.047,
      "step": 32300
    },
    {
      "epoch": 0.0673125,
      "grad_norm": 0.9025658965110779,
      "learning_rate": 0.0002970335269996688,
      "loss": 3.9372,
      "step": 32310
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 0.7795712351799011,
      "learning_rate": 0.00029703157573761937,
      "loss": 4.0626,
      "step": 32320
    },
    {
      "epoch": 0.06735416666666667,
      "grad_norm": 0.7526452541351318,
      "learning_rate": 0.0002970296238404517,
      "loss": 4.1811,
      "step": 32330
    },
    {
      "epoch": 0.067375,
      "grad_norm": 0.7744480967521667,
      "learning_rate": 0.00029702767130817425,
      "loss": 4.1262,
      "step": 32340
    },
    {
      "epoch": 0.06739583333333334,
      "grad_norm": 0.7511940598487854,
      "learning_rate": 0.0002970257181407955,
      "loss": 3.8759,
      "step": 32350
    },
    {
      "epoch": 0.06741666666666667,
      "grad_norm": 0.8914083242416382,
      "learning_rate": 0.00029702376433832374,
      "loss": 4.0982,
      "step": 32360
    },
    {
      "epoch": 0.0674375,
      "grad_norm": 0.8178173303604126,
      "learning_rate": 0.0002970218099007676,
      "loss": 4.0966,
      "step": 32370
    },
    {
      "epoch": 0.06745833333333333,
      "grad_norm": 0.958595335483551,
      "learning_rate": 0.00029701985482813545,
      "loss": 4.0551,
      "step": 32380
    },
    {
      "epoch": 0.06747916666666667,
      "grad_norm": 0.7528960704803467,
      "learning_rate": 0.00029701789912043566,
      "loss": 4.1179,
      "step": 32390
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.8234387040138245,
      "learning_rate": 0.0002970159427776768,
      "loss": 4.0874,
      "step": 32400
    },
    {
      "epoch": 0.06752083333333334,
      "grad_norm": 0.8581607341766357,
      "learning_rate": 0.0002970139857998672,
      "loss": 4.0402,
      "step": 32410
    },
    {
      "epoch": 0.06754166666666667,
      "grad_norm": 0.7798576951026917,
      "learning_rate": 0.0002970120281870154,
      "loss": 3.9334,
      "step": 32420
    },
    {
      "epoch": 0.0675625,
      "grad_norm": 0.8752985596656799,
      "learning_rate": 0.00029701006993912985,
      "loss": 3.9642,
      "step": 32430
    },
    {
      "epoch": 0.06758333333333333,
      "grad_norm": 0.9090281128883362,
      "learning_rate": 0.00029700811105621894,
      "loss": 3.96,
      "step": 32440
    },
    {
      "epoch": 0.06760416666666667,
      "grad_norm": 0.8500468730926514,
      "learning_rate": 0.00029700615153829124,
      "loss": 3.9925,
      "step": 32450
    },
    {
      "epoch": 0.067625,
      "grad_norm": 0.7876474261283875,
      "learning_rate": 0.0002970041913853551,
      "loss": 3.8318,
      "step": 32460
    },
    {
      "epoch": 0.06764583333333334,
      "grad_norm": 0.8432392477989197,
      "learning_rate": 0.0002970022305974191,
      "loss": 3.7714,
      "step": 32470
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 0.7286289930343628,
      "learning_rate": 0.0002970002691744916,
      "loss": 4.0779,
      "step": 32480
    },
    {
      "epoch": 0.0676875,
      "grad_norm": 0.7543696165084839,
      "learning_rate": 0.0002969983071165811,
      "loss": 4.0354,
      "step": 32490
    },
    {
      "epoch": 0.06770833333333333,
      "grad_norm": 0.7769435048103333,
      "learning_rate": 0.00029699634442369616,
      "loss": 3.9855,
      "step": 32500
    },
    {
      "epoch": 0.06772916666666666,
      "grad_norm": 0.8413987159729004,
      "learning_rate": 0.00029699438109584517,
      "loss": 4.0958,
      "step": 32510
    },
    {
      "epoch": 0.06775,
      "grad_norm": 0.7596355676651001,
      "learning_rate": 0.00029699241713303665,
      "loss": 3.9752,
      "step": 32520
    },
    {
      "epoch": 0.06777083333333334,
      "grad_norm": 0.9097784757614136,
      "learning_rate": 0.00029699045253527907,
      "loss": 3.9581,
      "step": 32530
    },
    {
      "epoch": 0.06779166666666667,
      "grad_norm": 0.8153075575828552,
      "learning_rate": 0.0002969884873025809,
      "loss": 3.8622,
      "step": 32540
    },
    {
      "epoch": 0.0678125,
      "grad_norm": 0.8951911926269531,
      "learning_rate": 0.00029698652143495067,
      "loss": 4.0406,
      "step": 32550
    },
    {
      "epoch": 0.06783333333333333,
      "grad_norm": 0.8234619498252869,
      "learning_rate": 0.00029698455493239683,
      "loss": 4.0881,
      "step": 32560
    },
    {
      "epoch": 0.06785416666666666,
      "grad_norm": 0.8194829821586609,
      "learning_rate": 0.0002969825877949279,
      "loss": 3.9506,
      "step": 32570
    },
    {
      "epoch": 0.067875,
      "grad_norm": 0.7898656129837036,
      "learning_rate": 0.00029698062002255236,
      "loss": 3.9118,
      "step": 32580
    },
    {
      "epoch": 0.06789583333333334,
      "grad_norm": 0.9381137490272522,
      "learning_rate": 0.00029697865161527876,
      "loss": 3.964,
      "step": 32590
    },
    {
      "epoch": 0.06791666666666667,
      "grad_norm": 0.8576021790504456,
      "learning_rate": 0.0002969766825731155,
      "loss": 4.0403,
      "step": 32600
    },
    {
      "epoch": 0.0679375,
      "grad_norm": 0.836057186126709,
      "learning_rate": 0.0002969747128960712,
      "loss": 4.122,
      "step": 32610
    },
    {
      "epoch": 0.06795833333333333,
      "grad_norm": 0.8609469532966614,
      "learning_rate": 0.0002969727425841543,
      "loss": 4.0805,
      "step": 32620
    },
    {
      "epoch": 0.06797916666666666,
      "grad_norm": 0.8229736089706421,
      "learning_rate": 0.0002969707716373733,
      "loss": 3.9666,
      "step": 32630
    },
    {
      "epoch": 0.068,
      "grad_norm": 1.3043606281280518,
      "learning_rate": 0.0002969688000557368,
      "loss": 4.0234,
      "step": 32640
    },
    {
      "epoch": 0.06802083333333334,
      "grad_norm": 0.829684317111969,
      "learning_rate": 0.0002969668278392532,
      "loss": 4.0865,
      "step": 32650
    },
    {
      "epoch": 0.06804166666666667,
      "grad_norm": 0.874487042427063,
      "learning_rate": 0.00029696485498793113,
      "loss": 4.117,
      "step": 32660
    },
    {
      "epoch": 0.0680625,
      "grad_norm": 0.6601777672767639,
      "learning_rate": 0.0002969628815017791,
      "loss": 3.9687,
      "step": 32670
    },
    {
      "epoch": 0.06808333333333333,
      "grad_norm": 0.8547908067703247,
      "learning_rate": 0.00029696090738080545,
      "loss": 4.038,
      "step": 32680
    },
    {
      "epoch": 0.06810416666666666,
      "grad_norm": 0.7928237318992615,
      "learning_rate": 0.000296958932625019,
      "loss": 4.1302,
      "step": 32690
    },
    {
      "epoch": 0.068125,
      "grad_norm": 0.7978391051292419,
      "learning_rate": 0.00029695695723442803,
      "loss": 4.0002,
      "step": 32700
    },
    {
      "epoch": 0.06814583333333334,
      "grad_norm": 0.8476807475090027,
      "learning_rate": 0.0002969549812090412,
      "loss": 4.1103,
      "step": 32710
    },
    {
      "epoch": 0.06816666666666667,
      "grad_norm": 0.9178527593612671,
      "learning_rate": 0.000296953004548867,
      "loss": 4.0663,
      "step": 32720
    },
    {
      "epoch": 0.0681875,
      "grad_norm": 0.738376259803772,
      "learning_rate": 0.000296951027253914,
      "loss": 4.0339,
      "step": 32730
    },
    {
      "epoch": 0.06820833333333333,
      "grad_norm": 0.8412818908691406,
      "learning_rate": 0.0002969490493241908,
      "loss": 4.0402,
      "step": 32740
    },
    {
      "epoch": 0.06822916666666666,
      "grad_norm": 0.934935450553894,
      "learning_rate": 0.0002969470707597058,
      "loss": 3.901,
      "step": 32750
    },
    {
      "epoch": 0.06825,
      "grad_norm": 0.897495687007904,
      "learning_rate": 0.00029694509156046766,
      "loss": 3.9922,
      "step": 32760
    },
    {
      "epoch": 0.06827083333333334,
      "grad_norm": 0.8871989846229553,
      "learning_rate": 0.00029694311172648487,
      "loss": 3.9878,
      "step": 32770
    },
    {
      "epoch": 0.06829166666666667,
      "grad_norm": 0.719870924949646,
      "learning_rate": 0.000296941131257766,
      "loss": 3.9769,
      "step": 32780
    },
    {
      "epoch": 0.0683125,
      "grad_norm": 0.8276297450065613,
      "learning_rate": 0.0002969391501543196,
      "loss": 4.1362,
      "step": 32790
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 0.8307990431785583,
      "learning_rate": 0.0002969371684161542,
      "loss": 3.9933,
      "step": 32800
    },
    {
      "epoch": 0.06835416666666666,
      "grad_norm": 0.8146401047706604,
      "learning_rate": 0.00029693518604327845,
      "loss": 3.9748,
      "step": 32810
    },
    {
      "epoch": 0.068375,
      "grad_norm": 0.9713392853736877,
      "learning_rate": 0.00029693320303570087,
      "loss": 4.0625,
      "step": 32820
    },
    {
      "epoch": 0.06839583333333334,
      "grad_norm": 1.029344916343689,
      "learning_rate": 0.00029693121939342997,
      "loss": 4.0584,
      "step": 32830
    },
    {
      "epoch": 0.06841666666666667,
      "grad_norm": 0.9031974673271179,
      "learning_rate": 0.0002969292351164744,
      "loss": 3.9429,
      "step": 32840
    },
    {
      "epoch": 0.0684375,
      "grad_norm": 0.7857670187950134,
      "learning_rate": 0.0002969272502048427,
      "loss": 4.0534,
      "step": 32850
    },
    {
      "epoch": 0.06845833333333333,
      "grad_norm": 0.8948509097099304,
      "learning_rate": 0.00029692526465854337,
      "loss": 4.1799,
      "step": 32860
    },
    {
      "epoch": 0.06847916666666666,
      "grad_norm": 0.7429506778717041,
      "learning_rate": 0.00029692327847758506,
      "loss": 3.993,
      "step": 32870
    },
    {
      "epoch": 0.0685,
      "grad_norm": 0.9259060621261597,
      "learning_rate": 0.0002969212916619764,
      "loss": 3.9473,
      "step": 32880
    },
    {
      "epoch": 0.06852083333333334,
      "grad_norm": 0.920107901096344,
      "learning_rate": 0.00029691930421172583,
      "loss": 4.0013,
      "step": 32890
    },
    {
      "epoch": 0.06854166666666667,
      "grad_norm": 0.829792857170105,
      "learning_rate": 0.00029691731612684215,
      "loss": 4.1036,
      "step": 32900
    },
    {
      "epoch": 0.0685625,
      "grad_norm": 0.7543922662734985,
      "learning_rate": 0.00029691532740733375,
      "loss": 4.0015,
      "step": 32910
    },
    {
      "epoch": 0.06858333333333333,
      "grad_norm": 0.7866932153701782,
      "learning_rate": 0.0002969133380532092,
      "loss": 4.0068,
      "step": 32920
    },
    {
      "epoch": 0.06860416666666666,
      "grad_norm": 0.8012253642082214,
      "learning_rate": 0.00029691134806447727,
      "loss": 4.3772,
      "step": 32930
    },
    {
      "epoch": 0.068625,
      "grad_norm": 0.7860134243965149,
      "learning_rate": 0.00029690935744114655,
      "loss": 3.8687,
      "step": 32940
    },
    {
      "epoch": 0.06864583333333334,
      "grad_norm": 0.7570598721504211,
      "learning_rate": 0.00029690736618322546,
      "loss": 4.1057,
      "step": 32950
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 0.856360673904419,
      "learning_rate": 0.0002969053742907227,
      "loss": 4.1768,
      "step": 32960
    },
    {
      "epoch": 0.0686875,
      "grad_norm": 0.8201711177825928,
      "learning_rate": 0.00029690338176364685,
      "loss": 4.129,
      "step": 32970
    },
    {
      "epoch": 0.06870833333333333,
      "grad_norm": 0.8094348311424255,
      "learning_rate": 0.00029690138860200655,
      "loss": 4.0328,
      "step": 32980
    },
    {
      "epoch": 0.06872916666666666,
      "grad_norm": 0.7905895709991455,
      "learning_rate": 0.00029689939480581043,
      "loss": 4.0906,
      "step": 32990
    },
    {
      "epoch": 0.06875,
      "grad_norm": 0.8108993768692017,
      "learning_rate": 0.0002968974003750671,
      "loss": 4.0015,
      "step": 33000
    },
    {
      "epoch": 0.06875,
      "eval_loss": 4.30398416519165,
      "eval_runtime": 9.9665,
      "eval_samples_per_second": 1.003,
      "eval_steps_per_second": 0.301,
      "step": 33000
    },
    {
      "epoch": 0.06877083333333334,
      "grad_norm": 0.8802614808082581,
      "learning_rate": 0.00029689540530978507,
      "loss": 3.9564,
      "step": 33010
    },
    {
      "epoch": 0.06879166666666667,
      "grad_norm": 0.8001412749290466,
      "learning_rate": 0.00029689340960997306,
      "loss": 4.0892,
      "step": 33020
    },
    {
      "epoch": 0.0688125,
      "grad_norm": 0.850569486618042,
      "learning_rate": 0.0002968914132756397,
      "loss": 3.8203,
      "step": 33030
    },
    {
      "epoch": 0.06883333333333333,
      "grad_norm": 0.8175033330917358,
      "learning_rate": 0.00029688941630679356,
      "loss": 4.0917,
      "step": 33040
    },
    {
      "epoch": 0.06885416666666666,
      "grad_norm": 0.7801465392112732,
      "learning_rate": 0.0002968874187034433,
      "loss": 4.0185,
      "step": 33050
    },
    {
      "epoch": 0.068875,
      "grad_norm": 0.9223626852035522,
      "learning_rate": 0.0002968854204655975,
      "loss": 3.9671,
      "step": 33060
    },
    {
      "epoch": 0.06889583333333334,
      "grad_norm": 0.8289282321929932,
      "learning_rate": 0.0002968834215932648,
      "loss": 4.1713,
      "step": 33070
    },
    {
      "epoch": 0.06891666666666667,
      "grad_norm": 0.8045044541358948,
      "learning_rate": 0.00029688142208645393,
      "loss": 3.9174,
      "step": 33080
    },
    {
      "epoch": 0.0689375,
      "grad_norm": 0.8104084730148315,
      "learning_rate": 0.00029687942194517346,
      "loss": 4.0087,
      "step": 33090
    },
    {
      "epoch": 0.06895833333333333,
      "grad_norm": 0.852576494216919,
      "learning_rate": 0.000296877421169432,
      "loss": 3.8957,
      "step": 33100
    },
    {
      "epoch": 0.06897916666666666,
      "grad_norm": 0.7764285802841187,
      "learning_rate": 0.0002968754197592382,
      "loss": 4.0078,
      "step": 33110
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.6912543177604675,
      "learning_rate": 0.0002968734177146007,
      "loss": 3.985,
      "step": 33120
    },
    {
      "epoch": 0.06902083333333334,
      "grad_norm": 0.7757405638694763,
      "learning_rate": 0.0002968714150355282,
      "loss": 3.9926,
      "step": 33130
    },
    {
      "epoch": 0.06904166666666667,
      "grad_norm": 0.8769288659095764,
      "learning_rate": 0.0002968694117220293,
      "loss": 4.0758,
      "step": 33140
    },
    {
      "epoch": 0.0690625,
      "grad_norm": 0.9956322312355042,
      "learning_rate": 0.00029686740777411274,
      "loss": 4.0011,
      "step": 33150
    },
    {
      "epoch": 0.06908333333333333,
      "grad_norm": 0.9630488753318787,
      "learning_rate": 0.0002968654031917871,
      "loss": 4.1207,
      "step": 33160
    },
    {
      "epoch": 0.06910416666666666,
      "grad_norm": 0.730347216129303,
      "learning_rate": 0.00029686339797506097,
      "loss": 3.9294,
      "step": 33170
    },
    {
      "epoch": 0.069125,
      "grad_norm": 0.7564640641212463,
      "learning_rate": 0.00029686139212394317,
      "loss": 4.1184,
      "step": 33180
    },
    {
      "epoch": 0.06914583333333334,
      "grad_norm": 0.9014918804168701,
      "learning_rate": 0.0002968593856384423,
      "loss": 4.1378,
      "step": 33190
    },
    {
      "epoch": 0.06916666666666667,
      "grad_norm": 0.8133769631385803,
      "learning_rate": 0.00029685737851856695,
      "loss": 4.0697,
      "step": 33200
    },
    {
      "epoch": 0.0691875,
      "grad_norm": 0.7749180197715759,
      "learning_rate": 0.0002968553707643259,
      "loss": 3.9783,
      "step": 33210
    },
    {
      "epoch": 0.06920833333333333,
      "grad_norm": 0.7466203570365906,
      "learning_rate": 0.00029685336237572776,
      "loss": 3.9652,
      "step": 33220
    },
    {
      "epoch": 0.06922916666666666,
      "grad_norm": 0.8236038088798523,
      "learning_rate": 0.0002968513533527812,
      "loss": 4.1628,
      "step": 33230
    },
    {
      "epoch": 0.06925,
      "grad_norm": 0.8048877716064453,
      "learning_rate": 0.000296849343695495,
      "loss": 4.2041,
      "step": 33240
    },
    {
      "epoch": 0.06927083333333334,
      "grad_norm": 0.9180687665939331,
      "learning_rate": 0.0002968473334038777,
      "loss": 4.0011,
      "step": 33250
    },
    {
      "epoch": 0.06929166666666667,
      "grad_norm": 0.894702672958374,
      "learning_rate": 0.000296845322477938,
      "loss": 4.0673,
      "step": 33260
    },
    {
      "epoch": 0.0693125,
      "grad_norm": 0.7540309429168701,
      "learning_rate": 0.00029684331091768475,
      "loss": 3.9622,
      "step": 33270
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 0.9511730074882507,
      "learning_rate": 0.0002968412987231265,
      "loss": 4.2008,
      "step": 33280
    },
    {
      "epoch": 0.06935416666666666,
      "grad_norm": 0.717928409576416,
      "learning_rate": 0.00029683928589427193,
      "loss": 4.0966,
      "step": 33290
    },
    {
      "epoch": 0.069375,
      "grad_norm": 0.8435646891593933,
      "learning_rate": 0.00029683727243112973,
      "loss": 4.1442,
      "step": 33300
    },
    {
      "epoch": 0.06939583333333334,
      "grad_norm": 0.9767887592315674,
      "learning_rate": 0.00029683525833370866,
      "loss": 4.1393,
      "step": 33310
    },
    {
      "epoch": 0.06941666666666667,
      "grad_norm": 0.803268313407898,
      "learning_rate": 0.0002968332436020174,
      "loss": 3.9012,
      "step": 33320
    },
    {
      "epoch": 0.0694375,
      "grad_norm": 0.7727909684181213,
      "learning_rate": 0.00029683122823606466,
      "loss": 4.0018,
      "step": 33330
    },
    {
      "epoch": 0.06945833333333333,
      "grad_norm": 0.7855028510093689,
      "learning_rate": 0.0002968292122358591,
      "loss": 3.9996,
      "step": 33340
    },
    {
      "epoch": 0.06947916666666666,
      "grad_norm": 0.8063452243804932,
      "learning_rate": 0.0002968271956014095,
      "loss": 3.8731,
      "step": 33350
    },
    {
      "epoch": 0.0695,
      "grad_norm": 0.7760762572288513,
      "learning_rate": 0.00029682517833272453,
      "loss": 4.1372,
      "step": 33360
    },
    {
      "epoch": 0.06952083333333334,
      "grad_norm": 0.8319500684738159,
      "learning_rate": 0.0002968231604298129,
      "loss": 4.0792,
      "step": 33370
    },
    {
      "epoch": 0.06954166666666667,
      "grad_norm": 0.852035403251648,
      "learning_rate": 0.0002968211418926833,
      "loss": 3.9093,
      "step": 33380
    },
    {
      "epoch": 0.0695625,
      "grad_norm": 0.7542200088500977,
      "learning_rate": 0.0002968191227213445,
      "loss": 4.0235,
      "step": 33390
    },
    {
      "epoch": 0.06958333333333333,
      "grad_norm": 0.8637761473655701,
      "learning_rate": 0.0002968171029158053,
      "loss": 3.9892,
      "step": 33400
    },
    {
      "epoch": 0.06960416666666666,
      "grad_norm": 0.8369530439376831,
      "learning_rate": 0.0002968150824760742,
      "loss": 3.7701,
      "step": 33410
    },
    {
      "epoch": 0.069625,
      "grad_norm": 0.8714974522590637,
      "learning_rate": 0.00029681306140216015,
      "loss": 4.0782,
      "step": 33420
    },
    {
      "epoch": 0.06964583333333334,
      "grad_norm": 0.8339084982872009,
      "learning_rate": 0.0002968110396940717,
      "loss": 4.0547,
      "step": 33430
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 0.7795150279998779,
      "learning_rate": 0.0002968090173518177,
      "loss": 4.1387,
      "step": 33440
    },
    {
      "epoch": 0.0696875,
      "grad_norm": 0.9617117643356323,
      "learning_rate": 0.00029680699437540693,
      "loss": 4.061,
      "step": 33450
    },
    {
      "epoch": 0.06970833333333333,
      "grad_norm": 0.7326298356056213,
      "learning_rate": 0.00029680497076484797,
      "loss": 4.0547,
      "step": 33460
    },
    {
      "epoch": 0.06972916666666666,
      "grad_norm": 0.8423073887825012,
      "learning_rate": 0.0002968029465201497,
      "loss": 4.0466,
      "step": 33470
    },
    {
      "epoch": 0.06975,
      "grad_norm": 0.7888397574424744,
      "learning_rate": 0.0002968009216413208,
      "loss": 3.9723,
      "step": 33480
    },
    {
      "epoch": 0.06977083333333334,
      "grad_norm": 0.9914518594741821,
      "learning_rate": 0.00029679889612836994,
      "loss": 3.8201,
      "step": 33490
    },
    {
      "epoch": 0.06979166666666667,
      "grad_norm": 0.8486353158950806,
      "learning_rate": 0.000296796869981306,
      "loss": 3.9613,
      "step": 33500
    },
    {
      "epoch": 0.0698125,
      "grad_norm": 1.2235668897628784,
      "learning_rate": 0.00029679484320013777,
      "loss": 4.0318,
      "step": 33510
    },
    {
      "epoch": 0.06983333333333333,
      "grad_norm": 0.7431442737579346,
      "learning_rate": 0.0002967928157848739,
      "loss": 4.0536,
      "step": 33520
    },
    {
      "epoch": 0.06985416666666666,
      "grad_norm": 0.875646710395813,
      "learning_rate": 0.0002967907877355231,
      "loss": 4.076,
      "step": 33530
    },
    {
      "epoch": 0.069875,
      "grad_norm": 1.174370288848877,
      "learning_rate": 0.0002967887590520942,
      "loss": 3.9788,
      "step": 33540
    },
    {
      "epoch": 0.06989583333333334,
      "grad_norm": 1.2928259372711182,
      "learning_rate": 0.000296786729734596,
      "loss": 4.1273,
      "step": 33550
    },
    {
      "epoch": 0.06991666666666667,
      "grad_norm": 0.793785035610199,
      "learning_rate": 0.00029678469978303726,
      "loss": 4.2496,
      "step": 33560
    },
    {
      "epoch": 0.0699375,
      "grad_norm": 0.7670491933822632,
      "learning_rate": 0.0002967826691974267,
      "loss": 4.0288,
      "step": 33570
    },
    {
      "epoch": 0.06995833333333333,
      "grad_norm": 0.8878262639045715,
      "learning_rate": 0.00029678063797777306,
      "loss": 3.9737,
      "step": 33580
    },
    {
      "epoch": 0.06997916666666666,
      "grad_norm": 0.7248619198799133,
      "learning_rate": 0.00029677860612408526,
      "loss": 4.2008,
      "step": 33590
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9372048377990723,
      "learning_rate": 0.00029677657363637186,
      "loss": 4.0277,
      "step": 33600
    },
    {
      "epoch": 0.07002083333333334,
      "grad_norm": 0.8380268216133118,
      "learning_rate": 0.0002967745405146418,
      "loss": 4.0995,
      "step": 33610
    },
    {
      "epoch": 0.07004166666666667,
      "grad_norm": 0.8668045997619629,
      "learning_rate": 0.0002967725067589039,
      "loss": 4.0373,
      "step": 33620
    },
    {
      "epoch": 0.0700625,
      "grad_norm": 0.7666056156158447,
      "learning_rate": 0.0002967704723691668,
      "loss": 3.9088,
      "step": 33630
    },
    {
      "epoch": 0.07008333333333333,
      "grad_norm": 0.7111327648162842,
      "learning_rate": 0.00029676843734543937,
      "loss": 3.8105,
      "step": 33640
    },
    {
      "epoch": 0.07010416666666666,
      "grad_norm": 0.7928159832954407,
      "learning_rate": 0.0002967664016877304,
      "loss": 4.1738,
      "step": 33650
    },
    {
      "epoch": 0.070125,
      "grad_norm": 0.9042511582374573,
      "learning_rate": 0.00029676436539604863,
      "loss": 3.9378,
      "step": 33660
    },
    {
      "epoch": 0.07014583333333334,
      "grad_norm": 0.8160687685012817,
      "learning_rate": 0.0002967623284704029,
      "loss": 3.951,
      "step": 33670
    },
    {
      "epoch": 0.07016666666666667,
      "grad_norm": 0.722602128982544,
      "learning_rate": 0.00029676029091080204,
      "loss": 3.9503,
      "step": 33680
    },
    {
      "epoch": 0.0701875,
      "grad_norm": 0.7011421918869019,
      "learning_rate": 0.0002967582527172548,
      "loss": 3.884,
      "step": 33690
    },
    {
      "epoch": 0.07020833333333333,
      "grad_norm": 0.9496217966079712,
      "learning_rate": 0.00029675621388976995,
      "loss": 4.1054,
      "step": 33700
    },
    {
      "epoch": 0.07022916666666666,
      "grad_norm": 0.870117723941803,
      "learning_rate": 0.0002967541744283564,
      "loss": 4.0435,
      "step": 33710
    },
    {
      "epoch": 0.07025,
      "grad_norm": 0.7466534972190857,
      "learning_rate": 0.0002967521343330229,
      "loss": 3.8093,
      "step": 33720
    },
    {
      "epoch": 0.07027083333333334,
      "grad_norm": 0.8525457978248596,
      "learning_rate": 0.00029675009360377824,
      "loss": 3.9675,
      "step": 33730
    },
    {
      "epoch": 0.07029166666666667,
      "grad_norm": 1.002378225326538,
      "learning_rate": 0.00029674805224063136,
      "loss": 3.9346,
      "step": 33740
    },
    {
      "epoch": 0.0703125,
      "grad_norm": 0.8722872734069824,
      "learning_rate": 0.0002967460102435909,
      "loss": 3.9666,
      "step": 33750
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 0.8394680023193359,
      "learning_rate": 0.00029674396761266575,
      "loss": 3.9941,
      "step": 33760
    },
    {
      "epoch": 0.07035416666666666,
      "grad_norm": 0.874859094619751,
      "learning_rate": 0.00029674192434786474,
      "loss": 4.146,
      "step": 33770
    },
    {
      "epoch": 0.070375,
      "grad_norm": 0.7514142394065857,
      "learning_rate": 0.00029673988044919675,
      "loss": 3.9637,
      "step": 33780
    },
    {
      "epoch": 0.07039583333333334,
      "grad_norm": 0.8669379353523254,
      "learning_rate": 0.0002967378359166705,
      "loss": 3.821,
      "step": 33790
    },
    {
      "epoch": 0.07041666666666667,
      "grad_norm": 0.7747814655303955,
      "learning_rate": 0.00029673579075029495,
      "loss": 3.9791,
      "step": 33800
    },
    {
      "epoch": 0.0704375,
      "grad_norm": 0.7659511566162109,
      "learning_rate": 0.00029673374495007887,
      "loss": 4.0308,
      "step": 33810
    },
    {
      "epoch": 0.07045833333333333,
      "grad_norm": 0.7867910861968994,
      "learning_rate": 0.00029673169851603104,
      "loss": 4.0675,
      "step": 33820
    },
    {
      "epoch": 0.07047916666666666,
      "grad_norm": 0.7915265560150146,
      "learning_rate": 0.00029672965144816036,
      "loss": 4.0912,
      "step": 33830
    },
    {
      "epoch": 0.0705,
      "grad_norm": 0.7157679796218872,
      "learning_rate": 0.00029672760374647566,
      "loss": 3.9876,
      "step": 33840
    },
    {
      "epoch": 0.07052083333333334,
      "grad_norm": 0.7815073728561401,
      "learning_rate": 0.00029672555541098583,
      "loss": 4.1667,
      "step": 33850
    },
    {
      "epoch": 0.07054166666666667,
      "grad_norm": 0.8013626337051392,
      "learning_rate": 0.00029672350644169965,
      "loss": 4.152,
      "step": 33860
    },
    {
      "epoch": 0.0705625,
      "grad_norm": 0.8340665698051453,
      "learning_rate": 0.000296721456838626,
      "loss": 3.9851,
      "step": 33870
    },
    {
      "epoch": 0.07058333333333333,
      "grad_norm": 0.8668696284294128,
      "learning_rate": 0.0002967194066017737,
      "loss": 4.168,
      "step": 33880
    },
    {
      "epoch": 0.07060416666666666,
      "grad_norm": 0.9821145534515381,
      "learning_rate": 0.00029671735573115173,
      "loss": 4.0226,
      "step": 33890
    },
    {
      "epoch": 0.070625,
      "grad_norm": 0.6895598769187927,
      "learning_rate": 0.0002967153042267688,
      "loss": 3.8604,
      "step": 33900
    },
    {
      "epoch": 0.07064583333333334,
      "grad_norm": 0.7109642624855042,
      "learning_rate": 0.0002967132520886338,
      "loss": 3.8212,
      "step": 33910
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 0.9442762136459351,
      "learning_rate": 0.00029671119931675566,
      "loss": 4.0117,
      "step": 33920
    },
    {
      "epoch": 0.0706875,
      "grad_norm": 0.8387334942817688,
      "learning_rate": 0.00029670914591114323,
      "loss": 3.9426,
      "step": 33930
    },
    {
      "epoch": 0.07070833333333333,
      "grad_norm": 0.8189740180969238,
      "learning_rate": 0.00029670709187180536,
      "loss": 4.0305,
      "step": 33940
    },
    {
      "epoch": 0.07072916666666666,
      "grad_norm": 0.7688173651695251,
      "learning_rate": 0.00029670503719875083,
      "loss": 3.9379,
      "step": 33950
    },
    {
      "epoch": 0.07075,
      "grad_norm": 0.8473075032234192,
      "learning_rate": 0.00029670298189198876,
      "loss": 4.0834,
      "step": 33960
    },
    {
      "epoch": 0.07077083333333334,
      "grad_norm": 0.7963990569114685,
      "learning_rate": 0.00029670092595152775,
      "loss": 4.0196,
      "step": 33970
    },
    {
      "epoch": 0.07079166666666667,
      "grad_norm": 0.8827261924743652,
      "learning_rate": 0.00029669886937737686,
      "loss": 3.9595,
      "step": 33980
    },
    {
      "epoch": 0.0708125,
      "grad_norm": 0.6806573867797852,
      "learning_rate": 0.00029669681216954493,
      "loss": 3.8904,
      "step": 33990
    },
    {
      "epoch": 0.07083333333333333,
      "grad_norm": 0.8010231852531433,
      "learning_rate": 0.00029669475432804086,
      "loss": 3.8917,
      "step": 34000
    },
    {
      "epoch": 0.07083333333333333,
      "eval_loss": 4.30956506729126,
      "eval_runtime": 8.8143,
      "eval_samples_per_second": 1.135,
      "eval_steps_per_second": 0.34,
      "step": 34000
    },
    {
      "epoch": 0.07085416666666666,
      "grad_norm": 0.7778903841972351,
      "learning_rate": 0.00029669269585287346,
      "loss": 3.9224,
      "step": 34010
    },
    {
      "epoch": 0.070875,
      "grad_norm": 0.9363383054733276,
      "learning_rate": 0.0002966906367440517,
      "loss": 3.9191,
      "step": 34020
    },
    {
      "epoch": 0.07089583333333334,
      "grad_norm": 0.7179674506187439,
      "learning_rate": 0.00029668857700158445,
      "loss": 4.0013,
      "step": 34030
    },
    {
      "epoch": 0.07091666666666667,
      "grad_norm": 0.7650682926177979,
      "learning_rate": 0.0002966865166254806,
      "loss": 4.0714,
      "step": 34040
    },
    {
      "epoch": 0.0709375,
      "grad_norm": 0.9580439329147339,
      "learning_rate": 0.0002966844556157491,
      "loss": 4.0841,
      "step": 34050
    },
    {
      "epoch": 0.07095833333333333,
      "grad_norm": 0.7576990127563477,
      "learning_rate": 0.0002966823939723988,
      "loss": 3.8032,
      "step": 34060
    },
    {
      "epoch": 0.07097916666666666,
      "grad_norm": 0.7621942162513733,
      "learning_rate": 0.0002966803316954386,
      "loss": 4.0872,
      "step": 34070
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.8907612562179565,
      "learning_rate": 0.0002966782687848775,
      "loss": 4.2552,
      "step": 34080
    },
    {
      "epoch": 0.07102083333333334,
      "grad_norm": 0.8342941999435425,
      "learning_rate": 0.0002966762052407242,
      "loss": 4.1747,
      "step": 34090
    },
    {
      "epoch": 0.07104166666666667,
      "grad_norm": 0.7848079800605774,
      "learning_rate": 0.00029667414106298787,
      "loss": 4.1088,
      "step": 34100
    },
    {
      "epoch": 0.0710625,
      "grad_norm": 0.7720039486885071,
      "learning_rate": 0.0002966720762516773,
      "loss": 3.991,
      "step": 34110
    },
    {
      "epoch": 0.07108333333333333,
      "grad_norm": 0.7395342588424683,
      "learning_rate": 0.0002966700108068013,
      "loss": 4.1175,
      "step": 34120
    },
    {
      "epoch": 0.07110416666666666,
      "grad_norm": 0.8203276991844177,
      "learning_rate": 0.00029666794472836907,
      "loss": 3.9117,
      "step": 34130
    },
    {
      "epoch": 0.071125,
      "grad_norm": 0.9160122871398926,
      "learning_rate": 0.00029666587801638924,
      "loss": 4.1776,
      "step": 34140
    },
    {
      "epoch": 0.07114583333333334,
      "grad_norm": 0.7634288668632507,
      "learning_rate": 0.00029666381067087094,
      "loss": 3.7585,
      "step": 34150
    },
    {
      "epoch": 0.07116666666666667,
      "grad_norm": 0.9294099807739258,
      "learning_rate": 0.00029666174269182306,
      "loss": 4.0327,
      "step": 34160
    },
    {
      "epoch": 0.0711875,
      "grad_norm": 0.817876935005188,
      "learning_rate": 0.00029665967407925444,
      "loss": 3.903,
      "step": 34170
    },
    {
      "epoch": 0.07120833333333333,
      "grad_norm": 0.7977610230445862,
      "learning_rate": 0.0002966576048331741,
      "loss": 4.04,
      "step": 34180
    },
    {
      "epoch": 0.07122916666666666,
      "grad_norm": 0.8410491943359375,
      "learning_rate": 0.00029665553495359097,
      "loss": 3.9731,
      "step": 34190
    },
    {
      "epoch": 0.07125,
      "grad_norm": 0.7685146927833557,
      "learning_rate": 0.00029665346444051395,
      "loss": 4.2364,
      "step": 34200
    },
    {
      "epoch": 0.07127083333333334,
      "grad_norm": 0.8239428400993347,
      "learning_rate": 0.0002966513932939521,
      "loss": 4.0998,
      "step": 34210
    },
    {
      "epoch": 0.07129166666666667,
      "grad_norm": 0.8673047423362732,
      "learning_rate": 0.00029664932151391414,
      "loss": 4.0048,
      "step": 34220
    },
    {
      "epoch": 0.0713125,
      "grad_norm": 0.8363068699836731,
      "learning_rate": 0.0002966472491004093,
      "loss": 4.0507,
      "step": 34230
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 0.8142035007476807,
      "learning_rate": 0.0002966451760534463,
      "loss": 3.991,
      "step": 34240
    },
    {
      "epoch": 0.07135416666666666,
      "grad_norm": 0.7678346633911133,
      "learning_rate": 0.00029664310237303423,
      "loss": 4.0147,
      "step": 34250
    },
    {
      "epoch": 0.071375,
      "grad_norm": 0.9523639678955078,
      "learning_rate": 0.000296641028059182,
      "loss": 4.0481,
      "step": 34260
    },
    {
      "epoch": 0.07139583333333334,
      "grad_norm": 0.9097340703010559,
      "learning_rate": 0.00029663895311189854,
      "loss": 4.1269,
      "step": 34270
    },
    {
      "epoch": 0.07141666666666667,
      "grad_norm": 0.7901546955108643,
      "learning_rate": 0.0002966368775311928,
      "loss": 3.9693,
      "step": 34280
    },
    {
      "epoch": 0.0714375,
      "grad_norm": 0.8100095987319946,
      "learning_rate": 0.0002966348013170739,
      "loss": 4.1189,
      "step": 34290
    },
    {
      "epoch": 0.07145833333333333,
      "grad_norm": 0.8052130937576294,
      "learning_rate": 0.00029663272446955066,
      "loss": 3.9931,
      "step": 34300
    },
    {
      "epoch": 0.07147916666666666,
      "grad_norm": 0.7385896444320679,
      "learning_rate": 0.0002966306469886321,
      "loss": 4.0292,
      "step": 34310
    },
    {
      "epoch": 0.0715,
      "grad_norm": 0.7445738315582275,
      "learning_rate": 0.00029662856887432715,
      "loss": 4.0386,
      "step": 34320
    },
    {
      "epoch": 0.07152083333333334,
      "grad_norm": 0.8286782503128052,
      "learning_rate": 0.00029662649012664487,
      "loss": 4.1846,
      "step": 34330
    },
    {
      "epoch": 0.07154166666666667,
      "grad_norm": 0.835978627204895,
      "learning_rate": 0.00029662441074559416,
      "loss": 4.0104,
      "step": 34340
    },
    {
      "epoch": 0.0715625,
      "grad_norm": 0.7241278290748596,
      "learning_rate": 0.000296622330731184,
      "loss": 3.9984,
      "step": 34350
    },
    {
      "epoch": 0.07158333333333333,
      "grad_norm": 0.7916358113288879,
      "learning_rate": 0.00029662025008342347,
      "loss": 3.9964,
      "step": 34360
    },
    {
      "epoch": 0.07160416666666666,
      "grad_norm": 0.8084188103675842,
      "learning_rate": 0.00029661816880232147,
      "loss": 3.9023,
      "step": 34370
    },
    {
      "epoch": 0.071625,
      "grad_norm": 0.9834280014038086,
      "learning_rate": 0.000296616086887887,
      "loss": 4.1501,
      "step": 34380
    },
    {
      "epoch": 0.07164583333333334,
      "grad_norm": 1.250417947769165,
      "learning_rate": 0.0002966140043401291,
      "loss": 3.9661,
      "step": 34390
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 0.8166579008102417,
      "learning_rate": 0.0002966119211590567,
      "loss": 4.2811,
      "step": 34400
    },
    {
      "epoch": 0.0716875,
      "grad_norm": 0.795012354850769,
      "learning_rate": 0.0002966098373446789,
      "loss": 3.9427,
      "step": 34410
    },
    {
      "epoch": 0.07170833333333333,
      "grad_norm": 0.7691431641578674,
      "learning_rate": 0.0002966077528970046,
      "loss": 4.0989,
      "step": 34420
    },
    {
      "epoch": 0.07172916666666666,
      "grad_norm": 0.8499016165733337,
      "learning_rate": 0.00029660566781604283,
      "loss": 4.007,
      "step": 34430
    },
    {
      "epoch": 0.07175,
      "grad_norm": 1.0078589916229248,
      "learning_rate": 0.00029660358210180257,
      "loss": 4.018,
      "step": 34440
    },
    {
      "epoch": 0.07177083333333334,
      "grad_norm": 0.9950017333030701,
      "learning_rate": 0.00029660149575429294,
      "loss": 4.0182,
      "step": 34450
    },
    {
      "epoch": 0.07179166666666667,
      "grad_norm": 0.8495825529098511,
      "learning_rate": 0.0002965994087735228,
      "loss": 3.9463,
      "step": 34460
    },
    {
      "epoch": 0.0718125,
      "grad_norm": 0.8476213812828064,
      "learning_rate": 0.00029659732115950134,
      "loss": 4.0219,
      "step": 34470
    },
    {
      "epoch": 0.07183333333333333,
      "grad_norm": 0.8481163382530212,
      "learning_rate": 0.00029659523291223743,
      "loss": 3.997,
      "step": 34480
    },
    {
      "epoch": 0.07185416666666666,
      "grad_norm": 0.784838080406189,
      "learning_rate": 0.0002965931440317401,
      "loss": 3.9901,
      "step": 34490
    },
    {
      "epoch": 0.071875,
      "grad_norm": 0.7931450605392456,
      "learning_rate": 0.00029659105451801843,
      "loss": 4.0337,
      "step": 34500
    },
    {
      "epoch": 0.07189583333333334,
      "grad_norm": 0.7204222679138184,
      "learning_rate": 0.00029658896437108145,
      "loss": 4.1675,
      "step": 34510
    },
    {
      "epoch": 0.07191666666666667,
      "grad_norm": 0.8351861238479614,
      "learning_rate": 0.0002965868735909382,
      "loss": 4.1174,
      "step": 34520
    },
    {
      "epoch": 0.0719375,
      "grad_norm": 0.844732940196991,
      "learning_rate": 0.0002965847821775976,
      "loss": 4.0976,
      "step": 34530
    },
    {
      "epoch": 0.07195833333333333,
      "grad_norm": 0.7252404093742371,
      "learning_rate": 0.0002965826901310688,
      "loss": 3.8816,
      "step": 34540
    },
    {
      "epoch": 0.07197916666666666,
      "grad_norm": 0.7991320490837097,
      "learning_rate": 0.00029658059745136086,
      "loss": 4.0478,
      "step": 34550
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.9043586850166321,
      "learning_rate": 0.0002965785041384827,
      "loss": 3.8861,
      "step": 34560
    },
    {
      "epoch": 0.07202083333333334,
      "grad_norm": 0.8165860176086426,
      "learning_rate": 0.0002965764101924434,
      "loss": 3.9754,
      "step": 34570
    },
    {
      "epoch": 0.07204166666666667,
      "grad_norm": 0.7429885864257812,
      "learning_rate": 0.00029657431561325203,
      "loss": 3.8601,
      "step": 34580
    },
    {
      "epoch": 0.0720625,
      "grad_norm": 0.7756181359291077,
      "learning_rate": 0.00029657222040091767,
      "loss": 4.0326,
      "step": 34590
    },
    {
      "epoch": 0.07208333333333333,
      "grad_norm": 0.7901198267936707,
      "learning_rate": 0.00029657012455544936,
      "loss": 3.8946,
      "step": 34600
    },
    {
      "epoch": 0.07210416666666666,
      "grad_norm": 0.9060100317001343,
      "learning_rate": 0.0002965680280768561,
      "loss": 3.9984,
      "step": 34610
    },
    {
      "epoch": 0.072125,
      "grad_norm": 0.8289158940315247,
      "learning_rate": 0.000296565930965147,
      "loss": 3.9317,
      "step": 34620
    },
    {
      "epoch": 0.07214583333333334,
      "grad_norm": 0.7244383692741394,
      "learning_rate": 0.000296563833220331,
      "loss": 3.9479,
      "step": 34630
    },
    {
      "epoch": 0.07216666666666667,
      "grad_norm": 0.9270050525665283,
      "learning_rate": 0.00029656173484241737,
      "loss": 4.2067,
      "step": 34640
    },
    {
      "epoch": 0.0721875,
      "grad_norm": 0.7597124576568604,
      "learning_rate": 0.0002965596358314149,
      "loss": 3.9662,
      "step": 34650
    },
    {
      "epoch": 0.07220833333333333,
      "grad_norm": 0.7923332452774048,
      "learning_rate": 0.00029655753618733295,
      "loss": 4.0753,
      "step": 34660
    },
    {
      "epoch": 0.07222916666666666,
      "grad_norm": 0.8057259917259216,
      "learning_rate": 0.00029655543591018045,
      "loss": 3.9184,
      "step": 34670
    },
    {
      "epoch": 0.07225,
      "grad_norm": 0.752720057964325,
      "learning_rate": 0.0002965533349999664,
      "loss": 4.2899,
      "step": 34680
    },
    {
      "epoch": 0.07227083333333334,
      "grad_norm": 0.8049156665802002,
      "learning_rate": 0.0002965512334567001,
      "loss": 3.9185,
      "step": 34690
    },
    {
      "epoch": 0.07229166666666667,
      "grad_norm": 0.9156242609024048,
      "learning_rate": 0.0002965491312803903,
      "loss": 4.047,
      "step": 34700
    },
    {
      "epoch": 0.0723125,
      "grad_norm": 0.9886599183082581,
      "learning_rate": 0.0002965470284710464,
      "loss": 4.0564,
      "step": 34710
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 0.8577404618263245,
      "learning_rate": 0.0002965449250286773,
      "loss": 4.1354,
      "step": 34720
    },
    {
      "epoch": 0.07235416666666666,
      "grad_norm": 0.7323829531669617,
      "learning_rate": 0.00029654282095329206,
      "loss": 3.9785,
      "step": 34730
    },
    {
      "epoch": 0.072375,
      "grad_norm": 0.8211647272109985,
      "learning_rate": 0.00029654071624489995,
      "loss": 3.8582,
      "step": 34740
    },
    {
      "epoch": 0.07239583333333334,
      "grad_norm": 0.7520632147789001,
      "learning_rate": 0.00029653861090350985,
      "loss": 4.0582,
      "step": 34750
    },
    {
      "epoch": 0.07241666666666667,
      "grad_norm": 0.8814414739608765,
      "learning_rate": 0.000296536504929131,
      "loss": 3.8657,
      "step": 34760
    },
    {
      "epoch": 0.0724375,
      "grad_norm": 0.8057808876037598,
      "learning_rate": 0.0002965343983217725,
      "loss": 4.0863,
      "step": 34770
    },
    {
      "epoch": 0.07245833333333333,
      "grad_norm": 0.9344736337661743,
      "learning_rate": 0.00029653229108144336,
      "loss": 4.1154,
      "step": 34780
    },
    {
      "epoch": 0.07247916666666666,
      "grad_norm": 0.7676615715026855,
      "learning_rate": 0.00029653018320815273,
      "loss": 4.0494,
      "step": 34790
    },
    {
      "epoch": 0.0725,
      "grad_norm": 0.8011816143989563,
      "learning_rate": 0.00029652807470190965,
      "loss": 4.0338,
      "step": 34800
    },
    {
      "epoch": 0.07252083333333334,
      "grad_norm": 0.8048277497291565,
      "learning_rate": 0.0002965259655627234,
      "loss": 4.198,
      "step": 34810
    },
    {
      "epoch": 0.07254166666666667,
      "grad_norm": 0.9864151477813721,
      "learning_rate": 0.0002965238557906029,
      "loss": 3.9156,
      "step": 34820
    },
    {
      "epoch": 0.0725625,
      "grad_norm": 0.7824810147285461,
      "learning_rate": 0.0002965217453855573,
      "loss": 4.0586,
      "step": 34830
    },
    {
      "epoch": 0.07258333333333333,
      "grad_norm": 0.7975809574127197,
      "learning_rate": 0.00029651963434759585,
      "loss": 4.0375,
      "step": 34840
    },
    {
      "epoch": 0.07260416666666666,
      "grad_norm": 0.8203453421592712,
      "learning_rate": 0.0002965175226767276,
      "loss": 4.2048,
      "step": 34850
    },
    {
      "epoch": 0.072625,
      "grad_norm": 0.8084617853164673,
      "learning_rate": 0.00029651541037296154,
      "loss": 4.1456,
      "step": 34860
    },
    {
      "epoch": 0.07264583333333334,
      "grad_norm": 0.7126981616020203,
      "learning_rate": 0.00029651329743630696,
      "loss": 4.0064,
      "step": 34870
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 0.8411117792129517,
      "learning_rate": 0.0002965111838667729,
      "loss": 4.0272,
      "step": 34880
    },
    {
      "epoch": 0.0726875,
      "grad_norm": 1.056633472442627,
      "learning_rate": 0.00029650906966436854,
      "loss": 4.1501,
      "step": 34890
    },
    {
      "epoch": 0.07270833333333333,
      "grad_norm": 0.7296987771987915,
      "learning_rate": 0.000296506954829103,
      "loss": 3.918,
      "step": 34900
    },
    {
      "epoch": 0.07272916666666666,
      "grad_norm": 0.8309071063995361,
      "learning_rate": 0.0002965048393609854,
      "loss": 4.0558,
      "step": 34910
    },
    {
      "epoch": 0.07275,
      "grad_norm": 0.7744765281677246,
      "learning_rate": 0.00029650272326002487,
      "loss": 3.999,
      "step": 34920
    },
    {
      "epoch": 0.07277083333333334,
      "grad_norm": 0.8296480178833008,
      "learning_rate": 0.0002965006065262306,
      "loss": 4.1963,
      "step": 34930
    },
    {
      "epoch": 0.07279166666666667,
      "grad_norm": 0.7535804510116577,
      "learning_rate": 0.00029649848915961165,
      "loss": 4.1776,
      "step": 34940
    },
    {
      "epoch": 0.0728125,
      "grad_norm": 0.7694225907325745,
      "learning_rate": 0.00029649637116017723,
      "loss": 3.9261,
      "step": 34950
    },
    {
      "epoch": 0.07283333333333333,
      "grad_norm": 0.9155572056770325,
      "learning_rate": 0.0002964942525279365,
      "loss": 4.146,
      "step": 34960
    },
    {
      "epoch": 0.07285416666666666,
      "grad_norm": 0.9715854525566101,
      "learning_rate": 0.0002964921332628986,
      "loss": 4.0463,
      "step": 34970
    },
    {
      "epoch": 0.072875,
      "grad_norm": 0.7245194911956787,
      "learning_rate": 0.0002964900133650726,
      "loss": 4.0114,
      "step": 34980
    },
    {
      "epoch": 0.07289583333333334,
      "grad_norm": 0.7836931347846985,
      "learning_rate": 0.00029648789283446777,
      "loss": 4.0209,
      "step": 34990
    },
    {
      "epoch": 0.07291666666666667,
      "grad_norm": 0.7943224906921387,
      "learning_rate": 0.0002964857716710932,
      "loss": 4.0533,
      "step": 35000
    },
    {
      "epoch": 0.07291666666666667,
      "eval_loss": 4.305691719055176,
      "eval_runtime": 9.7859,
      "eval_samples_per_second": 1.022,
      "eval_steps_per_second": 0.307,
      "step": 35000
    },
    {
      "epoch": 0.0729375,
      "grad_norm": 0.7306997776031494,
      "learning_rate": 0.00029648364987495816,
      "loss": 3.9367,
      "step": 35010
    },
    {
      "epoch": 0.07295833333333333,
      "grad_norm": 0.7793446779251099,
      "learning_rate": 0.00029648152744607165,
      "loss": 4.2814,
      "step": 35020
    },
    {
      "epoch": 0.07297916666666666,
      "grad_norm": 0.7725879549980164,
      "learning_rate": 0.00029647940438444297,
      "loss": 3.8449,
      "step": 35030
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.7934012413024902,
      "learning_rate": 0.00029647728069008116,
      "loss": 3.8821,
      "step": 35040
    },
    {
      "epoch": 0.07302083333333333,
      "grad_norm": 0.8492363691329956,
      "learning_rate": 0.00029647515636299556,
      "loss": 4.1515,
      "step": 35050
    },
    {
      "epoch": 0.07304166666666667,
      "grad_norm": 0.8373302221298218,
      "learning_rate": 0.0002964730314031953,
      "loss": 4.0603,
      "step": 35060
    },
    {
      "epoch": 0.0730625,
      "grad_norm": 0.7923370003700256,
      "learning_rate": 0.00029647090581068943,
      "loss": 4.2322,
      "step": 35070
    },
    {
      "epoch": 0.07308333333333333,
      "grad_norm": 0.7685287594795227,
      "learning_rate": 0.00029646877958548724,
      "loss": 4.0921,
      "step": 35080
    },
    {
      "epoch": 0.07310416666666666,
      "grad_norm": 0.9121419787406921,
      "learning_rate": 0.000296466652727598,
      "loss": 4.1951,
      "step": 35090
    },
    {
      "epoch": 0.073125,
      "grad_norm": 0.7648252248764038,
      "learning_rate": 0.00029646452523703065,
      "loss": 4.078,
      "step": 35100
    },
    {
      "epoch": 0.07314583333333333,
      "grad_norm": 0.781970202922821,
      "learning_rate": 0.00029646239711379464,
      "loss": 3.9369,
      "step": 35110
    },
    {
      "epoch": 0.07316666666666667,
      "grad_norm": 0.8711278438568115,
      "learning_rate": 0.00029646026835789896,
      "loss": 3.9517,
      "step": 35120
    },
    {
      "epoch": 0.0731875,
      "grad_norm": 0.7999338507652283,
      "learning_rate": 0.00029645813896935294,
      "loss": 3.9792,
      "step": 35130
    },
    {
      "epoch": 0.07320833333333333,
      "grad_norm": 0.9928709268569946,
      "learning_rate": 0.00029645600894816573,
      "loss": 4.1135,
      "step": 35140
    },
    {
      "epoch": 0.07322916666666666,
      "grad_norm": 0.8712597489356995,
      "learning_rate": 0.0002964538782943465,
      "loss": 4.2042,
      "step": 35150
    },
    {
      "epoch": 0.07325,
      "grad_norm": 0.7487674951553345,
      "learning_rate": 0.0002964517470079045,
      "loss": 3.9612,
      "step": 35160
    },
    {
      "epoch": 0.07327083333333333,
      "grad_norm": 0.8097735047340393,
      "learning_rate": 0.000296449615088849,
      "loss": 4.0626,
      "step": 35170
    },
    {
      "epoch": 0.07329166666666667,
      "grad_norm": 0.7810301184654236,
      "learning_rate": 0.00029644748253718906,
      "loss": 4.024,
      "step": 35180
    },
    {
      "epoch": 0.0733125,
      "grad_norm": 0.7320312857627869,
      "learning_rate": 0.00029644534935293395,
      "loss": 3.9831,
      "step": 35190
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.7716202735900879,
      "learning_rate": 0.0002964432155360929,
      "loss": 3.9052,
      "step": 35200
    },
    {
      "epoch": 0.07335416666666666,
      "grad_norm": 0.7827876210212708,
      "learning_rate": 0.0002964410810866751,
      "loss": 4.0381,
      "step": 35210
    },
    {
      "epoch": 0.073375,
      "grad_norm": 0.8971740007400513,
      "learning_rate": 0.0002964389460046899,
      "loss": 3.9978,
      "step": 35220
    },
    {
      "epoch": 0.07339583333333333,
      "grad_norm": 0.9332857728004456,
      "learning_rate": 0.00029643681029014636,
      "loss": 3.9959,
      "step": 35230
    },
    {
      "epoch": 0.07341666666666667,
      "grad_norm": 0.764346182346344,
      "learning_rate": 0.00029643467394305375,
      "loss": 4.0156,
      "step": 35240
    },
    {
      "epoch": 0.0734375,
      "grad_norm": 0.8342650532722473,
      "learning_rate": 0.00029643253696342133,
      "loss": 4.081,
      "step": 35250
    },
    {
      "epoch": 0.07345833333333333,
      "grad_norm": 0.7679824233055115,
      "learning_rate": 0.0002964303993512583,
      "loss": 4.0621,
      "step": 35260
    },
    {
      "epoch": 0.07347916666666666,
      "grad_norm": 0.7782136797904968,
      "learning_rate": 0.0002964282611065739,
      "loss": 4.0428,
      "step": 35270
    },
    {
      "epoch": 0.0735,
      "grad_norm": 0.7785505056381226,
      "learning_rate": 0.0002964261222293774,
      "loss": 4.0503,
      "step": 35280
    },
    {
      "epoch": 0.07352083333333333,
      "grad_norm": 0.7279910445213318,
      "learning_rate": 0.000296423982719678,
      "loss": 4.0955,
      "step": 35290
    },
    {
      "epoch": 0.07354166666666667,
      "grad_norm": 0.921248733997345,
      "learning_rate": 0.00029642184257748494,
      "loss": 4.0726,
      "step": 35300
    },
    {
      "epoch": 0.0735625,
      "grad_norm": 0.8328261375427246,
      "learning_rate": 0.0002964197018028075,
      "loss": 3.8495,
      "step": 35310
    },
    {
      "epoch": 0.07358333333333333,
      "grad_norm": 0.6995542645454407,
      "learning_rate": 0.0002964175603956549,
      "loss": 3.9838,
      "step": 35320
    },
    {
      "epoch": 0.07360416666666666,
      "grad_norm": 0.8579522371292114,
      "learning_rate": 0.00029641541835603635,
      "loss": 3.9773,
      "step": 35330
    },
    {
      "epoch": 0.073625,
      "grad_norm": 0.9279875755310059,
      "learning_rate": 0.00029641327568396116,
      "loss": 3.9344,
      "step": 35340
    },
    {
      "epoch": 0.07364583333333333,
      "grad_norm": 0.9031012654304504,
      "learning_rate": 0.00029641113237943863,
      "loss": 4.1148,
      "step": 35350
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 0.7149977684020996,
      "learning_rate": 0.00029640898844247794,
      "loss": 4.0075,
      "step": 35360
    },
    {
      "epoch": 0.0736875,
      "grad_norm": 0.7964022755622864,
      "learning_rate": 0.00029640684387308836,
      "loss": 4.0426,
      "step": 35370
    },
    {
      "epoch": 0.07370833333333333,
      "grad_norm": 0.8121726512908936,
      "learning_rate": 0.00029640469867127915,
      "loss": 3.9129,
      "step": 35380
    },
    {
      "epoch": 0.07372916666666667,
      "grad_norm": 0.755895733833313,
      "learning_rate": 0.00029640255283705963,
      "loss": 3.9886,
      "step": 35390
    },
    {
      "epoch": 0.07375,
      "grad_norm": 0.7760776877403259,
      "learning_rate": 0.00029640040637043903,
      "loss": 4.0111,
      "step": 35400
    },
    {
      "epoch": 0.07377083333333333,
      "grad_norm": 0.9190277457237244,
      "learning_rate": 0.0002963982592714266,
      "loss": 4.1372,
      "step": 35410
    },
    {
      "epoch": 0.07379166666666667,
      "grad_norm": 0.861737847328186,
      "learning_rate": 0.00029639611154003165,
      "loss": 3.989,
      "step": 35420
    },
    {
      "epoch": 0.0738125,
      "grad_norm": 0.8301714658737183,
      "learning_rate": 0.0002963939631762634,
      "loss": 3.9743,
      "step": 35430
    },
    {
      "epoch": 0.07383333333333333,
      "grad_norm": 0.7350360155105591,
      "learning_rate": 0.0002963918141801312,
      "loss": 3.9452,
      "step": 35440
    },
    {
      "epoch": 0.07385416666666667,
      "grad_norm": 0.8459472060203552,
      "learning_rate": 0.00029638966455164433,
      "loss": 4.1029,
      "step": 35450
    },
    {
      "epoch": 0.073875,
      "grad_norm": 0.8764699697494507,
      "learning_rate": 0.0002963875142908121,
      "loss": 3.9305,
      "step": 35460
    },
    {
      "epoch": 0.07389583333333333,
      "grad_norm": 0.7529707551002502,
      "learning_rate": 0.00029638536339764366,
      "loss": 3.9423,
      "step": 35470
    },
    {
      "epoch": 0.07391666666666667,
      "grad_norm": 0.872035562992096,
      "learning_rate": 0.00029638321187214846,
      "loss": 3.9666,
      "step": 35480
    },
    {
      "epoch": 0.0739375,
      "grad_norm": 0.8320852518081665,
      "learning_rate": 0.0002963810597143357,
      "loss": 4.242,
      "step": 35490
    },
    {
      "epoch": 0.07395833333333333,
      "grad_norm": 0.7556165456771851,
      "learning_rate": 0.0002963789069242147,
      "loss": 4.1042,
      "step": 35500
    },
    {
      "epoch": 0.07397916666666667,
      "grad_norm": 0.7183017134666443,
      "learning_rate": 0.00029637675350179476,
      "loss": 3.8368,
      "step": 35510
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.8620455861091614,
      "learning_rate": 0.0002963745994470852,
      "loss": 3.9178,
      "step": 35520
    },
    {
      "epoch": 0.07402083333333333,
      "grad_norm": 0.7336896061897278,
      "learning_rate": 0.00029637244476009533,
      "loss": 4.1052,
      "step": 35530
    },
    {
      "epoch": 0.07404166666666667,
      "grad_norm": 0.848529577255249,
      "learning_rate": 0.00029637028944083443,
      "loss": 4.0174,
      "step": 35540
    },
    {
      "epoch": 0.0740625,
      "grad_norm": 1.0079830884933472,
      "learning_rate": 0.00029636813348931176,
      "loss": 4.097,
      "step": 35550
    },
    {
      "epoch": 0.07408333333333333,
      "grad_norm": 0.8438879251480103,
      "learning_rate": 0.00029636597690553676,
      "loss": 4.1545,
      "step": 35560
    },
    {
      "epoch": 0.07410416666666667,
      "grad_norm": 0.7041335105895996,
      "learning_rate": 0.0002963638196895186,
      "loss": 4.0444,
      "step": 35570
    },
    {
      "epoch": 0.074125,
      "grad_norm": 1.1556686162948608,
      "learning_rate": 0.0002963616618412667,
      "loss": 4.0741,
      "step": 35580
    },
    {
      "epoch": 0.07414583333333333,
      "grad_norm": 0.8188339471817017,
      "learning_rate": 0.00029635950336079044,
      "loss": 4.1731,
      "step": 35590
    },
    {
      "epoch": 0.07416666666666667,
      "grad_norm": 0.9124742746353149,
      "learning_rate": 0.00029635734424809896,
      "loss": 4.0729,
      "step": 35600
    },
    {
      "epoch": 0.0741875,
      "grad_norm": 0.8401139378547668,
      "learning_rate": 0.0002963551845032017,
      "loss": 4.0203,
      "step": 35610
    },
    {
      "epoch": 0.07420833333333333,
      "grad_norm": 0.7535160779953003,
      "learning_rate": 0.00029635302412610797,
      "loss": 3.9809,
      "step": 35620
    },
    {
      "epoch": 0.07422916666666667,
      "grad_norm": 0.8272704482078552,
      "learning_rate": 0.0002963508631168271,
      "loss": 3.9414,
      "step": 35630
    },
    {
      "epoch": 0.07425,
      "grad_norm": 0.8048223257064819,
      "learning_rate": 0.0002963487014753685,
      "loss": 3.895,
      "step": 35640
    },
    {
      "epoch": 0.07427083333333333,
      "grad_norm": 0.6860840320587158,
      "learning_rate": 0.00029634653920174143,
      "loss": 3.9506,
      "step": 35650
    },
    {
      "epoch": 0.07429166666666667,
      "grad_norm": 0.848264217376709,
      "learning_rate": 0.00029634437629595515,
      "loss": 4.1003,
      "step": 35660
    },
    {
      "epoch": 0.0743125,
      "grad_norm": 0.8062774538993835,
      "learning_rate": 0.00029634221275801916,
      "loss": 3.8597,
      "step": 35670
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 0.8030310273170471,
      "learning_rate": 0.0002963400485879427,
      "loss": 3.9421,
      "step": 35680
    },
    {
      "epoch": 0.07435416666666667,
      "grad_norm": 0.8365631103515625,
      "learning_rate": 0.0002963378837857352,
      "loss": 3.9952,
      "step": 35690
    },
    {
      "epoch": 0.074375,
      "grad_norm": 0.9957694411277771,
      "learning_rate": 0.000296335718351406,
      "loss": 4.0493,
      "step": 35700
    },
    {
      "epoch": 0.07439583333333333,
      "grad_norm": 0.7643691897392273,
      "learning_rate": 0.0002963335522849643,
      "loss": 4.2126,
      "step": 35710
    },
    {
      "epoch": 0.07441666666666667,
      "grad_norm": 0.8527258634567261,
      "learning_rate": 0.00029633138558641967,
      "loss": 4.12,
      "step": 35720
    },
    {
      "epoch": 0.0744375,
      "grad_norm": 0.877537190914154,
      "learning_rate": 0.00029632921825578136,
      "loss": 4.0202,
      "step": 35730
    },
    {
      "epoch": 0.07445833333333333,
      "grad_norm": 0.726547360420227,
      "learning_rate": 0.0002963270502930587,
      "loss": 4.1443,
      "step": 35740
    },
    {
      "epoch": 0.07447916666666667,
      "grad_norm": 0.7473787069320679,
      "learning_rate": 0.00029632488169826116,
      "loss": 3.9678,
      "step": 35750
    },
    {
      "epoch": 0.0745,
      "grad_norm": 0.7974646091461182,
      "learning_rate": 0.00029632271247139803,
      "loss": 3.9869,
      "step": 35760
    },
    {
      "epoch": 0.07452083333333333,
      "grad_norm": 0.7550406455993652,
      "learning_rate": 0.00029632054261247864,
      "loss": 3.9846,
      "step": 35770
    },
    {
      "epoch": 0.07454166666666667,
      "grad_norm": 0.842200756072998,
      "learning_rate": 0.00029631837212151254,
      "loss": 3.9496,
      "step": 35780
    },
    {
      "epoch": 0.0745625,
      "grad_norm": 0.779826819896698,
      "learning_rate": 0.00029631620099850893,
      "loss": 3.9756,
      "step": 35790
    },
    {
      "epoch": 0.07458333333333333,
      "grad_norm": 0.7636182308197021,
      "learning_rate": 0.00029631402924347726,
      "loss": 3.994,
      "step": 35800
    },
    {
      "epoch": 0.07460416666666667,
      "grad_norm": 0.7469265460968018,
      "learning_rate": 0.00029631185685642685,
      "loss": 3.908,
      "step": 35810
    },
    {
      "epoch": 0.074625,
      "grad_norm": 0.9977638125419617,
      "learning_rate": 0.0002963096838373672,
      "loss": 3.9486,
      "step": 35820
    },
    {
      "epoch": 0.07464583333333333,
      "grad_norm": 0.776183009147644,
      "learning_rate": 0.0002963075101863076,
      "loss": 3.9755,
      "step": 35830
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 0.8263929486274719,
      "learning_rate": 0.0002963053359032575,
      "loss": 4.0692,
      "step": 35840
    },
    {
      "epoch": 0.0746875,
      "grad_norm": 0.8160837888717651,
      "learning_rate": 0.0002963031609882262,
      "loss": 4.0548,
      "step": 35850
    },
    {
      "epoch": 0.07470833333333333,
      "grad_norm": 0.7614683508872986,
      "learning_rate": 0.0002963009854412232,
      "loss": 4.0331,
      "step": 35860
    },
    {
      "epoch": 0.07472916666666667,
      "grad_norm": 0.7082501649856567,
      "learning_rate": 0.00029629880926225786,
      "loss": 4.0458,
      "step": 35870
    },
    {
      "epoch": 0.07475,
      "grad_norm": 0.7138420343399048,
      "learning_rate": 0.00029629663245133955,
      "loss": 4.002,
      "step": 35880
    },
    {
      "epoch": 0.07477083333333333,
      "grad_norm": 0.7747806310653687,
      "learning_rate": 0.0002962944550084776,
      "loss": 4.0928,
      "step": 35890
    },
    {
      "epoch": 0.07479166666666667,
      "grad_norm": 0.8437674641609192,
      "learning_rate": 0.00029629227693368164,
      "loss": 4.1077,
      "step": 35900
    },
    {
      "epoch": 0.0748125,
      "grad_norm": 0.7835533022880554,
      "learning_rate": 0.00029629009822696096,
      "loss": 3.8493,
      "step": 35910
    },
    {
      "epoch": 0.07483333333333334,
      "grad_norm": 0.8468340635299683,
      "learning_rate": 0.0002962879188883249,
      "loss": 4.1164,
      "step": 35920
    },
    {
      "epoch": 0.07485416666666667,
      "grad_norm": 0.8024889826774597,
      "learning_rate": 0.000296285738917783,
      "loss": 4.0396,
      "step": 35930
    },
    {
      "epoch": 0.074875,
      "grad_norm": 0.7800811529159546,
      "learning_rate": 0.00029628355831534453,
      "loss": 4.0764,
      "step": 35940
    },
    {
      "epoch": 0.07489583333333333,
      "grad_norm": 0.7939956188201904,
      "learning_rate": 0.00029628137708101904,
      "loss": 3.9092,
      "step": 35950
    },
    {
      "epoch": 0.07491666666666667,
      "grad_norm": 0.671669065952301,
      "learning_rate": 0.00029627919521481587,
      "loss": 4.2676,
      "step": 35960
    },
    {
      "epoch": 0.0749375,
      "grad_norm": 0.7691323757171631,
      "learning_rate": 0.0002962770127167445,
      "loss": 4.0801,
      "step": 35970
    },
    {
      "epoch": 0.07495833333333334,
      "grad_norm": 0.7836569547653198,
      "learning_rate": 0.00029627482958681435,
      "loss": 3.9632,
      "step": 35980
    },
    {
      "epoch": 0.07497916666666667,
      "grad_norm": 0.8050476312637329,
      "learning_rate": 0.0002962726458250348,
      "loss": 4.035,
      "step": 35990
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.7917085289955139,
      "learning_rate": 0.0002962704614314154,
      "loss": 4.0497,
      "step": 36000
    },
    {
      "epoch": 0.075,
      "eval_loss": 4.300467491149902,
      "eval_runtime": 9.4204,
      "eval_samples_per_second": 1.062,
      "eval_steps_per_second": 0.318,
      "step": 36000
    },
    {
      "epoch": 0.07502083333333333,
      "grad_norm": 0.738937258720398,
      "learning_rate": 0.0002962682764059654,
      "loss": 4.1442,
      "step": 36010
    },
    {
      "epoch": 0.07504166666666667,
      "grad_norm": 0.8388813138008118,
      "learning_rate": 0.00029626609074869437,
      "loss": 4.0227,
      "step": 36020
    },
    {
      "epoch": 0.0750625,
      "grad_norm": 0.8582183718681335,
      "learning_rate": 0.00029626390445961176,
      "loss": 4.1786,
      "step": 36030
    },
    {
      "epoch": 0.07508333333333334,
      "grad_norm": 1.169152021408081,
      "learning_rate": 0.000296261717538727,
      "loss": 3.8671,
      "step": 36040
    },
    {
      "epoch": 0.07510416666666667,
      "grad_norm": 0.8342555165290833,
      "learning_rate": 0.0002962595299860494,
      "loss": 3.9194,
      "step": 36050
    },
    {
      "epoch": 0.075125,
      "grad_norm": 0.944935142993927,
      "learning_rate": 0.0002962573418015886,
      "loss": 3.8282,
      "step": 36060
    },
    {
      "epoch": 0.07514583333333333,
      "grad_norm": 0.7791286706924438,
      "learning_rate": 0.00029625515298535403,
      "loss": 3.842,
      "step": 36070
    },
    {
      "epoch": 0.07516666666666667,
      "grad_norm": 0.7628130912780762,
      "learning_rate": 0.00029625296353735504,
      "loss": 3.9589,
      "step": 36080
    },
    {
      "epoch": 0.0751875,
      "grad_norm": 0.7664324045181274,
      "learning_rate": 0.0002962507734576011,
      "loss": 4.0628,
      "step": 36090
    },
    {
      "epoch": 0.07520833333333334,
      "grad_norm": 0.8196033835411072,
      "learning_rate": 0.00029624858274610174,
      "loss": 3.9964,
      "step": 36100
    },
    {
      "epoch": 0.07522916666666667,
      "grad_norm": 0.8291841149330139,
      "learning_rate": 0.0002962463914028664,
      "loss": 4.1657,
      "step": 36110
    },
    {
      "epoch": 0.07525,
      "grad_norm": 0.9361351728439331,
      "learning_rate": 0.00029624419942790456,
      "loss": 3.8748,
      "step": 36120
    },
    {
      "epoch": 0.07527083333333333,
      "grad_norm": 0.7884825468063354,
      "learning_rate": 0.0002962420068212256,
      "loss": 4.0064,
      "step": 36130
    },
    {
      "epoch": 0.07529166666666667,
      "grad_norm": 0.8539175391197205,
      "learning_rate": 0.0002962398135828391,
      "loss": 3.9583,
      "step": 36140
    },
    {
      "epoch": 0.0753125,
      "grad_norm": 0.8156542181968689,
      "learning_rate": 0.0002962376197127545,
      "loss": 3.9116,
      "step": 36150
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 0.8740443587303162,
      "learning_rate": 0.0002962354252109812,
      "loss": 3.9896,
      "step": 36160
    },
    {
      "epoch": 0.07535416666666667,
      "grad_norm": 0.8404247760772705,
      "learning_rate": 0.00029623323007752883,
      "loss": 4.1796,
      "step": 36170
    },
    {
      "epoch": 0.075375,
      "grad_norm": 0.8641976714134216,
      "learning_rate": 0.0002962310343124068,
      "loss": 3.8365,
      "step": 36180
    },
    {
      "epoch": 0.07539583333333333,
      "grad_norm": 0.8248933553695679,
      "learning_rate": 0.0002962288379156245,
      "loss": 4.1353,
      "step": 36190
    },
    {
      "epoch": 0.07541666666666667,
      "grad_norm": 0.7754831910133362,
      "learning_rate": 0.0002962266408871916,
      "loss": 3.856,
      "step": 36200
    },
    {
      "epoch": 0.0754375,
      "grad_norm": 0.8486154079437256,
      "learning_rate": 0.00029622444322711743,
      "loss": 3.8701,
      "step": 36210
    },
    {
      "epoch": 0.07545833333333334,
      "grad_norm": 0.7412910461425781,
      "learning_rate": 0.00029622224493541154,
      "loss": 4.0491,
      "step": 36220
    },
    {
      "epoch": 0.07547916666666667,
      "grad_norm": 0.7294564247131348,
      "learning_rate": 0.00029622004601208345,
      "loss": 3.9166,
      "step": 36230
    },
    {
      "epoch": 0.0755,
      "grad_norm": 0.8076752424240112,
      "learning_rate": 0.0002962178464571426,
      "loss": 4.0313,
      "step": 36240
    },
    {
      "epoch": 0.07552083333333333,
      "grad_norm": 0.8667954206466675,
      "learning_rate": 0.00029621564627059857,
      "loss": 4.0789,
      "step": 36250
    },
    {
      "epoch": 0.07554166666666666,
      "grad_norm": 0.7598586082458496,
      "learning_rate": 0.0002962134454524608,
      "loss": 4.0216,
      "step": 36260
    },
    {
      "epoch": 0.0755625,
      "grad_norm": 0.9358484148979187,
      "learning_rate": 0.00029621124400273886,
      "loss": 4.0297,
      "step": 36270
    },
    {
      "epoch": 0.07558333333333334,
      "grad_norm": 0.849852979183197,
      "learning_rate": 0.0002962090419214422,
      "loss": 4.1254,
      "step": 36280
    },
    {
      "epoch": 0.07560416666666667,
      "grad_norm": 0.7753157019615173,
      "learning_rate": 0.00029620683920858037,
      "loss": 3.9684,
      "step": 36290
    },
    {
      "epoch": 0.075625,
      "grad_norm": 0.84865802526474,
      "learning_rate": 0.0002962046358641628,
      "loss": 4.0145,
      "step": 36300
    },
    {
      "epoch": 0.07564583333333333,
      "grad_norm": 0.9601401686668396,
      "learning_rate": 0.00029620243188819916,
      "loss": 4.1134,
      "step": 36310
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 0.9930610060691833,
      "learning_rate": 0.00029620022728069886,
      "loss": 3.8587,
      "step": 36320
    },
    {
      "epoch": 0.0756875,
      "grad_norm": 0.7303016781806946,
      "learning_rate": 0.0002961980220416714,
      "loss": 4.1542,
      "step": 36330
    },
    {
      "epoch": 0.07570833333333334,
      "grad_norm": 0.7336821556091309,
      "learning_rate": 0.0002961958161711264,
      "loss": 4.0211,
      "step": 36340
    },
    {
      "epoch": 0.07572916666666667,
      "grad_norm": 0.9012675285339355,
      "learning_rate": 0.00029619360966907335,
      "loss": 4.027,
      "step": 36350
    },
    {
      "epoch": 0.07575,
      "grad_norm": 0.7260995507240295,
      "learning_rate": 0.00029619140253552174,
      "loss": 4.0522,
      "step": 36360
    },
    {
      "epoch": 0.07577083333333333,
      "grad_norm": 0.7804322838783264,
      "learning_rate": 0.0002961891947704812,
      "loss": 3.9825,
      "step": 36370
    },
    {
      "epoch": 0.07579166666666666,
      "grad_norm": 0.728702962398529,
      "learning_rate": 0.0002961869863739611,
      "loss": 3.7808,
      "step": 36380
    },
    {
      "epoch": 0.0758125,
      "grad_norm": 0.7990889549255371,
      "learning_rate": 0.00029618477734597113,
      "loss": 4.0985,
      "step": 36390
    },
    {
      "epoch": 0.07583333333333334,
      "grad_norm": 0.8330264687538147,
      "learning_rate": 0.0002961825676865208,
      "loss": 3.9572,
      "step": 36400
    },
    {
      "epoch": 0.07585416666666667,
      "grad_norm": 0.7718349099159241,
      "learning_rate": 0.0002961803573956197,
      "loss": 3.902,
      "step": 36410
    },
    {
      "epoch": 0.075875,
      "grad_norm": 0.8250359296798706,
      "learning_rate": 0.0002961781464732772,
      "loss": 4.156,
      "step": 36420
    },
    {
      "epoch": 0.07589583333333333,
      "grad_norm": 0.8182675838470459,
      "learning_rate": 0.00029617593491950306,
      "loss": 3.907,
      "step": 36430
    },
    {
      "epoch": 0.07591666666666666,
      "grad_norm": 0.7601507306098938,
      "learning_rate": 0.0002961737227343067,
      "loss": 3.9524,
      "step": 36440
    },
    {
      "epoch": 0.0759375,
      "grad_norm": 0.8122261166572571,
      "learning_rate": 0.0002961715099176977,
      "loss": 3.825,
      "step": 36450
    },
    {
      "epoch": 0.07595833333333334,
      "grad_norm": 0.8997005820274353,
      "learning_rate": 0.0002961692964696857,
      "loss": 4.0245,
      "step": 36460
    },
    {
      "epoch": 0.07597916666666667,
      "grad_norm": 0.9487331509590149,
      "learning_rate": 0.00029616708239028016,
      "loss": 4.0542,
      "step": 36470
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.8770477771759033,
      "learning_rate": 0.00029616486767949067,
      "loss": 3.8533,
      "step": 36480
    },
    {
      "epoch": 0.07602083333333333,
      "grad_norm": 0.7269647717475891,
      "learning_rate": 0.0002961626523373268,
      "loss": 3.9401,
      "step": 36490
    },
    {
      "epoch": 0.07604166666666666,
      "grad_norm": 0.8264038562774658,
      "learning_rate": 0.00029616043636379813,
      "loss": 3.9713,
      "step": 36500
    },
    {
      "epoch": 0.0760625,
      "grad_norm": 0.8643702864646912,
      "learning_rate": 0.0002961582197589142,
      "loss": 4.0293,
      "step": 36510
    },
    {
      "epoch": 0.07608333333333334,
      "grad_norm": 0.7657296061515808,
      "learning_rate": 0.0002961560025226847,
      "loss": 3.9293,
      "step": 36520
    },
    {
      "epoch": 0.07610416666666667,
      "grad_norm": 0.7731497883796692,
      "learning_rate": 0.0002961537846551191,
      "loss": 3.7988,
      "step": 36530
    },
    {
      "epoch": 0.076125,
      "grad_norm": 0.8306047916412354,
      "learning_rate": 0.00029615156615622697,
      "loss": 4.0641,
      "step": 36540
    },
    {
      "epoch": 0.07614583333333333,
      "grad_norm": 0.8543121218681335,
      "learning_rate": 0.0002961493470260179,
      "loss": 4.0031,
      "step": 36550
    },
    {
      "epoch": 0.07616666666666666,
      "grad_norm": 0.8059775829315186,
      "learning_rate": 0.0002961471272645016,
      "loss": 4.0376,
      "step": 36560
    },
    {
      "epoch": 0.0761875,
      "grad_norm": 0.785234808921814,
      "learning_rate": 0.0002961449068716875,
      "loss": 4.1641,
      "step": 36570
    },
    {
      "epoch": 0.07620833333333334,
      "grad_norm": 0.9886530041694641,
      "learning_rate": 0.0002961426858475852,
      "loss": 4.0072,
      "step": 36580
    },
    {
      "epoch": 0.07622916666666667,
      "grad_norm": 0.8501163721084595,
      "learning_rate": 0.0002961404641922044,
      "loss": 4.1371,
      "step": 36590
    },
    {
      "epoch": 0.07625,
      "grad_norm": 0.7805602550506592,
      "learning_rate": 0.00029613824190555466,
      "loss": 3.9913,
      "step": 36600
    },
    {
      "epoch": 0.07627083333333333,
      "grad_norm": 0.7363852858543396,
      "learning_rate": 0.0002961360189876455,
      "loss": 3.7785,
      "step": 36610
    },
    {
      "epoch": 0.07629166666666666,
      "grad_norm": 0.8388037085533142,
      "learning_rate": 0.00029613379543848664,
      "loss": 4.0168,
      "step": 36620
    },
    {
      "epoch": 0.0763125,
      "grad_norm": 1.0611220598220825,
      "learning_rate": 0.0002961315712580876,
      "loss": 3.8934,
      "step": 36630
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 0.756959855556488,
      "learning_rate": 0.00029612934644645796,
      "loss": 3.9728,
      "step": 36640
    },
    {
      "epoch": 0.07635416666666667,
      "grad_norm": 0.7098036408424377,
      "learning_rate": 0.0002961271210036075,
      "loss": 4.0563,
      "step": 36650
    },
    {
      "epoch": 0.076375,
      "grad_norm": 0.7992086410522461,
      "learning_rate": 0.00029612489492954566,
      "loss": 4.1365,
      "step": 36660
    },
    {
      "epoch": 0.07639583333333333,
      "grad_norm": 0.7532985210418701,
      "learning_rate": 0.00029612266822428207,
      "loss": 4.1396,
      "step": 36670
    },
    {
      "epoch": 0.07641666666666666,
      "grad_norm": 0.7035313844680786,
      "learning_rate": 0.00029612044088782644,
      "loss": 3.9514,
      "step": 36680
    },
    {
      "epoch": 0.0764375,
      "grad_norm": 0.775600254535675,
      "learning_rate": 0.00029611821292018837,
      "loss": 4.1449,
      "step": 36690
    },
    {
      "epoch": 0.07645833333333334,
      "grad_norm": 0.7044334411621094,
      "learning_rate": 0.00029611598432137745,
      "loss": 4.0229,
      "step": 36700
    },
    {
      "epoch": 0.07647916666666667,
      "grad_norm": 0.8057827949523926,
      "learning_rate": 0.0002961137550914033,
      "loss": 4.044,
      "step": 36710
    },
    {
      "epoch": 0.0765,
      "grad_norm": 0.7750446796417236,
      "learning_rate": 0.0002961115252302755,
      "loss": 3.8684,
      "step": 36720
    },
    {
      "epoch": 0.07652083333333333,
      "grad_norm": 0.8386626243591309,
      "learning_rate": 0.0002961092947380038,
      "loss": 4.1276,
      "step": 36730
    },
    {
      "epoch": 0.07654166666666666,
      "grad_norm": 0.7107052206993103,
      "learning_rate": 0.0002961070636145978,
      "loss": 3.8592,
      "step": 36740
    },
    {
      "epoch": 0.0765625,
      "grad_norm": 0.9275119304656982,
      "learning_rate": 0.0002961048318600671,
      "loss": 4.0631,
      "step": 36750
    },
    {
      "epoch": 0.07658333333333334,
      "grad_norm": 0.8354018926620483,
      "learning_rate": 0.0002961025994744214,
      "loss": 3.9175,
      "step": 36760
    },
    {
      "epoch": 0.07660416666666667,
      "grad_norm": 0.7953336238861084,
      "learning_rate": 0.0002961003664576702,
      "loss": 3.8631,
      "step": 36770
    },
    {
      "epoch": 0.076625,
      "grad_norm": 0.924675464630127,
      "learning_rate": 0.0002960981328098233,
      "loss": 3.953,
      "step": 36780
    },
    {
      "epoch": 0.07664583333333333,
      "grad_norm": 0.8692046999931335,
      "learning_rate": 0.00029609589853089033,
      "loss": 3.9594,
      "step": 36790
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 0.8744808435440063,
      "learning_rate": 0.0002960936636208809,
      "loss": 4.0827,
      "step": 36800
    },
    {
      "epoch": 0.0766875,
      "grad_norm": 0.8684138059616089,
      "learning_rate": 0.0002960914280798047,
      "loss": 3.976,
      "step": 36810
    },
    {
      "epoch": 0.07670833333333334,
      "grad_norm": 0.8174667954444885,
      "learning_rate": 0.00029608919190767126,
      "loss": 4.158,
      "step": 36820
    },
    {
      "epoch": 0.07672916666666667,
      "grad_norm": 0.7397491335868835,
      "learning_rate": 0.00029608695510449043,
      "loss": 3.9984,
      "step": 36830
    },
    {
      "epoch": 0.07675,
      "grad_norm": 0.8393524289131165,
      "learning_rate": 0.0002960847176702717,
      "loss": 3.9714,
      "step": 36840
    },
    {
      "epoch": 0.07677083333333333,
      "grad_norm": 0.6774730086326599,
      "learning_rate": 0.00029608247960502483,
      "loss": 4.0747,
      "step": 36850
    },
    {
      "epoch": 0.07679166666666666,
      "grad_norm": 0.8538318872451782,
      "learning_rate": 0.0002960802409087596,
      "loss": 4.055,
      "step": 36860
    },
    {
      "epoch": 0.0768125,
      "grad_norm": 0.81735759973526,
      "learning_rate": 0.00029607800158148534,
      "loss": 4.1263,
      "step": 36870
    },
    {
      "epoch": 0.07683333333333334,
      "grad_norm": 0.9084687829017639,
      "learning_rate": 0.00029607576162321206,
      "loss": 3.9921,
      "step": 36880
    },
    {
      "epoch": 0.07685416666666667,
      "grad_norm": 0.7403016686439514,
      "learning_rate": 0.00029607352103394927,
      "loss": 4.0089,
      "step": 36890
    },
    {
      "epoch": 0.076875,
      "grad_norm": 0.7804655432701111,
      "learning_rate": 0.00029607127981370673,
      "loss": 3.9077,
      "step": 36900
    },
    {
      "epoch": 0.07689583333333333,
      "grad_norm": 0.7995839715003967,
      "learning_rate": 0.0002960690379624941,
      "loss": 3.9604,
      "step": 36910
    },
    {
      "epoch": 0.07691666666666666,
      "grad_norm": 0.7769097685813904,
      "learning_rate": 0.000296066795480321,
      "loss": 3.9761,
      "step": 36920
    },
    {
      "epoch": 0.0769375,
      "grad_norm": 0.8375133275985718,
      "learning_rate": 0.00029606455236719714,
      "loss": 4.0559,
      "step": 36930
    },
    {
      "epoch": 0.07695833333333334,
      "grad_norm": 0.7096104621887207,
      "learning_rate": 0.0002960623086231323,
      "loss": 4.0807,
      "step": 36940
    },
    {
      "epoch": 0.07697916666666667,
      "grad_norm": 0.8935699462890625,
      "learning_rate": 0.000296060064248136,
      "loss": 3.9905,
      "step": 36950
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.8278427124023438,
      "learning_rate": 0.00029605781924221813,
      "loss": 3.8517,
      "step": 36960
    },
    {
      "epoch": 0.07702083333333333,
      "grad_norm": 0.7334986925125122,
      "learning_rate": 0.0002960555736053882,
      "loss": 4.1174,
      "step": 36970
    },
    {
      "epoch": 0.07704166666666666,
      "grad_norm": 0.8122662305831909,
      "learning_rate": 0.00029605332733765606,
      "loss": 4.0126,
      "step": 36980
    },
    {
      "epoch": 0.0770625,
      "grad_norm": 0.8243107795715332,
      "learning_rate": 0.0002960510804390314,
      "loss": 4.1348,
      "step": 36990
    },
    {
      "epoch": 0.07708333333333334,
      "grad_norm": 0.9356787204742432,
      "learning_rate": 0.00029604883290952383,
      "loss": 3.9832,
      "step": 37000
    },
    {
      "epoch": 0.07708333333333334,
      "eval_loss": 4.303212642669678,
      "eval_runtime": 9.645,
      "eval_samples_per_second": 1.037,
      "eval_steps_per_second": 0.311,
      "step": 37000
    },
    {
      "epoch": 0.07710416666666667,
      "grad_norm": 0.8894367218017578,
      "learning_rate": 0.00029604658474914315,
      "loss": 3.8955,
      "step": 37010
    },
    {
      "epoch": 0.077125,
      "grad_norm": 0.7301793098449707,
      "learning_rate": 0.000296044335957899,
      "loss": 4.0434,
      "step": 37020
    },
    {
      "epoch": 0.07714583333333333,
      "grad_norm": 0.8568573594093323,
      "learning_rate": 0.00029604208653580114,
      "loss": 3.8931,
      "step": 37030
    },
    {
      "epoch": 0.07716666666666666,
      "grad_norm": 0.8391117453575134,
      "learning_rate": 0.00029603983648285927,
      "loss": 3.9051,
      "step": 37040
    },
    {
      "epoch": 0.0771875,
      "grad_norm": 0.784164309501648,
      "learning_rate": 0.0002960375857990831,
      "loss": 3.9916,
      "step": 37050
    },
    {
      "epoch": 0.07720833333333334,
      "grad_norm": 0.7964832782745361,
      "learning_rate": 0.00029603533448448237,
      "loss": 4.0086,
      "step": 37060
    },
    {
      "epoch": 0.07722916666666667,
      "grad_norm": 0.8854414224624634,
      "learning_rate": 0.0002960330825390668,
      "loss": 3.83,
      "step": 37070
    },
    {
      "epoch": 0.07725,
      "grad_norm": 0.7870660424232483,
      "learning_rate": 0.00029603082996284614,
      "loss": 4.067,
      "step": 37080
    },
    {
      "epoch": 0.07727083333333333,
      "grad_norm": 1.0131460428237915,
      "learning_rate": 0.0002960285767558301,
      "loss": 4.0958,
      "step": 37090
    },
    {
      "epoch": 0.07729166666666666,
      "grad_norm": 0.8952473402023315,
      "learning_rate": 0.0002960263229180284,
      "loss": 3.9738,
      "step": 37100
    },
    {
      "epoch": 0.0773125,
      "grad_norm": 0.7505180835723877,
      "learning_rate": 0.0002960240684494508,
      "loss": 3.9285,
      "step": 37110
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 0.7252408266067505,
      "learning_rate": 0.000296021813350107,
      "loss": 4.0219,
      "step": 37120
    },
    {
      "epoch": 0.07735416666666667,
      "grad_norm": 0.9749805927276611,
      "learning_rate": 0.00029601955762000677,
      "loss": 3.9056,
      "step": 37130
    },
    {
      "epoch": 0.077375,
      "grad_norm": 0.7523090243339539,
      "learning_rate": 0.00029601730125915985,
      "loss": 3.9569,
      "step": 37140
    },
    {
      "epoch": 0.07739583333333333,
      "grad_norm": 0.7962819337844849,
      "learning_rate": 0.000296015044267576,
      "loss": 4.0049,
      "step": 37150
    },
    {
      "epoch": 0.07741666666666666,
      "grad_norm": 0.7877984642982483,
      "learning_rate": 0.00029601278664526494,
      "loss": 3.9931,
      "step": 37160
    },
    {
      "epoch": 0.0774375,
      "grad_norm": 0.8227845430374146,
      "learning_rate": 0.0002960105283922364,
      "loss": 4.0331,
      "step": 37170
    },
    {
      "epoch": 0.07745833333333334,
      "grad_norm": 0.7852182984352112,
      "learning_rate": 0.00029600826950850026,
      "loss": 3.955,
      "step": 37180
    },
    {
      "epoch": 0.07747916666666667,
      "grad_norm": 0.8177304863929749,
      "learning_rate": 0.0002960060099940661,
      "loss": 3.9852,
      "step": 37190
    },
    {
      "epoch": 0.0775,
      "grad_norm": 0.7786300778388977,
      "learning_rate": 0.0002960037498489438,
      "loss": 4.1275,
      "step": 37200
    },
    {
      "epoch": 0.07752083333333333,
      "grad_norm": 0.7030205130577087,
      "learning_rate": 0.00029600148907314315,
      "loss": 4.0328,
      "step": 37210
    },
    {
      "epoch": 0.07754166666666666,
      "grad_norm": 0.8485303521156311,
      "learning_rate": 0.0002959992276666738,
      "loss": 3.936,
      "step": 37220
    },
    {
      "epoch": 0.0775625,
      "grad_norm": 0.7638468146324158,
      "learning_rate": 0.0002959969656295456,
      "loss": 3.9583,
      "step": 37230
    },
    {
      "epoch": 0.07758333333333334,
      "grad_norm": 0.7291339635848999,
      "learning_rate": 0.0002959947029617683,
      "loss": 4.0612,
      "step": 37240
    },
    {
      "epoch": 0.07760416666666667,
      "grad_norm": 0.7313277125358582,
      "learning_rate": 0.00029599243966335165,
      "loss": 3.9409,
      "step": 37250
    },
    {
      "epoch": 0.077625,
      "grad_norm": 0.7537336945533752,
      "learning_rate": 0.00029599017573430546,
      "loss": 4.0731,
      "step": 37260
    },
    {
      "epoch": 0.07764583333333333,
      "grad_norm": 0.7785717248916626,
      "learning_rate": 0.0002959879111746395,
      "loss": 4.1558,
      "step": 37270
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 0.7225485444068909,
      "learning_rate": 0.0002959856459843635,
      "loss": 4.0801,
      "step": 37280
    },
    {
      "epoch": 0.0776875,
      "grad_norm": 0.8311878442764282,
      "learning_rate": 0.0002959833801634874,
      "loss": 4.0419,
      "step": 37290
    },
    {
      "epoch": 0.07770833333333334,
      "grad_norm": 0.8113701939582825,
      "learning_rate": 0.00029598111371202077,
      "loss": 4.0289,
      "step": 37300
    },
    {
      "epoch": 0.07772916666666667,
      "grad_norm": 0.7142004370689392,
      "learning_rate": 0.0002959788466299736,
      "loss": 3.913,
      "step": 37310
    },
    {
      "epoch": 0.07775,
      "grad_norm": 0.8352668285369873,
      "learning_rate": 0.00029597657891735555,
      "loss": 3.8792,
      "step": 37320
    },
    {
      "epoch": 0.07777083333333333,
      "grad_norm": 0.856296181678772,
      "learning_rate": 0.00029597431057417647,
      "loss": 4.2033,
      "step": 37330
    },
    {
      "epoch": 0.07779166666666666,
      "grad_norm": 0.8602162003517151,
      "learning_rate": 0.0002959720416004461,
      "loss": 3.9732,
      "step": 37340
    },
    {
      "epoch": 0.0778125,
      "grad_norm": 0.8192880153656006,
      "learning_rate": 0.0002959697719961744,
      "loss": 3.9089,
      "step": 37350
    },
    {
      "epoch": 0.07783333333333334,
      "grad_norm": 0.9011448621749878,
      "learning_rate": 0.00029596750176137096,
      "loss": 3.9583,
      "step": 37360
    },
    {
      "epoch": 0.07785416666666667,
      "grad_norm": 0.8908724188804626,
      "learning_rate": 0.00029596523089604575,
      "loss": 4.1122,
      "step": 37370
    },
    {
      "epoch": 0.077875,
      "grad_norm": 0.7739980220794678,
      "learning_rate": 0.0002959629594002085,
      "loss": 3.9148,
      "step": 37380
    },
    {
      "epoch": 0.07789583333333333,
      "grad_norm": 0.908785879611969,
      "learning_rate": 0.00029596068727386906,
      "loss": 3.8749,
      "step": 37390
    },
    {
      "epoch": 0.07791666666666666,
      "grad_norm": 0.8008125424385071,
      "learning_rate": 0.00029595841451703726,
      "loss": 3.8464,
      "step": 37400
    },
    {
      "epoch": 0.0779375,
      "grad_norm": 0.7783828973770142,
      "learning_rate": 0.00029595614112972276,
      "loss": 4.223,
      "step": 37410
    },
    {
      "epoch": 0.07795833333333334,
      "grad_norm": 0.758909285068512,
      "learning_rate": 0.00029595386711193564,
      "loss": 3.958,
      "step": 37420
    },
    {
      "epoch": 0.07797916666666667,
      "grad_norm": 0.9812204837799072,
      "learning_rate": 0.00029595159246368545,
      "loss": 4.0739,
      "step": 37430
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.8455809950828552,
      "learning_rate": 0.00029594931718498227,
      "loss": 3.955,
      "step": 37440
    },
    {
      "epoch": 0.07802083333333333,
      "grad_norm": 0.8847913146018982,
      "learning_rate": 0.00029594704127583574,
      "loss": 4.0595,
      "step": 37450
    },
    {
      "epoch": 0.07804166666666666,
      "grad_norm": 0.7541486024856567,
      "learning_rate": 0.00029594476473625584,
      "loss": 4.1097,
      "step": 37460
    },
    {
      "epoch": 0.0780625,
      "grad_norm": 0.8574343919754028,
      "learning_rate": 0.0002959424875662523,
      "loss": 3.9557,
      "step": 37470
    },
    {
      "epoch": 0.07808333333333334,
      "grad_norm": 0.8774288296699524,
      "learning_rate": 0.0002959402097658349,
      "loss": 4.0834,
      "step": 37480
    },
    {
      "epoch": 0.07810416666666667,
      "grad_norm": 0.9778867959976196,
      "learning_rate": 0.00029593793133501364,
      "loss": 4.0005,
      "step": 37490
    },
    {
      "epoch": 0.078125,
      "grad_norm": 0.9871839284896851,
      "learning_rate": 0.0002959356522737982,
      "loss": 4.0814,
      "step": 37500
    },
    {
      "epoch": 0.07814583333333333,
      "grad_norm": 0.885253369808197,
      "learning_rate": 0.0002959333725821986,
      "loss": 4.059,
      "step": 37510
    },
    {
      "epoch": 0.07816666666666666,
      "grad_norm": 0.7796623706817627,
      "learning_rate": 0.00029593109226022456,
      "loss": 3.9882,
      "step": 37520
    },
    {
      "epoch": 0.0781875,
      "grad_norm": 0.781611979007721,
      "learning_rate": 0.000295928811307886,
      "loss": 3.8674,
      "step": 37530
    },
    {
      "epoch": 0.07820833333333334,
      "grad_norm": 0.7042635083198547,
      "learning_rate": 0.0002959265297251927,
      "loss": 4.0858,
      "step": 37540
    },
    {
      "epoch": 0.07822916666666667,
      "grad_norm": 0.7512226700782776,
      "learning_rate": 0.0002959242475121546,
      "loss": 4.0258,
      "step": 37550
    },
    {
      "epoch": 0.07825,
      "grad_norm": 0.7486161589622498,
      "learning_rate": 0.0002959219646687814,
      "loss": 4.0598,
      "step": 37560
    },
    {
      "epoch": 0.07827083333333333,
      "grad_norm": 0.8785876035690308,
      "learning_rate": 0.00029591968119508315,
      "loss": 4.1487,
      "step": 37570
    },
    {
      "epoch": 0.07829166666666666,
      "grad_norm": 0.8238632082939148,
      "learning_rate": 0.00029591739709106964,
      "loss": 3.982,
      "step": 37580
    },
    {
      "epoch": 0.0783125,
      "grad_norm": 0.772164523601532,
      "learning_rate": 0.00029591511235675075,
      "loss": 3.9607,
      "step": 37590
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 0.7794156670570374,
      "learning_rate": 0.0002959128269921363,
      "loss": 3.941,
      "step": 37600
    },
    {
      "epoch": 0.07835416666666667,
      "grad_norm": 0.7868004441261292,
      "learning_rate": 0.0002959105409972362,
      "loss": 4.031,
      "step": 37610
    },
    {
      "epoch": 0.078375,
      "grad_norm": 0.7520425319671631,
      "learning_rate": 0.0002959082543720603,
      "loss": 3.9003,
      "step": 37620
    },
    {
      "epoch": 0.07839583333333333,
      "grad_norm": 0.8113343119621277,
      "learning_rate": 0.0002959059671166185,
      "loss": 4.0041,
      "step": 37630
    },
    {
      "epoch": 0.07841666666666666,
      "grad_norm": 0.7939594984054565,
      "learning_rate": 0.00029590367923092067,
      "loss": 4.138,
      "step": 37640
    },
    {
      "epoch": 0.0784375,
      "grad_norm": 0.8828052878379822,
      "learning_rate": 0.00029590139071497676,
      "loss": 4.1531,
      "step": 37650
    },
    {
      "epoch": 0.07845833333333334,
      "grad_norm": 0.8034064769744873,
      "learning_rate": 0.0002958991015687965,
      "loss": 3.9517,
      "step": 37660
    },
    {
      "epoch": 0.07847916666666667,
      "grad_norm": 0.8105040192604065,
      "learning_rate": 0.00029589681179238996,
      "loss": 3.9339,
      "step": 37670
    },
    {
      "epoch": 0.0785,
      "grad_norm": 0.7540189623832703,
      "learning_rate": 0.00029589452138576686,
      "loss": 3.9986,
      "step": 37680
    },
    {
      "epoch": 0.07852083333333333,
      "grad_norm": 0.7663857936859131,
      "learning_rate": 0.0002958922303489372,
      "loss": 3.949,
      "step": 37690
    },
    {
      "epoch": 0.07854166666666666,
      "grad_norm": 0.869475781917572,
      "learning_rate": 0.0002958899386819109,
      "loss": 3.9517,
      "step": 37700
    },
    {
      "epoch": 0.0785625,
      "grad_norm": 0.7547687888145447,
      "learning_rate": 0.0002958876463846978,
      "loss": 3.9768,
      "step": 37710
    },
    {
      "epoch": 0.07858333333333334,
      "grad_norm": 0.8117455244064331,
      "learning_rate": 0.0002958853534573078,
      "loss": 4.0086,
      "step": 37720
    },
    {
      "epoch": 0.07860416666666667,
      "grad_norm": 0.8115429282188416,
      "learning_rate": 0.0002958830598997508,
      "loss": 4.1081,
      "step": 37730
    },
    {
      "epoch": 0.078625,
      "grad_norm": 0.773429811000824,
      "learning_rate": 0.0002958807657120368,
      "loss": 4.0609,
      "step": 37740
    },
    {
      "epoch": 0.07864583333333333,
      "grad_norm": 0.8656041622161865,
      "learning_rate": 0.00029587847089417556,
      "loss": 3.9974,
      "step": 37750
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 0.8010833263397217,
      "learning_rate": 0.0002958761754461771,
      "loss": 3.8826,
      "step": 37760
    },
    {
      "epoch": 0.0786875,
      "grad_norm": 0.6985688805580139,
      "learning_rate": 0.0002958738793680513,
      "loss": 3.9508,
      "step": 37770
    },
    {
      "epoch": 0.07870833333333334,
      "grad_norm": 1.1281057596206665,
      "learning_rate": 0.00029587158265980806,
      "loss": 4.0319,
      "step": 37780
    },
    {
      "epoch": 0.07872916666666667,
      "grad_norm": 0.8178333640098572,
      "learning_rate": 0.00029586928532145736,
      "loss": 4.079,
      "step": 37790
    },
    {
      "epoch": 0.07875,
      "grad_norm": 0.8388230800628662,
      "learning_rate": 0.000295866987353009,
      "loss": 3.822,
      "step": 37800
    },
    {
      "epoch": 0.07877083333333333,
      "grad_norm": 0.7320294976234436,
      "learning_rate": 0.0002958646887544731,
      "loss": 4.0358,
      "step": 37810
    },
    {
      "epoch": 0.07879166666666666,
      "grad_norm": 0.7816610932350159,
      "learning_rate": 0.0002958623895258594,
      "loss": 3.9942,
      "step": 37820
    },
    {
      "epoch": 0.0788125,
      "grad_norm": 0.8699864745140076,
      "learning_rate": 0.000295860089667178,
      "loss": 4.0238,
      "step": 37830
    },
    {
      "epoch": 0.07883333333333334,
      "grad_norm": 0.8653493523597717,
      "learning_rate": 0.0002958577891784387,
      "loss": 3.973,
      "step": 37840
    },
    {
      "epoch": 0.07885416666666667,
      "grad_norm": 0.7553151845932007,
      "learning_rate": 0.0002958554880596515,
      "loss": 3.966,
      "step": 37850
    },
    {
      "epoch": 0.078875,
      "grad_norm": 0.7623425126075745,
      "learning_rate": 0.0002958531863108263,
      "loss": 4.0373,
      "step": 37860
    },
    {
      "epoch": 0.07889583333333333,
      "grad_norm": 0.7176605463027954,
      "learning_rate": 0.00029585088393197304,
      "loss": 3.9565,
      "step": 37870
    },
    {
      "epoch": 0.07891666666666666,
      "grad_norm": 0.9141770005226135,
      "learning_rate": 0.00029584858092310175,
      "loss": 4.0154,
      "step": 37880
    },
    {
      "epoch": 0.0789375,
      "grad_norm": 0.7692462801933289,
      "learning_rate": 0.00029584627728422233,
      "loss": 4.1445,
      "step": 37890
    },
    {
      "epoch": 0.07895833333333334,
      "grad_norm": 0.9171366691589355,
      "learning_rate": 0.0002958439730153447,
      "loss": 4.0913,
      "step": 37900
    },
    {
      "epoch": 0.07897916666666667,
      "grad_norm": 0.7264308929443359,
      "learning_rate": 0.0002958416681164788,
      "loss": 4.0221,
      "step": 37910
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.7637732028961182,
      "learning_rate": 0.00029583936258763467,
      "loss": 3.8922,
      "step": 37920
    },
    {
      "epoch": 0.07902083333333333,
      "grad_norm": 0.846948504447937,
      "learning_rate": 0.00029583705642882214,
      "loss": 3.9272,
      "step": 37930
    },
    {
      "epoch": 0.07904166666666666,
      "grad_norm": 0.8535504937171936,
      "learning_rate": 0.00029583474964005134,
      "loss": 4.1317,
      "step": 37940
    },
    {
      "epoch": 0.0790625,
      "grad_norm": 0.708281934261322,
      "learning_rate": 0.00029583244222133214,
      "loss": 3.9945,
      "step": 37950
    },
    {
      "epoch": 0.07908333333333334,
      "grad_norm": 0.8934239745140076,
      "learning_rate": 0.0002958301341726745,
      "loss": 3.9696,
      "step": 37960
    },
    {
      "epoch": 0.07910416666666667,
      "grad_norm": 0.7739936113357544,
      "learning_rate": 0.0002958278254940884,
      "loss": 3.7936,
      "step": 37970
    },
    {
      "epoch": 0.079125,
      "grad_norm": 0.8384619951248169,
      "learning_rate": 0.0002958255161855838,
      "loss": 3.8725,
      "step": 37980
    },
    {
      "epoch": 0.07914583333333333,
      "grad_norm": 0.7832215428352356,
      "learning_rate": 0.0002958232062471707,
      "loss": 4.0722,
      "step": 37990
    },
    {
      "epoch": 0.07916666666666666,
      "grad_norm": 0.8406527638435364,
      "learning_rate": 0.0002958208956788591,
      "loss": 3.9568,
      "step": 38000
    },
    {
      "epoch": 0.07916666666666666,
      "eval_loss": 4.3098602294921875,
      "eval_runtime": 10.5772,
      "eval_samples_per_second": 0.945,
      "eval_steps_per_second": 0.284,
      "step": 38000
    },
    {
      "epoch": 0.0791875,
      "grad_norm": 0.835521936416626,
      "learning_rate": 0.00029581858448065896,
      "loss": 4.1885,
      "step": 38010
    },
    {
      "epoch": 0.07920833333333334,
      "grad_norm": 0.8701942563056946,
      "learning_rate": 0.00029581627265258016,
      "loss": 4.272,
      "step": 38020
    },
    {
      "epoch": 0.07922916666666667,
      "grad_norm": 1.5983165502548218,
      "learning_rate": 0.00029581396019463286,
      "loss": 3.9923,
      "step": 38030
    },
    {
      "epoch": 0.07925,
      "grad_norm": 0.7321540117263794,
      "learning_rate": 0.000295811647106827,
      "loss": 3.8809,
      "step": 38040
    },
    {
      "epoch": 0.07927083333333333,
      "grad_norm": 0.8294848203659058,
      "learning_rate": 0.00029580933338917246,
      "loss": 3.9394,
      "step": 38050
    },
    {
      "epoch": 0.07929166666666666,
      "grad_norm": 0.7507039308547974,
      "learning_rate": 0.0002958070190416794,
      "loss": 4.112,
      "step": 38060
    },
    {
      "epoch": 0.0793125,
      "grad_norm": 0.764258086681366,
      "learning_rate": 0.00029580470406435764,
      "loss": 4.0496,
      "step": 38070
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 0.9215588569641113,
      "learning_rate": 0.0002958023884572173,
      "loss": 4.0618,
      "step": 38080
    },
    {
      "epoch": 0.07935416666666667,
      "grad_norm": 0.7847050428390503,
      "learning_rate": 0.00029580007222026843,
      "loss": 4.0495,
      "step": 38090
    },
    {
      "epoch": 0.079375,
      "grad_norm": 0.7890319228172302,
      "learning_rate": 0.0002957977553535209,
      "loss": 4.0172,
      "step": 38100
    },
    {
      "epoch": 0.07939583333333333,
      "grad_norm": 0.8720386028289795,
      "learning_rate": 0.00029579543785698473,
      "loss": 3.968,
      "step": 38110
    },
    {
      "epoch": 0.07941666666666666,
      "grad_norm": 0.7805672883987427,
      "learning_rate": 0.00029579311973067,
      "loss": 3.9467,
      "step": 38120
    },
    {
      "epoch": 0.0794375,
      "grad_norm": 0.7763761878013611,
      "learning_rate": 0.00029579080097458677,
      "loss": 3.9352,
      "step": 38130
    },
    {
      "epoch": 0.07945833333333334,
      "grad_norm": 0.8057962656021118,
      "learning_rate": 0.0002957884815887449,
      "loss": 4.0188,
      "step": 38140
    },
    {
      "epoch": 0.07947916666666667,
      "grad_norm": 0.8831015825271606,
      "learning_rate": 0.0002957861615731545,
      "loss": 3.8797,
      "step": 38150
    },
    {
      "epoch": 0.0795,
      "grad_norm": 0.8869669437408447,
      "learning_rate": 0.0002957838409278257,
      "loss": 4.1105,
      "step": 38160
    },
    {
      "epoch": 0.07952083333333333,
      "grad_norm": 0.7498947978019714,
      "learning_rate": 0.0002957815196527683,
      "loss": 3.8928,
      "step": 38170
    },
    {
      "epoch": 0.07954166666666666,
      "grad_norm": 0.7492097616195679,
      "learning_rate": 0.0002957791977479925,
      "loss": 4.1214,
      "step": 38180
    },
    {
      "epoch": 0.0795625,
      "grad_norm": 0.6641942262649536,
      "learning_rate": 0.00029577687521350826,
      "loss": 3.8433,
      "step": 38190
    },
    {
      "epoch": 0.07958333333333334,
      "grad_norm": 0.7778754234313965,
      "learning_rate": 0.0002957745520493256,
      "loss": 4.0498,
      "step": 38200
    },
    {
      "epoch": 0.07960416666666667,
      "grad_norm": 0.8144408464431763,
      "learning_rate": 0.0002957722282554546,
      "loss": 4.0489,
      "step": 38210
    },
    {
      "epoch": 0.079625,
      "grad_norm": 0.826065719127655,
      "learning_rate": 0.00029576990383190524,
      "loss": 4.1199,
      "step": 38220
    },
    {
      "epoch": 0.07964583333333333,
      "grad_norm": 0.8868575692176819,
      "learning_rate": 0.00029576757877868763,
      "loss": 4.007,
      "step": 38230
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 0.8908885717391968,
      "learning_rate": 0.0002957652530958118,
      "loss": 4.0049,
      "step": 38240
    },
    {
      "epoch": 0.0796875,
      "grad_norm": 1.2171024084091187,
      "learning_rate": 0.0002957629267832877,
      "loss": 4.1292,
      "step": 38250
    },
    {
      "epoch": 0.07970833333333334,
      "grad_norm": 0.752056360244751,
      "learning_rate": 0.0002957605998411255,
      "loss": 3.9834,
      "step": 38260
    },
    {
      "epoch": 0.07972916666666667,
      "grad_norm": 0.7996678352355957,
      "learning_rate": 0.0002957582722693352,
      "loss": 3.987,
      "step": 38270
    },
    {
      "epoch": 0.07975,
      "grad_norm": 0.760346531867981,
      "learning_rate": 0.00029575594406792684,
      "loss": 3.9882,
      "step": 38280
    },
    {
      "epoch": 0.07977083333333333,
      "grad_norm": 0.8054348230361938,
      "learning_rate": 0.0002957536152369105,
      "loss": 4.0532,
      "step": 38290
    },
    {
      "epoch": 0.07979166666666666,
      "grad_norm": 0.8142649531364441,
      "learning_rate": 0.00029575128577629626,
      "loss": 4.0326,
      "step": 38300
    },
    {
      "epoch": 0.0798125,
      "grad_norm": 0.7759074568748474,
      "learning_rate": 0.00029574895568609415,
      "loss": 4.1319,
      "step": 38310
    },
    {
      "epoch": 0.07983333333333334,
      "grad_norm": 0.7903830409049988,
      "learning_rate": 0.00029574662496631427,
      "loss": 3.9098,
      "step": 38320
    },
    {
      "epoch": 0.07985416666666667,
      "grad_norm": 0.8345667123794556,
      "learning_rate": 0.0002957442936169666,
      "loss": 3.9699,
      "step": 38330
    },
    {
      "epoch": 0.079875,
      "grad_norm": 0.7826368808746338,
      "learning_rate": 0.0002957419616380613,
      "loss": 4.0635,
      "step": 38340
    },
    {
      "epoch": 0.07989583333333333,
      "grad_norm": 0.780045747756958,
      "learning_rate": 0.00029573962902960845,
      "loss": 3.9639,
      "step": 38350
    },
    {
      "epoch": 0.07991666666666666,
      "grad_norm": 0.8617037534713745,
      "learning_rate": 0.000295737295791618,
      "loss": 4.042,
      "step": 38360
    },
    {
      "epoch": 0.0799375,
      "grad_norm": 0.7709670066833496,
      "learning_rate": 0.0002957349619241002,
      "loss": 3.9764,
      "step": 38370
    },
    {
      "epoch": 0.07995833333333334,
      "grad_norm": 0.7708585262298584,
      "learning_rate": 0.00029573262742706505,
      "loss": 4.0448,
      "step": 38380
    },
    {
      "epoch": 0.07997916666666667,
      "grad_norm": 0.7847542762756348,
      "learning_rate": 0.00029573029230052256,
      "loss": 4.0114,
      "step": 38390
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7399855852127075,
      "learning_rate": 0.00029572795654448297,
      "loss": 3.9459,
      "step": 38400
    },
    {
      "epoch": 0.08002083333333333,
      "grad_norm": 0.7248812913894653,
      "learning_rate": 0.00029572562015895624,
      "loss": 3.9244,
      "step": 38410
    },
    {
      "epoch": 0.08004166666666666,
      "grad_norm": 0.9456031322479248,
      "learning_rate": 0.0002957232831439525,
      "loss": 3.9386,
      "step": 38420
    },
    {
      "epoch": 0.0800625,
      "grad_norm": 0.8325448632240295,
      "learning_rate": 0.00029572094549948195,
      "loss": 4.2068,
      "step": 38430
    },
    {
      "epoch": 0.08008333333333334,
      "grad_norm": 0.8106370568275452,
      "learning_rate": 0.00029571860722555455,
      "loss": 4.0544,
      "step": 38440
    },
    {
      "epoch": 0.08010416666666667,
      "grad_norm": 0.815687894821167,
      "learning_rate": 0.0002957162683221804,
      "loss": 4.0184,
      "step": 38450
    },
    {
      "epoch": 0.080125,
      "grad_norm": 0.8154532313346863,
      "learning_rate": 0.0002957139287893697,
      "loss": 3.9144,
      "step": 38460
    },
    {
      "epoch": 0.08014583333333333,
      "grad_norm": 0.8380201458930969,
      "learning_rate": 0.0002957115886271325,
      "loss": 4.0877,
      "step": 38470
    },
    {
      "epoch": 0.08016666666666666,
      "grad_norm": 0.7439801096916199,
      "learning_rate": 0.0002957092478354789,
      "loss": 4.0516,
      "step": 38480
    },
    {
      "epoch": 0.0801875,
      "grad_norm": 0.8770380616188049,
      "learning_rate": 0.000295706906414419,
      "loss": 4.0147,
      "step": 38490
    },
    {
      "epoch": 0.08020833333333334,
      "grad_norm": 0.7167606353759766,
      "learning_rate": 0.000295704564363963,
      "loss": 3.9512,
      "step": 38500
    },
    {
      "epoch": 0.08022916666666667,
      "grad_norm": 0.8488460779190063,
      "learning_rate": 0.00029570222168412094,
      "loss": 4.0267,
      "step": 38510
    },
    {
      "epoch": 0.08025,
      "grad_norm": 0.7501782774925232,
      "learning_rate": 0.00029569987837490294,
      "loss": 4.1095,
      "step": 38520
    },
    {
      "epoch": 0.08027083333333333,
      "grad_norm": 0.8191635608673096,
      "learning_rate": 0.0002956975344363191,
      "loss": 3.8804,
      "step": 38530
    },
    {
      "epoch": 0.08029166666666666,
      "grad_norm": 1.1388297080993652,
      "learning_rate": 0.00029569518986837965,
      "loss": 4.2477,
      "step": 38540
    },
    {
      "epoch": 0.0803125,
      "grad_norm": 0.9039329886436462,
      "learning_rate": 0.0002956928446710946,
      "loss": 4.0366,
      "step": 38550
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 0.8913304805755615,
      "learning_rate": 0.0002956904988444741,
      "loss": 4.1228,
      "step": 38560
    },
    {
      "epoch": 0.08035416666666667,
      "grad_norm": 0.8467113375663757,
      "learning_rate": 0.0002956881523885284,
      "loss": 4.0357,
      "step": 38570
    },
    {
      "epoch": 0.080375,
      "grad_norm": 0.8059454560279846,
      "learning_rate": 0.0002956858053032675,
      "loss": 3.9712,
      "step": 38580
    },
    {
      "epoch": 0.08039583333333333,
      "grad_norm": 0.7427771091461182,
      "learning_rate": 0.0002956834575887016,
      "loss": 4.0785,
      "step": 38590
    },
    {
      "epoch": 0.08041666666666666,
      "grad_norm": 0.9557122588157654,
      "learning_rate": 0.0002956811092448408,
      "loss": 3.9419,
      "step": 38600
    },
    {
      "epoch": 0.0804375,
      "grad_norm": 0.7548374533653259,
      "learning_rate": 0.00029567876027169533,
      "loss": 4.0637,
      "step": 38610
    },
    {
      "epoch": 0.08045833333333334,
      "grad_norm": 0.8431499600410461,
      "learning_rate": 0.00029567641066927526,
      "loss": 3.9737,
      "step": 38620
    },
    {
      "epoch": 0.08047916666666667,
      "grad_norm": 0.8312988877296448,
      "learning_rate": 0.00029567406043759075,
      "loss": 3.9104,
      "step": 38630
    },
    {
      "epoch": 0.0805,
      "grad_norm": 0.754848301410675,
      "learning_rate": 0.00029567170957665195,
      "loss": 4.0635,
      "step": 38640
    },
    {
      "epoch": 0.08052083333333333,
      "grad_norm": 0.8082960844039917,
      "learning_rate": 0.00029566935808646904,
      "loss": 3.9813,
      "step": 38650
    },
    {
      "epoch": 0.08054166666666666,
      "grad_norm": 0.8546106815338135,
      "learning_rate": 0.00029566700596705216,
      "loss": 4.0363,
      "step": 38660
    },
    {
      "epoch": 0.0805625,
      "grad_norm": 0.8824333548545837,
      "learning_rate": 0.00029566465321841144,
      "loss": 3.7413,
      "step": 38670
    },
    {
      "epoch": 0.08058333333333334,
      "grad_norm": 0.8826181292533875,
      "learning_rate": 0.0002956622998405571,
      "loss": 4.0552,
      "step": 38680
    },
    {
      "epoch": 0.08060416666666667,
      "grad_norm": 0.7803552150726318,
      "learning_rate": 0.0002956599458334993,
      "loss": 3.884,
      "step": 38690
    },
    {
      "epoch": 0.080625,
      "grad_norm": 0.807855486869812,
      "learning_rate": 0.00029565759119724817,
      "loss": 3.9381,
      "step": 38700
    },
    {
      "epoch": 0.08064583333333333,
      "grad_norm": 0.7235782742500305,
      "learning_rate": 0.0002956552359318139,
      "loss": 4.0619,
      "step": 38710
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 0.7210096120834351,
      "learning_rate": 0.0002956528800372067,
      "loss": 3.9703,
      "step": 38720
    },
    {
      "epoch": 0.0806875,
      "grad_norm": 0.915455162525177,
      "learning_rate": 0.0002956505235134367,
      "loss": 4.0331,
      "step": 38730
    },
    {
      "epoch": 0.08070833333333334,
      "grad_norm": 0.7352243065834045,
      "learning_rate": 0.0002956481663605141,
      "loss": 4.0842,
      "step": 38740
    },
    {
      "epoch": 0.08072916666666667,
      "grad_norm": 0.7845919132232666,
      "learning_rate": 0.000295645808578449,
      "loss": 4.1241,
      "step": 38750
    },
    {
      "epoch": 0.08075,
      "grad_norm": 0.8045593500137329,
      "learning_rate": 0.00029564345016725173,
      "loss": 3.9679,
      "step": 38760
    },
    {
      "epoch": 0.08077083333333333,
      "grad_norm": 0.9383342862129211,
      "learning_rate": 0.00029564109112693236,
      "loss": 3.9011,
      "step": 38770
    },
    {
      "epoch": 0.08079166666666666,
      "grad_norm": 0.7674330472946167,
      "learning_rate": 0.00029563873145750115,
      "loss": 3.9333,
      "step": 38780
    },
    {
      "epoch": 0.0808125,
      "grad_norm": 0.801990270614624,
      "learning_rate": 0.00029563637115896825,
      "loss": 3.9456,
      "step": 38790
    },
    {
      "epoch": 0.08083333333333333,
      "grad_norm": 0.7783843278884888,
      "learning_rate": 0.0002956340102313439,
      "loss": 3.9849,
      "step": 38800
    },
    {
      "epoch": 0.08085416666666667,
      "grad_norm": 0.8149083256721497,
      "learning_rate": 0.0002956316486746383,
      "loss": 3.9153,
      "step": 38810
    },
    {
      "epoch": 0.080875,
      "grad_norm": 0.7793574333190918,
      "learning_rate": 0.00029562928648886155,
      "loss": 4.153,
      "step": 38820
    },
    {
      "epoch": 0.08089583333333333,
      "grad_norm": 0.8162181377410889,
      "learning_rate": 0.00029562692367402394,
      "loss": 3.9424,
      "step": 38830
    },
    {
      "epoch": 0.08091666666666666,
      "grad_norm": 0.9892764091491699,
      "learning_rate": 0.0002956245602301357,
      "loss": 4.082,
      "step": 38840
    },
    {
      "epoch": 0.0809375,
      "grad_norm": 0.8548150062561035,
      "learning_rate": 0.00029562219615720696,
      "loss": 3.852,
      "step": 38850
    },
    {
      "epoch": 0.08095833333333333,
      "grad_norm": 0.7403591871261597,
      "learning_rate": 0.000295619831455248,
      "loss": 4.0535,
      "step": 38860
    },
    {
      "epoch": 0.08097916666666667,
      "grad_norm": 0.8180938363075256,
      "learning_rate": 0.00029561746612426904,
      "loss": 4.1334,
      "step": 38870
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.8348621129989624,
      "learning_rate": 0.00029561510016428024,
      "loss": 4.0137,
      "step": 38880
    },
    {
      "epoch": 0.08102083333333333,
      "grad_norm": 0.8257707357406616,
      "learning_rate": 0.0002956127335752918,
      "loss": 4.0189,
      "step": 38890
    },
    {
      "epoch": 0.08104166666666666,
      "grad_norm": 0.8818042278289795,
      "learning_rate": 0.00029561036635731403,
      "loss": 4.1722,
      "step": 38900
    },
    {
      "epoch": 0.0810625,
      "grad_norm": 0.7866851687431335,
      "learning_rate": 0.0002956079985103571,
      "loss": 4.0944,
      "step": 38910
    },
    {
      "epoch": 0.08108333333333333,
      "grad_norm": 0.8159758448600769,
      "learning_rate": 0.0002956056300344313,
      "loss": 4.1673,
      "step": 38920
    },
    {
      "epoch": 0.08110416666666667,
      "grad_norm": 0.7859052419662476,
      "learning_rate": 0.00029560326092954676,
      "loss": 3.8531,
      "step": 38930
    },
    {
      "epoch": 0.081125,
      "grad_norm": 0.7926644682884216,
      "learning_rate": 0.00029560089119571377,
      "loss": 4.0277,
      "step": 38940
    },
    {
      "epoch": 0.08114583333333333,
      "grad_norm": 0.849351704120636,
      "learning_rate": 0.00029559852083294264,
      "loss": 4.1047,
      "step": 38950
    },
    {
      "epoch": 0.08116666666666666,
      "grad_norm": 0.9178153276443481,
      "learning_rate": 0.00029559614984124344,
      "loss": 4.0932,
      "step": 38960
    },
    {
      "epoch": 0.0811875,
      "grad_norm": 0.7889618873596191,
      "learning_rate": 0.00029559377822062653,
      "loss": 4.0629,
      "step": 38970
    },
    {
      "epoch": 0.08120833333333333,
      "grad_norm": 0.7828762531280518,
      "learning_rate": 0.0002955914059711021,
      "loss": 3.9042,
      "step": 38980
    },
    {
      "epoch": 0.08122916666666667,
      "grad_norm": 0.7672367095947266,
      "learning_rate": 0.00029558903309268047,
      "loss": 4.0882,
      "step": 38990
    },
    {
      "epoch": 0.08125,
      "grad_norm": 0.8167468309402466,
      "learning_rate": 0.0002955866595853718,
      "loss": 3.8289,
      "step": 39000
    },
    {
      "epoch": 0.08125,
      "eval_loss": 4.291996955871582,
      "eval_runtime": 10.9907,
      "eval_samples_per_second": 0.91,
      "eval_steps_per_second": 0.273,
      "step": 39000
    },
    {
      "epoch": 0.08127083333333333,
      "grad_norm": 0.7726606726646423,
      "learning_rate": 0.0002955842854491864,
      "loss": 3.7998,
      "step": 39010
    },
    {
      "epoch": 0.08129166666666666,
      "grad_norm": 0.8469964265823364,
      "learning_rate": 0.00029558191068413455,
      "loss": 3.9465,
      "step": 39020
    },
    {
      "epoch": 0.0813125,
      "grad_norm": 0.895370364189148,
      "learning_rate": 0.00029557953529022645,
      "loss": 4.0793,
      "step": 39030
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 1.0283160209655762,
      "learning_rate": 0.00029557715926747236,
      "loss": 4.0181,
      "step": 39040
    },
    {
      "epoch": 0.08135416666666667,
      "grad_norm": 0.9524704217910767,
      "learning_rate": 0.00029557478261588264,
      "loss": 4.102,
      "step": 39050
    },
    {
      "epoch": 0.081375,
      "grad_norm": 0.7596519589424133,
      "learning_rate": 0.0002955724053354674,
      "loss": 3.889,
      "step": 39060
    },
    {
      "epoch": 0.08139583333333333,
      "grad_norm": 0.9691551923751831,
      "learning_rate": 0.00029557002742623705,
      "loss": 3.9839,
      "step": 39070
    },
    {
      "epoch": 0.08141666666666666,
      "grad_norm": 0.7861046195030212,
      "learning_rate": 0.00029556764888820174,
      "loss": 4.0419,
      "step": 39080
    },
    {
      "epoch": 0.0814375,
      "grad_norm": 0.7543548941612244,
      "learning_rate": 0.0002955652697213719,
      "loss": 4.0894,
      "step": 39090
    },
    {
      "epoch": 0.08145833333333333,
      "grad_norm": 0.756062388420105,
      "learning_rate": 0.0002955628899257576,
      "loss": 4.0713,
      "step": 39100
    },
    {
      "epoch": 0.08147916666666667,
      "grad_norm": 0.8209773302078247,
      "learning_rate": 0.0002955605095013693,
      "loss": 4.041,
      "step": 39110
    },
    {
      "epoch": 0.0815,
      "grad_norm": 0.7886714339256287,
      "learning_rate": 0.0002955581284482172,
      "loss": 3.8696,
      "step": 39120
    },
    {
      "epoch": 0.08152083333333333,
      "grad_norm": 1.0151418447494507,
      "learning_rate": 0.00029555574676631163,
      "loss": 4.0925,
      "step": 39130
    },
    {
      "epoch": 0.08154166666666667,
      "grad_norm": 0.8185462355613708,
      "learning_rate": 0.0002955533644556628,
      "loss": 4.0839,
      "step": 39140
    },
    {
      "epoch": 0.0815625,
      "grad_norm": 0.8452709913253784,
      "learning_rate": 0.00029555098151628107,
      "loss": 4.0803,
      "step": 39150
    },
    {
      "epoch": 0.08158333333333333,
      "grad_norm": 0.7674920558929443,
      "learning_rate": 0.00029554859794817673,
      "loss": 4.1111,
      "step": 39160
    },
    {
      "epoch": 0.08160416666666667,
      "grad_norm": 0.7823147773742676,
      "learning_rate": 0.00029554621375136003,
      "loss": 4.0107,
      "step": 39170
    },
    {
      "epoch": 0.081625,
      "grad_norm": 0.7618927955627441,
      "learning_rate": 0.0002955438289258413,
      "loss": 4.1289,
      "step": 39180
    },
    {
      "epoch": 0.08164583333333333,
      "grad_norm": 0.7578924298286438,
      "learning_rate": 0.0002955414434716309,
      "loss": 3.9363,
      "step": 39190
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 0.8352966904640198,
      "learning_rate": 0.000295539057388739,
      "loss": 3.9148,
      "step": 39200
    },
    {
      "epoch": 0.0816875,
      "grad_norm": 0.7858846783638,
      "learning_rate": 0.000295536670677176,
      "loss": 3.9217,
      "step": 39210
    },
    {
      "epoch": 0.08170833333333333,
      "grad_norm": 0.6847884058952332,
      "learning_rate": 0.0002955342833369522,
      "loss": 4.0134,
      "step": 39220
    },
    {
      "epoch": 0.08172916666666667,
      "grad_norm": 0.8603465557098389,
      "learning_rate": 0.0002955318953680779,
      "loss": 3.9807,
      "step": 39230
    },
    {
      "epoch": 0.08175,
      "grad_norm": 0.7598857879638672,
      "learning_rate": 0.0002955295067705634,
      "loss": 4.0214,
      "step": 39240
    },
    {
      "epoch": 0.08177083333333333,
      "grad_norm": 0.8915538787841797,
      "learning_rate": 0.00029552711754441904,
      "loss": 4.0623,
      "step": 39250
    },
    {
      "epoch": 0.08179166666666667,
      "grad_norm": 0.994425892829895,
      "learning_rate": 0.00029552472768965514,
      "loss": 4.096,
      "step": 39260
    },
    {
      "epoch": 0.0818125,
      "grad_norm": 0.8511155843734741,
      "learning_rate": 0.00029552233720628204,
      "loss": 4.0264,
      "step": 39270
    },
    {
      "epoch": 0.08183333333333333,
      "grad_norm": 0.803685188293457,
      "learning_rate": 0.00029551994609431005,
      "loss": 4.0392,
      "step": 39280
    },
    {
      "epoch": 0.08185416666666667,
      "grad_norm": 0.7087610363960266,
      "learning_rate": 0.00029551755435374945,
      "loss": 3.9866,
      "step": 39290
    },
    {
      "epoch": 0.081875,
      "grad_norm": 0.7413554191589355,
      "learning_rate": 0.0002955151619846106,
      "loss": 4.1119,
      "step": 39300
    },
    {
      "epoch": 0.08189583333333333,
      "grad_norm": 1.0579023361206055,
      "learning_rate": 0.00029551276898690394,
      "loss": 3.9476,
      "step": 39310
    },
    {
      "epoch": 0.08191666666666667,
      "grad_norm": 0.8936607837677002,
      "learning_rate": 0.0002955103753606396,
      "loss": 3.9985,
      "step": 39320
    },
    {
      "epoch": 0.0819375,
      "grad_norm": 0.7556195259094238,
      "learning_rate": 0.0002955079811058282,
      "loss": 4.0032,
      "step": 39330
    },
    {
      "epoch": 0.08195833333333333,
      "grad_norm": 0.8329411745071411,
      "learning_rate": 0.0002955055862224798,
      "loss": 3.9169,
      "step": 39340
    },
    {
      "epoch": 0.08197916666666667,
      "grad_norm": 0.8235631585121155,
      "learning_rate": 0.0002955031907106049,
      "loss": 4.0571,
      "step": 39350
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.7948472499847412,
      "learning_rate": 0.00029550079457021374,
      "loss": 3.9939,
      "step": 39360
    },
    {
      "epoch": 0.08202083333333333,
      "grad_norm": 1.0078328847885132,
      "learning_rate": 0.0002954983978013168,
      "loss": 3.9105,
      "step": 39370
    },
    {
      "epoch": 0.08204166666666667,
      "grad_norm": 0.8439496755599976,
      "learning_rate": 0.00029549600040392436,
      "loss": 4.0252,
      "step": 39380
    },
    {
      "epoch": 0.0820625,
      "grad_norm": 0.9888390898704529,
      "learning_rate": 0.0002954936023780468,
      "loss": 4.0362,
      "step": 39390
    },
    {
      "epoch": 0.08208333333333333,
      "grad_norm": 0.9036434888839722,
      "learning_rate": 0.0002954912037236945,
      "loss": 3.9005,
      "step": 39400
    },
    {
      "epoch": 0.08210416666666667,
      "grad_norm": 0.7148544192314148,
      "learning_rate": 0.0002954888044408777,
      "loss": 4.0273,
      "step": 39410
    },
    {
      "epoch": 0.082125,
      "grad_norm": 0.8010039329528809,
      "learning_rate": 0.00029548640452960694,
      "loss": 4.1072,
      "step": 39420
    },
    {
      "epoch": 0.08214583333333333,
      "grad_norm": 0.7364577651023865,
      "learning_rate": 0.00029548400398989245,
      "loss": 3.8795,
      "step": 39430
    },
    {
      "epoch": 0.08216666666666667,
      "grad_norm": 0.9328866600990295,
      "learning_rate": 0.0002954816028217446,
      "loss": 4.035,
      "step": 39440
    },
    {
      "epoch": 0.0821875,
      "grad_norm": 0.8062793016433716,
      "learning_rate": 0.0002954792010251739,
      "loss": 4.0921,
      "step": 39450
    },
    {
      "epoch": 0.08220833333333333,
      "grad_norm": 0.7482831478118896,
      "learning_rate": 0.0002954767986001906,
      "loss": 3.9935,
      "step": 39460
    },
    {
      "epoch": 0.08222916666666667,
      "grad_norm": 0.7336897850036621,
      "learning_rate": 0.00029547439554680516,
      "loss": 4.0436,
      "step": 39470
    },
    {
      "epoch": 0.08225,
      "grad_norm": 0.83796226978302,
      "learning_rate": 0.00029547199186502783,
      "loss": 3.8492,
      "step": 39480
    },
    {
      "epoch": 0.08227083333333333,
      "grad_norm": 0.8167172074317932,
      "learning_rate": 0.00029546958755486915,
      "loss": 3.7169,
      "step": 39490
    },
    {
      "epoch": 0.08229166666666667,
      "grad_norm": 0.8210753202438354,
      "learning_rate": 0.0002954671826163394,
      "loss": 3.8259,
      "step": 39500
    },
    {
      "epoch": 0.0823125,
      "grad_norm": 0.8436444401741028,
      "learning_rate": 0.00029546477704944904,
      "loss": 4.1069,
      "step": 39510
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 0.7612024545669556,
      "learning_rate": 0.00029546237085420837,
      "loss": 4.0756,
      "step": 39520
    },
    {
      "epoch": 0.08235416666666667,
      "grad_norm": 0.8128028512001038,
      "learning_rate": 0.0002954599640306279,
      "loss": 4.0698,
      "step": 39530
    },
    {
      "epoch": 0.082375,
      "grad_norm": 0.881759762763977,
      "learning_rate": 0.0002954575565787179,
      "loss": 4.0234,
      "step": 39540
    },
    {
      "epoch": 0.08239583333333333,
      "grad_norm": 0.8712320327758789,
      "learning_rate": 0.00029545514849848887,
      "loss": 3.8762,
      "step": 39550
    },
    {
      "epoch": 0.08241666666666667,
      "grad_norm": 0.889971137046814,
      "learning_rate": 0.0002954527397899511,
      "loss": 3.9912,
      "step": 39560
    },
    {
      "epoch": 0.0824375,
      "grad_norm": 0.7280272841453552,
      "learning_rate": 0.0002954503304531152,
      "loss": 3.9493,
      "step": 39570
    },
    {
      "epoch": 0.08245833333333333,
      "grad_norm": 0.8367044925689697,
      "learning_rate": 0.00029544792048799134,
      "loss": 3.9507,
      "step": 39580
    },
    {
      "epoch": 0.08247916666666667,
      "grad_norm": 0.6600242853164673,
      "learning_rate": 0.00029544550989459007,
      "loss": 4.064,
      "step": 39590
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.9706956148147583,
      "learning_rate": 0.0002954430986729217,
      "loss": 4.1823,
      "step": 39600
    },
    {
      "epoch": 0.08252083333333333,
      "grad_norm": 0.761099636554718,
      "learning_rate": 0.0002954406868229968,
      "loss": 3.8986,
      "step": 39610
    },
    {
      "epoch": 0.08254166666666667,
      "grad_norm": 0.8011664152145386,
      "learning_rate": 0.00029543827434482575,
      "loss": 3.8295,
      "step": 39620
    },
    {
      "epoch": 0.0825625,
      "grad_norm": 0.760365903377533,
      "learning_rate": 0.00029543586123841883,
      "loss": 3.9803,
      "step": 39630
    },
    {
      "epoch": 0.08258333333333333,
      "grad_norm": 0.8626951575279236,
      "learning_rate": 0.0002954334475037866,
      "loss": 4.0497,
      "step": 39640
    },
    {
      "epoch": 0.08260416666666667,
      "grad_norm": 0.7348446249961853,
      "learning_rate": 0.0002954310331409394,
      "loss": 3.9666,
      "step": 39650
    },
    {
      "epoch": 0.082625,
      "grad_norm": 0.831517219543457,
      "learning_rate": 0.0002954286181498877,
      "loss": 3.8508,
      "step": 39660
    },
    {
      "epoch": 0.08264583333333334,
      "grad_norm": 0.7469507455825806,
      "learning_rate": 0.000295426202530642,
      "loss": 3.795,
      "step": 39670
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 0.7859343886375427,
      "learning_rate": 0.0002954237862832126,
      "loss": 4.1068,
      "step": 39680
    },
    {
      "epoch": 0.0826875,
      "grad_norm": 0.9549103379249573,
      "learning_rate": 0.00029542136940761005,
      "loss": 3.8812,
      "step": 39690
    },
    {
      "epoch": 0.08270833333333333,
      "grad_norm": 0.7817336916923523,
      "learning_rate": 0.00029541895190384474,
      "loss": 4.1709,
      "step": 39700
    },
    {
      "epoch": 0.08272916666666667,
      "grad_norm": 0.9150531888008118,
      "learning_rate": 0.00029541653377192705,
      "loss": 3.9782,
      "step": 39710
    },
    {
      "epoch": 0.08275,
      "grad_norm": 0.7823895215988159,
      "learning_rate": 0.0002954141150118676,
      "loss": 3.8857,
      "step": 39720
    },
    {
      "epoch": 0.08277083333333334,
      "grad_norm": 0.8031970858573914,
      "learning_rate": 0.0002954116956236767,
      "loss": 3.8429,
      "step": 39730
    },
    {
      "epoch": 0.08279166666666667,
      "grad_norm": 0.7317859530448914,
      "learning_rate": 0.0002954092756073648,
      "loss": 3.8955,
      "step": 39740
    },
    {
      "epoch": 0.0828125,
      "grad_norm": 0.8032432198524475,
      "learning_rate": 0.0002954068549629424,
      "loss": 4.0156,
      "step": 39750
    },
    {
      "epoch": 0.08283333333333333,
      "grad_norm": 0.7419918775558472,
      "learning_rate": 0.0002954044336904199,
      "loss": 3.9979,
      "step": 39760
    },
    {
      "epoch": 0.08285416666666667,
      "grad_norm": 0.8238973021507263,
      "learning_rate": 0.0002954020117898079,
      "loss": 4.0284,
      "step": 39770
    },
    {
      "epoch": 0.082875,
      "grad_norm": 0.8344582915306091,
      "learning_rate": 0.0002953995892611167,
      "loss": 3.8484,
      "step": 39780
    },
    {
      "epoch": 0.08289583333333334,
      "grad_norm": 0.7901859879493713,
      "learning_rate": 0.00029539716610435686,
      "loss": 4.1131,
      "step": 39790
    },
    {
      "epoch": 0.08291666666666667,
      "grad_norm": 1.2362107038497925,
      "learning_rate": 0.0002953947423195388,
      "loss": 4.1673,
      "step": 39800
    },
    {
      "epoch": 0.0829375,
      "grad_norm": 0.7733821272850037,
      "learning_rate": 0.000295392317906673,
      "loss": 4.0315,
      "step": 39810
    },
    {
      "epoch": 0.08295833333333333,
      "grad_norm": 0.7855840921401978,
      "learning_rate": 0.00029538989286576994,
      "loss": 3.9756,
      "step": 39820
    },
    {
      "epoch": 0.08297916666666667,
      "grad_norm": 0.7556350231170654,
      "learning_rate": 0.00029538746719684006,
      "loss": 4.0757,
      "step": 39830
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.9166795015335083,
      "learning_rate": 0.00029538504089989394,
      "loss": 4.0735,
      "step": 39840
    },
    {
      "epoch": 0.08302083333333334,
      "grad_norm": 0.8495510220527649,
      "learning_rate": 0.0002953826139749419,
      "loss": 4.1541,
      "step": 39850
    },
    {
      "epoch": 0.08304166666666667,
      "grad_norm": 0.7850422263145447,
      "learning_rate": 0.0002953801864219946,
      "loss": 3.9307,
      "step": 39860
    },
    {
      "epoch": 0.0830625,
      "grad_norm": 0.8123365640640259,
      "learning_rate": 0.0002953777582410624,
      "loss": 4.0357,
      "step": 39870
    },
    {
      "epoch": 0.08308333333333333,
      "grad_norm": 0.6958758234977722,
      "learning_rate": 0.0002953753294321558,
      "loss": 3.9602,
      "step": 39880
    },
    {
      "epoch": 0.08310416666666667,
      "grad_norm": 0.790923535823822,
      "learning_rate": 0.00029537289999528535,
      "loss": 4.0868,
      "step": 39890
    },
    {
      "epoch": 0.083125,
      "grad_norm": 0.6986278295516968,
      "learning_rate": 0.00029537046993046155,
      "loss": 3.9742,
      "step": 39900
    },
    {
      "epoch": 0.08314583333333334,
      "grad_norm": 0.7254986763000488,
      "learning_rate": 0.0002953680392376948,
      "loss": 3.9892,
      "step": 39910
    },
    {
      "epoch": 0.08316666666666667,
      "grad_norm": 0.7798058986663818,
      "learning_rate": 0.0002953656079169957,
      "loss": 3.8949,
      "step": 39920
    },
    {
      "epoch": 0.0831875,
      "grad_norm": 0.7755566239356995,
      "learning_rate": 0.00029536317596837473,
      "loss": 4.2092,
      "step": 39930
    },
    {
      "epoch": 0.08320833333333333,
      "grad_norm": 0.8778617978096008,
      "learning_rate": 0.0002953607433918423,
      "loss": 3.8185,
      "step": 39940
    },
    {
      "epoch": 0.08322916666666667,
      "grad_norm": 0.7662438750267029,
      "learning_rate": 0.0002953583101874091,
      "loss": 4.0375,
      "step": 39950
    },
    {
      "epoch": 0.08325,
      "grad_norm": 0.753700852394104,
      "learning_rate": 0.00029535587635508547,
      "loss": 4.0199,
      "step": 39960
    },
    {
      "epoch": 0.08327083333333334,
      "grad_norm": 0.7535341382026672,
      "learning_rate": 0.000295353441894882,
      "loss": 3.8479,
      "step": 39970
    },
    {
      "epoch": 0.08329166666666667,
      "grad_norm": 0.8183071613311768,
      "learning_rate": 0.0002953510068068092,
      "loss": 3.9107,
      "step": 39980
    },
    {
      "epoch": 0.0833125,
      "grad_norm": 0.9599559903144836,
      "learning_rate": 0.00029534857109087757,
      "loss": 4.0527,
      "step": 39990
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.7752543091773987,
      "learning_rate": 0.0002953461347470977,
      "loss": 3.8529,
      "step": 40000
    },
    {
      "epoch": 0.08333333333333333,
      "eval_loss": 4.3160858154296875,
      "eval_runtime": 9.7171,
      "eval_samples_per_second": 1.029,
      "eval_steps_per_second": 0.309,
      "step": 40000
    },
    {
      "epoch": 0.08335416666666666,
      "grad_norm": 0.8810330033302307,
      "learning_rate": 0.00029534369777547997,
      "loss": 3.9633,
      "step": 40010
    },
    {
      "epoch": 0.083375,
      "grad_norm": 0.7451746463775635,
      "learning_rate": 0.0002953412601760351,
      "loss": 3.9719,
      "step": 40020
    },
    {
      "epoch": 0.08339583333333334,
      "grad_norm": 0.6635525822639465,
      "learning_rate": 0.00029533882194877345,
      "loss": 3.9893,
      "step": 40030
    },
    {
      "epoch": 0.08341666666666667,
      "grad_norm": 0.7034791707992554,
      "learning_rate": 0.0002953363830937056,
      "loss": 4.1368,
      "step": 40040
    },
    {
      "epoch": 0.0834375,
      "grad_norm": 0.8015502095222473,
      "learning_rate": 0.00029533394361084213,
      "loss": 4.0442,
      "step": 40050
    },
    {
      "epoch": 0.08345833333333333,
      "grad_norm": 0.9256530404090881,
      "learning_rate": 0.00029533150350019355,
      "loss": 3.9799,
      "step": 40060
    },
    {
      "epoch": 0.08347916666666666,
      "grad_norm": 0.7481572031974792,
      "learning_rate": 0.00029532906276177044,
      "loss": 3.7837,
      "step": 40070
    },
    {
      "epoch": 0.0835,
      "grad_norm": 0.8887359499931335,
      "learning_rate": 0.00029532662139558326,
      "loss": 4.0775,
      "step": 40080
    },
    {
      "epoch": 0.08352083333333334,
      "grad_norm": 0.7956116199493408,
      "learning_rate": 0.0002953241794016426,
      "loss": 4.0568,
      "step": 40090
    },
    {
      "epoch": 0.08354166666666667,
      "grad_norm": 0.8131878972053528,
      "learning_rate": 0.000295321736779959,
      "loss": 4.1487,
      "step": 40100
    },
    {
      "epoch": 0.0835625,
      "grad_norm": 0.8691834211349487,
      "learning_rate": 0.0002953192935305431,
      "loss": 4.1206,
      "step": 40110
    },
    {
      "epoch": 0.08358333333333333,
      "grad_norm": 0.8800872564315796,
      "learning_rate": 0.0002953168496534053,
      "loss": 3.9826,
      "step": 40120
    },
    {
      "epoch": 0.08360416666666666,
      "grad_norm": 0.8334797620773315,
      "learning_rate": 0.0002953144051485562,
      "loss": 3.9316,
      "step": 40130
    },
    {
      "epoch": 0.083625,
      "grad_norm": 0.7883142232894897,
      "learning_rate": 0.00029531196001600645,
      "loss": 4.0256,
      "step": 40140
    },
    {
      "epoch": 0.08364583333333334,
      "grad_norm": 0.7695050239562988,
      "learning_rate": 0.0002953095142557665,
      "loss": 4.1047,
      "step": 40150
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 0.7532522678375244,
      "learning_rate": 0.000295307067867847,
      "loss": 3.9578,
      "step": 40160
    },
    {
      "epoch": 0.0836875,
      "grad_norm": 0.8554174900054932,
      "learning_rate": 0.0002953046208522585,
      "loss": 4.0071,
      "step": 40170
    },
    {
      "epoch": 0.08370833333333333,
      "grad_norm": 1.0648465156555176,
      "learning_rate": 0.00029530217320901153,
      "loss": 3.8847,
      "step": 40180
    },
    {
      "epoch": 0.08372916666666666,
      "grad_norm": 0.9709292054176331,
      "learning_rate": 0.0002952997249381167,
      "loss": 3.94,
      "step": 40190
    },
    {
      "epoch": 0.08375,
      "grad_norm": 0.8761364221572876,
      "learning_rate": 0.00029529727603958456,
      "loss": 4.0095,
      "step": 40200
    },
    {
      "epoch": 0.08377083333333334,
      "grad_norm": 0.9817759394645691,
      "learning_rate": 0.00029529482651342566,
      "loss": 4.0573,
      "step": 40210
    },
    {
      "epoch": 0.08379166666666667,
      "grad_norm": 0.7559182643890381,
      "learning_rate": 0.0002952923763596507,
      "loss": 4.0911,
      "step": 40220
    },
    {
      "epoch": 0.0838125,
      "grad_norm": 0.7756284475326538,
      "learning_rate": 0.0002952899255782702,
      "loss": 4.0082,
      "step": 40230
    },
    {
      "epoch": 0.08383333333333333,
      "grad_norm": 0.6966274380683899,
      "learning_rate": 0.00029528747416929463,
      "loss": 3.974,
      "step": 40240
    },
    {
      "epoch": 0.08385416666666666,
      "grad_norm": 0.7456491589546204,
      "learning_rate": 0.0002952850221327347,
      "loss": 3.9915,
      "step": 40250
    },
    {
      "epoch": 0.083875,
      "grad_norm": 0.791057288646698,
      "learning_rate": 0.00029528256946860103,
      "loss": 4.0014,
      "step": 40260
    },
    {
      "epoch": 0.08389583333333334,
      "grad_norm": 0.781719982624054,
      "learning_rate": 0.0002952801161769042,
      "loss": 3.9367,
      "step": 40270
    },
    {
      "epoch": 0.08391666666666667,
      "grad_norm": 0.7719324231147766,
      "learning_rate": 0.00029527766225765473,
      "loss": 3.8893,
      "step": 40280
    },
    {
      "epoch": 0.0839375,
      "grad_norm": 0.8983016014099121,
      "learning_rate": 0.0002952752077108632,
      "loss": 3.9955,
      "step": 40290
    },
    {
      "epoch": 0.08395833333333333,
      "grad_norm": 0.8440729975700378,
      "learning_rate": 0.00029527275253654037,
      "loss": 4.2824,
      "step": 40300
    },
    {
      "epoch": 0.08397916666666666,
      "grad_norm": 0.8424513936042786,
      "learning_rate": 0.0002952702967346967,
      "loss": 4.0175,
      "step": 40310
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.7515408992767334,
      "learning_rate": 0.0002952678403053429,
      "loss": 4.0967,
      "step": 40320
    },
    {
      "epoch": 0.08402083333333334,
      "grad_norm": 0.7701563239097595,
      "learning_rate": 0.0002952653832484895,
      "loss": 3.9375,
      "step": 40330
    },
    {
      "epoch": 0.08404166666666667,
      "grad_norm": 0.8456514477729797,
      "learning_rate": 0.0002952629255641471,
      "loss": 3.9784,
      "step": 40340
    },
    {
      "epoch": 0.0840625,
      "grad_norm": 0.793245792388916,
      "learning_rate": 0.0002952604672523264,
      "loss": 4.1198,
      "step": 40350
    },
    {
      "epoch": 0.08408333333333333,
      "grad_norm": 1.0205844640731812,
      "learning_rate": 0.000295258008313038,
      "loss": 4.1096,
      "step": 40360
    },
    {
      "epoch": 0.08410416666666666,
      "grad_norm": 0.8541035056114197,
      "learning_rate": 0.00029525554874629246,
      "loss": 4.0664,
      "step": 40370
    },
    {
      "epoch": 0.084125,
      "grad_norm": 0.8074439764022827,
      "learning_rate": 0.0002952530885521005,
      "loss": 4.182,
      "step": 40380
    },
    {
      "epoch": 0.08414583333333334,
      "grad_norm": 0.9555111527442932,
      "learning_rate": 0.00029525062773047263,
      "loss": 4.023,
      "step": 40390
    },
    {
      "epoch": 0.08416666666666667,
      "grad_norm": 0.8645537495613098,
      "learning_rate": 0.0002952481662814196,
      "loss": 3.9448,
      "step": 40400
    },
    {
      "epoch": 0.0841875,
      "grad_norm": 0.8022111654281616,
      "learning_rate": 0.00029524570420495197,
      "loss": 3.911,
      "step": 40410
    },
    {
      "epoch": 0.08420833333333333,
      "grad_norm": 0.7943487167358398,
      "learning_rate": 0.0002952432415010804,
      "loss": 3.9569,
      "step": 40420
    },
    {
      "epoch": 0.08422916666666666,
      "grad_norm": 0.8422197699546814,
      "learning_rate": 0.0002952407781698155,
      "loss": 4.0461,
      "step": 40430
    },
    {
      "epoch": 0.08425,
      "grad_norm": 0.8669431209564209,
      "learning_rate": 0.0002952383142111679,
      "loss": 3.9131,
      "step": 40440
    },
    {
      "epoch": 0.08427083333333334,
      "grad_norm": 0.8977519869804382,
      "learning_rate": 0.0002952358496251483,
      "loss": 4.0619,
      "step": 40450
    },
    {
      "epoch": 0.08429166666666667,
      "grad_norm": 0.8267379999160767,
      "learning_rate": 0.0002952333844117673,
      "loss": 3.9954,
      "step": 40460
    },
    {
      "epoch": 0.0843125,
      "grad_norm": 0.7932602167129517,
      "learning_rate": 0.0002952309185710356,
      "loss": 4.0215,
      "step": 40470
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 0.8399981260299683,
      "learning_rate": 0.00029522845210296376,
      "loss": 4.0082,
      "step": 40480
    },
    {
      "epoch": 0.08435416666666666,
      "grad_norm": 0.7943058609962463,
      "learning_rate": 0.00029522598500756253,
      "loss": 3.866,
      "step": 40490
    },
    {
      "epoch": 0.084375,
      "grad_norm": 0.9743422865867615,
      "learning_rate": 0.00029522351728484257,
      "loss": 3.8203,
      "step": 40500
    },
    {
      "epoch": 0.08439583333333334,
      "grad_norm": 0.8505024313926697,
      "learning_rate": 0.00029522104893481445,
      "loss": 3.9142,
      "step": 40510
    },
    {
      "epoch": 0.08441666666666667,
      "grad_norm": 0.9081649780273438,
      "learning_rate": 0.0002952185799574889,
      "loss": 3.9716,
      "step": 40520
    },
    {
      "epoch": 0.0844375,
      "grad_norm": 0.808097779750824,
      "learning_rate": 0.0002952161103528765,
      "loss": 3.8261,
      "step": 40530
    },
    {
      "epoch": 0.08445833333333333,
      "grad_norm": 0.6919296383857727,
      "learning_rate": 0.00029521364012098807,
      "loss": 3.9582,
      "step": 40540
    },
    {
      "epoch": 0.08447916666666666,
      "grad_norm": 0.8484278917312622,
      "learning_rate": 0.0002952111692618342,
      "loss": 4.0673,
      "step": 40550
    },
    {
      "epoch": 0.0845,
      "grad_norm": 0.8064979910850525,
      "learning_rate": 0.0002952086977754255,
      "loss": 3.9402,
      "step": 40560
    },
    {
      "epoch": 0.08452083333333334,
      "grad_norm": 1.082135796546936,
      "learning_rate": 0.00029520622566177275,
      "loss": 4.0787,
      "step": 40570
    },
    {
      "epoch": 0.08454166666666667,
      "grad_norm": 0.7906471490859985,
      "learning_rate": 0.0002952037529208865,
      "loss": 3.9984,
      "step": 40580
    },
    {
      "epoch": 0.0845625,
      "grad_norm": 0.7863172888755798,
      "learning_rate": 0.0002952012795527776,
      "loss": 3.9827,
      "step": 40590
    },
    {
      "epoch": 0.08458333333333333,
      "grad_norm": 0.7485764026641846,
      "learning_rate": 0.0002951988055574566,
      "loss": 3.9518,
      "step": 40600
    },
    {
      "epoch": 0.08460416666666666,
      "grad_norm": 0.8609005212783813,
      "learning_rate": 0.00029519633093493425,
      "loss": 3.9788,
      "step": 40610
    },
    {
      "epoch": 0.084625,
      "grad_norm": 0.9358100295066833,
      "learning_rate": 0.00029519385568522126,
      "loss": 3.9793,
      "step": 40620
    },
    {
      "epoch": 0.08464583333333334,
      "grad_norm": 0.7219364047050476,
      "learning_rate": 0.0002951913798083282,
      "loss": 3.9604,
      "step": 40630
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 0.8729304075241089,
      "learning_rate": 0.00029518890330426596,
      "loss": 3.9641,
      "step": 40640
    },
    {
      "epoch": 0.0846875,
      "grad_norm": 0.7921643853187561,
      "learning_rate": 0.00029518642617304506,
      "loss": 3.9851,
      "step": 40650
    },
    {
      "epoch": 0.08470833333333333,
      "grad_norm": 0.7497682571411133,
      "learning_rate": 0.00029518394841467624,
      "loss": 3.9941,
      "step": 40660
    },
    {
      "epoch": 0.08472916666666666,
      "grad_norm": 0.7908227443695068,
      "learning_rate": 0.0002951814700291703,
      "loss": 4.023,
      "step": 40670
    },
    {
      "epoch": 0.08475,
      "grad_norm": 1.077592372894287,
      "learning_rate": 0.0002951789910165378,
      "loss": 4.0483,
      "step": 40680
    },
    {
      "epoch": 0.08477083333333334,
      "grad_norm": 0.774064838886261,
      "learning_rate": 0.00029517651137678957,
      "loss": 4.1095,
      "step": 40690
    },
    {
      "epoch": 0.08479166666666667,
      "grad_norm": 0.748116135597229,
      "learning_rate": 0.0002951740311099363,
      "loss": 4.0148,
      "step": 40700
    },
    {
      "epoch": 0.0848125,
      "grad_norm": 0.8239189982414246,
      "learning_rate": 0.00029517155021598865,
      "loss": 3.9531,
      "step": 40710
    },
    {
      "epoch": 0.08483333333333333,
      "grad_norm": 0.8814311623573303,
      "learning_rate": 0.00029516906869495735,
      "loss": 3.8923,
      "step": 40720
    },
    {
      "epoch": 0.08485416666666666,
      "grad_norm": 0.809891402721405,
      "learning_rate": 0.00029516658654685316,
      "loss": 3.9542,
      "step": 40730
    },
    {
      "epoch": 0.084875,
      "grad_norm": 0.7630031108856201,
      "learning_rate": 0.00029516410377168677,
      "loss": 4.0421,
      "step": 40740
    },
    {
      "epoch": 0.08489583333333334,
      "grad_norm": 0.7674872279167175,
      "learning_rate": 0.0002951616203694689,
      "loss": 4.186,
      "step": 40750
    },
    {
      "epoch": 0.08491666666666667,
      "grad_norm": 0.7502391934394836,
      "learning_rate": 0.0002951591363402103,
      "loss": 3.8337,
      "step": 40760
    },
    {
      "epoch": 0.0849375,
      "grad_norm": 0.8281055092811584,
      "learning_rate": 0.0002951566516839217,
      "loss": 4.0981,
      "step": 40770
    },
    {
      "epoch": 0.08495833333333333,
      "grad_norm": 0.855686604976654,
      "learning_rate": 0.00029515416640061383,
      "loss": 4.0845,
      "step": 40780
    },
    {
      "epoch": 0.08497916666666666,
      "grad_norm": 0.7378755807876587,
      "learning_rate": 0.00029515168049029736,
      "loss": 4.0948,
      "step": 40790
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.8163841366767883,
      "learning_rate": 0.00029514919395298315,
      "loss": 3.9258,
      "step": 40800
    },
    {
      "epoch": 0.08502083333333334,
      "grad_norm": 0.8995517492294312,
      "learning_rate": 0.00029514670678868187,
      "loss": 4.0832,
      "step": 40810
    },
    {
      "epoch": 0.08504166666666667,
      "grad_norm": 0.878119170665741,
      "learning_rate": 0.0002951442189974042,
      "loss": 3.8408,
      "step": 40820
    },
    {
      "epoch": 0.0850625,
      "grad_norm": 1.2731839418411255,
      "learning_rate": 0.00029514173057916104,
      "loss": 3.903,
      "step": 40830
    },
    {
      "epoch": 0.08508333333333333,
      "grad_norm": 1.034277319908142,
      "learning_rate": 0.000295139241533963,
      "loss": 3.9679,
      "step": 40840
    },
    {
      "epoch": 0.08510416666666666,
      "grad_norm": 0.830437421798706,
      "learning_rate": 0.00029513675186182095,
      "loss": 4.0398,
      "step": 40850
    },
    {
      "epoch": 0.085125,
      "grad_norm": 0.6920918822288513,
      "learning_rate": 0.0002951342615627455,
      "loss": 3.9986,
      "step": 40860
    },
    {
      "epoch": 0.08514583333333334,
      "grad_norm": 0.7269055247306824,
      "learning_rate": 0.0002951317706367475,
      "loss": 3.7516,
      "step": 40870
    },
    {
      "epoch": 0.08516666666666667,
      "grad_norm": 1.0029613971710205,
      "learning_rate": 0.00029512927908383773,
      "loss": 4.0711,
      "step": 40880
    },
    {
      "epoch": 0.0851875,
      "grad_norm": 0.9874579906463623,
      "learning_rate": 0.00029512678690402696,
      "loss": 4.0736,
      "step": 40890
    },
    {
      "epoch": 0.08520833333333333,
      "grad_norm": 0.935871422290802,
      "learning_rate": 0.0002951242940973258,
      "loss": 4.0241,
      "step": 40900
    },
    {
      "epoch": 0.08522916666666666,
      "grad_norm": 0.8807684183120728,
      "learning_rate": 0.00029512180066374523,
      "loss": 4.0884,
      "step": 40910
    },
    {
      "epoch": 0.08525,
      "grad_norm": 0.8946520686149597,
      "learning_rate": 0.0002951193066032959,
      "loss": 4.0403,
      "step": 40920
    },
    {
      "epoch": 0.08527083333333334,
      "grad_norm": 0.8201988935470581,
      "learning_rate": 0.00029511681191598865,
      "loss": 3.8645,
      "step": 40930
    },
    {
      "epoch": 0.08529166666666667,
      "grad_norm": 0.8593981862068176,
      "learning_rate": 0.0002951143166018342,
      "loss": 3.9542,
      "step": 40940
    },
    {
      "epoch": 0.0853125,
      "grad_norm": 0.8323739171028137,
      "learning_rate": 0.0002951118206608433,
      "loss": 4.1311,
      "step": 40950
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 1.0657445192337036,
      "learning_rate": 0.00029510932409302677,
      "loss": 3.9995,
      "step": 40960
    },
    {
      "epoch": 0.08535416666666666,
      "grad_norm": 0.8317513465881348,
      "learning_rate": 0.00029510682689839535,
      "loss": 4.0846,
      "step": 40970
    },
    {
      "epoch": 0.085375,
      "grad_norm": 0.7623651623725891,
      "learning_rate": 0.00029510432907696,
      "loss": 4.026,
      "step": 40980
    },
    {
      "epoch": 0.08539583333333334,
      "grad_norm": 0.8314976692199707,
      "learning_rate": 0.0002951018306287313,
      "loss": 4.0619,
      "step": 40990
    },
    {
      "epoch": 0.08541666666666667,
      "grad_norm": 0.7977052927017212,
      "learning_rate": 0.00029509933155372014,
      "loss": 3.8106,
      "step": 41000
    },
    {
      "epoch": 0.08541666666666667,
      "eval_loss": 4.3104071617126465,
      "eval_runtime": 9.1906,
      "eval_samples_per_second": 1.088,
      "eval_steps_per_second": 0.326,
      "step": 41000
    },
    {
      "epoch": 0.0854375,
      "grad_norm": 1.0024137496948242,
      "learning_rate": 0.00029509683185193733,
      "loss": 4.1206,
      "step": 41010
    },
    {
      "epoch": 0.08545833333333333,
      "grad_norm": 0.804386556148529,
      "learning_rate": 0.0002950943315233936,
      "loss": 3.9907,
      "step": 41020
    },
    {
      "epoch": 0.08547916666666666,
      "grad_norm": 0.87026447057724,
      "learning_rate": 0.0002950918305680998,
      "loss": 4.0517,
      "step": 41030
    },
    {
      "epoch": 0.0855,
      "grad_norm": 0.8320297598838806,
      "learning_rate": 0.00029508932898606675,
      "loss": 4.0589,
      "step": 41040
    },
    {
      "epoch": 0.08552083333333334,
      "grad_norm": 0.77891606092453,
      "learning_rate": 0.0002950868267773052,
      "loss": 4.1862,
      "step": 41050
    },
    {
      "epoch": 0.08554166666666667,
      "grad_norm": 0.7073086500167847,
      "learning_rate": 0.00029508432394182604,
      "loss": 4.2102,
      "step": 41060
    },
    {
      "epoch": 0.0855625,
      "grad_norm": 0.7883306741714478,
      "learning_rate": 0.00029508182047964,
      "loss": 4.0454,
      "step": 41070
    },
    {
      "epoch": 0.08558333333333333,
      "grad_norm": 0.7921274304389954,
      "learning_rate": 0.0002950793163907579,
      "loss": 3.9783,
      "step": 41080
    },
    {
      "epoch": 0.08560416666666666,
      "grad_norm": 0.7707151174545288,
      "learning_rate": 0.0002950768116751906,
      "loss": 3.9141,
      "step": 41090
    },
    {
      "epoch": 0.085625,
      "grad_norm": 0.7047751545906067,
      "learning_rate": 0.0002950743063329489,
      "loss": 4.0247,
      "step": 41100
    },
    {
      "epoch": 0.08564583333333334,
      "grad_norm": 0.8615541458129883,
      "learning_rate": 0.00029507180036404364,
      "loss": 3.9876,
      "step": 41110
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 0.799470067024231,
      "learning_rate": 0.0002950692937684856,
      "loss": 4.0256,
      "step": 41120
    },
    {
      "epoch": 0.0856875,
      "grad_norm": 0.8191009759902954,
      "learning_rate": 0.0002950667865462856,
      "loss": 3.9168,
      "step": 41130
    },
    {
      "epoch": 0.08570833333333333,
      "grad_norm": 0.7492142915725708,
      "learning_rate": 0.00029506427869745454,
      "loss": 4.0545,
      "step": 41140
    },
    {
      "epoch": 0.08572916666666666,
      "grad_norm": 0.8375064134597778,
      "learning_rate": 0.00029506177022200326,
      "loss": 3.8802,
      "step": 41150
    },
    {
      "epoch": 0.08575,
      "grad_norm": 0.8648855090141296,
      "learning_rate": 0.0002950592611199424,
      "loss": 4.0726,
      "step": 41160
    },
    {
      "epoch": 0.08577083333333334,
      "grad_norm": 0.7259910106658936,
      "learning_rate": 0.0002950567513912831,
      "loss": 4.066,
      "step": 41170
    },
    {
      "epoch": 0.08579166666666667,
      "grad_norm": 0.8060943484306335,
      "learning_rate": 0.000295054241036036,
      "loss": 4.0666,
      "step": 41180
    },
    {
      "epoch": 0.0858125,
      "grad_norm": 0.7671103477478027,
      "learning_rate": 0.000295051730054212,
      "loss": 3.9625,
      "step": 41190
    },
    {
      "epoch": 0.08583333333333333,
      "grad_norm": 0.841223955154419,
      "learning_rate": 0.00029504921844582195,
      "loss": 4.0131,
      "step": 41200
    },
    {
      "epoch": 0.08585416666666666,
      "grad_norm": 0.7629988789558411,
      "learning_rate": 0.0002950467062108767,
      "loss": 4.0356,
      "step": 41210
    },
    {
      "epoch": 0.085875,
      "grad_norm": 0.7619121074676514,
      "learning_rate": 0.0002950441933493871,
      "loss": 3.8937,
      "step": 41220
    },
    {
      "epoch": 0.08589583333333334,
      "grad_norm": 0.8851059079170227,
      "learning_rate": 0.000295041679861364,
      "loss": 3.804,
      "step": 41230
    },
    {
      "epoch": 0.08591666666666667,
      "grad_norm": 0.7782284617424011,
      "learning_rate": 0.00029503916574681816,
      "loss": 3.9107,
      "step": 41240
    },
    {
      "epoch": 0.0859375,
      "grad_norm": 0.8175980448722839,
      "learning_rate": 0.0002950366510057607,
      "loss": 4.1916,
      "step": 41250
    },
    {
      "epoch": 0.08595833333333333,
      "grad_norm": 0.7695065140724182,
      "learning_rate": 0.0002950341356382022,
      "loss": 4.1557,
      "step": 41260
    },
    {
      "epoch": 0.08597916666666666,
      "grad_norm": 0.7636656165122986,
      "learning_rate": 0.00029503161964415366,
      "loss": 3.7724,
      "step": 41270
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.7548907995223999,
      "learning_rate": 0.00029502910302362586,
      "loss": 4.2182,
      "step": 41280
    },
    {
      "epoch": 0.08602083333333334,
      "grad_norm": 1.0109362602233887,
      "learning_rate": 0.0002950265857766299,
      "loss": 3.9992,
      "step": 41290
    },
    {
      "epoch": 0.08604166666666667,
      "grad_norm": 0.8251057863235474,
      "learning_rate": 0.00029502406790317637,
      "loss": 3.8969,
      "step": 41300
    },
    {
      "epoch": 0.0860625,
      "grad_norm": 0.8136770129203796,
      "learning_rate": 0.0002950215494032763,
      "loss": 3.885,
      "step": 41310
    },
    {
      "epoch": 0.08608333333333333,
      "grad_norm": 0.7827541828155518,
      "learning_rate": 0.00029501903027694056,
      "loss": 4.1324,
      "step": 41320
    },
    {
      "epoch": 0.08610416666666666,
      "grad_norm": 0.9810552597045898,
      "learning_rate": 0.00029501651052418,
      "loss": 4.1593,
      "step": 41330
    },
    {
      "epoch": 0.086125,
      "grad_norm": 0.7190760970115662,
      "learning_rate": 0.00029501399014500554,
      "loss": 4.0375,
      "step": 41340
    },
    {
      "epoch": 0.08614583333333334,
      "grad_norm": 0.8209031820297241,
      "learning_rate": 0.000295011469139428,
      "loss": 4.1421,
      "step": 41350
    },
    {
      "epoch": 0.08616666666666667,
      "grad_norm": 0.7525475025177002,
      "learning_rate": 0.0002950089475074583,
      "loss": 3.9547,
      "step": 41360
    },
    {
      "epoch": 0.0861875,
      "grad_norm": 0.7952344417572021,
      "learning_rate": 0.0002950064252491074,
      "loss": 3.9079,
      "step": 41370
    },
    {
      "epoch": 0.08620833333333333,
      "grad_norm": 0.9942291378974915,
      "learning_rate": 0.0002950039023643862,
      "loss": 3.957,
      "step": 41380
    },
    {
      "epoch": 0.08622916666666666,
      "grad_norm": 0.7972968220710754,
      "learning_rate": 0.00029500137885330537,
      "loss": 3.9557,
      "step": 41390
    },
    {
      "epoch": 0.08625,
      "grad_norm": 0.9264628887176514,
      "learning_rate": 0.00029499885471587613,
      "loss": 3.8431,
      "step": 41400
    },
    {
      "epoch": 0.08627083333333334,
      "grad_norm": 0.8071819543838501,
      "learning_rate": 0.00029499632995210915,
      "loss": 3.9863,
      "step": 41410
    },
    {
      "epoch": 0.08629166666666667,
      "grad_norm": 0.7748240828514099,
      "learning_rate": 0.00029499380456201544,
      "loss": 4.0571,
      "step": 41420
    },
    {
      "epoch": 0.0863125,
      "grad_norm": 0.9464485049247742,
      "learning_rate": 0.0002949912785456059,
      "loss": 4.0748,
      "step": 41430
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 0.8939986228942871,
      "learning_rate": 0.0002949887519028914,
      "loss": 4.0442,
      "step": 41440
    },
    {
      "epoch": 0.08635416666666666,
      "grad_norm": 0.8501853346824646,
      "learning_rate": 0.0002949862246338829,
      "loss": 4.1724,
      "step": 41450
    },
    {
      "epoch": 0.086375,
      "grad_norm": 0.8819860219955444,
      "learning_rate": 0.0002949836967385913,
      "loss": 3.9074,
      "step": 41460
    },
    {
      "epoch": 0.08639583333333334,
      "grad_norm": 0.8306633830070496,
      "learning_rate": 0.00029498116821702753,
      "loss": 4.1966,
      "step": 41470
    },
    {
      "epoch": 0.08641666666666667,
      "grad_norm": 0.83210289478302,
      "learning_rate": 0.00029497863906920244,
      "loss": 3.9871,
      "step": 41480
    },
    {
      "epoch": 0.0864375,
      "grad_norm": 0.7752358913421631,
      "learning_rate": 0.0002949761092951271,
      "loss": 3.937,
      "step": 41490
    },
    {
      "epoch": 0.08645833333333333,
      "grad_norm": 0.7553769946098328,
      "learning_rate": 0.0002949735788948123,
      "loss": 4.0719,
      "step": 41500
    },
    {
      "epoch": 0.08647916666666666,
      "grad_norm": 0.9787576794624329,
      "learning_rate": 0.000294971047868269,
      "loss": 3.9406,
      "step": 41510
    },
    {
      "epoch": 0.0865,
      "grad_norm": 0.8051668405532837,
      "learning_rate": 0.0002949685162155082,
      "loss": 3.9068,
      "step": 41520
    },
    {
      "epoch": 0.08652083333333334,
      "grad_norm": 0.8855612277984619,
      "learning_rate": 0.0002949659839365408,
      "loss": 4.0666,
      "step": 41530
    },
    {
      "epoch": 0.08654166666666667,
      "grad_norm": 0.7393046617507935,
      "learning_rate": 0.00029496345103137775,
      "loss": 3.8983,
      "step": 41540
    },
    {
      "epoch": 0.0865625,
      "grad_norm": 0.7981412410736084,
      "learning_rate": 0.0002949609175000299,
      "loss": 3.951,
      "step": 41550
    },
    {
      "epoch": 0.08658333333333333,
      "grad_norm": 0.8218230605125427,
      "learning_rate": 0.0002949583833425083,
      "loss": 4.0063,
      "step": 41560
    },
    {
      "epoch": 0.08660416666666666,
      "grad_norm": 0.9690958857536316,
      "learning_rate": 0.0002949558485588239,
      "loss": 4.0212,
      "step": 41570
    },
    {
      "epoch": 0.086625,
      "grad_norm": 0.7868458032608032,
      "learning_rate": 0.00029495331314898757,
      "loss": 4.0097,
      "step": 41580
    },
    {
      "epoch": 0.08664583333333334,
      "grad_norm": 0.7454489469528198,
      "learning_rate": 0.0002949507771130103,
      "loss": 4.1879,
      "step": 41590
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 0.744897186756134,
      "learning_rate": 0.00029494824045090307,
      "loss": 4.0635,
      "step": 41600
    },
    {
      "epoch": 0.0866875,
      "grad_norm": 0.91488116979599,
      "learning_rate": 0.0002949457031626768,
      "loss": 3.9935,
      "step": 41610
    },
    {
      "epoch": 0.08670833333333333,
      "grad_norm": 0.7015627026557922,
      "learning_rate": 0.0002949431652483425,
      "loss": 4.1563,
      "step": 41620
    },
    {
      "epoch": 0.08672916666666666,
      "grad_norm": 0.8471096754074097,
      "learning_rate": 0.0002949406267079111,
      "loss": 3.9515,
      "step": 41630
    },
    {
      "epoch": 0.08675,
      "grad_norm": 0.9333097338676453,
      "learning_rate": 0.00029493808754139353,
      "loss": 3.961,
      "step": 41640
    },
    {
      "epoch": 0.08677083333333334,
      "grad_norm": 0.6925346255302429,
      "learning_rate": 0.00029493554774880077,
      "loss": 4.0183,
      "step": 41650
    },
    {
      "epoch": 0.08679166666666667,
      "grad_norm": 0.8468007445335388,
      "learning_rate": 0.00029493300733014386,
      "loss": 3.9,
      "step": 41660
    },
    {
      "epoch": 0.0868125,
      "grad_norm": 0.6942992210388184,
      "learning_rate": 0.00029493046628543366,
      "loss": 3.9264,
      "step": 41670
    },
    {
      "epoch": 0.08683333333333333,
      "grad_norm": 0.8026946187019348,
      "learning_rate": 0.00029492792461468126,
      "loss": 4.0087,
      "step": 41680
    },
    {
      "epoch": 0.08685416666666666,
      "grad_norm": 0.7880997061729431,
      "learning_rate": 0.00029492538231789764,
      "loss": 4.0191,
      "step": 41690
    },
    {
      "epoch": 0.086875,
      "grad_norm": 0.667799711227417,
      "learning_rate": 0.00029492283939509367,
      "loss": 3.8421,
      "step": 41700
    },
    {
      "epoch": 0.08689583333333334,
      "grad_norm": 0.7299315333366394,
      "learning_rate": 0.0002949202958462804,
      "loss": 3.9682,
      "step": 41710
    },
    {
      "epoch": 0.08691666666666667,
      "grad_norm": 0.7824422717094421,
      "learning_rate": 0.00029491775167146884,
      "loss": 4.2277,
      "step": 41720
    },
    {
      "epoch": 0.0869375,
      "grad_norm": 0.8981888890266418,
      "learning_rate": 0.00029491520687067,
      "loss": 3.9808,
      "step": 41730
    },
    {
      "epoch": 0.08695833333333333,
      "grad_norm": 0.9400178790092468,
      "learning_rate": 0.00029491266144389476,
      "loss": 4.1659,
      "step": 41740
    },
    {
      "epoch": 0.08697916666666666,
      "grad_norm": 0.7555736899375916,
      "learning_rate": 0.00029491011539115416,
      "loss": 3.9537,
      "step": 41750
    },
    {
      "epoch": 0.087,
      "grad_norm": 1.0127240419387817,
      "learning_rate": 0.00029490756871245925,
      "loss": 4.1171,
      "step": 41760
    },
    {
      "epoch": 0.08702083333333334,
      "grad_norm": 0.8870262503623962,
      "learning_rate": 0.00029490502140782103,
      "loss": 3.8499,
      "step": 41770
    },
    {
      "epoch": 0.08704166666666667,
      "grad_norm": 0.8875594139099121,
      "learning_rate": 0.00029490247347725045,
      "loss": 4.0795,
      "step": 41780
    },
    {
      "epoch": 0.0870625,
      "grad_norm": 0.8134050965309143,
      "learning_rate": 0.0002948999249207585,
      "loss": 3.8866,
      "step": 41790
    },
    {
      "epoch": 0.08708333333333333,
      "grad_norm": 0.7487722635269165,
      "learning_rate": 0.00029489737573835636,
      "loss": 4.0487,
      "step": 41800
    },
    {
      "epoch": 0.08710416666666666,
      "grad_norm": 0.8432722687721252,
      "learning_rate": 0.0002948948259300548,
      "loss": 3.8691,
      "step": 41810
    },
    {
      "epoch": 0.087125,
      "grad_norm": 0.7739296555519104,
      "learning_rate": 0.00029489227549586494,
      "loss": 4.0131,
      "step": 41820
    },
    {
      "epoch": 0.08714583333333334,
      "grad_norm": 0.7204379439353943,
      "learning_rate": 0.00029488972443579786,
      "loss": 4.0794,
      "step": 41830
    },
    {
      "epoch": 0.08716666666666667,
      "grad_norm": 1.6656044721603394,
      "learning_rate": 0.0002948871727498645,
      "loss": 3.9797,
      "step": 41840
    },
    {
      "epoch": 0.0871875,
      "grad_norm": 0.8357318639755249,
      "learning_rate": 0.0002948846204380759,
      "loss": 3.867,
      "step": 41850
    },
    {
      "epoch": 0.08720833333333333,
      "grad_norm": 0.7823435664176941,
      "learning_rate": 0.00029488206750044306,
      "loss": 4.1889,
      "step": 41860
    },
    {
      "epoch": 0.08722916666666666,
      "grad_norm": 1.0176388025283813,
      "learning_rate": 0.00029487951393697713,
      "loss": 4.0583,
      "step": 41870
    },
    {
      "epoch": 0.08725,
      "grad_norm": 0.833292543888092,
      "learning_rate": 0.00029487695974768894,
      "loss": 4.1123,
      "step": 41880
    },
    {
      "epoch": 0.08727083333333334,
      "grad_norm": 0.8002665042877197,
      "learning_rate": 0.00029487440493258967,
      "loss": 4.0134,
      "step": 41890
    },
    {
      "epoch": 0.08729166666666667,
      "grad_norm": 0.8142883777618408,
      "learning_rate": 0.00029487184949169036,
      "loss": 3.9468,
      "step": 41900
    },
    {
      "epoch": 0.0873125,
      "grad_norm": 0.6887205243110657,
      "learning_rate": 0.0002948692934250019,
      "loss": 3.9504,
      "step": 41910
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 0.79004967212677,
      "learning_rate": 0.0002948667367325355,
      "loss": 3.9669,
      "step": 41920
    },
    {
      "epoch": 0.08735416666666666,
      "grad_norm": 0.8711952567100525,
      "learning_rate": 0.0002948641794143022,
      "loss": 4.0087,
      "step": 41930
    },
    {
      "epoch": 0.087375,
      "grad_norm": 0.9570350050926208,
      "learning_rate": 0.00029486162147031287,
      "loss": 4.1573,
      "step": 41940
    },
    {
      "epoch": 0.08739583333333334,
      "grad_norm": 0.7846853137016296,
      "learning_rate": 0.00029485906290057875,
      "loss": 3.9937,
      "step": 41950
    },
    {
      "epoch": 0.08741666666666667,
      "grad_norm": 0.8267229199409485,
      "learning_rate": 0.0002948565037051108,
      "loss": 3.9589,
      "step": 41960
    },
    {
      "epoch": 0.0874375,
      "grad_norm": 0.8485077023506165,
      "learning_rate": 0.0002948539438839201,
      "loss": 3.9785,
      "step": 41970
    },
    {
      "epoch": 0.08745833333333333,
      "grad_norm": 0.8363606333732605,
      "learning_rate": 0.0002948513834370177,
      "loss": 4.0692,
      "step": 41980
    },
    {
      "epoch": 0.08747916666666666,
      "grad_norm": 0.8509315848350525,
      "learning_rate": 0.00029484882236441464,
      "loss": 4.0852,
      "step": 41990
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.8326745629310608,
      "learning_rate": 0.000294846260666122,
      "loss": 3.969,
      "step": 42000
    },
    {
      "epoch": 0.0875,
      "eval_loss": 4.3201904296875,
      "eval_runtime": 11.1793,
      "eval_samples_per_second": 0.895,
      "eval_steps_per_second": 0.268,
      "step": 42000
    },
    {
      "epoch": 0.08752083333333334,
      "grad_norm": 0.8001047968864441,
      "learning_rate": 0.00029484369834215085,
      "loss": 4.0541,
      "step": 42010
    },
    {
      "epoch": 0.08754166666666667,
      "grad_norm": 0.7435680627822876,
      "learning_rate": 0.0002948411353925123,
      "loss": 4.0293,
      "step": 42020
    },
    {
      "epoch": 0.0875625,
      "grad_norm": 1.0736318826675415,
      "learning_rate": 0.0002948385718172173,
      "loss": 4.1049,
      "step": 42030
    },
    {
      "epoch": 0.08758333333333333,
      "grad_norm": 0.8425572514533997,
      "learning_rate": 0.00029483600761627706,
      "loss": 4.2352,
      "step": 42040
    },
    {
      "epoch": 0.08760416666666666,
      "grad_norm": 0.8880539536476135,
      "learning_rate": 0.0002948334427897026,
      "loss": 3.9055,
      "step": 42050
    },
    {
      "epoch": 0.087625,
      "grad_norm": 0.9886736869812012,
      "learning_rate": 0.00029483087733750494,
      "loss": 3.8333,
      "step": 42060
    },
    {
      "epoch": 0.08764583333333334,
      "grad_norm": 0.7548125982284546,
      "learning_rate": 0.0002948283112596953,
      "loss": 4.0807,
      "step": 42070
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 0.8209026455879211,
      "learning_rate": 0.0002948257445562846,
      "loss": 3.8522,
      "step": 42080
    },
    {
      "epoch": 0.0876875,
      "grad_norm": 0.8678532838821411,
      "learning_rate": 0.00029482317722728406,
      "loss": 3.8797,
      "step": 42090
    },
    {
      "epoch": 0.08770833333333333,
      "grad_norm": 0.825298547744751,
      "learning_rate": 0.0002948206092727047,
      "loss": 3.9976,
      "step": 42100
    },
    {
      "epoch": 0.08772916666666666,
      "grad_norm": 0.7295336723327637,
      "learning_rate": 0.00029481804069255764,
      "loss": 4.1985,
      "step": 42110
    },
    {
      "epoch": 0.08775,
      "grad_norm": 0.8599714040756226,
      "learning_rate": 0.000294815471486854,
      "loss": 4.2141,
      "step": 42120
    },
    {
      "epoch": 0.08777083333333334,
      "grad_norm": 0.7893913984298706,
      "learning_rate": 0.00029481290165560476,
      "loss": 4.1094,
      "step": 42130
    },
    {
      "epoch": 0.08779166666666667,
      "grad_norm": 0.8628185391426086,
      "learning_rate": 0.0002948103311988212,
      "loss": 4.068,
      "step": 42140
    },
    {
      "epoch": 0.0878125,
      "grad_norm": 0.8842236399650574,
      "learning_rate": 0.00029480776011651423,
      "loss": 4.0787,
      "step": 42150
    },
    {
      "epoch": 0.08783333333333333,
      "grad_norm": 0.9375674724578857,
      "learning_rate": 0.00029480518840869515,
      "loss": 4.1803,
      "step": 42160
    },
    {
      "epoch": 0.08785416666666666,
      "grad_norm": 0.8143283724784851,
      "learning_rate": 0.00029480261607537495,
      "loss": 4.0892,
      "step": 42170
    },
    {
      "epoch": 0.087875,
      "grad_norm": 0.7836846113204956,
      "learning_rate": 0.00029480004311656474,
      "loss": 4.1025,
      "step": 42180
    },
    {
      "epoch": 0.08789583333333334,
      "grad_norm": 0.7979072332382202,
      "learning_rate": 0.00029479746953227565,
      "loss": 4.0188,
      "step": 42190
    },
    {
      "epoch": 0.08791666666666667,
      "grad_norm": 0.6883796453475952,
      "learning_rate": 0.00029479489532251884,
      "loss": 4.0588,
      "step": 42200
    },
    {
      "epoch": 0.0879375,
      "grad_norm": 0.8415140509605408,
      "learning_rate": 0.0002947923204873054,
      "loss": 3.9833,
      "step": 42210
    },
    {
      "epoch": 0.08795833333333333,
      "grad_norm": 0.8844811916351318,
      "learning_rate": 0.0002947897450266464,
      "loss": 4.0496,
      "step": 42220
    },
    {
      "epoch": 0.08797916666666666,
      "grad_norm": 0.7492492198944092,
      "learning_rate": 0.00029478716894055303,
      "loss": 3.9183,
      "step": 42230
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.7968578934669495,
      "learning_rate": 0.00029478459222903646,
      "loss": 3.9996,
      "step": 42240
    },
    {
      "epoch": 0.08802083333333334,
      "grad_norm": 0.7849067449569702,
      "learning_rate": 0.0002947820148921077,
      "loss": 4.0639,
      "step": 42250
    },
    {
      "epoch": 0.08804166666666667,
      "grad_norm": 0.7851508855819702,
      "learning_rate": 0.00029477943692977795,
      "loss": 4.1146,
      "step": 42260
    },
    {
      "epoch": 0.0880625,
      "grad_norm": 0.6927087903022766,
      "learning_rate": 0.00029477685834205836,
      "loss": 4.0646,
      "step": 42270
    },
    {
      "epoch": 0.08808333333333333,
      "grad_norm": 0.7478302717208862,
      "learning_rate": 0.00029477427912896,
      "loss": 3.7984,
      "step": 42280
    },
    {
      "epoch": 0.08810416666666666,
      "grad_norm": 0.841584324836731,
      "learning_rate": 0.00029477169929049415,
      "loss": 4.0292,
      "step": 42290
    },
    {
      "epoch": 0.088125,
      "grad_norm": 0.9672145843505859,
      "learning_rate": 0.00029476911882667177,
      "loss": 3.9544,
      "step": 42300
    },
    {
      "epoch": 0.08814583333333334,
      "grad_norm": 0.8598831295967102,
      "learning_rate": 0.00029476653773750417,
      "loss": 4.062,
      "step": 42310
    },
    {
      "epoch": 0.08816666666666667,
      "grad_norm": 0.7894582748413086,
      "learning_rate": 0.0002947639560230024,
      "loss": 4.2106,
      "step": 42320
    },
    {
      "epoch": 0.0881875,
      "grad_norm": 0.8132268190383911,
      "learning_rate": 0.0002947613736831776,
      "loss": 4.1068,
      "step": 42330
    },
    {
      "epoch": 0.08820833333333333,
      "grad_norm": 0.8068294525146484,
      "learning_rate": 0.00029475879071804106,
      "loss": 4.0633,
      "step": 42340
    },
    {
      "epoch": 0.08822916666666666,
      "grad_norm": 0.890400767326355,
      "learning_rate": 0.0002947562071276038,
      "loss": 4.1362,
      "step": 42350
    },
    {
      "epoch": 0.08825,
      "grad_norm": 0.9333928823471069,
      "learning_rate": 0.000294753622911877,
      "loss": 3.8704,
      "step": 42360
    },
    {
      "epoch": 0.08827083333333334,
      "grad_norm": 0.9823259115219116,
      "learning_rate": 0.00029475103807087186,
      "loss": 4.1766,
      "step": 42370
    },
    {
      "epoch": 0.08829166666666667,
      "grad_norm": 0.7210860848426819,
      "learning_rate": 0.00029474845260459953,
      "loss": 4.057,
      "step": 42380
    },
    {
      "epoch": 0.0883125,
      "grad_norm": 0.9392378330230713,
      "learning_rate": 0.0002947458665130712,
      "loss": 4.0108,
      "step": 42390
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 0.7329999804496765,
      "learning_rate": 0.000294743279796298,
      "loss": 3.9424,
      "step": 42400
    },
    {
      "epoch": 0.08835416666666666,
      "grad_norm": 0.7590989470481873,
      "learning_rate": 0.0002947406924542911,
      "loss": 4.0665,
      "step": 42410
    },
    {
      "epoch": 0.088375,
      "grad_norm": 0.7778558731079102,
      "learning_rate": 0.00029473810448706175,
      "loss": 4.0113,
      "step": 42420
    },
    {
      "epoch": 0.08839583333333334,
      "grad_norm": 0.7191833257675171,
      "learning_rate": 0.0002947355158946211,
      "loss": 3.9296,
      "step": 42430
    },
    {
      "epoch": 0.08841666666666667,
      "grad_norm": 0.8321976661682129,
      "learning_rate": 0.00029473292667698024,
      "loss": 3.8711,
      "step": 42440
    },
    {
      "epoch": 0.0884375,
      "grad_norm": 0.8250235319137573,
      "learning_rate": 0.00029473033683415046,
      "loss": 4.0509,
      "step": 42450
    },
    {
      "epoch": 0.08845833333333333,
      "grad_norm": 0.731683611869812,
      "learning_rate": 0.00029472774636614293,
      "loss": 4.1734,
      "step": 42460
    },
    {
      "epoch": 0.08847916666666666,
      "grad_norm": 0.7778027057647705,
      "learning_rate": 0.0002947251552729688,
      "loss": 3.9395,
      "step": 42470
    },
    {
      "epoch": 0.0885,
      "grad_norm": 0.9636765718460083,
      "learning_rate": 0.00029472256355463934,
      "loss": 3.9252,
      "step": 42480
    },
    {
      "epoch": 0.08852083333333334,
      "grad_norm": 0.762139618396759,
      "learning_rate": 0.0002947199712111656,
      "loss": 4.1019,
      "step": 42490
    },
    {
      "epoch": 0.08854166666666667,
      "grad_norm": 0.7652614116668701,
      "learning_rate": 0.0002947173782425589,
      "loss": 4.1016,
      "step": 42500
    },
    {
      "epoch": 0.0885625,
      "grad_norm": 0.7420979738235474,
      "learning_rate": 0.0002947147846488304,
      "loss": 4.0403,
      "step": 42510
    },
    {
      "epoch": 0.08858333333333333,
      "grad_norm": 0.8781409859657288,
      "learning_rate": 0.00029471219042999136,
      "loss": 4.0363,
      "step": 42520
    },
    {
      "epoch": 0.08860416666666666,
      "grad_norm": 0.768880307674408,
      "learning_rate": 0.0002947095955860529,
      "loss": 4.1245,
      "step": 42530
    },
    {
      "epoch": 0.088625,
      "grad_norm": 0.8779938220977783,
      "learning_rate": 0.0002947070001170263,
      "loss": 3.9514,
      "step": 42540
    },
    {
      "epoch": 0.08864583333333333,
      "grad_norm": 0.8695088624954224,
      "learning_rate": 0.0002947044040229227,
      "loss": 3.9135,
      "step": 42550
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 0.7756330966949463,
      "learning_rate": 0.0002947018073037534,
      "loss": 3.8999,
      "step": 42560
    },
    {
      "epoch": 0.0886875,
      "grad_norm": 0.7573769688606262,
      "learning_rate": 0.0002946992099595295,
      "loss": 3.9569,
      "step": 42570
    },
    {
      "epoch": 0.08870833333333333,
      "grad_norm": 0.8245770931243896,
      "learning_rate": 0.00029469661199026234,
      "loss": 4.1479,
      "step": 42580
    },
    {
      "epoch": 0.08872916666666666,
      "grad_norm": 0.7074221968650818,
      "learning_rate": 0.00029469401339596307,
      "loss": 3.8665,
      "step": 42590
    },
    {
      "epoch": 0.08875,
      "grad_norm": 0.9191860556602478,
      "learning_rate": 0.00029469141417664293,
      "loss": 4.078,
      "step": 42600
    },
    {
      "epoch": 0.08877083333333333,
      "grad_norm": 0.8054348826408386,
      "learning_rate": 0.0002946888143323132,
      "loss": 3.859,
      "step": 42610
    },
    {
      "epoch": 0.08879166666666667,
      "grad_norm": 0.8052231669425964,
      "learning_rate": 0.00029468621386298505,
      "loss": 3.8963,
      "step": 42620
    },
    {
      "epoch": 0.0888125,
      "grad_norm": 0.6955286860466003,
      "learning_rate": 0.0002946836127686697,
      "loss": 3.9914,
      "step": 42630
    },
    {
      "epoch": 0.08883333333333333,
      "grad_norm": 0.7722811698913574,
      "learning_rate": 0.0002946810110493784,
      "loss": 3.9208,
      "step": 42640
    },
    {
      "epoch": 0.08885416666666666,
      "grad_norm": 0.8139607906341553,
      "learning_rate": 0.0002946784087051224,
      "loss": 4.097,
      "step": 42650
    },
    {
      "epoch": 0.088875,
      "grad_norm": 0.7836417555809021,
      "learning_rate": 0.000294675805735913,
      "loss": 3.9195,
      "step": 42660
    },
    {
      "epoch": 0.08889583333333333,
      "grad_norm": 0.9406384229660034,
      "learning_rate": 0.00029467320214176135,
      "loss": 3.9594,
      "step": 42670
    },
    {
      "epoch": 0.08891666666666667,
      "grad_norm": 0.7045599222183228,
      "learning_rate": 0.00029467059792267873,
      "loss": 3.8917,
      "step": 42680
    },
    {
      "epoch": 0.0889375,
      "grad_norm": 0.7611586451530457,
      "learning_rate": 0.0002946679930786764,
      "loss": 4.0687,
      "step": 42690
    },
    {
      "epoch": 0.08895833333333333,
      "grad_norm": 0.7552801966667175,
      "learning_rate": 0.0002946653876097656,
      "loss": 3.8939,
      "step": 42700
    },
    {
      "epoch": 0.08897916666666666,
      "grad_norm": 0.8357509970664978,
      "learning_rate": 0.0002946627815159576,
      "loss": 3.9682,
      "step": 42710
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.8289886713027954,
      "learning_rate": 0.0002946601747972636,
      "loss": 3.9234,
      "step": 42720
    },
    {
      "epoch": 0.08902083333333333,
      "grad_norm": 0.9537912607192993,
      "learning_rate": 0.00029465756745369496,
      "loss": 4.0941,
      "step": 42730
    },
    {
      "epoch": 0.08904166666666667,
      "grad_norm": 0.7569817304611206,
      "learning_rate": 0.0002946549594852628,
      "loss": 3.7998,
      "step": 42740
    },
    {
      "epoch": 0.0890625,
      "grad_norm": 0.8027034401893616,
      "learning_rate": 0.00029465235089197857,
      "loss": 3.8901,
      "step": 42750
    },
    {
      "epoch": 0.08908333333333333,
      "grad_norm": 0.8456350564956665,
      "learning_rate": 0.0002946497416738534,
      "loss": 4.0097,
      "step": 42760
    },
    {
      "epoch": 0.08910416666666666,
      "grad_norm": 0.7440257668495178,
      "learning_rate": 0.00029464713183089867,
      "loss": 4.0463,
      "step": 42770
    },
    {
      "epoch": 0.089125,
      "grad_norm": 0.7810341715812683,
      "learning_rate": 0.0002946445213631255,
      "loss": 3.9267,
      "step": 42780
    },
    {
      "epoch": 0.08914583333333333,
      "grad_norm": 0.8820784091949463,
      "learning_rate": 0.0002946419102705453,
      "loss": 3.9428,
      "step": 42790
    },
    {
      "epoch": 0.08916666666666667,
      "grad_norm": 0.8829526305198669,
      "learning_rate": 0.0002946392985531693,
      "loss": 4.1117,
      "step": 42800
    },
    {
      "epoch": 0.0891875,
      "grad_norm": 0.8675321936607361,
      "learning_rate": 0.0002946366862110087,
      "loss": 3.9114,
      "step": 42810
    },
    {
      "epoch": 0.08920833333333333,
      "grad_norm": 0.7255529761314392,
      "learning_rate": 0.0002946340732440749,
      "loss": 3.8804,
      "step": 42820
    },
    {
      "epoch": 0.08922916666666666,
      "grad_norm": 0.86192387342453,
      "learning_rate": 0.0002946314596523792,
      "loss": 4.0199,
      "step": 42830
    },
    {
      "epoch": 0.08925,
      "grad_norm": 0.8590792417526245,
      "learning_rate": 0.00029462884543593286,
      "loss": 3.9187,
      "step": 42840
    },
    {
      "epoch": 0.08927083333333333,
      "grad_norm": 0.7454255223274231,
      "learning_rate": 0.0002946262305947471,
      "loss": 3.8774,
      "step": 42850
    },
    {
      "epoch": 0.08929166666666667,
      "grad_norm": 0.8704246878623962,
      "learning_rate": 0.00029462361512883333,
      "loss": 3.9811,
      "step": 42860
    },
    {
      "epoch": 0.0893125,
      "grad_norm": 0.9386780261993408,
      "learning_rate": 0.00029462099903820275,
      "loss": 4.0645,
      "step": 42870
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 0.9384982585906982,
      "learning_rate": 0.0002946183823228667,
      "loss": 4.0321,
      "step": 42880
    },
    {
      "epoch": 0.08935416666666667,
      "grad_norm": 0.9046117067337036,
      "learning_rate": 0.0002946157649828365,
      "loss": 4.1029,
      "step": 42890
    },
    {
      "epoch": 0.089375,
      "grad_norm": 0.77730393409729,
      "learning_rate": 0.0002946131470181234,
      "loss": 4.0287,
      "step": 42900
    },
    {
      "epoch": 0.08939583333333333,
      "grad_norm": 0.8170323371887207,
      "learning_rate": 0.00029461052842873875,
      "loss": 3.8487,
      "step": 42910
    },
    {
      "epoch": 0.08941666666666667,
      "grad_norm": 0.9389057159423828,
      "learning_rate": 0.0002946079092146939,
      "loss": 4.0167,
      "step": 42920
    },
    {
      "epoch": 0.0894375,
      "grad_norm": 1.011751413345337,
      "learning_rate": 0.0002946052893760001,
      "loss": 4.0095,
      "step": 42930
    },
    {
      "epoch": 0.08945833333333333,
      "grad_norm": 0.7465471625328064,
      "learning_rate": 0.0002946026689126687,
      "loss": 3.9126,
      "step": 42940
    },
    {
      "epoch": 0.08947916666666667,
      "grad_norm": 0.8126702308654785,
      "learning_rate": 0.00029460004782471094,
      "loss": 4.1007,
      "step": 42950
    },
    {
      "epoch": 0.0895,
      "grad_norm": 0.7804241180419922,
      "learning_rate": 0.0002945974261121383,
      "loss": 4.1154,
      "step": 42960
    },
    {
      "epoch": 0.08952083333333333,
      "grad_norm": 0.7789965867996216,
      "learning_rate": 0.00029459480377496197,
      "loss": 4.0101,
      "step": 42970
    },
    {
      "epoch": 0.08954166666666667,
      "grad_norm": 0.7300752401351929,
      "learning_rate": 0.00029459218081319334,
      "loss": 4.0277,
      "step": 42980
    },
    {
      "epoch": 0.0895625,
      "grad_norm": 0.7931423187255859,
      "learning_rate": 0.0002945895572268437,
      "loss": 4.0004,
      "step": 42990
    },
    {
      "epoch": 0.08958333333333333,
      "grad_norm": 0.8203656673431396,
      "learning_rate": 0.00029458693301592445,
      "loss": 3.9867,
      "step": 43000
    },
    {
      "epoch": 0.08958333333333333,
      "eval_loss": 4.30694580078125,
      "eval_runtime": 9.2713,
      "eval_samples_per_second": 1.079,
      "eval_steps_per_second": 0.324,
      "step": 43000
    },
    {
      "epoch": 0.08960416666666667,
      "grad_norm": 0.8444095253944397,
      "learning_rate": 0.00029458430818044684,
      "loss": 4.1082,
      "step": 43010
    },
    {
      "epoch": 0.089625,
      "grad_norm": 0.7924345135688782,
      "learning_rate": 0.0002945816827204222,
      "loss": 4.0802,
      "step": 43020
    },
    {
      "epoch": 0.08964583333333333,
      "grad_norm": 0.8866179585456848,
      "learning_rate": 0.000294579056635862,
      "loss": 3.7033,
      "step": 43030
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 0.6647859215736389,
      "learning_rate": 0.0002945764299267775,
      "loss": 3.9889,
      "step": 43040
    },
    {
      "epoch": 0.0896875,
      "grad_norm": 0.9313936829566956,
      "learning_rate": 0.00029457380259318,
      "loss": 4.2468,
      "step": 43050
    },
    {
      "epoch": 0.08970833333333333,
      "grad_norm": 0.8196076154708862,
      "learning_rate": 0.00029457117463508096,
      "loss": 3.8843,
      "step": 43060
    },
    {
      "epoch": 0.08972916666666667,
      "grad_norm": 0.8146063089370728,
      "learning_rate": 0.0002945685460524916,
      "loss": 3.9114,
      "step": 43070
    },
    {
      "epoch": 0.08975,
      "grad_norm": 0.8637206554412842,
      "learning_rate": 0.00029456591684542347,
      "loss": 3.8681,
      "step": 43080
    },
    {
      "epoch": 0.08977083333333333,
      "grad_norm": 0.7244358062744141,
      "learning_rate": 0.0002945632870138877,
      "loss": 3.9057,
      "step": 43090
    },
    {
      "epoch": 0.08979166666666667,
      "grad_norm": 0.7465149760246277,
      "learning_rate": 0.0002945606565578958,
      "loss": 4.0943,
      "step": 43100
    },
    {
      "epoch": 0.0898125,
      "grad_norm": 0.8507609367370605,
      "learning_rate": 0.00029455802547745906,
      "loss": 3.9996,
      "step": 43110
    },
    {
      "epoch": 0.08983333333333333,
      "grad_norm": 0.8512088060379028,
      "learning_rate": 0.00029455539377258886,
      "loss": 3.9068,
      "step": 43120
    },
    {
      "epoch": 0.08985416666666667,
      "grad_norm": 0.9440413117408752,
      "learning_rate": 0.00029455276144329655,
      "loss": 4.1447,
      "step": 43130
    },
    {
      "epoch": 0.089875,
      "grad_norm": 0.7424771189689636,
      "learning_rate": 0.0002945501284895936,
      "loss": 4.0837,
      "step": 43140
    },
    {
      "epoch": 0.08989583333333333,
      "grad_norm": 0.8660104870796204,
      "learning_rate": 0.0002945474949114913,
      "loss": 4.1466,
      "step": 43150
    },
    {
      "epoch": 0.08991666666666667,
      "grad_norm": 0.946259081363678,
      "learning_rate": 0.000294544860709001,
      "loss": 4.1048,
      "step": 43160
    },
    {
      "epoch": 0.0899375,
      "grad_norm": 0.8100252747535706,
      "learning_rate": 0.00029454222588213414,
      "loss": 3.934,
      "step": 43170
    },
    {
      "epoch": 0.08995833333333333,
      "grad_norm": 0.8373037576675415,
      "learning_rate": 0.00029453959043090205,
      "loss": 4.03,
      "step": 43180
    },
    {
      "epoch": 0.08997916666666667,
      "grad_norm": 0.7830778956413269,
      "learning_rate": 0.00029453695435531616,
      "loss": 3.8243,
      "step": 43190
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7190396189689636,
      "learning_rate": 0.00029453431765538783,
      "loss": 4.0928,
      "step": 43200
    },
    {
      "epoch": 0.09002083333333333,
      "grad_norm": 0.7575730085372925,
      "learning_rate": 0.00029453168033112846,
      "loss": 3.9815,
      "step": 43210
    },
    {
      "epoch": 0.09004166666666667,
      "grad_norm": 0.8525782227516174,
      "learning_rate": 0.0002945290423825494,
      "loss": 4.0159,
      "step": 43220
    },
    {
      "epoch": 0.0900625,
      "grad_norm": 0.7220017313957214,
      "learning_rate": 0.0002945264038096622,
      "loss": 3.9679,
      "step": 43230
    },
    {
      "epoch": 0.09008333333333333,
      "grad_norm": 0.8263263702392578,
      "learning_rate": 0.0002945237646124781,
      "loss": 4.069,
      "step": 43240
    },
    {
      "epoch": 0.09010416666666667,
      "grad_norm": 0.8334963321685791,
      "learning_rate": 0.00029452112479100854,
      "loss": 4.0371,
      "step": 43250
    },
    {
      "epoch": 0.090125,
      "grad_norm": 0.7859172821044922,
      "learning_rate": 0.00029451848434526486,
      "loss": 4.1109,
      "step": 43260
    },
    {
      "epoch": 0.09014583333333333,
      "grad_norm": 0.7925332188606262,
      "learning_rate": 0.00029451584327525856,
      "loss": 4.0525,
      "step": 43270
    },
    {
      "epoch": 0.09016666666666667,
      "grad_norm": 0.8517751097679138,
      "learning_rate": 0.00029451320158100107,
      "loss": 4.0617,
      "step": 43280
    },
    {
      "epoch": 0.0901875,
      "grad_norm": 0.742668092250824,
      "learning_rate": 0.0002945105592625037,
      "loss": 4.0383,
      "step": 43290
    },
    {
      "epoch": 0.09020833333333333,
      "grad_norm": 0.7760559320449829,
      "learning_rate": 0.0002945079163197779,
      "loss": 4.2101,
      "step": 43300
    },
    {
      "epoch": 0.09022916666666667,
      "grad_norm": 0.7289953827857971,
      "learning_rate": 0.0002945052727528352,
      "loss": 4.1305,
      "step": 43310
    },
    {
      "epoch": 0.09025,
      "grad_norm": 0.7664659023284912,
      "learning_rate": 0.00029450262856168684,
      "loss": 3.8662,
      "step": 43320
    },
    {
      "epoch": 0.09027083333333333,
      "grad_norm": 0.7196354269981384,
      "learning_rate": 0.00029449998374634435,
      "loss": 3.9908,
      "step": 43330
    },
    {
      "epoch": 0.09029166666666667,
      "grad_norm": 0.7771369218826294,
      "learning_rate": 0.00029449733830681915,
      "loss": 4.0429,
      "step": 43340
    },
    {
      "epoch": 0.0903125,
      "grad_norm": 0.7446789145469666,
      "learning_rate": 0.00029449469224312254,
      "loss": 3.9545,
      "step": 43350
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 0.6919028162956238,
      "learning_rate": 0.00029449204555526614,
      "loss": 3.9462,
      "step": 43360
    },
    {
      "epoch": 0.09035416666666667,
      "grad_norm": 0.7410955429077148,
      "learning_rate": 0.00029448939824326133,
      "loss": 4.0917,
      "step": 43370
    },
    {
      "epoch": 0.090375,
      "grad_norm": 0.7941297888755798,
      "learning_rate": 0.00029448675030711944,
      "loss": 3.9621,
      "step": 43380
    },
    {
      "epoch": 0.09039583333333333,
      "grad_norm": 0.9332024455070496,
      "learning_rate": 0.000294484101746852,
      "loss": 3.9202,
      "step": 43390
    },
    {
      "epoch": 0.09041666666666667,
      "grad_norm": 0.813433051109314,
      "learning_rate": 0.00029448145256247044,
      "loss": 3.8454,
      "step": 43400
    },
    {
      "epoch": 0.0904375,
      "grad_norm": 0.7347939610481262,
      "learning_rate": 0.0002944788027539862,
      "loss": 3.9784,
      "step": 43410
    },
    {
      "epoch": 0.09045833333333334,
      "grad_norm": 0.8219919800758362,
      "learning_rate": 0.0002944761523214107,
      "loss": 3.8413,
      "step": 43420
    },
    {
      "epoch": 0.09047916666666667,
      "grad_norm": 0.8722334504127502,
      "learning_rate": 0.00029447350126475546,
      "loss": 4.2205,
      "step": 43430
    },
    {
      "epoch": 0.0905,
      "grad_norm": 0.7705649733543396,
      "learning_rate": 0.00029447084958403183,
      "loss": 3.8749,
      "step": 43440
    },
    {
      "epoch": 0.09052083333333333,
      "grad_norm": 0.7951213121414185,
      "learning_rate": 0.00029446819727925135,
      "loss": 3.9178,
      "step": 43450
    },
    {
      "epoch": 0.09054166666666667,
      "grad_norm": 0.9023249745368958,
      "learning_rate": 0.0002944655443504254,
      "loss": 4.0634,
      "step": 43460
    },
    {
      "epoch": 0.0905625,
      "grad_norm": 0.8448863625526428,
      "learning_rate": 0.0002944628907975655,
      "loss": 4.1661,
      "step": 43470
    },
    {
      "epoch": 0.09058333333333334,
      "grad_norm": 0.8534286022186279,
      "learning_rate": 0.0002944602366206831,
      "loss": 3.8676,
      "step": 43480
    },
    {
      "epoch": 0.09060416666666667,
      "grad_norm": 0.7605075836181641,
      "learning_rate": 0.00029445758181978964,
      "loss": 4.1006,
      "step": 43490
    },
    {
      "epoch": 0.090625,
      "grad_norm": 0.7552652955055237,
      "learning_rate": 0.00029445492639489665,
      "loss": 4.0717,
      "step": 43500
    },
    {
      "epoch": 0.09064583333333333,
      "grad_norm": 0.8378645777702332,
      "learning_rate": 0.00029445227034601555,
      "loss": 3.9799,
      "step": 43510
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 0.7651781439781189,
      "learning_rate": 0.0002944496136731578,
      "loss": 4.0429,
      "step": 43520
    },
    {
      "epoch": 0.0906875,
      "grad_norm": 0.6993163824081421,
      "learning_rate": 0.00029444695637633486,
      "loss": 4.0011,
      "step": 43530
    },
    {
      "epoch": 0.09070833333333334,
      "grad_norm": 0.7793441414833069,
      "learning_rate": 0.0002944442984555583,
      "loss": 3.6606,
      "step": 43540
    },
    {
      "epoch": 0.09072916666666667,
      "grad_norm": 0.9402686357498169,
      "learning_rate": 0.00029444163991083954,
      "loss": 4.0064,
      "step": 43550
    },
    {
      "epoch": 0.09075,
      "grad_norm": 0.760085940361023,
      "learning_rate": 0.00029443898074219004,
      "loss": 3.9307,
      "step": 43560
    },
    {
      "epoch": 0.09077083333333333,
      "grad_norm": 0.8862836360931396,
      "learning_rate": 0.0002944363209496214,
      "loss": 3.9405,
      "step": 43570
    },
    {
      "epoch": 0.09079166666666667,
      "grad_norm": 0.8694409132003784,
      "learning_rate": 0.0002944336605331449,
      "loss": 4.1352,
      "step": 43580
    },
    {
      "epoch": 0.0908125,
      "grad_norm": 0.8726516366004944,
      "learning_rate": 0.0002944309994927722,
      "loss": 3.978,
      "step": 43590
    },
    {
      "epoch": 0.09083333333333334,
      "grad_norm": 1.0999330282211304,
      "learning_rate": 0.0002944283378285148,
      "loss": 4.0615,
      "step": 43600
    },
    {
      "epoch": 0.09085416666666667,
      "grad_norm": 0.88246750831604,
      "learning_rate": 0.0002944256755403841,
      "loss": 4.0006,
      "step": 43610
    },
    {
      "epoch": 0.090875,
      "grad_norm": 0.7008848190307617,
      "learning_rate": 0.0002944230126283917,
      "loss": 3.9439,
      "step": 43620
    },
    {
      "epoch": 0.09089583333333333,
      "grad_norm": 0.7714446187019348,
      "learning_rate": 0.00029442034909254897,
      "loss": 4.076,
      "step": 43630
    },
    {
      "epoch": 0.09091666666666667,
      "grad_norm": 0.7801547050476074,
      "learning_rate": 0.0002944176849328676,
      "loss": 4.0407,
      "step": 43640
    },
    {
      "epoch": 0.0909375,
      "grad_norm": 0.7807552814483643,
      "learning_rate": 0.0002944150201493589,
      "loss": 4.1463,
      "step": 43650
    },
    {
      "epoch": 0.09095833333333334,
      "grad_norm": 0.7293252944946289,
      "learning_rate": 0.00029441235474203455,
      "loss": 3.982,
      "step": 43660
    },
    {
      "epoch": 0.09097916666666667,
      "grad_norm": 0.9320241212844849,
      "learning_rate": 0.00029440968871090594,
      "loss": 4.0733,
      "step": 43670
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.9199652075767517,
      "learning_rate": 0.0002944070220559847,
      "loss": 3.9163,
      "step": 43680
    },
    {
      "epoch": 0.09102083333333333,
      "grad_norm": 0.7276955246925354,
      "learning_rate": 0.0002944043547772822,
      "loss": 3.9544,
      "step": 43690
    },
    {
      "epoch": 0.09104166666666667,
      "grad_norm": 0.8825798034667969,
      "learning_rate": 0.0002944016868748101,
      "loss": 4.0254,
      "step": 43700
    },
    {
      "epoch": 0.0910625,
      "grad_norm": 0.8884842991828918,
      "learning_rate": 0.00029439901834857986,
      "loss": 4.0696,
      "step": 43710
    },
    {
      "epoch": 0.09108333333333334,
      "grad_norm": 0.7425711750984192,
      "learning_rate": 0.000294396349198603,
      "loss": 3.8903,
      "step": 43720
    },
    {
      "epoch": 0.09110416666666667,
      "grad_norm": 0.7916253805160522,
      "learning_rate": 0.0002943936794248911,
      "loss": 4.0976,
      "step": 43730
    },
    {
      "epoch": 0.091125,
      "grad_norm": 0.7162860035896301,
      "learning_rate": 0.00029439100902745567,
      "loss": 3.8368,
      "step": 43740
    },
    {
      "epoch": 0.09114583333333333,
      "grad_norm": 0.7752361297607422,
      "learning_rate": 0.00029438833800630814,
      "loss": 3.9273,
      "step": 43750
    },
    {
      "epoch": 0.09116666666666666,
      "grad_norm": 0.8526679277420044,
      "learning_rate": 0.00029438566636146024,
      "loss": 4.1703,
      "step": 43760
    },
    {
      "epoch": 0.0911875,
      "grad_norm": 0.6934775114059448,
      "learning_rate": 0.00029438299409292336,
      "loss": 3.8559,
      "step": 43770
    },
    {
      "epoch": 0.09120833333333334,
      "grad_norm": 0.7945747375488281,
      "learning_rate": 0.00029438032120070916,
      "loss": 4.0018,
      "step": 43780
    },
    {
      "epoch": 0.09122916666666667,
      "grad_norm": 0.7631188631057739,
      "learning_rate": 0.00029437764768482907,
      "loss": 3.8231,
      "step": 43790
    },
    {
      "epoch": 0.09125,
      "grad_norm": 0.7077094912528992,
      "learning_rate": 0.00029437497354529464,
      "loss": 4.0938,
      "step": 43800
    },
    {
      "epoch": 0.09127083333333333,
      "grad_norm": 0.7636808753013611,
      "learning_rate": 0.0002943722987821176,
      "loss": 4.0502,
      "step": 43810
    },
    {
      "epoch": 0.09129166666666666,
      "grad_norm": 0.739537239074707,
      "learning_rate": 0.0002943696233953093,
      "loss": 3.885,
      "step": 43820
    },
    {
      "epoch": 0.0913125,
      "grad_norm": 0.7227054238319397,
      "learning_rate": 0.0002943669473848814,
      "loss": 4.128,
      "step": 43830
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 0.7580694556236267,
      "learning_rate": 0.0002943642707508454,
      "loss": 4.0698,
      "step": 43840
    },
    {
      "epoch": 0.09135416666666667,
      "grad_norm": 0.8221091032028198,
      "learning_rate": 0.0002943615934932129,
      "loss": 3.9216,
      "step": 43850
    },
    {
      "epoch": 0.091375,
      "grad_norm": 0.906349778175354,
      "learning_rate": 0.00029435891561199545,
      "loss": 4.1842,
      "step": 43860
    },
    {
      "epoch": 0.09139583333333333,
      "grad_norm": 1.0237438678741455,
      "learning_rate": 0.00029435623710720465,
      "loss": 4.1169,
      "step": 43870
    },
    {
      "epoch": 0.09141666666666666,
      "grad_norm": 0.7215884327888489,
      "learning_rate": 0.00029435355797885205,
      "loss": 4.1899,
      "step": 43880
    },
    {
      "epoch": 0.0914375,
      "grad_norm": 0.8715304136276245,
      "learning_rate": 0.00029435087822694925,
      "loss": 4.2171,
      "step": 43890
    },
    {
      "epoch": 0.09145833333333334,
      "grad_norm": 0.8521788120269775,
      "learning_rate": 0.0002943481978515077,
      "loss": 4.1204,
      "step": 43900
    },
    {
      "epoch": 0.09147916666666667,
      "grad_norm": 0.728003203868866,
      "learning_rate": 0.0002943455168525391,
      "loss": 3.8925,
      "step": 43910
    },
    {
      "epoch": 0.0915,
      "grad_norm": 0.8462696671485901,
      "learning_rate": 0.00029434283523005505,
      "loss": 3.9204,
      "step": 43920
    },
    {
      "epoch": 0.09152083333333333,
      "grad_norm": 0.8120107054710388,
      "learning_rate": 0.00029434015298406707,
      "loss": 4.0471,
      "step": 43930
    },
    {
      "epoch": 0.09154166666666666,
      "grad_norm": 0.8170748949050903,
      "learning_rate": 0.0002943374701145868,
      "loss": 3.9965,
      "step": 43940
    },
    {
      "epoch": 0.0915625,
      "grad_norm": 0.8082450032234192,
      "learning_rate": 0.0002943347866216257,
      "loss": 3.9468,
      "step": 43950
    },
    {
      "epoch": 0.09158333333333334,
      "grad_norm": 0.7852224707603455,
      "learning_rate": 0.0002943321025051955,
      "loss": 4.002,
      "step": 43960
    },
    {
      "epoch": 0.09160416666666667,
      "grad_norm": 0.8908083438873291,
      "learning_rate": 0.0002943294177653077,
      "loss": 3.984,
      "step": 43970
    },
    {
      "epoch": 0.091625,
      "grad_norm": 0.7960920333862305,
      "learning_rate": 0.00029432673240197406,
      "loss": 4.0694,
      "step": 43980
    },
    {
      "epoch": 0.09164583333333333,
      "grad_norm": 0.8103930950164795,
      "learning_rate": 0.000294324046415206,
      "loss": 3.8609,
      "step": 43990
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 0.7782918810844421,
      "learning_rate": 0.00029432135980501516,
      "loss": 3.8601,
      "step": 44000
    },
    {
      "epoch": 0.09166666666666666,
      "eval_loss": 4.309880256652832,
      "eval_runtime": 10.7923,
      "eval_samples_per_second": 0.927,
      "eval_steps_per_second": 0.278,
      "step": 44000
    },
    {
      "epoch": 0.0916875,
      "grad_norm": 0.8031482696533203,
      "learning_rate": 0.00029431867257141323,
      "loss": 3.9053,
      "step": 44010
    },
    {
      "epoch": 0.09170833333333334,
      "grad_norm": 0.8081420063972473,
      "learning_rate": 0.0002943159847144117,
      "loss": 4.0059,
      "step": 44020
    },
    {
      "epoch": 0.09172916666666667,
      "grad_norm": 0.9997856020927429,
      "learning_rate": 0.00029431329623402227,
      "loss": 4.0293,
      "step": 44030
    },
    {
      "epoch": 0.09175,
      "grad_norm": 0.8736863732337952,
      "learning_rate": 0.00029431060713025654,
      "loss": 3.989,
      "step": 44040
    },
    {
      "epoch": 0.09177083333333333,
      "grad_norm": 0.8917863368988037,
      "learning_rate": 0.00029430791740312607,
      "loss": 4.0851,
      "step": 44050
    },
    {
      "epoch": 0.09179166666666666,
      "grad_norm": 0.7598302364349365,
      "learning_rate": 0.0002943052270526425,
      "loss": 3.8692,
      "step": 44060
    },
    {
      "epoch": 0.0918125,
      "grad_norm": 0.8449472188949585,
      "learning_rate": 0.00029430253607881754,
      "loss": 3.9616,
      "step": 44070
    },
    {
      "epoch": 0.09183333333333334,
      "grad_norm": 1.12465500831604,
      "learning_rate": 0.00029429984448166275,
      "loss": 3.9584,
      "step": 44080
    },
    {
      "epoch": 0.09185416666666667,
      "grad_norm": 0.8481159210205078,
      "learning_rate": 0.00029429715226118966,
      "loss": 3.9025,
      "step": 44090
    },
    {
      "epoch": 0.091875,
      "grad_norm": 0.7610899209976196,
      "learning_rate": 0.00029429445941741005,
      "loss": 3.9541,
      "step": 44100
    },
    {
      "epoch": 0.09189583333333333,
      "grad_norm": 0.7248851656913757,
      "learning_rate": 0.00029429176595033546,
      "loss": 4.0956,
      "step": 44110
    },
    {
      "epoch": 0.09191666666666666,
      "grad_norm": 0.9137314558029175,
      "learning_rate": 0.0002942890718599776,
      "loss": 4.086,
      "step": 44120
    },
    {
      "epoch": 0.0919375,
      "grad_norm": 0.7797259092330933,
      "learning_rate": 0.00029428637714634805,
      "loss": 3.9841,
      "step": 44130
    },
    {
      "epoch": 0.09195833333333334,
      "grad_norm": 0.7513639330863953,
      "learning_rate": 0.00029428368180945845,
      "loss": 3.9826,
      "step": 44140
    },
    {
      "epoch": 0.09197916666666667,
      "grad_norm": 0.8210268616676331,
      "learning_rate": 0.0002942809858493204,
      "loss": 3.9355,
      "step": 44150
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.7558812499046326,
      "learning_rate": 0.0002942782892659457,
      "loss": 4.013,
      "step": 44160
    },
    {
      "epoch": 0.09202083333333333,
      "grad_norm": 0.7633086442947388,
      "learning_rate": 0.00029427559205934587,
      "loss": 3.9024,
      "step": 44170
    },
    {
      "epoch": 0.09204166666666666,
      "grad_norm": 0.767743706703186,
      "learning_rate": 0.0002942728942295326,
      "loss": 3.9907,
      "step": 44180
    },
    {
      "epoch": 0.0920625,
      "grad_norm": 0.8723000884056091,
      "learning_rate": 0.00029427019577651746,
      "loss": 4.0468,
      "step": 44190
    },
    {
      "epoch": 0.09208333333333334,
      "grad_norm": 0.8200768828392029,
      "learning_rate": 0.00029426749670031225,
      "loss": 3.9864,
      "step": 44200
    },
    {
      "epoch": 0.09210416666666667,
      "grad_norm": 0.8050898909568787,
      "learning_rate": 0.00029426479700092855,
      "loss": 4.0267,
      "step": 44210
    },
    {
      "epoch": 0.092125,
      "grad_norm": 0.8020004630088806,
      "learning_rate": 0.000294262096678378,
      "loss": 4.0856,
      "step": 44220
    },
    {
      "epoch": 0.09214583333333333,
      "grad_norm": 0.7998018264770508,
      "learning_rate": 0.00029425939573267233,
      "loss": 4.019,
      "step": 44230
    },
    {
      "epoch": 0.09216666666666666,
      "grad_norm": 0.7449648976325989,
      "learning_rate": 0.00029425669416382317,
      "loss": 3.9596,
      "step": 44240
    },
    {
      "epoch": 0.0921875,
      "grad_norm": 0.6878941655158997,
      "learning_rate": 0.00029425399197184214,
      "loss": 4.1458,
      "step": 44250
    },
    {
      "epoch": 0.09220833333333334,
      "grad_norm": 0.8168017268180847,
      "learning_rate": 0.000294251289156741,
      "loss": 3.9638,
      "step": 44260
    },
    {
      "epoch": 0.09222916666666667,
      "grad_norm": 0.817136287689209,
      "learning_rate": 0.00029424858571853145,
      "loss": 3.9468,
      "step": 44270
    },
    {
      "epoch": 0.09225,
      "grad_norm": 0.840815544128418,
      "learning_rate": 0.0002942458816572251,
      "loss": 4.0618,
      "step": 44280
    },
    {
      "epoch": 0.09227083333333333,
      "grad_norm": 0.7990142107009888,
      "learning_rate": 0.00029424317697283355,
      "loss": 4.0276,
      "step": 44290
    },
    {
      "epoch": 0.09229166666666666,
      "grad_norm": 0.8356457948684692,
      "learning_rate": 0.00029424047166536863,
      "loss": 3.8558,
      "step": 44300
    },
    {
      "epoch": 0.0923125,
      "grad_norm": 0.7452893257141113,
      "learning_rate": 0.00029423776573484194,
      "loss": 4.0359,
      "step": 44310
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 0.7052478790283203,
      "learning_rate": 0.0002942350591812652,
      "loss": 3.9242,
      "step": 44320
    },
    {
      "epoch": 0.09235416666666667,
      "grad_norm": 0.8979045152664185,
      "learning_rate": 0.0002942323520046501,
      "loss": 3.9457,
      "step": 44330
    },
    {
      "epoch": 0.092375,
      "grad_norm": 1.0779821872711182,
      "learning_rate": 0.00029422964420500837,
      "loss": 3.7695,
      "step": 44340
    },
    {
      "epoch": 0.09239583333333333,
      "grad_norm": 0.9096167683601379,
      "learning_rate": 0.0002942269357823516,
      "loss": 4.0696,
      "step": 44350
    },
    {
      "epoch": 0.09241666666666666,
      "grad_norm": 0.8481919169425964,
      "learning_rate": 0.0002942242267366916,
      "loss": 4.0181,
      "step": 44360
    },
    {
      "epoch": 0.0924375,
      "grad_norm": 0.8121992349624634,
      "learning_rate": 0.00029422151706804,
      "loss": 3.9174,
      "step": 44370
    },
    {
      "epoch": 0.09245833333333334,
      "grad_norm": 0.793554425239563,
      "learning_rate": 0.00029421880677640855,
      "loss": 4.1729,
      "step": 44380
    },
    {
      "epoch": 0.09247916666666667,
      "grad_norm": 0.8427684903144836,
      "learning_rate": 0.0002942160958618089,
      "loss": 3.9512,
      "step": 44390
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.7466145753860474,
      "learning_rate": 0.00029421338432425285,
      "loss": 4.1747,
      "step": 44400
    },
    {
      "epoch": 0.09252083333333333,
      "grad_norm": 0.8613093495368958,
      "learning_rate": 0.00029421067216375206,
      "loss": 3.9326,
      "step": 44410
    },
    {
      "epoch": 0.09254166666666666,
      "grad_norm": 0.9479051828384399,
      "learning_rate": 0.00029420795938031824,
      "loss": 3.962,
      "step": 44420
    },
    {
      "epoch": 0.0925625,
      "grad_norm": 0.799017071723938,
      "learning_rate": 0.0002942052459739631,
      "loss": 4.1779,
      "step": 44430
    },
    {
      "epoch": 0.09258333333333334,
      "grad_norm": 0.8353898525238037,
      "learning_rate": 0.00029420253194469844,
      "loss": 4.0461,
      "step": 44440
    },
    {
      "epoch": 0.09260416666666667,
      "grad_norm": 0.8265305161476135,
      "learning_rate": 0.0002941998172925359,
      "loss": 4.0738,
      "step": 44450
    },
    {
      "epoch": 0.092625,
      "grad_norm": 0.7532750964164734,
      "learning_rate": 0.0002941971020174871,
      "loss": 3.9548,
      "step": 44460
    },
    {
      "epoch": 0.09264583333333333,
      "grad_norm": 0.7125318646430969,
      "learning_rate": 0.000294194386119564,
      "loss": 4.0091,
      "step": 44470
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 0.9766756296157837,
      "learning_rate": 0.0002941916695987783,
      "loss": 3.9721,
      "step": 44480
    },
    {
      "epoch": 0.0926875,
      "grad_norm": 0.9519219398498535,
      "learning_rate": 0.0002941889524551416,
      "loss": 4.0673,
      "step": 44490
    },
    {
      "epoch": 0.09270833333333334,
      "grad_norm": 1.026418685913086,
      "learning_rate": 0.0002941862346886657,
      "loss": 3.9473,
      "step": 44500
    },
    {
      "epoch": 0.09272916666666667,
      "grad_norm": 0.7453073859214783,
      "learning_rate": 0.0002941835162993623,
      "loss": 3.9278,
      "step": 44510
    },
    {
      "epoch": 0.09275,
      "grad_norm": 0.7474458813667297,
      "learning_rate": 0.00029418079728724323,
      "loss": 4.0404,
      "step": 44520
    },
    {
      "epoch": 0.09277083333333333,
      "grad_norm": 0.7959873676300049,
      "learning_rate": 0.00029417807765232015,
      "loss": 4.0546,
      "step": 44530
    },
    {
      "epoch": 0.09279166666666666,
      "grad_norm": 0.8463065028190613,
      "learning_rate": 0.0002941753573946049,
      "loss": 4.0388,
      "step": 44540
    },
    {
      "epoch": 0.0928125,
      "grad_norm": 0.890550434589386,
      "learning_rate": 0.0002941726365141091,
      "loss": 4.1776,
      "step": 44550
    },
    {
      "epoch": 0.09283333333333334,
      "grad_norm": 0.8318566083908081,
      "learning_rate": 0.0002941699150108446,
      "loss": 3.9651,
      "step": 44560
    },
    {
      "epoch": 0.09285416666666667,
      "grad_norm": 0.8426151871681213,
      "learning_rate": 0.00029416719288482315,
      "loss": 4.1016,
      "step": 44570
    },
    {
      "epoch": 0.092875,
      "grad_norm": 0.9810061454772949,
      "learning_rate": 0.0002941644701360565,
      "loss": 3.9551,
      "step": 44580
    },
    {
      "epoch": 0.09289583333333333,
      "grad_norm": 0.7402470707893372,
      "learning_rate": 0.00029416174676455637,
      "loss": 4.0274,
      "step": 44590
    },
    {
      "epoch": 0.09291666666666666,
      "grad_norm": 0.7677028775215149,
      "learning_rate": 0.0002941590227703346,
      "loss": 3.9278,
      "step": 44600
    },
    {
      "epoch": 0.0929375,
      "grad_norm": 0.7599290013313293,
      "learning_rate": 0.0002941562981534029,
      "loss": 3.8236,
      "step": 44610
    },
    {
      "epoch": 0.09295833333333334,
      "grad_norm": 0.7853174805641174,
      "learning_rate": 0.000294153572913773,
      "loss": 4.0376,
      "step": 44620
    },
    {
      "epoch": 0.09297916666666667,
      "grad_norm": 0.7803577184677124,
      "learning_rate": 0.0002941508470514568,
      "loss": 4.0135,
      "step": 44630
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.7701123952865601,
      "learning_rate": 0.000294148120566466,
      "loss": 3.7755,
      "step": 44640
    },
    {
      "epoch": 0.09302083333333333,
      "grad_norm": 0.7495555877685547,
      "learning_rate": 0.0002941453934588123,
      "loss": 4.0453,
      "step": 44650
    },
    {
      "epoch": 0.09304166666666666,
      "grad_norm": 0.7904362678527832,
      "learning_rate": 0.00029414266572850764,
      "loss": 4.0224,
      "step": 44660
    },
    {
      "epoch": 0.0930625,
      "grad_norm": 0.7230803966522217,
      "learning_rate": 0.00029413993737556363,
      "loss": 3.9792,
      "step": 44670
    },
    {
      "epoch": 0.09308333333333334,
      "grad_norm": 0.7681822776794434,
      "learning_rate": 0.0002941372083999923,
      "loss": 3.9467,
      "step": 44680
    },
    {
      "epoch": 0.09310416666666667,
      "grad_norm": 0.8920527100563049,
      "learning_rate": 0.0002941344788018051,
      "loss": 3.9088,
      "step": 44690
    },
    {
      "epoch": 0.093125,
      "grad_norm": 0.8506249189376831,
      "learning_rate": 0.0002941317485810141,
      "loss": 4.0252,
      "step": 44700
    },
    {
      "epoch": 0.09314583333333333,
      "grad_norm": 0.8420354723930359,
      "learning_rate": 0.000294129017737631,
      "loss": 3.9802,
      "step": 44710
    },
    {
      "epoch": 0.09316666666666666,
      "grad_norm": 0.895836353302002,
      "learning_rate": 0.0002941262862716676,
      "loss": 3.9476,
      "step": 44720
    },
    {
      "epoch": 0.0931875,
      "grad_norm": 0.7952171564102173,
      "learning_rate": 0.0002941235541831356,
      "loss": 4.0108,
      "step": 44730
    },
    {
      "epoch": 0.09320833333333334,
      "grad_norm": 0.771656334400177,
      "learning_rate": 0.000294120821472047,
      "loss": 3.7503,
      "step": 44740
    },
    {
      "epoch": 0.09322916666666667,
      "grad_norm": 0.8233175873756409,
      "learning_rate": 0.00029411808813841346,
      "loss": 3.9324,
      "step": 44750
    },
    {
      "epoch": 0.09325,
      "grad_norm": 0.725185751914978,
      "learning_rate": 0.00029411535418224686,
      "loss": 4.0691,
      "step": 44760
    },
    {
      "epoch": 0.09327083333333333,
      "grad_norm": 0.925599217414856,
      "learning_rate": 0.0002941126196035589,
      "loss": 3.9398,
      "step": 44770
    },
    {
      "epoch": 0.09329166666666666,
      "grad_norm": 0.82265305519104,
      "learning_rate": 0.00029410988440236154,
      "loss": 3.957,
      "step": 44780
    },
    {
      "epoch": 0.0933125,
      "grad_norm": 0.6767252087593079,
      "learning_rate": 0.0002941071485786665,
      "loss": 3.9486,
      "step": 44790
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.6712161898612976,
      "learning_rate": 0.0002941044121324856,
      "loss": 4.0286,
      "step": 44800
    },
    {
      "epoch": 0.09335416666666667,
      "grad_norm": 0.8490703701972961,
      "learning_rate": 0.0002941016750638307,
      "loss": 3.9294,
      "step": 44810
    },
    {
      "epoch": 0.093375,
      "grad_norm": 0.8026022911071777,
      "learning_rate": 0.0002940989373727136,
      "loss": 3.9291,
      "step": 44820
    },
    {
      "epoch": 0.09339583333333333,
      "grad_norm": 0.8459638357162476,
      "learning_rate": 0.0002940961990591461,
      "loss": 3.8912,
      "step": 44830
    },
    {
      "epoch": 0.09341666666666666,
      "grad_norm": 0.7248906493186951,
      "learning_rate": 0.0002940934601231401,
      "loss": 4.0817,
      "step": 44840
    },
    {
      "epoch": 0.0934375,
      "grad_norm": 0.8020398616790771,
      "learning_rate": 0.00029409072056470735,
      "loss": 4.0784,
      "step": 44850
    },
    {
      "epoch": 0.09345833333333334,
      "grad_norm": 0.7141355872154236,
      "learning_rate": 0.00029408798038385977,
      "loss": 3.8319,
      "step": 44860
    },
    {
      "epoch": 0.09347916666666667,
      "grad_norm": 0.7934810519218445,
      "learning_rate": 0.00029408523958060907,
      "loss": 3.8135,
      "step": 44870
    },
    {
      "epoch": 0.0935,
      "grad_norm": 0.836158275604248,
      "learning_rate": 0.00029408249815496724,
      "loss": 3.8558,
      "step": 44880
    },
    {
      "epoch": 0.09352083333333333,
      "grad_norm": 0.8332101702690125,
      "learning_rate": 0.00029407975610694603,
      "loss": 4.0214,
      "step": 44890
    },
    {
      "epoch": 0.09354166666666666,
      "grad_norm": 0.6936440467834473,
      "learning_rate": 0.0002940770134365573,
      "loss": 3.8844,
      "step": 44900
    },
    {
      "epoch": 0.0935625,
      "grad_norm": 0.7573991417884827,
      "learning_rate": 0.0002940742701438129,
      "loss": 3.8361,
      "step": 44910
    },
    {
      "epoch": 0.09358333333333334,
      "grad_norm": 0.9917488098144531,
      "learning_rate": 0.0002940715262287247,
      "loss": 4.0734,
      "step": 44920
    },
    {
      "epoch": 0.09360416666666667,
      "grad_norm": 0.7606675624847412,
      "learning_rate": 0.0002940687816913045,
      "loss": 4.1563,
      "step": 44930
    },
    {
      "epoch": 0.093625,
      "grad_norm": 0.8295557498931885,
      "learning_rate": 0.00029406603653156423,
      "loss": 4.028,
      "step": 44940
    },
    {
      "epoch": 0.09364583333333333,
      "grad_norm": 0.7171760201454163,
      "learning_rate": 0.00029406329074951567,
      "loss": 4.0998,
      "step": 44950
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 0.7178971767425537,
      "learning_rate": 0.00029406054434517073,
      "loss": 3.9458,
      "step": 44960
    },
    {
      "epoch": 0.0936875,
      "grad_norm": 0.7910643815994263,
      "learning_rate": 0.0002940577973185413,
      "loss": 4.0222,
      "step": 44970
    },
    {
      "epoch": 0.09370833333333334,
      "grad_norm": 0.8305575251579285,
      "learning_rate": 0.0002940550496696391,
      "loss": 3.9458,
      "step": 44980
    },
    {
      "epoch": 0.09372916666666667,
      "grad_norm": 0.8426964282989502,
      "learning_rate": 0.0002940523013984762,
      "loss": 3.8022,
      "step": 44990
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.8178642392158508,
      "learning_rate": 0.0002940495525050644,
      "loss": 3.9873,
      "step": 45000
    },
    {
      "epoch": 0.09375,
      "eval_loss": 4.296371936798096,
      "eval_runtime": 12.0787,
      "eval_samples_per_second": 0.828,
      "eval_steps_per_second": 0.248,
      "step": 45000
    },
    {
      "epoch": 0.09377083333333333,
      "grad_norm": 0.7109588980674744,
      "learning_rate": 0.0002940468029894155,
      "loss": 4.0379,
      "step": 45010
    },
    {
      "epoch": 0.09379166666666666,
      "grad_norm": 0.8486259579658508,
      "learning_rate": 0.0002940440528515414,
      "loss": 4.0466,
      "step": 45020
    },
    {
      "epoch": 0.0938125,
      "grad_norm": 0.800613522529602,
      "learning_rate": 0.0002940413020914541,
      "loss": 4.1292,
      "step": 45030
    },
    {
      "epoch": 0.09383333333333334,
      "grad_norm": 1.1333023309707642,
      "learning_rate": 0.00029403855070916533,
      "loss": 3.9438,
      "step": 45040
    },
    {
      "epoch": 0.09385416666666667,
      "grad_norm": 0.8522650003433228,
      "learning_rate": 0.0002940357987046871,
      "loss": 4.079,
      "step": 45050
    },
    {
      "epoch": 0.093875,
      "grad_norm": 0.8141242861747742,
      "learning_rate": 0.0002940330460780311,
      "loss": 3.8797,
      "step": 45060
    },
    {
      "epoch": 0.09389583333333333,
      "grad_norm": 0.857005774974823,
      "learning_rate": 0.0002940302928292094,
      "loss": 4.068,
      "step": 45070
    },
    {
      "epoch": 0.09391666666666666,
      "grad_norm": 0.8024482131004333,
      "learning_rate": 0.0002940275389582339,
      "loss": 3.853,
      "step": 45080
    },
    {
      "epoch": 0.0939375,
      "grad_norm": 0.8534786701202393,
      "learning_rate": 0.00029402478446511644,
      "loss": 3.9696,
      "step": 45090
    },
    {
      "epoch": 0.09395833333333334,
      "grad_norm": 0.7749423980712891,
      "learning_rate": 0.0002940220293498689,
      "loss": 4.1012,
      "step": 45100
    },
    {
      "epoch": 0.09397916666666667,
      "grad_norm": 0.7832701802253723,
      "learning_rate": 0.00029401927361250317,
      "loss": 3.947,
      "step": 45110
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.9558160305023193,
      "learning_rate": 0.00029401651725303123,
      "loss": 3.9801,
      "step": 45120
    },
    {
      "epoch": 0.09402083333333333,
      "grad_norm": 0.7724518179893494,
      "learning_rate": 0.0002940137602714649,
      "loss": 4.1078,
      "step": 45130
    },
    {
      "epoch": 0.09404166666666666,
      "grad_norm": 0.8304344415664673,
      "learning_rate": 0.00029401100266781616,
      "loss": 3.8744,
      "step": 45140
    },
    {
      "epoch": 0.0940625,
      "grad_norm": 0.7467166781425476,
      "learning_rate": 0.00029400824444209694,
      "loss": 4.0119,
      "step": 45150
    },
    {
      "epoch": 0.09408333333333334,
      "grad_norm": 0.8301234841346741,
      "learning_rate": 0.000294005485594319,
      "loss": 4.256,
      "step": 45160
    },
    {
      "epoch": 0.09410416666666667,
      "grad_norm": 1.1241601705551147,
      "learning_rate": 0.00029400272612449443,
      "loss": 4.052,
      "step": 45170
    },
    {
      "epoch": 0.094125,
      "grad_norm": 0.8703656792640686,
      "learning_rate": 0.00029399996603263505,
      "loss": 3.9461,
      "step": 45180
    },
    {
      "epoch": 0.09414583333333333,
      "grad_norm": 0.8705021739006042,
      "learning_rate": 0.00029399720531875283,
      "loss": 4.2238,
      "step": 45190
    },
    {
      "epoch": 0.09416666666666666,
      "grad_norm": 0.9271725416183472,
      "learning_rate": 0.0002939944439828597,
      "loss": 3.9347,
      "step": 45200
    },
    {
      "epoch": 0.0941875,
      "grad_norm": 0.8943268060684204,
      "learning_rate": 0.00029399168202496755,
      "loss": 4.0175,
      "step": 45210
    },
    {
      "epoch": 0.09420833333333334,
      "grad_norm": 1.001630425453186,
      "learning_rate": 0.00029398891944508833,
      "loss": 4.1536,
      "step": 45220
    },
    {
      "epoch": 0.09422916666666667,
      "grad_norm": 0.9092263579368591,
      "learning_rate": 0.000293986156243234,
      "loss": 3.9834,
      "step": 45230
    },
    {
      "epoch": 0.09425,
      "grad_norm": 0.7717384099960327,
      "learning_rate": 0.0002939833924194164,
      "loss": 3.9915,
      "step": 45240
    },
    {
      "epoch": 0.09427083333333333,
      "grad_norm": 0.8637787699699402,
      "learning_rate": 0.00029398062797364764,
      "loss": 3.8991,
      "step": 45250
    },
    {
      "epoch": 0.09429166666666666,
      "grad_norm": 0.7466741800308228,
      "learning_rate": 0.0002939778629059395,
      "loss": 3.9533,
      "step": 45260
    },
    {
      "epoch": 0.0943125,
      "grad_norm": 0.7700151801109314,
      "learning_rate": 0.000293975097216304,
      "loss": 3.9861,
      "step": 45270
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 1.0047454833984375,
      "learning_rate": 0.00029397233090475307,
      "loss": 4.013,
      "step": 45280
    },
    {
      "epoch": 0.09435416666666667,
      "grad_norm": 0.7972248196601868,
      "learning_rate": 0.0002939695639712986,
      "loss": 3.9734,
      "step": 45290
    },
    {
      "epoch": 0.094375,
      "grad_norm": 0.9308408498764038,
      "learning_rate": 0.00029396679641595266,
      "loss": 3.9484,
      "step": 45300
    },
    {
      "epoch": 0.09439583333333333,
      "grad_norm": 0.7517308592796326,
      "learning_rate": 0.0002939640282387271,
      "loss": 3.9754,
      "step": 45310
    },
    {
      "epoch": 0.09441666666666666,
      "grad_norm": 1.0082979202270508,
      "learning_rate": 0.000293961259439634,
      "loss": 3.8777,
      "step": 45320
    },
    {
      "epoch": 0.0944375,
      "grad_norm": 0.8289642930030823,
      "learning_rate": 0.00029395849001868517,
      "loss": 3.9432,
      "step": 45330
    },
    {
      "epoch": 0.09445833333333334,
      "grad_norm": 0.7206010818481445,
      "learning_rate": 0.00029395571997589264,
      "loss": 4.063,
      "step": 45340
    },
    {
      "epoch": 0.09447916666666667,
      "grad_norm": 0.7974848747253418,
      "learning_rate": 0.0002939529493112684,
      "loss": 3.9781,
      "step": 45350
    },
    {
      "epoch": 0.0945,
      "grad_norm": 0.7889509201049805,
      "learning_rate": 0.00029395017802482444,
      "loss": 4.0573,
      "step": 45360
    },
    {
      "epoch": 0.09452083333333333,
      "grad_norm": 0.7368786334991455,
      "learning_rate": 0.0002939474061165727,
      "loss": 3.9438,
      "step": 45370
    },
    {
      "epoch": 0.09454166666666666,
      "grad_norm": 0.81927090883255,
      "learning_rate": 0.00029394463358652507,
      "loss": 4.0366,
      "step": 45380
    },
    {
      "epoch": 0.0945625,
      "grad_norm": 0.8469406366348267,
      "learning_rate": 0.00029394186043469364,
      "loss": 4.0023,
      "step": 45390
    },
    {
      "epoch": 0.09458333333333334,
      "grad_norm": 0.9143786430358887,
      "learning_rate": 0.00029393908666109036,
      "loss": 4.0786,
      "step": 45400
    },
    {
      "epoch": 0.09460416666666667,
      "grad_norm": 0.8098400235176086,
      "learning_rate": 0.0002939363122657272,
      "loss": 4.0473,
      "step": 45410
    },
    {
      "epoch": 0.094625,
      "grad_norm": 0.9839364886283875,
      "learning_rate": 0.0002939335372486161,
      "loss": 3.7376,
      "step": 45420
    },
    {
      "epoch": 0.09464583333333333,
      "grad_norm": 0.8267048597335815,
      "learning_rate": 0.00029393076160976915,
      "loss": 3.9923,
      "step": 45430
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 0.8272232413291931,
      "learning_rate": 0.0002939279853491982,
      "loss": 4.1674,
      "step": 45440
    },
    {
      "epoch": 0.0946875,
      "grad_norm": 0.7564824819564819,
      "learning_rate": 0.0002939252084669154,
      "loss": 4.0907,
      "step": 45450
    },
    {
      "epoch": 0.09470833333333334,
      "grad_norm": 0.7972956895828247,
      "learning_rate": 0.00029392243096293267,
      "loss": 3.9741,
      "step": 45460
    },
    {
      "epoch": 0.09472916666666667,
      "grad_norm": 0.851256787776947,
      "learning_rate": 0.00029391965283726197,
      "loss": 3.9542,
      "step": 45470
    },
    {
      "epoch": 0.09475,
      "grad_norm": 0.7839607000350952,
      "learning_rate": 0.0002939168740899153,
      "loss": 4.078,
      "step": 45480
    },
    {
      "epoch": 0.09477083333333333,
      "grad_norm": 0.7978137135505676,
      "learning_rate": 0.0002939140947209048,
      "loss": 4.011,
      "step": 45490
    },
    {
      "epoch": 0.09479166666666666,
      "grad_norm": 0.7750713229179382,
      "learning_rate": 0.0002939113147302423,
      "loss": 4.0348,
      "step": 45500
    },
    {
      "epoch": 0.0948125,
      "grad_norm": 0.8086476922035217,
      "learning_rate": 0.00029390853411793993,
      "loss": 4.1319,
      "step": 45510
    },
    {
      "epoch": 0.09483333333333334,
      "grad_norm": 0.7548931837081909,
      "learning_rate": 0.00029390575288400965,
      "loss": 3.9,
      "step": 45520
    },
    {
      "epoch": 0.09485416666666667,
      "grad_norm": 0.8632543683052063,
      "learning_rate": 0.00029390297102846344,
      "loss": 4.1245,
      "step": 45530
    },
    {
      "epoch": 0.094875,
      "grad_norm": 0.8787257075309753,
      "learning_rate": 0.0002939001885513134,
      "loss": 3.9381,
      "step": 45540
    },
    {
      "epoch": 0.09489583333333333,
      "grad_norm": 0.8995476961135864,
      "learning_rate": 0.00029389740545257147,
      "loss": 4.0267,
      "step": 45550
    },
    {
      "epoch": 0.09491666666666666,
      "grad_norm": 0.8561380505561829,
      "learning_rate": 0.0002938946217322498,
      "loss": 4.1564,
      "step": 45560
    },
    {
      "epoch": 0.0949375,
      "grad_norm": 0.7836742997169495,
      "learning_rate": 0.0002938918373903602,
      "loss": 3.9547,
      "step": 45570
    },
    {
      "epoch": 0.09495833333333334,
      "grad_norm": 0.7427635192871094,
      "learning_rate": 0.00029388905242691484,
      "loss": 4.0397,
      "step": 45580
    },
    {
      "epoch": 0.09497916666666667,
      "grad_norm": 0.856387734413147,
      "learning_rate": 0.00029388626684192576,
      "loss": 4.0324,
      "step": 45590
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.8420458436012268,
      "learning_rate": 0.00029388348063540495,
      "loss": 4.0306,
      "step": 45600
    },
    {
      "epoch": 0.09502083333333333,
      "grad_norm": 0.8015421032905579,
      "learning_rate": 0.0002938806938073645,
      "loss": 3.9155,
      "step": 45610
    },
    {
      "epoch": 0.09504166666666666,
      "grad_norm": 0.763532280921936,
      "learning_rate": 0.0002938779063578164,
      "loss": 4.0875,
      "step": 45620
    },
    {
      "epoch": 0.0950625,
      "grad_norm": 0.8707883954048157,
      "learning_rate": 0.0002938751182867726,
      "loss": 4.0439,
      "step": 45630
    },
    {
      "epoch": 0.09508333333333334,
      "grad_norm": 0.7776477336883545,
      "learning_rate": 0.00029387232959424527,
      "loss": 4.099,
      "step": 45640
    },
    {
      "epoch": 0.09510416666666667,
      "grad_norm": 0.8542993068695068,
      "learning_rate": 0.00029386954028024653,
      "loss": 3.9848,
      "step": 45650
    },
    {
      "epoch": 0.095125,
      "grad_norm": 0.9668006300926208,
      "learning_rate": 0.0002938667503447882,
      "loss": 3.8554,
      "step": 45660
    },
    {
      "epoch": 0.09514583333333333,
      "grad_norm": 0.8329102993011475,
      "learning_rate": 0.00029386395978788253,
      "loss": 4.0377,
      "step": 45670
    },
    {
      "epoch": 0.09516666666666666,
      "grad_norm": 0.7556877136230469,
      "learning_rate": 0.00029386116860954145,
      "loss": 3.9923,
      "step": 45680
    },
    {
      "epoch": 0.0951875,
      "grad_norm": 0.8933076858520508,
      "learning_rate": 0.0002938583768097771,
      "loss": 4.0122,
      "step": 45690
    },
    {
      "epoch": 0.09520833333333334,
      "grad_norm": 0.7948035001754761,
      "learning_rate": 0.0002938555843886015,
      "loss": 3.8089,
      "step": 45700
    },
    {
      "epoch": 0.09522916666666667,
      "grad_norm": 0.7730541825294495,
      "learning_rate": 0.00029385279134602673,
      "loss": 4.0102,
      "step": 45710
    },
    {
      "epoch": 0.09525,
      "grad_norm": 0.7822456359863281,
      "learning_rate": 0.0002938499976820648,
      "loss": 3.9779,
      "step": 45720
    },
    {
      "epoch": 0.09527083333333333,
      "grad_norm": 0.7689204812049866,
      "learning_rate": 0.0002938472033967278,
      "loss": 4.1424,
      "step": 45730
    },
    {
      "epoch": 0.09529166666666666,
      "grad_norm": 0.8548687696456909,
      "learning_rate": 0.0002938444084900279,
      "loss": 4.1685,
      "step": 45740
    },
    {
      "epoch": 0.0953125,
      "grad_norm": 0.7702450752258301,
      "learning_rate": 0.00029384161296197705,
      "loss": 3.897,
      "step": 45750
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 0.9607065320014954,
      "learning_rate": 0.0002938388168125874,
      "loss": 4.0562,
      "step": 45760
    },
    {
      "epoch": 0.09535416666666667,
      "grad_norm": 0.6935707926750183,
      "learning_rate": 0.00029383602004187095,
      "loss": 3.9475,
      "step": 45770
    },
    {
      "epoch": 0.095375,
      "grad_norm": 0.9489383101463318,
      "learning_rate": 0.0002938332226498398,
      "loss": 3.8986,
      "step": 45780
    },
    {
      "epoch": 0.09539583333333333,
      "grad_norm": 0.6949952840805054,
      "learning_rate": 0.00029383042463650616,
      "loss": 3.7916,
      "step": 45790
    },
    {
      "epoch": 0.09541666666666666,
      "grad_norm": 0.8038750886917114,
      "learning_rate": 0.000293827626001882,
      "loss": 3.9577,
      "step": 45800
    },
    {
      "epoch": 0.0954375,
      "grad_norm": 0.8259865045547485,
      "learning_rate": 0.00029382482674597933,
      "loss": 4.1713,
      "step": 45810
    },
    {
      "epoch": 0.09545833333333334,
      "grad_norm": 0.7633161544799805,
      "learning_rate": 0.00029382202686881046,
      "loss": 4.1554,
      "step": 45820
    },
    {
      "epoch": 0.09547916666666667,
      "grad_norm": 0.905838668346405,
      "learning_rate": 0.0002938192263703873,
      "loss": 3.9201,
      "step": 45830
    },
    {
      "epoch": 0.0955,
      "grad_norm": 0.7080432772636414,
      "learning_rate": 0.00029381642525072197,
      "loss": 4.0738,
      "step": 45840
    },
    {
      "epoch": 0.09552083333333333,
      "grad_norm": 0.7999567985534668,
      "learning_rate": 0.0002938136235098267,
      "loss": 3.9494,
      "step": 45850
    },
    {
      "epoch": 0.09554166666666666,
      "grad_norm": 0.859424352645874,
      "learning_rate": 0.00029381082114771345,
      "loss": 3.9803,
      "step": 45860
    },
    {
      "epoch": 0.0955625,
      "grad_norm": 0.8311036825180054,
      "learning_rate": 0.00029380801816439436,
      "loss": 3.8966,
      "step": 45870
    },
    {
      "epoch": 0.09558333333333334,
      "grad_norm": 0.8434373736381531,
      "learning_rate": 0.00029380521455988164,
      "loss": 3.8801,
      "step": 45880
    },
    {
      "epoch": 0.09560416666666667,
      "grad_norm": 0.8669942617416382,
      "learning_rate": 0.0002938024103341872,
      "loss": 3.9971,
      "step": 45890
    },
    {
      "epoch": 0.095625,
      "grad_norm": 0.8655198216438293,
      "learning_rate": 0.00029379960548732334,
      "loss": 3.9539,
      "step": 45900
    },
    {
      "epoch": 0.09564583333333333,
      "grad_norm": 0.8112446069717407,
      "learning_rate": 0.0002937968000193021,
      "loss": 4.0565,
      "step": 45910
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 0.8392683267593384,
      "learning_rate": 0.00029379399393013555,
      "loss": 4.0648,
      "step": 45920
    },
    {
      "epoch": 0.0956875,
      "grad_norm": 0.6865496635437012,
      "learning_rate": 0.0002937911872198359,
      "loss": 3.9448,
      "step": 45930
    },
    {
      "epoch": 0.09570833333333334,
      "grad_norm": 0.777849555015564,
      "learning_rate": 0.0002937883798884152,
      "loss": 4.0476,
      "step": 45940
    },
    {
      "epoch": 0.09572916666666667,
      "grad_norm": 0.776465117931366,
      "learning_rate": 0.0002937855719358857,
      "loss": 3.9991,
      "step": 45950
    },
    {
      "epoch": 0.09575,
      "grad_norm": 0.7091624140739441,
      "learning_rate": 0.0002937827633622594,
      "loss": 4.024,
      "step": 45960
    },
    {
      "epoch": 0.09577083333333333,
      "grad_norm": 0.7408348321914673,
      "learning_rate": 0.0002937799541675485,
      "loss": 3.955,
      "step": 45970
    },
    {
      "epoch": 0.09579166666666666,
      "grad_norm": 0.7853039503097534,
      "learning_rate": 0.00029377714435176503,
      "loss": 4.1042,
      "step": 45980
    },
    {
      "epoch": 0.0958125,
      "grad_norm": 0.6806604266166687,
      "learning_rate": 0.0002937743339149213,
      "loss": 3.9942,
      "step": 45990
    },
    {
      "epoch": 0.09583333333333334,
      "grad_norm": 0.8249806761741638,
      "learning_rate": 0.00029377152285702934,
      "loss": 3.8743,
      "step": 46000
    },
    {
      "epoch": 0.09583333333333334,
      "eval_loss": 4.299300193786621,
      "eval_runtime": 12.5369,
      "eval_samples_per_second": 0.798,
      "eval_steps_per_second": 0.239,
      "step": 46000
    },
    {
      "epoch": 0.09585416666666667,
      "grad_norm": 0.8441017270088196,
      "learning_rate": 0.00029376871117810124,
      "loss": 3.6973,
      "step": 46010
    },
    {
      "epoch": 0.095875,
      "grad_norm": 0.8141298890113831,
      "learning_rate": 0.0002937658988781493,
      "loss": 3.9546,
      "step": 46020
    },
    {
      "epoch": 0.09589583333333333,
      "grad_norm": 0.8308836817741394,
      "learning_rate": 0.00029376308595718554,
      "loss": 4.0225,
      "step": 46030
    },
    {
      "epoch": 0.09591666666666666,
      "grad_norm": 0.8066573143005371,
      "learning_rate": 0.00029376027241522217,
      "loss": 4.0748,
      "step": 46040
    },
    {
      "epoch": 0.0959375,
      "grad_norm": 0.6995230913162231,
      "learning_rate": 0.0002937574582522713,
      "loss": 4.0718,
      "step": 46050
    },
    {
      "epoch": 0.09595833333333334,
      "grad_norm": 1.101096272468567,
      "learning_rate": 0.00029375464346834514,
      "loss": 4.1021,
      "step": 46060
    },
    {
      "epoch": 0.09597916666666667,
      "grad_norm": 0.8136130571365356,
      "learning_rate": 0.00029375182806345583,
      "loss": 4.1025,
      "step": 46070
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.8257946372032166,
      "learning_rate": 0.0002937490120376155,
      "loss": 3.9366,
      "step": 46080
    },
    {
      "epoch": 0.09602083333333333,
      "grad_norm": 0.9192647933959961,
      "learning_rate": 0.0002937461953908363,
      "loss": 4.0374,
      "step": 46090
    },
    {
      "epoch": 0.09604166666666666,
      "grad_norm": 0.8636994957923889,
      "learning_rate": 0.00029374337812313047,
      "loss": 4.038,
      "step": 46100
    },
    {
      "epoch": 0.0960625,
      "grad_norm": 0.7460533976554871,
      "learning_rate": 0.00029374056023451017,
      "loss": 4.0881,
      "step": 46110
    },
    {
      "epoch": 0.09608333333333334,
      "grad_norm": 0.7628961801528931,
      "learning_rate": 0.00029373774172498755,
      "loss": 3.8599,
      "step": 46120
    },
    {
      "epoch": 0.09610416666666667,
      "grad_norm": 0.8539522886276245,
      "learning_rate": 0.00029373492259457477,
      "loss": 3.9737,
      "step": 46130
    },
    {
      "epoch": 0.096125,
      "grad_norm": 0.7865321040153503,
      "learning_rate": 0.000293732102843284,
      "loss": 3.9836,
      "step": 46140
    },
    {
      "epoch": 0.09614583333333333,
      "grad_norm": 0.8417372107505798,
      "learning_rate": 0.0002937292824711275,
      "loss": 3.9105,
      "step": 46150
    },
    {
      "epoch": 0.09616666666666666,
      "grad_norm": 0.7831483483314514,
      "learning_rate": 0.0002937264614781173,
      "loss": 4.1743,
      "step": 46160
    },
    {
      "epoch": 0.0961875,
      "grad_norm": 0.8776770830154419,
      "learning_rate": 0.0002937236398642657,
      "loss": 4.1245,
      "step": 46170
    },
    {
      "epoch": 0.09620833333333334,
      "grad_norm": 0.7629642486572266,
      "learning_rate": 0.0002937208176295849,
      "loss": 3.7795,
      "step": 46180
    },
    {
      "epoch": 0.09622916666666667,
      "grad_norm": 0.8218974471092224,
      "learning_rate": 0.00029371799477408703,
      "loss": 3.8597,
      "step": 46190
    },
    {
      "epoch": 0.09625,
      "grad_norm": 0.7103642225265503,
      "learning_rate": 0.00029371517129778434,
      "loss": 3.9874,
      "step": 46200
    },
    {
      "epoch": 0.09627083333333333,
      "grad_norm": 0.9606780409812927,
      "learning_rate": 0.00029371234720068894,
      "loss": 3.8169,
      "step": 46210
    },
    {
      "epoch": 0.09629166666666666,
      "grad_norm": 0.9901225566864014,
      "learning_rate": 0.00029370952248281316,
      "loss": 4.1948,
      "step": 46220
    },
    {
      "epoch": 0.0963125,
      "grad_norm": 0.8903389573097229,
      "learning_rate": 0.0002937066971441691,
      "loss": 4.0652,
      "step": 46230
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 0.834360659122467,
      "learning_rate": 0.00029370387118476894,
      "loss": 4.1544,
      "step": 46240
    },
    {
      "epoch": 0.09635416666666667,
      "grad_norm": 0.8067901730537415,
      "learning_rate": 0.000293701044604625,
      "loss": 4.1274,
      "step": 46250
    },
    {
      "epoch": 0.096375,
      "grad_norm": 0.8308467268943787,
      "learning_rate": 0.0002936982174037494,
      "loss": 4.0566,
      "step": 46260
    },
    {
      "epoch": 0.09639583333333333,
      "grad_norm": 0.7196791768074036,
      "learning_rate": 0.00029369538958215436,
      "loss": 3.9862,
      "step": 46270
    },
    {
      "epoch": 0.09641666666666666,
      "grad_norm": 0.714933454990387,
      "learning_rate": 0.00029369256113985216,
      "loss": 3.9886,
      "step": 46280
    },
    {
      "epoch": 0.0964375,
      "grad_norm": 0.8049482107162476,
      "learning_rate": 0.00029368973207685495,
      "loss": 4.0938,
      "step": 46290
    },
    {
      "epoch": 0.09645833333333333,
      "grad_norm": 0.8619410395622253,
      "learning_rate": 0.000293686902393175,
      "loss": 3.9439,
      "step": 46300
    },
    {
      "epoch": 0.09647916666666667,
      "grad_norm": 0.7825434803962708,
      "learning_rate": 0.0002936840720888245,
      "loss": 3.9062,
      "step": 46310
    },
    {
      "epoch": 0.0965,
      "grad_norm": 1.0062544345855713,
      "learning_rate": 0.00029368124116381565,
      "loss": 3.8805,
      "step": 46320
    },
    {
      "epoch": 0.09652083333333333,
      "grad_norm": 0.7943782210350037,
      "learning_rate": 0.0002936784096181607,
      "loss": 3.9866,
      "step": 46330
    },
    {
      "epoch": 0.09654166666666666,
      "grad_norm": 0.9655819535255432,
      "learning_rate": 0.00029367557745187193,
      "loss": 3.9531,
      "step": 46340
    },
    {
      "epoch": 0.0965625,
      "grad_norm": 0.9315405488014221,
      "learning_rate": 0.00029367274466496156,
      "loss": 3.9954,
      "step": 46350
    },
    {
      "epoch": 0.09658333333333333,
      "grad_norm": 0.8463749289512634,
      "learning_rate": 0.0002936699112574418,
      "loss": 4.0735,
      "step": 46360
    },
    {
      "epoch": 0.09660416666666667,
      "grad_norm": 0.716788649559021,
      "learning_rate": 0.00029366707722932483,
      "loss": 4.0551,
      "step": 46370
    },
    {
      "epoch": 0.096625,
      "grad_norm": 0.7077880501747131,
      "learning_rate": 0.000293664242580623,
      "loss": 3.922,
      "step": 46380
    },
    {
      "epoch": 0.09664583333333333,
      "grad_norm": 0.8764641880989075,
      "learning_rate": 0.00029366140731134846,
      "loss": 3.9687,
      "step": 46390
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 0.7916440367698669,
      "learning_rate": 0.00029365857142151354,
      "loss": 4.2179,
      "step": 46400
    },
    {
      "epoch": 0.0966875,
      "grad_norm": 0.7199515104293823,
      "learning_rate": 0.00029365573491113047,
      "loss": 4.0171,
      "step": 46410
    },
    {
      "epoch": 0.09670833333333333,
      "grad_norm": 0.8514782786369324,
      "learning_rate": 0.0002936528977802115,
      "loss": 4.006,
      "step": 46420
    },
    {
      "epoch": 0.09672916666666667,
      "grad_norm": 0.8852013945579529,
      "learning_rate": 0.0002936500600287688,
      "loss": 3.9036,
      "step": 46430
    },
    {
      "epoch": 0.09675,
      "grad_norm": 0.8588011860847473,
      "learning_rate": 0.00029364722165681477,
      "loss": 4.0568,
      "step": 46440
    },
    {
      "epoch": 0.09677083333333333,
      "grad_norm": 0.8685310482978821,
      "learning_rate": 0.0002936443826643616,
      "loss": 3.9223,
      "step": 46450
    },
    {
      "epoch": 0.09679166666666666,
      "grad_norm": 0.7856481075286865,
      "learning_rate": 0.0002936415430514215,
      "loss": 3.8483,
      "step": 46460
    },
    {
      "epoch": 0.0968125,
      "grad_norm": 0.7501025795936584,
      "learning_rate": 0.00029363870281800685,
      "loss": 4.1985,
      "step": 46470
    },
    {
      "epoch": 0.09683333333333333,
      "grad_norm": 0.7500737309455872,
      "learning_rate": 0.00029363586196412984,
      "loss": 4.0021,
      "step": 46480
    },
    {
      "epoch": 0.09685416666666667,
      "grad_norm": 0.9198769330978394,
      "learning_rate": 0.00029363302048980274,
      "loss": 3.984,
      "step": 46490
    },
    {
      "epoch": 0.096875,
      "grad_norm": 0.7681224942207336,
      "learning_rate": 0.0002936301783950379,
      "loss": 4.0098,
      "step": 46500
    },
    {
      "epoch": 0.09689583333333333,
      "grad_norm": 0.9878162741661072,
      "learning_rate": 0.0002936273356798475,
      "loss": 3.9974,
      "step": 46510
    },
    {
      "epoch": 0.09691666666666666,
      "grad_norm": 0.7782607078552246,
      "learning_rate": 0.00029362449234424386,
      "loss": 4.0058,
      "step": 46520
    },
    {
      "epoch": 0.0969375,
      "grad_norm": 0.7389387488365173,
      "learning_rate": 0.0002936216483882393,
      "loss": 4.0637,
      "step": 46530
    },
    {
      "epoch": 0.09695833333333333,
      "grad_norm": 0.8099526762962341,
      "learning_rate": 0.000293618803811846,
      "loss": 4.0899,
      "step": 46540
    },
    {
      "epoch": 0.09697916666666667,
      "grad_norm": 0.8525927066802979,
      "learning_rate": 0.00029361595861507637,
      "loss": 3.9868,
      "step": 46550
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.7432307004928589,
      "learning_rate": 0.0002936131127979426,
      "loss": 4.008,
      "step": 46560
    },
    {
      "epoch": 0.09702083333333333,
      "grad_norm": 0.849456250667572,
      "learning_rate": 0.0002936102663604571,
      "loss": 4.0013,
      "step": 46570
    },
    {
      "epoch": 0.09704166666666666,
      "grad_norm": 0.8985823392868042,
      "learning_rate": 0.0002936074193026321,
      "loss": 4.0003,
      "step": 46580
    },
    {
      "epoch": 0.0970625,
      "grad_norm": 0.7941288352012634,
      "learning_rate": 0.0002936045716244798,
      "loss": 3.9512,
      "step": 46590
    },
    {
      "epoch": 0.09708333333333333,
      "grad_norm": 0.7117406725883484,
      "learning_rate": 0.00029360172332601264,
      "loss": 4.107,
      "step": 46600
    },
    {
      "epoch": 0.09710416666666667,
      "grad_norm": 0.8271649479866028,
      "learning_rate": 0.0002935988744072429,
      "loss": 4.0049,
      "step": 46610
    },
    {
      "epoch": 0.097125,
      "grad_norm": 0.8262935876846313,
      "learning_rate": 0.00029359602486818284,
      "loss": 3.9537,
      "step": 46620
    },
    {
      "epoch": 0.09714583333333333,
      "grad_norm": 0.813737154006958,
      "learning_rate": 0.00029359317470884476,
      "loss": 3.9909,
      "step": 46630
    },
    {
      "epoch": 0.09716666666666667,
      "grad_norm": 0.8304045796394348,
      "learning_rate": 0.00029359032392924106,
      "loss": 4.2131,
      "step": 46640
    },
    {
      "epoch": 0.0971875,
      "grad_norm": 0.825265109539032,
      "learning_rate": 0.00029358747252938394,
      "loss": 4.1037,
      "step": 46650
    },
    {
      "epoch": 0.09720833333333333,
      "grad_norm": 0.7475466728210449,
      "learning_rate": 0.0002935846205092858,
      "loss": 4.085,
      "step": 46660
    },
    {
      "epoch": 0.09722916666666667,
      "grad_norm": 0.8651233911514282,
      "learning_rate": 0.00029358176786895896,
      "loss": 4.0821,
      "step": 46670
    },
    {
      "epoch": 0.09725,
      "grad_norm": 0.7834148406982422,
      "learning_rate": 0.0002935789146084157,
      "loss": 3.9834,
      "step": 46680
    },
    {
      "epoch": 0.09727083333333333,
      "grad_norm": 0.9636504650115967,
      "learning_rate": 0.0002935760607276684,
      "loss": 4.084,
      "step": 46690
    },
    {
      "epoch": 0.09729166666666667,
      "grad_norm": 0.8700416684150696,
      "learning_rate": 0.00029357320622672926,
      "loss": 3.9454,
      "step": 46700
    },
    {
      "epoch": 0.0973125,
      "grad_norm": 0.8495625257492065,
      "learning_rate": 0.0002935703511056108,
      "loss": 4.0206,
      "step": 46710
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 0.8255255222320557,
      "learning_rate": 0.00029356749536432514,
      "loss": 4.0458,
      "step": 46720
    },
    {
      "epoch": 0.09735416666666667,
      "grad_norm": 0.8789747953414917,
      "learning_rate": 0.0002935646390028848,
      "loss": 4.0792,
      "step": 46730
    },
    {
      "epoch": 0.097375,
      "grad_norm": 0.7113121747970581,
      "learning_rate": 0.00029356178202130206,
      "loss": 4.0351,
      "step": 46740
    },
    {
      "epoch": 0.09739583333333333,
      "grad_norm": 0.7882273197174072,
      "learning_rate": 0.00029355892441958924,
      "loss": 4.0773,
      "step": 46750
    },
    {
      "epoch": 0.09741666666666667,
      "grad_norm": 0.8116236329078674,
      "learning_rate": 0.00029355606619775864,
      "loss": 3.9887,
      "step": 46760
    },
    {
      "epoch": 0.0974375,
      "grad_norm": 0.8258769512176514,
      "learning_rate": 0.00029355320735582267,
      "loss": 4.1052,
      "step": 46770
    },
    {
      "epoch": 0.09745833333333333,
      "grad_norm": 0.7701417803764343,
      "learning_rate": 0.00029355034789379375,
      "loss": 4.0449,
      "step": 46780
    },
    {
      "epoch": 0.09747916666666667,
      "grad_norm": 0.7965903282165527,
      "learning_rate": 0.00029354748781168407,
      "loss": 3.9912,
      "step": 46790
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.7308945059776306,
      "learning_rate": 0.00029354462710950605,
      "loss": 3.9834,
      "step": 46800
    },
    {
      "epoch": 0.09752083333333333,
      "grad_norm": 0.7368971705436707,
      "learning_rate": 0.0002935417657872721,
      "loss": 3.8771,
      "step": 46810
    },
    {
      "epoch": 0.09754166666666667,
      "grad_norm": 0.8631055355072021,
      "learning_rate": 0.00029353890384499454,
      "loss": 3.939,
      "step": 46820
    },
    {
      "epoch": 0.0975625,
      "grad_norm": 0.7141445279121399,
      "learning_rate": 0.0002935360412826857,
      "loss": 3.7813,
      "step": 46830
    },
    {
      "epoch": 0.09758333333333333,
      "grad_norm": 0.8616940975189209,
      "learning_rate": 0.000293533178100358,
      "loss": 4.0156,
      "step": 46840
    },
    {
      "epoch": 0.09760416666666667,
      "grad_norm": 0.7957085967063904,
      "learning_rate": 0.00029353031429802377,
      "loss": 4.0405,
      "step": 46850
    },
    {
      "epoch": 0.097625,
      "grad_norm": 0.7393426299095154,
      "learning_rate": 0.0002935274498756954,
      "loss": 3.7949,
      "step": 46860
    },
    {
      "epoch": 0.09764583333333333,
      "grad_norm": 0.7329308390617371,
      "learning_rate": 0.0002935245848333853,
      "loss": 3.9535,
      "step": 46870
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 0.8251875042915344,
      "learning_rate": 0.0002935217191711058,
      "loss": 3.9549,
      "step": 46880
    },
    {
      "epoch": 0.0976875,
      "grad_norm": 0.8141350150108337,
      "learning_rate": 0.0002935188528888692,
      "loss": 3.8621,
      "step": 46890
    },
    {
      "epoch": 0.09770833333333333,
      "grad_norm": 1.0813504457473755,
      "learning_rate": 0.000293515985986688,
      "loss": 4.182,
      "step": 46900
    },
    {
      "epoch": 0.09772916666666667,
      "grad_norm": 0.7639939785003662,
      "learning_rate": 0.0002935131184645746,
      "loss": 3.9977,
      "step": 46910
    },
    {
      "epoch": 0.09775,
      "grad_norm": 0.7103754878044128,
      "learning_rate": 0.00029351025032254126,
      "loss": 4.1002,
      "step": 46920
    },
    {
      "epoch": 0.09777083333333333,
      "grad_norm": 0.69572913646698,
      "learning_rate": 0.00029350738156060053,
      "loss": 4.0071,
      "step": 46930
    },
    {
      "epoch": 0.09779166666666667,
      "grad_norm": 0.6946271061897278,
      "learning_rate": 0.00029350451217876466,
      "loss": 4.1441,
      "step": 46940
    },
    {
      "epoch": 0.0978125,
      "grad_norm": 0.7504689693450928,
      "learning_rate": 0.0002935016421770461,
      "loss": 3.9185,
      "step": 46950
    },
    {
      "epoch": 0.09783333333333333,
      "grad_norm": 0.7509973049163818,
      "learning_rate": 0.0002934987715554573,
      "loss": 3.9402,
      "step": 46960
    },
    {
      "epoch": 0.09785416666666667,
      "grad_norm": 0.6871477961540222,
      "learning_rate": 0.0002934959003140105,
      "loss": 3.9295,
      "step": 46970
    },
    {
      "epoch": 0.097875,
      "grad_norm": 0.8557692170143127,
      "learning_rate": 0.0002934930284527183,
      "loss": 4.1306,
      "step": 46980
    },
    {
      "epoch": 0.09789583333333333,
      "grad_norm": 1.0151721239089966,
      "learning_rate": 0.000293490155971593,
      "loss": 4.1212,
      "step": 46990
    },
    {
      "epoch": 0.09791666666666667,
      "grad_norm": 0.7988532781600952,
      "learning_rate": 0.00029348728287064704,
      "loss": 3.956,
      "step": 47000
    },
    {
      "epoch": 0.09791666666666667,
      "eval_loss": 4.286574363708496,
      "eval_runtime": 12.837,
      "eval_samples_per_second": 0.779,
      "eval_steps_per_second": 0.234,
      "step": 47000
    },
    {
      "epoch": 0.0979375,
      "grad_norm": 0.8488372564315796,
      "learning_rate": 0.00029348440914989273,
      "loss": 4.0811,
      "step": 47010
    },
    {
      "epoch": 0.09795833333333333,
      "grad_norm": 0.9412222504615784,
      "learning_rate": 0.00029348153480934265,
      "loss": 4.0637,
      "step": 47020
    },
    {
      "epoch": 0.09797916666666667,
      "grad_norm": 0.7563731670379639,
      "learning_rate": 0.0002934786598490091,
      "loss": 3.9543,
      "step": 47030
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.8456201553344727,
      "learning_rate": 0.00029347578426890456,
      "loss": 3.9229,
      "step": 47040
    },
    {
      "epoch": 0.09802083333333333,
      "grad_norm": 0.8371520638465881,
      "learning_rate": 0.00029347290806904143,
      "loss": 3.8122,
      "step": 47050
    },
    {
      "epoch": 0.09804166666666667,
      "grad_norm": 0.7771221995353699,
      "learning_rate": 0.00029347003124943207,
      "loss": 4.1252,
      "step": 47060
    },
    {
      "epoch": 0.0980625,
      "grad_norm": 0.7986473441123962,
      "learning_rate": 0.000293467153810089,
      "loss": 3.9943,
      "step": 47070
    },
    {
      "epoch": 0.09808333333333333,
      "grad_norm": 0.8942128419876099,
      "learning_rate": 0.0002934642757510246,
      "loss": 3.9841,
      "step": 47080
    },
    {
      "epoch": 0.09810416666666667,
      "grad_norm": 0.9035899639129639,
      "learning_rate": 0.00029346139707225134,
      "loss": 3.7435,
      "step": 47090
    },
    {
      "epoch": 0.098125,
      "grad_norm": 0.8319689035415649,
      "learning_rate": 0.0002934585177737816,
      "loss": 3.894,
      "step": 47100
    },
    {
      "epoch": 0.09814583333333333,
      "grad_norm": 0.7116249203681946,
      "learning_rate": 0.0002934556378556279,
      "loss": 4.0223,
      "step": 47110
    },
    {
      "epoch": 0.09816666666666667,
      "grad_norm": 0.8204658031463623,
      "learning_rate": 0.0002934527573178026,
      "loss": 4.0601,
      "step": 47120
    },
    {
      "epoch": 0.0981875,
      "grad_norm": 0.883533239364624,
      "learning_rate": 0.00029344987616031817,
      "loss": 3.8983,
      "step": 47130
    },
    {
      "epoch": 0.09820833333333333,
      "grad_norm": 0.9911308884620667,
      "learning_rate": 0.000293446994383187,
      "loss": 4.0151,
      "step": 47140
    },
    {
      "epoch": 0.09822916666666667,
      "grad_norm": 0.7664318680763245,
      "learning_rate": 0.0002934441119864217,
      "loss": 4.0221,
      "step": 47150
    },
    {
      "epoch": 0.09825,
      "grad_norm": 0.8289836645126343,
      "learning_rate": 0.0002934412289700345,
      "loss": 4.1253,
      "step": 47160
    },
    {
      "epoch": 0.09827083333333334,
      "grad_norm": 0.8632632493972778,
      "learning_rate": 0.00029343834533403804,
      "loss": 3.9823,
      "step": 47170
    },
    {
      "epoch": 0.09829166666666667,
      "grad_norm": 0.895704984664917,
      "learning_rate": 0.0002934354610784447,
      "loss": 4.089,
      "step": 47180
    },
    {
      "epoch": 0.0983125,
      "grad_norm": 0.734760582447052,
      "learning_rate": 0.00029343257620326695,
      "loss": 3.9753,
      "step": 47190
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 0.9424364566802979,
      "learning_rate": 0.0002934296907085173,
      "loss": 3.9707,
      "step": 47200
    },
    {
      "epoch": 0.09835416666666667,
      "grad_norm": 0.8086329102516174,
      "learning_rate": 0.00029342680459420805,
      "loss": 4.017,
      "step": 47210
    },
    {
      "epoch": 0.098375,
      "grad_norm": 0.7572298645973206,
      "learning_rate": 0.0002934239178603518,
      "loss": 4.1001,
      "step": 47220
    },
    {
      "epoch": 0.09839583333333334,
      "grad_norm": 0.7728487253189087,
      "learning_rate": 0.00029342103050696103,
      "loss": 4.1189,
      "step": 47230
    },
    {
      "epoch": 0.09841666666666667,
      "grad_norm": 0.8716822862625122,
      "learning_rate": 0.0002934181425340482,
      "loss": 3.9293,
      "step": 47240
    },
    {
      "epoch": 0.0984375,
      "grad_norm": 0.8844538331031799,
      "learning_rate": 0.0002934152539416257,
      "loss": 4.1568,
      "step": 47250
    },
    {
      "epoch": 0.09845833333333333,
      "grad_norm": 0.7625339031219482,
      "learning_rate": 0.0002934123647297061,
      "loss": 3.91,
      "step": 47260
    },
    {
      "epoch": 0.09847916666666667,
      "grad_norm": 0.7267929315567017,
      "learning_rate": 0.00029340947489830184,
      "loss": 4.0305,
      "step": 47270
    },
    {
      "epoch": 0.0985,
      "grad_norm": 0.8579215407371521,
      "learning_rate": 0.0002934065844474254,
      "loss": 3.9841,
      "step": 47280
    },
    {
      "epoch": 0.09852083333333334,
      "grad_norm": 0.7883702516555786,
      "learning_rate": 0.00029340369337708933,
      "loss": 4.2355,
      "step": 47290
    },
    {
      "epoch": 0.09854166666666667,
      "grad_norm": 0.7911539673805237,
      "learning_rate": 0.00029340080168730603,
      "loss": 3.8045,
      "step": 47300
    },
    {
      "epoch": 0.0985625,
      "grad_norm": 0.7253926396369934,
      "learning_rate": 0.00029339790937808806,
      "loss": 4.0086,
      "step": 47310
    },
    {
      "epoch": 0.09858333333333333,
      "grad_norm": 0.8216734528541565,
      "learning_rate": 0.0002933950164494479,
      "loss": 3.9209,
      "step": 47320
    },
    {
      "epoch": 0.09860416666666667,
      "grad_norm": 0.8695818781852722,
      "learning_rate": 0.00029339212290139795,
      "loss": 4.2289,
      "step": 47330
    },
    {
      "epoch": 0.098625,
      "grad_norm": 0.7620000243186951,
      "learning_rate": 0.0002933892287339508,
      "loss": 3.9978,
      "step": 47340
    },
    {
      "epoch": 0.09864583333333334,
      "grad_norm": 0.7502625584602356,
      "learning_rate": 0.00029338633394711895,
      "loss": 4.2342,
      "step": 47350
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 0.8333707451820374,
      "learning_rate": 0.00029338343854091493,
      "loss": 4.1377,
      "step": 47360
    },
    {
      "epoch": 0.0986875,
      "grad_norm": 0.7773231863975525,
      "learning_rate": 0.0002933805425153512,
      "loss": 3.899,
      "step": 47370
    },
    {
      "epoch": 0.09870833333333333,
      "grad_norm": 0.7568817138671875,
      "learning_rate": 0.0002933776458704403,
      "loss": 3.919,
      "step": 47380
    },
    {
      "epoch": 0.09872916666666667,
      "grad_norm": 0.7336480021476746,
      "learning_rate": 0.0002933747486061947,
      "loss": 3.9067,
      "step": 47390
    },
    {
      "epoch": 0.09875,
      "grad_norm": 0.9175287485122681,
      "learning_rate": 0.0002933718507226269,
      "loss": 4.1145,
      "step": 47400
    },
    {
      "epoch": 0.09877083333333334,
      "grad_norm": 0.6970336437225342,
      "learning_rate": 0.00029336895221974946,
      "loss": 3.9954,
      "step": 47410
    },
    {
      "epoch": 0.09879166666666667,
      "grad_norm": 0.7734704613685608,
      "learning_rate": 0.00029336605309757493,
      "loss": 3.9061,
      "step": 47420
    },
    {
      "epoch": 0.0988125,
      "grad_norm": 0.8274029493331909,
      "learning_rate": 0.0002933631533561158,
      "loss": 3.8471,
      "step": 47430
    },
    {
      "epoch": 0.09883333333333333,
      "grad_norm": 0.788686215877533,
      "learning_rate": 0.0002933602529953846,
      "loss": 4.0784,
      "step": 47440
    },
    {
      "epoch": 0.09885416666666667,
      "grad_norm": 0.9297365546226501,
      "learning_rate": 0.00029335735201539383,
      "loss": 3.8914,
      "step": 47450
    },
    {
      "epoch": 0.098875,
      "grad_norm": 0.7887527942657471,
      "learning_rate": 0.0002933544504161561,
      "loss": 3.8535,
      "step": 47460
    },
    {
      "epoch": 0.09889583333333334,
      "grad_norm": 0.7966414093971252,
      "learning_rate": 0.0002933515481976838,
      "loss": 4.0694,
      "step": 47470
    },
    {
      "epoch": 0.09891666666666667,
      "grad_norm": 0.7667539119720459,
      "learning_rate": 0.0002933486453599896,
      "loss": 4.0607,
      "step": 47480
    },
    {
      "epoch": 0.0989375,
      "grad_norm": 0.9922259449958801,
      "learning_rate": 0.000293345741903086,
      "loss": 3.9776,
      "step": 47490
    },
    {
      "epoch": 0.09895833333333333,
      "grad_norm": 0.8321512937545776,
      "learning_rate": 0.0002933428378269855,
      "loss": 3.941,
      "step": 47500
    },
    {
      "epoch": 0.09897916666666666,
      "grad_norm": 0.873842179775238,
      "learning_rate": 0.00029333993313170075,
      "loss": 4.1358,
      "step": 47510
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.7720524072647095,
      "learning_rate": 0.00029333702781724413,
      "loss": 3.946,
      "step": 47520
    },
    {
      "epoch": 0.09902083333333334,
      "grad_norm": 0.7630630731582642,
      "learning_rate": 0.0002933341218836284,
      "loss": 3.9112,
      "step": 47530
    },
    {
      "epoch": 0.09904166666666667,
      "grad_norm": 0.7275964617729187,
      "learning_rate": 0.0002933312153308659,
      "loss": 4.081,
      "step": 47540
    },
    {
      "epoch": 0.0990625,
      "grad_norm": 0.9284539222717285,
      "learning_rate": 0.0002933283081589693,
      "loss": 4.0526,
      "step": 47550
    },
    {
      "epoch": 0.09908333333333333,
      "grad_norm": 0.9822106957435608,
      "learning_rate": 0.0002933254003679512,
      "loss": 4.1105,
      "step": 47560
    },
    {
      "epoch": 0.09910416666666666,
      "grad_norm": 0.8202856779098511,
      "learning_rate": 0.0002933224919578241,
      "loss": 3.9995,
      "step": 47570
    },
    {
      "epoch": 0.099125,
      "grad_norm": 0.8212708234786987,
      "learning_rate": 0.0002933195829286005,
      "loss": 4.076,
      "step": 47580
    },
    {
      "epoch": 0.09914583333333334,
      "grad_norm": 0.7797238230705261,
      "learning_rate": 0.000293316673280293,
      "loss": 3.9969,
      "step": 47590
    },
    {
      "epoch": 0.09916666666666667,
      "grad_norm": 0.8424199819564819,
      "learning_rate": 0.0002933137630129143,
      "loss": 3.9508,
      "step": 47600
    },
    {
      "epoch": 0.0991875,
      "grad_norm": 0.7882276177406311,
      "learning_rate": 0.0002933108521264768,
      "loss": 4.0074,
      "step": 47610
    },
    {
      "epoch": 0.09920833333333333,
      "grad_norm": 0.8117292523384094,
      "learning_rate": 0.00029330794062099323,
      "loss": 4.1246,
      "step": 47620
    },
    {
      "epoch": 0.09922916666666666,
      "grad_norm": 0.8007997870445251,
      "learning_rate": 0.000293305028496476,
      "loss": 4.1091,
      "step": 47630
    },
    {
      "epoch": 0.09925,
      "grad_norm": 0.8753410577774048,
      "learning_rate": 0.00029330211575293784,
      "loss": 3.9582,
      "step": 47640
    },
    {
      "epoch": 0.09927083333333334,
      "grad_norm": 0.8327863812446594,
      "learning_rate": 0.00029329920239039124,
      "loss": 4.1667,
      "step": 47650
    },
    {
      "epoch": 0.09929166666666667,
      "grad_norm": 0.6958761811256409,
      "learning_rate": 0.00029329628840884874,
      "loss": 3.9031,
      "step": 47660
    },
    {
      "epoch": 0.0993125,
      "grad_norm": 0.7629930973052979,
      "learning_rate": 0.0002932933738083231,
      "loss": 3.8925,
      "step": 47670
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 0.7567424178123474,
      "learning_rate": 0.00029329045858882667,
      "loss": 4.1094,
      "step": 47680
    },
    {
      "epoch": 0.09935416666666666,
      "grad_norm": 0.7268300652503967,
      "learning_rate": 0.0002932875427503723,
      "loss": 4.152,
      "step": 47690
    },
    {
      "epoch": 0.099375,
      "grad_norm": 0.7327772378921509,
      "learning_rate": 0.00029328462629297245,
      "loss": 3.9603,
      "step": 47700
    },
    {
      "epoch": 0.09939583333333334,
      "grad_norm": 0.709102988243103,
      "learning_rate": 0.0002932817092166397,
      "loss": 3.9712,
      "step": 47710
    },
    {
      "epoch": 0.09941666666666667,
      "grad_norm": 0.8208205103874207,
      "learning_rate": 0.0002932787915213867,
      "loss": 3.9861,
      "step": 47720
    },
    {
      "epoch": 0.0994375,
      "grad_norm": 0.7061445713043213,
      "learning_rate": 0.000293275873207226,
      "loss": 4.0136,
      "step": 47730
    },
    {
      "epoch": 0.09945833333333333,
      "grad_norm": 0.7958305478096008,
      "learning_rate": 0.00029327295427417023,
      "loss": 3.8072,
      "step": 47740
    },
    {
      "epoch": 0.09947916666666666,
      "grad_norm": 0.9317709803581238,
      "learning_rate": 0.000293270034722232,
      "loss": 4.0987,
      "step": 47750
    },
    {
      "epoch": 0.0995,
      "grad_norm": 0.7192344665527344,
      "learning_rate": 0.000293267114551424,
      "loss": 3.8612,
      "step": 47760
    },
    {
      "epoch": 0.09952083333333334,
      "grad_norm": 0.8794879913330078,
      "learning_rate": 0.00029326419376175876,
      "loss": 3.9788,
      "step": 47770
    },
    {
      "epoch": 0.09954166666666667,
      "grad_norm": 0.9681157469749451,
      "learning_rate": 0.00029326127235324885,
      "loss": 3.8749,
      "step": 47780
    },
    {
      "epoch": 0.0995625,
      "grad_norm": 0.8535354733467102,
      "learning_rate": 0.000293258350325907,
      "loss": 3.8568,
      "step": 47790
    },
    {
      "epoch": 0.09958333333333333,
      "grad_norm": 0.7619017958641052,
      "learning_rate": 0.00029325542767974575,
      "loss": 4.014,
      "step": 47800
    },
    {
      "epoch": 0.09960416666666666,
      "grad_norm": 0.802689790725708,
      "learning_rate": 0.0002932525044147778,
      "loss": 3.9159,
      "step": 47810
    },
    {
      "epoch": 0.099625,
      "grad_norm": 0.8904974460601807,
      "learning_rate": 0.0002932495805310157,
      "loss": 4.0193,
      "step": 47820
    },
    {
      "epoch": 0.09964583333333334,
      "grad_norm": 0.8420990705490112,
      "learning_rate": 0.00029324665602847215,
      "loss": 3.9607,
      "step": 47830
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 0.7978883981704712,
      "learning_rate": 0.0002932437309071597,
      "loss": 4.1455,
      "step": 47840
    },
    {
      "epoch": 0.0996875,
      "grad_norm": 0.8461341261863708,
      "learning_rate": 0.0002932408051670911,
      "loss": 3.8847,
      "step": 47850
    },
    {
      "epoch": 0.09970833333333333,
      "grad_norm": 0.7385954260826111,
      "learning_rate": 0.00029323787880827887,
      "loss": 3.8897,
      "step": 47860
    },
    {
      "epoch": 0.09972916666666666,
      "grad_norm": 0.7400155067443848,
      "learning_rate": 0.0002932349518307357,
      "loss": 4.0359,
      "step": 47870
    },
    {
      "epoch": 0.09975,
      "grad_norm": 0.7641866207122803,
      "learning_rate": 0.0002932320242344743,
      "loss": 3.9807,
      "step": 47880
    },
    {
      "epoch": 0.09977083333333334,
      "grad_norm": 0.7876996397972107,
      "learning_rate": 0.00029322909601950717,
      "loss": 3.977,
      "step": 47890
    },
    {
      "epoch": 0.09979166666666667,
      "grad_norm": 0.8762141466140747,
      "learning_rate": 0.00029322616718584704,
      "loss": 3.8671,
      "step": 47900
    },
    {
      "epoch": 0.0998125,
      "grad_norm": 0.78408282995224,
      "learning_rate": 0.0002932232377335066,
      "loss": 3.9272,
      "step": 47910
    },
    {
      "epoch": 0.09983333333333333,
      "grad_norm": 0.791938304901123,
      "learning_rate": 0.0002932203076624984,
      "loss": 4.1735,
      "step": 47920
    },
    {
      "epoch": 0.09985416666666666,
      "grad_norm": 0.8397022485733032,
      "learning_rate": 0.00029321737697283524,
      "loss": 4.0246,
      "step": 47930
    },
    {
      "epoch": 0.099875,
      "grad_norm": 0.845992922782898,
      "learning_rate": 0.00029321444566452967,
      "loss": 4.0681,
      "step": 47940
    },
    {
      "epoch": 0.09989583333333334,
      "grad_norm": 0.8215623497962952,
      "learning_rate": 0.0002932115137375944,
      "loss": 3.9697,
      "step": 47950
    },
    {
      "epoch": 0.09991666666666667,
      "grad_norm": 0.8136407136917114,
      "learning_rate": 0.00029320858119204207,
      "loss": 4.074,
      "step": 47960
    },
    {
      "epoch": 0.0999375,
      "grad_norm": 0.8700049519538879,
      "learning_rate": 0.0002932056480278853,
      "loss": 4.0678,
      "step": 47970
    },
    {
      "epoch": 0.09995833333333333,
      "grad_norm": 0.7943379282951355,
      "learning_rate": 0.0002932027142451369,
      "loss": 3.9094,
      "step": 47980
    },
    {
      "epoch": 0.09997916666666666,
      "grad_norm": 0.857939600944519,
      "learning_rate": 0.00029319977984380944,
      "loss": 4.0355,
      "step": 47990
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8543757796287537,
      "learning_rate": 0.0002931968448239156,
      "loss": 4.0474,
      "step": 48000
    },
    {
      "epoch": 0.1,
      "eval_loss": 4.289906978607178,
      "eval_runtime": 10.053,
      "eval_samples_per_second": 0.995,
      "eval_steps_per_second": 0.298,
      "step": 48000
    },
    {
      "epoch": 0.10002083333333334,
      "grad_norm": 0.8843062520027161,
      "learning_rate": 0.00029319390918546804,
      "loss": 3.9355,
      "step": 48010
    },
    {
      "epoch": 0.10004166666666667,
      "grad_norm": 0.816810131072998,
      "learning_rate": 0.0002931909729284795,
      "loss": 3.9121,
      "step": 48020
    },
    {
      "epoch": 0.1000625,
      "grad_norm": 0.773061215877533,
      "learning_rate": 0.00029318803605296264,
      "loss": 3.8712,
      "step": 48030
    },
    {
      "epoch": 0.10008333333333333,
      "grad_norm": 0.8586753010749817,
      "learning_rate": 0.0002931850985589301,
      "loss": 4.0974,
      "step": 48040
    },
    {
      "epoch": 0.10010416666666666,
      "grad_norm": 0.8092135190963745,
      "learning_rate": 0.00029318216044639463,
      "loss": 4.0471,
      "step": 48050
    },
    {
      "epoch": 0.100125,
      "grad_norm": 0.7748659253120422,
      "learning_rate": 0.00029317922171536896,
      "loss": 4.0627,
      "step": 48060
    },
    {
      "epoch": 0.10014583333333334,
      "grad_norm": 0.8715799450874329,
      "learning_rate": 0.0002931762823658657,
      "loss": 4.0038,
      "step": 48070
    },
    {
      "epoch": 0.10016666666666667,
      "grad_norm": 0.8398181200027466,
      "learning_rate": 0.0002931733423978975,
      "loss": 3.9143,
      "step": 48080
    },
    {
      "epoch": 0.1001875,
      "grad_norm": 0.8415820002555847,
      "learning_rate": 0.0002931704018114772,
      "loss": 4.1442,
      "step": 48090
    },
    {
      "epoch": 0.10020833333333333,
      "grad_norm": 0.7531724572181702,
      "learning_rate": 0.00029316746060661746,
      "loss": 3.9571,
      "step": 48100
    },
    {
      "epoch": 0.10022916666666666,
      "grad_norm": 0.752133309841156,
      "learning_rate": 0.0002931645187833309,
      "loss": 3.8803,
      "step": 48110
    },
    {
      "epoch": 0.10025,
      "grad_norm": 0.9217782020568848,
      "learning_rate": 0.00029316157634163035,
      "loss": 4.0354,
      "step": 48120
    },
    {
      "epoch": 0.10027083333333334,
      "grad_norm": 0.8473939895629883,
      "learning_rate": 0.0002931586332815284,
      "loss": 3.9859,
      "step": 48130
    },
    {
      "epoch": 0.10029166666666667,
      "grad_norm": 0.8177861571311951,
      "learning_rate": 0.00029315568960303784,
      "loss": 4.085,
      "step": 48140
    },
    {
      "epoch": 0.1003125,
      "grad_norm": 0.8352412581443787,
      "learning_rate": 0.0002931527453061714,
      "loss": 3.9094,
      "step": 48150
    },
    {
      "epoch": 0.10033333333333333,
      "grad_norm": 0.7417232394218445,
      "learning_rate": 0.0002931498003909417,
      "loss": 4.0231,
      "step": 48160
    },
    {
      "epoch": 0.10035416666666666,
      "grad_norm": 0.8653228878974915,
      "learning_rate": 0.0002931468548573616,
      "loss": 3.9814,
      "step": 48170
    },
    {
      "epoch": 0.100375,
      "grad_norm": 0.8144654035568237,
      "learning_rate": 0.0002931439087054436,
      "loss": 4.063,
      "step": 48180
    },
    {
      "epoch": 0.10039583333333334,
      "grad_norm": 0.7889935970306396,
      "learning_rate": 0.00029314096193520077,
      "loss": 3.8462,
      "step": 48190
    },
    {
      "epoch": 0.10041666666666667,
      "grad_norm": 0.8404820561408997,
      "learning_rate": 0.00029313801454664554,
      "loss": 4.0805,
      "step": 48200
    },
    {
      "epoch": 0.1004375,
      "grad_norm": 0.7923071384429932,
      "learning_rate": 0.00029313506653979074,
      "loss": 3.9353,
      "step": 48210
    },
    {
      "epoch": 0.10045833333333333,
      "grad_norm": 0.8893242478370667,
      "learning_rate": 0.0002931321179146491,
      "loss": 4.1147,
      "step": 48220
    },
    {
      "epoch": 0.10047916666666666,
      "grad_norm": 0.886955976486206,
      "learning_rate": 0.00029312916867123344,
      "loss": 4.1148,
      "step": 48230
    },
    {
      "epoch": 0.1005,
      "grad_norm": 0.7061347365379333,
      "learning_rate": 0.00029312621880955636,
      "loss": 3.8669,
      "step": 48240
    },
    {
      "epoch": 0.10052083333333334,
      "grad_norm": 0.8133607506752014,
      "learning_rate": 0.0002931232683296307,
      "loss": 4.0559,
      "step": 48250
    },
    {
      "epoch": 0.10054166666666667,
      "grad_norm": 0.7835643887519836,
      "learning_rate": 0.00029312031723146913,
      "loss": 3.9161,
      "step": 48260
    },
    {
      "epoch": 0.1005625,
      "grad_norm": 0.8083547353744507,
      "learning_rate": 0.00029311736551508453,
      "loss": 4.1201,
      "step": 48270
    },
    {
      "epoch": 0.10058333333333333,
      "grad_norm": 0.8246859908103943,
      "learning_rate": 0.00029311441318048947,
      "loss": 3.9337,
      "step": 48280
    },
    {
      "epoch": 0.10060416666666666,
      "grad_norm": 0.801796019077301,
      "learning_rate": 0.0002931114602276968,
      "loss": 4.0163,
      "step": 48290
    },
    {
      "epoch": 0.100625,
      "grad_norm": 0.7840844392776489,
      "learning_rate": 0.0002931085066567193,
      "loss": 4.0318,
      "step": 48300
    },
    {
      "epoch": 0.10064583333333334,
      "grad_norm": 0.7900235056877136,
      "learning_rate": 0.00029310555246756973,
      "loss": 4.0952,
      "step": 48310
    },
    {
      "epoch": 0.10066666666666667,
      "grad_norm": 0.8517465591430664,
      "learning_rate": 0.00029310259766026075,
      "loss": 4.0203,
      "step": 48320
    },
    {
      "epoch": 0.1006875,
      "grad_norm": 0.7868654131889343,
      "learning_rate": 0.0002930996422348052,
      "loss": 3.9934,
      "step": 48330
    },
    {
      "epoch": 0.10070833333333333,
      "grad_norm": 0.8206043839454651,
      "learning_rate": 0.0002930966861912159,
      "loss": 4.0506,
      "step": 48340
    },
    {
      "epoch": 0.10072916666666666,
      "grad_norm": 1.0599678754806519,
      "learning_rate": 0.0002930937295295055,
      "loss": 3.7486,
      "step": 48350
    },
    {
      "epoch": 0.10075,
      "grad_norm": 0.714768648147583,
      "learning_rate": 0.00029309077224968686,
      "loss": 4.0196,
      "step": 48360
    },
    {
      "epoch": 0.10077083333333334,
      "grad_norm": 0.7742012739181519,
      "learning_rate": 0.00029308781435177274,
      "loss": 4.3208,
      "step": 48370
    },
    {
      "epoch": 0.10079166666666667,
      "grad_norm": 0.7835144400596619,
      "learning_rate": 0.0002930848558357758,
      "loss": 3.9986,
      "step": 48380
    },
    {
      "epoch": 0.1008125,
      "grad_norm": 0.8875382542610168,
      "learning_rate": 0.00029308189670170903,
      "loss": 3.8927,
      "step": 48390
    },
    {
      "epoch": 0.10083333333333333,
      "grad_norm": 0.8478334546089172,
      "learning_rate": 0.00029307893694958503,
      "loss": 3.9623,
      "step": 48400
    },
    {
      "epoch": 0.10085416666666666,
      "grad_norm": 0.7733252644538879,
      "learning_rate": 0.0002930759765794167,
      "loss": 3.9346,
      "step": 48410
    },
    {
      "epoch": 0.100875,
      "grad_norm": 0.7413328886032104,
      "learning_rate": 0.0002930730155912168,
      "loss": 3.9085,
      "step": 48420
    },
    {
      "epoch": 0.10089583333333334,
      "grad_norm": 0.9449418783187866,
      "learning_rate": 0.0002930700539849981,
      "loss": 4.0404,
      "step": 48430
    },
    {
      "epoch": 0.10091666666666667,
      "grad_norm": 0.7948735952377319,
      "learning_rate": 0.00029306709176077334,
      "loss": 3.927,
      "step": 48440
    },
    {
      "epoch": 0.1009375,
      "grad_norm": 0.7707638740539551,
      "learning_rate": 0.0002930641289185554,
      "loss": 3.8619,
      "step": 48450
    },
    {
      "epoch": 0.10095833333333333,
      "grad_norm": 0.8079097867012024,
      "learning_rate": 0.0002930611654583571,
      "loss": 4.0775,
      "step": 48460
    },
    {
      "epoch": 0.10097916666666666,
      "grad_norm": 0.7329848408699036,
      "learning_rate": 0.0002930582013801911,
      "loss": 4.0869,
      "step": 48470
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.8265479207038879,
      "learning_rate": 0.00029305523668407037,
      "loss": 3.9796,
      "step": 48480
    },
    {
      "epoch": 0.10102083333333334,
      "grad_norm": 0.8349348306655884,
      "learning_rate": 0.0002930522713700076,
      "loss": 3.9687,
      "step": 48490
    },
    {
      "epoch": 0.10104166666666667,
      "grad_norm": 0.7911477088928223,
      "learning_rate": 0.0002930493054380157,
      "loss": 4.054,
      "step": 48500
    },
    {
      "epoch": 0.1010625,
      "grad_norm": 0.9646768569946289,
      "learning_rate": 0.0002930463388881074,
      "loss": 3.9227,
      "step": 48510
    },
    {
      "epoch": 0.10108333333333333,
      "grad_norm": 0.6918789744377136,
      "learning_rate": 0.0002930433717202955,
      "loss": 3.9203,
      "step": 48520
    },
    {
      "epoch": 0.10110416666666666,
      "grad_norm": 0.8314200639724731,
      "learning_rate": 0.0002930404039345929,
      "loss": 4.0931,
      "step": 48530
    },
    {
      "epoch": 0.101125,
      "grad_norm": 0.8475630879402161,
      "learning_rate": 0.00029303743553101236,
      "loss": 4.1129,
      "step": 48540
    },
    {
      "epoch": 0.10114583333333334,
      "grad_norm": 0.8553993105888367,
      "learning_rate": 0.00029303446650956667,
      "loss": 4.0284,
      "step": 48550
    },
    {
      "epoch": 0.10116666666666667,
      "grad_norm": 0.6581719517707825,
      "learning_rate": 0.0002930314968702688,
      "loss": 3.8942,
      "step": 48560
    },
    {
      "epoch": 0.1011875,
      "grad_norm": 0.6285997033119202,
      "learning_rate": 0.0002930285266131314,
      "loss": 4.0276,
      "step": 48570
    },
    {
      "epoch": 0.10120833333333333,
      "grad_norm": 0.7463507652282715,
      "learning_rate": 0.0002930255557381674,
      "loss": 3.9576,
      "step": 48580
    },
    {
      "epoch": 0.10122916666666666,
      "grad_norm": 0.8259686231613159,
      "learning_rate": 0.00029302258424538963,
      "loss": 4.0482,
      "step": 48590
    },
    {
      "epoch": 0.10125,
      "grad_norm": 0.8114915490150452,
      "learning_rate": 0.0002930196121348109,
      "loss": 4.0009,
      "step": 48600
    },
    {
      "epoch": 0.10127083333333334,
      "grad_norm": 0.8224873542785645,
      "learning_rate": 0.000293016639406444,
      "loss": 3.9391,
      "step": 48610
    },
    {
      "epoch": 0.10129166666666667,
      "grad_norm": 0.78005051612854,
      "learning_rate": 0.00029301366606030186,
      "loss": 3.8487,
      "step": 48620
    },
    {
      "epoch": 0.1013125,
      "grad_norm": 0.8872798085212708,
      "learning_rate": 0.00029301069209639735,
      "loss": 4.0259,
      "step": 48630
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 0.7924345135688782,
      "learning_rate": 0.0002930077175147432,
      "loss": 3.8465,
      "step": 48640
    },
    {
      "epoch": 0.10135416666666666,
      "grad_norm": 0.7517092823982239,
      "learning_rate": 0.00029300474231535234,
      "loss": 4.0916,
      "step": 48650
    },
    {
      "epoch": 0.101375,
      "grad_norm": 0.7913499474525452,
      "learning_rate": 0.0002930017664982376,
      "loss": 4.0741,
      "step": 48660
    },
    {
      "epoch": 0.10139583333333334,
      "grad_norm": 0.7412816286087036,
      "learning_rate": 0.0002929987900634118,
      "loss": 3.8859,
      "step": 48670
    },
    {
      "epoch": 0.10141666666666667,
      "grad_norm": 0.7289633750915527,
      "learning_rate": 0.0002929958130108879,
      "loss": 4.1113,
      "step": 48680
    },
    {
      "epoch": 0.1014375,
      "grad_norm": 0.7767918109893799,
      "learning_rate": 0.00029299283534067863,
      "loss": 4.0098,
      "step": 48690
    },
    {
      "epoch": 0.10145833333333333,
      "grad_norm": 0.7512784004211426,
      "learning_rate": 0.00029298985705279696,
      "loss": 3.9756,
      "step": 48700
    },
    {
      "epoch": 0.10147916666666666,
      "grad_norm": 0.7407847046852112,
      "learning_rate": 0.0002929868781472556,
      "loss": 4.0508,
      "step": 48710
    },
    {
      "epoch": 0.1015,
      "grad_norm": 0.7690333724021912,
      "learning_rate": 0.00029298389862406765,
      "loss": 3.9943,
      "step": 48720
    },
    {
      "epoch": 0.10152083333333334,
      "grad_norm": 0.7743546366691589,
      "learning_rate": 0.00029298091848324576,
      "loss": 4.0104,
      "step": 48730
    },
    {
      "epoch": 0.10154166666666667,
      "grad_norm": 0.8832343816757202,
      "learning_rate": 0.00029297793772480296,
      "loss": 3.9181,
      "step": 48740
    },
    {
      "epoch": 0.1015625,
      "grad_norm": 0.8318539261817932,
      "learning_rate": 0.000292974956348752,
      "loss": 3.9926,
      "step": 48750
    },
    {
      "epoch": 0.10158333333333333,
      "grad_norm": 0.8682903051376343,
      "learning_rate": 0.0002929719743551059,
      "loss": 3.9908,
      "step": 48760
    },
    {
      "epoch": 0.10160416666666666,
      "grad_norm": 0.8463100790977478,
      "learning_rate": 0.0002929689917438774,
      "loss": 4.0358,
      "step": 48770
    },
    {
      "epoch": 0.101625,
      "grad_norm": 0.9606810808181763,
      "learning_rate": 0.0002929660085150795,
      "loss": 3.8609,
      "step": 48780
    },
    {
      "epoch": 0.10164583333333334,
      "grad_norm": 0.8414937853813171,
      "learning_rate": 0.00029296302466872505,
      "loss": 4.0187,
      "step": 48790
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 0.753025233745575,
      "learning_rate": 0.00029296004020482687,
      "loss": 3.9163,
      "step": 48800
    },
    {
      "epoch": 0.1016875,
      "grad_norm": 0.7454790472984314,
      "learning_rate": 0.0002929570551233979,
      "loss": 4.1404,
      "step": 48810
    },
    {
      "epoch": 0.10170833333333333,
      "grad_norm": 0.8382830619812012,
      "learning_rate": 0.00029295406942445105,
      "loss": 4.0039,
      "step": 48820
    },
    {
      "epoch": 0.10172916666666666,
      "grad_norm": 0.8115407824516296,
      "learning_rate": 0.0002929510831079992,
      "loss": 4.0264,
      "step": 48830
    },
    {
      "epoch": 0.10175,
      "grad_norm": 0.8527920246124268,
      "learning_rate": 0.0002929480961740553,
      "loss": 4.0552,
      "step": 48840
    },
    {
      "epoch": 0.10177083333333334,
      "grad_norm": 0.6670491099357605,
      "learning_rate": 0.0002929451086226321,
      "loss": 3.9676,
      "step": 48850
    },
    {
      "epoch": 0.10179166666666667,
      "grad_norm": 0.9203506112098694,
      "learning_rate": 0.00029294212045374277,
      "loss": 3.9041,
      "step": 48860
    },
    {
      "epoch": 0.1018125,
      "grad_norm": 1.0079104900360107,
      "learning_rate": 0.00029293913166739995,
      "loss": 4.2032,
      "step": 48870
    },
    {
      "epoch": 0.10183333333333333,
      "grad_norm": 0.7375483512878418,
      "learning_rate": 0.0002929361422636167,
      "loss": 4.0414,
      "step": 48880
    },
    {
      "epoch": 0.10185416666666666,
      "grad_norm": 0.7357567548751831,
      "learning_rate": 0.00029293315224240585,
      "loss": 3.8608,
      "step": 48890
    },
    {
      "epoch": 0.101875,
      "grad_norm": 0.872169554233551,
      "learning_rate": 0.0002929301616037804,
      "loss": 3.8202,
      "step": 48900
    },
    {
      "epoch": 0.10189583333333334,
      "grad_norm": 0.7828966379165649,
      "learning_rate": 0.00029292717034775317,
      "loss": 4.0236,
      "step": 48910
    },
    {
      "epoch": 0.10191666666666667,
      "grad_norm": 0.744910478591919,
      "learning_rate": 0.0002929241784743372,
      "loss": 3.7734,
      "step": 48920
    },
    {
      "epoch": 0.1019375,
      "grad_norm": 0.8325081467628479,
      "learning_rate": 0.0002929211859835453,
      "loss": 4.1502,
      "step": 48930
    },
    {
      "epoch": 0.10195833333333333,
      "grad_norm": 0.7611968517303467,
      "learning_rate": 0.0002929181928753905,
      "loss": 4.1402,
      "step": 48940
    },
    {
      "epoch": 0.10197916666666666,
      "grad_norm": 0.7041853666305542,
      "learning_rate": 0.0002929151991498857,
      "loss": 3.8247,
      "step": 48950
    },
    {
      "epoch": 0.102,
      "grad_norm": 1.2178140878677368,
      "learning_rate": 0.00029291220480704376,
      "loss": 3.9907,
      "step": 48960
    },
    {
      "epoch": 0.10202083333333334,
      "grad_norm": 0.8013404607772827,
      "learning_rate": 0.00029290920984687766,
      "loss": 4.0456,
      "step": 48970
    },
    {
      "epoch": 0.10204166666666667,
      "grad_norm": 0.911751925945282,
      "learning_rate": 0.00029290621426940035,
      "loss": 3.9297,
      "step": 48980
    },
    {
      "epoch": 0.1020625,
      "grad_norm": 0.7358882427215576,
      "learning_rate": 0.0002929032180746248,
      "loss": 4.0997,
      "step": 48990
    },
    {
      "epoch": 0.10208333333333333,
      "grad_norm": 0.7615472078323364,
      "learning_rate": 0.00029290022126256384,
      "loss": 3.9868,
      "step": 49000
    },
    {
      "epoch": 0.10208333333333333,
      "eval_loss": 4.279221534729004,
      "eval_runtime": 11.132,
      "eval_samples_per_second": 0.898,
      "eval_steps_per_second": 0.269,
      "step": 49000
    },
    {
      "epoch": 0.10210416666666666,
      "grad_norm": 0.9754301309585571,
      "learning_rate": 0.0002928972238332305,
      "loss": 3.9163,
      "step": 49010
    },
    {
      "epoch": 0.102125,
      "grad_norm": 0.7644997835159302,
      "learning_rate": 0.0002928942257866378,
      "loss": 3.9264,
      "step": 49020
    },
    {
      "epoch": 0.10214583333333334,
      "grad_norm": 0.9104974865913391,
      "learning_rate": 0.0002928912271227985,
      "loss": 3.9533,
      "step": 49030
    },
    {
      "epoch": 0.10216666666666667,
      "grad_norm": 0.7123526334762573,
      "learning_rate": 0.0002928882278417257,
      "loss": 4.0344,
      "step": 49040
    },
    {
      "epoch": 0.1021875,
      "grad_norm": 0.7307769060134888,
      "learning_rate": 0.0002928852279434323,
      "loss": 4.0587,
      "step": 49050
    },
    {
      "epoch": 0.10220833333333333,
      "grad_norm": 0.7550917863845825,
      "learning_rate": 0.0002928822274279313,
      "loss": 3.9351,
      "step": 49060
    },
    {
      "epoch": 0.10222916666666666,
      "grad_norm": 0.7527019381523132,
      "learning_rate": 0.00029287922629523566,
      "loss": 4.1098,
      "step": 49070
    },
    {
      "epoch": 0.10225,
      "grad_norm": 0.8842973709106445,
      "learning_rate": 0.0002928762245453583,
      "loss": 3.9981,
      "step": 49080
    },
    {
      "epoch": 0.10227083333333334,
      "grad_norm": 0.8290863037109375,
      "learning_rate": 0.0002928732221783122,
      "loss": 4.0481,
      "step": 49090
    },
    {
      "epoch": 0.10229166666666667,
      "grad_norm": 0.7998533248901367,
      "learning_rate": 0.00029287021919411027,
      "loss": 4.0834,
      "step": 49100
    },
    {
      "epoch": 0.1023125,
      "grad_norm": 0.762007474899292,
      "learning_rate": 0.00029286721559276563,
      "loss": 3.982,
      "step": 49110
    },
    {
      "epoch": 0.10233333333333333,
      "grad_norm": 0.8979332447052002,
      "learning_rate": 0.0002928642113742911,
      "loss": 4.0194,
      "step": 49120
    },
    {
      "epoch": 0.10235416666666666,
      "grad_norm": 0.9974207878112793,
      "learning_rate": 0.0002928612065386998,
      "loss": 4.1009,
      "step": 49130
    },
    {
      "epoch": 0.102375,
      "grad_norm": 0.9366331100463867,
      "learning_rate": 0.00029285820108600457,
      "loss": 4.029,
      "step": 49140
    },
    {
      "epoch": 0.10239583333333334,
      "grad_norm": 0.8985358476638794,
      "learning_rate": 0.0002928551950162185,
      "loss": 3.9376,
      "step": 49150
    },
    {
      "epoch": 0.10241666666666667,
      "grad_norm": 0.746322512626648,
      "learning_rate": 0.0002928521883293546,
      "loss": 4.0996,
      "step": 49160
    },
    {
      "epoch": 0.1024375,
      "grad_norm": 0.9474925398826599,
      "learning_rate": 0.0002928491810254257,
      "loss": 3.8871,
      "step": 49170
    },
    {
      "epoch": 0.10245833333333333,
      "grad_norm": 0.7851362824440002,
      "learning_rate": 0.0002928461731044448,
      "loss": 4.1091,
      "step": 49180
    },
    {
      "epoch": 0.10247916666666666,
      "grad_norm": 0.783072292804718,
      "learning_rate": 0.00029284316456642515,
      "loss": 3.7817,
      "step": 49190
    },
    {
      "epoch": 0.1025,
      "grad_norm": 0.9836112260818481,
      "learning_rate": 0.00029284015541137945,
      "loss": 3.905,
      "step": 49200
    },
    {
      "epoch": 0.10252083333333334,
      "grad_norm": 0.8573542237281799,
      "learning_rate": 0.00029283714563932086,
      "loss": 3.9814,
      "step": 49210
    },
    {
      "epoch": 0.10254166666666667,
      "grad_norm": 0.7882057428359985,
      "learning_rate": 0.0002928341352502624,
      "loss": 4.1734,
      "step": 49220
    },
    {
      "epoch": 0.1025625,
      "grad_norm": 0.9768480658531189,
      "learning_rate": 0.0002928311242442169,
      "loss": 3.9894,
      "step": 49230
    },
    {
      "epoch": 0.10258333333333333,
      "grad_norm": 0.9667037129402161,
      "learning_rate": 0.00029282811262119755,
      "loss": 4.0288,
      "step": 49240
    },
    {
      "epoch": 0.10260416666666666,
      "grad_norm": 0.8566751480102539,
      "learning_rate": 0.00029282510038121726,
      "loss": 3.8351,
      "step": 49250
    },
    {
      "epoch": 0.102625,
      "grad_norm": 0.7664220333099365,
      "learning_rate": 0.00029282208752428907,
      "loss": 3.6883,
      "step": 49260
    },
    {
      "epoch": 0.10264583333333334,
      "grad_norm": 0.9574827551841736,
      "learning_rate": 0.000292819074050426,
      "loss": 3.7981,
      "step": 49270
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 0.7889763712882996,
      "learning_rate": 0.00029281605995964114,
      "loss": 4.1148,
      "step": 49280
    },
    {
      "epoch": 0.1026875,
      "grad_norm": 0.829759955406189,
      "learning_rate": 0.0002928130452519473,
      "loss": 3.9801,
      "step": 49290
    },
    {
      "epoch": 0.10270833333333333,
      "grad_norm": 0.8234230279922485,
      "learning_rate": 0.00029281002992735775,
      "loss": 4.0917,
      "step": 49300
    },
    {
      "epoch": 0.10272916666666666,
      "grad_norm": 0.7281298637390137,
      "learning_rate": 0.00029280701398588533,
      "loss": 3.9818,
      "step": 49310
    },
    {
      "epoch": 0.10275,
      "grad_norm": 0.7572320699691772,
      "learning_rate": 0.00029280399742754313,
      "loss": 4.1521,
      "step": 49320
    },
    {
      "epoch": 0.10277083333333334,
      "grad_norm": 0.8192873597145081,
      "learning_rate": 0.0002928009802523442,
      "loss": 4.0046,
      "step": 49330
    },
    {
      "epoch": 0.10279166666666667,
      "grad_norm": 0.8160560727119446,
      "learning_rate": 0.0002927979624603016,
      "loss": 4.0175,
      "step": 49340
    },
    {
      "epoch": 0.1028125,
      "grad_norm": 0.7159867286682129,
      "learning_rate": 0.00029279494405142826,
      "loss": 4.0199,
      "step": 49350
    },
    {
      "epoch": 0.10283333333333333,
      "grad_norm": 0.766180157661438,
      "learning_rate": 0.0002927919250257373,
      "loss": 3.9971,
      "step": 49360
    },
    {
      "epoch": 0.10285416666666666,
      "grad_norm": 0.9074235558509827,
      "learning_rate": 0.0002927889053832418,
      "loss": 4.0298,
      "step": 49370
    },
    {
      "epoch": 0.102875,
      "grad_norm": 0.7642560005187988,
      "learning_rate": 0.0002927858851239547,
      "loss": 3.898,
      "step": 49380
    },
    {
      "epoch": 0.10289583333333334,
      "grad_norm": 0.829748809337616,
      "learning_rate": 0.0002927828642478891,
      "loss": 3.9329,
      "step": 49390
    },
    {
      "epoch": 0.10291666666666667,
      "grad_norm": 0.7976492643356323,
      "learning_rate": 0.000292779842755058,
      "loss": 3.9423,
      "step": 49400
    },
    {
      "epoch": 0.1029375,
      "grad_norm": 0.7786514163017273,
      "learning_rate": 0.0002927768206454746,
      "loss": 3.9403,
      "step": 49410
    },
    {
      "epoch": 0.10295833333333333,
      "grad_norm": 0.7262424230575562,
      "learning_rate": 0.0002927737979191518,
      "loss": 4.1115,
      "step": 49420
    },
    {
      "epoch": 0.10297916666666666,
      "grad_norm": 0.7670385837554932,
      "learning_rate": 0.00029277077457610267,
      "loss": 4.1396,
      "step": 49430
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.82208251953125,
      "learning_rate": 0.0002927677506163404,
      "loss": 4.142,
      "step": 49440
    },
    {
      "epoch": 0.10302083333333334,
      "grad_norm": 0.7978679537773132,
      "learning_rate": 0.00029276472603987784,
      "loss": 4.1244,
      "step": 49450
    },
    {
      "epoch": 0.10304166666666667,
      "grad_norm": 0.7851456999778748,
      "learning_rate": 0.00029276170084672825,
      "loss": 3.9971,
      "step": 49460
    },
    {
      "epoch": 0.1030625,
      "grad_norm": 0.7363708019256592,
      "learning_rate": 0.0002927586750369046,
      "loss": 3.9513,
      "step": 49470
    },
    {
      "epoch": 0.10308333333333333,
      "grad_norm": 0.7379972338676453,
      "learning_rate": 0.00029275564861042,
      "loss": 4.002,
      "step": 49480
    },
    {
      "epoch": 0.10310416666666666,
      "grad_norm": 0.816502571105957,
      "learning_rate": 0.0002927526215672874,
      "loss": 3.9003,
      "step": 49490
    },
    {
      "epoch": 0.103125,
      "grad_norm": 0.6890751123428345,
      "learning_rate": 0.00029274959390752014,
      "loss": 4.088,
      "step": 49500
    },
    {
      "epoch": 0.10314583333333334,
      "grad_norm": 0.9515795111656189,
      "learning_rate": 0.000292746565631131,
      "loss": 4.0423,
      "step": 49510
    },
    {
      "epoch": 0.10316666666666667,
      "grad_norm": 0.8364551663398743,
      "learning_rate": 0.0002927435367381333,
      "loss": 4.1687,
      "step": 49520
    },
    {
      "epoch": 0.1031875,
      "grad_norm": 0.8386387228965759,
      "learning_rate": 0.00029274050722854003,
      "loss": 3.9976,
      "step": 49530
    },
    {
      "epoch": 0.10320833333333333,
      "grad_norm": 0.7329249382019043,
      "learning_rate": 0.0002927374771023642,
      "loss": 4.0518,
      "step": 49540
    },
    {
      "epoch": 0.10322916666666666,
      "grad_norm": 0.7842952609062195,
      "learning_rate": 0.000292734446359619,
      "loss": 4.1366,
      "step": 49550
    },
    {
      "epoch": 0.10325,
      "grad_norm": 1.1091388463974,
      "learning_rate": 0.00029273141500031744,
      "loss": 3.8086,
      "step": 49560
    },
    {
      "epoch": 0.10327083333333334,
      "grad_norm": 0.853715181350708,
      "learning_rate": 0.00029272838302447273,
      "loss": 4.2191,
      "step": 49570
    },
    {
      "epoch": 0.10329166666666667,
      "grad_norm": 0.7744817733764648,
      "learning_rate": 0.00029272535043209786,
      "loss": 3.8953,
      "step": 49580
    },
    {
      "epoch": 0.1033125,
      "grad_norm": 0.9503114223480225,
      "learning_rate": 0.000292722317223206,
      "loss": 4.0883,
      "step": 49590
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 0.9309439063072205,
      "learning_rate": 0.00029271928339781025,
      "loss": 3.9083,
      "step": 49600
    },
    {
      "epoch": 0.10335416666666666,
      "grad_norm": 0.7342001795768738,
      "learning_rate": 0.00029271624895592363,
      "loss": 4.1028,
      "step": 49610
    },
    {
      "epoch": 0.103375,
      "grad_norm": 0.7266141176223755,
      "learning_rate": 0.00029271321389755933,
      "loss": 3.969,
      "step": 49620
    },
    {
      "epoch": 0.10339583333333334,
      "grad_norm": 0.9200646281242371,
      "learning_rate": 0.0002927101782227304,
      "loss": 4.0235,
      "step": 49630
    },
    {
      "epoch": 0.10341666666666667,
      "grad_norm": 0.6631282567977905,
      "learning_rate": 0.00029270714193145006,
      "loss": 4.1643,
      "step": 49640
    },
    {
      "epoch": 0.1034375,
      "grad_norm": 0.7198712229728699,
      "learning_rate": 0.0002927041050237313,
      "loss": 4.0177,
      "step": 49650
    },
    {
      "epoch": 0.10345833333333333,
      "grad_norm": 0.9006595611572266,
      "learning_rate": 0.00029270106749958733,
      "loss": 4.0086,
      "step": 49660
    },
    {
      "epoch": 0.10347916666666666,
      "grad_norm": 0.8360154032707214,
      "learning_rate": 0.0002926980293590312,
      "loss": 3.8695,
      "step": 49670
    },
    {
      "epoch": 0.1035,
      "grad_norm": 0.9182197451591492,
      "learning_rate": 0.0002926949906020761,
      "loss": 3.9632,
      "step": 49680
    },
    {
      "epoch": 0.10352083333333334,
      "grad_norm": 0.9201945662498474,
      "learning_rate": 0.0002926919512287351,
      "loss": 3.9462,
      "step": 49690
    },
    {
      "epoch": 0.10354166666666667,
      "grad_norm": 0.7564398646354675,
      "learning_rate": 0.00029268891123902135,
      "loss": 4.0421,
      "step": 49700
    },
    {
      "epoch": 0.1035625,
      "grad_norm": 0.744978129863739,
      "learning_rate": 0.000292685870632948,
      "loss": 3.9736,
      "step": 49710
    },
    {
      "epoch": 0.10358333333333333,
      "grad_norm": 0.8487722873687744,
      "learning_rate": 0.0002926828294105281,
      "loss": 3.9147,
      "step": 49720
    },
    {
      "epoch": 0.10360416666666666,
      "grad_norm": 0.7436109185218811,
      "learning_rate": 0.00029267978757177495,
      "loss": 4.0179,
      "step": 49730
    },
    {
      "epoch": 0.103625,
      "grad_norm": 0.8878900408744812,
      "learning_rate": 0.00029267674511670154,
      "loss": 4.1525,
      "step": 49740
    },
    {
      "epoch": 0.10364583333333334,
      "grad_norm": 0.7143101692199707,
      "learning_rate": 0.0002926737020453211,
      "loss": 4.0508,
      "step": 49750
    },
    {
      "epoch": 0.10366666666666667,
      "grad_norm": 0.7519477605819702,
      "learning_rate": 0.0002926706583576467,
      "loss": 4.0238,
      "step": 49760
    },
    {
      "epoch": 0.1036875,
      "grad_norm": 0.7808490991592407,
      "learning_rate": 0.0002926676140536916,
      "loss": 4.1462,
      "step": 49770
    },
    {
      "epoch": 0.10370833333333333,
      "grad_norm": 0.8784478902816772,
      "learning_rate": 0.0002926645691334688,
      "loss": 4.0128,
      "step": 49780
    },
    {
      "epoch": 0.10372916666666666,
      "grad_norm": 1.1122761964797974,
      "learning_rate": 0.00029266152359699155,
      "loss": 3.9807,
      "step": 49790
    },
    {
      "epoch": 0.10375,
      "grad_norm": 0.7357746958732605,
      "learning_rate": 0.00029265847744427303,
      "loss": 3.9639,
      "step": 49800
    },
    {
      "epoch": 0.10377083333333334,
      "grad_norm": 0.7455911636352539,
      "learning_rate": 0.0002926554306753263,
      "loss": 3.8197,
      "step": 49810
    },
    {
      "epoch": 0.10379166666666667,
      "grad_norm": 1.1235969066619873,
      "learning_rate": 0.0002926523832901646,
      "loss": 3.9328,
      "step": 49820
    },
    {
      "epoch": 0.1038125,
      "grad_norm": 0.7532281279563904,
      "learning_rate": 0.0002926493352888011,
      "loss": 4.0109,
      "step": 49830
    },
    {
      "epoch": 0.10383333333333333,
      "grad_norm": 0.7917546629905701,
      "learning_rate": 0.0002926462866712489,
      "loss": 4.0569,
      "step": 49840
    },
    {
      "epoch": 0.10385416666666666,
      "grad_norm": 0.864628791809082,
      "learning_rate": 0.0002926432374375212,
      "loss": 3.9632,
      "step": 49850
    },
    {
      "epoch": 0.103875,
      "grad_norm": 0.8916741013526917,
      "learning_rate": 0.00029264018758763124,
      "loss": 4.0212,
      "step": 49860
    },
    {
      "epoch": 0.10389583333333334,
      "grad_norm": 0.7745014429092407,
      "learning_rate": 0.00029263713712159207,
      "loss": 3.7903,
      "step": 49870
    },
    {
      "epoch": 0.10391666666666667,
      "grad_norm": 0.7800654768943787,
      "learning_rate": 0.0002926340860394169,
      "loss": 3.9733,
      "step": 49880
    },
    {
      "epoch": 0.1039375,
      "grad_norm": 0.82977694272995,
      "learning_rate": 0.000292631034341119,
      "loss": 3.9504,
      "step": 49890
    },
    {
      "epoch": 0.10395833333333333,
      "grad_norm": 0.8692675828933716,
      "learning_rate": 0.00029262798202671147,
      "loss": 3.7943,
      "step": 49900
    },
    {
      "epoch": 0.10397916666666666,
      "grad_norm": 0.9102606177330017,
      "learning_rate": 0.0002926249290962075,
      "loss": 4.0497,
      "step": 49910
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.7787212133407593,
      "learning_rate": 0.0002926218755496203,
      "loss": 3.9585,
      "step": 49920
    },
    {
      "epoch": 0.10402083333333334,
      "grad_norm": 0.7164571285247803,
      "learning_rate": 0.000292618821386963,
      "loss": 3.9474,
      "step": 49930
    },
    {
      "epoch": 0.10404166666666667,
      "grad_norm": 0.8608791828155518,
      "learning_rate": 0.0002926157666082489,
      "loss": 3.8387,
      "step": 49940
    },
    {
      "epoch": 0.1040625,
      "grad_norm": 0.8274163007736206,
      "learning_rate": 0.0002926127112134912,
      "loss": 4.2699,
      "step": 49950
    },
    {
      "epoch": 0.10408333333333333,
      "grad_norm": 0.7702623605728149,
      "learning_rate": 0.0002926096552027029,
      "loss": 3.9437,
      "step": 49960
    },
    {
      "epoch": 0.10410416666666666,
      "grad_norm": 0.9424062371253967,
      "learning_rate": 0.0002926065985758974,
      "loss": 4.0845,
      "step": 49970
    },
    {
      "epoch": 0.104125,
      "grad_norm": 0.7174128890037537,
      "learning_rate": 0.0002926035413330879,
      "loss": 3.8873,
      "step": 49980
    },
    {
      "epoch": 0.10414583333333334,
      "grad_norm": 0.84706050157547,
      "learning_rate": 0.00029260048347428747,
      "loss": 4.1487,
      "step": 49990
    },
    {
      "epoch": 0.10416666666666667,
      "grad_norm": 0.8415717482566833,
      "learning_rate": 0.0002925974249995094,
      "loss": 4.1809,
      "step": 50000
    },
    {
      "epoch": 0.10416666666666667,
      "eval_loss": 4.297389984130859,
      "eval_runtime": 10.293,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.291,
      "step": 50000
    },
    {
      "epoch": 0.1041875,
      "grad_norm": 0.7332421541213989,
      "learning_rate": 0.00029259436590876696,
      "loss": 4.0715,
      "step": 50010
    },
    {
      "epoch": 0.10420833333333333,
      "grad_norm": 0.7491800785064697,
      "learning_rate": 0.0002925913062020733,
      "loss": 3.9114,
      "step": 50020
    },
    {
      "epoch": 0.10422916666666666,
      "grad_norm": 0.9135246872901917,
      "learning_rate": 0.0002925882458794416,
      "loss": 4.0655,
      "step": 50030
    },
    {
      "epoch": 0.10425,
      "grad_norm": 0.6985059380531311,
      "learning_rate": 0.0002925851849408851,
      "loss": 3.8971,
      "step": 50040
    },
    {
      "epoch": 0.10427083333333333,
      "grad_norm": 1.4761148691177368,
      "learning_rate": 0.000292582123386417,
      "loss": 4.0234,
      "step": 50050
    },
    {
      "epoch": 0.10429166666666667,
      "grad_norm": 0.664412260055542,
      "learning_rate": 0.0002925790612160507,
      "loss": 3.9561,
      "step": 50060
    },
    {
      "epoch": 0.1043125,
      "grad_norm": 0.9128052592277527,
      "learning_rate": 0.0002925759984297992,
      "loss": 4.0387,
      "step": 50070
    },
    {
      "epoch": 0.10433333333333333,
      "grad_norm": 0.9343786835670471,
      "learning_rate": 0.00029257293502767584,
      "loss": 3.8637,
      "step": 50080
    },
    {
      "epoch": 0.10435416666666666,
      "grad_norm": 0.7153036594390869,
      "learning_rate": 0.0002925698710096938,
      "loss": 3.7199,
      "step": 50090
    },
    {
      "epoch": 0.104375,
      "grad_norm": 1.027160406112671,
      "learning_rate": 0.00029256680637586643,
      "loss": 4.066,
      "step": 50100
    },
    {
      "epoch": 0.10439583333333333,
      "grad_norm": 0.8474220633506775,
      "learning_rate": 0.0002925637411262068,
      "loss": 4.0601,
      "step": 50110
    },
    {
      "epoch": 0.10441666666666667,
      "grad_norm": 0.7367342710494995,
      "learning_rate": 0.00029256067526072833,
      "loss": 4.1273,
      "step": 50120
    },
    {
      "epoch": 0.1044375,
      "grad_norm": 0.7844774127006531,
      "learning_rate": 0.0002925576087794441,
      "loss": 4.0051,
      "step": 50130
    },
    {
      "epoch": 0.10445833333333333,
      "grad_norm": 0.8256841897964478,
      "learning_rate": 0.00029255454168236746,
      "loss": 4.1477,
      "step": 50140
    },
    {
      "epoch": 0.10447916666666666,
      "grad_norm": 0.7564240097999573,
      "learning_rate": 0.00029255147396951164,
      "loss": 4.0054,
      "step": 50150
    },
    {
      "epoch": 0.1045,
      "grad_norm": 0.8072596192359924,
      "learning_rate": 0.00029254840564088986,
      "loss": 4.0328,
      "step": 50160
    },
    {
      "epoch": 0.10452083333333333,
      "grad_norm": 0.7570194602012634,
      "learning_rate": 0.00029254533669651535,
      "loss": 4.1092,
      "step": 50170
    },
    {
      "epoch": 0.10454166666666667,
      "grad_norm": 0.7939029932022095,
      "learning_rate": 0.00029254226713640145,
      "loss": 4.0607,
      "step": 50180
    },
    {
      "epoch": 0.1045625,
      "grad_norm": 0.8470191955566406,
      "learning_rate": 0.0002925391969605614,
      "loss": 3.9466,
      "step": 50190
    },
    {
      "epoch": 0.10458333333333333,
      "grad_norm": 0.8378742933273315,
      "learning_rate": 0.00029253612616900843,
      "loss": 3.8653,
      "step": 50200
    },
    {
      "epoch": 0.10460416666666666,
      "grad_norm": 0.7377639412879944,
      "learning_rate": 0.0002925330547617558,
      "loss": 3.9531,
      "step": 50210
    },
    {
      "epoch": 0.104625,
      "grad_norm": 0.7611543536186218,
      "learning_rate": 0.0002925299827388168,
      "loss": 3.9893,
      "step": 50220
    },
    {
      "epoch": 0.10464583333333333,
      "grad_norm": 0.8976886868476868,
      "learning_rate": 0.0002925269101002047,
      "loss": 3.8919,
      "step": 50230
    },
    {
      "epoch": 0.10466666666666667,
      "grad_norm": 0.7549887895584106,
      "learning_rate": 0.0002925238368459327,
      "loss": 4.0386,
      "step": 50240
    },
    {
      "epoch": 0.1046875,
      "grad_norm": 0.8677572011947632,
      "learning_rate": 0.00029252076297601423,
      "loss": 3.9659,
      "step": 50250
    },
    {
      "epoch": 0.10470833333333333,
      "grad_norm": 0.762859582901001,
      "learning_rate": 0.0002925176884904624,
      "loss": 4.075,
      "step": 50260
    },
    {
      "epoch": 0.10472916666666666,
      "grad_norm": 0.8148066997528076,
      "learning_rate": 0.00029251461338929065,
      "loss": 3.7264,
      "step": 50270
    },
    {
      "epoch": 0.10475,
      "grad_norm": 0.8349539637565613,
      "learning_rate": 0.0002925115376725121,
      "loss": 3.913,
      "step": 50280
    },
    {
      "epoch": 0.10477083333333333,
      "grad_norm": 0.7816223502159119,
      "learning_rate": 0.0002925084613401402,
      "loss": 3.8862,
      "step": 50290
    },
    {
      "epoch": 0.10479166666666667,
      "grad_norm": 0.7295699119567871,
      "learning_rate": 0.0002925053843921881,
      "loss": 4.0102,
      "step": 50300
    },
    {
      "epoch": 0.1048125,
      "grad_norm": 0.8120856881141663,
      "learning_rate": 0.0002925023068286692,
      "loss": 3.8875,
      "step": 50310
    },
    {
      "epoch": 0.10483333333333333,
      "grad_norm": 1.1395620107650757,
      "learning_rate": 0.00029249922864959664,
      "loss": 3.9359,
      "step": 50320
    },
    {
      "epoch": 0.10485416666666666,
      "grad_norm": 0.7384068369865417,
      "learning_rate": 0.0002924961498549839,
      "loss": 4.0018,
      "step": 50330
    },
    {
      "epoch": 0.104875,
      "grad_norm": 0.8635039329528809,
      "learning_rate": 0.0002924930704448442,
      "loss": 4.1305,
      "step": 50340
    },
    {
      "epoch": 0.10489583333333333,
      "grad_norm": 0.7934401035308838,
      "learning_rate": 0.0002924899904191908,
      "loss": 3.9081,
      "step": 50350
    },
    {
      "epoch": 0.10491666666666667,
      "grad_norm": 0.8167548775672913,
      "learning_rate": 0.00029248690977803704,
      "loss": 4.1142,
      "step": 50360
    },
    {
      "epoch": 0.1049375,
      "grad_norm": 0.8746498823165894,
      "learning_rate": 0.00029248382852139625,
      "loss": 4.0032,
      "step": 50370
    },
    {
      "epoch": 0.10495833333333333,
      "grad_norm": 0.7526291012763977,
      "learning_rate": 0.0002924807466492817,
      "loss": 3.9386,
      "step": 50380
    },
    {
      "epoch": 0.10497916666666667,
      "grad_norm": 0.8463457822799683,
      "learning_rate": 0.0002924776641617067,
      "loss": 3.9327,
      "step": 50390
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.7756918668746948,
      "learning_rate": 0.00029247458105868465,
      "loss": 4.0188,
      "step": 50400
    },
    {
      "epoch": 0.10502083333333333,
      "grad_norm": 0.7623472809791565,
      "learning_rate": 0.0002924714973402288,
      "loss": 3.9955,
      "step": 50410
    },
    {
      "epoch": 0.10504166666666667,
      "grad_norm": 0.8627665638923645,
      "learning_rate": 0.0002924684130063524,
      "loss": 3.7877,
      "step": 50420
    },
    {
      "epoch": 0.1050625,
      "grad_norm": 0.7579430341720581,
      "learning_rate": 0.0002924653280570689,
      "loss": 3.8942,
      "step": 50430
    },
    {
      "epoch": 0.10508333333333333,
      "grad_norm": 0.7957767844200134,
      "learning_rate": 0.0002924622424923917,
      "loss": 3.8836,
      "step": 50440
    },
    {
      "epoch": 0.10510416666666667,
      "grad_norm": 0.6570121645927429,
      "learning_rate": 0.0002924591563123338,
      "loss": 4.1169,
      "step": 50450
    },
    {
      "epoch": 0.105125,
      "grad_norm": 0.8972878456115723,
      "learning_rate": 0.0002924560695169088,
      "loss": 3.9676,
      "step": 50460
    },
    {
      "epoch": 0.10514583333333333,
      "grad_norm": 0.6778743863105774,
      "learning_rate": 0.00029245298210613,
      "loss": 4.0302,
      "step": 50470
    },
    {
      "epoch": 0.10516666666666667,
      "grad_norm": 0.7888743281364441,
      "learning_rate": 0.0002924498940800107,
      "loss": 4.1227,
      "step": 50480
    },
    {
      "epoch": 0.1051875,
      "grad_norm": 0.7683044075965881,
      "learning_rate": 0.00029244680543856423,
      "loss": 3.8516,
      "step": 50490
    },
    {
      "epoch": 0.10520833333333333,
      "grad_norm": 0.8148704171180725,
      "learning_rate": 0.00029244371618180394,
      "loss": 3.9154,
      "step": 50500
    },
    {
      "epoch": 0.10522916666666667,
      "grad_norm": 0.9741986393928528,
      "learning_rate": 0.0002924406263097432,
      "loss": 4.0475,
      "step": 50510
    },
    {
      "epoch": 0.10525,
      "grad_norm": 0.7736107707023621,
      "learning_rate": 0.0002924375358223953,
      "loss": 3.9644,
      "step": 50520
    },
    {
      "epoch": 0.10527083333333333,
      "grad_norm": 1.2221715450286865,
      "learning_rate": 0.00029243444471977365,
      "loss": 4.0309,
      "step": 50530
    },
    {
      "epoch": 0.10529166666666667,
      "grad_norm": 0.6649412512779236,
      "learning_rate": 0.00029243135300189156,
      "loss": 4.0933,
      "step": 50540
    },
    {
      "epoch": 0.1053125,
      "grad_norm": 0.7663376927375793,
      "learning_rate": 0.0002924282606687624,
      "loss": 4.0095,
      "step": 50550
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 0.7610189318656921,
      "learning_rate": 0.0002924251677203996,
      "loss": 3.9598,
      "step": 50560
    },
    {
      "epoch": 0.10535416666666667,
      "grad_norm": 0.9958245158195496,
      "learning_rate": 0.0002924220741568164,
      "loss": 4.2527,
      "step": 50570
    },
    {
      "epoch": 0.105375,
      "grad_norm": 0.7776246666908264,
      "learning_rate": 0.0002924189799780262,
      "loss": 3.9269,
      "step": 50580
    },
    {
      "epoch": 0.10539583333333333,
      "grad_norm": 0.8658514022827148,
      "learning_rate": 0.00029241588518404236,
      "loss": 4.0698,
      "step": 50590
    },
    {
      "epoch": 0.10541666666666667,
      "grad_norm": 0.8035275340080261,
      "learning_rate": 0.00029241278977487834,
      "loss": 3.9233,
      "step": 50600
    },
    {
      "epoch": 0.1054375,
      "grad_norm": 0.7829310297966003,
      "learning_rate": 0.0002924096937505474,
      "loss": 4.0918,
      "step": 50610
    },
    {
      "epoch": 0.10545833333333333,
      "grad_norm": 0.7781623601913452,
      "learning_rate": 0.00029240659711106295,
      "loss": 4.006,
      "step": 50620
    },
    {
      "epoch": 0.10547916666666667,
      "grad_norm": 0.9349314570426941,
      "learning_rate": 0.00029240349985643836,
      "loss": 3.9699,
      "step": 50630
    },
    {
      "epoch": 0.1055,
      "grad_norm": 0.8020880818367004,
      "learning_rate": 0.000292400401986687,
      "loss": 3.7798,
      "step": 50640
    },
    {
      "epoch": 0.10552083333333333,
      "grad_norm": 0.8185389041900635,
      "learning_rate": 0.0002923973035018223,
      "loss": 3.7593,
      "step": 50650
    },
    {
      "epoch": 0.10554166666666667,
      "grad_norm": 0.785984218120575,
      "learning_rate": 0.00029239420440185766,
      "loss": 4.0674,
      "step": 50660
    },
    {
      "epoch": 0.1055625,
      "grad_norm": 0.789100706577301,
      "learning_rate": 0.0002923911046868064,
      "loss": 3.9638,
      "step": 50670
    },
    {
      "epoch": 0.10558333333333333,
      "grad_norm": 0.8402634263038635,
      "learning_rate": 0.0002923880043566819,
      "loss": 4.0903,
      "step": 50680
    },
    {
      "epoch": 0.10560416666666667,
      "grad_norm": 1.0088058710098267,
      "learning_rate": 0.00029238490341149755,
      "loss": 3.9821,
      "step": 50690
    },
    {
      "epoch": 0.105625,
      "grad_norm": 0.834857702255249,
      "learning_rate": 0.0002923818018512668,
      "loss": 4.2185,
      "step": 50700
    },
    {
      "epoch": 0.10564583333333333,
      "grad_norm": 0.853425145149231,
      "learning_rate": 0.00029237869967600305,
      "loss": 4.0249,
      "step": 50710
    },
    {
      "epoch": 0.10566666666666667,
      "grad_norm": 0.8179558515548706,
      "learning_rate": 0.00029237559688571966,
      "loss": 4.0019,
      "step": 50720
    },
    {
      "epoch": 0.1056875,
      "grad_norm": 0.7183098196983337,
      "learning_rate": 0.0002923724934804301,
      "loss": 4.0692,
      "step": 50730
    },
    {
      "epoch": 0.10570833333333333,
      "grad_norm": 0.9169472455978394,
      "learning_rate": 0.0002923693894601476,
      "loss": 3.8953,
      "step": 50740
    },
    {
      "epoch": 0.10572916666666667,
      "grad_norm": 0.7225739359855652,
      "learning_rate": 0.0002923662848248858,
      "loss": 3.9849,
      "step": 50750
    },
    {
      "epoch": 0.10575,
      "grad_norm": 0.8414003252983093,
      "learning_rate": 0.000292363179574658,
      "loss": 3.8344,
      "step": 50760
    },
    {
      "epoch": 0.10577083333333333,
      "grad_norm": 0.7592816352844238,
      "learning_rate": 0.0002923600737094775,
      "loss": 3.98,
      "step": 50770
    },
    {
      "epoch": 0.10579166666666667,
      "grad_norm": 0.7695099711418152,
      "learning_rate": 0.000292356967229358,
      "loss": 3.9001,
      "step": 50780
    },
    {
      "epoch": 0.1058125,
      "grad_norm": 0.7274512052536011,
      "learning_rate": 0.0002923538601343126,
      "loss": 3.9954,
      "step": 50790
    },
    {
      "epoch": 0.10583333333333333,
      "grad_norm": 0.901178777217865,
      "learning_rate": 0.00029235075242435495,
      "loss": 4.0556,
      "step": 50800
    },
    {
      "epoch": 0.10585416666666667,
      "grad_norm": 0.7860174179077148,
      "learning_rate": 0.0002923476440994984,
      "loss": 4.0082,
      "step": 50810
    },
    {
      "epoch": 0.105875,
      "grad_norm": 0.7748461961746216,
      "learning_rate": 0.00029234453515975634,
      "loss": 4.0004,
      "step": 50820
    },
    {
      "epoch": 0.10589583333333333,
      "grad_norm": 0.8100540041923523,
      "learning_rate": 0.0002923414256051423,
      "loss": 4.0609,
      "step": 50830
    },
    {
      "epoch": 0.10591666666666667,
      "grad_norm": 0.8516915440559387,
      "learning_rate": 0.00029233831543566956,
      "loss": 3.9553,
      "step": 50840
    },
    {
      "epoch": 0.1059375,
      "grad_norm": 0.7434536814689636,
      "learning_rate": 0.00029233520465135165,
      "loss": 4.0271,
      "step": 50850
    },
    {
      "epoch": 0.10595833333333333,
      "grad_norm": 0.6617941856384277,
      "learning_rate": 0.00029233209325220204,
      "loss": 4.0948,
      "step": 50860
    },
    {
      "epoch": 0.10597916666666667,
      "grad_norm": 0.7185391783714294,
      "learning_rate": 0.00029232898123823407,
      "loss": 4.055,
      "step": 50870
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.839154064655304,
      "learning_rate": 0.0002923258686094613,
      "loss": 4.2611,
      "step": 50880
    },
    {
      "epoch": 0.10602083333333333,
      "grad_norm": 0.7931175827980042,
      "learning_rate": 0.0002923227553658971,
      "loss": 3.9377,
      "step": 50890
    },
    {
      "epoch": 0.10604166666666667,
      "grad_norm": 0.8959558010101318,
      "learning_rate": 0.0002923196415075549,
      "loss": 3.8956,
      "step": 50900
    },
    {
      "epoch": 0.1060625,
      "grad_norm": 0.7956362962722778,
      "learning_rate": 0.0002923165270344482,
      "loss": 3.9591,
      "step": 50910
    },
    {
      "epoch": 0.10608333333333334,
      "grad_norm": 0.7994216680526733,
      "learning_rate": 0.00029231341194659044,
      "loss": 3.7879,
      "step": 50920
    },
    {
      "epoch": 0.10610416666666667,
      "grad_norm": 0.7551946640014648,
      "learning_rate": 0.00029231029624399504,
      "loss": 4.0773,
      "step": 50930
    },
    {
      "epoch": 0.106125,
      "grad_norm": 0.805530309677124,
      "learning_rate": 0.0002923071799266755,
      "loss": 3.9732,
      "step": 50940
    },
    {
      "epoch": 0.10614583333333333,
      "grad_norm": 0.7089834213256836,
      "learning_rate": 0.0002923040629946453,
      "loss": 3.9836,
      "step": 50950
    },
    {
      "epoch": 0.10616666666666667,
      "grad_norm": 0.7376680374145508,
      "learning_rate": 0.0002923009454479179,
      "loss": 3.841,
      "step": 50960
    },
    {
      "epoch": 0.1061875,
      "grad_norm": 0.8623104095458984,
      "learning_rate": 0.0002922978272865067,
      "loss": 4.1089,
      "step": 50970
    },
    {
      "epoch": 0.10620833333333334,
      "grad_norm": 0.965140700340271,
      "learning_rate": 0.0002922947085104252,
      "loss": 3.9599,
      "step": 50980
    },
    {
      "epoch": 0.10622916666666667,
      "grad_norm": 0.8694900274276733,
      "learning_rate": 0.0002922915891196869,
      "loss": 4.0509,
      "step": 50990
    },
    {
      "epoch": 0.10625,
      "grad_norm": 0.7380486726760864,
      "learning_rate": 0.00029228846911430527,
      "loss": 3.7905,
      "step": 51000
    },
    {
      "epoch": 0.10625,
      "eval_loss": 4.296773910522461,
      "eval_runtime": 11.8694,
      "eval_samples_per_second": 0.843,
      "eval_steps_per_second": 0.253,
      "step": 51000
    },
    {
      "epoch": 0.10627083333333333,
      "grad_norm": 0.8346457481384277,
      "learning_rate": 0.00029228534849429374,
      "loss": 3.862,
      "step": 51010
    },
    {
      "epoch": 0.10629166666666667,
      "grad_norm": 0.8386745452880859,
      "learning_rate": 0.0002922822272596659,
      "loss": 4.107,
      "step": 51020
    },
    {
      "epoch": 0.1063125,
      "grad_norm": 0.8432703614234924,
      "learning_rate": 0.00029227910541043504,
      "loss": 3.7825,
      "step": 51030
    },
    {
      "epoch": 0.10633333333333334,
      "grad_norm": 0.7449776530265808,
      "learning_rate": 0.0002922759829466149,
      "loss": 3.9622,
      "step": 51040
    },
    {
      "epoch": 0.10635416666666667,
      "grad_norm": 0.7446163892745972,
      "learning_rate": 0.0002922728598682187,
      "loss": 4.0294,
      "step": 51050
    },
    {
      "epoch": 0.106375,
      "grad_norm": 0.7579222917556763,
      "learning_rate": 0.0002922697361752602,
      "loss": 3.822,
      "step": 51060
    },
    {
      "epoch": 0.10639583333333333,
      "grad_norm": 0.7363486886024475,
      "learning_rate": 0.00029226661186775266,
      "loss": 4.036,
      "step": 51070
    },
    {
      "epoch": 0.10641666666666667,
      "grad_norm": 0.881227970123291,
      "learning_rate": 0.0002922634869457097,
      "loss": 3.9936,
      "step": 51080
    },
    {
      "epoch": 0.1064375,
      "grad_norm": 0.8812421560287476,
      "learning_rate": 0.0002922603614091447,
      "loss": 4.0119,
      "step": 51090
    },
    {
      "epoch": 0.10645833333333334,
      "grad_norm": 0.8263999223709106,
      "learning_rate": 0.00029225723525807136,
      "loss": 4.0147,
      "step": 51100
    },
    {
      "epoch": 0.10647916666666667,
      "grad_norm": 0.7266913056373596,
      "learning_rate": 0.00029225410849250305,
      "loss": 4.0459,
      "step": 51110
    },
    {
      "epoch": 0.1065,
      "grad_norm": 0.7062184810638428,
      "learning_rate": 0.0002922509811124533,
      "loss": 3.9404,
      "step": 51120
    },
    {
      "epoch": 0.10652083333333333,
      "grad_norm": 0.786698579788208,
      "learning_rate": 0.00029224785311793554,
      "loss": 3.9763,
      "step": 51130
    },
    {
      "epoch": 0.10654166666666667,
      "grad_norm": 0.7686131000518799,
      "learning_rate": 0.0002922447245089635,
      "loss": 4.0751,
      "step": 51140
    },
    {
      "epoch": 0.1065625,
      "grad_norm": 0.7963362336158752,
      "learning_rate": 0.00029224159528555045,
      "loss": 4.1282,
      "step": 51150
    },
    {
      "epoch": 0.10658333333333334,
      "grad_norm": 0.7746624946594238,
      "learning_rate": 0.00029223846544771,
      "loss": 4.0634,
      "step": 51160
    },
    {
      "epoch": 0.10660416666666667,
      "grad_norm": 0.7235612869262695,
      "learning_rate": 0.00029223533499545576,
      "loss": 3.9442,
      "step": 51170
    },
    {
      "epoch": 0.106625,
      "grad_norm": 0.8485565781593323,
      "learning_rate": 0.0002922322039288011,
      "loss": 4.0562,
      "step": 51180
    },
    {
      "epoch": 0.10664583333333333,
      "grad_norm": 0.7547968029975891,
      "learning_rate": 0.00029222907224775967,
      "loss": 3.9971,
      "step": 51190
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.816499650478363,
      "learning_rate": 0.000292225939952345,
      "loss": 4.0246,
      "step": 51200
    },
    {
      "epoch": 0.1066875,
      "grad_norm": 0.7282909750938416,
      "learning_rate": 0.00029222280704257044,
      "loss": 3.8919,
      "step": 51210
    },
    {
      "epoch": 0.10670833333333334,
      "grad_norm": 0.8192281723022461,
      "learning_rate": 0.0002922196735184497,
      "loss": 3.9158,
      "step": 51220
    },
    {
      "epoch": 0.10672916666666667,
      "grad_norm": 0.8846397995948792,
      "learning_rate": 0.00029221653937999627,
      "loss": 4.0009,
      "step": 51230
    },
    {
      "epoch": 0.10675,
      "grad_norm": 0.7249765992164612,
      "learning_rate": 0.0002922134046272237,
      "loss": 3.937,
      "step": 51240
    },
    {
      "epoch": 0.10677083333333333,
      "grad_norm": 0.7953372001647949,
      "learning_rate": 0.0002922102692601455,
      "loss": 4.1856,
      "step": 51250
    },
    {
      "epoch": 0.10679166666666666,
      "grad_norm": 0.8694043159484863,
      "learning_rate": 0.00029220713327877517,
      "loss": 3.8699,
      "step": 51260
    },
    {
      "epoch": 0.1068125,
      "grad_norm": 0.7265217900276184,
      "learning_rate": 0.00029220399668312643,
      "loss": 3.9448,
      "step": 51270
    },
    {
      "epoch": 0.10683333333333334,
      "grad_norm": 1.0783276557922363,
      "learning_rate": 0.00029220085947321265,
      "loss": 3.9503,
      "step": 51280
    },
    {
      "epoch": 0.10685416666666667,
      "grad_norm": 0.8365939259529114,
      "learning_rate": 0.0002921977216490474,
      "loss": 4.1027,
      "step": 51290
    },
    {
      "epoch": 0.106875,
      "grad_norm": 0.7701013684272766,
      "learning_rate": 0.00029219458321064434,
      "loss": 3.9475,
      "step": 51300
    },
    {
      "epoch": 0.10689583333333333,
      "grad_norm": 0.7184340953826904,
      "learning_rate": 0.0002921914441580169,
      "loss": 3.9289,
      "step": 51310
    },
    {
      "epoch": 0.10691666666666666,
      "grad_norm": 0.6850623488426208,
      "learning_rate": 0.00029218830449117883,
      "loss": 4.0371,
      "step": 51320
    },
    {
      "epoch": 0.1069375,
      "grad_norm": 0.8108096718788147,
      "learning_rate": 0.0002921851642101435,
      "loss": 4.0663,
      "step": 51330
    },
    {
      "epoch": 0.10695833333333334,
      "grad_norm": 0.8161534070968628,
      "learning_rate": 0.0002921820233149245,
      "loss": 4.0464,
      "step": 51340
    },
    {
      "epoch": 0.10697916666666667,
      "grad_norm": 0.7987128496170044,
      "learning_rate": 0.00029217888180553547,
      "loss": 4.03,
      "step": 51350
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.8720340132713318,
      "learning_rate": 0.0002921757396819899,
      "loss": 3.9637,
      "step": 51360
    },
    {
      "epoch": 0.10702083333333333,
      "grad_norm": 0.8332940340042114,
      "learning_rate": 0.0002921725969443015,
      "loss": 3.8769,
      "step": 51370
    },
    {
      "epoch": 0.10704166666666666,
      "grad_norm": 0.8439117074012756,
      "learning_rate": 0.0002921694535924837,
      "loss": 3.8649,
      "step": 51380
    },
    {
      "epoch": 0.1070625,
      "grad_norm": 0.8776065707206726,
      "learning_rate": 0.00029216630962655016,
      "loss": 4.0344,
      "step": 51390
    },
    {
      "epoch": 0.10708333333333334,
      "grad_norm": 0.738735556602478,
      "learning_rate": 0.00029216316504651445,
      "loss": 3.8641,
      "step": 51400
    },
    {
      "epoch": 0.10710416666666667,
      "grad_norm": 0.8037091493606567,
      "learning_rate": 0.0002921600198523901,
      "loss": 3.9625,
      "step": 51410
    },
    {
      "epoch": 0.107125,
      "grad_norm": 0.7587477564811707,
      "learning_rate": 0.00029215687404419077,
      "loss": 3.7675,
      "step": 51420
    },
    {
      "epoch": 0.10714583333333333,
      "grad_norm": 0.9433364272117615,
      "learning_rate": 0.00029215372762192996,
      "loss": 4.1119,
      "step": 51430
    },
    {
      "epoch": 0.10716666666666666,
      "grad_norm": 0.7502623200416565,
      "learning_rate": 0.0002921505805856213,
      "loss": 4.1368,
      "step": 51440
    },
    {
      "epoch": 0.1071875,
      "grad_norm": 0.754521906375885,
      "learning_rate": 0.00029214743293527854,
      "loss": 4.0781,
      "step": 51450
    },
    {
      "epoch": 0.10720833333333334,
      "grad_norm": 0.7416971921920776,
      "learning_rate": 0.00029214428467091503,
      "loss": 3.9534,
      "step": 51460
    },
    {
      "epoch": 0.10722916666666667,
      "grad_norm": 0.9126066565513611,
      "learning_rate": 0.00029214113579254447,
      "loss": 3.9077,
      "step": 51470
    },
    {
      "epoch": 0.10725,
      "grad_norm": 1.542122483253479,
      "learning_rate": 0.00029213798630018046,
      "loss": 4.0877,
      "step": 51480
    },
    {
      "epoch": 0.10727083333333333,
      "grad_norm": 0.8194891214370728,
      "learning_rate": 0.00029213483619383666,
      "loss": 4.1349,
      "step": 51490
    },
    {
      "epoch": 0.10729166666666666,
      "grad_norm": 0.8701623678207397,
      "learning_rate": 0.0002921316854735266,
      "loss": 3.8439,
      "step": 51500
    },
    {
      "epoch": 0.1073125,
      "grad_norm": 0.721686601638794,
      "learning_rate": 0.00029212853413926397,
      "loss": 3.9645,
      "step": 51510
    },
    {
      "epoch": 0.10733333333333334,
      "grad_norm": 0.8494043946266174,
      "learning_rate": 0.0002921253821910623,
      "loss": 3.97,
      "step": 51520
    },
    {
      "epoch": 0.10735416666666667,
      "grad_norm": 0.8931439518928528,
      "learning_rate": 0.0002921222296289352,
      "loss": 3.9963,
      "step": 51530
    },
    {
      "epoch": 0.107375,
      "grad_norm": 0.7747337222099304,
      "learning_rate": 0.00029211907645289634,
      "loss": 3.935,
      "step": 51540
    },
    {
      "epoch": 0.10739583333333333,
      "grad_norm": 0.7565237879753113,
      "learning_rate": 0.0002921159226629593,
      "loss": 3.9925,
      "step": 51550
    },
    {
      "epoch": 0.10741666666666666,
      "grad_norm": 0.8155282139778137,
      "learning_rate": 0.00029211276825913776,
      "loss": 3.9368,
      "step": 51560
    },
    {
      "epoch": 0.1074375,
      "grad_norm": 0.6745347380638123,
      "learning_rate": 0.00029210961324144534,
      "loss": 3.7378,
      "step": 51570
    },
    {
      "epoch": 0.10745833333333334,
      "grad_norm": 0.8709880113601685,
      "learning_rate": 0.0002921064576098956,
      "loss": 4.0982,
      "step": 51580
    },
    {
      "epoch": 0.10747916666666667,
      "grad_norm": 0.9265515804290771,
      "learning_rate": 0.0002921033013645022,
      "loss": 4.0775,
      "step": 51590
    },
    {
      "epoch": 0.1075,
      "grad_norm": 0.881605863571167,
      "learning_rate": 0.00029210014450527884,
      "loss": 4.0188,
      "step": 51600
    },
    {
      "epoch": 0.10752083333333333,
      "grad_norm": 0.7834116816520691,
      "learning_rate": 0.0002920969870322391,
      "loss": 4.0769,
      "step": 51610
    },
    {
      "epoch": 0.10754166666666666,
      "grad_norm": 0.8273080587387085,
      "learning_rate": 0.0002920938289453966,
      "loss": 4.0006,
      "step": 51620
    },
    {
      "epoch": 0.1075625,
      "grad_norm": 0.6867583394050598,
      "learning_rate": 0.000292090670244765,
      "loss": 3.9926,
      "step": 51630
    },
    {
      "epoch": 0.10758333333333334,
      "grad_norm": 0.9835606217384338,
      "learning_rate": 0.00029208751093035793,
      "loss": 3.8799,
      "step": 51640
    },
    {
      "epoch": 0.10760416666666667,
      "grad_norm": 0.8329886794090271,
      "learning_rate": 0.00029208435100218903,
      "loss": 3.9406,
      "step": 51650
    },
    {
      "epoch": 0.107625,
      "grad_norm": 0.6891643404960632,
      "learning_rate": 0.0002920811904602721,
      "loss": 4.0072,
      "step": 51660
    },
    {
      "epoch": 0.10764583333333333,
      "grad_norm": 0.7854464054107666,
      "learning_rate": 0.00029207802930462056,
      "loss": 3.9541,
      "step": 51670
    },
    {
      "epoch": 0.10766666666666666,
      "grad_norm": 0.7853583693504333,
      "learning_rate": 0.0002920748675352482,
      "loss": 3.8468,
      "step": 51680
    },
    {
      "epoch": 0.1076875,
      "grad_norm": 0.7087932825088501,
      "learning_rate": 0.0002920717051521686,
      "loss": 3.9833,
      "step": 51690
    },
    {
      "epoch": 0.10770833333333334,
      "grad_norm": 0.8101626038551331,
      "learning_rate": 0.00029206854215539554,
      "loss": 4.0226,
      "step": 51700
    },
    {
      "epoch": 0.10772916666666667,
      "grad_norm": 0.8133219480514526,
      "learning_rate": 0.0002920653785449426,
      "loss": 4.0932,
      "step": 51710
    },
    {
      "epoch": 0.10775,
      "grad_norm": 0.7019925713539124,
      "learning_rate": 0.0002920622143208234,
      "loss": 4.0903,
      "step": 51720
    },
    {
      "epoch": 0.10777083333333333,
      "grad_norm": 0.9063321948051453,
      "learning_rate": 0.0002920590494830518,
      "loss": 3.9818,
      "step": 51730
    },
    {
      "epoch": 0.10779166666666666,
      "grad_norm": 1.0794398784637451,
      "learning_rate": 0.0002920558840316412,
      "loss": 3.9744,
      "step": 51740
    },
    {
      "epoch": 0.1078125,
      "grad_norm": 0.7844918966293335,
      "learning_rate": 0.00029205271796660544,
      "loss": 4.007,
      "step": 51750
    },
    {
      "epoch": 0.10783333333333334,
      "grad_norm": 0.810516357421875,
      "learning_rate": 0.0002920495512879582,
      "loss": 4.0214,
      "step": 51760
    },
    {
      "epoch": 0.10785416666666667,
      "grad_norm": 0.761742115020752,
      "learning_rate": 0.0002920463839957131,
      "loss": 4.1674,
      "step": 51770
    },
    {
      "epoch": 0.107875,
      "grad_norm": 0.9442174434661865,
      "learning_rate": 0.00029204321608988386,
      "loss": 4.0093,
      "step": 51780
    },
    {
      "epoch": 0.10789583333333333,
      "grad_norm": 0.8025702238082886,
      "learning_rate": 0.00029204004757048415,
      "loss": 4.0775,
      "step": 51790
    },
    {
      "epoch": 0.10791666666666666,
      "grad_norm": 0.8644669055938721,
      "learning_rate": 0.00029203687843752765,
      "loss": 3.9648,
      "step": 51800
    },
    {
      "epoch": 0.1079375,
      "grad_norm": 0.814372718334198,
      "learning_rate": 0.0002920337086910281,
      "loss": 4.0959,
      "step": 51810
    },
    {
      "epoch": 0.10795833333333334,
      "grad_norm": 0.9712896347045898,
      "learning_rate": 0.0002920305383309991,
      "loss": 4.1543,
      "step": 51820
    },
    {
      "epoch": 0.10797916666666667,
      "grad_norm": 0.8118899464607239,
      "learning_rate": 0.00029202736735745445,
      "loss": 4.0551,
      "step": 51830
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.9023054242134094,
      "learning_rate": 0.0002920241957704077,
      "loss": 3.9148,
      "step": 51840
    },
    {
      "epoch": 0.10802083333333333,
      "grad_norm": 0.987561821937561,
      "learning_rate": 0.0002920210235698727,
      "loss": 4.0607,
      "step": 51850
    },
    {
      "epoch": 0.10804166666666666,
      "grad_norm": 0.7615936398506165,
      "learning_rate": 0.0002920178507558631,
      "loss": 3.8562,
      "step": 51860
    },
    {
      "epoch": 0.1080625,
      "grad_norm": 0.7280365824699402,
      "learning_rate": 0.0002920146773283926,
      "loss": 4.1818,
      "step": 51870
    },
    {
      "epoch": 0.10808333333333334,
      "grad_norm": 0.7535092234611511,
      "learning_rate": 0.0002920115032874749,
      "loss": 4.0763,
      "step": 51880
    },
    {
      "epoch": 0.10810416666666667,
      "grad_norm": 0.7573708295822144,
      "learning_rate": 0.0002920083286331237,
      "loss": 4.1118,
      "step": 51890
    },
    {
      "epoch": 0.108125,
      "grad_norm": 0.9810128211975098,
      "learning_rate": 0.0002920051533653527,
      "loss": 3.9832,
      "step": 51900
    },
    {
      "epoch": 0.10814583333333333,
      "grad_norm": 0.714684247970581,
      "learning_rate": 0.00029200197748417575,
      "loss": 3.9388,
      "step": 51910
    },
    {
      "epoch": 0.10816666666666666,
      "grad_norm": 0.7415071129798889,
      "learning_rate": 0.00029199880098960637,
      "loss": 3.8826,
      "step": 51920
    },
    {
      "epoch": 0.1081875,
      "grad_norm": 1.1449800729751587,
      "learning_rate": 0.00029199562388165844,
      "loss": 4.109,
      "step": 51930
    },
    {
      "epoch": 0.10820833333333334,
      "grad_norm": 0.7511093616485596,
      "learning_rate": 0.0002919924461603455,
      "loss": 3.9502,
      "step": 51940
    },
    {
      "epoch": 0.10822916666666667,
      "grad_norm": 0.6977457404136658,
      "learning_rate": 0.00029198926782568154,
      "loss": 4.0603,
      "step": 51950
    },
    {
      "epoch": 0.10825,
      "grad_norm": 0.8111187815666199,
      "learning_rate": 0.0002919860888776801,
      "loss": 3.8996,
      "step": 51960
    },
    {
      "epoch": 0.10827083333333333,
      "grad_norm": 0.8054956793785095,
      "learning_rate": 0.00029198290931635494,
      "loss": 4.0093,
      "step": 51970
    },
    {
      "epoch": 0.10829166666666666,
      "grad_norm": 0.8818517923355103,
      "learning_rate": 0.00029197972914171987,
      "loss": 3.9685,
      "step": 51980
    },
    {
      "epoch": 0.1083125,
      "grad_norm": 0.868332028388977,
      "learning_rate": 0.0002919765483537885,
      "loss": 3.9428,
      "step": 51990
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 0.7117992639541626,
      "learning_rate": 0.00029197336695257467,
      "loss": 4.1425,
      "step": 52000
    },
    {
      "epoch": 0.10833333333333334,
      "eval_loss": 4.292825222015381,
      "eval_runtime": 11.5883,
      "eval_samples_per_second": 0.863,
      "eval_steps_per_second": 0.259,
      "step": 52000
    },
    {
      "epoch": 0.10835416666666667,
      "grad_norm": 0.9602883458137512,
      "learning_rate": 0.0002919701849380921,
      "loss": 4.1732,
      "step": 52010
    },
    {
      "epoch": 0.108375,
      "grad_norm": 1.132872462272644,
      "learning_rate": 0.00029196700231035445,
      "loss": 3.8757,
      "step": 52020
    },
    {
      "epoch": 0.10839583333333333,
      "grad_norm": 0.8030247688293457,
      "learning_rate": 0.00029196381906937565,
      "loss": 3.9705,
      "step": 52030
    },
    {
      "epoch": 0.10841666666666666,
      "grad_norm": 0.8685594797134399,
      "learning_rate": 0.00029196063521516927,
      "loss": 4.1132,
      "step": 52040
    },
    {
      "epoch": 0.1084375,
      "grad_norm": 0.7503647804260254,
      "learning_rate": 0.00029195745074774915,
      "loss": 3.9934,
      "step": 52050
    },
    {
      "epoch": 0.10845833333333334,
      "grad_norm": 0.7165424227714539,
      "learning_rate": 0.00029195426566712906,
      "loss": 4.0667,
      "step": 52060
    },
    {
      "epoch": 0.10847916666666667,
      "grad_norm": 0.7634149193763733,
      "learning_rate": 0.00029195107997332276,
      "loss": 4.0073,
      "step": 52070
    },
    {
      "epoch": 0.1085,
      "grad_norm": 0.8187643885612488,
      "learning_rate": 0.0002919478936663439,
      "loss": 4.0633,
      "step": 52080
    },
    {
      "epoch": 0.10852083333333333,
      "grad_norm": 0.8465825915336609,
      "learning_rate": 0.0002919447067462064,
      "loss": 3.9046,
      "step": 52090
    },
    {
      "epoch": 0.10854166666666666,
      "grad_norm": 0.9938410520553589,
      "learning_rate": 0.00029194151921292395,
      "loss": 4.074,
      "step": 52100
    },
    {
      "epoch": 0.1085625,
      "grad_norm": 0.8423704504966736,
      "learning_rate": 0.0002919383310665103,
      "loss": 3.9815,
      "step": 52110
    },
    {
      "epoch": 0.10858333333333334,
      "grad_norm": 0.7817022800445557,
      "learning_rate": 0.00029193514230697925,
      "loss": 4.1427,
      "step": 52120
    },
    {
      "epoch": 0.10860416666666667,
      "grad_norm": 0.8780257105827332,
      "learning_rate": 0.00029193195293434455,
      "loss": 4.0044,
      "step": 52130
    },
    {
      "epoch": 0.108625,
      "grad_norm": 0.7431384921073914,
      "learning_rate": 0.00029192876294861997,
      "loss": 3.9484,
      "step": 52140
    },
    {
      "epoch": 0.10864583333333333,
      "grad_norm": 0.7732836008071899,
      "learning_rate": 0.00029192557234981935,
      "loss": 4.063,
      "step": 52150
    },
    {
      "epoch": 0.10866666666666666,
      "grad_norm": 0.7548495531082153,
      "learning_rate": 0.00029192238113795644,
      "loss": 4.044,
      "step": 52160
    },
    {
      "epoch": 0.1086875,
      "grad_norm": 0.7877428531646729,
      "learning_rate": 0.000291919189313045,
      "loss": 4.141,
      "step": 52170
    },
    {
      "epoch": 0.10870833333333334,
      "grad_norm": 0.8103417754173279,
      "learning_rate": 0.0002919159968750988,
      "loss": 4.1789,
      "step": 52180
    },
    {
      "epoch": 0.10872916666666667,
      "grad_norm": 0.7253836989402771,
      "learning_rate": 0.0002919128038241318,
      "loss": 4.0021,
      "step": 52190
    },
    {
      "epoch": 0.10875,
      "grad_norm": 0.818221926689148,
      "learning_rate": 0.0002919096101601575,
      "loss": 3.94,
      "step": 52200
    },
    {
      "epoch": 0.10877083333333333,
      "grad_norm": 0.7055040001869202,
      "learning_rate": 0.00029190641588319,
      "loss": 4.0548,
      "step": 52210
    },
    {
      "epoch": 0.10879166666666666,
      "grad_norm": 0.8298307657241821,
      "learning_rate": 0.00029190322099324284,
      "loss": 4.1305,
      "step": 52220
    },
    {
      "epoch": 0.1088125,
      "grad_norm": 0.8079668879508972,
      "learning_rate": 0.00029190002549033,
      "loss": 3.9561,
      "step": 52230
    },
    {
      "epoch": 0.10883333333333334,
      "grad_norm": 0.9573561549186707,
      "learning_rate": 0.0002918968293744652,
      "loss": 3.8645,
      "step": 52240
    },
    {
      "epoch": 0.10885416666666667,
      "grad_norm": 0.8227382302284241,
      "learning_rate": 0.0002918936326456623,
      "loss": 3.9068,
      "step": 52250
    },
    {
      "epoch": 0.108875,
      "grad_norm": 0.8383076190948486,
      "learning_rate": 0.000291890435303935,
      "loss": 3.929,
      "step": 52260
    },
    {
      "epoch": 0.10889583333333333,
      "grad_norm": 0.8024759888648987,
      "learning_rate": 0.0002918872373492972,
      "loss": 4.0615,
      "step": 52270
    },
    {
      "epoch": 0.10891666666666666,
      "grad_norm": 0.7810993194580078,
      "learning_rate": 0.00029188403878176275,
      "loss": 3.9906,
      "step": 52280
    },
    {
      "epoch": 0.1089375,
      "grad_norm": 0.7234829068183899,
      "learning_rate": 0.0002918808396013454,
      "loss": 4.0508,
      "step": 52290
    },
    {
      "epoch": 0.10895833333333334,
      "grad_norm": 0.7852441072463989,
      "learning_rate": 0.0002918776398080589,
      "loss": 3.9925,
      "step": 52300
    },
    {
      "epoch": 0.10897916666666667,
      "grad_norm": 0.9247604012489319,
      "learning_rate": 0.00029187443940191727,
      "loss": 4.1285,
      "step": 52310
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.7500501275062561,
      "learning_rate": 0.00029187123838293413,
      "loss": 4.1962,
      "step": 52320
    },
    {
      "epoch": 0.10902083333333333,
      "grad_norm": 0.8548446297645569,
      "learning_rate": 0.00029186803675112344,
      "loss": 4.002,
      "step": 52330
    },
    {
      "epoch": 0.10904166666666666,
      "grad_norm": 0.7514891028404236,
      "learning_rate": 0.000291864834506499,
      "loss": 3.878,
      "step": 52340
    },
    {
      "epoch": 0.1090625,
      "grad_norm": 0.7346019148826599,
      "learning_rate": 0.0002918616316490746,
      "loss": 3.9506,
      "step": 52350
    },
    {
      "epoch": 0.10908333333333334,
      "grad_norm": 0.8644079566001892,
      "learning_rate": 0.0002918584281788641,
      "loss": 3.9435,
      "step": 52360
    },
    {
      "epoch": 0.10910416666666667,
      "grad_norm": 0.7271287441253662,
      "learning_rate": 0.0002918552240958814,
      "loss": 3.8575,
      "step": 52370
    },
    {
      "epoch": 0.109125,
      "grad_norm": 0.9098513722419739,
      "learning_rate": 0.0002918520194001402,
      "loss": 3.9648,
      "step": 52380
    },
    {
      "epoch": 0.10914583333333333,
      "grad_norm": 0.8556364178657532,
      "learning_rate": 0.0002918488140916545,
      "loss": 4.1142,
      "step": 52390
    },
    {
      "epoch": 0.10916666666666666,
      "grad_norm": 0.8531723618507385,
      "learning_rate": 0.000291845608170438,
      "loss": 4.0164,
      "step": 52400
    },
    {
      "epoch": 0.1091875,
      "grad_norm": 0.9475483894348145,
      "learning_rate": 0.00029184240163650466,
      "loss": 4.1148,
      "step": 52410
    },
    {
      "epoch": 0.10920833333333334,
      "grad_norm": 0.8153632879257202,
      "learning_rate": 0.0002918391944898683,
      "loss": 4.1306,
      "step": 52420
    },
    {
      "epoch": 0.10922916666666667,
      "grad_norm": 0.9830898642539978,
      "learning_rate": 0.0002918359867305427,
      "loss": 3.9117,
      "step": 52430
    },
    {
      "epoch": 0.10925,
      "grad_norm": 0.7919710874557495,
      "learning_rate": 0.00029183277835854185,
      "loss": 4.1084,
      "step": 52440
    },
    {
      "epoch": 0.10927083333333333,
      "grad_norm": 1.1078754663467407,
      "learning_rate": 0.0002918295693738795,
      "loss": 4.0675,
      "step": 52450
    },
    {
      "epoch": 0.10929166666666666,
      "grad_norm": 0.8586977124214172,
      "learning_rate": 0.00029182635977656956,
      "loss": 3.8616,
      "step": 52460
    },
    {
      "epoch": 0.1093125,
      "grad_norm": 0.7405294179916382,
      "learning_rate": 0.00029182314956662593,
      "loss": 3.9091,
      "step": 52470
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 1.0049537420272827,
      "learning_rate": 0.0002918199387440624,
      "loss": 3.8397,
      "step": 52480
    },
    {
      "epoch": 0.10935416666666667,
      "grad_norm": 0.7389025688171387,
      "learning_rate": 0.0002918167273088928,
      "loss": 4.0645,
      "step": 52490
    },
    {
      "epoch": 0.109375,
      "grad_norm": 0.766385555267334,
      "learning_rate": 0.00029181351526113116,
      "loss": 3.9259,
      "step": 52500
    },
    {
      "epoch": 0.10939583333333333,
      "grad_norm": 0.7778509259223938,
      "learning_rate": 0.00029181030260079125,
      "loss": 4.1662,
      "step": 52510
    },
    {
      "epoch": 0.10941666666666666,
      "grad_norm": 0.8445219993591309,
      "learning_rate": 0.00029180708932788693,
      "loss": 4.0251,
      "step": 52520
    },
    {
      "epoch": 0.1094375,
      "grad_norm": 0.8038216233253479,
      "learning_rate": 0.0002918038754424322,
      "loss": 3.9978,
      "step": 52530
    },
    {
      "epoch": 0.10945833333333334,
      "grad_norm": 0.8453511595726013,
      "learning_rate": 0.00029180066094444077,
      "loss": 3.828,
      "step": 52540
    },
    {
      "epoch": 0.10947916666666667,
      "grad_norm": 0.8067003488540649,
      "learning_rate": 0.00029179744583392663,
      "loss": 3.9561,
      "step": 52550
    },
    {
      "epoch": 0.1095,
      "grad_norm": 0.7459459900856018,
      "learning_rate": 0.00029179423011090364,
      "loss": 4.1009,
      "step": 52560
    },
    {
      "epoch": 0.10952083333333333,
      "grad_norm": 0.8324541449546814,
      "learning_rate": 0.0002917910137753858,
      "loss": 3.9422,
      "step": 52570
    },
    {
      "epoch": 0.10954166666666666,
      "grad_norm": 0.832737386226654,
      "learning_rate": 0.0002917877968273868,
      "loss": 3.8588,
      "step": 52580
    },
    {
      "epoch": 0.1095625,
      "grad_norm": 0.7939635515213013,
      "learning_rate": 0.0002917845792669207,
      "loss": 3.9388,
      "step": 52590
    },
    {
      "epoch": 0.10958333333333334,
      "grad_norm": 0.7925247550010681,
      "learning_rate": 0.0002917813610940013,
      "loss": 4.0098,
      "step": 52600
    },
    {
      "epoch": 0.10960416666666667,
      "grad_norm": 0.8496633768081665,
      "learning_rate": 0.00029177814230864254,
      "loss": 4.0395,
      "step": 52610
    },
    {
      "epoch": 0.109625,
      "grad_norm": 0.8074082732200623,
      "learning_rate": 0.0002917749229108583,
      "loss": 3.9595,
      "step": 52620
    },
    {
      "epoch": 0.10964583333333333,
      "grad_norm": 0.8831207752227783,
      "learning_rate": 0.0002917717029006626,
      "loss": 3.9476,
      "step": 52630
    },
    {
      "epoch": 0.10966666666666666,
      "grad_norm": 0.7828157544136047,
      "learning_rate": 0.00029176848227806924,
      "loss": 4.0193,
      "step": 52640
    },
    {
      "epoch": 0.1096875,
      "grad_norm": 2.1978719234466553,
      "learning_rate": 0.00029176526104309207,
      "loss": 4.2943,
      "step": 52650
    },
    {
      "epoch": 0.10970833333333334,
      "grad_norm": 0.7968044877052307,
      "learning_rate": 0.00029176203919574516,
      "loss": 3.8197,
      "step": 52660
    },
    {
      "epoch": 0.10972916666666667,
      "grad_norm": 0.7645314335823059,
      "learning_rate": 0.00029175881673604233,
      "loss": 3.8248,
      "step": 52670
    },
    {
      "epoch": 0.10975,
      "grad_norm": 0.8111442923545837,
      "learning_rate": 0.00029175559366399756,
      "loss": 3.9206,
      "step": 52680
    },
    {
      "epoch": 0.10977083333333333,
      "grad_norm": 0.7780027985572815,
      "learning_rate": 0.0002917523699796247,
      "loss": 3.8892,
      "step": 52690
    },
    {
      "epoch": 0.10979166666666666,
      "grad_norm": 0.7356646060943604,
      "learning_rate": 0.00029174914568293767,
      "loss": 4.0607,
      "step": 52700
    },
    {
      "epoch": 0.1098125,
      "grad_norm": 0.8040390610694885,
      "learning_rate": 0.0002917459207739505,
      "loss": 3.9026,
      "step": 52710
    },
    {
      "epoch": 0.10983333333333334,
      "grad_norm": 0.7996958494186401,
      "learning_rate": 0.00029174269525267704,
      "loss": 3.8874,
      "step": 52720
    },
    {
      "epoch": 0.10985416666666667,
      "grad_norm": 0.7688407301902771,
      "learning_rate": 0.00029173946911913124,
      "loss": 3.9387,
      "step": 52730
    },
    {
      "epoch": 0.109875,
      "grad_norm": 0.7038112878799438,
      "learning_rate": 0.00029173624237332704,
      "loss": 3.8037,
      "step": 52740
    },
    {
      "epoch": 0.10989583333333333,
      "grad_norm": 0.805330753326416,
      "learning_rate": 0.0002917330150152784,
      "loss": 3.8332,
      "step": 52750
    },
    {
      "epoch": 0.10991666666666666,
      "grad_norm": 0.7707400918006897,
      "learning_rate": 0.0002917297870449992,
      "loss": 4.0045,
      "step": 52760
    },
    {
      "epoch": 0.1099375,
      "grad_norm": 0.7355412244796753,
      "learning_rate": 0.0002917265584625034,
      "loss": 4.0422,
      "step": 52770
    },
    {
      "epoch": 0.10995833333333334,
      "grad_norm": 0.7653030753135681,
      "learning_rate": 0.00029172332926780505,
      "loss": 3.8315,
      "step": 52780
    },
    {
      "epoch": 0.10997916666666667,
      "grad_norm": 0.7614937424659729,
      "learning_rate": 0.000291720099460918,
      "loss": 3.9342,
      "step": 52790
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7058159112930298,
      "learning_rate": 0.0002917168690418562,
      "loss": 4.0702,
      "step": 52800
    },
    {
      "epoch": 0.11002083333333333,
      "grad_norm": 0.8921005129814148,
      "learning_rate": 0.00029171363801063356,
      "loss": 3.9833,
      "step": 52810
    },
    {
      "epoch": 0.11004166666666666,
      "grad_norm": 0.7762746214866638,
      "learning_rate": 0.00029171040636726415,
      "loss": 4.0211,
      "step": 52820
    },
    {
      "epoch": 0.1100625,
      "grad_norm": 0.7757589221000671,
      "learning_rate": 0.0002917071741117619,
      "loss": 3.8361,
      "step": 52830
    },
    {
      "epoch": 0.11008333333333334,
      "grad_norm": 0.7362900972366333,
      "learning_rate": 0.0002917039412441407,
      "loss": 3.7991,
      "step": 52840
    },
    {
      "epoch": 0.11010416666666667,
      "grad_norm": 0.6952081918716431,
      "learning_rate": 0.0002917007077644146,
      "loss": 4.0634,
      "step": 52850
    },
    {
      "epoch": 0.110125,
      "grad_norm": 0.7980598211288452,
      "learning_rate": 0.0002916974736725975,
      "loss": 4.0623,
      "step": 52860
    },
    {
      "epoch": 0.11014583333333333,
      "grad_norm": 0.7988148331642151,
      "learning_rate": 0.00029169423896870344,
      "loss": 4.1201,
      "step": 52870
    },
    {
      "epoch": 0.11016666666666666,
      "grad_norm": 0.8626530766487122,
      "learning_rate": 0.00029169100365274636,
      "loss": 4.0571,
      "step": 52880
    },
    {
      "epoch": 0.1101875,
      "grad_norm": 0.7965443134307861,
      "learning_rate": 0.00029168776772474017,
      "loss": 3.8099,
      "step": 52890
    },
    {
      "epoch": 0.11020833333333334,
      "grad_norm": 0.7561006546020508,
      "learning_rate": 0.00029168453118469894,
      "loss": 4.0266,
      "step": 52900
    },
    {
      "epoch": 0.11022916666666667,
      "grad_norm": 0.8024379014968872,
      "learning_rate": 0.0002916812940326366,
      "loss": 4.0878,
      "step": 52910
    },
    {
      "epoch": 0.11025,
      "grad_norm": 0.7615507245063782,
      "learning_rate": 0.0002916780562685672,
      "loss": 3.9266,
      "step": 52920
    },
    {
      "epoch": 0.11027083333333333,
      "grad_norm": 0.9090479612350464,
      "learning_rate": 0.00029167481789250466,
      "loss": 3.9366,
      "step": 52930
    },
    {
      "epoch": 0.11029166666666666,
      "grad_norm": 0.8365195989608765,
      "learning_rate": 0.0002916715789044629,
      "loss": 3.9034,
      "step": 52940
    },
    {
      "epoch": 0.1103125,
      "grad_norm": 0.8081237077713013,
      "learning_rate": 0.00029166833930445614,
      "loss": 3.8996,
      "step": 52950
    },
    {
      "epoch": 0.11033333333333334,
      "grad_norm": 0.8502915501594543,
      "learning_rate": 0.00029166509909249813,
      "loss": 3.9922,
      "step": 52960
    },
    {
      "epoch": 0.11035416666666667,
      "grad_norm": 0.8141067028045654,
      "learning_rate": 0.000291661858268603,
      "loss": 3.9005,
      "step": 52970
    },
    {
      "epoch": 0.110375,
      "grad_norm": 0.8019058108329773,
      "learning_rate": 0.00029165861683278475,
      "loss": 3.8704,
      "step": 52980
    },
    {
      "epoch": 0.11039583333333333,
      "grad_norm": 1.0281845331192017,
      "learning_rate": 0.0002916553747850573,
      "loss": 3.919,
      "step": 52990
    },
    {
      "epoch": 0.11041666666666666,
      "grad_norm": 0.8038377165794373,
      "learning_rate": 0.0002916521321254347,
      "loss": 3.9946,
      "step": 53000
    },
    {
      "epoch": 0.11041666666666666,
      "eval_loss": 4.287143707275391,
      "eval_runtime": 9.7771,
      "eval_samples_per_second": 1.023,
      "eval_steps_per_second": 0.307,
      "step": 53000
    },
    {
      "epoch": 0.1104375,
      "grad_norm": 0.8986204266548157,
      "learning_rate": 0.0002916488888539309,
      "loss": 4.0505,
      "step": 53010
    },
    {
      "epoch": 0.11045833333333334,
      "grad_norm": 0.7640153169631958,
      "learning_rate": 0.0002916456449705601,
      "loss": 3.8295,
      "step": 53020
    },
    {
      "epoch": 0.11047916666666667,
      "grad_norm": 0.7983289957046509,
      "learning_rate": 0.00029164240047533616,
      "loss": 3.868,
      "step": 53030
    },
    {
      "epoch": 0.1105,
      "grad_norm": 0.7742973566055298,
      "learning_rate": 0.00029163915536827305,
      "loss": 3.8922,
      "step": 53040
    },
    {
      "epoch": 0.11052083333333333,
      "grad_norm": 0.8335437178611755,
      "learning_rate": 0.0002916359096493849,
      "loss": 3.9397,
      "step": 53050
    },
    {
      "epoch": 0.11054166666666666,
      "grad_norm": 0.7938936948776245,
      "learning_rate": 0.0002916326633186856,
      "loss": 4.0751,
      "step": 53060
    },
    {
      "epoch": 0.1105625,
      "grad_norm": 0.8706938624382019,
      "learning_rate": 0.00029162941637618934,
      "loss": 3.8612,
      "step": 53070
    },
    {
      "epoch": 0.11058333333333334,
      "grad_norm": 0.7677713632583618,
      "learning_rate": 0.0002916261688219101,
      "loss": 4.0338,
      "step": 53080
    },
    {
      "epoch": 0.11060416666666667,
      "grad_norm": 0.9367477297782898,
      "learning_rate": 0.0002916229206558618,
      "loss": 3.8915,
      "step": 53090
    },
    {
      "epoch": 0.110625,
      "grad_norm": 0.7873819470405579,
      "learning_rate": 0.0002916196718780585,
      "loss": 4.1746,
      "step": 53100
    },
    {
      "epoch": 0.11064583333333333,
      "grad_norm": 0.7975022196769714,
      "learning_rate": 0.00029161642248851436,
      "loss": 4.0805,
      "step": 53110
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 0.8965891599655151,
      "learning_rate": 0.00029161317248724327,
      "loss": 4.0682,
      "step": 53120
    },
    {
      "epoch": 0.1106875,
      "grad_norm": 0.7114343047142029,
      "learning_rate": 0.00029160992187425935,
      "loss": 4.0278,
      "step": 53130
    },
    {
      "epoch": 0.11070833333333334,
      "grad_norm": 0.7752771973609924,
      "learning_rate": 0.00029160667064957664,
      "loss": 4.0363,
      "step": 53140
    },
    {
      "epoch": 0.11072916666666667,
      "grad_norm": 0.817577064037323,
      "learning_rate": 0.0002916034188132092,
      "loss": 3.9887,
      "step": 53150
    },
    {
      "epoch": 0.11075,
      "grad_norm": 0.7602166533470154,
      "learning_rate": 0.0002916001663651709,
      "loss": 3.9578,
      "step": 53160
    },
    {
      "epoch": 0.11077083333333333,
      "grad_norm": 0.6868917346000671,
      "learning_rate": 0.0002915969133054761,
      "loss": 4.0167,
      "step": 53170
    },
    {
      "epoch": 0.11079166666666666,
      "grad_norm": 0.7333712577819824,
      "learning_rate": 0.0002915936596341386,
      "loss": 3.8314,
      "step": 53180
    },
    {
      "epoch": 0.1108125,
      "grad_norm": 0.8951585292816162,
      "learning_rate": 0.00029159040535117254,
      "loss": 3.9547,
      "step": 53190
    },
    {
      "epoch": 0.11083333333333334,
      "grad_norm": 0.7691102623939514,
      "learning_rate": 0.000291587150456592,
      "loss": 4.0171,
      "step": 53200
    },
    {
      "epoch": 0.11085416666666667,
      "grad_norm": 0.7777038812637329,
      "learning_rate": 0.00029158389495041097,
      "loss": 4.0557,
      "step": 53210
    },
    {
      "epoch": 0.110875,
      "grad_norm": 0.7678014636039734,
      "learning_rate": 0.0002915806388326436,
      "loss": 4.0594,
      "step": 53220
    },
    {
      "epoch": 0.11089583333333333,
      "grad_norm": 0.8808465600013733,
      "learning_rate": 0.00029157738210330386,
      "loss": 4.1487,
      "step": 53230
    },
    {
      "epoch": 0.11091666666666666,
      "grad_norm": 0.8025858998298645,
      "learning_rate": 0.00029157412476240593,
      "loss": 3.9933,
      "step": 53240
    },
    {
      "epoch": 0.1109375,
      "grad_norm": 0.7906595468521118,
      "learning_rate": 0.00029157086680996376,
      "loss": 3.918,
      "step": 53250
    },
    {
      "epoch": 0.11095833333333334,
      "grad_norm": 0.8262672424316406,
      "learning_rate": 0.0002915676082459915,
      "loss": 4.1917,
      "step": 53260
    },
    {
      "epoch": 0.11097916666666667,
      "grad_norm": 0.7214429974555969,
      "learning_rate": 0.00029156434907050326,
      "loss": 4.0127,
      "step": 53270
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.7250967025756836,
      "learning_rate": 0.000291561089283513,
      "loss": 4.0867,
      "step": 53280
    },
    {
      "epoch": 0.11102083333333333,
      "grad_norm": 0.8093532919883728,
      "learning_rate": 0.0002915578288850349,
      "loss": 3.9426,
      "step": 53290
    },
    {
      "epoch": 0.11104166666666666,
      "grad_norm": 0.9679776430130005,
      "learning_rate": 0.000291554567875083,
      "loss": 3.9925,
      "step": 53300
    },
    {
      "epoch": 0.1110625,
      "grad_norm": 0.7204603552818298,
      "learning_rate": 0.00029155130625367143,
      "loss": 3.9257,
      "step": 53310
    },
    {
      "epoch": 0.11108333333333334,
      "grad_norm": 0.8536656498908997,
      "learning_rate": 0.0002915480440208142,
      "loss": 4.1043,
      "step": 53320
    },
    {
      "epoch": 0.11110416666666667,
      "grad_norm": 0.7618528008460999,
      "learning_rate": 0.0002915447811765255,
      "loss": 4.0696,
      "step": 53330
    },
    {
      "epoch": 0.111125,
      "grad_norm": 0.8743622303009033,
      "learning_rate": 0.0002915415177208193,
      "loss": 3.9548,
      "step": 53340
    },
    {
      "epoch": 0.11114583333333333,
      "grad_norm": 0.6830845475196838,
      "learning_rate": 0.00029153825365370984,
      "loss": 3.9555,
      "step": 53350
    },
    {
      "epoch": 0.11116666666666666,
      "grad_norm": 0.92741858959198,
      "learning_rate": 0.0002915349889752111,
      "loss": 4.0029,
      "step": 53360
    },
    {
      "epoch": 0.1111875,
      "grad_norm": 0.7706344127655029,
      "learning_rate": 0.0002915317236853373,
      "loss": 4.0708,
      "step": 53370
    },
    {
      "epoch": 0.11120833333333334,
      "grad_norm": 0.8862875699996948,
      "learning_rate": 0.00029152845778410245,
      "loss": 3.868,
      "step": 53380
    },
    {
      "epoch": 0.11122916666666667,
      "grad_norm": 0.7734929323196411,
      "learning_rate": 0.00029152519127152065,
      "loss": 4.0393,
      "step": 53390
    },
    {
      "epoch": 0.11125,
      "grad_norm": 0.8274433016777039,
      "learning_rate": 0.00029152192414760603,
      "loss": 4.0143,
      "step": 53400
    },
    {
      "epoch": 0.11127083333333333,
      "grad_norm": 0.8333505988121033,
      "learning_rate": 0.00029151865641237275,
      "loss": 3.7917,
      "step": 53410
    },
    {
      "epoch": 0.11129166666666666,
      "grad_norm": 1.049241065979004,
      "learning_rate": 0.0002915153880658349,
      "loss": 3.987,
      "step": 53420
    },
    {
      "epoch": 0.1113125,
      "grad_norm": 0.7601693868637085,
      "learning_rate": 0.00029151211910800656,
      "loss": 4.0545,
      "step": 53430
    },
    {
      "epoch": 0.11133333333333334,
      "grad_norm": 0.9181479215621948,
      "learning_rate": 0.0002915088495389019,
      "loss": 3.9335,
      "step": 53440
    },
    {
      "epoch": 0.11135416666666667,
      "grad_norm": 0.8045979142189026,
      "learning_rate": 0.000291505579358535,
      "loss": 3.8212,
      "step": 53450
    },
    {
      "epoch": 0.111375,
      "grad_norm": 0.7896431684494019,
      "learning_rate": 0.00029150230856692,
      "loss": 4.1041,
      "step": 53460
    },
    {
      "epoch": 0.11139583333333333,
      "grad_norm": 0.6560031175613403,
      "learning_rate": 0.0002914990371640711,
      "loss": 3.8303,
      "step": 53470
    },
    {
      "epoch": 0.11141666666666666,
      "grad_norm": 0.7690889835357666,
      "learning_rate": 0.00029149576515000234,
      "loss": 3.8923,
      "step": 53480
    },
    {
      "epoch": 0.1114375,
      "grad_norm": 0.7666255831718445,
      "learning_rate": 0.00029149249252472784,
      "loss": 3.9374,
      "step": 53490
    },
    {
      "epoch": 0.11145833333333334,
      "grad_norm": 0.7665466070175171,
      "learning_rate": 0.00029148921928826184,
      "loss": 4.1684,
      "step": 53500
    },
    {
      "epoch": 0.11147916666666667,
      "grad_norm": 0.7785353660583496,
      "learning_rate": 0.0002914859454406184,
      "loss": 4.0742,
      "step": 53510
    },
    {
      "epoch": 0.1115,
      "grad_norm": 0.7910484671592712,
      "learning_rate": 0.00029148267098181164,
      "loss": 4.0096,
      "step": 53520
    },
    {
      "epoch": 0.11152083333333333,
      "grad_norm": 0.7075024843215942,
      "learning_rate": 0.0002914793959118558,
      "loss": 3.9381,
      "step": 53530
    },
    {
      "epoch": 0.11154166666666666,
      "grad_norm": 0.737091064453125,
      "learning_rate": 0.00029147612023076495,
      "loss": 3.8916,
      "step": 53540
    },
    {
      "epoch": 0.1115625,
      "grad_norm": 0.7996664643287659,
      "learning_rate": 0.00029147284393855324,
      "loss": 3.8037,
      "step": 53550
    },
    {
      "epoch": 0.11158333333333334,
      "grad_norm": 0.7620794177055359,
      "learning_rate": 0.0002914695670352349,
      "loss": 4.0547,
      "step": 53560
    },
    {
      "epoch": 0.11160416666666667,
      "grad_norm": 0.9369173049926758,
      "learning_rate": 0.0002914662895208239,
      "loss": 4.0153,
      "step": 53570
    },
    {
      "epoch": 0.111625,
      "grad_norm": 0.8283045887947083,
      "learning_rate": 0.00029146301139533465,
      "loss": 3.9179,
      "step": 53580
    },
    {
      "epoch": 0.11164583333333333,
      "grad_norm": 0.8813813924789429,
      "learning_rate": 0.0002914597326587811,
      "loss": 4.0876,
      "step": 53590
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 0.8540322780609131,
      "learning_rate": 0.0002914564533111776,
      "loss": 3.921,
      "step": 53600
    },
    {
      "epoch": 0.1116875,
      "grad_norm": 0.8220049142837524,
      "learning_rate": 0.0002914531733525382,
      "loss": 4.0458,
      "step": 53610
    },
    {
      "epoch": 0.11170833333333334,
      "grad_norm": 0.7949165105819702,
      "learning_rate": 0.000291449892782877,
      "loss": 3.9973,
      "step": 53620
    },
    {
      "epoch": 0.11172916666666667,
      "grad_norm": 0.856960117816925,
      "learning_rate": 0.0002914466116022083,
      "loss": 3.9142,
      "step": 53630
    },
    {
      "epoch": 0.11175,
      "grad_norm": 0.8311901092529297,
      "learning_rate": 0.00029144332981054623,
      "loss": 4.0232,
      "step": 53640
    },
    {
      "epoch": 0.11177083333333333,
      "grad_norm": 0.7674480676651001,
      "learning_rate": 0.00029144004740790493,
      "loss": 4.0432,
      "step": 53650
    },
    {
      "epoch": 0.11179166666666666,
      "grad_norm": 0.8217912912368774,
      "learning_rate": 0.0002914367643942987,
      "loss": 3.8703,
      "step": 53660
    },
    {
      "epoch": 0.1118125,
      "grad_norm": 0.7695301175117493,
      "learning_rate": 0.0002914334807697416,
      "loss": 4.1283,
      "step": 53670
    },
    {
      "epoch": 0.11183333333333334,
      "grad_norm": 0.7896645665168762,
      "learning_rate": 0.0002914301965342477,
      "loss": 4.0795,
      "step": 53680
    },
    {
      "epoch": 0.11185416666666667,
      "grad_norm": 1.0392377376556396,
      "learning_rate": 0.00029142691168783147,
      "loss": 4.0667,
      "step": 53690
    },
    {
      "epoch": 0.111875,
      "grad_norm": 0.9117002487182617,
      "learning_rate": 0.000291423626230507,
      "loss": 3.966,
      "step": 53700
    },
    {
      "epoch": 0.11189583333333333,
      "grad_norm": 0.8944419026374817,
      "learning_rate": 0.00029142034016228834,
      "loss": 4.0523,
      "step": 53710
    },
    {
      "epoch": 0.11191666666666666,
      "grad_norm": 0.791966438293457,
      "learning_rate": 0.00029141705348318986,
      "loss": 4.0174,
      "step": 53720
    },
    {
      "epoch": 0.1119375,
      "grad_norm": 0.8486201167106628,
      "learning_rate": 0.00029141376619322564,
      "loss": 3.9041,
      "step": 53730
    },
    {
      "epoch": 0.11195833333333334,
      "grad_norm": 0.727866530418396,
      "learning_rate": 0.00029141047829240994,
      "loss": 4.0645,
      "step": 53740
    },
    {
      "epoch": 0.11197916666666667,
      "grad_norm": 0.7042128443717957,
      "learning_rate": 0.00029140718978075696,
      "loss": 3.9214,
      "step": 53750
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.8535209894180298,
      "learning_rate": 0.0002914039006582809,
      "loss": 3.8172,
      "step": 53760
    },
    {
      "epoch": 0.11202083333333333,
      "grad_norm": 0.8558336496353149,
      "learning_rate": 0.0002914006109249959,
      "loss": 4.0244,
      "step": 53770
    },
    {
      "epoch": 0.11204166666666666,
      "grad_norm": 0.7634351253509521,
      "learning_rate": 0.0002913973205809163,
      "loss": 4.1981,
      "step": 53780
    },
    {
      "epoch": 0.1120625,
      "grad_norm": 0.9074376821517944,
      "learning_rate": 0.0002913940296260562,
      "loss": 3.9885,
      "step": 53790
    },
    {
      "epoch": 0.11208333333333333,
      "grad_norm": 0.7365894317626953,
      "learning_rate": 0.00029139073806042987,
      "loss": 3.9825,
      "step": 53800
    },
    {
      "epoch": 0.11210416666666667,
      "grad_norm": 0.9071856141090393,
      "learning_rate": 0.00029138744588405157,
      "loss": 4.0964,
      "step": 53810
    },
    {
      "epoch": 0.112125,
      "grad_norm": 0.7501065135002136,
      "learning_rate": 0.0002913841530969354,
      "loss": 4.0113,
      "step": 53820
    },
    {
      "epoch": 0.11214583333333333,
      "grad_norm": 0.769594669342041,
      "learning_rate": 0.0002913808596990957,
      "loss": 3.921,
      "step": 53830
    },
    {
      "epoch": 0.11216666666666666,
      "grad_norm": 0.9653618335723877,
      "learning_rate": 0.00029137756569054665,
      "loss": 3.9994,
      "step": 53840
    },
    {
      "epoch": 0.1121875,
      "grad_norm": 0.8307741284370422,
      "learning_rate": 0.0002913742710713024,
      "loss": 3.9399,
      "step": 53850
    },
    {
      "epoch": 0.11220833333333333,
      "grad_norm": 0.7629021406173706,
      "learning_rate": 0.0002913709758413774,
      "loss": 4.0677,
      "step": 53860
    },
    {
      "epoch": 0.11222916666666667,
      "grad_norm": 0.8333168625831604,
      "learning_rate": 0.0002913676800007856,
      "loss": 3.8942,
      "step": 53870
    },
    {
      "epoch": 0.11225,
      "grad_norm": 0.7365798950195312,
      "learning_rate": 0.0002913643835495414,
      "loss": 3.9329,
      "step": 53880
    },
    {
      "epoch": 0.11227083333333333,
      "grad_norm": 0.8182818293571472,
      "learning_rate": 0.0002913610864876591,
      "loss": 4.1152,
      "step": 53890
    },
    {
      "epoch": 0.11229166666666666,
      "grad_norm": 0.7590382099151611,
      "learning_rate": 0.0002913577888151528,
      "loss": 4.0,
      "step": 53900
    },
    {
      "epoch": 0.1123125,
      "grad_norm": 0.7891393899917603,
      "learning_rate": 0.0002913544905320368,
      "loss": 4.1027,
      "step": 53910
    },
    {
      "epoch": 0.11233333333333333,
      "grad_norm": 0.7939102649688721,
      "learning_rate": 0.0002913511916383254,
      "loss": 3.9175,
      "step": 53920
    },
    {
      "epoch": 0.11235416666666667,
      "grad_norm": 1.2716625928878784,
      "learning_rate": 0.00029134789213403273,
      "loss": 3.7981,
      "step": 53930
    },
    {
      "epoch": 0.112375,
      "grad_norm": 0.8454559445381165,
      "learning_rate": 0.0002913445920191732,
      "loss": 4.1802,
      "step": 53940
    },
    {
      "epoch": 0.11239583333333333,
      "grad_norm": 0.8109568953514099,
      "learning_rate": 0.00029134129129376095,
      "loss": 4.1076,
      "step": 53950
    },
    {
      "epoch": 0.11241666666666666,
      "grad_norm": 0.6924893260002136,
      "learning_rate": 0.00029133798995781025,
      "loss": 3.9523,
      "step": 53960
    },
    {
      "epoch": 0.1124375,
      "grad_norm": 0.8436433672904968,
      "learning_rate": 0.0002913346880113354,
      "loss": 3.9559,
      "step": 53970
    },
    {
      "epoch": 0.11245833333333333,
      "grad_norm": 0.8140881657600403,
      "learning_rate": 0.00029133138545435065,
      "loss": 3.9539,
      "step": 53980
    },
    {
      "epoch": 0.11247916666666667,
      "grad_norm": 0.7920872569084167,
      "learning_rate": 0.00029132808228687023,
      "loss": 4.0456,
      "step": 53990
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.8136446475982666,
      "learning_rate": 0.0002913247785089084,
      "loss": 4.0914,
      "step": 54000
    },
    {
      "epoch": 0.1125,
      "eval_loss": 4.280838966369629,
      "eval_runtime": 10.6116,
      "eval_samples_per_second": 0.942,
      "eval_steps_per_second": 0.283,
      "step": 54000
    },
    {
      "epoch": 0.11252083333333333,
      "grad_norm": 0.77712482213974,
      "learning_rate": 0.00029132147412047957,
      "loss": 3.9758,
      "step": 54010
    },
    {
      "epoch": 0.11254166666666666,
      "grad_norm": 0.8757309913635254,
      "learning_rate": 0.00029131816912159785,
      "loss": 4.0426,
      "step": 54020
    },
    {
      "epoch": 0.1125625,
      "grad_norm": 0.7290351986885071,
      "learning_rate": 0.00029131486351227756,
      "loss": 3.9122,
      "step": 54030
    },
    {
      "epoch": 0.11258333333333333,
      "grad_norm": 0.7096030712127686,
      "learning_rate": 0.000291311557292533,
      "loss": 3.8814,
      "step": 54040
    },
    {
      "epoch": 0.11260416666666667,
      "grad_norm": 0.8860689401626587,
      "learning_rate": 0.0002913082504623785,
      "loss": 3.8465,
      "step": 54050
    },
    {
      "epoch": 0.112625,
      "grad_norm": 0.76201331615448,
      "learning_rate": 0.00029130494302182826,
      "loss": 3.98,
      "step": 54060
    },
    {
      "epoch": 0.11264583333333333,
      "grad_norm": 0.779542863368988,
      "learning_rate": 0.0002913016349708966,
      "loss": 4.1541,
      "step": 54070
    },
    {
      "epoch": 0.11266666666666666,
      "grad_norm": 0.985028088092804,
      "learning_rate": 0.0002912983263095978,
      "loss": 3.8634,
      "step": 54080
    },
    {
      "epoch": 0.1126875,
      "grad_norm": 0.8575774431228638,
      "learning_rate": 0.00029129501703794615,
      "loss": 3.8876,
      "step": 54090
    },
    {
      "epoch": 0.11270833333333333,
      "grad_norm": 0.7997328639030457,
      "learning_rate": 0.00029129170715595597,
      "loss": 4.0255,
      "step": 54100
    },
    {
      "epoch": 0.11272916666666667,
      "grad_norm": 0.7222681045532227,
      "learning_rate": 0.0002912883966636415,
      "loss": 4.0313,
      "step": 54110
    },
    {
      "epoch": 0.11275,
      "grad_norm": 0.8360675573348999,
      "learning_rate": 0.00029128508556101716,
      "loss": 4.2073,
      "step": 54120
    },
    {
      "epoch": 0.11277083333333333,
      "grad_norm": 0.81132972240448,
      "learning_rate": 0.00029128177384809715,
      "loss": 4.0361,
      "step": 54130
    },
    {
      "epoch": 0.11279166666666667,
      "grad_norm": 0.7303118109703064,
      "learning_rate": 0.00029127846152489573,
      "loss": 3.9028,
      "step": 54140
    },
    {
      "epoch": 0.1128125,
      "grad_norm": 0.8683115839958191,
      "learning_rate": 0.0002912751485914274,
      "loss": 3.9677,
      "step": 54150
    },
    {
      "epoch": 0.11283333333333333,
      "grad_norm": 0.8812719583511353,
      "learning_rate": 0.0002912718350477063,
      "loss": 3.996,
      "step": 54160
    },
    {
      "epoch": 0.11285416666666667,
      "grad_norm": 0.8308274745941162,
      "learning_rate": 0.0002912685208937467,
      "loss": 3.8356,
      "step": 54170
    },
    {
      "epoch": 0.112875,
      "grad_norm": 0.6979871988296509,
      "learning_rate": 0.0002912652061295631,
      "loss": 4.0132,
      "step": 54180
    },
    {
      "epoch": 0.11289583333333333,
      "grad_norm": 0.9117338061332703,
      "learning_rate": 0.0002912618907551697,
      "loss": 3.9262,
      "step": 54190
    },
    {
      "epoch": 0.11291666666666667,
      "grad_norm": 0.8472652435302734,
      "learning_rate": 0.00029125857477058087,
      "loss": 4.0324,
      "step": 54200
    },
    {
      "epoch": 0.1129375,
      "grad_norm": 0.743266224861145,
      "learning_rate": 0.0002912552581758109,
      "loss": 4.0731,
      "step": 54210
    },
    {
      "epoch": 0.11295833333333333,
      "grad_norm": 0.7494754791259766,
      "learning_rate": 0.00029125194097087416,
      "loss": 4.1534,
      "step": 54220
    },
    {
      "epoch": 0.11297916666666667,
      "grad_norm": 0.751899242401123,
      "learning_rate": 0.0002912486231557849,
      "loss": 4.0764,
      "step": 54230
    },
    {
      "epoch": 0.113,
      "grad_norm": 0.7224110960960388,
      "learning_rate": 0.0002912453047305575,
      "loss": 3.9223,
      "step": 54240
    },
    {
      "epoch": 0.11302083333333333,
      "grad_norm": 0.8038419485092163,
      "learning_rate": 0.00029124198569520636,
      "loss": 3.8798,
      "step": 54250
    },
    {
      "epoch": 0.11304166666666667,
      "grad_norm": 0.6930558681488037,
      "learning_rate": 0.00029123866604974566,
      "loss": 3.9899,
      "step": 54260
    },
    {
      "epoch": 0.1130625,
      "grad_norm": 0.7548181414604187,
      "learning_rate": 0.00029123534579418987,
      "loss": 3.8553,
      "step": 54270
    },
    {
      "epoch": 0.11308333333333333,
      "grad_norm": 0.7979262471199036,
      "learning_rate": 0.00029123202492855325,
      "loss": 4.0494,
      "step": 54280
    },
    {
      "epoch": 0.11310416666666667,
      "grad_norm": 0.7424187660217285,
      "learning_rate": 0.0002912287034528502,
      "loss": 3.9087,
      "step": 54290
    },
    {
      "epoch": 0.113125,
      "grad_norm": 0.8549516797065735,
      "learning_rate": 0.00029122538136709507,
      "loss": 3.8293,
      "step": 54300
    },
    {
      "epoch": 0.11314583333333333,
      "grad_norm": 0.717536211013794,
      "learning_rate": 0.00029122205867130224,
      "loss": 4.023,
      "step": 54310
    },
    {
      "epoch": 0.11316666666666667,
      "grad_norm": 0.8807007074356079,
      "learning_rate": 0.00029121873536548594,
      "loss": 4.0192,
      "step": 54320
    },
    {
      "epoch": 0.1131875,
      "grad_norm": 0.7513592839241028,
      "learning_rate": 0.00029121541144966063,
      "loss": 4.0564,
      "step": 54330
    },
    {
      "epoch": 0.11320833333333333,
      "grad_norm": 0.7990778088569641,
      "learning_rate": 0.00029121208692384063,
      "loss": 3.9472,
      "step": 54340
    },
    {
      "epoch": 0.11322916666666667,
      "grad_norm": 0.7603349089622498,
      "learning_rate": 0.00029120876178804036,
      "loss": 4.0012,
      "step": 54350
    },
    {
      "epoch": 0.11325,
      "grad_norm": 0.8535602688789368,
      "learning_rate": 0.00029120543604227407,
      "loss": 4.0624,
      "step": 54360
    },
    {
      "epoch": 0.11327083333333333,
      "grad_norm": 0.8001286387443542,
      "learning_rate": 0.0002912021096865562,
      "loss": 4.0139,
      "step": 54370
    },
    {
      "epoch": 0.11329166666666667,
      "grad_norm": 0.8954506516456604,
      "learning_rate": 0.00029119878272090117,
      "loss": 3.9726,
      "step": 54380
    },
    {
      "epoch": 0.1133125,
      "grad_norm": 0.7244200706481934,
      "learning_rate": 0.0002911954551453232,
      "loss": 3.853,
      "step": 54390
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 0.9759459495544434,
      "learning_rate": 0.0002911921269598368,
      "loss": 3.9457,
      "step": 54400
    },
    {
      "epoch": 0.11335416666666667,
      "grad_norm": 0.8425066471099854,
      "learning_rate": 0.0002911887981644563,
      "loss": 3.8838,
      "step": 54410
    },
    {
      "epoch": 0.113375,
      "grad_norm": 1.0385279655456543,
      "learning_rate": 0.0002911854687591961,
      "loss": 3.8266,
      "step": 54420
    },
    {
      "epoch": 0.11339583333333333,
      "grad_norm": 1.0086040496826172,
      "learning_rate": 0.0002911821387440705,
      "loss": 4.2336,
      "step": 54430
    },
    {
      "epoch": 0.11341666666666667,
      "grad_norm": 0.8561246991157532,
      "learning_rate": 0.00029117880811909395,
      "loss": 3.9645,
      "step": 54440
    },
    {
      "epoch": 0.1134375,
      "grad_norm": 0.7583532333374023,
      "learning_rate": 0.0002911754768842809,
      "loss": 3.7842,
      "step": 54450
    },
    {
      "epoch": 0.11345833333333333,
      "grad_norm": 0.7862679362297058,
      "learning_rate": 0.0002911721450396456,
      "loss": 3.9556,
      "step": 54460
    },
    {
      "epoch": 0.11347916666666667,
      "grad_norm": 0.7411077618598938,
      "learning_rate": 0.00029116881258520254,
      "loss": 4.059,
      "step": 54470
    },
    {
      "epoch": 0.1135,
      "grad_norm": 0.6947376132011414,
      "learning_rate": 0.00029116547952096614,
      "loss": 4.0333,
      "step": 54480
    },
    {
      "epoch": 0.11352083333333333,
      "grad_norm": 0.7771292328834534,
      "learning_rate": 0.0002911621458469507,
      "loss": 3.9279,
      "step": 54490
    },
    {
      "epoch": 0.11354166666666667,
      "grad_norm": 0.7524527907371521,
      "learning_rate": 0.0002911588115631706,
      "loss": 4.2295,
      "step": 54500
    },
    {
      "epoch": 0.1135625,
      "grad_norm": 1.6225998401641846,
      "learning_rate": 0.0002911554766696404,
      "loss": 4.0799,
      "step": 54510
    },
    {
      "epoch": 0.11358333333333333,
      "grad_norm": 0.9445501565933228,
      "learning_rate": 0.00029115214116637436,
      "loss": 4.0504,
      "step": 54520
    },
    {
      "epoch": 0.11360416666666667,
      "grad_norm": 0.8149837255477905,
      "learning_rate": 0.00029114880505338694,
      "loss": 3.9698,
      "step": 54530
    },
    {
      "epoch": 0.113625,
      "grad_norm": 0.7575581669807434,
      "learning_rate": 0.0002911454683306926,
      "loss": 4.2666,
      "step": 54540
    },
    {
      "epoch": 0.11364583333333333,
      "grad_norm": 0.7737521529197693,
      "learning_rate": 0.0002911421309983057,
      "loss": 3.8698,
      "step": 54550
    },
    {
      "epoch": 0.11366666666666667,
      "grad_norm": 1.0397659540176392,
      "learning_rate": 0.0002911387930562406,
      "loss": 3.9867,
      "step": 54560
    },
    {
      "epoch": 0.1136875,
      "grad_norm": 0.789445161819458,
      "learning_rate": 0.00029113545450451186,
      "loss": 4.0222,
      "step": 54570
    },
    {
      "epoch": 0.11370833333333333,
      "grad_norm": 0.9298253655433655,
      "learning_rate": 0.0002911321153431338,
      "loss": 4.2021,
      "step": 54580
    },
    {
      "epoch": 0.11372916666666667,
      "grad_norm": 1.0476429462432861,
      "learning_rate": 0.0002911287755721209,
      "loss": 4.1678,
      "step": 54590
    },
    {
      "epoch": 0.11375,
      "grad_norm": 0.8239476680755615,
      "learning_rate": 0.00029112543519148744,
      "loss": 4.0078,
      "step": 54600
    },
    {
      "epoch": 0.11377083333333333,
      "grad_norm": 0.8165156245231628,
      "learning_rate": 0.00029112209420124803,
      "loss": 3.896,
      "step": 54610
    },
    {
      "epoch": 0.11379166666666667,
      "grad_norm": 0.8070113062858582,
      "learning_rate": 0.00029111875260141705,
      "loss": 3.9147,
      "step": 54620
    },
    {
      "epoch": 0.1138125,
      "grad_norm": 0.8266675472259521,
      "learning_rate": 0.0002911154103920089,
      "loss": 4.0051,
      "step": 54630
    },
    {
      "epoch": 0.11383333333333333,
      "grad_norm": 0.8317335247993469,
      "learning_rate": 0.00029111206757303804,
      "loss": 3.9733,
      "step": 54640
    },
    {
      "epoch": 0.11385416666666667,
      "grad_norm": 0.840154767036438,
      "learning_rate": 0.00029110872414451886,
      "loss": 3.9761,
      "step": 54650
    },
    {
      "epoch": 0.113875,
      "grad_norm": 0.7286726832389832,
      "learning_rate": 0.0002911053801064659,
      "loss": 4.0047,
      "step": 54660
    },
    {
      "epoch": 0.11389583333333334,
      "grad_norm": 0.841788649559021,
      "learning_rate": 0.00029110203545889353,
      "loss": 3.9343,
      "step": 54670
    },
    {
      "epoch": 0.11391666666666667,
      "grad_norm": 0.8023160696029663,
      "learning_rate": 0.0002910986902018162,
      "loss": 4.0907,
      "step": 54680
    },
    {
      "epoch": 0.1139375,
      "grad_norm": 0.7802908420562744,
      "learning_rate": 0.0002910953443352484,
      "loss": 3.8565,
      "step": 54690
    },
    {
      "epoch": 0.11395833333333333,
      "grad_norm": 1.0106667280197144,
      "learning_rate": 0.0002910919978592046,
      "loss": 4.0557,
      "step": 54700
    },
    {
      "epoch": 0.11397916666666667,
      "grad_norm": 0.6741986274719238,
      "learning_rate": 0.0002910886507736992,
      "loss": 3.8516,
      "step": 54710
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.7139117121696472,
      "learning_rate": 0.0002910853030787466,
      "loss": 4.0426,
      "step": 54720
    },
    {
      "epoch": 0.11402083333333334,
      "grad_norm": 0.7387940287590027,
      "learning_rate": 0.00029108195477436146,
      "loss": 4.1256,
      "step": 54730
    },
    {
      "epoch": 0.11404166666666667,
      "grad_norm": 0.8619028925895691,
      "learning_rate": 0.000291078605860558,
      "loss": 3.851,
      "step": 54740
    },
    {
      "epoch": 0.1140625,
      "grad_norm": 0.8429527878761292,
      "learning_rate": 0.0002910752563373509,
      "loss": 4.1251,
      "step": 54750
    },
    {
      "epoch": 0.11408333333333333,
      "grad_norm": 0.7705411314964294,
      "learning_rate": 0.00029107190620475447,
      "loss": 4.0714,
      "step": 54760
    },
    {
      "epoch": 0.11410416666666667,
      "grad_norm": 0.7936342358589172,
      "learning_rate": 0.00029106855546278326,
      "loss": 3.9697,
      "step": 54770
    },
    {
      "epoch": 0.114125,
      "grad_norm": 0.7898793816566467,
      "learning_rate": 0.0002910652041114517,
      "loss": 4.0045,
      "step": 54780
    },
    {
      "epoch": 0.11414583333333334,
      "grad_norm": 0.8115124702453613,
      "learning_rate": 0.0002910618521507744,
      "loss": 4.1036,
      "step": 54790
    },
    {
      "epoch": 0.11416666666666667,
      "grad_norm": 0.7644979953765869,
      "learning_rate": 0.00029105849958076566,
      "loss": 3.9279,
      "step": 54800
    },
    {
      "epoch": 0.1141875,
      "grad_norm": 0.7506288290023804,
      "learning_rate": 0.00029105514640144004,
      "loss": 4.0457,
      "step": 54810
    },
    {
      "epoch": 0.11420833333333333,
      "grad_norm": 0.8403288125991821,
      "learning_rate": 0.00029105179261281204,
      "loss": 3.8715,
      "step": 54820
    },
    {
      "epoch": 0.11422916666666667,
      "grad_norm": 0.8105493187904358,
      "learning_rate": 0.00029104843821489614,
      "loss": 3.9632,
      "step": 54830
    },
    {
      "epoch": 0.11425,
      "grad_norm": 0.7322739958763123,
      "learning_rate": 0.0002910450832077067,
      "loss": 4.0979,
      "step": 54840
    },
    {
      "epoch": 0.11427083333333334,
      "grad_norm": 0.8530154228210449,
      "learning_rate": 0.0002910417275912585,
      "loss": 4.0981,
      "step": 54850
    },
    {
      "epoch": 0.11429166666666667,
      "grad_norm": 0.9795765280723572,
      "learning_rate": 0.00029103837136556577,
      "loss": 4.1436,
      "step": 54860
    },
    {
      "epoch": 0.1143125,
      "grad_norm": 0.7400732636451721,
      "learning_rate": 0.0002910350145306431,
      "loss": 3.9806,
      "step": 54870
    },
    {
      "epoch": 0.11433333333333333,
      "grad_norm": 0.7170628905296326,
      "learning_rate": 0.000291031657086505,
      "loss": 4.07,
      "step": 54880
    },
    {
      "epoch": 0.11435416666666667,
      "grad_norm": 0.8993966579437256,
      "learning_rate": 0.000291028299033166,
      "loss": 4.0839,
      "step": 54890
    },
    {
      "epoch": 0.114375,
      "grad_norm": 0.8258939385414124,
      "learning_rate": 0.00029102494037064054,
      "loss": 3.7945,
      "step": 54900
    },
    {
      "epoch": 0.11439583333333334,
      "grad_norm": 0.7812408208847046,
      "learning_rate": 0.0002910215810989432,
      "loss": 3.8222,
      "step": 54910
    },
    {
      "epoch": 0.11441666666666667,
      "grad_norm": 0.7441757321357727,
      "learning_rate": 0.0002910182212180884,
      "loss": 3.9879,
      "step": 54920
    },
    {
      "epoch": 0.1144375,
      "grad_norm": 0.836484968662262,
      "learning_rate": 0.0002910148607280907,
      "loss": 4.048,
      "step": 54930
    },
    {
      "epoch": 0.11445833333333333,
      "grad_norm": 0.844278872013092,
      "learning_rate": 0.00029101149962896465,
      "loss": 4.0222,
      "step": 54940
    },
    {
      "epoch": 0.11447916666666667,
      "grad_norm": 0.7436351776123047,
      "learning_rate": 0.00029100813792072474,
      "loss": 4.1547,
      "step": 54950
    },
    {
      "epoch": 0.1145,
      "grad_norm": 0.8790718913078308,
      "learning_rate": 0.0002910047756033854,
      "loss": 3.9384,
      "step": 54960
    },
    {
      "epoch": 0.11452083333333334,
      "grad_norm": 1.0069365501403809,
      "learning_rate": 0.0002910014126769614,
      "loss": 4.1157,
      "step": 54970
    },
    {
      "epoch": 0.11454166666666667,
      "grad_norm": 0.7754048705101013,
      "learning_rate": 0.000290998049141467,
      "loss": 3.9471,
      "step": 54980
    },
    {
      "epoch": 0.1145625,
      "grad_norm": 0.7519248127937317,
      "learning_rate": 0.00029099468499691687,
      "loss": 3.9414,
      "step": 54990
    },
    {
      "epoch": 0.11458333333333333,
      "grad_norm": 0.7190216779708862,
      "learning_rate": 0.0002909913202433255,
      "loss": 3.9746,
      "step": 55000
    },
    {
      "epoch": 0.11458333333333333,
      "eval_loss": 4.282595157623291,
      "eval_runtime": 8.7917,
      "eval_samples_per_second": 1.137,
      "eval_steps_per_second": 0.341,
      "step": 55000
    },
    {
      "epoch": 0.11460416666666666,
      "grad_norm": 0.73598313331604,
      "learning_rate": 0.0002909879548807075,
      "loss": 3.798,
      "step": 55010
    },
    {
      "epoch": 0.114625,
      "grad_norm": 0.7681795954704285,
      "learning_rate": 0.00029098458890907726,
      "loss": 3.9372,
      "step": 55020
    },
    {
      "epoch": 0.11464583333333334,
      "grad_norm": 0.8460932374000549,
      "learning_rate": 0.0002909812223284494,
      "loss": 4.1843,
      "step": 55030
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 0.8196831345558167,
      "learning_rate": 0.0002909778551388385,
      "loss": 4.1184,
      "step": 55040
    },
    {
      "epoch": 0.1146875,
      "grad_norm": 0.6837860345840454,
      "learning_rate": 0.000290974487340259,
      "loss": 3.992,
      "step": 55050
    },
    {
      "epoch": 0.11470833333333333,
      "grad_norm": 0.843625545501709,
      "learning_rate": 0.0002909711189327256,
      "loss": 3.8545,
      "step": 55060
    },
    {
      "epoch": 0.11472916666666666,
      "grad_norm": 0.7268226146697998,
      "learning_rate": 0.0002909677499162528,
      "loss": 3.9443,
      "step": 55070
    },
    {
      "epoch": 0.11475,
      "grad_norm": 0.7199708819389343,
      "learning_rate": 0.000290964380290855,
      "loss": 4.0985,
      "step": 55080
    },
    {
      "epoch": 0.11477083333333334,
      "grad_norm": 0.7235242128372192,
      "learning_rate": 0.00029096101005654697,
      "loss": 4.0323,
      "step": 55090
    },
    {
      "epoch": 0.11479166666666667,
      "grad_norm": 0.7907050251960754,
      "learning_rate": 0.0002909576392133431,
      "loss": 3.9805,
      "step": 55100
    },
    {
      "epoch": 0.1148125,
      "grad_norm": 0.8369475603103638,
      "learning_rate": 0.0002909542677612581,
      "loss": 3.9457,
      "step": 55110
    },
    {
      "epoch": 0.11483333333333333,
      "grad_norm": 0.8142032623291016,
      "learning_rate": 0.0002909508957003064,
      "loss": 3.759,
      "step": 55120
    },
    {
      "epoch": 0.11485416666666666,
      "grad_norm": 0.9956970810890198,
      "learning_rate": 0.00029094752303050265,
      "loss": 4.0784,
      "step": 55130
    },
    {
      "epoch": 0.114875,
      "grad_norm": 0.7185103297233582,
      "learning_rate": 0.00029094414975186137,
      "loss": 3.9774,
      "step": 55140
    },
    {
      "epoch": 0.11489583333333334,
      "grad_norm": 0.7733570337295532,
      "learning_rate": 0.00029094077586439715,
      "loss": 4.0479,
      "step": 55150
    },
    {
      "epoch": 0.11491666666666667,
      "grad_norm": 0.7490519285202026,
      "learning_rate": 0.0002909374013681246,
      "loss": 3.8437,
      "step": 55160
    },
    {
      "epoch": 0.1149375,
      "grad_norm": 0.8149108290672302,
      "learning_rate": 0.00029093402626305826,
      "loss": 4.1582,
      "step": 55170
    },
    {
      "epoch": 0.11495833333333333,
      "grad_norm": 0.7319273948669434,
      "learning_rate": 0.00029093065054921265,
      "loss": 4.1906,
      "step": 55180
    },
    {
      "epoch": 0.11497916666666666,
      "grad_norm": 0.7475303411483765,
      "learning_rate": 0.0002909272742266025,
      "loss": 3.926,
      "step": 55190
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.8271916508674622,
      "learning_rate": 0.0002909238972952423,
      "loss": 3.9795,
      "step": 55200
    },
    {
      "epoch": 0.11502083333333334,
      "grad_norm": 1.2443183660507202,
      "learning_rate": 0.00029092051975514654,
      "loss": 3.9289,
      "step": 55210
    },
    {
      "epoch": 0.11504166666666667,
      "grad_norm": 0.8365421295166016,
      "learning_rate": 0.00029091714160633003,
      "loss": 3.9704,
      "step": 55220
    },
    {
      "epoch": 0.1150625,
      "grad_norm": 0.8995363116264343,
      "learning_rate": 0.0002909137628488072,
      "loss": 3.9971,
      "step": 55230
    },
    {
      "epoch": 0.11508333333333333,
      "grad_norm": 0.7884370684623718,
      "learning_rate": 0.0002909103834825927,
      "loss": 3.9981,
      "step": 55240
    },
    {
      "epoch": 0.11510416666666666,
      "grad_norm": 0.8233088850975037,
      "learning_rate": 0.0002909070035077011,
      "loss": 3.686,
      "step": 55250
    },
    {
      "epoch": 0.115125,
      "grad_norm": 0.7961454391479492,
      "learning_rate": 0.00029090362292414707,
      "loss": 3.9204,
      "step": 55260
    },
    {
      "epoch": 0.11514583333333334,
      "grad_norm": 0.7829490900039673,
      "learning_rate": 0.0002909002417319451,
      "loss": 3.9261,
      "step": 55270
    },
    {
      "epoch": 0.11516666666666667,
      "grad_norm": 0.8642953038215637,
      "learning_rate": 0.0002908968599311099,
      "loss": 4.0254,
      "step": 55280
    },
    {
      "epoch": 0.1151875,
      "grad_norm": 0.7104470133781433,
      "learning_rate": 0.00029089347752165603,
      "loss": 4.0673,
      "step": 55290
    },
    {
      "epoch": 0.11520833333333333,
      "grad_norm": 0.8956674933433533,
      "learning_rate": 0.0002908900945035981,
      "loss": 3.9517,
      "step": 55300
    },
    {
      "epoch": 0.11522916666666666,
      "grad_norm": 0.7470389008522034,
      "learning_rate": 0.00029088671087695075,
      "loss": 4.1541,
      "step": 55310
    },
    {
      "epoch": 0.11525,
      "grad_norm": 0.9496526122093201,
      "learning_rate": 0.00029088332664172856,
      "loss": 4.0236,
      "step": 55320
    },
    {
      "epoch": 0.11527083333333334,
      "grad_norm": 1.01850426197052,
      "learning_rate": 0.0002908799417979461,
      "loss": 3.9318,
      "step": 55330
    },
    {
      "epoch": 0.11529166666666667,
      "grad_norm": 0.7430797815322876,
      "learning_rate": 0.00029087655634561815,
      "loss": 3.9599,
      "step": 55340
    },
    {
      "epoch": 0.1153125,
      "grad_norm": 0.8040732741355896,
      "learning_rate": 0.00029087317028475925,
      "loss": 3.9796,
      "step": 55350
    },
    {
      "epoch": 0.11533333333333333,
      "grad_norm": 0.8098499774932861,
      "learning_rate": 0.0002908697836153839,
      "loss": 4.0783,
      "step": 55360
    },
    {
      "epoch": 0.11535416666666666,
      "grad_norm": 0.7171045541763306,
      "learning_rate": 0.00029086639633750695,
      "loss": 4.1597,
      "step": 55370
    },
    {
      "epoch": 0.115375,
      "grad_norm": 0.7111401557922363,
      "learning_rate": 0.00029086300845114287,
      "loss": 4.1104,
      "step": 55380
    },
    {
      "epoch": 0.11539583333333334,
      "grad_norm": 0.7866699695587158,
      "learning_rate": 0.0002908596199563064,
      "loss": 4.2086,
      "step": 55390
    },
    {
      "epoch": 0.11541666666666667,
      "grad_norm": 0.9305040240287781,
      "learning_rate": 0.0002908562308530121,
      "loss": 4.0552,
      "step": 55400
    },
    {
      "epoch": 0.1154375,
      "grad_norm": 0.9883685111999512,
      "learning_rate": 0.0002908528411412746,
      "loss": 4.0012,
      "step": 55410
    },
    {
      "epoch": 0.11545833333333333,
      "grad_norm": 0.740370512008667,
      "learning_rate": 0.00029084945082110867,
      "loss": 3.8837,
      "step": 55420
    },
    {
      "epoch": 0.11547916666666666,
      "grad_norm": 0.8016185760498047,
      "learning_rate": 0.0002908460598925288,
      "loss": 4.0965,
      "step": 55430
    },
    {
      "epoch": 0.1155,
      "grad_norm": 1.0470367670059204,
      "learning_rate": 0.0002908426683555497,
      "loss": 4.0223,
      "step": 55440
    },
    {
      "epoch": 0.11552083333333334,
      "grad_norm": 0.7940205335617065,
      "learning_rate": 0.00029083927621018606,
      "loss": 4.0373,
      "step": 55450
    },
    {
      "epoch": 0.11554166666666667,
      "grad_norm": 0.8199257850646973,
      "learning_rate": 0.0002908358834564525,
      "loss": 4.0781,
      "step": 55460
    },
    {
      "epoch": 0.1155625,
      "grad_norm": 0.8272666335105896,
      "learning_rate": 0.0002908324900943636,
      "loss": 4.0151,
      "step": 55470
    },
    {
      "epoch": 0.11558333333333333,
      "grad_norm": 0.8007349967956543,
      "learning_rate": 0.0002908290961239341,
      "loss": 4.1157,
      "step": 55480
    },
    {
      "epoch": 0.11560416666666666,
      "grad_norm": 0.7423064112663269,
      "learning_rate": 0.0002908257015451787,
      "loss": 3.9899,
      "step": 55490
    },
    {
      "epoch": 0.115625,
      "grad_norm": 0.807608425617218,
      "learning_rate": 0.000290822306358112,
      "loss": 4.0666,
      "step": 55500
    },
    {
      "epoch": 0.11564583333333334,
      "grad_norm": 0.7157126069068909,
      "learning_rate": 0.00029081891056274866,
      "loss": 4.1128,
      "step": 55510
    },
    {
      "epoch": 0.11566666666666667,
      "grad_norm": 0.6915614008903503,
      "learning_rate": 0.00029081551415910335,
      "loss": 4.0052,
      "step": 55520
    },
    {
      "epoch": 0.1156875,
      "grad_norm": 0.8019481897354126,
      "learning_rate": 0.0002908121171471908,
      "loss": 3.9401,
      "step": 55530
    },
    {
      "epoch": 0.11570833333333333,
      "grad_norm": 0.7448357343673706,
      "learning_rate": 0.0002908087195270257,
      "loss": 3.8767,
      "step": 55540
    },
    {
      "epoch": 0.11572916666666666,
      "grad_norm": 0.8862829804420471,
      "learning_rate": 0.0002908053212986225,
      "loss": 4.1034,
      "step": 55550
    },
    {
      "epoch": 0.11575,
      "grad_norm": 0.8475197553634644,
      "learning_rate": 0.0002908019224619962,
      "loss": 3.927,
      "step": 55560
    },
    {
      "epoch": 0.11577083333333334,
      "grad_norm": 0.7861827611923218,
      "learning_rate": 0.0002907985230171612,
      "loss": 3.9181,
      "step": 55570
    },
    {
      "epoch": 0.11579166666666667,
      "grad_norm": 0.8424199223518372,
      "learning_rate": 0.0002907951229641324,
      "loss": 4.0166,
      "step": 55580
    },
    {
      "epoch": 0.1158125,
      "grad_norm": 0.9093542098999023,
      "learning_rate": 0.0002907917223029244,
      "loss": 4.0245,
      "step": 55590
    },
    {
      "epoch": 0.11583333333333333,
      "grad_norm": 0.8418501019477844,
      "learning_rate": 0.00029078832103355184,
      "loss": 3.9185,
      "step": 55600
    },
    {
      "epoch": 0.11585416666666666,
      "grad_norm": 0.8773674368858337,
      "learning_rate": 0.0002907849191560295,
      "loss": 3.928,
      "step": 55610
    },
    {
      "epoch": 0.115875,
      "grad_norm": 0.7624064683914185,
      "learning_rate": 0.000290781516670372,
      "loss": 3.8843,
      "step": 55620
    },
    {
      "epoch": 0.11589583333333334,
      "grad_norm": 0.8128445744514465,
      "learning_rate": 0.00029077811357659415,
      "loss": 3.8105,
      "step": 55630
    },
    {
      "epoch": 0.11591666666666667,
      "grad_norm": 0.8106861114501953,
      "learning_rate": 0.0002907747098747105,
      "loss": 4.1633,
      "step": 55640
    },
    {
      "epoch": 0.1159375,
      "grad_norm": 0.9018149971961975,
      "learning_rate": 0.00029077130556473584,
      "loss": 3.9364,
      "step": 55650
    },
    {
      "epoch": 0.11595833333333333,
      "grad_norm": 0.8528909087181091,
      "learning_rate": 0.0002907679006466849,
      "loss": 3.9462,
      "step": 55660
    },
    {
      "epoch": 0.11597916666666666,
      "grad_norm": 0.8209452033042908,
      "learning_rate": 0.0002907644951205723,
      "loss": 3.7773,
      "step": 55670
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.8198520541191101,
      "learning_rate": 0.00029076108898641286,
      "loss": 4.0698,
      "step": 55680
    },
    {
      "epoch": 0.11602083333333334,
      "grad_norm": 0.8322768807411194,
      "learning_rate": 0.0002907576822442212,
      "loss": 3.8771,
      "step": 55690
    },
    {
      "epoch": 0.11604166666666667,
      "grad_norm": 0.7193964123725891,
      "learning_rate": 0.000290754274894012,
      "loss": 3.9011,
      "step": 55700
    },
    {
      "epoch": 0.1160625,
      "grad_norm": 0.8725239038467407,
      "learning_rate": 0.0002907508669358001,
      "loss": 4.0831,
      "step": 55710
    },
    {
      "epoch": 0.11608333333333333,
      "grad_norm": 0.8503686189651489,
      "learning_rate": 0.0002907474583696002,
      "loss": 3.9901,
      "step": 55720
    },
    {
      "epoch": 0.11610416666666666,
      "grad_norm": 0.9531903266906738,
      "learning_rate": 0.00029074404919542693,
      "loss": 3.9642,
      "step": 55730
    },
    {
      "epoch": 0.116125,
      "grad_norm": 0.6778217554092407,
      "learning_rate": 0.0002907406394132951,
      "loss": 4.0851,
      "step": 55740
    },
    {
      "epoch": 0.11614583333333334,
      "grad_norm": 0.7760130167007446,
      "learning_rate": 0.00029073722902321945,
      "loss": 3.9641,
      "step": 55750
    },
    {
      "epoch": 0.11616666666666667,
      "grad_norm": 0.7739828824996948,
      "learning_rate": 0.0002907338180252147,
      "loss": 4.0814,
      "step": 55760
    },
    {
      "epoch": 0.1161875,
      "grad_norm": 0.7053191065788269,
      "learning_rate": 0.00029073040641929546,
      "loss": 3.9444,
      "step": 55770
    },
    {
      "epoch": 0.11620833333333333,
      "grad_norm": 0.852531909942627,
      "learning_rate": 0.0002907269942054767,
      "loss": 3.9877,
      "step": 55780
    },
    {
      "epoch": 0.11622916666666666,
      "grad_norm": 1.0267517566680908,
      "learning_rate": 0.0002907235813837729,
      "loss": 3.8451,
      "step": 55790
    },
    {
      "epoch": 0.11625,
      "grad_norm": 0.684150755405426,
      "learning_rate": 0.000290720167954199,
      "loss": 3.9238,
      "step": 55800
    },
    {
      "epoch": 0.11627083333333334,
      "grad_norm": 0.79072505235672,
      "learning_rate": 0.00029071675391676967,
      "loss": 3.9906,
      "step": 55810
    },
    {
      "epoch": 0.11629166666666667,
      "grad_norm": 0.771257758140564,
      "learning_rate": 0.0002907133392714996,
      "loss": 3.8404,
      "step": 55820
    },
    {
      "epoch": 0.1163125,
      "grad_norm": 0.7140412330627441,
      "learning_rate": 0.00029070992401840373,
      "loss": 4.1559,
      "step": 55830
    },
    {
      "epoch": 0.11633333333333333,
      "grad_norm": 0.7020445466041565,
      "learning_rate": 0.0002907065081574966,
      "loss": 3.9605,
      "step": 55840
    },
    {
      "epoch": 0.11635416666666666,
      "grad_norm": 0.830005407333374,
      "learning_rate": 0.000290703091688793,
      "loss": 4.1671,
      "step": 55850
    },
    {
      "epoch": 0.116375,
      "grad_norm": 0.7565948963165283,
      "learning_rate": 0.00029069967461230786,
      "loss": 4.1292,
      "step": 55860
    },
    {
      "epoch": 0.11639583333333334,
      "grad_norm": 0.7385079860687256,
      "learning_rate": 0.0002906962569280557,
      "loss": 4.0766,
      "step": 55870
    },
    {
      "epoch": 0.11641666666666667,
      "grad_norm": 0.9085128307342529,
      "learning_rate": 0.0002906928386360515,
      "loss": 3.9143,
      "step": 55880
    },
    {
      "epoch": 0.1164375,
      "grad_norm": 0.7843457460403442,
      "learning_rate": 0.0002906894197363099,
      "loss": 4.0831,
      "step": 55890
    },
    {
      "epoch": 0.11645833333333333,
      "grad_norm": 0.87433922290802,
      "learning_rate": 0.00029068600022884566,
      "loss": 3.9345,
      "step": 55900
    },
    {
      "epoch": 0.11647916666666666,
      "grad_norm": 0.7391664385795593,
      "learning_rate": 0.00029068258011367363,
      "loss": 3.8752,
      "step": 55910
    },
    {
      "epoch": 0.1165,
      "grad_norm": 0.7576178312301636,
      "learning_rate": 0.0002906791593908085,
      "loss": 4.0088,
      "step": 55920
    },
    {
      "epoch": 0.11652083333333334,
      "grad_norm": 1.2139042615890503,
      "learning_rate": 0.00029067573806026514,
      "loss": 3.9768,
      "step": 55930
    },
    {
      "epoch": 0.11654166666666667,
      "grad_norm": 0.7836435437202454,
      "learning_rate": 0.00029067231612205823,
      "loss": 3.7968,
      "step": 55940
    },
    {
      "epoch": 0.1165625,
      "grad_norm": 0.9953556656837463,
      "learning_rate": 0.0002906688935762026,
      "loss": 4.075,
      "step": 55950
    },
    {
      "epoch": 0.11658333333333333,
      "grad_norm": 0.854648768901825,
      "learning_rate": 0.000290665470422713,
      "loss": 4.0641,
      "step": 55960
    },
    {
      "epoch": 0.11660416666666666,
      "grad_norm": 0.7571261525154114,
      "learning_rate": 0.00029066204666160434,
      "loss": 4.1727,
      "step": 55970
    },
    {
      "epoch": 0.116625,
      "grad_norm": 0.704644501209259,
      "learning_rate": 0.0002906586222928912,
      "loss": 3.8823,
      "step": 55980
    },
    {
      "epoch": 0.11664583333333334,
      "grad_norm": 0.7479310035705566,
      "learning_rate": 0.0002906551973165886,
      "loss": 3.8376,
      "step": 55990
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 0.720906138420105,
      "learning_rate": 0.00029065177173271116,
      "loss": 4.1812,
      "step": 56000
    },
    {
      "epoch": 0.11666666666666667,
      "eval_loss": 4.294170379638672,
      "eval_runtime": 10.1648,
      "eval_samples_per_second": 0.984,
      "eval_steps_per_second": 0.295,
      "step": 56000
    },
    {
      "epoch": 0.1166875,
      "grad_norm": 1.0072021484375,
      "learning_rate": 0.0002906483455412738,
      "loss": 3.9644,
      "step": 56010
    },
    {
      "epoch": 0.11670833333333333,
      "grad_norm": 0.7951868176460266,
      "learning_rate": 0.0002906449187422912,
      "loss": 3.9939,
      "step": 56020
    },
    {
      "epoch": 0.11672916666666666,
      "grad_norm": 0.7805221080780029,
      "learning_rate": 0.0002906414913357782,
      "loss": 3.9488,
      "step": 56030
    },
    {
      "epoch": 0.11675,
      "grad_norm": 0.8421866297721863,
      "learning_rate": 0.00029063806332174966,
      "loss": 3.9849,
      "step": 56040
    },
    {
      "epoch": 0.11677083333333334,
      "grad_norm": 0.9242716431617737,
      "learning_rate": 0.00029063463470022034,
      "loss": 3.9781,
      "step": 56050
    },
    {
      "epoch": 0.11679166666666667,
      "grad_norm": 1.015456199645996,
      "learning_rate": 0.0002906312054712051,
      "loss": 3.934,
      "step": 56060
    },
    {
      "epoch": 0.1168125,
      "grad_norm": 0.7998828887939453,
      "learning_rate": 0.00029062777563471873,
      "loss": 4.0238,
      "step": 56070
    },
    {
      "epoch": 0.11683333333333333,
      "grad_norm": 0.8360891342163086,
      "learning_rate": 0.000290624345190776,
      "loss": 3.8716,
      "step": 56080
    },
    {
      "epoch": 0.11685416666666666,
      "grad_norm": 0.8539111614227295,
      "learning_rate": 0.00029062091413939174,
      "loss": 4.0141,
      "step": 56090
    },
    {
      "epoch": 0.116875,
      "grad_norm": 0.8749781847000122,
      "learning_rate": 0.0002906174824805808,
      "loss": 4.035,
      "step": 56100
    },
    {
      "epoch": 0.11689583333333334,
      "grad_norm": 0.7206591963768005,
      "learning_rate": 0.00029061405021435803,
      "loss": 3.7986,
      "step": 56110
    },
    {
      "epoch": 0.11691666666666667,
      "grad_norm": 0.8539507389068604,
      "learning_rate": 0.0002906106173407382,
      "loss": 3.9991,
      "step": 56120
    },
    {
      "epoch": 0.1169375,
      "grad_norm": 0.7731249928474426,
      "learning_rate": 0.00029060718385973616,
      "loss": 3.8658,
      "step": 56130
    },
    {
      "epoch": 0.11695833333333333,
      "grad_norm": 0.9616889357566833,
      "learning_rate": 0.00029060374977136675,
      "loss": 4.076,
      "step": 56140
    },
    {
      "epoch": 0.11697916666666666,
      "grad_norm": 0.7676915526390076,
      "learning_rate": 0.00029060031507564484,
      "loss": 4.0837,
      "step": 56150
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.730372428894043,
      "learning_rate": 0.0002905968797725852,
      "loss": 4.0699,
      "step": 56160
    },
    {
      "epoch": 0.11702083333333334,
      "grad_norm": 0.8027395606040955,
      "learning_rate": 0.00029059344386220265,
      "loss": 3.9859,
      "step": 56170
    },
    {
      "epoch": 0.11704166666666667,
      "grad_norm": 0.9086437821388245,
      "learning_rate": 0.00029059000734451206,
      "loss": 3.9054,
      "step": 56180
    },
    {
      "epoch": 0.1170625,
      "grad_norm": 0.7670403718948364,
      "learning_rate": 0.0002905865702195283,
      "loss": 3.8128,
      "step": 56190
    },
    {
      "epoch": 0.11708333333333333,
      "grad_norm": 0.7371429204940796,
      "learning_rate": 0.00029058313248726624,
      "loss": 4.0054,
      "step": 56200
    },
    {
      "epoch": 0.11710416666666666,
      "grad_norm": 0.7469834089279175,
      "learning_rate": 0.0002905796941477407,
      "loss": 3.9199,
      "step": 56210
    },
    {
      "epoch": 0.117125,
      "grad_norm": 0.8273292779922485,
      "learning_rate": 0.0002905762552009665,
      "loss": 4.0637,
      "step": 56220
    },
    {
      "epoch": 0.11714583333333334,
      "grad_norm": 0.8124821186065674,
      "learning_rate": 0.0002905728156469585,
      "loss": 4.0431,
      "step": 56230
    },
    {
      "epoch": 0.11716666666666667,
      "grad_norm": 0.7644612789154053,
      "learning_rate": 0.0002905693754857316,
      "loss": 3.9763,
      "step": 56240
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 0.8196542263031006,
      "learning_rate": 0.0002905659347173007,
      "loss": 4.0209,
      "step": 56250
    },
    {
      "epoch": 0.11720833333333333,
      "grad_norm": 0.8038253784179688,
      "learning_rate": 0.0002905624933416805,
      "loss": 3.8601,
      "step": 56260
    },
    {
      "epoch": 0.11722916666666666,
      "grad_norm": 0.839231550693512,
      "learning_rate": 0.000290559051358886,
      "loss": 3.9017,
      "step": 56270
    },
    {
      "epoch": 0.11725,
      "grad_norm": 0.8437241911888123,
      "learning_rate": 0.00029055560876893203,
      "loss": 4.0724,
      "step": 56280
    },
    {
      "epoch": 0.11727083333333334,
      "grad_norm": 1.0062679052352905,
      "learning_rate": 0.00029055216557183355,
      "loss": 4.0604,
      "step": 56290
    },
    {
      "epoch": 0.11729166666666667,
      "grad_norm": 0.7756459712982178,
      "learning_rate": 0.0002905487217676053,
      "loss": 3.9563,
      "step": 56300
    },
    {
      "epoch": 0.1173125,
      "grad_norm": 0.7308062314987183,
      "learning_rate": 0.00029054527735626216,
      "loss": 4.0162,
      "step": 56310
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 0.7299001216888428,
      "learning_rate": 0.00029054183233781907,
      "loss": 3.8949,
      "step": 56320
    },
    {
      "epoch": 0.11735416666666666,
      "grad_norm": 0.6862199902534485,
      "learning_rate": 0.0002905383867122909,
      "loss": 4.1031,
      "step": 56330
    },
    {
      "epoch": 0.117375,
      "grad_norm": 0.7913153171539307,
      "learning_rate": 0.00029053494047969256,
      "loss": 4.1406,
      "step": 56340
    },
    {
      "epoch": 0.11739583333333334,
      "grad_norm": 0.7869061231613159,
      "learning_rate": 0.00029053149364003885,
      "loss": 3.9387,
      "step": 56350
    },
    {
      "epoch": 0.11741666666666667,
      "grad_norm": 0.8463881015777588,
      "learning_rate": 0.00029052804619334474,
      "loss": 3.8417,
      "step": 56360
    },
    {
      "epoch": 0.1174375,
      "grad_norm": 0.7460780739784241,
      "learning_rate": 0.00029052459813962514,
      "loss": 3.9589,
      "step": 56370
    },
    {
      "epoch": 0.11745833333333333,
      "grad_norm": 0.7711591720581055,
      "learning_rate": 0.00029052114947889483,
      "loss": 3.9987,
      "step": 56380
    },
    {
      "epoch": 0.11747916666666666,
      "grad_norm": 0.7521874308586121,
      "learning_rate": 0.0002905177002111688,
      "loss": 4.1527,
      "step": 56390
    },
    {
      "epoch": 0.1175,
      "grad_norm": 0.8013840317726135,
      "learning_rate": 0.0002905142503364619,
      "loss": 3.9288,
      "step": 56400
    },
    {
      "epoch": 0.11752083333333334,
      "grad_norm": 0.6988744735717773,
      "learning_rate": 0.00029051079985478913,
      "loss": 3.9492,
      "step": 56410
    },
    {
      "epoch": 0.11754166666666667,
      "grad_norm": 0.8298169374465942,
      "learning_rate": 0.00029050734876616527,
      "loss": 4.1224,
      "step": 56420
    },
    {
      "epoch": 0.1175625,
      "grad_norm": 0.8137542009353638,
      "learning_rate": 0.0002905038970706053,
      "loss": 3.9214,
      "step": 56430
    },
    {
      "epoch": 0.11758333333333333,
      "grad_norm": 0.8325487971305847,
      "learning_rate": 0.0002905004447681241,
      "loss": 3.9606,
      "step": 56440
    },
    {
      "epoch": 0.11760416666666666,
      "grad_norm": 0.7756044268608093,
      "learning_rate": 0.0002904969918587366,
      "loss": 3.9073,
      "step": 56450
    },
    {
      "epoch": 0.117625,
      "grad_norm": 0.7984540462493896,
      "learning_rate": 0.0002904935383424577,
      "loss": 4.0296,
      "step": 56460
    },
    {
      "epoch": 0.11764583333333334,
      "grad_norm": 0.901445209980011,
      "learning_rate": 0.0002904900842193023,
      "loss": 3.9374,
      "step": 56470
    },
    {
      "epoch": 0.11766666666666667,
      "grad_norm": 0.7483997941017151,
      "learning_rate": 0.00029048662948928536,
      "loss": 3.8815,
      "step": 56480
    },
    {
      "epoch": 0.1176875,
      "grad_norm": 0.7050619721412659,
      "learning_rate": 0.00029048317415242183,
      "loss": 3.8802,
      "step": 56490
    },
    {
      "epoch": 0.11770833333333333,
      "grad_norm": 0.7509648203849792,
      "learning_rate": 0.00029047971820872655,
      "loss": 4.0597,
      "step": 56500
    },
    {
      "epoch": 0.11772916666666666,
      "grad_norm": 0.7635084986686707,
      "learning_rate": 0.0002904762616582145,
      "loss": 4.0067,
      "step": 56510
    },
    {
      "epoch": 0.11775,
      "grad_norm": 0.768172562122345,
      "learning_rate": 0.00029047280450090064,
      "loss": 3.9561,
      "step": 56520
    },
    {
      "epoch": 0.11777083333333334,
      "grad_norm": 0.7837399244308472,
      "learning_rate": 0.0002904693467367998,
      "loss": 4.1027,
      "step": 56530
    },
    {
      "epoch": 0.11779166666666667,
      "grad_norm": 0.649170994758606,
      "learning_rate": 0.0002904658883659271,
      "loss": 3.8101,
      "step": 56540
    },
    {
      "epoch": 0.1178125,
      "grad_norm": 0.8390010595321655,
      "learning_rate": 0.00029046242938829723,
      "loss": 3.9339,
      "step": 56550
    },
    {
      "epoch": 0.11783333333333333,
      "grad_norm": 0.6965425610542297,
      "learning_rate": 0.0002904589698039253,
      "loss": 4.1883,
      "step": 56560
    },
    {
      "epoch": 0.11785416666666666,
      "grad_norm": 0.7161833047866821,
      "learning_rate": 0.0002904555096128263,
      "loss": 4.0557,
      "step": 56570
    },
    {
      "epoch": 0.117875,
      "grad_norm": 0.7771207094192505,
      "learning_rate": 0.000290452048815015,
      "loss": 3.8829,
      "step": 56580
    },
    {
      "epoch": 0.11789583333333334,
      "grad_norm": 0.8379648327827454,
      "learning_rate": 0.0002904485874105065,
      "loss": 3.794,
      "step": 56590
    },
    {
      "epoch": 0.11791666666666667,
      "grad_norm": 0.7967620491981506,
      "learning_rate": 0.0002904451253993157,
      "loss": 4.0677,
      "step": 56600
    },
    {
      "epoch": 0.1179375,
      "grad_norm": 0.708134651184082,
      "learning_rate": 0.0002904416627814575,
      "loss": 4.0732,
      "step": 56610
    },
    {
      "epoch": 0.11795833333333333,
      "grad_norm": 0.856321394443512,
      "learning_rate": 0.00029043819955694694,
      "loss": 3.9836,
      "step": 56620
    },
    {
      "epoch": 0.11797916666666666,
      "grad_norm": 0.7909742593765259,
      "learning_rate": 0.0002904347357257989,
      "loss": 4.1978,
      "step": 56630
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.8919417858123779,
      "learning_rate": 0.00029043127128802846,
      "loss": 3.9525,
      "step": 56640
    },
    {
      "epoch": 0.11802083333333334,
      "grad_norm": 0.7588236331939697,
      "learning_rate": 0.00029042780624365046,
      "loss": 4.0576,
      "step": 56650
    },
    {
      "epoch": 0.11804166666666667,
      "grad_norm": 0.7503779530525208,
      "learning_rate": 0.00029042434059267994,
      "loss": 3.9877,
      "step": 56660
    },
    {
      "epoch": 0.1180625,
      "grad_norm": 0.8487511873245239,
      "learning_rate": 0.00029042087433513186,
      "loss": 4.0367,
      "step": 56670
    },
    {
      "epoch": 0.11808333333333333,
      "grad_norm": 0.8020816445350647,
      "learning_rate": 0.0002904174074710212,
      "loss": 3.9608,
      "step": 56680
    },
    {
      "epoch": 0.11810416666666666,
      "grad_norm": 0.7633774876594543,
      "learning_rate": 0.00029041394000036287,
      "loss": 3.8165,
      "step": 56690
    },
    {
      "epoch": 0.118125,
      "grad_norm": 0.7290301322937012,
      "learning_rate": 0.000290410471923172,
      "loss": 3.9237,
      "step": 56700
    },
    {
      "epoch": 0.11814583333333334,
      "grad_norm": 0.8135277628898621,
      "learning_rate": 0.0002904070032394634,
      "loss": 3.9668,
      "step": 56710
    },
    {
      "epoch": 0.11816666666666667,
      "grad_norm": 0.7767912745475769,
      "learning_rate": 0.00029040353394925206,
      "loss": 4.0933,
      "step": 56720
    },
    {
      "epoch": 0.1181875,
      "grad_norm": 0.7100511789321899,
      "learning_rate": 0.0002904000640525531,
      "loss": 3.8821,
      "step": 56730
    },
    {
      "epoch": 0.11820833333333333,
      "grad_norm": 0.7678107619285583,
      "learning_rate": 0.00029039659354938147,
      "loss": 3.9072,
      "step": 56740
    },
    {
      "epoch": 0.11822916666666666,
      "grad_norm": 0.8466576337814331,
      "learning_rate": 0.00029039312243975203,
      "loss": 3.9756,
      "step": 56750
    },
    {
      "epoch": 0.11825,
      "grad_norm": 0.849553644657135,
      "learning_rate": 0.00029038965072367996,
      "loss": 4.0272,
      "step": 56760
    },
    {
      "epoch": 0.11827083333333334,
      "grad_norm": 0.744983434677124,
      "learning_rate": 0.0002903861784011802,
      "loss": 4.0276,
      "step": 56770
    },
    {
      "epoch": 0.11829166666666667,
      "grad_norm": 0.8594872355461121,
      "learning_rate": 0.0002903827054722676,
      "loss": 4.1268,
      "step": 56780
    },
    {
      "epoch": 0.1183125,
      "grad_norm": 0.7540897727012634,
      "learning_rate": 0.00029037923193695733,
      "loss": 4.0293,
      "step": 56790
    },
    {
      "epoch": 0.11833333333333333,
      "grad_norm": 0.7658302783966064,
      "learning_rate": 0.00029037575779526436,
      "loss": 4.0225,
      "step": 56800
    },
    {
      "epoch": 0.11835416666666666,
      "grad_norm": 0.785839855670929,
      "learning_rate": 0.0002903722830472037,
      "loss": 3.9472,
      "step": 56810
    },
    {
      "epoch": 0.118375,
      "grad_norm": 0.8608853220939636,
      "learning_rate": 0.0002903688076927903,
      "loss": 3.9085,
      "step": 56820
    },
    {
      "epoch": 0.11839583333333334,
      "grad_norm": 0.7932624220848083,
      "learning_rate": 0.00029036533173203925,
      "loss": 3.8826,
      "step": 56830
    },
    {
      "epoch": 0.11841666666666667,
      "grad_norm": 0.7774642705917358,
      "learning_rate": 0.0002903618551649655,
      "loss": 3.8825,
      "step": 56840
    },
    {
      "epoch": 0.1184375,
      "grad_norm": 0.9357864260673523,
      "learning_rate": 0.0002903583779915841,
      "loss": 3.8193,
      "step": 56850
    },
    {
      "epoch": 0.11845833333333333,
      "grad_norm": 1.0105286836624146,
      "learning_rate": 0.00029035490021191005,
      "loss": 3.8532,
      "step": 56860
    },
    {
      "epoch": 0.11847916666666666,
      "grad_norm": 0.9198535084724426,
      "learning_rate": 0.0002903514218259584,
      "loss": 4.1509,
      "step": 56870
    },
    {
      "epoch": 0.1185,
      "grad_norm": 0.8107229471206665,
      "learning_rate": 0.0002903479428337442,
      "loss": 4.1258,
      "step": 56880
    },
    {
      "epoch": 0.11852083333333334,
      "grad_norm": 0.9385462999343872,
      "learning_rate": 0.0002903444632352824,
      "loss": 4.0722,
      "step": 56890
    },
    {
      "epoch": 0.11854166666666667,
      "grad_norm": 0.925900936126709,
      "learning_rate": 0.000290340983030588,
      "loss": 4.0399,
      "step": 56900
    },
    {
      "epoch": 0.1185625,
      "grad_norm": 0.7664802074432373,
      "learning_rate": 0.0002903375022196762,
      "loss": 3.9003,
      "step": 56910
    },
    {
      "epoch": 0.11858333333333333,
      "grad_norm": 0.7193266749382019,
      "learning_rate": 0.00029033402080256193,
      "loss": 4.0161,
      "step": 56920
    },
    {
      "epoch": 0.11860416666666666,
      "grad_norm": 0.9086200594902039,
      "learning_rate": 0.00029033053877926024,
      "loss": 3.9741,
      "step": 56930
    },
    {
      "epoch": 0.118625,
      "grad_norm": 0.7149487733840942,
      "learning_rate": 0.00029032705614978616,
      "loss": 3.9968,
      "step": 56940
    },
    {
      "epoch": 0.11864583333333334,
      "grad_norm": 0.8417680263519287,
      "learning_rate": 0.00029032357291415475,
      "loss": 3.9027,
      "step": 56950
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 0.8171008825302124,
      "learning_rate": 0.00029032008907238103,
      "loss": 3.8495,
      "step": 56960
    },
    {
      "epoch": 0.1186875,
      "grad_norm": 0.8483561873435974,
      "learning_rate": 0.0002903166046244801,
      "loss": 4.1358,
      "step": 56970
    },
    {
      "epoch": 0.11870833333333333,
      "grad_norm": 0.7300367951393127,
      "learning_rate": 0.0002903131195704669,
      "loss": 4.0694,
      "step": 56980
    },
    {
      "epoch": 0.11872916666666666,
      "grad_norm": 0.977458655834198,
      "learning_rate": 0.00029030963391035665,
      "loss": 3.9041,
      "step": 56990
    },
    {
      "epoch": 0.11875,
      "grad_norm": 0.8423096537590027,
      "learning_rate": 0.0002903061476441643,
      "loss": 4.156,
      "step": 57000
    },
    {
      "epoch": 0.11875,
      "eval_loss": 4.289418697357178,
      "eval_runtime": 9.2602,
      "eval_samples_per_second": 1.08,
      "eval_steps_per_second": 0.324,
      "step": 57000
    },
    {
      "epoch": 0.11877083333333334,
      "grad_norm": 0.8032045960426331,
      "learning_rate": 0.0002903026607719049,
      "loss": 3.8963,
      "step": 57010
    },
    {
      "epoch": 0.11879166666666667,
      "grad_norm": 0.7853243947029114,
      "learning_rate": 0.00029029917329359355,
      "loss": 3.817,
      "step": 57020
    },
    {
      "epoch": 0.1188125,
      "grad_norm": 0.8463734984397888,
      "learning_rate": 0.00029029568520924534,
      "loss": 4.1906,
      "step": 57030
    },
    {
      "epoch": 0.11883333333333333,
      "grad_norm": 0.8580271601676941,
      "learning_rate": 0.0002902921965188753,
      "loss": 3.9037,
      "step": 57040
    },
    {
      "epoch": 0.11885416666666666,
      "grad_norm": 0.8052808046340942,
      "learning_rate": 0.0002902887072224985,
      "loss": 3.9228,
      "step": 57050
    },
    {
      "epoch": 0.118875,
      "grad_norm": 0.8296950459480286,
      "learning_rate": 0.0002902852173201299,
      "loss": 3.9937,
      "step": 57060
    },
    {
      "epoch": 0.11889583333333334,
      "grad_norm": 0.8219202756881714,
      "learning_rate": 0.0002902817268117848,
      "loss": 4.0672,
      "step": 57070
    },
    {
      "epoch": 0.11891666666666667,
      "grad_norm": 0.9269209504127502,
      "learning_rate": 0.0002902782356974782,
      "loss": 3.9802,
      "step": 57080
    },
    {
      "epoch": 0.1189375,
      "grad_norm": 0.7016863822937012,
      "learning_rate": 0.0002902747439772251,
      "loss": 4.199,
      "step": 57090
    },
    {
      "epoch": 0.11895833333333333,
      "grad_norm": 0.7440541386604309,
      "learning_rate": 0.0002902712516510406,
      "loss": 3.8747,
      "step": 57100
    },
    {
      "epoch": 0.11897916666666666,
      "grad_norm": 1.014182209968567,
      "learning_rate": 0.0002902677587189398,
      "loss": 4.0557,
      "step": 57110
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.7321959137916565,
      "learning_rate": 0.0002902642651809379,
      "loss": 3.9967,
      "step": 57120
    },
    {
      "epoch": 0.11902083333333334,
      "grad_norm": 0.875402569770813,
      "learning_rate": 0.00029026077103704983,
      "loss": 3.8565,
      "step": 57130
    },
    {
      "epoch": 0.11904166666666667,
      "grad_norm": 0.7200777530670166,
      "learning_rate": 0.0002902572762872908,
      "loss": 4.0269,
      "step": 57140
    },
    {
      "epoch": 0.1190625,
      "grad_norm": 0.8281102180480957,
      "learning_rate": 0.0002902537809316758,
      "loss": 3.9391,
      "step": 57150
    },
    {
      "epoch": 0.11908333333333333,
      "grad_norm": 0.9346588850021362,
      "learning_rate": 0.00029025028497022,
      "loss": 4.0313,
      "step": 57160
    },
    {
      "epoch": 0.11910416666666666,
      "grad_norm": 0.6934463381767273,
      "learning_rate": 0.0002902467884029385,
      "loss": 3.901,
      "step": 57170
    },
    {
      "epoch": 0.119125,
      "grad_norm": 0.7528210878372192,
      "learning_rate": 0.00029024329122984637,
      "loss": 3.9843,
      "step": 57180
    },
    {
      "epoch": 0.11914583333333334,
      "grad_norm": 0.7208352088928223,
      "learning_rate": 0.0002902397934509587,
      "loss": 3.9529,
      "step": 57190
    },
    {
      "epoch": 0.11916666666666667,
      "grad_norm": 0.744338870048523,
      "learning_rate": 0.0002902362950662907,
      "loss": 4.007,
      "step": 57200
    },
    {
      "epoch": 0.1191875,
      "grad_norm": 1.014168381690979,
      "learning_rate": 0.0002902327960758574,
      "loss": 3.9558,
      "step": 57210
    },
    {
      "epoch": 0.11920833333333333,
      "grad_norm": 0.7708386182785034,
      "learning_rate": 0.0002902292964796739,
      "loss": 4.001,
      "step": 57220
    },
    {
      "epoch": 0.11922916666666666,
      "grad_norm": 0.7542549967765808,
      "learning_rate": 0.00029022579627775534,
      "loss": 3.9229,
      "step": 57230
    },
    {
      "epoch": 0.11925,
      "grad_norm": 0.811883270740509,
      "learning_rate": 0.0002902222954701169,
      "loss": 3.9492,
      "step": 57240
    },
    {
      "epoch": 0.11927083333333334,
      "grad_norm": 0.8610782623291016,
      "learning_rate": 0.0002902187940567736,
      "loss": 4.0416,
      "step": 57250
    },
    {
      "epoch": 0.11929166666666667,
      "grad_norm": 0.8780964612960815,
      "learning_rate": 0.0002902152920377406,
      "loss": 3.817,
      "step": 57260
    },
    {
      "epoch": 0.1193125,
      "grad_norm": 0.7831577658653259,
      "learning_rate": 0.00029021178941303306,
      "loss": 3.9436,
      "step": 57270
    },
    {
      "epoch": 0.11933333333333333,
      "grad_norm": 0.9449195265769958,
      "learning_rate": 0.00029020828618266613,
      "loss": 3.9894,
      "step": 57280
    },
    {
      "epoch": 0.11935416666666666,
      "grad_norm": 0.7411288619041443,
      "learning_rate": 0.00029020478234665487,
      "loss": 4.1149,
      "step": 57290
    },
    {
      "epoch": 0.119375,
      "grad_norm": 1.0932413339614868,
      "learning_rate": 0.0002902012779050144,
      "loss": 3.9984,
      "step": 57300
    },
    {
      "epoch": 0.11939583333333334,
      "grad_norm": 0.7175021767616272,
      "learning_rate": 0.00029019777285775995,
      "loss": 3.9164,
      "step": 57310
    },
    {
      "epoch": 0.11941666666666667,
      "grad_norm": 0.7619694471359253,
      "learning_rate": 0.0002901942672049066,
      "loss": 3.8396,
      "step": 57320
    },
    {
      "epoch": 0.1194375,
      "grad_norm": 0.7155442833900452,
      "learning_rate": 0.0002901907609464696,
      "loss": 4.0507,
      "step": 57330
    },
    {
      "epoch": 0.11945833333333333,
      "grad_norm": 0.810901403427124,
      "learning_rate": 0.00029018725408246385,
      "loss": 4.075,
      "step": 57340
    },
    {
      "epoch": 0.11947916666666666,
      "grad_norm": 0.7877583503723145,
      "learning_rate": 0.00029018374661290476,
      "loss": 3.9334,
      "step": 57350
    },
    {
      "epoch": 0.1195,
      "grad_norm": 0.6841281652450562,
      "learning_rate": 0.0002901802385378073,
      "loss": 3.9745,
      "step": 57360
    },
    {
      "epoch": 0.11952083333333334,
      "grad_norm": 0.7194421291351318,
      "learning_rate": 0.0002901767298571868,
      "loss": 3.7963,
      "step": 57370
    },
    {
      "epoch": 0.11954166666666667,
      "grad_norm": 0.8044936656951904,
      "learning_rate": 0.00029017322057105823,
      "loss": 4.1072,
      "step": 57380
    },
    {
      "epoch": 0.1195625,
      "grad_norm": 0.6797013282775879,
      "learning_rate": 0.00029016971067943686,
      "loss": 3.8046,
      "step": 57390
    },
    {
      "epoch": 0.11958333333333333,
      "grad_norm": 0.7058988213539124,
      "learning_rate": 0.0002901662001823378,
      "loss": 3.9943,
      "step": 57400
    },
    {
      "epoch": 0.11960416666666666,
      "grad_norm": 0.7453915476799011,
      "learning_rate": 0.00029016268907977626,
      "loss": 3.8174,
      "step": 57410
    },
    {
      "epoch": 0.119625,
      "grad_norm": 0.7413231134414673,
      "learning_rate": 0.00029015917737176735,
      "loss": 3.8285,
      "step": 57420
    },
    {
      "epoch": 0.11964583333333334,
      "grad_norm": 0.963411808013916,
      "learning_rate": 0.0002901556650583263,
      "loss": 3.9649,
      "step": 57430
    },
    {
      "epoch": 0.11966666666666667,
      "grad_norm": 0.8033027052879333,
      "learning_rate": 0.00029015215213946824,
      "loss": 4.0453,
      "step": 57440
    },
    {
      "epoch": 0.1196875,
      "grad_norm": 0.7275689840316772,
      "learning_rate": 0.0002901486386152084,
      "loss": 3.9449,
      "step": 57450
    },
    {
      "epoch": 0.11970833333333333,
      "grad_norm": 0.8039407134056091,
      "learning_rate": 0.0002901451244855619,
      "loss": 4.0274,
      "step": 57460
    },
    {
      "epoch": 0.11972916666666666,
      "grad_norm": 0.7624537348747253,
      "learning_rate": 0.00029014160975054395,
      "loss": 4.0496,
      "step": 57470
    },
    {
      "epoch": 0.11975,
      "grad_norm": 0.7164099812507629,
      "learning_rate": 0.0002901380944101697,
      "loss": 4.0209,
      "step": 57480
    },
    {
      "epoch": 0.11977083333333334,
      "grad_norm": 0.8961880207061768,
      "learning_rate": 0.0002901345784644543,
      "loss": 3.8216,
      "step": 57490
    },
    {
      "epoch": 0.11979166666666667,
      "grad_norm": 0.778465211391449,
      "learning_rate": 0.000290131061913413,
      "loss": 3.9904,
      "step": 57500
    },
    {
      "epoch": 0.1198125,
      "grad_norm": 0.903177797794342,
      "learning_rate": 0.000290127544757061,
      "loss": 4.2,
      "step": 57510
    },
    {
      "epoch": 0.11983333333333333,
      "grad_norm": 0.9846578240394592,
      "learning_rate": 0.0002901240269954135,
      "loss": 3.9004,
      "step": 57520
    },
    {
      "epoch": 0.11985416666666666,
      "grad_norm": 0.7411828637123108,
      "learning_rate": 0.0002901205086284857,
      "loss": 4.029,
      "step": 57530
    },
    {
      "epoch": 0.119875,
      "grad_norm": 0.7959527373313904,
      "learning_rate": 0.00029011698965629266,
      "loss": 3.7633,
      "step": 57540
    },
    {
      "epoch": 0.11989583333333333,
      "grad_norm": 0.6706412434577942,
      "learning_rate": 0.00029011347007884975,
      "loss": 3.8831,
      "step": 57550
    },
    {
      "epoch": 0.11991666666666667,
      "grad_norm": 0.7397333383560181,
      "learning_rate": 0.0002901099498961721,
      "loss": 3.9014,
      "step": 57560
    },
    {
      "epoch": 0.1199375,
      "grad_norm": 1.347090721130371,
      "learning_rate": 0.00029010642910827494,
      "loss": 4.0941,
      "step": 57570
    },
    {
      "epoch": 0.11995833333333333,
      "grad_norm": 0.7213568687438965,
      "learning_rate": 0.00029010290771517346,
      "loss": 3.9272,
      "step": 57580
    },
    {
      "epoch": 0.11997916666666666,
      "grad_norm": 0.8501083254814148,
      "learning_rate": 0.0002900993857168829,
      "loss": 4.1726,
      "step": 57590
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7984176278114319,
      "learning_rate": 0.00029009586311341844,
      "loss": 3.9941,
      "step": 57600
    },
    {
      "epoch": 0.12002083333333333,
      "grad_norm": 0.7243282198905945,
      "learning_rate": 0.00029009233990479527,
      "loss": 3.9488,
      "step": 57610
    },
    {
      "epoch": 0.12004166666666667,
      "grad_norm": 0.7926515340805054,
      "learning_rate": 0.00029008881609102866,
      "loss": 4.0909,
      "step": 57620
    },
    {
      "epoch": 0.1200625,
      "grad_norm": 0.9915323853492737,
      "learning_rate": 0.0002900852916721338,
      "loss": 3.8911,
      "step": 57630
    },
    {
      "epoch": 0.12008333333333333,
      "grad_norm": 0.9317020773887634,
      "learning_rate": 0.000290081766648126,
      "loss": 4.1227,
      "step": 57640
    },
    {
      "epoch": 0.12010416666666666,
      "grad_norm": 0.7712224125862122,
      "learning_rate": 0.0002900782410190203,
      "loss": 4.1738,
      "step": 57650
    },
    {
      "epoch": 0.120125,
      "grad_norm": 0.78835129737854,
      "learning_rate": 0.0002900747147848321,
      "loss": 3.9921,
      "step": 57660
    },
    {
      "epoch": 0.12014583333333333,
      "grad_norm": 0.8754571080207825,
      "learning_rate": 0.0002900711879455766,
      "loss": 3.892,
      "step": 57670
    },
    {
      "epoch": 0.12016666666666667,
      "grad_norm": 0.9156897068023682,
      "learning_rate": 0.000290067660501269,
      "loss": 4.0093,
      "step": 57680
    },
    {
      "epoch": 0.1201875,
      "grad_norm": 0.7990496158599854,
      "learning_rate": 0.00029006413245192457,
      "loss": 4.1164,
      "step": 57690
    },
    {
      "epoch": 0.12020833333333333,
      "grad_norm": 0.8468999862670898,
      "learning_rate": 0.00029006060379755847,
      "loss": 4.0301,
      "step": 57700
    },
    {
      "epoch": 0.12022916666666666,
      "grad_norm": 0.8539043068885803,
      "learning_rate": 0.0002900570745381861,
      "loss": 3.8929,
      "step": 57710
    },
    {
      "epoch": 0.12025,
      "grad_norm": 0.787469744682312,
      "learning_rate": 0.00029005354467382245,
      "loss": 4.0662,
      "step": 57720
    },
    {
      "epoch": 0.12027083333333333,
      "grad_norm": 0.7025769352912903,
      "learning_rate": 0.00029005001420448305,
      "loss": 4.0443,
      "step": 57730
    },
    {
      "epoch": 0.12029166666666667,
      "grad_norm": 0.753982424736023,
      "learning_rate": 0.000290046483130183,
      "loss": 4.0932,
      "step": 57740
    },
    {
      "epoch": 0.1203125,
      "grad_norm": 0.8874134421348572,
      "learning_rate": 0.0002900429514509376,
      "loss": 3.8157,
      "step": 57750
    },
    {
      "epoch": 0.12033333333333333,
      "grad_norm": 0.6708769798278809,
      "learning_rate": 0.00029003941916676203,
      "loss": 4.0703,
      "step": 57760
    },
    {
      "epoch": 0.12035416666666666,
      "grad_norm": 0.7258111834526062,
      "learning_rate": 0.00029003588627767165,
      "loss": 4.2082,
      "step": 57770
    },
    {
      "epoch": 0.120375,
      "grad_norm": 0.8831981420516968,
      "learning_rate": 0.0002900323527836816,
      "loss": 3.9951,
      "step": 57780
    },
    {
      "epoch": 0.12039583333333333,
      "grad_norm": 0.7312948107719421,
      "learning_rate": 0.0002900288186848073,
      "loss": 3.9863,
      "step": 57790
    },
    {
      "epoch": 0.12041666666666667,
      "grad_norm": 0.8232468366622925,
      "learning_rate": 0.00029002528398106383,
      "loss": 4.0648,
      "step": 57800
    },
    {
      "epoch": 0.1204375,
      "grad_norm": 0.7484953999519348,
      "learning_rate": 0.00029002174867246664,
      "loss": 4.0159,
      "step": 57810
    },
    {
      "epoch": 0.12045833333333333,
      "grad_norm": 0.7534875869750977,
      "learning_rate": 0.00029001821275903095,
      "loss": 3.9252,
      "step": 57820
    },
    {
      "epoch": 0.12047916666666666,
      "grad_norm": 0.9110977649688721,
      "learning_rate": 0.0002900146762407719,
      "loss": 4.0248,
      "step": 57830
    },
    {
      "epoch": 0.1205,
      "grad_norm": 0.8413671255111694,
      "learning_rate": 0.0002900111391177049,
      "loss": 4.0157,
      "step": 57840
    },
    {
      "epoch": 0.12052083333333333,
      "grad_norm": 0.7987561821937561,
      "learning_rate": 0.00029000760138984526,
      "loss": 4.0693,
      "step": 57850
    },
    {
      "epoch": 0.12054166666666667,
      "grad_norm": 0.7569634318351746,
      "learning_rate": 0.0002900040630572082,
      "loss": 4.0348,
      "step": 57860
    },
    {
      "epoch": 0.1205625,
      "grad_norm": 0.8597027659416199,
      "learning_rate": 0.0002900005241198089,
      "loss": 4.0034,
      "step": 57870
    },
    {
      "epoch": 0.12058333333333333,
      "grad_norm": 0.7449933290481567,
      "learning_rate": 0.00028999698457766283,
      "loss": 4.0663,
      "step": 57880
    },
    {
      "epoch": 0.12060416666666667,
      "grad_norm": 0.7558733224868774,
      "learning_rate": 0.0002899934444307852,
      "loss": 4.0632,
      "step": 57890
    },
    {
      "epoch": 0.120625,
      "grad_norm": 0.7764396667480469,
      "learning_rate": 0.00028998990367919126,
      "loss": 3.8655,
      "step": 57900
    },
    {
      "epoch": 0.12064583333333333,
      "grad_norm": 0.7693336606025696,
      "learning_rate": 0.0002899863623228964,
      "loss": 4.0785,
      "step": 57910
    },
    {
      "epoch": 0.12066666666666667,
      "grad_norm": 0.8143793940544128,
      "learning_rate": 0.00028998282036191587,
      "loss": 3.8789,
      "step": 57920
    },
    {
      "epoch": 0.1206875,
      "grad_norm": 0.8654981255531311,
      "learning_rate": 0.00028997927779626494,
      "loss": 4.1164,
      "step": 57930
    },
    {
      "epoch": 0.12070833333333333,
      "grad_norm": 0.8259248733520508,
      "learning_rate": 0.0002899757346259589,
      "loss": 3.9703,
      "step": 57940
    },
    {
      "epoch": 0.12072916666666667,
      "grad_norm": 0.7371456027030945,
      "learning_rate": 0.00028997219085101316,
      "loss": 3.871,
      "step": 57950
    },
    {
      "epoch": 0.12075,
      "grad_norm": 0.7790418863296509,
      "learning_rate": 0.00028996864647144293,
      "loss": 3.8365,
      "step": 57960
    },
    {
      "epoch": 0.12077083333333333,
      "grad_norm": 0.7072028517723083,
      "learning_rate": 0.00028996510148726357,
      "loss": 3.9837,
      "step": 57970
    },
    {
      "epoch": 0.12079166666666667,
      "grad_norm": 0.8110467791557312,
      "learning_rate": 0.0002899615558984903,
      "loss": 4.023,
      "step": 57980
    },
    {
      "epoch": 0.1208125,
      "grad_norm": 0.9403396844863892,
      "learning_rate": 0.00028995800970513865,
      "loss": 4.0089,
      "step": 57990
    },
    {
      "epoch": 0.12083333333333333,
      "grad_norm": 0.8653222322463989,
      "learning_rate": 0.00028995446290722366,
      "loss": 3.9697,
      "step": 58000
    },
    {
      "epoch": 0.12083333333333333,
      "eval_loss": 4.308765411376953,
      "eval_runtime": 10.2855,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.292,
      "step": 58000
    },
    {
      "epoch": 0.12085416666666667,
      "grad_norm": 0.7267494797706604,
      "learning_rate": 0.00028995091550476084,
      "loss": 4.0684,
      "step": 58010
    },
    {
      "epoch": 0.120875,
      "grad_norm": 0.7623651623725891,
      "learning_rate": 0.0002899473674977655,
      "loss": 4.0218,
      "step": 58020
    },
    {
      "epoch": 0.12089583333333333,
      "grad_norm": 0.8465607166290283,
      "learning_rate": 0.00028994381888625283,
      "loss": 4.067,
      "step": 58030
    },
    {
      "epoch": 0.12091666666666667,
      "grad_norm": 0.7188336253166199,
      "learning_rate": 0.0002899402696702384,
      "loss": 3.9057,
      "step": 58040
    },
    {
      "epoch": 0.1209375,
      "grad_norm": 0.7072934508323669,
      "learning_rate": 0.0002899367198497373,
      "loss": 4.0846,
      "step": 58050
    },
    {
      "epoch": 0.12095833333333333,
      "grad_norm": 0.9341549277305603,
      "learning_rate": 0.00028993316942476494,
      "loss": 3.9086,
      "step": 58060
    },
    {
      "epoch": 0.12097916666666667,
      "grad_norm": 0.7532907724380493,
      "learning_rate": 0.0002899296183953367,
      "loss": 4.0498,
      "step": 58070
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.8483770489692688,
      "learning_rate": 0.0002899260667614679,
      "loss": 3.9934,
      "step": 58080
    },
    {
      "epoch": 0.12102083333333333,
      "grad_norm": 0.8378314971923828,
      "learning_rate": 0.0002899225145231739,
      "loss": 4.025,
      "step": 58090
    },
    {
      "epoch": 0.12104166666666667,
      "grad_norm": 0.7262919545173645,
      "learning_rate": 0.00028991896168046997,
      "loss": 4.048,
      "step": 58100
    },
    {
      "epoch": 0.1210625,
      "grad_norm": 0.771669864654541,
      "learning_rate": 0.0002899154082333716,
      "loss": 4.0293,
      "step": 58110
    },
    {
      "epoch": 0.12108333333333333,
      "grad_norm": 0.7893829941749573,
      "learning_rate": 0.00028991185418189395,
      "loss": 4.0725,
      "step": 58120
    },
    {
      "epoch": 0.12110416666666667,
      "grad_norm": 0.785739004611969,
      "learning_rate": 0.0002899082995260526,
      "loss": 3.8748,
      "step": 58130
    },
    {
      "epoch": 0.121125,
      "grad_norm": 0.8535524010658264,
      "learning_rate": 0.00028990474426586265,
      "loss": 4.0582,
      "step": 58140
    },
    {
      "epoch": 0.12114583333333333,
      "grad_norm": 0.788882851600647,
      "learning_rate": 0.00028990118840133963,
      "loss": 4.1026,
      "step": 58150
    },
    {
      "epoch": 0.12116666666666667,
      "grad_norm": 0.7159596681594849,
      "learning_rate": 0.00028989763193249885,
      "loss": 4.0062,
      "step": 58160
    },
    {
      "epoch": 0.1211875,
      "grad_norm": 0.9488353729248047,
      "learning_rate": 0.00028989407485935565,
      "loss": 3.968,
      "step": 58170
    },
    {
      "epoch": 0.12120833333333333,
      "grad_norm": 0.675815224647522,
      "learning_rate": 0.00028989051718192544,
      "loss": 3.9806,
      "step": 58180
    },
    {
      "epoch": 0.12122916666666667,
      "grad_norm": 0.8615719676017761,
      "learning_rate": 0.0002898869589002236,
      "loss": 4.1105,
      "step": 58190
    },
    {
      "epoch": 0.12125,
      "grad_norm": 0.8493232131004333,
      "learning_rate": 0.0002898834000142654,
      "loss": 4.09,
      "step": 58200
    },
    {
      "epoch": 0.12127083333333333,
      "grad_norm": 0.8472740054130554,
      "learning_rate": 0.00028987984052406636,
      "loss": 4.0064,
      "step": 58210
    },
    {
      "epoch": 0.12129166666666667,
      "grad_norm": 0.7328134179115295,
      "learning_rate": 0.00028987628042964175,
      "loss": 4.1638,
      "step": 58220
    },
    {
      "epoch": 0.1213125,
      "grad_norm": 0.77391117811203,
      "learning_rate": 0.000289872719731007,
      "loss": 4.0005,
      "step": 58230
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 0.7503344416618347,
      "learning_rate": 0.00028986915842817737,
      "loss": 4.0578,
      "step": 58240
    },
    {
      "epoch": 0.12135416666666667,
      "grad_norm": 0.9317613840103149,
      "learning_rate": 0.00028986559652116844,
      "loss": 3.9599,
      "step": 58250
    },
    {
      "epoch": 0.121375,
      "grad_norm": 0.7134481072425842,
      "learning_rate": 0.00028986203400999545,
      "loss": 3.8976,
      "step": 58260
    },
    {
      "epoch": 0.12139583333333333,
      "grad_norm": 0.7878715991973877,
      "learning_rate": 0.00028985847089467383,
      "loss": 3.8378,
      "step": 58270
    },
    {
      "epoch": 0.12141666666666667,
      "grad_norm": 0.8619019389152527,
      "learning_rate": 0.000289854907175219,
      "loss": 3.9669,
      "step": 58280
    },
    {
      "epoch": 0.1214375,
      "grad_norm": 0.7316370010375977,
      "learning_rate": 0.0002898513428516463,
      "loss": 4.0534,
      "step": 58290
    },
    {
      "epoch": 0.12145833333333333,
      "grad_norm": 0.7693053483963013,
      "learning_rate": 0.0002898477779239712,
      "loss": 4.0788,
      "step": 58300
    },
    {
      "epoch": 0.12147916666666667,
      "grad_norm": 0.8299522995948792,
      "learning_rate": 0.000289844212392209,
      "loss": 4.0754,
      "step": 58310
    },
    {
      "epoch": 0.1215,
      "grad_norm": 0.787835419178009,
      "learning_rate": 0.00028984064625637516,
      "loss": 4.0827,
      "step": 58320
    },
    {
      "epoch": 0.12152083333333333,
      "grad_norm": 0.8573585152626038,
      "learning_rate": 0.0002898370795164851,
      "loss": 3.9649,
      "step": 58330
    },
    {
      "epoch": 0.12154166666666667,
      "grad_norm": 0.7393434643745422,
      "learning_rate": 0.00028983351217255423,
      "loss": 3.9406,
      "step": 58340
    },
    {
      "epoch": 0.1215625,
      "grad_norm": 0.9212964773178101,
      "learning_rate": 0.00028982994422459794,
      "loss": 3.9532,
      "step": 58350
    },
    {
      "epoch": 0.12158333333333333,
      "grad_norm": 0.814564049243927,
      "learning_rate": 0.0002898263756726316,
      "loss": 4.0677,
      "step": 58360
    },
    {
      "epoch": 0.12160416666666667,
      "grad_norm": 0.7601221799850464,
      "learning_rate": 0.0002898228065166707,
      "loss": 4.0358,
      "step": 58370
    },
    {
      "epoch": 0.121625,
      "grad_norm": 0.8271921277046204,
      "learning_rate": 0.0002898192367567306,
      "loss": 3.9652,
      "step": 58380
    },
    {
      "epoch": 0.12164583333333333,
      "grad_norm": 0.7480213046073914,
      "learning_rate": 0.0002898156663928268,
      "loss": 3.883,
      "step": 58390
    },
    {
      "epoch": 0.12166666666666667,
      "grad_norm": 0.7796541452407837,
      "learning_rate": 0.0002898120954249746,
      "loss": 4.002,
      "step": 58400
    },
    {
      "epoch": 0.1216875,
      "grad_norm": 0.7476634383201599,
      "learning_rate": 0.00028980852385318947,
      "loss": 4.0163,
      "step": 58410
    },
    {
      "epoch": 0.12170833333333334,
      "grad_norm": 0.967644453048706,
      "learning_rate": 0.0002898049516774869,
      "loss": 4.1618,
      "step": 58420
    },
    {
      "epoch": 0.12172916666666667,
      "grad_norm": 0.715627908706665,
      "learning_rate": 0.00028980137889788227,
      "loss": 4.0225,
      "step": 58430
    },
    {
      "epoch": 0.12175,
      "grad_norm": 0.8285053372383118,
      "learning_rate": 0.000289797805514391,
      "loss": 3.9408,
      "step": 58440
    },
    {
      "epoch": 0.12177083333333333,
      "grad_norm": 0.7864731550216675,
      "learning_rate": 0.0002897942315270285,
      "loss": 4.0156,
      "step": 58450
    },
    {
      "epoch": 0.12179166666666667,
      "grad_norm": 0.8041199445724487,
      "learning_rate": 0.0002897906569358104,
      "loss": 3.8992,
      "step": 58460
    },
    {
      "epoch": 0.1218125,
      "grad_norm": 0.7365431189537048,
      "learning_rate": 0.0002897870817407519,
      "loss": 3.8858,
      "step": 58470
    },
    {
      "epoch": 0.12183333333333334,
      "grad_norm": 0.7595269680023193,
      "learning_rate": 0.00028978350594186853,
      "loss": 3.9186,
      "step": 58480
    },
    {
      "epoch": 0.12185416666666667,
      "grad_norm": 0.7525302767753601,
      "learning_rate": 0.00028977992953917577,
      "loss": 4.0632,
      "step": 58490
    },
    {
      "epoch": 0.121875,
      "grad_norm": 0.7376665472984314,
      "learning_rate": 0.0002897763525326891,
      "loss": 4.0523,
      "step": 58500
    },
    {
      "epoch": 0.12189583333333333,
      "grad_norm": 0.7225883603096008,
      "learning_rate": 0.0002897727749224238,
      "loss": 4.0649,
      "step": 58510
    },
    {
      "epoch": 0.12191666666666667,
      "grad_norm": 0.8715702295303345,
      "learning_rate": 0.00028976919670839545,
      "loss": 4.1218,
      "step": 58520
    },
    {
      "epoch": 0.1219375,
      "grad_norm": 0.7517149448394775,
      "learning_rate": 0.00028976561789061957,
      "loss": 4.0398,
      "step": 58530
    },
    {
      "epoch": 0.12195833333333334,
      "grad_norm": 1.0276015996932983,
      "learning_rate": 0.0002897620384691115,
      "loss": 4.1966,
      "step": 58540
    },
    {
      "epoch": 0.12197916666666667,
      "grad_norm": 0.7432104349136353,
      "learning_rate": 0.00028975845844388673,
      "loss": 4.0694,
      "step": 58550
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.7094054222106934,
      "learning_rate": 0.0002897548778149608,
      "loss": 4.0015,
      "step": 58560
    },
    {
      "epoch": 0.12202083333333333,
      "grad_norm": 0.7534720301628113,
      "learning_rate": 0.00028975129658234905,
      "loss": 4.0202,
      "step": 58570
    },
    {
      "epoch": 0.12204166666666667,
      "grad_norm": 0.7120024561882019,
      "learning_rate": 0.0002897477147460671,
      "loss": 3.826,
      "step": 58580
    },
    {
      "epoch": 0.1220625,
      "grad_norm": 0.765831708908081,
      "learning_rate": 0.0002897441323061302,
      "loss": 3.8102,
      "step": 58590
    },
    {
      "epoch": 0.12208333333333334,
      "grad_norm": 0.7979291081428528,
      "learning_rate": 0.0002897405492625541,
      "loss": 3.9647,
      "step": 58600
    },
    {
      "epoch": 0.12210416666666667,
      "grad_norm": 0.7936801910400391,
      "learning_rate": 0.0002897369656153541,
      "loss": 3.984,
      "step": 58610
    },
    {
      "epoch": 0.122125,
      "grad_norm": 0.7641825675964355,
      "learning_rate": 0.0002897333813645457,
      "loss": 3.9075,
      "step": 58620
    },
    {
      "epoch": 0.12214583333333333,
      "grad_norm": 0.8533358573913574,
      "learning_rate": 0.0002897297965101444,
      "loss": 3.9244,
      "step": 58630
    },
    {
      "epoch": 0.12216666666666667,
      "grad_norm": 0.9544987678527832,
      "learning_rate": 0.0002897262110521657,
      "loss": 3.9276,
      "step": 58640
    },
    {
      "epoch": 0.1221875,
      "grad_norm": 0.7423672676086426,
      "learning_rate": 0.00028972262499062513,
      "loss": 3.8874,
      "step": 58650
    },
    {
      "epoch": 0.12220833333333334,
      "grad_norm": 0.9484134316444397,
      "learning_rate": 0.000289719038325538,
      "loss": 4.0596,
      "step": 58660
    },
    {
      "epoch": 0.12222916666666667,
      "grad_norm": 0.8454275727272034,
      "learning_rate": 0.00028971545105692,
      "loss": 4.0167,
      "step": 58670
    },
    {
      "epoch": 0.12225,
      "grad_norm": 0.8040051460266113,
      "learning_rate": 0.00028971186318478657,
      "loss": 4.0405,
      "step": 58680
    },
    {
      "epoch": 0.12227083333333333,
      "grad_norm": 0.7652581334114075,
      "learning_rate": 0.00028970827470915317,
      "loss": 3.9015,
      "step": 58690
    },
    {
      "epoch": 0.12229166666666667,
      "grad_norm": 0.7617089152336121,
      "learning_rate": 0.00028970468563003533,
      "loss": 3.8535,
      "step": 58700
    },
    {
      "epoch": 0.1223125,
      "grad_norm": 0.7855530977249146,
      "learning_rate": 0.00028970109594744856,
      "loss": 3.9233,
      "step": 58710
    },
    {
      "epoch": 0.12233333333333334,
      "grad_norm": 0.7007876634597778,
      "learning_rate": 0.0002896975056614083,
      "loss": 3.974,
      "step": 58720
    },
    {
      "epoch": 0.12235416666666667,
      "grad_norm": 0.8092440366744995,
      "learning_rate": 0.0002896939147719302,
      "loss": 3.779,
      "step": 58730
    },
    {
      "epoch": 0.122375,
      "grad_norm": 0.876945436000824,
      "learning_rate": 0.00028969032327902963,
      "loss": 3.8744,
      "step": 58740
    },
    {
      "epoch": 0.12239583333333333,
      "grad_norm": 0.8161500096321106,
      "learning_rate": 0.00028968673118272216,
      "loss": 3.9168,
      "step": 58750
    },
    {
      "epoch": 0.12241666666666666,
      "grad_norm": 0.8570572137832642,
      "learning_rate": 0.00028968313848302333,
      "loss": 3.9246,
      "step": 58760
    },
    {
      "epoch": 0.1224375,
      "grad_norm": 0.7108163833618164,
      "learning_rate": 0.0002896795451799486,
      "loss": 4.0327,
      "step": 58770
    },
    {
      "epoch": 0.12245833333333334,
      "grad_norm": 0.7592309713363647,
      "learning_rate": 0.0002896759512735135,
      "loss": 4.0872,
      "step": 58780
    },
    {
      "epoch": 0.12247916666666667,
      "grad_norm": 0.8583866357803345,
      "learning_rate": 0.0002896723567637336,
      "loss": 3.8558,
      "step": 58790
    },
    {
      "epoch": 0.1225,
      "grad_norm": 0.8032364845275879,
      "learning_rate": 0.00028966876165062444,
      "loss": 3.9725,
      "step": 58800
    },
    {
      "epoch": 0.12252083333333333,
      "grad_norm": 0.759597659111023,
      "learning_rate": 0.0002896651659342015,
      "loss": 4.157,
      "step": 58810
    },
    {
      "epoch": 0.12254166666666666,
      "grad_norm": 0.9443415403366089,
      "learning_rate": 0.0002896615696144803,
      "loss": 4.0202,
      "step": 58820
    },
    {
      "epoch": 0.1225625,
      "grad_norm": 0.6591619253158569,
      "learning_rate": 0.00028965797269147643,
      "loss": 3.9996,
      "step": 58830
    },
    {
      "epoch": 0.12258333333333334,
      "grad_norm": 0.7279909253120422,
      "learning_rate": 0.00028965437516520535,
      "loss": 3.985,
      "step": 58840
    },
    {
      "epoch": 0.12260416666666667,
      "grad_norm": 0.783434271812439,
      "learning_rate": 0.0002896507770356827,
      "loss": 3.9551,
      "step": 58850
    },
    {
      "epoch": 0.122625,
      "grad_norm": 1.1516387462615967,
      "learning_rate": 0.00028964717830292394,
      "loss": 4.1768,
      "step": 58860
    },
    {
      "epoch": 0.12264583333333333,
      "grad_norm": 0.8258283734321594,
      "learning_rate": 0.00028964357896694466,
      "loss": 3.9036,
      "step": 58870
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 0.7921056151390076,
      "learning_rate": 0.00028963997902776046,
      "loss": 4.0215,
      "step": 58880
    },
    {
      "epoch": 0.1226875,
      "grad_norm": 0.7622324228286743,
      "learning_rate": 0.0002896363784853867,
      "loss": 3.9226,
      "step": 58890
    },
    {
      "epoch": 0.12270833333333334,
      "grad_norm": 0.980218231678009,
      "learning_rate": 0.00028963277733983915,
      "loss": 3.7993,
      "step": 58900
    },
    {
      "epoch": 0.12272916666666667,
      "grad_norm": 0.7496768832206726,
      "learning_rate": 0.00028962917559113323,
      "loss": 4.0895,
      "step": 58910
    },
    {
      "epoch": 0.12275,
      "grad_norm": 0.7021639347076416,
      "learning_rate": 0.00028962557323928455,
      "loss": 3.9113,
      "step": 58920
    },
    {
      "epoch": 0.12277083333333333,
      "grad_norm": 0.7668494582176208,
      "learning_rate": 0.0002896219702843086,
      "loss": 3.979,
      "step": 58930
    },
    {
      "epoch": 0.12279166666666666,
      "grad_norm": 0.7994961142539978,
      "learning_rate": 0.0002896183667262211,
      "loss": 3.9905,
      "step": 58940
    },
    {
      "epoch": 0.1228125,
      "grad_norm": 0.8457812666893005,
      "learning_rate": 0.0002896147625650375,
      "loss": 3.9484,
      "step": 58950
    },
    {
      "epoch": 0.12283333333333334,
      "grad_norm": 0.8466345071792603,
      "learning_rate": 0.0002896111578007734,
      "loss": 4.0251,
      "step": 58960
    },
    {
      "epoch": 0.12285416666666667,
      "grad_norm": 0.6990904211997986,
      "learning_rate": 0.0002896075524334443,
      "loss": 3.8724,
      "step": 58970
    },
    {
      "epoch": 0.122875,
      "grad_norm": 0.6941803693771362,
      "learning_rate": 0.00028960394646306584,
      "loss": 4.1091,
      "step": 58980
    },
    {
      "epoch": 0.12289583333333333,
      "grad_norm": 0.7710018754005432,
      "learning_rate": 0.00028960033988965363,
      "loss": 4.0476,
      "step": 58990
    },
    {
      "epoch": 0.12291666666666666,
      "grad_norm": 0.7830733060836792,
      "learning_rate": 0.0002895967327132232,
      "loss": 3.8969,
      "step": 59000
    },
    {
      "epoch": 0.12291666666666666,
      "eval_loss": 4.304332733154297,
      "eval_runtime": 10.2297,
      "eval_samples_per_second": 0.978,
      "eval_steps_per_second": 0.293,
      "step": 59000
    },
    {
      "epoch": 0.1229375,
      "grad_norm": 0.7076270580291748,
      "learning_rate": 0.00028959312493379014,
      "loss": 4.0692,
      "step": 59010
    },
    {
      "epoch": 0.12295833333333334,
      "grad_norm": 0.8446481227874756,
      "learning_rate": 0.00028958951655137,
      "loss": 4.0925,
      "step": 59020
    },
    {
      "epoch": 0.12297916666666667,
      "grad_norm": 0.7308094501495361,
      "learning_rate": 0.00028958590756597845,
      "loss": 4.0036,
      "step": 59030
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.8042703866958618,
      "learning_rate": 0.00028958229797763105,
      "loss": 3.6909,
      "step": 59040
    },
    {
      "epoch": 0.12302083333333333,
      "grad_norm": 0.8013021945953369,
      "learning_rate": 0.0002895786877863433,
      "loss": 4.0733,
      "step": 59050
    },
    {
      "epoch": 0.12304166666666666,
      "grad_norm": 0.882853090763092,
      "learning_rate": 0.0002895750769921309,
      "loss": 3.9522,
      "step": 59060
    },
    {
      "epoch": 0.1230625,
      "grad_norm": 0.7177476286888123,
      "learning_rate": 0.00028957146559500946,
      "loss": 3.9204,
      "step": 59070
    },
    {
      "epoch": 0.12308333333333334,
      "grad_norm": 0.8178974986076355,
      "learning_rate": 0.0002895678535949945,
      "loss": 3.9289,
      "step": 59080
    },
    {
      "epoch": 0.12310416666666667,
      "grad_norm": 0.7250188589096069,
      "learning_rate": 0.0002895642409921016,
      "loss": 3.9496,
      "step": 59090
    },
    {
      "epoch": 0.123125,
      "grad_norm": 0.8501078486442566,
      "learning_rate": 0.0002895606277863465,
      "loss": 3.8838,
      "step": 59100
    },
    {
      "epoch": 0.12314583333333333,
      "grad_norm": 0.7384798526763916,
      "learning_rate": 0.0002895570139777447,
      "loss": 3.9022,
      "step": 59110
    },
    {
      "epoch": 0.12316666666666666,
      "grad_norm": 0.88756263256073,
      "learning_rate": 0.00028955339956631185,
      "loss": 3.8496,
      "step": 59120
    },
    {
      "epoch": 0.1231875,
      "grad_norm": 1.0091770887374878,
      "learning_rate": 0.00028954978455206356,
      "loss": 4.1302,
      "step": 59130
    },
    {
      "epoch": 0.12320833333333334,
      "grad_norm": 0.8608778715133667,
      "learning_rate": 0.0002895461689350154,
      "loss": 3.743,
      "step": 59140
    },
    {
      "epoch": 0.12322916666666667,
      "grad_norm": 0.8289542198181152,
      "learning_rate": 0.0002895425527151831,
      "loss": 4.0942,
      "step": 59150
    },
    {
      "epoch": 0.12325,
      "grad_norm": 0.7657513618469238,
      "learning_rate": 0.0002895389358925822,
      "loss": 4.0394,
      "step": 59160
    },
    {
      "epoch": 0.12327083333333333,
      "grad_norm": 0.7718591094017029,
      "learning_rate": 0.00028953531846722823,
      "loss": 3.9805,
      "step": 59170
    },
    {
      "epoch": 0.12329166666666666,
      "grad_norm": 0.7843058705329895,
      "learning_rate": 0.000289531700439137,
      "loss": 4.0017,
      "step": 59180
    },
    {
      "epoch": 0.1233125,
      "grad_norm": 0.722235381603241,
      "learning_rate": 0.00028952808180832405,
      "loss": 4.0231,
      "step": 59190
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 0.7318554520606995,
      "learning_rate": 0.00028952446257480495,
      "loss": 3.8719,
      "step": 59200
    },
    {
      "epoch": 0.12335416666666667,
      "grad_norm": 0.8016271591186523,
      "learning_rate": 0.00028952084273859547,
      "loss": 3.9178,
      "step": 59210
    },
    {
      "epoch": 0.123375,
      "grad_norm": 0.6923083662986755,
      "learning_rate": 0.0002895172222997111,
      "loss": 4.0387,
      "step": 59220
    },
    {
      "epoch": 0.12339583333333333,
      "grad_norm": 0.8460187911987305,
      "learning_rate": 0.0002895136012581677,
      "loss": 3.8641,
      "step": 59230
    },
    {
      "epoch": 0.12341666666666666,
      "grad_norm": 0.827653706073761,
      "learning_rate": 0.0002895099796139806,
      "loss": 3.9304,
      "step": 59240
    },
    {
      "epoch": 0.1234375,
      "grad_norm": 0.7599294185638428,
      "learning_rate": 0.0002895063573671657,
      "loss": 3.9112,
      "step": 59250
    },
    {
      "epoch": 0.12345833333333334,
      "grad_norm": 0.8326315879821777,
      "learning_rate": 0.00028950273451773854,
      "loss": 3.9248,
      "step": 59260
    },
    {
      "epoch": 0.12347916666666667,
      "grad_norm": 0.7965421080589294,
      "learning_rate": 0.0002894991110657148,
      "loss": 4.043,
      "step": 59270
    },
    {
      "epoch": 0.1235,
      "grad_norm": 0.7838216423988342,
      "learning_rate": 0.0002894954870111101,
      "loss": 3.9917,
      "step": 59280
    },
    {
      "epoch": 0.12352083333333333,
      "grad_norm": 0.8560947179794312,
      "learning_rate": 0.0002894918623539401,
      "loss": 3.9958,
      "step": 59290
    },
    {
      "epoch": 0.12354166666666666,
      "grad_norm": 0.752515435218811,
      "learning_rate": 0.0002894882370942205,
      "loss": 3.9621,
      "step": 59300
    },
    {
      "epoch": 0.1235625,
      "grad_norm": 0.7699630856513977,
      "learning_rate": 0.00028948461123196696,
      "loss": 3.9706,
      "step": 59310
    },
    {
      "epoch": 0.12358333333333334,
      "grad_norm": 0.8114316463470459,
      "learning_rate": 0.00028948098476719504,
      "loss": 3.7403,
      "step": 59320
    },
    {
      "epoch": 0.12360416666666667,
      "grad_norm": 0.8304722309112549,
      "learning_rate": 0.00028947735769992047,
      "loss": 3.8562,
      "step": 59330
    },
    {
      "epoch": 0.123625,
      "grad_norm": 0.9070820212364197,
      "learning_rate": 0.00028947373003015894,
      "loss": 4.0504,
      "step": 59340
    },
    {
      "epoch": 0.12364583333333333,
      "grad_norm": 0.8178778290748596,
      "learning_rate": 0.00028947010175792615,
      "loss": 3.8595,
      "step": 59350
    },
    {
      "epoch": 0.12366666666666666,
      "grad_norm": 0.8801862597465515,
      "learning_rate": 0.00028946647288323766,
      "loss": 4.0523,
      "step": 59360
    },
    {
      "epoch": 0.1236875,
      "grad_norm": 0.7515727281570435,
      "learning_rate": 0.00028946284340610926,
      "loss": 3.9741,
      "step": 59370
    },
    {
      "epoch": 0.12370833333333334,
      "grad_norm": 0.8889833092689514,
      "learning_rate": 0.0002894592133265566,
      "loss": 4.0485,
      "step": 59380
    },
    {
      "epoch": 0.12372916666666667,
      "grad_norm": 0.7986170649528503,
      "learning_rate": 0.00028945558264459526,
      "loss": 4.0041,
      "step": 59390
    },
    {
      "epoch": 0.12375,
      "grad_norm": 0.6885119080543518,
      "learning_rate": 0.00028945195136024105,
      "loss": 4.1543,
      "step": 59400
    },
    {
      "epoch": 0.12377083333333333,
      "grad_norm": 0.7544699311256409,
      "learning_rate": 0.00028944831947350964,
      "loss": 3.8942,
      "step": 59410
    },
    {
      "epoch": 0.12379166666666666,
      "grad_norm": 0.68788081407547,
      "learning_rate": 0.00028944468698441665,
      "loss": 3.9739,
      "step": 59420
    },
    {
      "epoch": 0.1238125,
      "grad_norm": 0.793062150478363,
      "learning_rate": 0.00028944105389297784,
      "loss": 4.0173,
      "step": 59430
    },
    {
      "epoch": 0.12383333333333334,
      "grad_norm": 0.8922891616821289,
      "learning_rate": 0.0002894374201992088,
      "loss": 4.0076,
      "step": 59440
    },
    {
      "epoch": 0.12385416666666667,
      "grad_norm": 0.7462336421012878,
      "learning_rate": 0.00028943378590312537,
      "loss": 3.9521,
      "step": 59450
    },
    {
      "epoch": 0.123875,
      "grad_norm": 0.7774155139923096,
      "learning_rate": 0.00028943015100474313,
      "loss": 3.9795,
      "step": 59460
    },
    {
      "epoch": 0.12389583333333333,
      "grad_norm": 0.7516297101974487,
      "learning_rate": 0.00028942651550407786,
      "loss": 3.8604,
      "step": 59470
    },
    {
      "epoch": 0.12391666666666666,
      "grad_norm": 0.8640037178993225,
      "learning_rate": 0.00028942287940114523,
      "loss": 3.9169,
      "step": 59480
    },
    {
      "epoch": 0.1239375,
      "grad_norm": 0.7642115950584412,
      "learning_rate": 0.00028941924269596095,
      "loss": 3.9779,
      "step": 59490
    },
    {
      "epoch": 0.12395833333333334,
      "grad_norm": 0.7764779925346375,
      "learning_rate": 0.0002894156053885407,
      "loss": 4.0872,
      "step": 59500
    },
    {
      "epoch": 0.12397916666666667,
      "grad_norm": 0.7637394070625305,
      "learning_rate": 0.00028941196747890027,
      "loss": 4.0266,
      "step": 59510
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.7165989279747009,
      "learning_rate": 0.00028940832896705526,
      "loss": 3.781,
      "step": 59520
    },
    {
      "epoch": 0.12402083333333333,
      "grad_norm": 0.7679190039634705,
      "learning_rate": 0.0002894046898530215,
      "loss": 3.9127,
      "step": 59530
    },
    {
      "epoch": 0.12404166666666666,
      "grad_norm": 0.721459150314331,
      "learning_rate": 0.0002894010501368146,
      "loss": 4.1222,
      "step": 59540
    },
    {
      "epoch": 0.1240625,
      "grad_norm": 0.6908599734306335,
      "learning_rate": 0.0002893974098184504,
      "loss": 4.0136,
      "step": 59550
    },
    {
      "epoch": 0.12408333333333334,
      "grad_norm": 0.9111027121543884,
      "learning_rate": 0.00028939376889794454,
      "loss": 3.9047,
      "step": 59560
    },
    {
      "epoch": 0.12410416666666667,
      "grad_norm": 0.9988145232200623,
      "learning_rate": 0.0002893901273753128,
      "loss": 3.8511,
      "step": 59570
    },
    {
      "epoch": 0.124125,
      "grad_norm": 0.786493182182312,
      "learning_rate": 0.00028938648525057083,
      "loss": 4.0198,
      "step": 59580
    },
    {
      "epoch": 0.12414583333333333,
      "grad_norm": 0.7718296647071838,
      "learning_rate": 0.00028938284252373446,
      "loss": 3.9319,
      "step": 59590
    },
    {
      "epoch": 0.12416666666666666,
      "grad_norm": 0.9785196185112,
      "learning_rate": 0.0002893791991948194,
      "loss": 3.912,
      "step": 59600
    },
    {
      "epoch": 0.1241875,
      "grad_norm": 0.7442240715026855,
      "learning_rate": 0.00028937555526384134,
      "loss": 3.9557,
      "step": 59610
    },
    {
      "epoch": 0.12420833333333334,
      "grad_norm": 1.0854867696762085,
      "learning_rate": 0.00028937191073081603,
      "loss": 3.9608,
      "step": 59620
    },
    {
      "epoch": 0.12422916666666667,
      "grad_norm": 0.8008106350898743,
      "learning_rate": 0.00028936826559575933,
      "loss": 4.0406,
      "step": 59630
    },
    {
      "epoch": 0.12425,
      "grad_norm": 0.9046019911766052,
      "learning_rate": 0.0002893646198586868,
      "loss": 4.0392,
      "step": 59640
    },
    {
      "epoch": 0.12427083333333333,
      "grad_norm": 0.7624402046203613,
      "learning_rate": 0.00028936097351961427,
      "loss": 3.9331,
      "step": 59650
    },
    {
      "epoch": 0.12429166666666666,
      "grad_norm": 0.8597812056541443,
      "learning_rate": 0.0002893573265785575,
      "loss": 3.9659,
      "step": 59660
    },
    {
      "epoch": 0.1243125,
      "grad_norm": 0.79534512758255,
      "learning_rate": 0.0002893536790355323,
      "loss": 3.7714,
      "step": 59670
    },
    {
      "epoch": 0.12433333333333334,
      "grad_norm": 0.7513994574546814,
      "learning_rate": 0.00028935003089055434,
      "loss": 3.9124,
      "step": 59680
    },
    {
      "epoch": 0.12435416666666667,
      "grad_norm": 0.7537775635719299,
      "learning_rate": 0.0002893463821436394,
      "loss": 4.1181,
      "step": 59690
    },
    {
      "epoch": 0.124375,
      "grad_norm": 0.7551184296607971,
      "learning_rate": 0.0002893427327948032,
      "loss": 4.1258,
      "step": 59700
    },
    {
      "epoch": 0.12439583333333333,
      "grad_norm": 0.8327275514602661,
      "learning_rate": 0.00028933908284406164,
      "loss": 3.8397,
      "step": 59710
    },
    {
      "epoch": 0.12441666666666666,
      "grad_norm": 0.7604628205299377,
      "learning_rate": 0.0002893354322914303,
      "loss": 4.1624,
      "step": 59720
    },
    {
      "epoch": 0.1244375,
      "grad_norm": 0.7264744639396667,
      "learning_rate": 0.0002893317811369251,
      "loss": 4.0278,
      "step": 59730
    },
    {
      "epoch": 0.12445833333333334,
      "grad_norm": 0.7267156839370728,
      "learning_rate": 0.00028932812938056176,
      "loss": 4.0574,
      "step": 59740
    },
    {
      "epoch": 0.12447916666666667,
      "grad_norm": 0.8236510753631592,
      "learning_rate": 0.000289324477022356,
      "loss": 4.1556,
      "step": 59750
    },
    {
      "epoch": 0.1245,
      "grad_norm": 0.7506306171417236,
      "learning_rate": 0.0002893208240623237,
      "loss": 4.0089,
      "step": 59760
    },
    {
      "epoch": 0.12452083333333333,
      "grad_norm": 0.7727932929992676,
      "learning_rate": 0.0002893171705004806,
      "loss": 3.8381,
      "step": 59770
    },
    {
      "epoch": 0.12454166666666666,
      "grad_norm": 0.7874816656112671,
      "learning_rate": 0.00028931351633684245,
      "loss": 3.915,
      "step": 59780
    },
    {
      "epoch": 0.1245625,
      "grad_norm": 0.8008192181587219,
      "learning_rate": 0.000289309861571425,
      "loss": 3.9919,
      "step": 59790
    },
    {
      "epoch": 0.12458333333333334,
      "grad_norm": 0.7953455448150635,
      "learning_rate": 0.00028930620620424413,
      "loss": 3.9738,
      "step": 59800
    },
    {
      "epoch": 0.12460416666666667,
      "grad_norm": 0.8026627898216248,
      "learning_rate": 0.0002893025502353156,
      "loss": 3.9472,
      "step": 59810
    },
    {
      "epoch": 0.124625,
      "grad_norm": 0.8483697175979614,
      "learning_rate": 0.0002892988936646552,
      "loss": 4.0382,
      "step": 59820
    },
    {
      "epoch": 0.12464583333333333,
      "grad_norm": 0.9190303683280945,
      "learning_rate": 0.00028929523649227874,
      "loss": 4.0747,
      "step": 59830
    },
    {
      "epoch": 0.12466666666666666,
      "grad_norm": 0.7481479644775391,
      "learning_rate": 0.00028929157871820195,
      "loss": 4.0001,
      "step": 59840
    },
    {
      "epoch": 0.1246875,
      "grad_norm": 0.8457802534103394,
      "learning_rate": 0.0002892879203424407,
      "loss": 3.9026,
      "step": 59850
    },
    {
      "epoch": 0.12470833333333334,
      "grad_norm": 0.8258662819862366,
      "learning_rate": 0.00028928426136501075,
      "loss": 3.9642,
      "step": 59860
    },
    {
      "epoch": 0.12472916666666667,
      "grad_norm": 0.8082558512687683,
      "learning_rate": 0.0002892806017859279,
      "loss": 3.9333,
      "step": 59870
    },
    {
      "epoch": 0.12475,
      "grad_norm": 0.738173246383667,
      "learning_rate": 0.00028927694160520807,
      "loss": 3.9039,
      "step": 59880
    },
    {
      "epoch": 0.12477083333333333,
      "grad_norm": 0.708177387714386,
      "learning_rate": 0.0002892732808228669,
      "loss": 4.0146,
      "step": 59890
    },
    {
      "epoch": 0.12479166666666666,
      "grad_norm": 0.8138661980628967,
      "learning_rate": 0.00028926961943892033,
      "loss": 4.0054,
      "step": 59900
    },
    {
      "epoch": 0.1248125,
      "grad_norm": 0.756485104560852,
      "learning_rate": 0.0002892659574533841,
      "loss": 4.0088,
      "step": 59910
    },
    {
      "epoch": 0.12483333333333334,
      "grad_norm": 0.8877274394035339,
      "learning_rate": 0.000289262294866274,
      "loss": 3.9209,
      "step": 59920
    },
    {
      "epoch": 0.12485416666666667,
      "grad_norm": 0.8121849894523621,
      "learning_rate": 0.00028925863167760603,
      "loss": 3.9011,
      "step": 59930
    },
    {
      "epoch": 0.124875,
      "grad_norm": 0.7649674415588379,
      "learning_rate": 0.00028925496788739585,
      "loss": 3.943,
      "step": 59940
    },
    {
      "epoch": 0.12489583333333333,
      "grad_norm": 0.7809200882911682,
      "learning_rate": 0.0002892513034956593,
      "loss": 3.8926,
      "step": 59950
    },
    {
      "epoch": 0.12491666666666666,
      "grad_norm": 0.7339300513267517,
      "learning_rate": 0.00028924763850241226,
      "loss": 3.9329,
      "step": 59960
    },
    {
      "epoch": 0.1249375,
      "grad_norm": 0.7218712568283081,
      "learning_rate": 0.00028924397290767056,
      "loss": 3.9588,
      "step": 59970
    },
    {
      "epoch": 0.12495833333333334,
      "grad_norm": 0.7451568841934204,
      "learning_rate": 0.00028924030671145,
      "loss": 4.0311,
      "step": 59980
    },
    {
      "epoch": 0.12497916666666667,
      "grad_norm": 0.686890184879303,
      "learning_rate": 0.0002892366399137664,
      "loss": 4.1959,
      "step": 59990
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.7072442770004272,
      "learning_rate": 0.00028923297251463566,
      "loss": 3.9393,
      "step": 60000
    },
    {
      "epoch": 0.125,
      "eval_loss": 4.28720760345459,
      "eval_runtime": 9.0117,
      "eval_samples_per_second": 1.11,
      "eval_steps_per_second": 0.333,
      "step": 60000
    },
    {
      "epoch": 0.12502083333333333,
      "grad_norm": 0.7938657999038696,
      "learning_rate": 0.0002892293045140736,
      "loss": 4.0312,
      "step": 60010
    },
    {
      "epoch": 0.12504166666666666,
      "grad_norm": 0.8946004509925842,
      "learning_rate": 0.00028922563591209604,
      "loss": 3.8607,
      "step": 60020
    },
    {
      "epoch": 0.1250625,
      "grad_norm": 0.7370315790176392,
      "learning_rate": 0.00028922196670871887,
      "loss": 3.902,
      "step": 60030
    },
    {
      "epoch": 0.12508333333333332,
      "grad_norm": 0.8435665369033813,
      "learning_rate": 0.00028921829690395785,
      "loss": 3.9777,
      "step": 60040
    },
    {
      "epoch": 0.12510416666666666,
      "grad_norm": 0.6935549378395081,
      "learning_rate": 0.0002892146264978289,
      "loss": 4.0133,
      "step": 60050
    },
    {
      "epoch": 0.125125,
      "grad_norm": 0.8371921181678772,
      "learning_rate": 0.0002892109554903479,
      "loss": 3.9291,
      "step": 60060
    },
    {
      "epoch": 0.12514583333333335,
      "grad_norm": 0.7603539228439331,
      "learning_rate": 0.0002892072838815307,
      "loss": 3.8231,
      "step": 60070
    },
    {
      "epoch": 0.12516666666666668,
      "grad_norm": 0.8785008788108826,
      "learning_rate": 0.0002892036116713931,
      "loss": 3.9849,
      "step": 60080
    },
    {
      "epoch": 0.1251875,
      "grad_norm": 0.8890485167503357,
      "learning_rate": 0.000289199938859951,
      "loss": 3.8977,
      "step": 60090
    },
    {
      "epoch": 0.12520833333333334,
      "grad_norm": 0.8059565424919128,
      "learning_rate": 0.0002891962654472203,
      "loss": 4.0073,
      "step": 60100
    },
    {
      "epoch": 0.12522916666666667,
      "grad_norm": 1.1788880825042725,
      "learning_rate": 0.00028919259143321676,
      "loss": 4.0699,
      "step": 60110
    },
    {
      "epoch": 0.12525,
      "grad_norm": 0.674269437789917,
      "learning_rate": 0.00028918891681795636,
      "loss": 3.936,
      "step": 60120
    },
    {
      "epoch": 0.12527083333333333,
      "grad_norm": 0.7835066914558411,
      "learning_rate": 0.00028918524160145495,
      "loss": 4.1285,
      "step": 60130
    },
    {
      "epoch": 0.12529166666666666,
      "grad_norm": 0.8505450487136841,
      "learning_rate": 0.00028918156578372836,
      "loss": 3.9707,
      "step": 60140
    },
    {
      "epoch": 0.1253125,
      "grad_norm": 0.7157944440841675,
      "learning_rate": 0.0002891778893647925,
      "loss": 4.0334,
      "step": 60150
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 0.9668766856193542,
      "learning_rate": 0.0002891742123446633,
      "loss": 3.9565,
      "step": 60160
    },
    {
      "epoch": 0.12535416666666666,
      "grad_norm": 0.8028192520141602,
      "learning_rate": 0.0002891705347233565,
      "loss": 4.0438,
      "step": 60170
    },
    {
      "epoch": 0.125375,
      "grad_norm": 0.6840729117393494,
      "learning_rate": 0.00028916685650088816,
      "loss": 3.8411,
      "step": 60180
    },
    {
      "epoch": 0.12539583333333335,
      "grad_norm": 0.791264533996582,
      "learning_rate": 0.00028916317767727404,
      "loss": 4.0413,
      "step": 60190
    },
    {
      "epoch": 0.12541666666666668,
      "grad_norm": 0.7025873064994812,
      "learning_rate": 0.0002891594982525301,
      "loss": 4.0147,
      "step": 60200
    },
    {
      "epoch": 0.1254375,
      "grad_norm": 0.886669397354126,
      "learning_rate": 0.0002891558182266722,
      "loss": 4.0577,
      "step": 60210
    },
    {
      "epoch": 0.12545833333333334,
      "grad_norm": 0.8872464299201965,
      "learning_rate": 0.0002891521375997163,
      "loss": 3.9073,
      "step": 60220
    },
    {
      "epoch": 0.12547916666666667,
      "grad_norm": 0.8161237835884094,
      "learning_rate": 0.00028914845637167816,
      "loss": 4.1724,
      "step": 60230
    },
    {
      "epoch": 0.1255,
      "grad_norm": 0.7949292659759521,
      "learning_rate": 0.0002891447745425738,
      "loss": 3.8022,
      "step": 60240
    },
    {
      "epoch": 0.12552083333333333,
      "grad_norm": 0.8857943415641785,
      "learning_rate": 0.00028914109211241907,
      "loss": 3.9048,
      "step": 60250
    },
    {
      "epoch": 0.12554166666666666,
      "grad_norm": 0.7364353537559509,
      "learning_rate": 0.00028913740908122996,
      "loss": 3.9839,
      "step": 60260
    },
    {
      "epoch": 0.1255625,
      "grad_norm": 0.933562695980072,
      "learning_rate": 0.00028913372544902226,
      "loss": 3.8054,
      "step": 60270
    },
    {
      "epoch": 0.12558333333333332,
      "grad_norm": 0.8075403571128845,
      "learning_rate": 0.000289130041215812,
      "loss": 4.0915,
      "step": 60280
    },
    {
      "epoch": 0.12560416666666666,
      "grad_norm": 0.7791281938552856,
      "learning_rate": 0.000289126356381615,
      "loss": 4.1305,
      "step": 60290
    },
    {
      "epoch": 0.125625,
      "grad_norm": 0.9419851899147034,
      "learning_rate": 0.00028912267094644717,
      "loss": 3.8728,
      "step": 60300
    },
    {
      "epoch": 0.12564583333333335,
      "grad_norm": 0.8592372536659241,
      "learning_rate": 0.0002891189849103245,
      "loss": 4.0526,
      "step": 60310
    },
    {
      "epoch": 0.12566666666666668,
      "grad_norm": 0.7462857961654663,
      "learning_rate": 0.00028911529827326286,
      "loss": 4.0598,
      "step": 60320
    },
    {
      "epoch": 0.1256875,
      "grad_norm": 0.8161598443984985,
      "learning_rate": 0.00028911161103527825,
      "loss": 4.0764,
      "step": 60330
    },
    {
      "epoch": 0.12570833333333334,
      "grad_norm": 0.7606133222579956,
      "learning_rate": 0.0002891079231963865,
      "loss": 3.9356,
      "step": 60340
    },
    {
      "epoch": 0.12572916666666667,
      "grad_norm": 0.8097771406173706,
      "learning_rate": 0.00028910423475660363,
      "loss": 3.9205,
      "step": 60350
    },
    {
      "epoch": 0.12575,
      "grad_norm": 0.8620128035545349,
      "learning_rate": 0.00028910054571594545,
      "loss": 4.1485,
      "step": 60360
    },
    {
      "epoch": 0.12577083333333333,
      "grad_norm": 0.6869148015975952,
      "learning_rate": 0.000289096856074428,
      "loss": 4.0486,
      "step": 60370
    },
    {
      "epoch": 0.12579166666666666,
      "grad_norm": 0.8374132513999939,
      "learning_rate": 0.0002890931658320673,
      "loss": 4.206,
      "step": 60380
    },
    {
      "epoch": 0.1258125,
      "grad_norm": 0.8259112238883972,
      "learning_rate": 0.0002890894749888791,
      "loss": 3.9356,
      "step": 60390
    },
    {
      "epoch": 0.12583333333333332,
      "grad_norm": 0.7517826557159424,
      "learning_rate": 0.00028908578354487933,
      "loss": 3.9405,
      "step": 60400
    },
    {
      "epoch": 0.12585416666666666,
      "grad_norm": 0.7363294363021851,
      "learning_rate": 0.0002890820915000841,
      "loss": 4.0188,
      "step": 60410
    },
    {
      "epoch": 0.125875,
      "grad_norm": 0.807552695274353,
      "learning_rate": 0.00028907839885450933,
      "loss": 3.8898,
      "step": 60420
    },
    {
      "epoch": 0.12589583333333335,
      "grad_norm": 0.7601284384727478,
      "learning_rate": 0.0002890747056081709,
      "loss": 4.1817,
      "step": 60430
    },
    {
      "epoch": 0.12591666666666668,
      "grad_norm": 0.704624354839325,
      "learning_rate": 0.00028907101176108485,
      "loss": 3.7147,
      "step": 60440
    },
    {
      "epoch": 0.1259375,
      "grad_norm": 0.802403450012207,
      "learning_rate": 0.000289067317313267,
      "loss": 4.0138,
      "step": 60450
    },
    {
      "epoch": 0.12595833333333334,
      "grad_norm": 0.8417935967445374,
      "learning_rate": 0.0002890636222647334,
      "loss": 3.9062,
      "step": 60460
    },
    {
      "epoch": 0.12597916666666667,
      "grad_norm": 0.8078790903091431,
      "learning_rate": 0.00028905992661549997,
      "loss": 4.2054,
      "step": 60470
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.7516436576843262,
      "learning_rate": 0.0002890562303655827,
      "loss": 4.0041,
      "step": 60480
    },
    {
      "epoch": 0.12602083333333333,
      "grad_norm": 0.7557108998298645,
      "learning_rate": 0.0002890525335149976,
      "loss": 4.1824,
      "step": 60490
    },
    {
      "epoch": 0.12604166666666666,
      "grad_norm": 0.7858701348304749,
      "learning_rate": 0.00028904883606376057,
      "loss": 4.1519,
      "step": 60500
    },
    {
      "epoch": 0.1260625,
      "grad_norm": 1.0312234163284302,
      "learning_rate": 0.00028904513801188765,
      "loss": 3.9145,
      "step": 60510
    },
    {
      "epoch": 0.12608333333333333,
      "grad_norm": 0.7540333867073059,
      "learning_rate": 0.00028904143935939476,
      "loss": 3.9719,
      "step": 60520
    },
    {
      "epoch": 0.12610416666666666,
      "grad_norm": 0.7975886464118958,
      "learning_rate": 0.0002890377401062979,
      "loss": 3.9563,
      "step": 60530
    },
    {
      "epoch": 0.126125,
      "grad_norm": 0.9473792314529419,
      "learning_rate": 0.000289034040252613,
      "loss": 3.938,
      "step": 60540
    },
    {
      "epoch": 0.12614583333333335,
      "grad_norm": 0.860109269618988,
      "learning_rate": 0.0002890303397983561,
      "loss": 4.1183,
      "step": 60550
    },
    {
      "epoch": 0.12616666666666668,
      "grad_norm": 0.7677061557769775,
      "learning_rate": 0.0002890266387435431,
      "loss": 3.9338,
      "step": 60560
    },
    {
      "epoch": 0.1261875,
      "grad_norm": 0.7373406887054443,
      "learning_rate": 0.0002890229370881901,
      "loss": 4.0212,
      "step": 60570
    },
    {
      "epoch": 0.12620833333333334,
      "grad_norm": 0.8216800093650818,
      "learning_rate": 0.00028901923483231305,
      "loss": 3.8123,
      "step": 60580
    },
    {
      "epoch": 0.12622916666666667,
      "grad_norm": 1.002684473991394,
      "learning_rate": 0.00028901553197592793,
      "loss": 3.9867,
      "step": 60590
    },
    {
      "epoch": 0.12625,
      "grad_norm": 0.9084351658821106,
      "learning_rate": 0.00028901182851905077,
      "loss": 3.977,
      "step": 60600
    },
    {
      "epoch": 0.12627083333333333,
      "grad_norm": 0.8241257667541504,
      "learning_rate": 0.0002890081244616975,
      "loss": 3.8968,
      "step": 60610
    },
    {
      "epoch": 0.12629166666666666,
      "grad_norm": 0.874335527420044,
      "learning_rate": 0.00028900441980388413,
      "loss": 3.7263,
      "step": 60620
    },
    {
      "epoch": 0.1263125,
      "grad_norm": 0.826405942440033,
      "learning_rate": 0.00028900071454562675,
      "loss": 4.0882,
      "step": 60630
    },
    {
      "epoch": 0.12633333333333333,
      "grad_norm": 0.7330197095870972,
      "learning_rate": 0.0002889970086869413,
      "loss": 4.0003,
      "step": 60640
    },
    {
      "epoch": 0.12635416666666666,
      "grad_norm": 0.7969862222671509,
      "learning_rate": 0.0002889933022278437,
      "loss": 4.0476,
      "step": 60650
    },
    {
      "epoch": 0.126375,
      "grad_norm": 0.8110573291778564,
      "learning_rate": 0.0002889895951683501,
      "loss": 3.9893,
      "step": 60660
    },
    {
      "epoch": 0.12639583333333335,
      "grad_norm": 0.8254937529563904,
      "learning_rate": 0.0002889858875084765,
      "loss": 3.8509,
      "step": 60670
    },
    {
      "epoch": 0.12641666666666668,
      "grad_norm": 0.6985463500022888,
      "learning_rate": 0.00028898217924823883,
      "loss": 3.8031,
      "step": 60680
    },
    {
      "epoch": 0.1264375,
      "grad_norm": 0.7574479579925537,
      "learning_rate": 0.0002889784703876532,
      "loss": 4.0823,
      "step": 60690
    },
    {
      "epoch": 0.12645833333333334,
      "grad_norm": 0.7724580764770508,
      "learning_rate": 0.0002889747609267356,
      "loss": 4.0063,
      "step": 60700
    },
    {
      "epoch": 0.12647916666666667,
      "grad_norm": 0.7890344262123108,
      "learning_rate": 0.00028897105086550203,
      "loss": 3.9134,
      "step": 60710
    },
    {
      "epoch": 0.1265,
      "grad_norm": 0.7539457678794861,
      "learning_rate": 0.0002889673402039685,
      "loss": 3.9517,
      "step": 60720
    },
    {
      "epoch": 0.12652083333333333,
      "grad_norm": 0.8730541467666626,
      "learning_rate": 0.0002889636289421511,
      "loss": 3.7703,
      "step": 60730
    },
    {
      "epoch": 0.12654166666666666,
      "grad_norm": 0.7584896683692932,
      "learning_rate": 0.0002889599170800658,
      "loss": 3.9123,
      "step": 60740
    },
    {
      "epoch": 0.1265625,
      "grad_norm": 0.8171037435531616,
      "learning_rate": 0.0002889562046177287,
      "loss": 4.0883,
      "step": 60750
    },
    {
      "epoch": 0.12658333333333333,
      "grad_norm": 0.7055708169937134,
      "learning_rate": 0.0002889524915551557,
      "loss": 4.1388,
      "step": 60760
    },
    {
      "epoch": 0.12660416666666666,
      "grad_norm": 0.7542836666107178,
      "learning_rate": 0.000288948777892363,
      "loss": 4.1123,
      "step": 60770
    },
    {
      "epoch": 0.126625,
      "grad_norm": 0.9140307903289795,
      "learning_rate": 0.0002889450636293667,
      "loss": 4.0347,
      "step": 60780
    },
    {
      "epoch": 0.12664583333333335,
      "grad_norm": 0.6957630515098572,
      "learning_rate": 0.00028894134876618257,
      "loss": 3.7942,
      "step": 60790
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 0.8609126210212708,
      "learning_rate": 0.00028893763330282686,
      "loss": 3.9557,
      "step": 60800
    },
    {
      "epoch": 0.1266875,
      "grad_norm": 0.8003653883934021,
      "learning_rate": 0.00028893391723931554,
      "loss": 3.9745,
      "step": 60810
    },
    {
      "epoch": 0.12670833333333334,
      "grad_norm": 0.8086019158363342,
      "learning_rate": 0.00028893020057566476,
      "loss": 3.9764,
      "step": 60820
    },
    {
      "epoch": 0.12672916666666667,
      "grad_norm": 1.2051727771759033,
      "learning_rate": 0.0002889264833118904,
      "loss": 3.9296,
      "step": 60830
    },
    {
      "epoch": 0.12675,
      "grad_norm": 0.8857113718986511,
      "learning_rate": 0.00028892276544800874,
      "loss": 4.0676,
      "step": 60840
    },
    {
      "epoch": 0.12677083333333333,
      "grad_norm": 0.9673714637756348,
      "learning_rate": 0.00028891904698403564,
      "loss": 3.8101,
      "step": 60850
    },
    {
      "epoch": 0.12679166666666666,
      "grad_norm": 0.6959283351898193,
      "learning_rate": 0.0002889153279199873,
      "loss": 3.919,
      "step": 60860
    },
    {
      "epoch": 0.1268125,
      "grad_norm": 0.8324857354164124,
      "learning_rate": 0.0002889116082558797,
      "loss": 3.9988,
      "step": 60870
    },
    {
      "epoch": 0.12683333333333333,
      "grad_norm": 0.7852594256401062,
      "learning_rate": 0.0002889078879917289,
      "loss": 3.9497,
      "step": 60880
    },
    {
      "epoch": 0.12685416666666666,
      "grad_norm": 0.7781233787536621,
      "learning_rate": 0.0002889041671275511,
      "loss": 4.0122,
      "step": 60890
    },
    {
      "epoch": 0.126875,
      "grad_norm": 0.8362337946891785,
      "learning_rate": 0.0002889004456633622,
      "loss": 3.9008,
      "step": 60900
    },
    {
      "epoch": 0.12689583333333335,
      "grad_norm": 0.8719832897186279,
      "learning_rate": 0.00028889672359917837,
      "loss": 4.002,
      "step": 60910
    },
    {
      "epoch": 0.12691666666666668,
      "grad_norm": 0.9351271390914917,
      "learning_rate": 0.0002888930009350157,
      "loss": 4.0169,
      "step": 60920
    },
    {
      "epoch": 0.1269375,
      "grad_norm": 0.903186559677124,
      "learning_rate": 0.0002888892776708902,
      "loss": 3.9846,
      "step": 60930
    },
    {
      "epoch": 0.12695833333333334,
      "grad_norm": 0.7567930817604065,
      "learning_rate": 0.000288885553806818,
      "loss": 4.1078,
      "step": 60940
    },
    {
      "epoch": 0.12697916666666667,
      "grad_norm": 0.8457116484642029,
      "learning_rate": 0.00028888182934281524,
      "loss": 3.9232,
      "step": 60950
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.7832955718040466,
      "learning_rate": 0.0002888781042788979,
      "loss": 3.9155,
      "step": 60960
    },
    {
      "epoch": 0.12702083333333333,
      "grad_norm": 0.8154991269111633,
      "learning_rate": 0.00028887437861508216,
      "loss": 3.952,
      "step": 60970
    },
    {
      "epoch": 0.12704166666666666,
      "grad_norm": 0.6976743340492249,
      "learning_rate": 0.00028887065235138406,
      "loss": 3.7856,
      "step": 60980
    },
    {
      "epoch": 0.1270625,
      "grad_norm": 0.9455711245536804,
      "learning_rate": 0.00028886692548781966,
      "loss": 3.8777,
      "step": 60990
    },
    {
      "epoch": 0.12708333333333333,
      "grad_norm": 0.763398289680481,
      "learning_rate": 0.00028886319802440524,
      "loss": 3.7209,
      "step": 61000
    },
    {
      "epoch": 0.12708333333333333,
      "eval_loss": 4.287923812866211,
      "eval_runtime": 9.1484,
      "eval_samples_per_second": 1.093,
      "eval_steps_per_second": 0.328,
      "step": 61000
    },
    {
      "epoch": 0.12710416666666666,
      "grad_norm": 1.1051127910614014,
      "learning_rate": 0.00028885946996115667,
      "loss": 4.0904,
      "step": 61010
    },
    {
      "epoch": 0.127125,
      "grad_norm": 0.9172490239143372,
      "learning_rate": 0.00028885574129809016,
      "loss": 3.8315,
      "step": 61020
    },
    {
      "epoch": 0.12714583333333335,
      "grad_norm": 0.7655858993530273,
      "learning_rate": 0.0002888520120352218,
      "loss": 3.9134,
      "step": 61030
    },
    {
      "epoch": 0.12716666666666668,
      "grad_norm": 0.8090442419052124,
      "learning_rate": 0.0002888482821725677,
      "loss": 3.8689,
      "step": 61040
    },
    {
      "epoch": 0.1271875,
      "grad_norm": 0.9529104828834534,
      "learning_rate": 0.00028884455171014406,
      "loss": 3.8465,
      "step": 61050
    },
    {
      "epoch": 0.12720833333333334,
      "grad_norm": 0.8737719058990479,
      "learning_rate": 0.00028884082064796685,
      "loss": 4.0562,
      "step": 61060
    },
    {
      "epoch": 0.12722916666666667,
      "grad_norm": 0.7594736218452454,
      "learning_rate": 0.00028883708898605226,
      "loss": 3.9399,
      "step": 61070
    },
    {
      "epoch": 0.12725,
      "grad_norm": 0.8324337005615234,
      "learning_rate": 0.00028883335672441645,
      "loss": 3.7896,
      "step": 61080
    },
    {
      "epoch": 0.12727083333333333,
      "grad_norm": 0.8630604147911072,
      "learning_rate": 0.0002888296238630754,
      "loss": 3.7303,
      "step": 61090
    },
    {
      "epoch": 0.12729166666666666,
      "grad_norm": 0.8114852905273438,
      "learning_rate": 0.0002888258904020454,
      "loss": 3.7024,
      "step": 61100
    },
    {
      "epoch": 0.1273125,
      "grad_norm": 0.8312705755233765,
      "learning_rate": 0.0002888221563413425,
      "loss": 4.0739,
      "step": 61110
    },
    {
      "epoch": 0.12733333333333333,
      "grad_norm": 0.7749174237251282,
      "learning_rate": 0.0002888184216809828,
      "loss": 3.8756,
      "step": 61120
    },
    {
      "epoch": 0.12735416666666666,
      "grad_norm": 0.7750731706619263,
      "learning_rate": 0.0002888146864209825,
      "loss": 3.8073,
      "step": 61130
    },
    {
      "epoch": 0.127375,
      "grad_norm": 0.7352844476699829,
      "learning_rate": 0.0002888109505613577,
      "loss": 3.8894,
      "step": 61140
    },
    {
      "epoch": 0.12739583333333335,
      "grad_norm": 0.7904594540596008,
      "learning_rate": 0.00028880721410212446,
      "loss": 3.9235,
      "step": 61150
    },
    {
      "epoch": 0.12741666666666668,
      "grad_norm": 0.7542045712471008,
      "learning_rate": 0.0002888034770432991,
      "loss": 3.741,
      "step": 61160
    },
    {
      "epoch": 0.1274375,
      "grad_norm": 1.505204200744629,
      "learning_rate": 0.00028879973938489767,
      "loss": 3.9496,
      "step": 61170
    },
    {
      "epoch": 0.12745833333333334,
      "grad_norm": 0.8246521949768066,
      "learning_rate": 0.0002887960011269362,
      "loss": 3.9049,
      "step": 61180
    },
    {
      "epoch": 0.12747916666666667,
      "grad_norm": 0.7489678859710693,
      "learning_rate": 0.000288792262269431,
      "loss": 3.8862,
      "step": 61190
    },
    {
      "epoch": 0.1275,
      "grad_norm": 0.9692955613136292,
      "learning_rate": 0.0002887885228123982,
      "loss": 4.2078,
      "step": 61200
    },
    {
      "epoch": 0.12752083333333333,
      "grad_norm": 0.7524981498718262,
      "learning_rate": 0.0002887847827558539,
      "loss": 3.9221,
      "step": 61210
    },
    {
      "epoch": 0.12754166666666666,
      "grad_norm": 0.7256855964660645,
      "learning_rate": 0.00028878104209981425,
      "loss": 3.9371,
      "step": 61220
    },
    {
      "epoch": 0.1275625,
      "grad_norm": 0.7405052781105042,
      "learning_rate": 0.00028877730084429543,
      "loss": 3.7976,
      "step": 61230
    },
    {
      "epoch": 0.12758333333333333,
      "grad_norm": 0.686054527759552,
      "learning_rate": 0.0002887735589893136,
      "loss": 3.9823,
      "step": 61240
    },
    {
      "epoch": 0.12760416666666666,
      "grad_norm": 0.8101739883422852,
      "learning_rate": 0.000288769816534885,
      "loss": 3.8436,
      "step": 61250
    },
    {
      "epoch": 0.127625,
      "grad_norm": 0.8506412506103516,
      "learning_rate": 0.0002887660734810256,
      "loss": 3.6383,
      "step": 61260
    },
    {
      "epoch": 0.12764583333333332,
      "grad_norm": 0.759671151638031,
      "learning_rate": 0.0002887623298277518,
      "loss": 4.1777,
      "step": 61270
    },
    {
      "epoch": 0.12766666666666668,
      "grad_norm": 0.7864165902137756,
      "learning_rate": 0.00028875858557507954,
      "loss": 3.9138,
      "step": 61280
    },
    {
      "epoch": 0.1276875,
      "grad_norm": 0.8545771241188049,
      "learning_rate": 0.0002887548407230252,
      "loss": 3.9701,
      "step": 61290
    },
    {
      "epoch": 0.12770833333333334,
      "grad_norm": 0.8817317485809326,
      "learning_rate": 0.0002887510952716049,
      "loss": 4.1159,
      "step": 61300
    },
    {
      "epoch": 0.12772916666666667,
      "grad_norm": 0.8003915548324585,
      "learning_rate": 0.00028874734922083476,
      "loss": 3.9552,
      "step": 61310
    },
    {
      "epoch": 0.12775,
      "grad_norm": 0.8924831748008728,
      "learning_rate": 0.00028874360257073094,
      "loss": 3.8781,
      "step": 61320
    },
    {
      "epoch": 0.12777083333333333,
      "grad_norm": 0.7434861063957214,
      "learning_rate": 0.0002887398553213097,
      "loss": 3.9836,
      "step": 61330
    },
    {
      "epoch": 0.12779166666666666,
      "grad_norm": 0.9810456037521362,
      "learning_rate": 0.00028873610747258725,
      "loss": 3.9439,
      "step": 61340
    },
    {
      "epoch": 0.1278125,
      "grad_norm": 0.891255795955658,
      "learning_rate": 0.0002887323590245797,
      "loss": 4.0191,
      "step": 61350
    },
    {
      "epoch": 0.12783333333333333,
      "grad_norm": 0.8339742422103882,
      "learning_rate": 0.0002887286099773033,
      "loss": 4.0626,
      "step": 61360
    },
    {
      "epoch": 0.12785416666666666,
      "grad_norm": 0.7439171075820923,
      "learning_rate": 0.00028872486033077415,
      "loss": 3.8287,
      "step": 61370
    },
    {
      "epoch": 0.127875,
      "grad_norm": 0.7904273867607117,
      "learning_rate": 0.0002887211100850086,
      "loss": 4.0135,
      "step": 61380
    },
    {
      "epoch": 0.12789583333333332,
      "grad_norm": 0.7425794005393982,
      "learning_rate": 0.0002887173592400227,
      "loss": 3.9209,
      "step": 61390
    },
    {
      "epoch": 0.12791666666666668,
      "grad_norm": 0.7106251120567322,
      "learning_rate": 0.0002887136077958327,
      "loss": 4.1245,
      "step": 61400
    },
    {
      "epoch": 0.1279375,
      "grad_norm": 0.9474292397499084,
      "learning_rate": 0.0002887098557524549,
      "loss": 4.0796,
      "step": 61410
    },
    {
      "epoch": 0.12795833333333334,
      "grad_norm": 0.7221065759658813,
      "learning_rate": 0.00028870610310990534,
      "loss": 3.9997,
      "step": 61420
    },
    {
      "epoch": 0.12797916666666667,
      "grad_norm": 0.9385656118392944,
      "learning_rate": 0.0002887023498682004,
      "loss": 3.9463,
      "step": 61430
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.7779279947280884,
      "learning_rate": 0.00028869859602735615,
      "loss": 3.8312,
      "step": 61440
    },
    {
      "epoch": 0.12802083333333333,
      "grad_norm": 0.7909709215164185,
      "learning_rate": 0.0002886948415873889,
      "loss": 3.9831,
      "step": 61450
    },
    {
      "epoch": 0.12804166666666666,
      "grad_norm": 0.9989987015724182,
      "learning_rate": 0.0002886910865483148,
      "loss": 3.9094,
      "step": 61460
    },
    {
      "epoch": 0.1280625,
      "grad_norm": 0.7156909704208374,
      "learning_rate": 0.0002886873309101502,
      "loss": 3.9008,
      "step": 61470
    },
    {
      "epoch": 0.12808333333333333,
      "grad_norm": 0.8344561457633972,
      "learning_rate": 0.0002886835746729111,
      "loss": 3.868,
      "step": 61480
    },
    {
      "epoch": 0.12810416666666666,
      "grad_norm": 1.0914440155029297,
      "learning_rate": 0.00028867981783661393,
      "loss": 3.7861,
      "step": 61490
    },
    {
      "epoch": 0.128125,
      "grad_norm": 0.8887757658958435,
      "learning_rate": 0.0002886760604012748,
      "loss": 3.9473,
      "step": 61500
    },
    {
      "epoch": 0.12814583333333332,
      "grad_norm": 0.7789912819862366,
      "learning_rate": 0.00028867230236690996,
      "loss": 3.9543,
      "step": 61510
    },
    {
      "epoch": 0.12816666666666668,
      "grad_norm": 0.7727817296981812,
      "learning_rate": 0.00028866854373353574,
      "loss": 3.8115,
      "step": 61520
    },
    {
      "epoch": 0.1281875,
      "grad_norm": 0.8751269578933716,
      "learning_rate": 0.00028866478450116824,
      "loss": 3.9353,
      "step": 61530
    },
    {
      "epoch": 0.12820833333333334,
      "grad_norm": 0.7210761904716492,
      "learning_rate": 0.0002886610246698238,
      "loss": 3.9399,
      "step": 61540
    },
    {
      "epoch": 0.12822916666666667,
      "grad_norm": 0.8175551891326904,
      "learning_rate": 0.00028865726423951856,
      "loss": 4.0759,
      "step": 61550
    },
    {
      "epoch": 0.12825,
      "grad_norm": 0.8469225764274597,
      "learning_rate": 0.00028865350321026885,
      "loss": 4.0774,
      "step": 61560
    },
    {
      "epoch": 0.12827083333333333,
      "grad_norm": 0.7504050135612488,
      "learning_rate": 0.0002886497415820909,
      "loss": 3.866,
      "step": 61570
    },
    {
      "epoch": 0.12829166666666666,
      "grad_norm": 0.8660836815834045,
      "learning_rate": 0.00028864597935500093,
      "loss": 3.9971,
      "step": 61580
    },
    {
      "epoch": 0.1283125,
      "grad_norm": 0.856931209564209,
      "learning_rate": 0.00028864221652901524,
      "loss": 4.0553,
      "step": 61590
    },
    {
      "epoch": 0.12833333333333333,
      "grad_norm": 0.8365288376808167,
      "learning_rate": 0.0002886384531041501,
      "loss": 3.9554,
      "step": 61600
    },
    {
      "epoch": 0.12835416666666666,
      "grad_norm": 1.439513087272644,
      "learning_rate": 0.00028863468908042164,
      "loss": 3.916,
      "step": 61610
    },
    {
      "epoch": 0.128375,
      "grad_norm": 0.6183876395225525,
      "learning_rate": 0.0002886309244578462,
      "loss": 3.8461,
      "step": 61620
    },
    {
      "epoch": 0.12839583333333332,
      "grad_norm": 0.8674808740615845,
      "learning_rate": 0.00028862715923644,
      "loss": 4.0145,
      "step": 61630
    },
    {
      "epoch": 0.12841666666666668,
      "grad_norm": 0.8447003364562988,
      "learning_rate": 0.0002886233934162195,
      "loss": 3.9562,
      "step": 61640
    },
    {
      "epoch": 0.1284375,
      "grad_norm": 0.7390338182449341,
      "learning_rate": 0.00028861962699720063,
      "loss": 3.9345,
      "step": 61650
    },
    {
      "epoch": 0.12845833333333334,
      "grad_norm": 0.720236599445343,
      "learning_rate": 0.00028861585997939996,
      "loss": 3.9654,
      "step": 61660
    },
    {
      "epoch": 0.12847916666666667,
      "grad_norm": 0.8288233280181885,
      "learning_rate": 0.00028861209236283363,
      "loss": 3.9892,
      "step": 61670
    },
    {
      "epoch": 0.1285,
      "grad_norm": 0.8046872615814209,
      "learning_rate": 0.0002886083241475179,
      "loss": 3.9683,
      "step": 61680
    },
    {
      "epoch": 0.12852083333333333,
      "grad_norm": 0.7820006608963013,
      "learning_rate": 0.0002886045553334691,
      "loss": 4.0049,
      "step": 61690
    },
    {
      "epoch": 0.12854166666666667,
      "grad_norm": 0.8209354281425476,
      "learning_rate": 0.00028860078592070343,
      "loss": 3.8926,
      "step": 61700
    },
    {
      "epoch": 0.1285625,
      "grad_norm": 0.7795466780662537,
      "learning_rate": 0.0002885970159092373,
      "loss": 4.0254,
      "step": 61710
    },
    {
      "epoch": 0.12858333333333333,
      "grad_norm": 0.7272736430168152,
      "learning_rate": 0.00028859324529908684,
      "loss": 3.8052,
      "step": 61720
    },
    {
      "epoch": 0.12860416666666666,
      "grad_norm": 0.7354869842529297,
      "learning_rate": 0.00028858947409026846,
      "loss": 4.0771,
      "step": 61730
    },
    {
      "epoch": 0.128625,
      "grad_norm": 0.8998373746871948,
      "learning_rate": 0.00028858570228279843,
      "loss": 4.0844,
      "step": 61740
    },
    {
      "epoch": 0.12864583333333332,
      "grad_norm": 0.8348240852355957,
      "learning_rate": 0.000288581929876693,
      "loss": 3.915,
      "step": 61750
    },
    {
      "epoch": 0.12866666666666668,
      "grad_norm": 0.8414510488510132,
      "learning_rate": 0.0002885781568719685,
      "loss": 3.8531,
      "step": 61760
    },
    {
      "epoch": 0.1286875,
      "grad_norm": 0.9240438342094421,
      "learning_rate": 0.0002885743832686412,
      "loss": 4.0675,
      "step": 61770
    },
    {
      "epoch": 0.12870833333333334,
      "grad_norm": 0.8169786334037781,
      "learning_rate": 0.00028857060906672743,
      "loss": 3.9115,
      "step": 61780
    },
    {
      "epoch": 0.12872916666666667,
      "grad_norm": 0.7972378730773926,
      "learning_rate": 0.0002885668342662434,
      "loss": 3.9547,
      "step": 61790
    },
    {
      "epoch": 0.12875,
      "grad_norm": 0.8230486512184143,
      "learning_rate": 0.00028856305886720563,
      "loss": 3.7731,
      "step": 61800
    },
    {
      "epoch": 0.12877083333333333,
      "grad_norm": 0.7521092891693115,
      "learning_rate": 0.0002885592828696302,
      "loss": 3.975,
      "step": 61810
    },
    {
      "epoch": 0.12879166666666667,
      "grad_norm": 0.7670422792434692,
      "learning_rate": 0.0002885555062735336,
      "loss": 3.9101,
      "step": 61820
    },
    {
      "epoch": 0.1288125,
      "grad_norm": 0.755452036857605,
      "learning_rate": 0.00028855172907893195,
      "loss": 3.8589,
      "step": 61830
    },
    {
      "epoch": 0.12883333333333333,
      "grad_norm": 0.7307620644569397,
      "learning_rate": 0.0002885479512858417,
      "loss": 3.9326,
      "step": 61840
    },
    {
      "epoch": 0.12885416666666666,
      "grad_norm": 0.8128100037574768,
      "learning_rate": 0.0002885441728942792,
      "loss": 3.9678,
      "step": 61850
    },
    {
      "epoch": 0.128875,
      "grad_norm": 0.8031503558158875,
      "learning_rate": 0.00028854039390426066,
      "loss": 4.2222,
      "step": 61860
    },
    {
      "epoch": 0.12889583333333332,
      "grad_norm": 0.8833644986152649,
      "learning_rate": 0.0002885366143158025,
      "loss": 3.7372,
      "step": 61870
    },
    {
      "epoch": 0.12891666666666668,
      "grad_norm": 0.7371838688850403,
      "learning_rate": 0.00028853283412892097,
      "loss": 3.8859,
      "step": 61880
    },
    {
      "epoch": 0.1289375,
      "grad_norm": 0.7790558934211731,
      "learning_rate": 0.0002885290533436324,
      "loss": 3.8017,
      "step": 61890
    },
    {
      "epoch": 0.12895833333333334,
      "grad_norm": 0.7189053297042847,
      "learning_rate": 0.00028852527195995323,
      "loss": 3.7933,
      "step": 61900
    },
    {
      "epoch": 0.12897916666666667,
      "grad_norm": 0.7481531500816345,
      "learning_rate": 0.00028852148997789964,
      "loss": 4.0027,
      "step": 61910
    },
    {
      "epoch": 0.129,
      "grad_norm": 1.0475349426269531,
      "learning_rate": 0.0002885177073974881,
      "loss": 3.812,
      "step": 61920
    },
    {
      "epoch": 0.12902083333333333,
      "grad_norm": 0.7519072890281677,
      "learning_rate": 0.00028851392421873486,
      "loss": 3.7879,
      "step": 61930
    },
    {
      "epoch": 0.12904166666666667,
      "grad_norm": 0.7583466172218323,
      "learning_rate": 0.0002885101404416563,
      "loss": 3.9607,
      "step": 61940
    },
    {
      "epoch": 0.1290625,
      "grad_norm": 0.8214551210403442,
      "learning_rate": 0.00028850635606626876,
      "loss": 3.8604,
      "step": 61950
    },
    {
      "epoch": 0.12908333333333333,
      "grad_norm": 0.8293380737304688,
      "learning_rate": 0.00028850257109258863,
      "loss": 3.7936,
      "step": 61960
    },
    {
      "epoch": 0.12910416666666666,
      "grad_norm": 0.747519314289093,
      "learning_rate": 0.00028849878552063214,
      "loss": 4.0327,
      "step": 61970
    },
    {
      "epoch": 0.129125,
      "grad_norm": 0.6921125054359436,
      "learning_rate": 0.00028849499935041577,
      "loss": 4.0007,
      "step": 61980
    },
    {
      "epoch": 0.12914583333333332,
      "grad_norm": 0.7067583203315735,
      "learning_rate": 0.0002884912125819558,
      "loss": 3.7857,
      "step": 61990
    },
    {
      "epoch": 0.12916666666666668,
      "grad_norm": 0.8964739441871643,
      "learning_rate": 0.0002884874252152686,
      "loss": 4.0016,
      "step": 62000
    },
    {
      "epoch": 0.12916666666666668,
      "eval_loss": 4.282916069030762,
      "eval_runtime": 9.4751,
      "eval_samples_per_second": 1.055,
      "eval_steps_per_second": 0.317,
      "step": 62000
    },
    {
      "epoch": 0.1291875,
      "grad_norm": 0.8778706789016724,
      "learning_rate": 0.0002884836372503706,
      "loss": 3.8133,
      "step": 62010
    },
    {
      "epoch": 0.12920833333333334,
      "grad_norm": 0.8790547251701355,
      "learning_rate": 0.0002884798486872781,
      "loss": 3.9288,
      "step": 62020
    },
    {
      "epoch": 0.12922916666666667,
      "grad_norm": 0.81348717212677,
      "learning_rate": 0.0002884760595260074,
      "loss": 3.9689,
      "step": 62030
    },
    {
      "epoch": 0.12925,
      "grad_norm": 0.8112940192222595,
      "learning_rate": 0.00028847226976657503,
      "loss": 4.0328,
      "step": 62040
    },
    {
      "epoch": 0.12927083333333333,
      "grad_norm": 0.7730276584625244,
      "learning_rate": 0.00028846847940899715,
      "loss": 3.9279,
      "step": 62050
    },
    {
      "epoch": 0.12929166666666667,
      "grad_norm": 0.8250357508659363,
      "learning_rate": 0.0002884646884532903,
      "loss": 4.0867,
      "step": 62060
    },
    {
      "epoch": 0.1293125,
      "grad_norm": 0.7722291946411133,
      "learning_rate": 0.0002884608968994708,
      "loss": 4.0469,
      "step": 62070
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 0.8789347410202026,
      "learning_rate": 0.0002884571047475551,
      "loss": 3.7915,
      "step": 62080
    },
    {
      "epoch": 0.12935416666666666,
      "grad_norm": 0.762897253036499,
      "learning_rate": 0.0002884533119975594,
      "loss": 3.9942,
      "step": 62090
    },
    {
      "epoch": 0.129375,
      "grad_norm": 0.6990190744400024,
      "learning_rate": 0.0002884495186495003,
      "loss": 4.072,
      "step": 62100
    },
    {
      "epoch": 0.12939583333333332,
      "grad_norm": 0.8516274094581604,
      "learning_rate": 0.000288445724703394,
      "loss": 3.9351,
      "step": 62110
    },
    {
      "epoch": 0.12941666666666668,
      "grad_norm": 0.7349749803543091,
      "learning_rate": 0.000288441930159257,
      "loss": 3.9751,
      "step": 62120
    },
    {
      "epoch": 0.1294375,
      "grad_norm": 0.9388835430145264,
      "learning_rate": 0.00028843813501710564,
      "loss": 3.913,
      "step": 62130
    },
    {
      "epoch": 0.12945833333333334,
      "grad_norm": 1.1529096364974976,
      "learning_rate": 0.00028843433927695637,
      "loss": 4.0162,
      "step": 62140
    },
    {
      "epoch": 0.12947916666666667,
      "grad_norm": 0.766724169254303,
      "learning_rate": 0.0002884305429388255,
      "loss": 4.043,
      "step": 62150
    },
    {
      "epoch": 0.1295,
      "grad_norm": 0.7542417049407959,
      "learning_rate": 0.0002884267460027295,
      "loss": 3.9485,
      "step": 62160
    },
    {
      "epoch": 0.12952083333333334,
      "grad_norm": 0.7561097145080566,
      "learning_rate": 0.0002884229484686848,
      "loss": 4.0722,
      "step": 62170
    },
    {
      "epoch": 0.12954166666666667,
      "grad_norm": 0.7412230968475342,
      "learning_rate": 0.0002884191503367077,
      "loss": 3.8825,
      "step": 62180
    },
    {
      "epoch": 0.1295625,
      "grad_norm": 0.8826307654380798,
      "learning_rate": 0.00028841535160681466,
      "loss": 3.7563,
      "step": 62190
    },
    {
      "epoch": 0.12958333333333333,
      "grad_norm": 0.7745897173881531,
      "learning_rate": 0.00028841155227902213,
      "loss": 3.9435,
      "step": 62200
    },
    {
      "epoch": 0.12960416666666666,
      "grad_norm": 0.8530787825584412,
      "learning_rate": 0.00028840775235334647,
      "loss": 3.9197,
      "step": 62210
    },
    {
      "epoch": 0.129625,
      "grad_norm": 0.8751004934310913,
      "learning_rate": 0.0002884039518298041,
      "loss": 3.9708,
      "step": 62220
    },
    {
      "epoch": 0.12964583333333332,
      "grad_norm": 0.7532909512519836,
      "learning_rate": 0.0002884001507084114,
      "loss": 3.9259,
      "step": 62230
    },
    {
      "epoch": 0.12966666666666668,
      "grad_norm": 0.777474582195282,
      "learning_rate": 0.0002883963489891849,
      "loss": 4.0629,
      "step": 62240
    },
    {
      "epoch": 0.1296875,
      "grad_norm": 0.7681462168693542,
      "learning_rate": 0.00028839254667214093,
      "loss": 3.9594,
      "step": 62250
    },
    {
      "epoch": 0.12970833333333334,
      "grad_norm": 0.8607701659202576,
      "learning_rate": 0.0002883887437572959,
      "loss": 3.87,
      "step": 62260
    },
    {
      "epoch": 0.12972916666666667,
      "grad_norm": 0.7959384322166443,
      "learning_rate": 0.00028838494024466634,
      "loss": 3.8236,
      "step": 62270
    },
    {
      "epoch": 0.12975,
      "grad_norm": 0.7842118740081787,
      "learning_rate": 0.00028838113613426856,
      "loss": 3.8721,
      "step": 62280
    },
    {
      "epoch": 0.12977083333333334,
      "grad_norm": 0.8481996655464172,
      "learning_rate": 0.00028837733142611906,
      "loss": 3.876,
      "step": 62290
    },
    {
      "epoch": 0.12979166666666667,
      "grad_norm": 0.644661009311676,
      "learning_rate": 0.00028837352612023426,
      "loss": 4.1,
      "step": 62300
    },
    {
      "epoch": 0.1298125,
      "grad_norm": 0.6943362355232239,
      "learning_rate": 0.00028836972021663065,
      "loss": 3.8507,
      "step": 62310
    },
    {
      "epoch": 0.12983333333333333,
      "grad_norm": 0.9008045792579651,
      "learning_rate": 0.00028836591371532455,
      "loss": 3.9651,
      "step": 62320
    },
    {
      "epoch": 0.12985416666666666,
      "grad_norm": 0.8662897348403931,
      "learning_rate": 0.0002883621066163325,
      "loss": 3.9578,
      "step": 62330
    },
    {
      "epoch": 0.129875,
      "grad_norm": 0.6796295046806335,
      "learning_rate": 0.0002883582989196709,
      "loss": 3.7961,
      "step": 62340
    },
    {
      "epoch": 0.12989583333333332,
      "grad_norm": 0.8483021259307861,
      "learning_rate": 0.00028835449062535626,
      "loss": 4.0146,
      "step": 62350
    },
    {
      "epoch": 0.12991666666666668,
      "grad_norm": 0.7612788081169128,
      "learning_rate": 0.00028835068173340496,
      "loss": 4.0132,
      "step": 62360
    },
    {
      "epoch": 0.1299375,
      "grad_norm": 0.7979394793510437,
      "learning_rate": 0.00028834687224383346,
      "loss": 4.1323,
      "step": 62370
    },
    {
      "epoch": 0.12995833333333334,
      "grad_norm": 0.747512698173523,
      "learning_rate": 0.0002883430621566582,
      "loss": 3.9521,
      "step": 62380
    },
    {
      "epoch": 0.12997916666666667,
      "grad_norm": 0.745611846446991,
      "learning_rate": 0.00028833925147189575,
      "loss": 4.0121,
      "step": 62390
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8437901735305786,
      "learning_rate": 0.0002883354401895625,
      "loss": 3.8619,
      "step": 62400
    },
    {
      "epoch": 0.13002083333333334,
      "grad_norm": 0.7550732493400574,
      "learning_rate": 0.0002883316283096748,
      "loss": 4.0032,
      "step": 62410
    },
    {
      "epoch": 0.13004166666666667,
      "grad_norm": 0.6952962279319763,
      "learning_rate": 0.0002883278158322493,
      "loss": 4.0829,
      "step": 62420
    },
    {
      "epoch": 0.1300625,
      "grad_norm": 0.9602487683296204,
      "learning_rate": 0.00028832400275730243,
      "loss": 3.7688,
      "step": 62430
    },
    {
      "epoch": 0.13008333333333333,
      "grad_norm": 0.7338064908981323,
      "learning_rate": 0.00028832018908485054,
      "loss": 3.9326,
      "step": 62440
    },
    {
      "epoch": 0.13010416666666666,
      "grad_norm": 0.7466751933097839,
      "learning_rate": 0.0002883163748149102,
      "loss": 3.9024,
      "step": 62450
    },
    {
      "epoch": 0.130125,
      "grad_norm": 0.8457353115081787,
      "learning_rate": 0.0002883125599474979,
      "loss": 3.9558,
      "step": 62460
    },
    {
      "epoch": 0.13014583333333332,
      "grad_norm": 0.7291315197944641,
      "learning_rate": 0.00028830874448263004,
      "loss": 4.1688,
      "step": 62470
    },
    {
      "epoch": 0.13016666666666668,
      "grad_norm": 0.8003969788551331,
      "learning_rate": 0.00028830492842032323,
      "loss": 4.0223,
      "step": 62480
    },
    {
      "epoch": 0.1301875,
      "grad_norm": 0.7150354385375977,
      "learning_rate": 0.00028830111176059376,
      "loss": 4.0752,
      "step": 62490
    },
    {
      "epoch": 0.13020833333333334,
      "grad_norm": 0.8575347065925598,
      "learning_rate": 0.0002882972945034583,
      "loss": 4.0096,
      "step": 62500
    },
    {
      "epoch": 0.13022916666666667,
      "grad_norm": 0.7220453023910522,
      "learning_rate": 0.00028829347664893333,
      "loss": 3.9603,
      "step": 62510
    },
    {
      "epoch": 0.13025,
      "grad_norm": 0.7439674139022827,
      "learning_rate": 0.0002882896581970352,
      "loss": 3.8226,
      "step": 62520
    },
    {
      "epoch": 0.13027083333333334,
      "grad_norm": 0.7427364587783813,
      "learning_rate": 0.0002882858391477805,
      "loss": 3.9544,
      "step": 62530
    },
    {
      "epoch": 0.13029166666666667,
      "grad_norm": 0.7531145811080933,
      "learning_rate": 0.00028828201950118566,
      "loss": 4.0111,
      "step": 62540
    },
    {
      "epoch": 0.1303125,
      "grad_norm": 0.8771909475326538,
      "learning_rate": 0.00028827819925726736,
      "loss": 4.1387,
      "step": 62550
    },
    {
      "epoch": 0.13033333333333333,
      "grad_norm": 0.8386698961257935,
      "learning_rate": 0.00028827437841604187,
      "loss": 3.8572,
      "step": 62560
    },
    {
      "epoch": 0.13035416666666666,
      "grad_norm": 0.7357126474380493,
      "learning_rate": 0.0002882705569775258,
      "loss": 3.9202,
      "step": 62570
    },
    {
      "epoch": 0.130375,
      "grad_norm": 0.7566779255867004,
      "learning_rate": 0.0002882667349417357,
      "loss": 3.9184,
      "step": 62580
    },
    {
      "epoch": 0.13039583333333332,
      "grad_norm": 0.7480756640434265,
      "learning_rate": 0.000288262912308688,
      "loss": 3.9738,
      "step": 62590
    },
    {
      "epoch": 0.13041666666666665,
      "grad_norm": 0.783254086971283,
      "learning_rate": 0.0002882590890783993,
      "loss": 3.9409,
      "step": 62600
    },
    {
      "epoch": 0.1304375,
      "grad_norm": 0.6510620713233948,
      "learning_rate": 0.00028825526525088605,
      "loss": 3.7599,
      "step": 62610
    },
    {
      "epoch": 0.13045833333333334,
      "grad_norm": 0.6974460482597351,
      "learning_rate": 0.0002882514408261647,
      "loss": 3.923,
      "step": 62620
    },
    {
      "epoch": 0.13047916666666667,
      "grad_norm": 0.9266209006309509,
      "learning_rate": 0.00028824761580425193,
      "loss": 4.0832,
      "step": 62630
    },
    {
      "epoch": 0.1305,
      "grad_norm": 1.0732451677322388,
      "learning_rate": 0.00028824379018516414,
      "loss": 4.0513,
      "step": 62640
    },
    {
      "epoch": 0.13052083333333334,
      "grad_norm": 0.7637964487075806,
      "learning_rate": 0.0002882399639689179,
      "loss": 3.8234,
      "step": 62650
    },
    {
      "epoch": 0.13054166666666667,
      "grad_norm": 0.834932804107666,
      "learning_rate": 0.00028823613715552975,
      "loss": 3.9691,
      "step": 62660
    },
    {
      "epoch": 0.1305625,
      "grad_norm": 0.8033998012542725,
      "learning_rate": 0.00028823230974501623,
      "loss": 4.0272,
      "step": 62670
    },
    {
      "epoch": 0.13058333333333333,
      "grad_norm": 0.7463205456733704,
      "learning_rate": 0.0002882284817373938,
      "loss": 4.0271,
      "step": 62680
    },
    {
      "epoch": 0.13060416666666666,
      "grad_norm": 0.740690290927887,
      "learning_rate": 0.0002882246531326791,
      "loss": 3.993,
      "step": 62690
    },
    {
      "epoch": 0.130625,
      "grad_norm": 1.2170240879058838,
      "learning_rate": 0.0002882208239308886,
      "loss": 4.0438,
      "step": 62700
    },
    {
      "epoch": 0.13064583333333332,
      "grad_norm": 0.7671335935592651,
      "learning_rate": 0.0002882169941320388,
      "loss": 3.9059,
      "step": 62710
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 0.8209800720214844,
      "learning_rate": 0.0002882131637361463,
      "loss": 4.0732,
      "step": 62720
    },
    {
      "epoch": 0.1306875,
      "grad_norm": 0.8136182427406311,
      "learning_rate": 0.00028820933274322766,
      "loss": 3.8672,
      "step": 62730
    },
    {
      "epoch": 0.13070833333333334,
      "grad_norm": 0.6845099925994873,
      "learning_rate": 0.00028820550115329945,
      "loss": 4.0427,
      "step": 62740
    },
    {
      "epoch": 0.13072916666666667,
      "grad_norm": 0.9123971462249756,
      "learning_rate": 0.0002882016689663781,
      "loss": 4.0335,
      "step": 62750
    },
    {
      "epoch": 0.13075,
      "grad_norm": 0.7392938137054443,
      "learning_rate": 0.0002881978361824803,
      "loss": 3.7903,
      "step": 62760
    },
    {
      "epoch": 0.13077083333333334,
      "grad_norm": 0.7548374533653259,
      "learning_rate": 0.00028819400280162257,
      "loss": 4.0549,
      "step": 62770
    },
    {
      "epoch": 0.13079166666666667,
      "grad_norm": 0.728378415107727,
      "learning_rate": 0.0002881901688238214,
      "loss": 4.0489,
      "step": 62780
    },
    {
      "epoch": 0.1308125,
      "grad_norm": 0.7955945730209351,
      "learning_rate": 0.0002881863342490934,
      "loss": 3.9147,
      "step": 62790
    },
    {
      "epoch": 0.13083333333333333,
      "grad_norm": 0.8530564904212952,
      "learning_rate": 0.0002881824990774552,
      "loss": 4.134,
      "step": 62800
    },
    {
      "epoch": 0.13085416666666666,
      "grad_norm": 0.7143916487693787,
      "learning_rate": 0.00028817866330892324,
      "loss": 4.0408,
      "step": 62810
    },
    {
      "epoch": 0.130875,
      "grad_norm": 0.7051281332969666,
      "learning_rate": 0.0002881748269435142,
      "loss": 4.13,
      "step": 62820
    },
    {
      "epoch": 0.13089583333333332,
      "grad_norm": 0.7118076682090759,
      "learning_rate": 0.0002881709899812445,
      "loss": 4.0596,
      "step": 62830
    },
    {
      "epoch": 0.13091666666666665,
      "grad_norm": 0.7802773118019104,
      "learning_rate": 0.0002881671524221309,
      "loss": 3.9129,
      "step": 62840
    },
    {
      "epoch": 0.1309375,
      "grad_norm": 1.1310057640075684,
      "learning_rate": 0.00028816331426618987,
      "loss": 3.8743,
      "step": 62850
    },
    {
      "epoch": 0.13095833333333334,
      "grad_norm": 0.8013532161712646,
      "learning_rate": 0.000288159475513438,
      "loss": 3.9545,
      "step": 62860
    },
    {
      "epoch": 0.13097916666666667,
      "grad_norm": 0.7863612771034241,
      "learning_rate": 0.00028815563616389186,
      "loss": 3.9803,
      "step": 62870
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.8206605315208435,
      "learning_rate": 0.0002881517962175681,
      "loss": 3.843,
      "step": 62880
    },
    {
      "epoch": 0.13102083333333334,
      "grad_norm": 0.9248420596122742,
      "learning_rate": 0.0002881479556744833,
      "loss": 4.1139,
      "step": 62890
    },
    {
      "epoch": 0.13104166666666667,
      "grad_norm": 0.7481743693351746,
      "learning_rate": 0.00028814411453465395,
      "loss": 3.8994,
      "step": 62900
    },
    {
      "epoch": 0.1310625,
      "grad_norm": 0.7378188967704773,
      "learning_rate": 0.0002881402727980967,
      "loss": 3.9656,
      "step": 62910
    },
    {
      "epoch": 0.13108333333333333,
      "grad_norm": 0.7494726777076721,
      "learning_rate": 0.00028813643046482826,
      "loss": 4.0484,
      "step": 62920
    },
    {
      "epoch": 0.13110416666666666,
      "grad_norm": 0.8632800579071045,
      "learning_rate": 0.00028813258753486497,
      "loss": 3.8325,
      "step": 62930
    },
    {
      "epoch": 0.131125,
      "grad_norm": 0.7811598777770996,
      "learning_rate": 0.0002881287440082237,
      "loss": 3.9632,
      "step": 62940
    },
    {
      "epoch": 0.13114583333333332,
      "grad_norm": 0.7434283494949341,
      "learning_rate": 0.0002881248998849209,
      "loss": 3.871,
      "step": 62950
    },
    {
      "epoch": 0.13116666666666665,
      "grad_norm": 0.9088473320007324,
      "learning_rate": 0.00028812105516497314,
      "loss": 4.0597,
      "step": 62960
    },
    {
      "epoch": 0.1311875,
      "grad_norm": 0.7751245498657227,
      "learning_rate": 0.00028811720984839713,
      "loss": 4.0558,
      "step": 62970
    },
    {
      "epoch": 0.13120833333333334,
      "grad_norm": 0.8244699239730835,
      "learning_rate": 0.0002881133639352095,
      "loss": 3.9305,
      "step": 62980
    },
    {
      "epoch": 0.13122916666666667,
      "grad_norm": 0.8873583674430847,
      "learning_rate": 0.0002881095174254267,
      "loss": 4.0892,
      "step": 62990
    },
    {
      "epoch": 0.13125,
      "grad_norm": 0.7441539764404297,
      "learning_rate": 0.00028810567031906553,
      "loss": 3.9925,
      "step": 63000
    },
    {
      "epoch": 0.13125,
      "eval_loss": 4.299635410308838,
      "eval_runtime": 12.1901,
      "eval_samples_per_second": 0.82,
      "eval_steps_per_second": 0.246,
      "step": 63000
    },
    {
      "epoch": 0.13127083333333334,
      "grad_norm": 0.7507321238517761,
      "learning_rate": 0.0002881018226161425,
      "loss": 3.8987,
      "step": 63010
    },
    {
      "epoch": 0.13129166666666667,
      "grad_norm": 0.8207835555076599,
      "learning_rate": 0.0002880979743166743,
      "loss": 3.8795,
      "step": 63020
    },
    {
      "epoch": 0.1313125,
      "grad_norm": 0.7502248287200928,
      "learning_rate": 0.00028809412542067745,
      "loss": 4.2668,
      "step": 63030
    },
    {
      "epoch": 0.13133333333333333,
      "grad_norm": 0.8643938302993774,
      "learning_rate": 0.0002880902759281687,
      "loss": 3.9422,
      "step": 63040
    },
    {
      "epoch": 0.13135416666666666,
      "grad_norm": 0.8056674599647522,
      "learning_rate": 0.0002880864258391646,
      "loss": 4.0412,
      "step": 63050
    },
    {
      "epoch": 0.131375,
      "grad_norm": 0.6892151236534119,
      "learning_rate": 0.0002880825751536818,
      "loss": 4.0951,
      "step": 63060
    },
    {
      "epoch": 0.13139583333333332,
      "grad_norm": 0.7482025027275085,
      "learning_rate": 0.0002880787238717369,
      "loss": 3.9598,
      "step": 63070
    },
    {
      "epoch": 0.13141666666666665,
      "grad_norm": 0.9250709414482117,
      "learning_rate": 0.0002880748719933466,
      "loss": 4.0086,
      "step": 63080
    },
    {
      "epoch": 0.1314375,
      "grad_norm": 0.7416247129440308,
      "learning_rate": 0.0002880710195185275,
      "loss": 3.9801,
      "step": 63090
    },
    {
      "epoch": 0.13145833333333334,
      "grad_norm": 0.7072294354438782,
      "learning_rate": 0.0002880671664472962,
      "loss": 3.9088,
      "step": 63100
    },
    {
      "epoch": 0.13147916666666667,
      "grad_norm": 0.9196757674217224,
      "learning_rate": 0.0002880633127796695,
      "loss": 3.9873,
      "step": 63110
    },
    {
      "epoch": 0.1315,
      "grad_norm": 0.8081299662590027,
      "learning_rate": 0.0002880594585156639,
      "loss": 3.827,
      "step": 63120
    },
    {
      "epoch": 0.13152083333333334,
      "grad_norm": 0.848120927810669,
      "learning_rate": 0.000288055603655296,
      "loss": 3.9054,
      "step": 63130
    },
    {
      "epoch": 0.13154166666666667,
      "grad_norm": 0.7348611950874329,
      "learning_rate": 0.0002880517481985826,
      "loss": 4.0324,
      "step": 63140
    },
    {
      "epoch": 0.1315625,
      "grad_norm": 0.8911242485046387,
      "learning_rate": 0.0002880478921455403,
      "loss": 4.0886,
      "step": 63150
    },
    {
      "epoch": 0.13158333333333333,
      "grad_norm": 0.6909054517745972,
      "learning_rate": 0.00028804403549618574,
      "loss": 3.9788,
      "step": 63160
    },
    {
      "epoch": 0.13160416666666666,
      "grad_norm": 0.6859028339385986,
      "learning_rate": 0.00028804017825053563,
      "loss": 3.9725,
      "step": 63170
    },
    {
      "epoch": 0.131625,
      "grad_norm": 0.8251357078552246,
      "learning_rate": 0.0002880363204086065,
      "loss": 4.0571,
      "step": 63180
    },
    {
      "epoch": 0.13164583333333332,
      "grad_norm": 0.8115269541740417,
      "learning_rate": 0.0002880324619704152,
      "loss": 3.8919,
      "step": 63190
    },
    {
      "epoch": 0.13166666666666665,
      "grad_norm": 1.0634918212890625,
      "learning_rate": 0.00028802860293597823,
      "loss": 3.9447,
      "step": 63200
    },
    {
      "epoch": 0.1316875,
      "grad_norm": 0.7599939107894897,
      "learning_rate": 0.0002880247433053124,
      "loss": 4.1629,
      "step": 63210
    },
    {
      "epoch": 0.13170833333333334,
      "grad_norm": 0.9843525290489197,
      "learning_rate": 0.0002880208830784342,
      "loss": 4.0152,
      "step": 63220
    },
    {
      "epoch": 0.13172916666666667,
      "grad_norm": 0.7430915832519531,
      "learning_rate": 0.00028801702225536054,
      "loss": 3.8951,
      "step": 63230
    },
    {
      "epoch": 0.13175,
      "grad_norm": 0.7486289739608765,
      "learning_rate": 0.00028801316083610794,
      "loss": 3.9758,
      "step": 63240
    },
    {
      "epoch": 0.13177083333333334,
      "grad_norm": 0.692726731300354,
      "learning_rate": 0.00028800929882069306,
      "loss": 3.9843,
      "step": 63250
    },
    {
      "epoch": 0.13179166666666667,
      "grad_norm": 0.794449508190155,
      "learning_rate": 0.0002880054362091327,
      "loss": 4.0592,
      "step": 63260
    },
    {
      "epoch": 0.1318125,
      "grad_norm": 0.8368471264839172,
      "learning_rate": 0.00028800157300144346,
      "loss": 4.2132,
      "step": 63270
    },
    {
      "epoch": 0.13183333333333333,
      "grad_norm": 0.9229752421379089,
      "learning_rate": 0.00028799770919764203,
      "loss": 4.0264,
      "step": 63280
    },
    {
      "epoch": 0.13185416666666666,
      "grad_norm": 0.754412055015564,
      "learning_rate": 0.00028799384479774516,
      "loss": 3.9276,
      "step": 63290
    },
    {
      "epoch": 0.131875,
      "grad_norm": 0.7216253280639648,
      "learning_rate": 0.0002879899798017695,
      "loss": 3.9071,
      "step": 63300
    },
    {
      "epoch": 0.13189583333333332,
      "grad_norm": 0.7412343621253967,
      "learning_rate": 0.0002879861142097317,
      "loss": 3.9966,
      "step": 63310
    },
    {
      "epoch": 0.13191666666666665,
      "grad_norm": 0.7936533093452454,
      "learning_rate": 0.0002879822480216485,
      "loss": 3.9159,
      "step": 63320
    },
    {
      "epoch": 0.1319375,
      "grad_norm": 0.7791702747344971,
      "learning_rate": 0.00028797838123753664,
      "loss": 4.0723,
      "step": 63330
    },
    {
      "epoch": 0.13195833333333334,
      "grad_norm": 0.832996666431427,
      "learning_rate": 0.0002879745138574128,
      "loss": 4.0689,
      "step": 63340
    },
    {
      "epoch": 0.13197916666666668,
      "grad_norm": 0.7833579182624817,
      "learning_rate": 0.0002879706458812937,
      "loss": 4.0066,
      "step": 63350
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.8657096028327942,
      "learning_rate": 0.000287966777309196,
      "loss": 4.0955,
      "step": 63360
    },
    {
      "epoch": 0.13202083333333334,
      "grad_norm": 0.7680641412734985,
      "learning_rate": 0.00028796290814113635,
      "loss": 3.918,
      "step": 63370
    },
    {
      "epoch": 0.13204166666666667,
      "grad_norm": 0.8366602063179016,
      "learning_rate": 0.0002879590383771316,
      "loss": 4.0532,
      "step": 63380
    },
    {
      "epoch": 0.1320625,
      "grad_norm": 0.8713975548744202,
      "learning_rate": 0.0002879551680171984,
      "loss": 3.9457,
      "step": 63390
    },
    {
      "epoch": 0.13208333333333333,
      "grad_norm": 0.7919896841049194,
      "learning_rate": 0.00028795129706135354,
      "loss": 3.8972,
      "step": 63400
    },
    {
      "epoch": 0.13210416666666666,
      "grad_norm": 0.8356661796569824,
      "learning_rate": 0.00028794742550961364,
      "loss": 3.8886,
      "step": 63410
    },
    {
      "epoch": 0.132125,
      "grad_norm": 0.7996866106987,
      "learning_rate": 0.00028794355336199547,
      "loss": 3.897,
      "step": 63420
    },
    {
      "epoch": 0.13214583333333332,
      "grad_norm": 1.0527307987213135,
      "learning_rate": 0.0002879396806185158,
      "loss": 3.9848,
      "step": 63430
    },
    {
      "epoch": 0.13216666666666665,
      "grad_norm": 0.8036921620368958,
      "learning_rate": 0.0002879358072791912,
      "loss": 3.8884,
      "step": 63440
    },
    {
      "epoch": 0.1321875,
      "grad_norm": 0.974702000617981,
      "learning_rate": 0.0002879319333440386,
      "loss": 4.0009,
      "step": 63450
    },
    {
      "epoch": 0.13220833333333334,
      "grad_norm": 0.7566272020339966,
      "learning_rate": 0.00028792805881307465,
      "loss": 4.051,
      "step": 63460
    },
    {
      "epoch": 0.13222916666666668,
      "grad_norm": 0.7824696898460388,
      "learning_rate": 0.000287924183686316,
      "loss": 3.9255,
      "step": 63470
    },
    {
      "epoch": 0.13225,
      "grad_norm": 0.9124252796173096,
      "learning_rate": 0.0002879203079637795,
      "loss": 4.013,
      "step": 63480
    },
    {
      "epoch": 0.13227083333333334,
      "grad_norm": 0.7775617837905884,
      "learning_rate": 0.00028791643164548193,
      "loss": 3.888,
      "step": 63490
    },
    {
      "epoch": 0.13229166666666667,
      "grad_norm": 0.7518961429595947,
      "learning_rate": 0.0002879125547314399,
      "loss": 3.7827,
      "step": 63500
    },
    {
      "epoch": 0.1323125,
      "grad_norm": 0.9457390904426575,
      "learning_rate": 0.00028790867722167026,
      "loss": 4.0229,
      "step": 63510
    },
    {
      "epoch": 0.13233333333333333,
      "grad_norm": 0.8072744011878967,
      "learning_rate": 0.0002879047991161897,
      "loss": 3.9434,
      "step": 63520
    },
    {
      "epoch": 0.13235416666666666,
      "grad_norm": 0.9495784044265747,
      "learning_rate": 0.000287900920415015,
      "loss": 3.87,
      "step": 63530
    },
    {
      "epoch": 0.132375,
      "grad_norm": 0.7524573802947998,
      "learning_rate": 0.0002878970411181629,
      "loss": 4.0238,
      "step": 63540
    },
    {
      "epoch": 0.13239583333333332,
      "grad_norm": 0.8163084387779236,
      "learning_rate": 0.0002878931612256502,
      "loss": 3.7865,
      "step": 63550
    },
    {
      "epoch": 0.13241666666666665,
      "grad_norm": 0.8464440703392029,
      "learning_rate": 0.0002878892807374936,
      "loss": 3.9083,
      "step": 63560
    },
    {
      "epoch": 0.1324375,
      "grad_norm": 0.8992184400558472,
      "learning_rate": 0.00028788539965370985,
      "loss": 3.9998,
      "step": 63570
    },
    {
      "epoch": 0.13245833333333334,
      "grad_norm": 0.7533801198005676,
      "learning_rate": 0.0002878815179743158,
      "loss": 4.1624,
      "step": 63580
    },
    {
      "epoch": 0.13247916666666668,
      "grad_norm": 0.7173408269882202,
      "learning_rate": 0.00028787763569932816,
      "loss": 3.9357,
      "step": 63590
    },
    {
      "epoch": 0.1325,
      "grad_norm": 1.085715889930725,
      "learning_rate": 0.00028787375282876375,
      "loss": 4.0159,
      "step": 63600
    },
    {
      "epoch": 0.13252083333333334,
      "grad_norm": 0.7759045362472534,
      "learning_rate": 0.00028786986936263923,
      "loss": 3.7582,
      "step": 63610
    },
    {
      "epoch": 0.13254166666666667,
      "grad_norm": 0.7972061634063721,
      "learning_rate": 0.0002878659853009715,
      "loss": 3.7281,
      "step": 63620
    },
    {
      "epoch": 0.1325625,
      "grad_norm": 0.7560607194900513,
      "learning_rate": 0.0002878621006437772,
      "loss": 4.0303,
      "step": 63630
    },
    {
      "epoch": 0.13258333333333333,
      "grad_norm": 0.787109911441803,
      "learning_rate": 0.0002878582153910733,
      "loss": 3.8756,
      "step": 63640
    },
    {
      "epoch": 0.13260416666666666,
      "grad_norm": 0.6959081888198853,
      "learning_rate": 0.0002878543295428765,
      "loss": 4.0483,
      "step": 63650
    },
    {
      "epoch": 0.132625,
      "grad_norm": 0.9095045328140259,
      "learning_rate": 0.00028785044309920346,
      "loss": 4.0645,
      "step": 63660
    },
    {
      "epoch": 0.13264583333333332,
      "grad_norm": 0.746985912322998,
      "learning_rate": 0.00028784655606007106,
      "loss": 3.9311,
      "step": 63670
    },
    {
      "epoch": 0.13266666666666665,
      "grad_norm": 0.7584629058837891,
      "learning_rate": 0.0002878426684254962,
      "loss": 3.9455,
      "step": 63680
    },
    {
      "epoch": 0.1326875,
      "grad_norm": 0.7956358790397644,
      "learning_rate": 0.0002878387801954955,
      "loss": 3.7763,
      "step": 63690
    },
    {
      "epoch": 0.13270833333333334,
      "grad_norm": 0.7757930755615234,
      "learning_rate": 0.00028783489137008587,
      "loss": 4.0849,
      "step": 63700
    },
    {
      "epoch": 0.13272916666666668,
      "grad_norm": 0.7097927331924438,
      "learning_rate": 0.00028783100194928405,
      "loss": 4.011,
      "step": 63710
    },
    {
      "epoch": 0.13275,
      "grad_norm": 0.7733318209648132,
      "learning_rate": 0.0002878271119331068,
      "loss": 3.938,
      "step": 63720
    },
    {
      "epoch": 0.13277083333333334,
      "grad_norm": 0.8528494834899902,
      "learning_rate": 0.0002878232213215711,
      "loss": 3.7822,
      "step": 63730
    },
    {
      "epoch": 0.13279166666666667,
      "grad_norm": 0.8102899789810181,
      "learning_rate": 0.00028781933011469353,
      "loss": 4.2791,
      "step": 63740
    },
    {
      "epoch": 0.1328125,
      "grad_norm": 0.833845317363739,
      "learning_rate": 0.00028781543831249114,
      "loss": 3.9113,
      "step": 63750
    },
    {
      "epoch": 0.13283333333333333,
      "grad_norm": 0.7765309810638428,
      "learning_rate": 0.0002878115459149805,
      "loss": 3.8415,
      "step": 63760
    },
    {
      "epoch": 0.13285416666666666,
      "grad_norm": 0.8012934327125549,
      "learning_rate": 0.00028780765292217857,
      "loss": 4.0308,
      "step": 63770
    },
    {
      "epoch": 0.132875,
      "grad_norm": 0.9136009216308594,
      "learning_rate": 0.0002878037593341021,
      "loss": 4.0315,
      "step": 63780
    },
    {
      "epoch": 0.13289583333333332,
      "grad_norm": 0.7849080562591553,
      "learning_rate": 0.00028779986515076796,
      "loss": 3.9886,
      "step": 63790
    },
    {
      "epoch": 0.13291666666666666,
      "grad_norm": 0.7386612296104431,
      "learning_rate": 0.0002877959703721929,
      "loss": 3.7774,
      "step": 63800
    },
    {
      "epoch": 0.1329375,
      "grad_norm": 0.8106445670127869,
      "learning_rate": 0.0002877920749983938,
      "loss": 4.0935,
      "step": 63810
    },
    {
      "epoch": 0.13295833333333335,
      "grad_norm": 0.9517417550086975,
      "learning_rate": 0.00028778817902938754,
      "loss": 3.8728,
      "step": 63820
    },
    {
      "epoch": 0.13297916666666668,
      "grad_norm": 0.8233712911605835,
      "learning_rate": 0.00028778428246519085,
      "loss": 4.0447,
      "step": 63830
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.8694912195205688,
      "learning_rate": 0.00028778038530582063,
      "loss": 4.1755,
      "step": 63840
    },
    {
      "epoch": 0.13302083333333334,
      "grad_norm": 0.8753427267074585,
      "learning_rate": 0.0002877764875512936,
      "loss": 3.8714,
      "step": 63850
    },
    {
      "epoch": 0.13304166666666667,
      "grad_norm": 0.8436046242713928,
      "learning_rate": 0.0002877725892016268,
      "loss": 3.8371,
      "step": 63860
    },
    {
      "epoch": 0.1330625,
      "grad_norm": 0.8479264378547668,
      "learning_rate": 0.00028776869025683686,
      "loss": 3.9006,
      "step": 63870
    },
    {
      "epoch": 0.13308333333333333,
      "grad_norm": 0.734691321849823,
      "learning_rate": 0.00028776479071694074,
      "loss": 3.8596,
      "step": 63880
    },
    {
      "epoch": 0.13310416666666666,
      "grad_norm": 0.7245784401893616,
      "learning_rate": 0.00028776089058195526,
      "loss": 3.9782,
      "step": 63890
    },
    {
      "epoch": 0.133125,
      "grad_norm": 0.8638946413993835,
      "learning_rate": 0.00028775698985189724,
      "loss": 3.9058,
      "step": 63900
    },
    {
      "epoch": 0.13314583333333332,
      "grad_norm": 1.0023601055145264,
      "learning_rate": 0.0002877530885267836,
      "loss": 3.9295,
      "step": 63910
    },
    {
      "epoch": 0.13316666666666666,
      "grad_norm": 0.8663880825042725,
      "learning_rate": 0.00028774918660663104,
      "loss": 3.7934,
      "step": 63920
    },
    {
      "epoch": 0.1331875,
      "grad_norm": 0.8692013621330261,
      "learning_rate": 0.00028774528409145663,
      "loss": 3.8468,
      "step": 63930
    },
    {
      "epoch": 0.13320833333333335,
      "grad_norm": 0.8036627769470215,
      "learning_rate": 0.00028774138098127707,
      "loss": 4.0856,
      "step": 63940
    },
    {
      "epoch": 0.13322916666666668,
      "grad_norm": 0.8842105865478516,
      "learning_rate": 0.0002877374772761093,
      "loss": 3.9576,
      "step": 63950
    },
    {
      "epoch": 0.13325,
      "grad_norm": 0.7062469124794006,
      "learning_rate": 0.0002877335729759701,
      "loss": 3.9933,
      "step": 63960
    },
    {
      "epoch": 0.13327083333333334,
      "grad_norm": 0.7921723127365112,
      "learning_rate": 0.0002877296680808764,
      "loss": 3.7534,
      "step": 63970
    },
    {
      "epoch": 0.13329166666666667,
      "grad_norm": 0.7186169624328613,
      "learning_rate": 0.00028772576259084503,
      "loss": 3.9798,
      "step": 63980
    },
    {
      "epoch": 0.1333125,
      "grad_norm": 0.8491309881210327,
      "learning_rate": 0.0002877218565058929,
      "loss": 4.0104,
      "step": 63990
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.7929764986038208,
      "learning_rate": 0.0002877179498260369,
      "loss": 3.966,
      "step": 64000
    },
    {
      "epoch": 0.13333333333333333,
      "eval_loss": 4.283611297607422,
      "eval_runtime": 10.4844,
      "eval_samples_per_second": 0.954,
      "eval_steps_per_second": 0.286,
      "step": 64000
    },
    {
      "epoch": 0.13335416666666666,
      "grad_norm": 0.8524074554443359,
      "learning_rate": 0.0002877140425512938,
      "loss": 4.0084,
      "step": 64010
    },
    {
      "epoch": 0.133375,
      "grad_norm": 0.7757831811904907,
      "learning_rate": 0.0002877101346816806,
      "loss": 3.9578,
      "step": 64020
    },
    {
      "epoch": 0.13339583333333332,
      "grad_norm": 0.7558451294898987,
      "learning_rate": 0.0002877062262172141,
      "loss": 3.9074,
      "step": 64030
    },
    {
      "epoch": 0.13341666666666666,
      "grad_norm": 0.7895762920379639,
      "learning_rate": 0.00028770231715791124,
      "loss": 4.1213,
      "step": 64040
    },
    {
      "epoch": 0.1334375,
      "grad_norm": 0.9421509504318237,
      "learning_rate": 0.0002876984075037889,
      "loss": 3.8427,
      "step": 64050
    },
    {
      "epoch": 0.13345833333333335,
      "grad_norm": 0.877099335193634,
      "learning_rate": 0.0002876944972548638,
      "loss": 3.8763,
      "step": 64060
    },
    {
      "epoch": 0.13347916666666668,
      "grad_norm": 0.774849534034729,
      "learning_rate": 0.00028769058641115315,
      "loss": 4.0344,
      "step": 64070
    },
    {
      "epoch": 0.1335,
      "grad_norm": 0.7340850830078125,
      "learning_rate": 0.0002876866749726736,
      "loss": 3.9634,
      "step": 64080
    },
    {
      "epoch": 0.13352083333333334,
      "grad_norm": 0.8784515261650085,
      "learning_rate": 0.0002876827629394421,
      "loss": 4.066,
      "step": 64090
    },
    {
      "epoch": 0.13354166666666667,
      "grad_norm": 0.7806510329246521,
      "learning_rate": 0.00028767885031147556,
      "loss": 4.1499,
      "step": 64100
    },
    {
      "epoch": 0.1335625,
      "grad_norm": 0.8111420273780823,
      "learning_rate": 0.0002876749370887909,
      "loss": 3.9546,
      "step": 64110
    },
    {
      "epoch": 0.13358333333333333,
      "grad_norm": 0.7310206890106201,
      "learning_rate": 0.000287671023271405,
      "loss": 4.044,
      "step": 64120
    },
    {
      "epoch": 0.13360416666666666,
      "grad_norm": 0.7263129353523254,
      "learning_rate": 0.0002876671088593348,
      "loss": 3.9149,
      "step": 64130
    },
    {
      "epoch": 0.133625,
      "grad_norm": 0.7650883793830872,
      "learning_rate": 0.00028766319385259713,
      "loss": 4.0736,
      "step": 64140
    },
    {
      "epoch": 0.13364583333333332,
      "grad_norm": 0.654585599899292,
      "learning_rate": 0.000287659278251209,
      "loss": 3.9479,
      "step": 64150
    },
    {
      "epoch": 0.13366666666666666,
      "grad_norm": 0.7454494833946228,
      "learning_rate": 0.00028765536205518726,
      "loss": 3.9117,
      "step": 64160
    },
    {
      "epoch": 0.1336875,
      "grad_norm": 0.7817630767822266,
      "learning_rate": 0.00028765144526454885,
      "loss": 3.8748,
      "step": 64170
    },
    {
      "epoch": 0.13370833333333335,
      "grad_norm": 0.7823349237442017,
      "learning_rate": 0.00028764752787931066,
      "loss": 3.9524,
      "step": 64180
    },
    {
      "epoch": 0.13372916666666668,
      "grad_norm": 0.7817695736885071,
      "learning_rate": 0.00028764360989948966,
      "loss": 4.0786,
      "step": 64190
    },
    {
      "epoch": 0.13375,
      "grad_norm": 0.8429250717163086,
      "learning_rate": 0.00028763969132510276,
      "loss": 4.0664,
      "step": 64200
    },
    {
      "epoch": 0.13377083333333334,
      "grad_norm": 0.7479737997055054,
      "learning_rate": 0.00028763577215616687,
      "loss": 3.9719,
      "step": 64210
    },
    {
      "epoch": 0.13379166666666667,
      "grad_norm": 0.7489782571792603,
      "learning_rate": 0.00028763185239269885,
      "loss": 3.8603,
      "step": 64220
    },
    {
      "epoch": 0.1338125,
      "grad_norm": 0.7412326335906982,
      "learning_rate": 0.0002876279320347158,
      "loss": 3.881,
      "step": 64230
    },
    {
      "epoch": 0.13383333333333333,
      "grad_norm": 0.7301384210586548,
      "learning_rate": 0.0002876240110822345,
      "loss": 3.9955,
      "step": 64240
    },
    {
      "epoch": 0.13385416666666666,
      "grad_norm": 0.9357399940490723,
      "learning_rate": 0.000287620089535272,
      "loss": 3.606,
      "step": 64250
    },
    {
      "epoch": 0.133875,
      "grad_norm": 0.7204338908195496,
      "learning_rate": 0.0002876161673938452,
      "loss": 3.9144,
      "step": 64260
    },
    {
      "epoch": 0.13389583333333333,
      "grad_norm": 0.7620922327041626,
      "learning_rate": 0.00028761224465797094,
      "loss": 3.9955,
      "step": 64270
    },
    {
      "epoch": 0.13391666666666666,
      "grad_norm": 0.7850940823554993,
      "learning_rate": 0.0002876083213276663,
      "loss": 3.9677,
      "step": 64280
    },
    {
      "epoch": 0.1339375,
      "grad_norm": 0.844295084476471,
      "learning_rate": 0.0002876043974029482,
      "loss": 3.8566,
      "step": 64290
    },
    {
      "epoch": 0.13395833333333335,
      "grad_norm": 0.7199763655662537,
      "learning_rate": 0.00028760047288383354,
      "loss": 3.9979,
      "step": 64300
    },
    {
      "epoch": 0.13397916666666668,
      "grad_norm": 0.7989261150360107,
      "learning_rate": 0.00028759654777033933,
      "loss": 3.9517,
      "step": 64310
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.8251125812530518,
      "learning_rate": 0.0002875926220624825,
      "loss": 4.0783,
      "step": 64320
    },
    {
      "epoch": 0.13402083333333334,
      "grad_norm": 0.7119641900062561,
      "learning_rate": 0.00028758869576028,
      "loss": 4.0871,
      "step": 64330
    },
    {
      "epoch": 0.13404166666666667,
      "grad_norm": 0.8363273739814758,
      "learning_rate": 0.0002875847688637488,
      "loss": 3.8923,
      "step": 64340
    },
    {
      "epoch": 0.1340625,
      "grad_norm": 1.1368399858474731,
      "learning_rate": 0.0002875808413729058,
      "loss": 4.0604,
      "step": 64350
    },
    {
      "epoch": 0.13408333333333333,
      "grad_norm": 0.8615038990974426,
      "learning_rate": 0.00028757691328776806,
      "loss": 3.8282,
      "step": 64360
    },
    {
      "epoch": 0.13410416666666666,
      "grad_norm": 0.7559849619865417,
      "learning_rate": 0.0002875729846083525,
      "loss": 3.858,
      "step": 64370
    },
    {
      "epoch": 0.134125,
      "grad_norm": 0.7788131237030029,
      "learning_rate": 0.00028756905533467613,
      "loss": 3.8132,
      "step": 64380
    },
    {
      "epoch": 0.13414583333333333,
      "grad_norm": 0.9932048916816711,
      "learning_rate": 0.0002875651254667559,
      "loss": 3.9469,
      "step": 64390
    },
    {
      "epoch": 0.13416666666666666,
      "grad_norm": 1.3449825048446655,
      "learning_rate": 0.0002875611950046088,
      "loss": 3.9473,
      "step": 64400
    },
    {
      "epoch": 0.1341875,
      "grad_norm": 0.6532223224639893,
      "learning_rate": 0.00028755726394825174,
      "loss": 3.866,
      "step": 64410
    },
    {
      "epoch": 0.13420833333333335,
      "grad_norm": 0.7533696889877319,
      "learning_rate": 0.00028755333229770174,
      "loss": 3.8402,
      "step": 64420
    },
    {
      "epoch": 0.13422916666666668,
      "grad_norm": 0.8253911137580872,
      "learning_rate": 0.00028754940005297583,
      "loss": 3.8173,
      "step": 64430
    },
    {
      "epoch": 0.13425,
      "grad_norm": 0.8294810652732849,
      "learning_rate": 0.00028754546721409093,
      "loss": 3.9266,
      "step": 64440
    },
    {
      "epoch": 0.13427083333333334,
      "grad_norm": 0.713112473487854,
      "learning_rate": 0.0002875415337810641,
      "loss": 4.0174,
      "step": 64450
    },
    {
      "epoch": 0.13429166666666667,
      "grad_norm": 0.7563521862030029,
      "learning_rate": 0.00028753759975391226,
      "loss": 3.8377,
      "step": 64460
    },
    {
      "epoch": 0.1343125,
      "grad_norm": 0.8616205453872681,
      "learning_rate": 0.0002875336651326524,
      "loss": 3.8602,
      "step": 64470
    },
    {
      "epoch": 0.13433333333333333,
      "grad_norm": 0.7441871166229248,
      "learning_rate": 0.0002875297299173016,
      "loss": 3.8276,
      "step": 64480
    },
    {
      "epoch": 0.13435416666666666,
      "grad_norm": 0.8510188460350037,
      "learning_rate": 0.0002875257941078768,
      "loss": 3.9761,
      "step": 64490
    },
    {
      "epoch": 0.134375,
      "grad_norm": 0.8003024458885193,
      "learning_rate": 0.0002875218577043949,
      "loss": 4.2189,
      "step": 64500
    },
    {
      "epoch": 0.13439583333333333,
      "grad_norm": 0.873536229133606,
      "learning_rate": 0.00028751792070687315,
      "loss": 3.7914,
      "step": 64510
    },
    {
      "epoch": 0.13441666666666666,
      "grad_norm": 0.8054498434066772,
      "learning_rate": 0.00028751398311532833,
      "loss": 3.9121,
      "step": 64520
    },
    {
      "epoch": 0.1344375,
      "grad_norm": 0.7320621013641357,
      "learning_rate": 0.0002875100449297776,
      "loss": 4.0502,
      "step": 64530
    },
    {
      "epoch": 0.13445833333333335,
      "grad_norm": 0.7328641414642334,
      "learning_rate": 0.00028750610615023783,
      "loss": 4.0566,
      "step": 64540
    },
    {
      "epoch": 0.13447916666666668,
      "grad_norm": 0.9228671789169312,
      "learning_rate": 0.00028750216677672614,
      "loss": 4.1551,
      "step": 64550
    },
    {
      "epoch": 0.1345,
      "grad_norm": 1.2704331874847412,
      "learning_rate": 0.00028749822680925954,
      "loss": 4.1689,
      "step": 64560
    },
    {
      "epoch": 0.13452083333333334,
      "grad_norm": 0.9475177526473999,
      "learning_rate": 0.000287494286247855,
      "loss": 3.9883,
      "step": 64570
    },
    {
      "epoch": 0.13454166666666667,
      "grad_norm": 0.7184128761291504,
      "learning_rate": 0.0002874903450925296,
      "loss": 4.0521,
      "step": 64580
    },
    {
      "epoch": 0.1345625,
      "grad_norm": 0.8102483153343201,
      "learning_rate": 0.0002874864033433003,
      "loss": 4.0656,
      "step": 64590
    },
    {
      "epoch": 0.13458333333333333,
      "grad_norm": 0.7767441272735596,
      "learning_rate": 0.0002874824610001842,
      "loss": 4.1491,
      "step": 64600
    },
    {
      "epoch": 0.13460416666666666,
      "grad_norm": 0.7404881119728088,
      "learning_rate": 0.00028747851806319827,
      "loss": 4.0197,
      "step": 64610
    },
    {
      "epoch": 0.134625,
      "grad_norm": 0.9094785451889038,
      "learning_rate": 0.00028747457453235953,
      "loss": 3.8922,
      "step": 64620
    },
    {
      "epoch": 0.13464583333333333,
      "grad_norm": 0.7543533444404602,
      "learning_rate": 0.00028747063040768505,
      "loss": 3.9384,
      "step": 64630
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 0.8408339619636536,
      "learning_rate": 0.0002874666856891919,
      "loss": 4.1373,
      "step": 64640
    },
    {
      "epoch": 0.1346875,
      "grad_norm": 0.7669873237609863,
      "learning_rate": 0.00028746274037689704,
      "loss": 3.8682,
      "step": 64650
    },
    {
      "epoch": 0.13470833333333335,
      "grad_norm": 0.7371418476104736,
      "learning_rate": 0.00028745879447081757,
      "loss": 4.0197,
      "step": 64660
    },
    {
      "epoch": 0.13472916666666668,
      "grad_norm": 0.934221625328064,
      "learning_rate": 0.0002874548479709705,
      "loss": 3.7489,
      "step": 64670
    },
    {
      "epoch": 0.13475,
      "grad_norm": 0.7340819835662842,
      "learning_rate": 0.00028745090087737294,
      "loss": 3.9932,
      "step": 64680
    },
    {
      "epoch": 0.13477083333333334,
      "grad_norm": 0.8123356699943542,
      "learning_rate": 0.00028744695319004183,
      "loss": 3.9741,
      "step": 64690
    },
    {
      "epoch": 0.13479166666666667,
      "grad_norm": 0.8786877393722534,
      "learning_rate": 0.00028744300490899435,
      "loss": 3.8896,
      "step": 64700
    },
    {
      "epoch": 0.1348125,
      "grad_norm": 0.9325731992721558,
      "learning_rate": 0.00028743905603424746,
      "loss": 3.9605,
      "step": 64710
    },
    {
      "epoch": 0.13483333333333333,
      "grad_norm": 0.7665776014328003,
      "learning_rate": 0.00028743510656581824,
      "loss": 3.9601,
      "step": 64720
    },
    {
      "epoch": 0.13485416666666666,
      "grad_norm": 0.7228529453277588,
      "learning_rate": 0.00028743115650372376,
      "loss": 3.9223,
      "step": 64730
    },
    {
      "epoch": 0.134875,
      "grad_norm": 0.7234880924224854,
      "learning_rate": 0.0002874272058479811,
      "loss": 4.1654,
      "step": 64740
    },
    {
      "epoch": 0.13489583333333333,
      "grad_norm": 0.8839651942253113,
      "learning_rate": 0.0002874232545986073,
      "loss": 4.1489,
      "step": 64750
    },
    {
      "epoch": 0.13491666666666666,
      "grad_norm": 0.8160261511802673,
      "learning_rate": 0.0002874193027556195,
      "loss": 4.029,
      "step": 64760
    },
    {
      "epoch": 0.1349375,
      "grad_norm": 0.6733654737472534,
      "learning_rate": 0.0002874153503190346,
      "loss": 3.8903,
      "step": 64770
    },
    {
      "epoch": 0.13495833333333335,
      "grad_norm": 0.7644349932670593,
      "learning_rate": 0.00028741139728886983,
      "loss": 3.9853,
      "step": 64780
    },
    {
      "epoch": 0.13497916666666668,
      "grad_norm": 0.7276139259338379,
      "learning_rate": 0.0002874074436651422,
      "loss": 4.0622,
      "step": 64790
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.7839577198028564,
      "learning_rate": 0.00028740348944786883,
      "loss": 4.0359,
      "step": 64800
    },
    {
      "epoch": 0.13502083333333334,
      "grad_norm": 0.7763628959655762,
      "learning_rate": 0.0002873995346370668,
      "loss": 3.9303,
      "step": 64810
    },
    {
      "epoch": 0.13504166666666667,
      "grad_norm": 0.700670599937439,
      "learning_rate": 0.0002873955792327531,
      "loss": 4.1579,
      "step": 64820
    },
    {
      "epoch": 0.1350625,
      "grad_norm": 0.8376744389533997,
      "learning_rate": 0.0002873916232349449,
      "loss": 3.8593,
      "step": 64830
    },
    {
      "epoch": 0.13508333333333333,
      "grad_norm": 0.7327127456665039,
      "learning_rate": 0.0002873876666436593,
      "loss": 4.0669,
      "step": 64840
    },
    {
      "epoch": 0.13510416666666666,
      "grad_norm": 0.8301616907119751,
      "learning_rate": 0.0002873837094589133,
      "loss": 3.9105,
      "step": 64850
    },
    {
      "epoch": 0.135125,
      "grad_norm": 1.02854585647583,
      "learning_rate": 0.0002873797516807241,
      "loss": 4.0777,
      "step": 64860
    },
    {
      "epoch": 0.13514583333333333,
      "grad_norm": 0.8989710211753845,
      "learning_rate": 0.00028737579330910876,
      "loss": 4.1353,
      "step": 64870
    },
    {
      "epoch": 0.13516666666666666,
      "grad_norm": 0.693149209022522,
      "learning_rate": 0.0002873718343440844,
      "loss": 4.0146,
      "step": 64880
    },
    {
      "epoch": 0.1351875,
      "grad_norm": 0.7931642532348633,
      "learning_rate": 0.000287367874785668,
      "loss": 3.9828,
      "step": 64890
    },
    {
      "epoch": 0.13520833333333335,
      "grad_norm": 0.7196096777915955,
      "learning_rate": 0.00028736391463387683,
      "loss": 3.8226,
      "step": 64900
    },
    {
      "epoch": 0.13522916666666668,
      "grad_norm": 0.9476368427276611,
      "learning_rate": 0.0002873599538887279,
      "loss": 3.7723,
      "step": 64910
    },
    {
      "epoch": 0.13525,
      "grad_norm": 0.7710063457489014,
      "learning_rate": 0.00028735599255023833,
      "loss": 4.0941,
      "step": 64920
    },
    {
      "epoch": 0.13527083333333334,
      "grad_norm": 0.9134628176689148,
      "learning_rate": 0.0002873520306184252,
      "loss": 4.0182,
      "step": 64930
    },
    {
      "epoch": 0.13529166666666667,
      "grad_norm": 0.8409550189971924,
      "learning_rate": 0.0002873480680933058,
      "loss": 3.8634,
      "step": 64940
    },
    {
      "epoch": 0.1353125,
      "grad_norm": 0.8538219332695007,
      "learning_rate": 0.00028734410497489697,
      "loss": 4.0777,
      "step": 64950
    },
    {
      "epoch": 0.13533333333333333,
      "grad_norm": 0.8457117676734924,
      "learning_rate": 0.00028734014126321605,
      "loss": 3.8193,
      "step": 64960
    },
    {
      "epoch": 0.13535416666666666,
      "grad_norm": 0.7340303063392639,
      "learning_rate": 0.00028733617695828,
      "loss": 3.9134,
      "step": 64970
    },
    {
      "epoch": 0.135375,
      "grad_norm": 0.761151134967804,
      "learning_rate": 0.00028733221206010613,
      "loss": 4.0224,
      "step": 64980
    },
    {
      "epoch": 0.13539583333333333,
      "grad_norm": 1.1450016498565674,
      "learning_rate": 0.0002873282465687114,
      "loss": 4.0665,
      "step": 64990
    },
    {
      "epoch": 0.13541666666666666,
      "grad_norm": 0.7096083760261536,
      "learning_rate": 0.0002873242804841131,
      "loss": 4.162,
      "step": 65000
    },
    {
      "epoch": 0.13541666666666666,
      "eval_loss": 4.270015716552734,
      "eval_runtime": 9.216,
      "eval_samples_per_second": 1.085,
      "eval_steps_per_second": 0.326,
      "step": 65000
    },
    {
      "epoch": 0.1354375,
      "grad_norm": 0.7915689945220947,
      "learning_rate": 0.0002873203138063282,
      "loss": 3.8182,
      "step": 65010
    },
    {
      "epoch": 0.13545833333333332,
      "grad_norm": 0.8541768789291382,
      "learning_rate": 0.0002873163465353738,
      "loss": 3.917,
      "step": 65020
    },
    {
      "epoch": 0.13547916666666668,
      "grad_norm": 1.2734990119934082,
      "learning_rate": 0.00028731237867126727,
      "loss": 4.0912,
      "step": 65030
    },
    {
      "epoch": 0.1355,
      "grad_norm": 0.7125342488288879,
      "learning_rate": 0.00028730841021402557,
      "loss": 4.0899,
      "step": 65040
    },
    {
      "epoch": 0.13552083333333334,
      "grad_norm": 0.8634536266326904,
      "learning_rate": 0.0002873044411636659,
      "loss": 4.0344,
      "step": 65050
    },
    {
      "epoch": 0.13554166666666667,
      "grad_norm": 0.8109236359596252,
      "learning_rate": 0.00028730047152020536,
      "loss": 4.0332,
      "step": 65060
    },
    {
      "epoch": 0.1355625,
      "grad_norm": 0.7831248641014099,
      "learning_rate": 0.00028729650128366116,
      "loss": 3.7846,
      "step": 65070
    },
    {
      "epoch": 0.13558333333333333,
      "grad_norm": 0.7490153908729553,
      "learning_rate": 0.0002872925304540504,
      "loss": 4.0979,
      "step": 65080
    },
    {
      "epoch": 0.13560416666666666,
      "grad_norm": 0.7342486381530762,
      "learning_rate": 0.00028728855903139026,
      "loss": 3.9611,
      "step": 65090
    },
    {
      "epoch": 0.135625,
      "grad_norm": 1.0337474346160889,
      "learning_rate": 0.00028728458701569794,
      "loss": 3.7365,
      "step": 65100
    },
    {
      "epoch": 0.13564583333333333,
      "grad_norm": 0.889200747013092,
      "learning_rate": 0.00028728061440699045,
      "loss": 4.0339,
      "step": 65110
    },
    {
      "epoch": 0.13566666666666666,
      "grad_norm": 0.9836903214454651,
      "learning_rate": 0.0002872766412052851,
      "loss": 3.9845,
      "step": 65120
    },
    {
      "epoch": 0.1356875,
      "grad_norm": 0.7733109593391418,
      "learning_rate": 0.000287272667410599,
      "loss": 3.9591,
      "step": 65130
    },
    {
      "epoch": 0.13570833333333332,
      "grad_norm": 0.8711004853248596,
      "learning_rate": 0.0002872686930229493,
      "loss": 4.1617,
      "step": 65140
    },
    {
      "epoch": 0.13572916666666668,
      "grad_norm": 0.7676413655281067,
      "learning_rate": 0.0002872647180423532,
      "loss": 3.9984,
      "step": 65150
    },
    {
      "epoch": 0.13575,
      "grad_norm": 0.7358406782150269,
      "learning_rate": 0.0002872607424688278,
      "loss": 3.8362,
      "step": 65160
    },
    {
      "epoch": 0.13577083333333334,
      "grad_norm": 0.9238478541374207,
      "learning_rate": 0.00028725676630239036,
      "loss": 4.0912,
      "step": 65170
    },
    {
      "epoch": 0.13579166666666667,
      "grad_norm": 0.7800845503807068,
      "learning_rate": 0.00028725278954305804,
      "loss": 3.9674,
      "step": 65180
    },
    {
      "epoch": 0.1358125,
      "grad_norm": 0.7559322714805603,
      "learning_rate": 0.0002872488121908479,
      "loss": 4.006,
      "step": 65190
    },
    {
      "epoch": 0.13583333333333333,
      "grad_norm": 0.8165303468704224,
      "learning_rate": 0.00028724483424577736,
      "loss": 3.9804,
      "step": 65200
    },
    {
      "epoch": 0.13585416666666666,
      "grad_norm": 0.9611272215843201,
      "learning_rate": 0.0002872408557078634,
      "loss": 3.8324,
      "step": 65210
    },
    {
      "epoch": 0.135875,
      "grad_norm": 0.8529415130615234,
      "learning_rate": 0.00028723687657712324,
      "loss": 3.8041,
      "step": 65220
    },
    {
      "epoch": 0.13589583333333333,
      "grad_norm": 1.044836401939392,
      "learning_rate": 0.00028723289685357416,
      "loss": 3.9292,
      "step": 65230
    },
    {
      "epoch": 0.13591666666666666,
      "grad_norm": 0.7357377409934998,
      "learning_rate": 0.0002872289165372332,
      "loss": 3.922,
      "step": 65240
    },
    {
      "epoch": 0.1359375,
      "grad_norm": 0.778701901435852,
      "learning_rate": 0.0002872249356281177,
      "loss": 3.9804,
      "step": 65250
    },
    {
      "epoch": 0.13595833333333332,
      "grad_norm": 0.7653890252113342,
      "learning_rate": 0.0002872209541262448,
      "loss": 3.8818,
      "step": 65260
    },
    {
      "epoch": 0.13597916666666668,
      "grad_norm": 0.8069215416908264,
      "learning_rate": 0.0002872169720316317,
      "loss": 3.994,
      "step": 65270
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.7315927743911743,
      "learning_rate": 0.0002872129893442956,
      "loss": 3.8108,
      "step": 65280
    },
    {
      "epoch": 0.13602083333333334,
      "grad_norm": 0.9079833626747131,
      "learning_rate": 0.0002872090060642536,
      "loss": 4.0035,
      "step": 65290
    },
    {
      "epoch": 0.13604166666666667,
      "grad_norm": 0.8693148493766785,
      "learning_rate": 0.00028720502219152305,
      "loss": 3.8689,
      "step": 65300
    },
    {
      "epoch": 0.1360625,
      "grad_norm": 0.8738946318626404,
      "learning_rate": 0.00028720103772612117,
      "loss": 3.9539,
      "step": 65310
    },
    {
      "epoch": 0.13608333333333333,
      "grad_norm": 0.8064956068992615,
      "learning_rate": 0.00028719705266806505,
      "loss": 4.0215,
      "step": 65320
    },
    {
      "epoch": 0.13610416666666666,
      "grad_norm": 0.7105675339698792,
      "learning_rate": 0.000287193067017372,
      "loss": 4.1154,
      "step": 65330
    },
    {
      "epoch": 0.136125,
      "grad_norm": 0.8013262152671814,
      "learning_rate": 0.00028718908077405924,
      "loss": 3.8123,
      "step": 65340
    },
    {
      "epoch": 0.13614583333333333,
      "grad_norm": 1.2218613624572754,
      "learning_rate": 0.0002871850939381439,
      "loss": 3.9452,
      "step": 65350
    },
    {
      "epoch": 0.13616666666666666,
      "grad_norm": 0.9417993426322937,
      "learning_rate": 0.0002871811065096433,
      "loss": 3.8226,
      "step": 65360
    },
    {
      "epoch": 0.1361875,
      "grad_norm": 1.3034276962280273,
      "learning_rate": 0.0002871771184885746,
      "loss": 3.6707,
      "step": 65370
    },
    {
      "epoch": 0.13620833333333332,
      "grad_norm": 0.8150424957275391,
      "learning_rate": 0.000287173129874955,
      "loss": 3.7573,
      "step": 65380
    },
    {
      "epoch": 0.13622916666666668,
      "grad_norm": 0.7253665328025818,
      "learning_rate": 0.00028716914066880184,
      "loss": 3.8997,
      "step": 65390
    },
    {
      "epoch": 0.13625,
      "grad_norm": 1.119425892829895,
      "learning_rate": 0.0002871651508701323,
      "loss": 4.0051,
      "step": 65400
    },
    {
      "epoch": 0.13627083333333334,
      "grad_norm": 0.7178698182106018,
      "learning_rate": 0.00028716116047896353,
      "loss": 4.184,
      "step": 65410
    },
    {
      "epoch": 0.13629166666666667,
      "grad_norm": 0.7137079238891602,
      "learning_rate": 0.0002871571694953129,
      "loss": 3.8225,
      "step": 65420
    },
    {
      "epoch": 0.1363125,
      "grad_norm": 0.9255494475364685,
      "learning_rate": 0.0002871531779191975,
      "loss": 4.0078,
      "step": 65430
    },
    {
      "epoch": 0.13633333333333333,
      "grad_norm": 0.7485969662666321,
      "learning_rate": 0.00028714918575063476,
      "loss": 3.9384,
      "step": 65440
    },
    {
      "epoch": 0.13635416666666667,
      "grad_norm": 0.9804455041885376,
      "learning_rate": 0.0002871451929896418,
      "loss": 4.055,
      "step": 65450
    },
    {
      "epoch": 0.136375,
      "grad_norm": 0.9150384664535522,
      "learning_rate": 0.00028714119963623585,
      "loss": 3.8845,
      "step": 65460
    },
    {
      "epoch": 0.13639583333333333,
      "grad_norm": 0.8464775681495667,
      "learning_rate": 0.0002871372056904343,
      "loss": 3.9178,
      "step": 65470
    },
    {
      "epoch": 0.13641666666666666,
      "grad_norm": 0.7964507341384888,
      "learning_rate": 0.0002871332111522542,
      "loss": 3.9835,
      "step": 65480
    },
    {
      "epoch": 0.1364375,
      "grad_norm": 0.7888517379760742,
      "learning_rate": 0.00028712921602171295,
      "loss": 3.9112,
      "step": 65490
    },
    {
      "epoch": 0.13645833333333332,
      "grad_norm": 0.7494146823883057,
      "learning_rate": 0.00028712522029882774,
      "loss": 4.015,
      "step": 65500
    },
    {
      "epoch": 0.13647916666666668,
      "grad_norm": 0.8611884117126465,
      "learning_rate": 0.00028712122398361593,
      "loss": 4.0493,
      "step": 65510
    },
    {
      "epoch": 0.1365,
      "grad_norm": 0.8028864860534668,
      "learning_rate": 0.0002871172270760946,
      "loss": 4.0986,
      "step": 65520
    },
    {
      "epoch": 0.13652083333333334,
      "grad_norm": 0.6981949210166931,
      "learning_rate": 0.0002871132295762812,
      "loss": 4.0149,
      "step": 65530
    },
    {
      "epoch": 0.13654166666666667,
      "grad_norm": 0.9052545428276062,
      "learning_rate": 0.00028710923148419294,
      "loss": 4.1545,
      "step": 65540
    },
    {
      "epoch": 0.1365625,
      "grad_norm": 0.8394050598144531,
      "learning_rate": 0.000287105232799847,
      "loss": 3.8832,
      "step": 65550
    },
    {
      "epoch": 0.13658333333333333,
      "grad_norm": 0.7084269523620605,
      "learning_rate": 0.0002871012335232608,
      "loss": 3.9726,
      "step": 65560
    },
    {
      "epoch": 0.13660416666666667,
      "grad_norm": 0.872664749622345,
      "learning_rate": 0.00028709723365445147,
      "loss": 3.9799,
      "step": 65570
    },
    {
      "epoch": 0.136625,
      "grad_norm": 0.7112998962402344,
      "learning_rate": 0.0002870932331934364,
      "loss": 4.0741,
      "step": 65580
    },
    {
      "epoch": 0.13664583333333333,
      "grad_norm": 0.7052416801452637,
      "learning_rate": 0.0002870892321402328,
      "loss": 3.9478,
      "step": 65590
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 0.7768219113349915,
      "learning_rate": 0.000287085230494858,
      "loss": 3.8606,
      "step": 65600
    },
    {
      "epoch": 0.1366875,
      "grad_norm": 0.7721940279006958,
      "learning_rate": 0.00028708122825732923,
      "loss": 3.889,
      "step": 65610
    },
    {
      "epoch": 0.13670833333333332,
      "grad_norm": 0.7931677103042603,
      "learning_rate": 0.00028707722542766384,
      "loss": 3.8851,
      "step": 65620
    },
    {
      "epoch": 0.13672916666666668,
      "grad_norm": 0.8016607761383057,
      "learning_rate": 0.0002870732220058791,
      "loss": 3.946,
      "step": 65630
    },
    {
      "epoch": 0.13675,
      "grad_norm": 0.8310295343399048,
      "learning_rate": 0.00028706921799199234,
      "loss": 3.8892,
      "step": 65640
    },
    {
      "epoch": 0.13677083333333334,
      "grad_norm": 0.7296850681304932,
      "learning_rate": 0.00028706521338602074,
      "loss": 3.9353,
      "step": 65650
    },
    {
      "epoch": 0.13679166666666667,
      "grad_norm": 0.7558501958847046,
      "learning_rate": 0.00028706120818798174,
      "loss": 3.7684,
      "step": 65660
    },
    {
      "epoch": 0.1368125,
      "grad_norm": 0.7843570113182068,
      "learning_rate": 0.0002870572023978925,
      "loss": 4.003,
      "step": 65670
    },
    {
      "epoch": 0.13683333333333333,
      "grad_norm": 0.8324593901634216,
      "learning_rate": 0.00028705319601577046,
      "loss": 3.7992,
      "step": 65680
    },
    {
      "epoch": 0.13685416666666667,
      "grad_norm": 0.8596004247665405,
      "learning_rate": 0.0002870491890416328,
      "loss": 3.9707,
      "step": 65690
    },
    {
      "epoch": 0.136875,
      "grad_norm": 0.769801139831543,
      "learning_rate": 0.00028704518147549694,
      "loss": 3.9967,
      "step": 65700
    },
    {
      "epoch": 0.13689583333333333,
      "grad_norm": 0.7398144602775574,
      "learning_rate": 0.0002870411733173802,
      "loss": 3.8826,
      "step": 65710
    },
    {
      "epoch": 0.13691666666666666,
      "grad_norm": 0.7475129961967468,
      "learning_rate": 0.00028703716456729975,
      "loss": 3.9846,
      "step": 65720
    },
    {
      "epoch": 0.1369375,
      "grad_norm": 0.8137556314468384,
      "learning_rate": 0.00028703315522527297,
      "loss": 3.766,
      "step": 65730
    },
    {
      "epoch": 0.13695833333333332,
      "grad_norm": 0.868998646736145,
      "learning_rate": 0.00028702914529131723,
      "loss": 3.9603,
      "step": 65740
    },
    {
      "epoch": 0.13697916666666668,
      "grad_norm": 0.8844988346099854,
      "learning_rate": 0.00028702513476544983,
      "loss": 3.8723,
      "step": 65750
    },
    {
      "epoch": 0.137,
      "grad_norm": 0.770193338394165,
      "learning_rate": 0.0002870211236476881,
      "loss": 4.0065,
      "step": 65760
    },
    {
      "epoch": 0.13702083333333334,
      "grad_norm": 0.743553102016449,
      "learning_rate": 0.00028701711193804936,
      "loss": 4.2644,
      "step": 65770
    },
    {
      "epoch": 0.13704166666666667,
      "grad_norm": 0.7592821717262268,
      "learning_rate": 0.0002870130996365509,
      "loss": 3.8594,
      "step": 65780
    },
    {
      "epoch": 0.1370625,
      "grad_norm": 0.8209540843963623,
      "learning_rate": 0.0002870090867432101,
      "loss": 3.95,
      "step": 65790
    },
    {
      "epoch": 0.13708333333333333,
      "grad_norm": 0.7818352580070496,
      "learning_rate": 0.0002870050732580443,
      "loss": 3.9313,
      "step": 65800
    },
    {
      "epoch": 0.13710416666666667,
      "grad_norm": 0.7777538299560547,
      "learning_rate": 0.0002870010591810708,
      "loss": 4.1911,
      "step": 65810
    },
    {
      "epoch": 0.137125,
      "grad_norm": 0.9045796394348145,
      "learning_rate": 0.0002869970445123069,
      "loss": 4.0692,
      "step": 65820
    },
    {
      "epoch": 0.13714583333333333,
      "grad_norm": 0.7993079423904419,
      "learning_rate": 0.00028699302925177004,
      "loss": 4.048,
      "step": 65830
    },
    {
      "epoch": 0.13716666666666666,
      "grad_norm": 2.634913206100464,
      "learning_rate": 0.0002869890133994775,
      "loss": 3.9703,
      "step": 65840
    },
    {
      "epoch": 0.1371875,
      "grad_norm": 0.807085394859314,
      "learning_rate": 0.0002869849969554467,
      "loss": 4.0553,
      "step": 65850
    },
    {
      "epoch": 0.13720833333333332,
      "grad_norm": 1.083817958831787,
      "learning_rate": 0.00028698097991969486,
      "loss": 4.025,
      "step": 65860
    },
    {
      "epoch": 0.13722916666666668,
      "grad_norm": 0.7468310594558716,
      "learning_rate": 0.0002869769622922395,
      "loss": 4.0082,
      "step": 65870
    },
    {
      "epoch": 0.13725,
      "grad_norm": 0.990460216999054,
      "learning_rate": 0.0002869729440730978,
      "loss": 3.8593,
      "step": 65880
    },
    {
      "epoch": 0.13727083333333334,
      "grad_norm": 0.8732584118843079,
      "learning_rate": 0.0002869689252622872,
      "loss": 4.0827,
      "step": 65890
    },
    {
      "epoch": 0.13729166666666667,
      "grad_norm": 0.7800723314285278,
      "learning_rate": 0.0002869649058598251,
      "loss": 4.1737,
      "step": 65900
    },
    {
      "epoch": 0.1373125,
      "grad_norm": 0.916387677192688,
      "learning_rate": 0.00028696088586572876,
      "loss": 3.9019,
      "step": 65910
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 0.7495294809341431,
      "learning_rate": 0.0002869568652800157,
      "loss": 4.0042,
      "step": 65920
    },
    {
      "epoch": 0.13735416666666667,
      "grad_norm": 0.7494322657585144,
      "learning_rate": 0.00028695284410270314,
      "loss": 3.778,
      "step": 65930
    },
    {
      "epoch": 0.137375,
      "grad_norm": 0.708899736404419,
      "learning_rate": 0.0002869488223338085,
      "loss": 3.7854,
      "step": 65940
    },
    {
      "epoch": 0.13739583333333333,
      "grad_norm": 0.8492857217788696,
      "learning_rate": 0.0002869447999733492,
      "loss": 4.0197,
      "step": 65950
    },
    {
      "epoch": 0.13741666666666666,
      "grad_norm": 0.7774770855903625,
      "learning_rate": 0.0002869407770213425,
      "loss": 3.9175,
      "step": 65960
    },
    {
      "epoch": 0.1374375,
      "grad_norm": 0.8904722332954407,
      "learning_rate": 0.00028693675347780587,
      "loss": 3.8871,
      "step": 65970
    },
    {
      "epoch": 0.13745833333333332,
      "grad_norm": 0.8568634390830994,
      "learning_rate": 0.0002869327293427567,
      "loss": 3.8772,
      "step": 65980
    },
    {
      "epoch": 0.13747916666666668,
      "grad_norm": 0.8707426190376282,
      "learning_rate": 0.0002869287046162123,
      "loss": 3.7674,
      "step": 65990
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.8670472502708435,
      "learning_rate": 0.00028692467929819016,
      "loss": 4.1639,
      "step": 66000
    },
    {
      "epoch": 0.1375,
      "eval_loss": 4.280795097351074,
      "eval_runtime": 10.0378,
      "eval_samples_per_second": 0.996,
      "eval_steps_per_second": 0.299,
      "step": 66000
    },
    {
      "epoch": 0.13752083333333334,
      "grad_norm": 0.740135669708252,
      "learning_rate": 0.00028692065338870753,
      "loss": 3.8462,
      "step": 66010
    },
    {
      "epoch": 0.13754166666666667,
      "grad_norm": 0.9340844750404358,
      "learning_rate": 0.00028691662688778193,
      "loss": 3.9741,
      "step": 66020
    },
    {
      "epoch": 0.1375625,
      "grad_norm": 0.7554949522018433,
      "learning_rate": 0.00028691259979543067,
      "loss": 4.1069,
      "step": 66030
    },
    {
      "epoch": 0.13758333333333334,
      "grad_norm": 0.7845373749732971,
      "learning_rate": 0.0002869085721116712,
      "loss": 3.7915,
      "step": 66040
    },
    {
      "epoch": 0.13760416666666667,
      "grad_norm": 1.071006417274475,
      "learning_rate": 0.00028690454383652084,
      "loss": 4.021,
      "step": 66050
    },
    {
      "epoch": 0.137625,
      "grad_norm": 0.8170678019523621,
      "learning_rate": 0.00028690051496999707,
      "loss": 3.8861,
      "step": 66060
    },
    {
      "epoch": 0.13764583333333333,
      "grad_norm": 0.9291921257972717,
      "learning_rate": 0.00028689648551211724,
      "loss": 3.9739,
      "step": 66070
    },
    {
      "epoch": 0.13766666666666666,
      "grad_norm": 0.7531381249427795,
      "learning_rate": 0.0002868924554628988,
      "loss": 3.9176,
      "step": 66080
    },
    {
      "epoch": 0.1376875,
      "grad_norm": 0.7596206068992615,
      "learning_rate": 0.00028688842482235916,
      "loss": 4.0523,
      "step": 66090
    },
    {
      "epoch": 0.13770833333333332,
      "grad_norm": 0.7787721753120422,
      "learning_rate": 0.0002868843935905157,
      "loss": 4.0548,
      "step": 66100
    },
    {
      "epoch": 0.13772916666666668,
      "grad_norm": 0.7916592359542847,
      "learning_rate": 0.0002868803617673858,
      "loss": 4.0309,
      "step": 66110
    },
    {
      "epoch": 0.13775,
      "grad_norm": 0.8433559536933899,
      "learning_rate": 0.0002868763293529869,
      "loss": 4.1242,
      "step": 66120
    },
    {
      "epoch": 0.13777083333333334,
      "grad_norm": 0.7746022343635559,
      "learning_rate": 0.00028687229634733656,
      "loss": 3.8951,
      "step": 66130
    },
    {
      "epoch": 0.13779166666666667,
      "grad_norm": 0.7962788343429565,
      "learning_rate": 0.000286868262750452,
      "loss": 4.0907,
      "step": 66140
    },
    {
      "epoch": 0.1378125,
      "grad_norm": 0.7643312811851501,
      "learning_rate": 0.00028686422856235075,
      "loss": 3.9383,
      "step": 66150
    },
    {
      "epoch": 0.13783333333333334,
      "grad_norm": 0.8939483165740967,
      "learning_rate": 0.00028686019378305015,
      "loss": 3.812,
      "step": 66160
    },
    {
      "epoch": 0.13785416666666667,
      "grad_norm": 0.6806573271751404,
      "learning_rate": 0.0002868561584125677,
      "loss": 3.9889,
      "step": 66170
    },
    {
      "epoch": 0.137875,
      "grad_norm": 0.7723097801208496,
      "learning_rate": 0.00028685212245092086,
      "loss": 3.9836,
      "step": 66180
    },
    {
      "epoch": 0.13789583333333333,
      "grad_norm": 0.8020229935646057,
      "learning_rate": 0.00028684808589812697,
      "loss": 3.9696,
      "step": 66190
    },
    {
      "epoch": 0.13791666666666666,
      "grad_norm": 0.7712486982345581,
      "learning_rate": 0.0002868440487542036,
      "loss": 3.8379,
      "step": 66200
    },
    {
      "epoch": 0.1379375,
      "grad_norm": 0.8245943188667297,
      "learning_rate": 0.000286840011019168,
      "loss": 4.1566,
      "step": 66210
    },
    {
      "epoch": 0.13795833333333332,
      "grad_norm": 0.8406330347061157,
      "learning_rate": 0.00028683597269303776,
      "loss": 3.9494,
      "step": 66220
    },
    {
      "epoch": 0.13797916666666668,
      "grad_norm": 0.7398877143859863,
      "learning_rate": 0.0002868319337758303,
      "loss": 4.2635,
      "step": 66230
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.7273675203323364,
      "learning_rate": 0.0002868278942675631,
      "loss": 3.8957,
      "step": 66240
    },
    {
      "epoch": 0.13802083333333334,
      "grad_norm": 0.8393301367759705,
      "learning_rate": 0.00028682385416825345,
      "loss": 3.8792,
      "step": 66250
    },
    {
      "epoch": 0.13804166666666667,
      "grad_norm": 0.9525238871574402,
      "learning_rate": 0.00028681981347791893,
      "loss": 3.8784,
      "step": 66260
    },
    {
      "epoch": 0.1380625,
      "grad_norm": 1.0002228021621704,
      "learning_rate": 0.000286815772196577,
      "loss": 4.0425,
      "step": 66270
    },
    {
      "epoch": 0.13808333333333334,
      "grad_norm": 0.7807588577270508,
      "learning_rate": 0.00028681173032424513,
      "loss": 4.1447,
      "step": 66280
    },
    {
      "epoch": 0.13810416666666667,
      "grad_norm": 0.7657002806663513,
      "learning_rate": 0.00028680768786094066,
      "loss": 3.9529,
      "step": 66290
    },
    {
      "epoch": 0.138125,
      "grad_norm": 0.7748212218284607,
      "learning_rate": 0.00028680364480668116,
      "loss": 3.9714,
      "step": 66300
    },
    {
      "epoch": 0.13814583333333333,
      "grad_norm": 0.8226855993270874,
      "learning_rate": 0.0002867996011614841,
      "loss": 3.9952,
      "step": 66310
    },
    {
      "epoch": 0.13816666666666666,
      "grad_norm": 0.6432904601097107,
      "learning_rate": 0.00028679555692536683,
      "loss": 4.0371,
      "step": 66320
    },
    {
      "epoch": 0.1381875,
      "grad_norm": 0.8896268606185913,
      "learning_rate": 0.00028679151209834696,
      "loss": 4.043,
      "step": 66330
    },
    {
      "epoch": 0.13820833333333332,
      "grad_norm": 0.801670253276825,
      "learning_rate": 0.0002867874666804419,
      "loss": 3.9039,
      "step": 66340
    },
    {
      "epoch": 0.13822916666666665,
      "grad_norm": 0.755953311920166,
      "learning_rate": 0.00028678342067166914,
      "loss": 4.2403,
      "step": 66350
    },
    {
      "epoch": 0.13825,
      "grad_norm": 0.8296604752540588,
      "learning_rate": 0.0002867793740720461,
      "loss": 4.0175,
      "step": 66360
    },
    {
      "epoch": 0.13827083333333334,
      "grad_norm": 0.8860189318656921,
      "learning_rate": 0.00028677532688159034,
      "loss": 3.9633,
      "step": 66370
    },
    {
      "epoch": 0.13829166666666667,
      "grad_norm": 0.8846216201782227,
      "learning_rate": 0.0002867712791003193,
      "loss": 3.7753,
      "step": 66380
    },
    {
      "epoch": 0.1383125,
      "grad_norm": 0.725294828414917,
      "learning_rate": 0.00028676723072825047,
      "loss": 3.847,
      "step": 66390
    },
    {
      "epoch": 0.13833333333333334,
      "grad_norm": 0.7203556299209595,
      "learning_rate": 0.0002867631817654014,
      "loss": 4.0929,
      "step": 66400
    },
    {
      "epoch": 0.13835416666666667,
      "grad_norm": 0.7871002554893494,
      "learning_rate": 0.0002867591322117894,
      "loss": 4.002,
      "step": 66410
    },
    {
      "epoch": 0.138375,
      "grad_norm": 0.8023578524589539,
      "learning_rate": 0.0002867550820674322,
      "loss": 3.9665,
      "step": 66420
    },
    {
      "epoch": 0.13839583333333333,
      "grad_norm": 0.9391366243362427,
      "learning_rate": 0.0002867510313323471,
      "loss": 4.0523,
      "step": 66430
    },
    {
      "epoch": 0.13841666666666666,
      "grad_norm": 0.7334455251693726,
      "learning_rate": 0.0002867469800065517,
      "loss": 4.2115,
      "step": 66440
    },
    {
      "epoch": 0.1384375,
      "grad_norm": 0.7620160579681396,
      "learning_rate": 0.00028674292809006345,
      "loss": 3.893,
      "step": 66450
    },
    {
      "epoch": 0.13845833333333332,
      "grad_norm": 0.7667372822761536,
      "learning_rate": 0.0002867388755828999,
      "loss": 3.733,
      "step": 66460
    },
    {
      "epoch": 0.13847916666666665,
      "grad_norm": 1.0828499794006348,
      "learning_rate": 0.00028673482248507855,
      "loss": 3.9695,
      "step": 66470
    },
    {
      "epoch": 0.1385,
      "grad_norm": 0.7990016937255859,
      "learning_rate": 0.0002867307687966169,
      "loss": 3.956,
      "step": 66480
    },
    {
      "epoch": 0.13852083333333334,
      "grad_norm": 0.7766852974891663,
      "learning_rate": 0.00028672671451753233,
      "loss": 4.0184,
      "step": 66490
    },
    {
      "epoch": 0.13854166666666667,
      "grad_norm": 0.7112399935722351,
      "learning_rate": 0.0002867226596478426,
      "loss": 4.004,
      "step": 66500
    },
    {
      "epoch": 0.1385625,
      "grad_norm": 0.8018895983695984,
      "learning_rate": 0.0002867186041875651,
      "loss": 3.8946,
      "step": 66510
    },
    {
      "epoch": 0.13858333333333334,
      "grad_norm": 0.9305739998817444,
      "learning_rate": 0.00028671454813671726,
      "loss": 4.2356,
      "step": 66520
    },
    {
      "epoch": 0.13860416666666667,
      "grad_norm": 0.7580352425575256,
      "learning_rate": 0.00028671049149531675,
      "loss": 3.9579,
      "step": 66530
    },
    {
      "epoch": 0.138625,
      "grad_norm": 0.7714937329292297,
      "learning_rate": 0.000286706434263381,
      "loss": 3.9876,
      "step": 66540
    },
    {
      "epoch": 0.13864583333333333,
      "grad_norm": 0.8185648918151855,
      "learning_rate": 0.0002867023764409276,
      "loss": 4.0402,
      "step": 66550
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 0.8889954686164856,
      "learning_rate": 0.00028669831802797407,
      "loss": 4.1126,
      "step": 66560
    },
    {
      "epoch": 0.1386875,
      "grad_norm": 0.882784366607666,
      "learning_rate": 0.00028669425902453787,
      "loss": 3.7506,
      "step": 66570
    },
    {
      "epoch": 0.13870833333333332,
      "grad_norm": 0.8317544460296631,
      "learning_rate": 0.0002866901994306366,
      "loss": 3.8671,
      "step": 66580
    },
    {
      "epoch": 0.13872916666666665,
      "grad_norm": 0.7309566140174866,
      "learning_rate": 0.0002866861392462877,
      "loss": 3.9634,
      "step": 66590
    },
    {
      "epoch": 0.13875,
      "grad_norm": 0.8411346077919006,
      "learning_rate": 0.0002866820784715088,
      "loss": 3.9735,
      "step": 66600
    },
    {
      "epoch": 0.13877083333333334,
      "grad_norm": 0.7378370761871338,
      "learning_rate": 0.0002866780171063175,
      "loss": 3.9803,
      "step": 66610
    },
    {
      "epoch": 0.13879166666666667,
      "grad_norm": 0.7075258493423462,
      "learning_rate": 0.0002866739551507312,
      "loss": 4.0165,
      "step": 66620
    },
    {
      "epoch": 0.1388125,
      "grad_norm": 0.8132305145263672,
      "learning_rate": 0.0002866698926047676,
      "loss": 3.8272,
      "step": 66630
    },
    {
      "epoch": 0.13883333333333334,
      "grad_norm": 0.8023970723152161,
      "learning_rate": 0.0002866658294684441,
      "loss": 3.9566,
      "step": 66640
    },
    {
      "epoch": 0.13885416666666667,
      "grad_norm": 0.7620745301246643,
      "learning_rate": 0.0002866617657417783,
      "loss": 3.9641,
      "step": 66650
    },
    {
      "epoch": 0.138875,
      "grad_norm": 0.8282944560050964,
      "learning_rate": 0.00028665770142478783,
      "loss": 4.0796,
      "step": 66660
    },
    {
      "epoch": 0.13889583333333333,
      "grad_norm": 0.689987063407898,
      "learning_rate": 0.00028665363651749013,
      "loss": 3.9885,
      "step": 66670
    },
    {
      "epoch": 0.13891666666666666,
      "grad_norm": 0.8217405676841736,
      "learning_rate": 0.0002866495710199028,
      "loss": 3.9427,
      "step": 66680
    },
    {
      "epoch": 0.1389375,
      "grad_norm": 0.7840771079063416,
      "learning_rate": 0.0002866455049320434,
      "loss": 4.0037,
      "step": 66690
    },
    {
      "epoch": 0.13895833333333332,
      "grad_norm": 0.8600865006446838,
      "learning_rate": 0.00028664143825392953,
      "loss": 3.7886,
      "step": 66700
    },
    {
      "epoch": 0.13897916666666665,
      "grad_norm": 0.7443968057632446,
      "learning_rate": 0.00028663737098557875,
      "loss": 3.962,
      "step": 66710
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.9079613089561462,
      "learning_rate": 0.00028663330312700863,
      "loss": 3.8281,
      "step": 66720
    },
    {
      "epoch": 0.13902083333333334,
      "grad_norm": 0.7392581105232239,
      "learning_rate": 0.0002866292346782367,
      "loss": 3.957,
      "step": 66730
    },
    {
      "epoch": 0.13904166666666667,
      "grad_norm": 0.8310708403587341,
      "learning_rate": 0.00028662516563928055,
      "loss": 4.0316,
      "step": 66740
    },
    {
      "epoch": 0.1390625,
      "grad_norm": 0.8175225257873535,
      "learning_rate": 0.00028662109601015776,
      "loss": 3.8698,
      "step": 66750
    },
    {
      "epoch": 0.13908333333333334,
      "grad_norm": 0.7781490087509155,
      "learning_rate": 0.00028661702579088594,
      "loss": 3.6807,
      "step": 66760
    },
    {
      "epoch": 0.13910416666666667,
      "grad_norm": 0.7586997151374817,
      "learning_rate": 0.0002866129549814826,
      "loss": 3.9592,
      "step": 66770
    },
    {
      "epoch": 0.139125,
      "grad_norm": 0.832291841506958,
      "learning_rate": 0.0002866088835819654,
      "loss": 3.9807,
      "step": 66780
    },
    {
      "epoch": 0.13914583333333333,
      "grad_norm": 0.719735324382782,
      "learning_rate": 0.0002866048115923519,
      "loss": 3.9444,
      "step": 66790
    },
    {
      "epoch": 0.13916666666666666,
      "grad_norm": 0.7619137763977051,
      "learning_rate": 0.0002866007390126597,
      "loss": 3.9132,
      "step": 66800
    },
    {
      "epoch": 0.1391875,
      "grad_norm": 0.9500381350517273,
      "learning_rate": 0.00028659666584290633,
      "loss": 3.913,
      "step": 66810
    },
    {
      "epoch": 0.13920833333333332,
      "grad_norm": 0.8629404902458191,
      "learning_rate": 0.0002865925920831095,
      "loss": 4.0357,
      "step": 66820
    },
    {
      "epoch": 0.13922916666666665,
      "grad_norm": 0.7602584362030029,
      "learning_rate": 0.0002865885177332867,
      "loss": 4.101,
      "step": 66830
    },
    {
      "epoch": 0.13925,
      "grad_norm": 0.6978729367256165,
      "learning_rate": 0.00028658444279345554,
      "loss": 4.0849,
      "step": 66840
    },
    {
      "epoch": 0.13927083333333334,
      "grad_norm": 0.7115938067436218,
      "learning_rate": 0.0002865803672636337,
      "loss": 3.9577,
      "step": 66850
    },
    {
      "epoch": 0.13929166666666667,
      "grad_norm": 0.9050566554069519,
      "learning_rate": 0.00028657629114383867,
      "loss": 3.7679,
      "step": 66860
    },
    {
      "epoch": 0.1393125,
      "grad_norm": 1.0012133121490479,
      "learning_rate": 0.0002865722144340882,
      "loss": 3.891,
      "step": 66870
    },
    {
      "epoch": 0.13933333333333334,
      "grad_norm": 0.7658916115760803,
      "learning_rate": 0.00028656813713439977,
      "loss": 3.8708,
      "step": 66880
    },
    {
      "epoch": 0.13935416666666667,
      "grad_norm": 0.7346609234809875,
      "learning_rate": 0.0002865640592447911,
      "loss": 4.0782,
      "step": 66890
    },
    {
      "epoch": 0.139375,
      "grad_norm": 1.2897148132324219,
      "learning_rate": 0.00028655998076527973,
      "loss": 3.8769,
      "step": 66900
    },
    {
      "epoch": 0.13939583333333333,
      "grad_norm": 0.8564690947532654,
      "learning_rate": 0.00028655590169588324,
      "loss": 3.8499,
      "step": 66910
    },
    {
      "epoch": 0.13941666666666666,
      "grad_norm": 0.7858598828315735,
      "learning_rate": 0.00028655182203661935,
      "loss": 4.0368,
      "step": 66920
    },
    {
      "epoch": 0.1394375,
      "grad_norm": 0.7081370949745178,
      "learning_rate": 0.00028654774178750567,
      "loss": 3.8307,
      "step": 66930
    },
    {
      "epoch": 0.13945833333333332,
      "grad_norm": 0.9028245210647583,
      "learning_rate": 0.0002865436609485597,
      "loss": 3.9862,
      "step": 66940
    },
    {
      "epoch": 0.13947916666666665,
      "grad_norm": 0.7501576542854309,
      "learning_rate": 0.00028653957951979927,
      "loss": 4.0422,
      "step": 66950
    },
    {
      "epoch": 0.1395,
      "grad_norm": 0.751736044883728,
      "learning_rate": 0.00028653549750124184,
      "loss": 4.0201,
      "step": 66960
    },
    {
      "epoch": 0.13952083333333334,
      "grad_norm": 0.7579165697097778,
      "learning_rate": 0.0002865314148929051,
      "loss": 4.2246,
      "step": 66970
    },
    {
      "epoch": 0.13954166666666667,
      "grad_norm": 0.8148170709609985,
      "learning_rate": 0.00028652733169480673,
      "loss": 4.1324,
      "step": 66980
    },
    {
      "epoch": 0.1395625,
      "grad_norm": 0.7061417102813721,
      "learning_rate": 0.0002865232479069643,
      "loss": 4.0256,
      "step": 66990
    },
    {
      "epoch": 0.13958333333333334,
      "grad_norm": 0.7910216450691223,
      "learning_rate": 0.00028651916352939554,
      "loss": 4.003,
      "step": 67000
    },
    {
      "epoch": 0.13958333333333334,
      "eval_loss": 4.276420593261719,
      "eval_runtime": 10.2531,
      "eval_samples_per_second": 0.975,
      "eval_steps_per_second": 0.293,
      "step": 67000
    },
    {
      "epoch": 0.13960416666666667,
      "grad_norm": 0.9156991839408875,
      "learning_rate": 0.00028651507856211796,
      "loss": 3.9639,
      "step": 67010
    },
    {
      "epoch": 0.139625,
      "grad_norm": 0.7979676723480225,
      "learning_rate": 0.0002865109930051493,
      "loss": 3.9102,
      "step": 67020
    },
    {
      "epoch": 0.13964583333333333,
      "grad_norm": 0.7167903184890747,
      "learning_rate": 0.0002865069068585072,
      "loss": 4.1039,
      "step": 67030
    },
    {
      "epoch": 0.13966666666666666,
      "grad_norm": 0.9077431559562683,
      "learning_rate": 0.0002865028201222093,
      "loss": 4.0158,
      "step": 67040
    },
    {
      "epoch": 0.1396875,
      "grad_norm": 0.697561502456665,
      "learning_rate": 0.0002864987327962732,
      "loss": 3.9194,
      "step": 67050
    },
    {
      "epoch": 0.13970833333333332,
      "grad_norm": 0.7293820381164551,
      "learning_rate": 0.00028649464488071663,
      "loss": 3.9485,
      "step": 67060
    },
    {
      "epoch": 0.13972916666666665,
      "grad_norm": 0.7158096432685852,
      "learning_rate": 0.0002864905563755572,
      "loss": 4.1011,
      "step": 67070
    },
    {
      "epoch": 0.13975,
      "grad_norm": 0.7435108423233032,
      "learning_rate": 0.00028648646728081264,
      "loss": 4.0432,
      "step": 67080
    },
    {
      "epoch": 0.13977083333333334,
      "grad_norm": 0.8101531863212585,
      "learning_rate": 0.0002864823775965005,
      "loss": 4.0,
      "step": 67090
    },
    {
      "epoch": 0.13979166666666668,
      "grad_norm": 0.7339980006217957,
      "learning_rate": 0.0002864782873226386,
      "loss": 4.1664,
      "step": 67100
    },
    {
      "epoch": 0.1398125,
      "grad_norm": 0.737366259098053,
      "learning_rate": 0.0002864741964592445,
      "loss": 3.7327,
      "step": 67110
    },
    {
      "epoch": 0.13983333333333334,
      "grad_norm": 0.9386153221130371,
      "learning_rate": 0.00028647010500633586,
      "loss": 3.8721,
      "step": 67120
    },
    {
      "epoch": 0.13985416666666667,
      "grad_norm": 0.8770789504051208,
      "learning_rate": 0.0002864660129639304,
      "loss": 4.0339,
      "step": 67130
    },
    {
      "epoch": 0.139875,
      "grad_norm": 0.764401376247406,
      "learning_rate": 0.00028646192033204577,
      "loss": 3.929,
      "step": 67140
    },
    {
      "epoch": 0.13989583333333333,
      "grad_norm": 0.7835575342178345,
      "learning_rate": 0.0002864578271106997,
      "loss": 4.0543,
      "step": 67150
    },
    {
      "epoch": 0.13991666666666666,
      "grad_norm": 0.7477178573608398,
      "learning_rate": 0.00028645373329990977,
      "loss": 4.0098,
      "step": 67160
    },
    {
      "epoch": 0.1399375,
      "grad_norm": 0.7605560421943665,
      "learning_rate": 0.00028644963889969376,
      "loss": 3.9761,
      "step": 67170
    },
    {
      "epoch": 0.13995833333333332,
      "grad_norm": 0.821408212184906,
      "learning_rate": 0.0002864455439100693,
      "loss": 3.9771,
      "step": 67180
    },
    {
      "epoch": 0.13997916666666665,
      "grad_norm": 0.8547506332397461,
      "learning_rate": 0.0002864414483310541,
      "loss": 4.1226,
      "step": 67190
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7052234411239624,
      "learning_rate": 0.0002864373521626659,
      "loss": 4.3073,
      "step": 67200
    },
    {
      "epoch": 0.14002083333333334,
      "grad_norm": 0.757892906665802,
      "learning_rate": 0.0002864332554049223,
      "loss": 4.2282,
      "step": 67210
    },
    {
      "epoch": 0.14004166666666668,
      "grad_norm": 0.8175687193870544,
      "learning_rate": 0.000286429158057841,
      "loss": 4.1726,
      "step": 67220
    },
    {
      "epoch": 0.1400625,
      "grad_norm": 0.8422300219535828,
      "learning_rate": 0.0002864250601214398,
      "loss": 3.9396,
      "step": 67230
    },
    {
      "epoch": 0.14008333333333334,
      "grad_norm": 0.733242392539978,
      "learning_rate": 0.0002864209615957363,
      "loss": 4.056,
      "step": 67240
    },
    {
      "epoch": 0.14010416666666667,
      "grad_norm": 0.688207745552063,
      "learning_rate": 0.00028641686248074834,
      "loss": 4.055,
      "step": 67250
    },
    {
      "epoch": 0.140125,
      "grad_norm": 0.8442126512527466,
      "learning_rate": 0.00028641276277649344,
      "loss": 4.0531,
      "step": 67260
    },
    {
      "epoch": 0.14014583333333333,
      "grad_norm": 0.8507494926452637,
      "learning_rate": 0.0002864086624829894,
      "loss": 4.0052,
      "step": 67270
    },
    {
      "epoch": 0.14016666666666666,
      "grad_norm": 0.7374512553215027,
      "learning_rate": 0.000286404561600254,
      "loss": 3.9533,
      "step": 67280
    },
    {
      "epoch": 0.1401875,
      "grad_norm": 0.8030338287353516,
      "learning_rate": 0.0002864004601283048,
      "loss": 3.8822,
      "step": 67290
    },
    {
      "epoch": 0.14020833333333332,
      "grad_norm": 0.781160295009613,
      "learning_rate": 0.00028639635806715965,
      "loss": 3.9163,
      "step": 67300
    },
    {
      "epoch": 0.14022916666666665,
      "grad_norm": 0.7141364812850952,
      "learning_rate": 0.00028639225541683623,
      "loss": 3.9323,
      "step": 67310
    },
    {
      "epoch": 0.14025,
      "grad_norm": 0.8599461913108826,
      "learning_rate": 0.00028638815217735226,
      "loss": 4.0808,
      "step": 67320
    },
    {
      "epoch": 0.14027083333333334,
      "grad_norm": 0.7610298991203308,
      "learning_rate": 0.0002863840483487254,
      "loss": 3.8495,
      "step": 67330
    },
    {
      "epoch": 0.14029166666666668,
      "grad_norm": 0.8625538349151611,
      "learning_rate": 0.0002863799439309735,
      "loss": 4.0453,
      "step": 67340
    },
    {
      "epoch": 0.1403125,
      "grad_norm": 0.8232345581054688,
      "learning_rate": 0.0002863758389241142,
      "loss": 3.9452,
      "step": 67350
    },
    {
      "epoch": 0.14033333333333334,
      "grad_norm": 0.8120365738868713,
      "learning_rate": 0.0002863717333281653,
      "loss": 4.0147,
      "step": 67360
    },
    {
      "epoch": 0.14035416666666667,
      "grad_norm": 0.8351393342018127,
      "learning_rate": 0.00028636762714314443,
      "loss": 4.0277,
      "step": 67370
    },
    {
      "epoch": 0.140375,
      "grad_norm": 0.7913128137588501,
      "learning_rate": 0.0002863635203690694,
      "loss": 4.1899,
      "step": 67380
    },
    {
      "epoch": 0.14039583333333333,
      "grad_norm": 0.9136815667152405,
      "learning_rate": 0.00028635941300595797,
      "loss": 3.9516,
      "step": 67390
    },
    {
      "epoch": 0.14041666666666666,
      "grad_norm": 0.7650099396705627,
      "learning_rate": 0.0002863553050538278,
      "loss": 3.9319,
      "step": 67400
    },
    {
      "epoch": 0.1404375,
      "grad_norm": 0.9565250873565674,
      "learning_rate": 0.00028635119651269675,
      "loss": 3.7928,
      "step": 67410
    },
    {
      "epoch": 0.14045833333333332,
      "grad_norm": 0.8208547830581665,
      "learning_rate": 0.00028634708738258245,
      "loss": 4.1785,
      "step": 67420
    },
    {
      "epoch": 0.14047916666666665,
      "grad_norm": 0.8738393187522888,
      "learning_rate": 0.0002863429776635027,
      "loss": 4.1467,
      "step": 67430
    },
    {
      "epoch": 0.1405,
      "grad_norm": 0.8750103116035461,
      "learning_rate": 0.00028633886735547533,
      "loss": 3.9183,
      "step": 67440
    },
    {
      "epoch": 0.14052083333333334,
      "grad_norm": 0.7483782172203064,
      "learning_rate": 0.0002863347564585179,
      "loss": 3.8365,
      "step": 67450
    },
    {
      "epoch": 0.14054166666666668,
      "grad_norm": 0.6976781487464905,
      "learning_rate": 0.0002863306449726484,
      "loss": 4.101,
      "step": 67460
    },
    {
      "epoch": 0.1405625,
      "grad_norm": 0.8085796236991882,
      "learning_rate": 0.0002863265328978844,
      "loss": 3.9653,
      "step": 67470
    },
    {
      "epoch": 0.14058333333333334,
      "grad_norm": 1.0199956893920898,
      "learning_rate": 0.00028632242023424377,
      "loss": 4.0001,
      "step": 67480
    },
    {
      "epoch": 0.14060416666666667,
      "grad_norm": 0.8205024003982544,
      "learning_rate": 0.0002863183069817442,
      "loss": 4.074,
      "step": 67490
    },
    {
      "epoch": 0.140625,
      "grad_norm": 0.7775112986564636,
      "learning_rate": 0.0002863141931404036,
      "loss": 3.8565,
      "step": 67500
    },
    {
      "epoch": 0.14064583333333333,
      "grad_norm": 0.8740219473838806,
      "learning_rate": 0.00028631007871023957,
      "loss": 3.734,
      "step": 67510
    },
    {
      "epoch": 0.14066666666666666,
      "grad_norm": 0.8270694017410278,
      "learning_rate": 0.00028630596369126995,
      "loss": 3.875,
      "step": 67520
    },
    {
      "epoch": 0.1406875,
      "grad_norm": 0.7835750579833984,
      "learning_rate": 0.0002863018480835126,
      "loss": 3.9083,
      "step": 67530
    },
    {
      "epoch": 0.14070833333333332,
      "grad_norm": 0.6668506860733032,
      "learning_rate": 0.0002862977318869851,
      "loss": 3.7652,
      "step": 67540
    },
    {
      "epoch": 0.14072916666666666,
      "grad_norm": 0.6979983448982239,
      "learning_rate": 0.0002862936151017055,
      "loss": 4.2391,
      "step": 67550
    },
    {
      "epoch": 0.14075,
      "grad_norm": 0.7491747736930847,
      "learning_rate": 0.00028628949772769127,
      "loss": 4.0635,
      "step": 67560
    },
    {
      "epoch": 0.14077083333333335,
      "grad_norm": 0.6643783450126648,
      "learning_rate": 0.0002862853797649605,
      "loss": 4.049,
      "step": 67570
    },
    {
      "epoch": 0.14079166666666668,
      "grad_norm": 0.9443399906158447,
      "learning_rate": 0.0002862812612135307,
      "loss": 3.7484,
      "step": 67580
    },
    {
      "epoch": 0.1408125,
      "grad_norm": 0.8297256231307983,
      "learning_rate": 0.0002862771420734199,
      "loss": 3.9352,
      "step": 67590
    },
    {
      "epoch": 0.14083333333333334,
      "grad_norm": 0.6943755745887756,
      "learning_rate": 0.0002862730223446457,
      "loss": 4.0403,
      "step": 67600
    },
    {
      "epoch": 0.14085416666666667,
      "grad_norm": 0.8211439251899719,
      "learning_rate": 0.00028626890202722603,
      "loss": 4.0425,
      "step": 67610
    },
    {
      "epoch": 0.140875,
      "grad_norm": 0.7740168571472168,
      "learning_rate": 0.00028626478112117864,
      "loss": 4.0039,
      "step": 67620
    },
    {
      "epoch": 0.14089583333333333,
      "grad_norm": 0.7538868188858032,
      "learning_rate": 0.00028626065962652136,
      "loss": 3.9336,
      "step": 67630
    },
    {
      "epoch": 0.14091666666666666,
      "grad_norm": 0.8363707065582275,
      "learning_rate": 0.00028625653754327197,
      "loss": 3.8547,
      "step": 67640
    },
    {
      "epoch": 0.1409375,
      "grad_norm": 0.7309132218360901,
      "learning_rate": 0.00028625241487144825,
      "loss": 4.1285,
      "step": 67650
    },
    {
      "epoch": 0.14095833333333332,
      "grad_norm": 0.7842198610305786,
      "learning_rate": 0.000286248291611068,
      "loss": 4.0555,
      "step": 67660
    },
    {
      "epoch": 0.14097916666666666,
      "grad_norm": 0.8510138392448425,
      "learning_rate": 0.00028624416776214907,
      "loss": 3.804,
      "step": 67670
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.7988179326057434,
      "learning_rate": 0.0002862400433247093,
      "loss": 4.1998,
      "step": 67680
    },
    {
      "epoch": 0.14102083333333335,
      "grad_norm": 0.8140338659286499,
      "learning_rate": 0.00028623591829876643,
      "loss": 4.0173,
      "step": 67690
    },
    {
      "epoch": 0.14104166666666668,
      "grad_norm": 0.7124209403991699,
      "learning_rate": 0.0002862317926843384,
      "loss": 3.8901,
      "step": 67700
    },
    {
      "epoch": 0.1410625,
      "grad_norm": 0.7556617856025696,
      "learning_rate": 0.00028622766648144285,
      "loss": 4.1091,
      "step": 67710
    },
    {
      "epoch": 0.14108333333333334,
      "grad_norm": 0.7983152270317078,
      "learning_rate": 0.00028622353969009773,
      "loss": 3.8423,
      "step": 67720
    },
    {
      "epoch": 0.14110416666666667,
      "grad_norm": 0.8871049880981445,
      "learning_rate": 0.00028621941231032086,
      "loss": 3.855,
      "step": 67730
    },
    {
      "epoch": 0.141125,
      "grad_norm": 0.7759780287742615,
      "learning_rate": 0.00028621528434213,
      "loss": 3.997,
      "step": 67740
    },
    {
      "epoch": 0.14114583333333333,
      "grad_norm": 0.753017008304596,
      "learning_rate": 0.00028621115578554313,
      "loss": 4.0343,
      "step": 67750
    },
    {
      "epoch": 0.14116666666666666,
      "grad_norm": 0.7977811694145203,
      "learning_rate": 0.0002862070266405779,
      "loss": 3.884,
      "step": 67760
    },
    {
      "epoch": 0.1411875,
      "grad_norm": 0.6948860883712769,
      "learning_rate": 0.0002862028969072523,
      "loss": 4.0462,
      "step": 67770
    },
    {
      "epoch": 0.14120833333333332,
      "grad_norm": 0.925207257270813,
      "learning_rate": 0.000286198766585584,
      "loss": 4.0486,
      "step": 67780
    },
    {
      "epoch": 0.14122916666666666,
      "grad_norm": 0.9186550378799438,
      "learning_rate": 0.00028619463567559103,
      "loss": 3.9416,
      "step": 67790
    },
    {
      "epoch": 0.14125,
      "grad_norm": 0.8622272610664368,
      "learning_rate": 0.0002861905041772911,
      "loss": 3.9462,
      "step": 67800
    },
    {
      "epoch": 0.14127083333333335,
      "grad_norm": 0.6530129313468933,
      "learning_rate": 0.00028618637209070207,
      "loss": 4.085,
      "step": 67810
    },
    {
      "epoch": 0.14129166666666668,
      "grad_norm": 0.7675093412399292,
      "learning_rate": 0.00028618223941584187,
      "loss": 4.0921,
      "step": 67820
    },
    {
      "epoch": 0.1413125,
      "grad_norm": 0.7854140996932983,
      "learning_rate": 0.0002861781061527283,
      "loss": 4.1592,
      "step": 67830
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 0.7828556895256042,
      "learning_rate": 0.0002861739723013792,
      "loss": 4.011,
      "step": 67840
    },
    {
      "epoch": 0.14135416666666667,
      "grad_norm": 0.7644075155258179,
      "learning_rate": 0.00028616983786181245,
      "loss": 4.0299,
      "step": 67850
    },
    {
      "epoch": 0.141375,
      "grad_norm": 0.8139627575874329,
      "learning_rate": 0.0002861657028340459,
      "loss": 4.001,
      "step": 67860
    },
    {
      "epoch": 0.14139583333333333,
      "grad_norm": 0.7982949614524841,
      "learning_rate": 0.0002861615672180974,
      "loss": 3.9721,
      "step": 67870
    },
    {
      "epoch": 0.14141666666666666,
      "grad_norm": 0.792457103729248,
      "learning_rate": 0.0002861574310139848,
      "loss": 3.9748,
      "step": 67880
    },
    {
      "epoch": 0.1414375,
      "grad_norm": 0.7915335893630981,
      "learning_rate": 0.000286153294221726,
      "loss": 4.172,
      "step": 67890
    },
    {
      "epoch": 0.14145833333333332,
      "grad_norm": 0.7654396891593933,
      "learning_rate": 0.00028614915684133894,
      "loss": 4.0046,
      "step": 67900
    },
    {
      "epoch": 0.14147916666666666,
      "grad_norm": 0.8173422813415527,
      "learning_rate": 0.00028614501887284135,
      "loss": 4.0218,
      "step": 67910
    },
    {
      "epoch": 0.1415,
      "grad_norm": 0.7302141785621643,
      "learning_rate": 0.00028614088031625115,
      "loss": 3.9187,
      "step": 67920
    },
    {
      "epoch": 0.14152083333333335,
      "grad_norm": 0.7753027081489563,
      "learning_rate": 0.0002861367411715862,
      "loss": 3.9306,
      "step": 67930
    },
    {
      "epoch": 0.14154166666666668,
      "grad_norm": 0.7701120376586914,
      "learning_rate": 0.0002861326014388645,
      "loss": 3.8931,
      "step": 67940
    },
    {
      "epoch": 0.1415625,
      "grad_norm": 0.8398255109786987,
      "learning_rate": 0.00028612846111810385,
      "loss": 3.9586,
      "step": 67950
    },
    {
      "epoch": 0.14158333333333334,
      "grad_norm": 0.7803829908370972,
      "learning_rate": 0.0002861243202093221,
      "loss": 4.0788,
      "step": 67960
    },
    {
      "epoch": 0.14160416666666667,
      "grad_norm": 0.8801718354225159,
      "learning_rate": 0.0002861201787125372,
      "loss": 3.9231,
      "step": 67970
    },
    {
      "epoch": 0.141625,
      "grad_norm": 0.7943689823150635,
      "learning_rate": 0.00028611603662776695,
      "loss": 4.0173,
      "step": 67980
    },
    {
      "epoch": 0.14164583333333333,
      "grad_norm": 0.7450417280197144,
      "learning_rate": 0.00028611189395502933,
      "loss": 3.9647,
      "step": 67990
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 0.6568418145179749,
      "learning_rate": 0.0002861077506943422,
      "loss": 3.9027,
      "step": 68000
    },
    {
      "epoch": 0.14166666666666666,
      "eval_loss": 4.286848545074463,
      "eval_runtime": 9.2215,
      "eval_samples_per_second": 1.084,
      "eval_steps_per_second": 0.325,
      "step": 68000
    },
    {
      "epoch": 0.1416875,
      "grad_norm": 0.7643829584121704,
      "learning_rate": 0.0002861036068457235,
      "loss": 4.0662,
      "step": 68010
    },
    {
      "epoch": 0.14170833333333333,
      "grad_norm": 0.8547444939613342,
      "learning_rate": 0.000286099462409191,
      "loss": 3.9766,
      "step": 68020
    },
    {
      "epoch": 0.14172916666666666,
      "grad_norm": 0.7716964483261108,
      "learning_rate": 0.00028609531738476283,
      "loss": 3.9988,
      "step": 68030
    },
    {
      "epoch": 0.14175,
      "grad_norm": 1.3800851106643677,
      "learning_rate": 0.00028609117177245665,
      "loss": 3.8436,
      "step": 68040
    },
    {
      "epoch": 0.14177083333333335,
      "grad_norm": 0.7249186635017395,
      "learning_rate": 0.0002860870255722905,
      "loss": 3.9899,
      "step": 68050
    },
    {
      "epoch": 0.14179166666666668,
      "grad_norm": 0.8138715624809265,
      "learning_rate": 0.00028608287878428227,
      "loss": 3.9322,
      "step": 68060
    },
    {
      "epoch": 0.1418125,
      "grad_norm": 0.813245415687561,
      "learning_rate": 0.0002860787314084499,
      "loss": 3.9035,
      "step": 68070
    },
    {
      "epoch": 0.14183333333333334,
      "grad_norm": 0.8059067726135254,
      "learning_rate": 0.0002860745834448112,
      "loss": 4.0111,
      "step": 68080
    },
    {
      "epoch": 0.14185416666666667,
      "grad_norm": 0.7531965374946594,
      "learning_rate": 0.00028607043489338425,
      "loss": 3.9871,
      "step": 68090
    },
    {
      "epoch": 0.141875,
      "grad_norm": 0.7514706254005432,
      "learning_rate": 0.00028606628575418683,
      "loss": 3.9158,
      "step": 68100
    },
    {
      "epoch": 0.14189583333333333,
      "grad_norm": 0.8034390211105347,
      "learning_rate": 0.0002860621360272369,
      "loss": 3.7255,
      "step": 68110
    },
    {
      "epoch": 0.14191666666666666,
      "grad_norm": 0.7740110754966736,
      "learning_rate": 0.0002860579857125525,
      "loss": 3.998,
      "step": 68120
    },
    {
      "epoch": 0.1419375,
      "grad_norm": 0.9132469892501831,
      "learning_rate": 0.0002860538348101513,
      "loss": 4.0898,
      "step": 68130
    },
    {
      "epoch": 0.14195833333333333,
      "grad_norm": 0.8638371825218201,
      "learning_rate": 0.0002860496833200515,
      "loss": 3.9487,
      "step": 68140
    },
    {
      "epoch": 0.14197916666666666,
      "grad_norm": 0.7923216223716736,
      "learning_rate": 0.0002860455312422709,
      "loss": 3.9976,
      "step": 68150
    },
    {
      "epoch": 0.142,
      "grad_norm": 0.764724612236023,
      "learning_rate": 0.00028604137857682745,
      "loss": 3.9946,
      "step": 68160
    },
    {
      "epoch": 0.14202083333333335,
      "grad_norm": 0.6943413019180298,
      "learning_rate": 0.0002860372253237391,
      "loss": 4.0631,
      "step": 68170
    },
    {
      "epoch": 0.14204166666666668,
      "grad_norm": 0.7473767995834351,
      "learning_rate": 0.00028603307148302375,
      "loss": 3.9916,
      "step": 68180
    },
    {
      "epoch": 0.1420625,
      "grad_norm": 0.7849889993667603,
      "learning_rate": 0.0002860289170546994,
      "loss": 3.9912,
      "step": 68190
    },
    {
      "epoch": 0.14208333333333334,
      "grad_norm": 0.9748041033744812,
      "learning_rate": 0.000286024762038784,
      "loss": 3.9122,
      "step": 68200
    },
    {
      "epoch": 0.14210416666666667,
      "grad_norm": 0.908832311630249,
      "learning_rate": 0.00028602060643529543,
      "loss": 3.8981,
      "step": 68210
    },
    {
      "epoch": 0.142125,
      "grad_norm": 0.7090237736701965,
      "learning_rate": 0.0002860164502442517,
      "loss": 3.8567,
      "step": 68220
    },
    {
      "epoch": 0.14214583333333333,
      "grad_norm": 0.8290879726409912,
      "learning_rate": 0.00028601229346567075,
      "loss": 4.0328,
      "step": 68230
    },
    {
      "epoch": 0.14216666666666666,
      "grad_norm": 0.7229495048522949,
      "learning_rate": 0.0002860081360995705,
      "loss": 3.9705,
      "step": 68240
    },
    {
      "epoch": 0.1421875,
      "grad_norm": 0.8187728524208069,
      "learning_rate": 0.00028600397814596896,
      "loss": 4.0034,
      "step": 68250
    },
    {
      "epoch": 0.14220833333333333,
      "grad_norm": 0.8531426787376404,
      "learning_rate": 0.00028599981960488407,
      "loss": 3.9797,
      "step": 68260
    },
    {
      "epoch": 0.14222916666666666,
      "grad_norm": 0.8050381541252136,
      "learning_rate": 0.00028599566047633377,
      "loss": 4.1167,
      "step": 68270
    },
    {
      "epoch": 0.14225,
      "grad_norm": 0.7954885959625244,
      "learning_rate": 0.00028599150076033606,
      "loss": 4.061,
      "step": 68280
    },
    {
      "epoch": 0.14227083333333335,
      "grad_norm": 0.7434096336364746,
      "learning_rate": 0.0002859873404569089,
      "loss": 3.9838,
      "step": 68290
    },
    {
      "epoch": 0.14229166666666668,
      "grad_norm": 0.7522338628768921,
      "learning_rate": 0.0002859831795660703,
      "loss": 3.9981,
      "step": 68300
    },
    {
      "epoch": 0.1423125,
      "grad_norm": 0.8243728280067444,
      "learning_rate": 0.0002859790180878381,
      "loss": 3.9135,
      "step": 68310
    },
    {
      "epoch": 0.14233333333333334,
      "grad_norm": 0.7268194556236267,
      "learning_rate": 0.00028597485602223046,
      "loss": 4.0035,
      "step": 68320
    },
    {
      "epoch": 0.14235416666666667,
      "grad_norm": 0.8003144264221191,
      "learning_rate": 0.0002859706933692652,
      "loss": 3.8899,
      "step": 68330
    },
    {
      "epoch": 0.142375,
      "grad_norm": 1.0348068475723267,
      "learning_rate": 0.00028596653012896034,
      "loss": 3.8792,
      "step": 68340
    },
    {
      "epoch": 0.14239583333333333,
      "grad_norm": 0.7865002751350403,
      "learning_rate": 0.00028596236630133395,
      "loss": 3.9494,
      "step": 68350
    },
    {
      "epoch": 0.14241666666666666,
      "grad_norm": 0.8334981203079224,
      "learning_rate": 0.0002859582018864039,
      "loss": 3.8546,
      "step": 68360
    },
    {
      "epoch": 0.1424375,
      "grad_norm": 0.7282049059867859,
      "learning_rate": 0.0002859540368841883,
      "loss": 4.064,
      "step": 68370
    },
    {
      "epoch": 0.14245833333333333,
      "grad_norm": 0.7172561883926392,
      "learning_rate": 0.00028594987129470503,
      "loss": 3.8566,
      "step": 68380
    },
    {
      "epoch": 0.14247916666666666,
      "grad_norm": 0.7230831980705261,
      "learning_rate": 0.00028594570511797216,
      "loss": 3.8113,
      "step": 68390
    },
    {
      "epoch": 0.1425,
      "grad_norm": 0.6746689081192017,
      "learning_rate": 0.00028594153835400765,
      "loss": 3.8732,
      "step": 68400
    },
    {
      "epoch": 0.14252083333333335,
      "grad_norm": 0.7172960638999939,
      "learning_rate": 0.0002859373710028295,
      "loss": 4.043,
      "step": 68410
    },
    {
      "epoch": 0.14254166666666668,
      "grad_norm": 0.66281658411026,
      "learning_rate": 0.0002859332030644557,
      "loss": 3.9268,
      "step": 68420
    },
    {
      "epoch": 0.1425625,
      "grad_norm": 0.754166305065155,
      "learning_rate": 0.00028592903453890427,
      "loss": 4.0261,
      "step": 68430
    },
    {
      "epoch": 0.14258333333333334,
      "grad_norm": 0.8262802958488464,
      "learning_rate": 0.00028592486542619323,
      "loss": 3.8987,
      "step": 68440
    },
    {
      "epoch": 0.14260416666666667,
      "grad_norm": 0.8017993569374084,
      "learning_rate": 0.0002859206957263406,
      "loss": 3.9276,
      "step": 68450
    },
    {
      "epoch": 0.142625,
      "grad_norm": 0.8600105047225952,
      "learning_rate": 0.0002859165254393643,
      "loss": 4.0053,
      "step": 68460
    },
    {
      "epoch": 0.14264583333333333,
      "grad_norm": 0.7667782306671143,
      "learning_rate": 0.00028591235456528244,
      "loss": 3.7532,
      "step": 68470
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 0.8554555177688599,
      "learning_rate": 0.000285908183104113,
      "loss": 3.9408,
      "step": 68480
    },
    {
      "epoch": 0.1426875,
      "grad_norm": 0.8535481095314026,
      "learning_rate": 0.00028590401105587406,
      "loss": 3.9527,
      "step": 68490
    },
    {
      "epoch": 0.14270833333333333,
      "grad_norm": 0.876471996307373,
      "learning_rate": 0.0002858998384205835,
      "loss": 3.8801,
      "step": 68500
    },
    {
      "epoch": 0.14272916666666666,
      "grad_norm": 0.9083638191223145,
      "learning_rate": 0.00028589566519825947,
      "loss": 3.8746,
      "step": 68510
    },
    {
      "epoch": 0.14275,
      "grad_norm": 0.6900635361671448,
      "learning_rate": 0.00028589149138892,
      "loss": 4.0078,
      "step": 68520
    },
    {
      "epoch": 0.14277083333333335,
      "grad_norm": 0.7093167901039124,
      "learning_rate": 0.000285887316992583,
      "loss": 3.8431,
      "step": 68530
    },
    {
      "epoch": 0.14279166666666668,
      "grad_norm": 0.7775229811668396,
      "learning_rate": 0.0002858831420092666,
      "loss": 3.8998,
      "step": 68540
    },
    {
      "epoch": 0.1428125,
      "grad_norm": 0.7805194854736328,
      "learning_rate": 0.00028587896643898883,
      "loss": 3.8318,
      "step": 68550
    },
    {
      "epoch": 0.14283333333333334,
      "grad_norm": 0.8315593004226685,
      "learning_rate": 0.00028587479028176774,
      "loss": 3.8961,
      "step": 68560
    },
    {
      "epoch": 0.14285416666666667,
      "grad_norm": 0.784963071346283,
      "learning_rate": 0.0002858706135376213,
      "loss": 4.1217,
      "step": 68570
    },
    {
      "epoch": 0.142875,
      "grad_norm": 0.7537537813186646,
      "learning_rate": 0.0002858664362065676,
      "loss": 3.9514,
      "step": 68580
    },
    {
      "epoch": 0.14289583333333333,
      "grad_norm": 0.834528923034668,
      "learning_rate": 0.00028586225828862465,
      "loss": 3.8817,
      "step": 68590
    },
    {
      "epoch": 0.14291666666666666,
      "grad_norm": 0.8019347786903381,
      "learning_rate": 0.0002858580797838105,
      "loss": 3.787,
      "step": 68600
    },
    {
      "epoch": 0.1429375,
      "grad_norm": 0.8701620101928711,
      "learning_rate": 0.0002858539006921433,
      "loss": 3.9976,
      "step": 68610
    },
    {
      "epoch": 0.14295833333333333,
      "grad_norm": 0.7548373937606812,
      "learning_rate": 0.000285849721013641,
      "loss": 4.1532,
      "step": 68620
    },
    {
      "epoch": 0.14297916666666666,
      "grad_norm": 0.8507885932922363,
      "learning_rate": 0.0002858455407483217,
      "loss": 3.8716,
      "step": 68630
    },
    {
      "epoch": 0.143,
      "grad_norm": 0.8160971999168396,
      "learning_rate": 0.0002858413598962034,
      "loss": 3.8161,
      "step": 68640
    },
    {
      "epoch": 0.14302083333333335,
      "grad_norm": 0.8048255443572998,
      "learning_rate": 0.00028583717845730416,
      "loss": 4.2902,
      "step": 68650
    },
    {
      "epoch": 0.14304166666666668,
      "grad_norm": 0.7886331081390381,
      "learning_rate": 0.0002858329964316421,
      "loss": 4.045,
      "step": 68660
    },
    {
      "epoch": 0.1430625,
      "grad_norm": 0.9302475452423096,
      "learning_rate": 0.00028582881381923527,
      "loss": 4.0035,
      "step": 68670
    },
    {
      "epoch": 0.14308333333333334,
      "grad_norm": 0.8202977180480957,
      "learning_rate": 0.00028582463062010177,
      "loss": 3.9093,
      "step": 68680
    },
    {
      "epoch": 0.14310416666666667,
      "grad_norm": 0.9660162329673767,
      "learning_rate": 0.0002858204468342596,
      "loss": 4.1651,
      "step": 68690
    },
    {
      "epoch": 0.143125,
      "grad_norm": 0.7714551687240601,
      "learning_rate": 0.0002858162624617268,
      "loss": 3.9611,
      "step": 68700
    },
    {
      "epoch": 0.14314583333333333,
      "grad_norm": 0.7755201458930969,
      "learning_rate": 0.0002858120775025216,
      "loss": 4.0893,
      "step": 68710
    },
    {
      "epoch": 0.14316666666666666,
      "grad_norm": 0.7933080792427063,
      "learning_rate": 0.0002858078919566619,
      "loss": 4.0676,
      "step": 68720
    },
    {
      "epoch": 0.1431875,
      "grad_norm": 0.7870540022850037,
      "learning_rate": 0.00028580370582416593,
      "loss": 3.7976,
      "step": 68730
    },
    {
      "epoch": 0.14320833333333333,
      "grad_norm": 0.8516893982887268,
      "learning_rate": 0.0002857995191050517,
      "loss": 3.8384,
      "step": 68740
    },
    {
      "epoch": 0.14322916666666666,
      "grad_norm": 0.7151204347610474,
      "learning_rate": 0.0002857953317993373,
      "loss": 3.828,
      "step": 68750
    },
    {
      "epoch": 0.14325,
      "grad_norm": 0.8456266522407532,
      "learning_rate": 0.00028579114390704077,
      "loss": 3.986,
      "step": 68760
    },
    {
      "epoch": 0.14327083333333332,
      "grad_norm": 0.900972843170166,
      "learning_rate": 0.00028578695542818026,
      "loss": 3.9533,
      "step": 68770
    },
    {
      "epoch": 0.14329166666666668,
      "grad_norm": 0.8504452705383301,
      "learning_rate": 0.0002857827663627739,
      "loss": 3.822,
      "step": 68780
    },
    {
      "epoch": 0.1433125,
      "grad_norm": 0.6918832659721375,
      "learning_rate": 0.0002857785767108397,
      "loss": 3.8271,
      "step": 68790
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 0.9858295917510986,
      "learning_rate": 0.0002857743864723958,
      "loss": 3.9341,
      "step": 68800
    },
    {
      "epoch": 0.14335416666666667,
      "grad_norm": 0.700001060962677,
      "learning_rate": 0.00028577019564746033,
      "loss": 3.7585,
      "step": 68810
    },
    {
      "epoch": 0.143375,
      "grad_norm": 1.1042606830596924,
      "learning_rate": 0.0002857660042360513,
      "loss": 3.9792,
      "step": 68820
    },
    {
      "epoch": 0.14339583333333333,
      "grad_norm": 0.7815753817558289,
      "learning_rate": 0.00028576181223818686,
      "loss": 3.8902,
      "step": 68830
    },
    {
      "epoch": 0.14341666666666666,
      "grad_norm": 0.7372857332229614,
      "learning_rate": 0.0002857576196538852,
      "loss": 4.0935,
      "step": 68840
    },
    {
      "epoch": 0.1434375,
      "grad_norm": 0.8020527362823486,
      "learning_rate": 0.0002857534264831643,
      "loss": 3.7934,
      "step": 68850
    },
    {
      "epoch": 0.14345833333333333,
      "grad_norm": 0.8075910806655884,
      "learning_rate": 0.0002857492327260424,
      "loss": 3.952,
      "step": 68860
    },
    {
      "epoch": 0.14347916666666666,
      "grad_norm": 0.8080703616142273,
      "learning_rate": 0.00028574503838253745,
      "loss": 4.0199,
      "step": 68870
    },
    {
      "epoch": 0.1435,
      "grad_norm": 0.8201339244842529,
      "learning_rate": 0.0002857408434526677,
      "loss": 3.9655,
      "step": 68880
    },
    {
      "epoch": 0.14352083333333332,
      "grad_norm": 0.8126558065414429,
      "learning_rate": 0.00028573664793645127,
      "loss": 3.8574,
      "step": 68890
    },
    {
      "epoch": 0.14354166666666668,
      "grad_norm": 0.8648584485054016,
      "learning_rate": 0.00028573245183390625,
      "loss": 4.0367,
      "step": 68900
    },
    {
      "epoch": 0.1435625,
      "grad_norm": 0.834685742855072,
      "learning_rate": 0.00028572825514505077,
      "loss": 4.1916,
      "step": 68910
    },
    {
      "epoch": 0.14358333333333334,
      "grad_norm": 0.6882045269012451,
      "learning_rate": 0.00028572405786990294,
      "loss": 3.8745,
      "step": 68920
    },
    {
      "epoch": 0.14360416666666667,
      "grad_norm": 0.8061152100563049,
      "learning_rate": 0.00028571986000848086,
      "loss": 3.8862,
      "step": 68930
    },
    {
      "epoch": 0.143625,
      "grad_norm": 0.6766529679298401,
      "learning_rate": 0.00028571566156080275,
      "loss": 4.0163,
      "step": 68940
    },
    {
      "epoch": 0.14364583333333333,
      "grad_norm": 0.842812716960907,
      "learning_rate": 0.0002857114625268867,
      "loss": 4.0042,
      "step": 68950
    },
    {
      "epoch": 0.14366666666666666,
      "grad_norm": 0.781862199306488,
      "learning_rate": 0.00028570726290675085,
      "loss": 4.1165,
      "step": 68960
    },
    {
      "epoch": 0.1436875,
      "grad_norm": 0.7969842553138733,
      "learning_rate": 0.0002857030627004133,
      "loss": 3.9389,
      "step": 68970
    },
    {
      "epoch": 0.14370833333333333,
      "grad_norm": 0.79613196849823,
      "learning_rate": 0.00028569886190789225,
      "loss": 3.9496,
      "step": 68980
    },
    {
      "epoch": 0.14372916666666666,
      "grad_norm": 0.777702808380127,
      "learning_rate": 0.0002856946605292059,
      "loss": 4.0914,
      "step": 68990
    },
    {
      "epoch": 0.14375,
      "grad_norm": 0.7720385789871216,
      "learning_rate": 0.00028569045856437225,
      "loss": 4.0008,
      "step": 69000
    },
    {
      "epoch": 0.14375,
      "eval_loss": 4.274445533752441,
      "eval_runtime": 9.362,
      "eval_samples_per_second": 1.068,
      "eval_steps_per_second": 0.32,
      "step": 69000
    },
    {
      "epoch": 0.14377083333333332,
      "grad_norm": 0.7591381669044495,
      "learning_rate": 0.00028568625601340953,
      "loss": 3.8535,
      "step": 69010
    },
    {
      "epoch": 0.14379166666666668,
      "grad_norm": 0.925487756729126,
      "learning_rate": 0.00028568205287633595,
      "loss": 4.1256,
      "step": 69020
    },
    {
      "epoch": 0.1438125,
      "grad_norm": 0.8254444003105164,
      "learning_rate": 0.00028567784915316957,
      "loss": 4.0451,
      "step": 69030
    },
    {
      "epoch": 0.14383333333333334,
      "grad_norm": 0.7031874656677246,
      "learning_rate": 0.00028567364484392854,
      "loss": 3.9958,
      "step": 69040
    },
    {
      "epoch": 0.14385416666666667,
      "grad_norm": 0.7742382884025574,
      "learning_rate": 0.0002856694399486312,
      "loss": 4.0983,
      "step": 69050
    },
    {
      "epoch": 0.143875,
      "grad_norm": 1.091235876083374,
      "learning_rate": 0.00028566523446729546,
      "loss": 3.9992,
      "step": 69060
    },
    {
      "epoch": 0.14389583333333333,
      "grad_norm": 0.7113263607025146,
      "learning_rate": 0.0002856610283999396,
      "loss": 4.0939,
      "step": 69070
    },
    {
      "epoch": 0.14391666666666666,
      "grad_norm": 0.7767949104309082,
      "learning_rate": 0.00028565682174658193,
      "loss": 3.8885,
      "step": 69080
    },
    {
      "epoch": 0.1439375,
      "grad_norm": 0.7369946837425232,
      "learning_rate": 0.00028565261450724035,
      "loss": 3.9517,
      "step": 69090
    },
    {
      "epoch": 0.14395833333333333,
      "grad_norm": 0.7156903147697449,
      "learning_rate": 0.00028564840668193325,
      "loss": 4.0029,
      "step": 69100
    },
    {
      "epoch": 0.14397916666666666,
      "grad_norm": 0.7362608313560486,
      "learning_rate": 0.0002856441982706787,
      "loss": 4.0133,
      "step": 69110
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.7841430306434631,
      "learning_rate": 0.00028563998927349485,
      "loss": 4.0488,
      "step": 69120
    },
    {
      "epoch": 0.14402083333333332,
      "grad_norm": 0.7672437429428101,
      "learning_rate": 0.00028563577969040004,
      "loss": 4.1256,
      "step": 69130
    },
    {
      "epoch": 0.14404166666666668,
      "grad_norm": 0.779388427734375,
      "learning_rate": 0.00028563156952141224,
      "loss": 3.9985,
      "step": 69140
    },
    {
      "epoch": 0.1440625,
      "grad_norm": 0.9371891617774963,
      "learning_rate": 0.0002856273587665499,
      "loss": 3.9048,
      "step": 69150
    },
    {
      "epoch": 0.14408333333333334,
      "grad_norm": 0.8399186134338379,
      "learning_rate": 0.0002856231474258309,
      "loss": 3.9454,
      "step": 69160
    },
    {
      "epoch": 0.14410416666666667,
      "grad_norm": 0.8997818827629089,
      "learning_rate": 0.00028561893549927366,
      "loss": 4.1008,
      "step": 69170
    },
    {
      "epoch": 0.144125,
      "grad_norm": 0.8138940930366516,
      "learning_rate": 0.00028561472298689627,
      "loss": 3.9223,
      "step": 69180
    },
    {
      "epoch": 0.14414583333333333,
      "grad_norm": 0.8672645092010498,
      "learning_rate": 0.000285610509888717,
      "loss": 4.0631,
      "step": 69190
    },
    {
      "epoch": 0.14416666666666667,
      "grad_norm": 0.7649490833282471,
      "learning_rate": 0.00028560629620475396,
      "loss": 3.9558,
      "step": 69200
    },
    {
      "epoch": 0.1441875,
      "grad_norm": 0.8688150644302368,
      "learning_rate": 0.0002856020819350254,
      "loss": 4.0186,
      "step": 69210
    },
    {
      "epoch": 0.14420833333333333,
      "grad_norm": 0.8281129598617554,
      "learning_rate": 0.00028559786707954955,
      "loss": 3.8218,
      "step": 69220
    },
    {
      "epoch": 0.14422916666666666,
      "grad_norm": 0.7590388059616089,
      "learning_rate": 0.0002855936516383446,
      "loss": 3.9423,
      "step": 69230
    },
    {
      "epoch": 0.14425,
      "grad_norm": 0.9959970116615295,
      "learning_rate": 0.0002855894356114287,
      "loss": 3.9673,
      "step": 69240
    },
    {
      "epoch": 0.14427083333333332,
      "grad_norm": 0.7323176860809326,
      "learning_rate": 0.00028558521899882015,
      "loss": 3.798,
      "step": 69250
    },
    {
      "epoch": 0.14429166666666668,
      "grad_norm": 0.8124967813491821,
      "learning_rate": 0.00028558100180053707,
      "loss": 3.9536,
      "step": 69260
    },
    {
      "epoch": 0.1443125,
      "grad_norm": 0.759676456451416,
      "learning_rate": 0.0002855767840165978,
      "loss": 3.9722,
      "step": 69270
    },
    {
      "epoch": 0.14433333333333334,
      "grad_norm": 0.7552157640457153,
      "learning_rate": 0.00028557256564702043,
      "loss": 4.0163,
      "step": 69280
    },
    {
      "epoch": 0.14435416666666667,
      "grad_norm": 0.8493736982345581,
      "learning_rate": 0.0002855683466918233,
      "loss": 3.784,
      "step": 69290
    },
    {
      "epoch": 0.144375,
      "grad_norm": 0.8520525097846985,
      "learning_rate": 0.0002855641271510245,
      "loss": 4.0873,
      "step": 69300
    },
    {
      "epoch": 0.14439583333333333,
      "grad_norm": 0.7280745506286621,
      "learning_rate": 0.00028555990702464236,
      "loss": 4.0469,
      "step": 69310
    },
    {
      "epoch": 0.14441666666666667,
      "grad_norm": 0.7128655910491943,
      "learning_rate": 0.0002855556863126951,
      "loss": 3.8393,
      "step": 69320
    },
    {
      "epoch": 0.1444375,
      "grad_norm": 0.7885478138923645,
      "learning_rate": 0.00028555146501520087,
      "loss": 3.9821,
      "step": 69330
    },
    {
      "epoch": 0.14445833333333333,
      "grad_norm": 0.72111576795578,
      "learning_rate": 0.00028554724313217806,
      "loss": 3.8723,
      "step": 69340
    },
    {
      "epoch": 0.14447916666666666,
      "grad_norm": 0.7697587609291077,
      "learning_rate": 0.0002855430206636447,
      "loss": 3.9614,
      "step": 69350
    },
    {
      "epoch": 0.1445,
      "grad_norm": 0.7524446845054626,
      "learning_rate": 0.00028553879760961925,
      "loss": 3.8673,
      "step": 69360
    },
    {
      "epoch": 0.14452083333333332,
      "grad_norm": 0.7479594349861145,
      "learning_rate": 0.0002855345739701198,
      "loss": 4.046,
      "step": 69370
    },
    {
      "epoch": 0.14454166666666668,
      "grad_norm": 0.780967652797699,
      "learning_rate": 0.0002855303497451646,
      "loss": 3.9597,
      "step": 69380
    },
    {
      "epoch": 0.1445625,
      "grad_norm": 0.747592568397522,
      "learning_rate": 0.00028552612493477203,
      "loss": 4.0796,
      "step": 69390
    },
    {
      "epoch": 0.14458333333333334,
      "grad_norm": 0.7526564598083496,
      "learning_rate": 0.00028552189953896014,
      "loss": 3.866,
      "step": 69400
    },
    {
      "epoch": 0.14460416666666667,
      "grad_norm": 0.7952519655227661,
      "learning_rate": 0.00028551767355774733,
      "loss": 3.9725,
      "step": 69410
    },
    {
      "epoch": 0.144625,
      "grad_norm": 0.8723101019859314,
      "learning_rate": 0.00028551344699115187,
      "loss": 4.0408,
      "step": 69420
    },
    {
      "epoch": 0.14464583333333333,
      "grad_norm": 0.8834154605865479,
      "learning_rate": 0.00028550921983919186,
      "loss": 4.0793,
      "step": 69430
    },
    {
      "epoch": 0.14466666666666667,
      "grad_norm": 0.7354750037193298,
      "learning_rate": 0.00028550499210188573,
      "loss": 4.097,
      "step": 69440
    },
    {
      "epoch": 0.1446875,
      "grad_norm": 0.7732417583465576,
      "learning_rate": 0.0002855007637792517,
      "loss": 3.9854,
      "step": 69450
    },
    {
      "epoch": 0.14470833333333333,
      "grad_norm": 0.8417448401451111,
      "learning_rate": 0.00028549653487130794,
      "loss": 4.184,
      "step": 69460
    },
    {
      "epoch": 0.14472916666666666,
      "grad_norm": 0.7990826964378357,
      "learning_rate": 0.0002854923053780728,
      "loss": 3.9705,
      "step": 69470
    },
    {
      "epoch": 0.14475,
      "grad_norm": 0.8470094203948975,
      "learning_rate": 0.00028548807529956446,
      "loss": 4.0412,
      "step": 69480
    },
    {
      "epoch": 0.14477083333333332,
      "grad_norm": 0.6993789672851562,
      "learning_rate": 0.00028548384463580135,
      "loss": 3.8536,
      "step": 69490
    },
    {
      "epoch": 0.14479166666666668,
      "grad_norm": 0.7714810967445374,
      "learning_rate": 0.00028547961338680163,
      "loss": 4.0203,
      "step": 69500
    },
    {
      "epoch": 0.1448125,
      "grad_norm": 0.7773483991622925,
      "learning_rate": 0.0002854753815525837,
      "loss": 3.9607,
      "step": 69510
    },
    {
      "epoch": 0.14483333333333334,
      "grad_norm": 0.8836985230445862,
      "learning_rate": 0.00028547114913316565,
      "loss": 4.0185,
      "step": 69520
    },
    {
      "epoch": 0.14485416666666667,
      "grad_norm": 0.8349967002868652,
      "learning_rate": 0.00028546691612856587,
      "loss": 4.0824,
      "step": 69530
    },
    {
      "epoch": 0.144875,
      "grad_norm": 0.9021446108818054,
      "learning_rate": 0.0002854626825388026,
      "loss": 3.9734,
      "step": 69540
    },
    {
      "epoch": 0.14489583333333333,
      "grad_norm": 0.7487984299659729,
      "learning_rate": 0.00028545844836389423,
      "loss": 3.8739,
      "step": 69550
    },
    {
      "epoch": 0.14491666666666667,
      "grad_norm": 0.6895053386688232,
      "learning_rate": 0.0002854542136038589,
      "loss": 3.9481,
      "step": 69560
    },
    {
      "epoch": 0.1449375,
      "grad_norm": 0.7913296818733215,
      "learning_rate": 0.0002854499782587151,
      "loss": 4.1279,
      "step": 69570
    },
    {
      "epoch": 0.14495833333333333,
      "grad_norm": 0.8175643682479858,
      "learning_rate": 0.0002854457423284809,
      "loss": 4.0045,
      "step": 69580
    },
    {
      "epoch": 0.14497916666666666,
      "grad_norm": 0.6936560273170471,
      "learning_rate": 0.00028544150581317476,
      "loss": 4.0167,
      "step": 69590
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.8884903192520142,
      "learning_rate": 0.00028543726871281495,
      "loss": 3.904,
      "step": 69600
    },
    {
      "epoch": 0.14502083333333332,
      "grad_norm": 0.9533629417419434,
      "learning_rate": 0.0002854330310274197,
      "loss": 4.0589,
      "step": 69610
    },
    {
      "epoch": 0.14504166666666668,
      "grad_norm": 0.866701602935791,
      "learning_rate": 0.0002854287927570074,
      "loss": 3.9737,
      "step": 69620
    },
    {
      "epoch": 0.1450625,
      "grad_norm": 0.7778636813163757,
      "learning_rate": 0.00028542455390159624,
      "loss": 4.0214,
      "step": 69630
    },
    {
      "epoch": 0.14508333333333334,
      "grad_norm": 0.7379801869392395,
      "learning_rate": 0.00028542031446120473,
      "loss": 3.8982,
      "step": 69640
    },
    {
      "epoch": 0.14510416666666667,
      "grad_norm": 0.7211340665817261,
      "learning_rate": 0.00028541607443585096,
      "loss": 4.0802,
      "step": 69650
    },
    {
      "epoch": 0.145125,
      "grad_norm": 0.7276806831359863,
      "learning_rate": 0.0002854118338255534,
      "loss": 3.9115,
      "step": 69660
    },
    {
      "epoch": 0.14514583333333334,
      "grad_norm": 0.940612256526947,
      "learning_rate": 0.00028540759263033033,
      "loss": 4.0724,
      "step": 69670
    },
    {
      "epoch": 0.14516666666666667,
      "grad_norm": 0.7032187581062317,
      "learning_rate": 0.0002854033508502,
      "loss": 4.0115,
      "step": 69680
    },
    {
      "epoch": 0.1451875,
      "grad_norm": 0.8130035400390625,
      "learning_rate": 0.0002853991084851809,
      "loss": 3.6953,
      "step": 69690
    },
    {
      "epoch": 0.14520833333333333,
      "grad_norm": 0.8653534650802612,
      "learning_rate": 0.0002853948655352912,
      "loss": 3.8345,
      "step": 69700
    },
    {
      "epoch": 0.14522916666666666,
      "grad_norm": 0.7863739728927612,
      "learning_rate": 0.0002853906220005492,
      "loss": 3.9347,
      "step": 69710
    },
    {
      "epoch": 0.14525,
      "grad_norm": 1.1530100107192993,
      "learning_rate": 0.00028538637788097336,
      "loss": 4.1363,
      "step": 69720
    },
    {
      "epoch": 0.14527083333333332,
      "grad_norm": 0.9772533178329468,
      "learning_rate": 0.00028538213317658194,
      "loss": 3.8436,
      "step": 69730
    },
    {
      "epoch": 0.14529166666666668,
      "grad_norm": 0.7064031958580017,
      "learning_rate": 0.00028537788788739334,
      "loss": 4.0474,
      "step": 69740
    },
    {
      "epoch": 0.1453125,
      "grad_norm": 0.7282333970069885,
      "learning_rate": 0.00028537364201342583,
      "loss": 4.07,
      "step": 69750
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 0.8107814788818359,
      "learning_rate": 0.0002853693955546977,
      "loss": 3.9046,
      "step": 69760
    },
    {
      "epoch": 0.14535416666666667,
      "grad_norm": 0.7895594835281372,
      "learning_rate": 0.00028536514851122745,
      "loss": 4.0831,
      "step": 69770
    },
    {
      "epoch": 0.145375,
      "grad_norm": 0.7873914837837219,
      "learning_rate": 0.00028536090088303334,
      "loss": 3.9198,
      "step": 69780
    },
    {
      "epoch": 0.14539583333333334,
      "grad_norm": 0.6662315130233765,
      "learning_rate": 0.0002853566526701337,
      "loss": 3.9052,
      "step": 69790
    },
    {
      "epoch": 0.14541666666666667,
      "grad_norm": 0.8563457727432251,
      "learning_rate": 0.0002853524038725469,
      "loss": 4.0553,
      "step": 69800
    },
    {
      "epoch": 0.1454375,
      "grad_norm": 0.8611662983894348,
      "learning_rate": 0.00028534815449029127,
      "loss": 4.0215,
      "step": 69810
    },
    {
      "epoch": 0.14545833333333333,
      "grad_norm": 0.9152176976203918,
      "learning_rate": 0.0002853439045233852,
      "loss": 3.8795,
      "step": 69820
    },
    {
      "epoch": 0.14547916666666666,
      "grad_norm": 0.7586793899536133,
      "learning_rate": 0.000285339653971847,
      "loss": 4.0224,
      "step": 69830
    },
    {
      "epoch": 0.1455,
      "grad_norm": 0.9405799508094788,
      "learning_rate": 0.0002853354028356951,
      "loss": 4.056,
      "step": 69840
    },
    {
      "epoch": 0.14552083333333332,
      "grad_norm": 0.7564637660980225,
      "learning_rate": 0.0002853311511149478,
      "loss": 3.9918,
      "step": 69850
    },
    {
      "epoch": 0.14554166666666668,
      "grad_norm": 1.2695329189300537,
      "learning_rate": 0.00028532689880962354,
      "loss": 4.1415,
      "step": 69860
    },
    {
      "epoch": 0.1455625,
      "grad_norm": 0.8357451558113098,
      "learning_rate": 0.0002853226459197406,
      "loss": 4.0769,
      "step": 69870
    },
    {
      "epoch": 0.14558333333333334,
      "grad_norm": 0.7771034240722656,
      "learning_rate": 0.0002853183924453175,
      "loss": 3.9863,
      "step": 69880
    },
    {
      "epoch": 0.14560416666666667,
      "grad_norm": 0.7269699573516846,
      "learning_rate": 0.0002853141383863724,
      "loss": 4.0775,
      "step": 69890
    },
    {
      "epoch": 0.145625,
      "grad_norm": 0.9239238500595093,
      "learning_rate": 0.0002853098837429238,
      "loss": 3.9019,
      "step": 69900
    },
    {
      "epoch": 0.14564583333333334,
      "grad_norm": 0.7467719912528992,
      "learning_rate": 0.0002853056285149901,
      "loss": 4.0634,
      "step": 69910
    },
    {
      "epoch": 0.14566666666666667,
      "grad_norm": 0.7349724173545837,
      "learning_rate": 0.0002853013727025896,
      "loss": 4.0585,
      "step": 69920
    },
    {
      "epoch": 0.1456875,
      "grad_norm": 0.7949094772338867,
      "learning_rate": 0.00028529711630574076,
      "loss": 4.0161,
      "step": 69930
    },
    {
      "epoch": 0.14570833333333333,
      "grad_norm": 0.8780704736709595,
      "learning_rate": 0.0002852928593244619,
      "loss": 3.9273,
      "step": 69940
    },
    {
      "epoch": 0.14572916666666666,
      "grad_norm": 0.8510060906410217,
      "learning_rate": 0.00028528860175877147,
      "loss": 4.1394,
      "step": 69950
    },
    {
      "epoch": 0.14575,
      "grad_norm": 0.9196462631225586,
      "learning_rate": 0.0002852843436086878,
      "loss": 4.1695,
      "step": 69960
    },
    {
      "epoch": 0.14577083333333332,
      "grad_norm": 0.768364429473877,
      "learning_rate": 0.0002852800848742293,
      "loss": 3.8931,
      "step": 69970
    },
    {
      "epoch": 0.14579166666666668,
      "grad_norm": 1.015350341796875,
      "learning_rate": 0.00028527582555541443,
      "loss": 4.0062,
      "step": 69980
    },
    {
      "epoch": 0.1458125,
      "grad_norm": 0.8176626563072205,
      "learning_rate": 0.0002852715656522615,
      "loss": 3.7749,
      "step": 69990
    },
    {
      "epoch": 0.14583333333333334,
      "grad_norm": 0.7892084121704102,
      "learning_rate": 0.000285267305164789,
      "loss": 3.9711,
      "step": 70000
    },
    {
      "epoch": 0.14583333333333334,
      "eval_loss": 4.26912784576416,
      "eval_runtime": 10.4699,
      "eval_samples_per_second": 0.955,
      "eval_steps_per_second": 0.287,
      "step": 70000
    },
    {
      "epoch": 0.14585416666666667,
      "grad_norm": 0.7435898184776306,
      "learning_rate": 0.0002852630440930153,
      "loss": 4.0758,
      "step": 70010
    },
    {
      "epoch": 0.145875,
      "grad_norm": 0.8915320634841919,
      "learning_rate": 0.0002852587824369587,
      "loss": 4.1133,
      "step": 70020
    },
    {
      "epoch": 0.14589583333333334,
      "grad_norm": 0.819879412651062,
      "learning_rate": 0.00028525452019663775,
      "loss": 4.0017,
      "step": 70030
    },
    {
      "epoch": 0.14591666666666667,
      "grad_norm": 0.6889786720275879,
      "learning_rate": 0.0002852502573720708,
      "loss": 3.8728,
      "step": 70040
    },
    {
      "epoch": 0.1459375,
      "grad_norm": 0.8237648010253906,
      "learning_rate": 0.00028524599396327627,
      "loss": 3.9102,
      "step": 70050
    },
    {
      "epoch": 0.14595833333333333,
      "grad_norm": 0.7609225511550903,
      "learning_rate": 0.0002852417299702726,
      "loss": 3.9541,
      "step": 70060
    },
    {
      "epoch": 0.14597916666666666,
      "grad_norm": 0.7691889405250549,
      "learning_rate": 0.00028523746539307817,
      "loss": 4.0239,
      "step": 70070
    },
    {
      "epoch": 0.146,
      "grad_norm": 0.7535788416862488,
      "learning_rate": 0.00028523320023171144,
      "loss": 3.6465,
      "step": 70080
    },
    {
      "epoch": 0.14602083333333332,
      "grad_norm": 0.7788543105125427,
      "learning_rate": 0.0002852289344861908,
      "loss": 4.1644,
      "step": 70090
    },
    {
      "epoch": 0.14604166666666665,
      "grad_norm": 0.7398819327354431,
      "learning_rate": 0.00028522466815653465,
      "loss": 4.025,
      "step": 70100
    },
    {
      "epoch": 0.1460625,
      "grad_norm": 0.8079652190208435,
      "learning_rate": 0.00028522040124276155,
      "loss": 3.8058,
      "step": 70110
    },
    {
      "epoch": 0.14608333333333334,
      "grad_norm": 0.7243205308914185,
      "learning_rate": 0.00028521613374488976,
      "loss": 4.1071,
      "step": 70120
    },
    {
      "epoch": 0.14610416666666667,
      "grad_norm": 0.9580764770507812,
      "learning_rate": 0.0002852118656629378,
      "loss": 4.0586,
      "step": 70130
    },
    {
      "epoch": 0.146125,
      "grad_norm": 0.9179203510284424,
      "learning_rate": 0.00028520759699692417,
      "loss": 3.9349,
      "step": 70140
    },
    {
      "epoch": 0.14614583333333334,
      "grad_norm": 0.8001128435134888,
      "learning_rate": 0.00028520332774686723,
      "loss": 4.0479,
      "step": 70150
    },
    {
      "epoch": 0.14616666666666667,
      "grad_norm": 0.886451780796051,
      "learning_rate": 0.0002851990579127854,
      "loss": 3.7592,
      "step": 70160
    },
    {
      "epoch": 0.1461875,
      "grad_norm": 0.7593209743499756,
      "learning_rate": 0.0002851947874946971,
      "loss": 3.9764,
      "step": 70170
    },
    {
      "epoch": 0.14620833333333333,
      "grad_norm": 0.7566787004470825,
      "learning_rate": 0.0002851905164926209,
      "loss": 3.9242,
      "step": 70180
    },
    {
      "epoch": 0.14622916666666666,
      "grad_norm": 0.8463684916496277,
      "learning_rate": 0.00028518624490657515,
      "loss": 3.9248,
      "step": 70190
    },
    {
      "epoch": 0.14625,
      "grad_norm": 0.8358814716339111,
      "learning_rate": 0.00028518197273657837,
      "loss": 3.8401,
      "step": 70200
    },
    {
      "epoch": 0.14627083333333332,
      "grad_norm": 0.856998085975647,
      "learning_rate": 0.00028517769998264895,
      "loss": 3.7421,
      "step": 70210
    },
    {
      "epoch": 0.14629166666666665,
      "grad_norm": 0.7047795653343201,
      "learning_rate": 0.00028517342664480537,
      "loss": 3.8694,
      "step": 70220
    },
    {
      "epoch": 0.1463125,
      "grad_norm": 0.8201743960380554,
      "learning_rate": 0.0002851691527230661,
      "loss": 3.9812,
      "step": 70230
    },
    {
      "epoch": 0.14633333333333334,
      "grad_norm": 0.7604708671569824,
      "learning_rate": 0.0002851648782174496,
      "loss": 4.0802,
      "step": 70240
    },
    {
      "epoch": 0.14635416666666667,
      "grad_norm": 0.8410369753837585,
      "learning_rate": 0.0002851606031279743,
      "loss": 3.9369,
      "step": 70250
    },
    {
      "epoch": 0.146375,
      "grad_norm": 0.7235720753669739,
      "learning_rate": 0.00028515632745465877,
      "loss": 3.9319,
      "step": 70260
    },
    {
      "epoch": 0.14639583333333334,
      "grad_norm": 0.6920164227485657,
      "learning_rate": 0.0002851520511975213,
      "loss": 3.9149,
      "step": 70270
    },
    {
      "epoch": 0.14641666666666667,
      "grad_norm": 0.7080636024475098,
      "learning_rate": 0.00028514777435658057,
      "loss": 4.1572,
      "step": 70280
    },
    {
      "epoch": 0.1464375,
      "grad_norm": 0.7709580659866333,
      "learning_rate": 0.0002851434969318549,
      "loss": 3.9161,
      "step": 70290
    },
    {
      "epoch": 0.14645833333333333,
      "grad_norm": 0.7972705960273743,
      "learning_rate": 0.0002851392189233628,
      "loss": 4.0601,
      "step": 70300
    },
    {
      "epoch": 0.14647916666666666,
      "grad_norm": 0.7233147621154785,
      "learning_rate": 0.0002851349403311228,
      "loss": 4.0458,
      "step": 70310
    },
    {
      "epoch": 0.1465,
      "grad_norm": 0.9602296352386475,
      "learning_rate": 0.00028513066115515333,
      "loss": 4.0154,
      "step": 70320
    },
    {
      "epoch": 0.14652083333333332,
      "grad_norm": 0.8137286901473999,
      "learning_rate": 0.00028512638139547284,
      "loss": 3.98,
      "step": 70330
    },
    {
      "epoch": 0.14654166666666665,
      "grad_norm": 0.8879191279411316,
      "learning_rate": 0.00028512210105209997,
      "loss": 4.0604,
      "step": 70340
    },
    {
      "epoch": 0.1465625,
      "grad_norm": 0.8675897121429443,
      "learning_rate": 0.00028511782012505303,
      "loss": 3.9614,
      "step": 70350
    },
    {
      "epoch": 0.14658333333333334,
      "grad_norm": 0.7635958194732666,
      "learning_rate": 0.00028511353861435064,
      "loss": 3.9918,
      "step": 70360
    },
    {
      "epoch": 0.14660416666666667,
      "grad_norm": 0.8240454792976379,
      "learning_rate": 0.0002851092565200112,
      "loss": 4.0146,
      "step": 70370
    },
    {
      "epoch": 0.146625,
      "grad_norm": 0.7570258975028992,
      "learning_rate": 0.0002851049738420533,
      "loss": 4.109,
      "step": 70380
    },
    {
      "epoch": 0.14664583333333334,
      "grad_norm": 0.7569277882575989,
      "learning_rate": 0.00028510069058049534,
      "loss": 3.9234,
      "step": 70390
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 0.836298942565918,
      "learning_rate": 0.00028509640673535594,
      "loss": 3.9572,
      "step": 70400
    },
    {
      "epoch": 0.1466875,
      "grad_norm": 0.7335907220840454,
      "learning_rate": 0.00028509212230665344,
      "loss": 3.9976,
      "step": 70410
    },
    {
      "epoch": 0.14670833333333333,
      "grad_norm": 0.837879478931427,
      "learning_rate": 0.00028508783729440655,
      "loss": 4.0464,
      "step": 70420
    },
    {
      "epoch": 0.14672916666666666,
      "grad_norm": 0.761587381362915,
      "learning_rate": 0.0002850835516986336,
      "loss": 3.906,
      "step": 70430
    },
    {
      "epoch": 0.14675,
      "grad_norm": 0.8922468423843384,
      "learning_rate": 0.0002850792655193532,
      "loss": 4.1039,
      "step": 70440
    },
    {
      "epoch": 0.14677083333333332,
      "grad_norm": 0.7889083623886108,
      "learning_rate": 0.0002850749787565838,
      "loss": 4.025,
      "step": 70450
    },
    {
      "epoch": 0.14679166666666665,
      "grad_norm": 0.8785921931266785,
      "learning_rate": 0.0002850706914103441,
      "loss": 3.8719,
      "step": 70460
    },
    {
      "epoch": 0.1468125,
      "grad_norm": 0.8289032578468323,
      "learning_rate": 0.00028506640348065237,
      "loss": 3.8434,
      "step": 70470
    },
    {
      "epoch": 0.14683333333333334,
      "grad_norm": 0.6950792670249939,
      "learning_rate": 0.0002850621149675272,
      "loss": 3.9272,
      "step": 70480
    },
    {
      "epoch": 0.14685416666666667,
      "grad_norm": 1.0378618240356445,
      "learning_rate": 0.0002850578258709872,
      "loss": 3.8932,
      "step": 70490
    },
    {
      "epoch": 0.146875,
      "grad_norm": 0.7387932538986206,
      "learning_rate": 0.0002850535361910509,
      "loss": 4.0066,
      "step": 70500
    },
    {
      "epoch": 0.14689583333333334,
      "grad_norm": 0.9211015701293945,
      "learning_rate": 0.0002850492459277367,
      "loss": 3.8786,
      "step": 70510
    },
    {
      "epoch": 0.14691666666666667,
      "grad_norm": 0.780335545539856,
      "learning_rate": 0.00028504495508106326,
      "loss": 3.9988,
      "step": 70520
    },
    {
      "epoch": 0.1469375,
      "grad_norm": 0.7700327038764954,
      "learning_rate": 0.00028504066365104907,
      "loss": 3.8681,
      "step": 70530
    },
    {
      "epoch": 0.14695833333333333,
      "grad_norm": 0.7493449449539185,
      "learning_rate": 0.00028503637163771264,
      "loss": 3.9319,
      "step": 70540
    },
    {
      "epoch": 0.14697916666666666,
      "grad_norm": 0.9285547137260437,
      "learning_rate": 0.0002850320790410726,
      "loss": 4.1259,
      "step": 70550
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.7321125864982605,
      "learning_rate": 0.00028502778586114735,
      "loss": 4.0552,
      "step": 70560
    },
    {
      "epoch": 0.14702083333333332,
      "grad_norm": 0.860734224319458,
      "learning_rate": 0.0002850234920979555,
      "loss": 3.9526,
      "step": 70570
    },
    {
      "epoch": 0.14704166666666665,
      "grad_norm": 0.911291241645813,
      "learning_rate": 0.0002850191977515157,
      "loss": 3.8496,
      "step": 70580
    },
    {
      "epoch": 0.1470625,
      "grad_norm": 0.7311672568321228,
      "learning_rate": 0.00028501490282184635,
      "loss": 4.0824,
      "step": 70590
    },
    {
      "epoch": 0.14708333333333334,
      "grad_norm": 0.7769649624824524,
      "learning_rate": 0.00028501060730896607,
      "loss": 4.1192,
      "step": 70600
    },
    {
      "epoch": 0.14710416666666667,
      "grad_norm": 0.6574681401252747,
      "learning_rate": 0.0002850063112128934,
      "loss": 4.0061,
      "step": 70610
    },
    {
      "epoch": 0.147125,
      "grad_norm": 0.7548052072525024,
      "learning_rate": 0.00028500201453364693,
      "loss": 3.8955,
      "step": 70620
    },
    {
      "epoch": 0.14714583333333334,
      "grad_norm": 0.7816272377967834,
      "learning_rate": 0.00028499771727124516,
      "loss": 3.8382,
      "step": 70630
    },
    {
      "epoch": 0.14716666666666667,
      "grad_norm": 0.9138084053993225,
      "learning_rate": 0.00028499341942570677,
      "loss": 4.0052,
      "step": 70640
    },
    {
      "epoch": 0.1471875,
      "grad_norm": 0.7758882641792297,
      "learning_rate": 0.00028498912099705014,
      "loss": 3.8247,
      "step": 70650
    },
    {
      "epoch": 0.14720833333333333,
      "grad_norm": 0.7486403584480286,
      "learning_rate": 0.00028498482198529397,
      "loss": 4.0722,
      "step": 70660
    },
    {
      "epoch": 0.14722916666666666,
      "grad_norm": 0.9078393578529358,
      "learning_rate": 0.00028498052239045685,
      "loss": 4.1625,
      "step": 70670
    },
    {
      "epoch": 0.14725,
      "grad_norm": 0.7558035254478455,
      "learning_rate": 0.0002849762222125572,
      "loss": 3.8941,
      "step": 70680
    },
    {
      "epoch": 0.14727083333333332,
      "grad_norm": 0.7405322790145874,
      "learning_rate": 0.00028497192145161376,
      "loss": 4.1048,
      "step": 70690
    },
    {
      "epoch": 0.14729166666666665,
      "grad_norm": 0.7279923558235168,
      "learning_rate": 0.0002849676201076451,
      "loss": 3.9966,
      "step": 70700
    },
    {
      "epoch": 0.1473125,
      "grad_norm": 1.0375614166259766,
      "learning_rate": 0.00028496331818066964,
      "loss": 3.7154,
      "step": 70710
    },
    {
      "epoch": 0.14733333333333334,
      "grad_norm": 0.8000854849815369,
      "learning_rate": 0.00028495901567070615,
      "loss": 3.8953,
      "step": 70720
    },
    {
      "epoch": 0.14735416666666667,
      "grad_norm": 0.7650704979896545,
      "learning_rate": 0.0002849547125777731,
      "loss": 4.0827,
      "step": 70730
    },
    {
      "epoch": 0.147375,
      "grad_norm": 0.7293088436126709,
      "learning_rate": 0.00028495040890188914,
      "loss": 4.0645,
      "step": 70740
    },
    {
      "epoch": 0.14739583333333334,
      "grad_norm": 0.8080040216445923,
      "learning_rate": 0.00028494610464307275,
      "loss": 3.9648,
      "step": 70750
    },
    {
      "epoch": 0.14741666666666667,
      "grad_norm": 0.7630507946014404,
      "learning_rate": 0.00028494179980134265,
      "loss": 4.1478,
      "step": 70760
    },
    {
      "epoch": 0.1474375,
      "grad_norm": 0.8327875733375549,
      "learning_rate": 0.00028493749437671743,
      "loss": 3.92,
      "step": 70770
    },
    {
      "epoch": 0.14745833333333333,
      "grad_norm": 0.7751945853233337,
      "learning_rate": 0.0002849331883692156,
      "loss": 3.8638,
      "step": 70780
    },
    {
      "epoch": 0.14747916666666666,
      "grad_norm": 0.8261473178863525,
      "learning_rate": 0.0002849288817788558,
      "loss": 3.9871,
      "step": 70790
    },
    {
      "epoch": 0.1475,
      "grad_norm": 0.7510938048362732,
      "learning_rate": 0.00028492457460565666,
      "loss": 4.1507,
      "step": 70800
    },
    {
      "epoch": 0.14752083333333332,
      "grad_norm": 0.7204061150550842,
      "learning_rate": 0.00028492026684963676,
      "loss": 3.8249,
      "step": 70810
    },
    {
      "epoch": 0.14754166666666665,
      "grad_norm": 0.8568095564842224,
      "learning_rate": 0.0002849159585108147,
      "loss": 4.0815,
      "step": 70820
    },
    {
      "epoch": 0.1475625,
      "grad_norm": 0.6975789070129395,
      "learning_rate": 0.00028491164958920913,
      "loss": 3.8742,
      "step": 70830
    },
    {
      "epoch": 0.14758333333333334,
      "grad_norm": 0.7814606428146362,
      "learning_rate": 0.00028490734008483864,
      "loss": 3.9741,
      "step": 70840
    },
    {
      "epoch": 0.14760416666666668,
      "grad_norm": 0.6680817008018494,
      "learning_rate": 0.00028490302999772184,
      "loss": 3.7527,
      "step": 70850
    },
    {
      "epoch": 0.147625,
      "grad_norm": 0.7374251484870911,
      "learning_rate": 0.0002848987193278773,
      "loss": 3.9141,
      "step": 70860
    },
    {
      "epoch": 0.14764583333333334,
      "grad_norm": 0.7649693489074707,
      "learning_rate": 0.00028489440807532375,
      "loss": 3.9403,
      "step": 70870
    },
    {
      "epoch": 0.14766666666666667,
      "grad_norm": 0.7564494013786316,
      "learning_rate": 0.0002848900962400797,
      "loss": 3.9429,
      "step": 70880
    },
    {
      "epoch": 0.1476875,
      "grad_norm": 0.793039083480835,
      "learning_rate": 0.0002848857838221638,
      "loss": 3.977,
      "step": 70890
    },
    {
      "epoch": 0.14770833333333333,
      "grad_norm": 0.9813269376754761,
      "learning_rate": 0.0002848814708215948,
      "loss": 4.0172,
      "step": 70900
    },
    {
      "epoch": 0.14772916666666666,
      "grad_norm": 0.757882833480835,
      "learning_rate": 0.0002848771572383912,
      "loss": 3.7661,
      "step": 70910
    },
    {
      "epoch": 0.14775,
      "grad_norm": 0.7030050754547119,
      "learning_rate": 0.00028487284307257164,
      "loss": 3.9025,
      "step": 70920
    },
    {
      "epoch": 0.14777083333333332,
      "grad_norm": 0.7204713821411133,
      "learning_rate": 0.0002848685283241548,
      "loss": 3.963,
      "step": 70930
    },
    {
      "epoch": 0.14779166666666665,
      "grad_norm": 1.171222448348999,
      "learning_rate": 0.0002848642129931593,
      "loss": 3.9744,
      "step": 70940
    },
    {
      "epoch": 0.1478125,
      "grad_norm": 0.6897326111793518,
      "learning_rate": 0.0002848598970796038,
      "loss": 4.0045,
      "step": 70950
    },
    {
      "epoch": 0.14783333333333334,
      "grad_norm": 0.7398867011070251,
      "learning_rate": 0.0002848555805835069,
      "loss": 3.7481,
      "step": 70960
    },
    {
      "epoch": 0.14785416666666668,
      "grad_norm": 0.7656953930854797,
      "learning_rate": 0.0002848512635048873,
      "loss": 3.8326,
      "step": 70970
    },
    {
      "epoch": 0.147875,
      "grad_norm": 0.8426531553268433,
      "learning_rate": 0.0002848469458437636,
      "loss": 4.1601,
      "step": 70980
    },
    {
      "epoch": 0.14789583333333334,
      "grad_norm": 0.7725698947906494,
      "learning_rate": 0.0002848426276001545,
      "loss": 3.9413,
      "step": 70990
    },
    {
      "epoch": 0.14791666666666667,
      "grad_norm": 0.7696405053138733,
      "learning_rate": 0.00028483830877407856,
      "loss": 4.0112,
      "step": 71000
    },
    {
      "epoch": 0.14791666666666667,
      "eval_loss": 4.284165382385254,
      "eval_runtime": 9.1084,
      "eval_samples_per_second": 1.098,
      "eval_steps_per_second": 0.329,
      "step": 71000
    },
    {
      "epoch": 0.1479375,
      "grad_norm": 0.7905187010765076,
      "learning_rate": 0.00028483398936555456,
      "loss": 3.9901,
      "step": 71010
    },
    {
      "epoch": 0.14795833333333333,
      "grad_norm": 0.8021465539932251,
      "learning_rate": 0.00028482966937460106,
      "loss": 4.0941,
      "step": 71020
    },
    {
      "epoch": 0.14797916666666666,
      "grad_norm": 0.7418262362480164,
      "learning_rate": 0.00028482534880123675,
      "loss": 3.9853,
      "step": 71030
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.7624172568321228,
      "learning_rate": 0.00028482102764548035,
      "loss": 3.8035,
      "step": 71040
    },
    {
      "epoch": 0.14802083333333332,
      "grad_norm": 0.8580581545829773,
      "learning_rate": 0.00028481670590735044,
      "loss": 3.8673,
      "step": 71050
    },
    {
      "epoch": 0.14804166666666665,
      "grad_norm": 0.7686579823493958,
      "learning_rate": 0.00028481238358686573,
      "loss": 4.0046,
      "step": 71060
    },
    {
      "epoch": 0.1480625,
      "grad_norm": 0.7011567950248718,
      "learning_rate": 0.00028480806068404487,
      "loss": 3.9806,
      "step": 71070
    },
    {
      "epoch": 0.14808333333333334,
      "grad_norm": 0.779774010181427,
      "learning_rate": 0.0002848037371989066,
      "loss": 3.9366,
      "step": 71080
    },
    {
      "epoch": 0.14810416666666668,
      "grad_norm": 0.7824998497962952,
      "learning_rate": 0.0002847994131314695,
      "loss": 3.9259,
      "step": 71090
    },
    {
      "epoch": 0.148125,
      "grad_norm": 0.7422212958335876,
      "learning_rate": 0.0002847950884817523,
      "loss": 3.9097,
      "step": 71100
    },
    {
      "epoch": 0.14814583333333334,
      "grad_norm": 0.6770913600921631,
      "learning_rate": 0.0002847907632497737,
      "loss": 4.1077,
      "step": 71110
    },
    {
      "epoch": 0.14816666666666667,
      "grad_norm": 0.7348718643188477,
      "learning_rate": 0.00028478643743555233,
      "loss": 4.0255,
      "step": 71120
    },
    {
      "epoch": 0.1481875,
      "grad_norm": 0.9059455394744873,
      "learning_rate": 0.0002847821110391069,
      "loss": 3.72,
      "step": 71130
    },
    {
      "epoch": 0.14820833333333333,
      "grad_norm": 0.7659428119659424,
      "learning_rate": 0.0002847777840604561,
      "loss": 4.1059,
      "step": 71140
    },
    {
      "epoch": 0.14822916666666666,
      "grad_norm": 0.7198939919471741,
      "learning_rate": 0.00028477345649961864,
      "loss": 4.0336,
      "step": 71150
    },
    {
      "epoch": 0.14825,
      "grad_norm": 0.7605399489402771,
      "learning_rate": 0.0002847691283566132,
      "loss": 3.975,
      "step": 71160
    },
    {
      "epoch": 0.14827083333333332,
      "grad_norm": 0.8730732202529907,
      "learning_rate": 0.00028476479963145845,
      "loss": 4.0358,
      "step": 71170
    },
    {
      "epoch": 0.14829166666666665,
      "grad_norm": 0.7102091312408447,
      "learning_rate": 0.0002847604703241731,
      "loss": 3.9719,
      "step": 71180
    },
    {
      "epoch": 0.1483125,
      "grad_norm": 0.8173009753227234,
      "learning_rate": 0.0002847561404347759,
      "loss": 4.1131,
      "step": 71190
    },
    {
      "epoch": 0.14833333333333334,
      "grad_norm": 0.7617464065551758,
      "learning_rate": 0.0002847518099632855,
      "loss": 4.002,
      "step": 71200
    },
    {
      "epoch": 0.14835416666666668,
      "grad_norm": 0.7886496782302856,
      "learning_rate": 0.0002847474789097206,
      "loss": 4.0719,
      "step": 71210
    },
    {
      "epoch": 0.148375,
      "grad_norm": 0.7785465717315674,
      "learning_rate": 0.00028474314727409993,
      "loss": 3.9436,
      "step": 71220
    },
    {
      "epoch": 0.14839583333333334,
      "grad_norm": 0.8125216960906982,
      "learning_rate": 0.0002847388150564422,
      "loss": 3.9755,
      "step": 71230
    },
    {
      "epoch": 0.14841666666666667,
      "grad_norm": 0.7480450868606567,
      "learning_rate": 0.0002847344822567661,
      "loss": 3.907,
      "step": 71240
    },
    {
      "epoch": 0.1484375,
      "grad_norm": 0.7671841979026794,
      "learning_rate": 0.0002847301488750904,
      "loss": 4.052,
      "step": 71250
    },
    {
      "epoch": 0.14845833333333333,
      "grad_norm": 0.9425755143165588,
      "learning_rate": 0.0002847258149114338,
      "loss": 4.0931,
      "step": 71260
    },
    {
      "epoch": 0.14847916666666666,
      "grad_norm": 0.7930712699890137,
      "learning_rate": 0.000284721480365815,
      "loss": 3.9558,
      "step": 71270
    },
    {
      "epoch": 0.1485,
      "grad_norm": 0.8144110441207886,
      "learning_rate": 0.0002847171452382527,
      "loss": 3.8485,
      "step": 71280
    },
    {
      "epoch": 0.14852083333333332,
      "grad_norm": 1.0648144483566284,
      "learning_rate": 0.0002847128095287657,
      "loss": 4.0264,
      "step": 71290
    },
    {
      "epoch": 0.14854166666666666,
      "grad_norm": 0.8163142800331116,
      "learning_rate": 0.00028470847323737263,
      "loss": 3.8487,
      "step": 71300
    },
    {
      "epoch": 0.1485625,
      "grad_norm": 0.7700211405754089,
      "learning_rate": 0.0002847041363640923,
      "loss": 4.0265,
      "step": 71310
    },
    {
      "epoch": 0.14858333333333335,
      "grad_norm": 1.1434084177017212,
      "learning_rate": 0.00028469979890894347,
      "loss": 3.9967,
      "step": 71320
    },
    {
      "epoch": 0.14860416666666668,
      "grad_norm": 0.8698025941848755,
      "learning_rate": 0.0002846954608719448,
      "loss": 4.0618,
      "step": 71330
    },
    {
      "epoch": 0.148625,
      "grad_norm": 0.8047134876251221,
      "learning_rate": 0.000284691122253115,
      "loss": 3.9848,
      "step": 71340
    },
    {
      "epoch": 0.14864583333333334,
      "grad_norm": 0.7494893074035645,
      "learning_rate": 0.0002846867830524729,
      "loss": 3.9671,
      "step": 71350
    },
    {
      "epoch": 0.14866666666666667,
      "grad_norm": 0.8174264430999756,
      "learning_rate": 0.00028468244327003724,
      "loss": 4.0091,
      "step": 71360
    },
    {
      "epoch": 0.1486875,
      "grad_norm": 0.7800838351249695,
      "learning_rate": 0.0002846781029058267,
      "loss": 3.9655,
      "step": 71370
    },
    {
      "epoch": 0.14870833333333333,
      "grad_norm": 0.7907758355140686,
      "learning_rate": 0.0002846737619598601,
      "loss": 3.9742,
      "step": 71380
    },
    {
      "epoch": 0.14872916666666666,
      "grad_norm": 0.8528965711593628,
      "learning_rate": 0.00028466942043215614,
      "loss": 3.9647,
      "step": 71390
    },
    {
      "epoch": 0.14875,
      "grad_norm": 0.9358994960784912,
      "learning_rate": 0.0002846650783227336,
      "loss": 3.8695,
      "step": 71400
    },
    {
      "epoch": 0.14877083333333332,
      "grad_norm": 0.8777825236320496,
      "learning_rate": 0.0002846607356316112,
      "loss": 3.9801,
      "step": 71410
    },
    {
      "epoch": 0.14879166666666666,
      "grad_norm": 0.8991490006446838,
      "learning_rate": 0.0002846563923588077,
      "loss": 3.9912,
      "step": 71420
    },
    {
      "epoch": 0.1488125,
      "grad_norm": 0.7709356546401978,
      "learning_rate": 0.00028465204850434197,
      "loss": 4.0917,
      "step": 71430
    },
    {
      "epoch": 0.14883333333333335,
      "grad_norm": 0.7932181358337402,
      "learning_rate": 0.0002846477040682326,
      "loss": 3.9192,
      "step": 71440
    },
    {
      "epoch": 0.14885416666666668,
      "grad_norm": 0.740972638130188,
      "learning_rate": 0.0002846433590504985,
      "loss": 3.8576,
      "step": 71450
    },
    {
      "epoch": 0.148875,
      "grad_norm": 0.7025546431541443,
      "learning_rate": 0.00028463901345115837,
      "loss": 3.8922,
      "step": 71460
    },
    {
      "epoch": 0.14889583333333334,
      "grad_norm": 0.7704331874847412,
      "learning_rate": 0.000284634667270231,
      "loss": 4.0307,
      "step": 71470
    },
    {
      "epoch": 0.14891666666666667,
      "grad_norm": 1.0900804996490479,
      "learning_rate": 0.00028463032050773517,
      "loss": 3.9595,
      "step": 71480
    },
    {
      "epoch": 0.1489375,
      "grad_norm": 0.8697716593742371,
      "learning_rate": 0.0002846259731636896,
      "loss": 3.9997,
      "step": 71490
    },
    {
      "epoch": 0.14895833333333333,
      "grad_norm": 0.8139185309410095,
      "learning_rate": 0.00028462162523811317,
      "loss": 3.9287,
      "step": 71500
    },
    {
      "epoch": 0.14897916666666666,
      "grad_norm": 0.9552225470542908,
      "learning_rate": 0.00028461727673102457,
      "loss": 4.0279,
      "step": 71510
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.7749955654144287,
      "learning_rate": 0.00028461292764244263,
      "loss": 4.0088,
      "step": 71520
    },
    {
      "epoch": 0.14902083333333332,
      "grad_norm": 0.7781401872634888,
      "learning_rate": 0.00028460857797238615,
      "loss": 3.8408,
      "step": 71530
    },
    {
      "epoch": 0.14904166666666666,
      "grad_norm": 0.7465201020240784,
      "learning_rate": 0.00028460422772087383,
      "loss": 3.9059,
      "step": 71540
    },
    {
      "epoch": 0.1490625,
      "grad_norm": 0.710066020488739,
      "learning_rate": 0.0002845998768879246,
      "loss": 3.9026,
      "step": 71550
    },
    {
      "epoch": 0.14908333333333335,
      "grad_norm": 0.7229118347167969,
      "learning_rate": 0.00028459552547355715,
      "loss": 3.9192,
      "step": 71560
    },
    {
      "epoch": 0.14910416666666668,
      "grad_norm": 1.1155638694763184,
      "learning_rate": 0.0002845911734777903,
      "loss": 3.7946,
      "step": 71570
    },
    {
      "epoch": 0.149125,
      "grad_norm": 0.8917801380157471,
      "learning_rate": 0.0002845868209006429,
      "loss": 4.0234,
      "step": 71580
    },
    {
      "epoch": 0.14914583333333334,
      "grad_norm": 0.94773930311203,
      "learning_rate": 0.0002845824677421336,
      "loss": 3.7823,
      "step": 71590
    },
    {
      "epoch": 0.14916666666666667,
      "grad_norm": 0.8116409778594971,
      "learning_rate": 0.0002845781140022814,
      "loss": 3.8846,
      "step": 71600
    },
    {
      "epoch": 0.1491875,
      "grad_norm": 0.7623091340065002,
      "learning_rate": 0.000284573759681105,
      "loss": 3.9585,
      "step": 71610
    },
    {
      "epoch": 0.14920833333333333,
      "grad_norm": 0.8278562426567078,
      "learning_rate": 0.0002845694047786232,
      "loss": 4.0079,
      "step": 71620
    },
    {
      "epoch": 0.14922916666666666,
      "grad_norm": 0.9009554386138916,
      "learning_rate": 0.0002845650492948549,
      "loss": 3.9093,
      "step": 71630
    },
    {
      "epoch": 0.14925,
      "grad_norm": 0.7580499053001404,
      "learning_rate": 0.0002845606932298188,
      "loss": 4.0763,
      "step": 71640
    },
    {
      "epoch": 0.14927083333333332,
      "grad_norm": 0.8750494718551636,
      "learning_rate": 0.0002845563365835338,
      "loss": 4.0393,
      "step": 71650
    },
    {
      "epoch": 0.14929166666666666,
      "grad_norm": 0.7408109903335571,
      "learning_rate": 0.0002845519793560186,
      "loss": 3.9725,
      "step": 71660
    },
    {
      "epoch": 0.1493125,
      "grad_norm": 0.8094432950019836,
      "learning_rate": 0.0002845476215472922,
      "loss": 3.8375,
      "step": 71670
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 0.7717129588127136,
      "learning_rate": 0.00028454326315737334,
      "loss": 4.0632,
      "step": 71680
    },
    {
      "epoch": 0.14935416666666668,
      "grad_norm": 0.7702759504318237,
      "learning_rate": 0.00028453890418628084,
      "loss": 4.0045,
      "step": 71690
    },
    {
      "epoch": 0.149375,
      "grad_norm": 0.8685171604156494,
      "learning_rate": 0.0002845345446340334,
      "loss": 3.8928,
      "step": 71700
    },
    {
      "epoch": 0.14939583333333334,
      "grad_norm": 0.9150027632713318,
      "learning_rate": 0.0002845301845006501,
      "loss": 3.9233,
      "step": 71710
    },
    {
      "epoch": 0.14941666666666667,
      "grad_norm": 0.7720416784286499,
      "learning_rate": 0.0002845258237861497,
      "loss": 3.8108,
      "step": 71720
    },
    {
      "epoch": 0.1494375,
      "grad_norm": 0.9362589120864868,
      "learning_rate": 0.0002845214624905509,
      "loss": 3.9277,
      "step": 71730
    },
    {
      "epoch": 0.14945833333333333,
      "grad_norm": 0.8128464818000793,
      "learning_rate": 0.0002845171006138726,
      "loss": 4.1033,
      "step": 71740
    },
    {
      "epoch": 0.14947916666666666,
      "grad_norm": 0.752554178237915,
      "learning_rate": 0.00028451273815613377,
      "loss": 3.8588,
      "step": 71750
    },
    {
      "epoch": 0.1495,
      "grad_norm": 0.8801952600479126,
      "learning_rate": 0.0002845083751173531,
      "loss": 3.9596,
      "step": 71760
    },
    {
      "epoch": 0.14952083333333333,
      "grad_norm": 0.8071030974388123,
      "learning_rate": 0.0002845040114975495,
      "loss": 3.9856,
      "step": 71770
    },
    {
      "epoch": 0.14954166666666666,
      "grad_norm": 0.7862836122512817,
      "learning_rate": 0.0002844996472967418,
      "loss": 3.9644,
      "step": 71780
    },
    {
      "epoch": 0.1495625,
      "grad_norm": 0.7857822775840759,
      "learning_rate": 0.00028449528251494883,
      "loss": 4.0167,
      "step": 71790
    },
    {
      "epoch": 0.14958333333333335,
      "grad_norm": 0.7912495732307434,
      "learning_rate": 0.00028449091715218957,
      "loss": 3.8651,
      "step": 71800
    },
    {
      "epoch": 0.14960416666666668,
      "grad_norm": 0.7305403351783752,
      "learning_rate": 0.0002844865512084827,
      "loss": 3.9962,
      "step": 71810
    },
    {
      "epoch": 0.149625,
      "grad_norm": 0.7999270558357239,
      "learning_rate": 0.00028448218468384717,
      "loss": 3.9629,
      "step": 71820
    },
    {
      "epoch": 0.14964583333333334,
      "grad_norm": 0.8545464873313904,
      "learning_rate": 0.0002844778175783019,
      "loss": 3.8118,
      "step": 71830
    },
    {
      "epoch": 0.14966666666666667,
      "grad_norm": 0.8261105418205261,
      "learning_rate": 0.0002844734498918656,
      "loss": 3.868,
      "step": 71840
    },
    {
      "epoch": 0.1496875,
      "grad_norm": 0.7680333852767944,
      "learning_rate": 0.0002844690816245573,
      "loss": 3.9965,
      "step": 71850
    },
    {
      "epoch": 0.14970833333333333,
      "grad_norm": 0.886259913444519,
      "learning_rate": 0.00028446471277639575,
      "loss": 3.9505,
      "step": 71860
    },
    {
      "epoch": 0.14972916666666666,
      "grad_norm": 0.7556746006011963,
      "learning_rate": 0.0002844603433473999,
      "loss": 3.9307,
      "step": 71870
    },
    {
      "epoch": 0.14975,
      "grad_norm": 0.7038658261299133,
      "learning_rate": 0.0002844559733375885,
      "loss": 3.9779,
      "step": 71880
    },
    {
      "epoch": 0.14977083333333333,
      "grad_norm": 0.7639734745025635,
      "learning_rate": 0.0002844516027469806,
      "loss": 3.9773,
      "step": 71890
    },
    {
      "epoch": 0.14979166666666666,
      "grad_norm": 0.7529335021972656,
      "learning_rate": 0.000284447231575595,
      "loss": 4.0046,
      "step": 71900
    },
    {
      "epoch": 0.1498125,
      "grad_norm": 0.9344610571861267,
      "learning_rate": 0.00028444285982345054,
      "loss": 3.9518,
      "step": 71910
    },
    {
      "epoch": 0.14983333333333335,
      "grad_norm": 0.7351492643356323,
      "learning_rate": 0.0002844384874905662,
      "loss": 4.0872,
      "step": 71920
    },
    {
      "epoch": 0.14985416666666668,
      "grad_norm": 0.7677125930786133,
      "learning_rate": 0.0002844341145769608,
      "loss": 3.9007,
      "step": 71930
    },
    {
      "epoch": 0.149875,
      "grad_norm": 0.693696916103363,
      "learning_rate": 0.00028442974108265314,
      "loss": 4.008,
      "step": 71940
    },
    {
      "epoch": 0.14989583333333334,
      "grad_norm": 0.7964749336242676,
      "learning_rate": 0.00028442536700766226,
      "loss": 3.8951,
      "step": 71950
    },
    {
      "epoch": 0.14991666666666667,
      "grad_norm": 0.8002138137817383,
      "learning_rate": 0.00028442099235200706,
      "loss": 4.0999,
      "step": 71960
    },
    {
      "epoch": 0.1499375,
      "grad_norm": 0.9176610112190247,
      "learning_rate": 0.0002844166171157063,
      "loss": 3.9667,
      "step": 71970
    },
    {
      "epoch": 0.14995833333333333,
      "grad_norm": 0.7362682819366455,
      "learning_rate": 0.00028441224129877897,
      "loss": 3.9581,
      "step": 71980
    },
    {
      "epoch": 0.14997916666666666,
      "grad_norm": 0.7761439085006714,
      "learning_rate": 0.000284407864901244,
      "loss": 3.9336,
      "step": 71990
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7397243976593018,
      "learning_rate": 0.0002844034879231203,
      "loss": 4.0251,
      "step": 72000
    },
    {
      "epoch": 0.15,
      "eval_loss": 4.295764923095703,
      "eval_runtime": 9.5639,
      "eval_samples_per_second": 1.046,
      "eval_steps_per_second": 0.314,
      "step": 72000
    },
    {
      "epoch": 0.15002083333333333,
      "grad_norm": 0.8388078808784485,
      "learning_rate": 0.0002843991103644267,
      "loss": 4.0227,
      "step": 72010
    },
    {
      "epoch": 0.15004166666666666,
      "grad_norm": 0.9408968091011047,
      "learning_rate": 0.00028439473222518206,
      "loss": 3.9341,
      "step": 72020
    },
    {
      "epoch": 0.1500625,
      "grad_norm": 0.7338883280754089,
      "learning_rate": 0.00028439035350540543,
      "loss": 3.8319,
      "step": 72030
    },
    {
      "epoch": 0.15008333333333335,
      "grad_norm": 0.7317513823509216,
      "learning_rate": 0.00028438597420511573,
      "loss": 3.9728,
      "step": 72040
    },
    {
      "epoch": 0.15010416666666668,
      "grad_norm": 0.828517735004425,
      "learning_rate": 0.0002843815943243317,
      "loss": 3.762,
      "step": 72050
    },
    {
      "epoch": 0.150125,
      "grad_norm": 1.0389846563339233,
      "learning_rate": 0.0002843772138630725,
      "loss": 3.8084,
      "step": 72060
    },
    {
      "epoch": 0.15014583333333334,
      "grad_norm": 0.6843791007995605,
      "learning_rate": 0.0002843728328213568,
      "loss": 4.0249,
      "step": 72070
    },
    {
      "epoch": 0.15016666666666667,
      "grad_norm": 0.8441025018692017,
      "learning_rate": 0.00028436845119920377,
      "loss": 4.0895,
      "step": 72080
    },
    {
      "epoch": 0.1501875,
      "grad_norm": 0.718093752861023,
      "learning_rate": 0.00028436406899663214,
      "loss": 4.1182,
      "step": 72090
    },
    {
      "epoch": 0.15020833333333333,
      "grad_norm": 0.735041081905365,
      "learning_rate": 0.0002843596862136609,
      "loss": 4.0152,
      "step": 72100
    },
    {
      "epoch": 0.15022916666666666,
      "grad_norm": 0.7616361379623413,
      "learning_rate": 0.00028435530285030904,
      "loss": 3.9742,
      "step": 72110
    },
    {
      "epoch": 0.15025,
      "grad_norm": 0.766974925994873,
      "learning_rate": 0.00028435091890659545,
      "loss": 3.9273,
      "step": 72120
    },
    {
      "epoch": 0.15027083333333333,
      "grad_norm": 1.0119668245315552,
      "learning_rate": 0.0002843465343825391,
      "loss": 3.8686,
      "step": 72130
    },
    {
      "epoch": 0.15029166666666666,
      "grad_norm": 0.7462304830551147,
      "learning_rate": 0.0002843421492781588,
      "loss": 4.1103,
      "step": 72140
    },
    {
      "epoch": 0.1503125,
      "grad_norm": 0.7401243448257446,
      "learning_rate": 0.0002843377635934737,
      "loss": 3.8154,
      "step": 72150
    },
    {
      "epoch": 0.15033333333333335,
      "grad_norm": 0.8520476818084717,
      "learning_rate": 0.00028433337732850254,
      "loss": 4.0405,
      "step": 72160
    },
    {
      "epoch": 0.15035416666666668,
      "grad_norm": 0.8213244080543518,
      "learning_rate": 0.00028432899048326445,
      "loss": 3.8169,
      "step": 72170
    },
    {
      "epoch": 0.150375,
      "grad_norm": 0.8177028894424438,
      "learning_rate": 0.0002843246030577782,
      "loss": 4.1099,
      "step": 72180
    },
    {
      "epoch": 0.15039583333333334,
      "grad_norm": 0.7936242818832397,
      "learning_rate": 0.000284320215052063,
      "loss": 3.9734,
      "step": 72190
    },
    {
      "epoch": 0.15041666666666667,
      "grad_norm": 0.8216565847396851,
      "learning_rate": 0.0002843158264661375,
      "loss": 4.0511,
      "step": 72200
    },
    {
      "epoch": 0.1504375,
      "grad_norm": 0.697338879108429,
      "learning_rate": 0.00028431143730002083,
      "loss": 3.9714,
      "step": 72210
    },
    {
      "epoch": 0.15045833333333333,
      "grad_norm": 0.9458749294281006,
      "learning_rate": 0.0002843070475537319,
      "loss": 3.8303,
      "step": 72220
    },
    {
      "epoch": 0.15047916666666666,
      "grad_norm": 0.7465956211090088,
      "learning_rate": 0.0002843026572272897,
      "loss": 3.9151,
      "step": 72230
    },
    {
      "epoch": 0.1505,
      "grad_norm": 0.8416056632995605,
      "learning_rate": 0.0002842982663207132,
      "loss": 3.9581,
      "step": 72240
    },
    {
      "epoch": 0.15052083333333333,
      "grad_norm": 0.8168357014656067,
      "learning_rate": 0.0002842938748340213,
      "loss": 3.9749,
      "step": 72250
    },
    {
      "epoch": 0.15054166666666666,
      "grad_norm": 0.8974773287773132,
      "learning_rate": 0.000284289482767233,
      "loss": 3.9778,
      "step": 72260
    },
    {
      "epoch": 0.1505625,
      "grad_norm": 0.7147213220596313,
      "learning_rate": 0.0002842850901203674,
      "loss": 4.0194,
      "step": 72270
    },
    {
      "epoch": 0.15058333333333335,
      "grad_norm": 0.8465138673782349,
      "learning_rate": 0.00028428069689344327,
      "loss": 4.0292,
      "step": 72280
    },
    {
      "epoch": 0.15060416666666668,
      "grad_norm": 0.8558012843132019,
      "learning_rate": 0.0002842763030864797,
      "loss": 3.936,
      "step": 72290
    },
    {
      "epoch": 0.150625,
      "grad_norm": 0.983116626739502,
      "learning_rate": 0.0002842719086994957,
      "loss": 4.0686,
      "step": 72300
    },
    {
      "epoch": 0.15064583333333334,
      "grad_norm": 0.7522895932197571,
      "learning_rate": 0.00028426751373251014,
      "loss": 4.0658,
      "step": 72310
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 0.7169217467308044,
      "learning_rate": 0.0002842631181855421,
      "loss": 4.1575,
      "step": 72320
    },
    {
      "epoch": 0.1506875,
      "grad_norm": 0.7256879806518555,
      "learning_rate": 0.0002842587220586105,
      "loss": 4.0786,
      "step": 72330
    },
    {
      "epoch": 0.15070833333333333,
      "grad_norm": 0.7191252708435059,
      "learning_rate": 0.00028425432535173444,
      "loss": 3.9841,
      "step": 72340
    },
    {
      "epoch": 0.15072916666666666,
      "grad_norm": 0.7323718070983887,
      "learning_rate": 0.0002842499280649328,
      "loss": 4.068,
      "step": 72350
    },
    {
      "epoch": 0.15075,
      "grad_norm": 0.7600184082984924,
      "learning_rate": 0.00028424553019822454,
      "loss": 3.9458,
      "step": 72360
    },
    {
      "epoch": 0.15077083333333333,
      "grad_norm": 0.8027377724647522,
      "learning_rate": 0.00028424113175162883,
      "loss": 4.0308,
      "step": 72370
    },
    {
      "epoch": 0.15079166666666666,
      "grad_norm": 0.8312699794769287,
      "learning_rate": 0.0002842367327251645,
      "loss": 4.0085,
      "step": 72380
    },
    {
      "epoch": 0.1508125,
      "grad_norm": 0.7182160019874573,
      "learning_rate": 0.0002842323331188507,
      "loss": 3.9754,
      "step": 72390
    },
    {
      "epoch": 0.15083333333333335,
      "grad_norm": 0.7611488699913025,
      "learning_rate": 0.00028422793293270625,
      "loss": 4.0225,
      "step": 72400
    },
    {
      "epoch": 0.15085416666666668,
      "grad_norm": 0.7022058367729187,
      "learning_rate": 0.0002842235321667503,
      "loss": 3.9381,
      "step": 72410
    },
    {
      "epoch": 0.150875,
      "grad_norm": 0.7718464136123657,
      "learning_rate": 0.0002842191308210018,
      "loss": 4.0963,
      "step": 72420
    },
    {
      "epoch": 0.15089583333333334,
      "grad_norm": 0.9441313743591309,
      "learning_rate": 0.00028421472889547986,
      "loss": 3.956,
      "step": 72430
    },
    {
      "epoch": 0.15091666666666667,
      "grad_norm": 0.942916214466095,
      "learning_rate": 0.00028421032639020335,
      "loss": 3.9402,
      "step": 72440
    },
    {
      "epoch": 0.1509375,
      "grad_norm": 1.022138237953186,
      "learning_rate": 0.0002842059233051914,
      "loss": 4.0063,
      "step": 72450
    },
    {
      "epoch": 0.15095833333333333,
      "grad_norm": 0.8479210734367371,
      "learning_rate": 0.0002842015196404629,
      "loss": 3.9831,
      "step": 72460
    },
    {
      "epoch": 0.15097916666666666,
      "grad_norm": 1.0297539234161377,
      "learning_rate": 0.00028419711539603705,
      "loss": 4.0513,
      "step": 72470
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.9022752642631531,
      "learning_rate": 0.00028419271057193273,
      "loss": 4.1092,
      "step": 72480
    },
    {
      "epoch": 0.15102083333333333,
      "grad_norm": 1.5635342597961426,
      "learning_rate": 0.00028418830516816905,
      "loss": 3.8363,
      "step": 72490
    },
    {
      "epoch": 0.15104166666666666,
      "grad_norm": 0.9071887731552124,
      "learning_rate": 0.000284183899184765,
      "loss": 3.9169,
      "step": 72500
    },
    {
      "epoch": 0.1510625,
      "grad_norm": 0.7524942755699158,
      "learning_rate": 0.0002841794926217396,
      "loss": 4.0659,
      "step": 72510
    },
    {
      "epoch": 0.15108333333333332,
      "grad_norm": 0.8225988149642944,
      "learning_rate": 0.00028417508547911186,
      "loss": 4.0076,
      "step": 72520
    },
    {
      "epoch": 0.15110416666666668,
      "grad_norm": 0.955308735370636,
      "learning_rate": 0.00028417067775690093,
      "loss": 4.0221,
      "step": 72530
    },
    {
      "epoch": 0.151125,
      "grad_norm": 0.8638079762458801,
      "learning_rate": 0.0002841662694551258,
      "loss": 4.1908,
      "step": 72540
    },
    {
      "epoch": 0.15114583333333334,
      "grad_norm": 0.815079391002655,
      "learning_rate": 0.0002841618605738054,
      "loss": 3.952,
      "step": 72550
    },
    {
      "epoch": 0.15116666666666667,
      "grad_norm": 0.7443315386772156,
      "learning_rate": 0.00028415745111295894,
      "loss": 3.8732,
      "step": 72560
    },
    {
      "epoch": 0.1511875,
      "grad_norm": 0.7739659547805786,
      "learning_rate": 0.0002841530410726054,
      "loss": 4.062,
      "step": 72570
    },
    {
      "epoch": 0.15120833333333333,
      "grad_norm": 0.7999347448348999,
      "learning_rate": 0.0002841486304527638,
      "loss": 4.2184,
      "step": 72580
    },
    {
      "epoch": 0.15122916666666666,
      "grad_norm": 0.8120511174201965,
      "learning_rate": 0.0002841442192534532,
      "loss": 3.885,
      "step": 72590
    },
    {
      "epoch": 0.15125,
      "grad_norm": 0.7557273507118225,
      "learning_rate": 0.00028413980747469267,
      "loss": 3.9144,
      "step": 72600
    },
    {
      "epoch": 0.15127083333333333,
      "grad_norm": 0.7908822894096375,
      "learning_rate": 0.0002841353951165013,
      "loss": 3.8818,
      "step": 72610
    },
    {
      "epoch": 0.15129166666666666,
      "grad_norm": 0.7700543999671936,
      "learning_rate": 0.00028413098217889806,
      "loss": 4.0513,
      "step": 72620
    },
    {
      "epoch": 0.1513125,
      "grad_norm": 0.8138931393623352,
      "learning_rate": 0.0002841265686619021,
      "loss": 3.9867,
      "step": 72630
    },
    {
      "epoch": 0.15133333333333332,
      "grad_norm": 0.7181718945503235,
      "learning_rate": 0.00028412215456553245,
      "loss": 4.0142,
      "step": 72640
    },
    {
      "epoch": 0.15135416666666668,
      "grad_norm": 0.8626682758331299,
      "learning_rate": 0.00028411773988980824,
      "loss": 4.0082,
      "step": 72650
    },
    {
      "epoch": 0.151375,
      "grad_norm": 0.7466697692871094,
      "learning_rate": 0.00028411332463474845,
      "loss": 4.0678,
      "step": 72660
    },
    {
      "epoch": 0.15139583333333334,
      "grad_norm": 0.8079784512519836,
      "learning_rate": 0.0002841089088003721,
      "loss": 3.9889,
      "step": 72670
    },
    {
      "epoch": 0.15141666666666667,
      "grad_norm": 0.7213324904441833,
      "learning_rate": 0.00028410449238669845,
      "loss": 3.9646,
      "step": 72680
    },
    {
      "epoch": 0.1514375,
      "grad_norm": 0.7599303722381592,
      "learning_rate": 0.00028410007539374644,
      "loss": 4.1372,
      "step": 72690
    },
    {
      "epoch": 0.15145833333333333,
      "grad_norm": 0.7314761877059937,
      "learning_rate": 0.0002840956578215352,
      "loss": 4.177,
      "step": 72700
    },
    {
      "epoch": 0.15147916666666666,
      "grad_norm": 0.9583154320716858,
      "learning_rate": 0.0002840912396700838,
      "loss": 4.1015,
      "step": 72710
    },
    {
      "epoch": 0.1515,
      "grad_norm": 0.8020080327987671,
      "learning_rate": 0.0002840868209394113,
      "loss": 4.0157,
      "step": 72720
    },
    {
      "epoch": 0.15152083333333333,
      "grad_norm": 0.7528849244117737,
      "learning_rate": 0.0002840824016295368,
      "loss": 3.9454,
      "step": 72730
    },
    {
      "epoch": 0.15154166666666666,
      "grad_norm": 0.9540367722511292,
      "learning_rate": 0.0002840779817404794,
      "loss": 3.8685,
      "step": 72740
    },
    {
      "epoch": 0.1515625,
      "grad_norm": 0.8045822978019714,
      "learning_rate": 0.00028407356127225825,
      "loss": 4.0676,
      "step": 72750
    },
    {
      "epoch": 0.15158333333333332,
      "grad_norm": 0.709798276424408,
      "learning_rate": 0.0002840691402248923,
      "loss": 4.0525,
      "step": 72760
    },
    {
      "epoch": 0.15160416666666668,
      "grad_norm": 0.905811607837677,
      "learning_rate": 0.00028406471859840083,
      "loss": 4.1315,
      "step": 72770
    },
    {
      "epoch": 0.151625,
      "grad_norm": 0.7818454504013062,
      "learning_rate": 0.00028406029639280276,
      "loss": 3.9897,
      "step": 72780
    },
    {
      "epoch": 0.15164583333333334,
      "grad_norm": 0.7797512412071228,
      "learning_rate": 0.0002840558736081173,
      "loss": 4.0339,
      "step": 72790
    },
    {
      "epoch": 0.15166666666666667,
      "grad_norm": 0.9299226999282837,
      "learning_rate": 0.00028405145024436356,
      "loss": 3.8646,
      "step": 72800
    },
    {
      "epoch": 0.1516875,
      "grad_norm": 0.8420463800430298,
      "learning_rate": 0.00028404702630156054,
      "loss": 4.0367,
      "step": 72810
    },
    {
      "epoch": 0.15170833333333333,
      "grad_norm": 0.8580852746963501,
      "learning_rate": 0.0002840426017797275,
      "loss": 3.9131,
      "step": 72820
    },
    {
      "epoch": 0.15172916666666666,
      "grad_norm": 0.7600605487823486,
      "learning_rate": 0.00028403817667888346,
      "loss": 3.9144,
      "step": 72830
    },
    {
      "epoch": 0.15175,
      "grad_norm": 0.9438735246658325,
      "learning_rate": 0.0002840337509990475,
      "loss": 4.0707,
      "step": 72840
    },
    {
      "epoch": 0.15177083333333333,
      "grad_norm": 0.7981035709381104,
      "learning_rate": 0.0002840293247402388,
      "loss": 3.9633,
      "step": 72850
    },
    {
      "epoch": 0.15179166666666666,
      "grad_norm": 0.7321599125862122,
      "learning_rate": 0.0002840248979024765,
      "loss": 4.0976,
      "step": 72860
    },
    {
      "epoch": 0.1518125,
      "grad_norm": 0.743794858455658,
      "learning_rate": 0.00028402047048577974,
      "loss": 3.9909,
      "step": 72870
    },
    {
      "epoch": 0.15183333333333332,
      "grad_norm": 0.7463403940200806,
      "learning_rate": 0.0002840160424901676,
      "loss": 3.9713,
      "step": 72880
    },
    {
      "epoch": 0.15185416666666668,
      "grad_norm": 0.7467679977416992,
      "learning_rate": 0.00028401161391565906,
      "loss": 3.9249,
      "step": 72890
    },
    {
      "epoch": 0.151875,
      "grad_norm": 0.7973138093948364,
      "learning_rate": 0.00028400718476227353,
      "loss": 4.0584,
      "step": 72900
    },
    {
      "epoch": 0.15189583333333334,
      "grad_norm": 0.6751752495765686,
      "learning_rate": 0.00028400275503003,
      "loss": 3.9658,
      "step": 72910
    },
    {
      "epoch": 0.15191666666666667,
      "grad_norm": 0.7750449180603027,
      "learning_rate": 0.0002839983247189475,
      "loss": 4.0311,
      "step": 72920
    },
    {
      "epoch": 0.1519375,
      "grad_norm": 0.8871482610702515,
      "learning_rate": 0.00028399389382904535,
      "loss": 3.9979,
      "step": 72930
    },
    {
      "epoch": 0.15195833333333333,
      "grad_norm": 0.7578150629997253,
      "learning_rate": 0.0002839894623603426,
      "loss": 3.9,
      "step": 72940
    },
    {
      "epoch": 0.15197916666666667,
      "grad_norm": 0.7444786429405212,
      "learning_rate": 0.00028398503031285845,
      "loss": 4.0309,
      "step": 72950
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.7813825011253357,
      "learning_rate": 0.00028398059768661204,
      "loss": 4.0679,
      "step": 72960
    },
    {
      "epoch": 0.15202083333333333,
      "grad_norm": 0.7288935780525208,
      "learning_rate": 0.00028397616448162235,
      "loss": 4.0372,
      "step": 72970
    },
    {
      "epoch": 0.15204166666666666,
      "grad_norm": 0.765454113483429,
      "learning_rate": 0.00028397173069790875,
      "loss": 3.9429,
      "step": 72980
    },
    {
      "epoch": 0.1520625,
      "grad_norm": 0.8828328847885132,
      "learning_rate": 0.00028396729633549026,
      "loss": 4.0985,
      "step": 72990
    },
    {
      "epoch": 0.15208333333333332,
      "grad_norm": 0.8802688717842102,
      "learning_rate": 0.0002839628613943861,
      "loss": 3.9756,
      "step": 73000
    },
    {
      "epoch": 0.15208333333333332,
      "eval_loss": 4.289035797119141,
      "eval_runtime": 9.6587,
      "eval_samples_per_second": 1.035,
      "eval_steps_per_second": 0.311,
      "step": 73000
    },
    {
      "epoch": 0.15210416666666668,
      "grad_norm": 0.7039880156517029,
      "learning_rate": 0.0002839584258746154,
      "loss": 3.9436,
      "step": 73010
    },
    {
      "epoch": 0.152125,
      "grad_norm": 0.772083580493927,
      "learning_rate": 0.00028395398977619735,
      "loss": 3.9297,
      "step": 73020
    },
    {
      "epoch": 0.15214583333333334,
      "grad_norm": 0.9898645281791687,
      "learning_rate": 0.0002839495530991511,
      "loss": 4.1193,
      "step": 73030
    },
    {
      "epoch": 0.15216666666666667,
      "grad_norm": 0.768926203250885,
      "learning_rate": 0.0002839451158434958,
      "loss": 4.0435,
      "step": 73040
    },
    {
      "epoch": 0.1521875,
      "grad_norm": 0.7805061340332031,
      "learning_rate": 0.00028394067800925057,
      "loss": 3.8929,
      "step": 73050
    },
    {
      "epoch": 0.15220833333333333,
      "grad_norm": 0.7719686627388,
      "learning_rate": 0.0002839362395964346,
      "loss": 3.7854,
      "step": 73060
    },
    {
      "epoch": 0.15222916666666667,
      "grad_norm": 0.8028059005737305,
      "learning_rate": 0.0002839318006050672,
      "loss": 3.9693,
      "step": 73070
    },
    {
      "epoch": 0.15225,
      "grad_norm": 0.8585761189460754,
      "learning_rate": 0.0002839273610351674,
      "loss": 3.9051,
      "step": 73080
    },
    {
      "epoch": 0.15227083333333333,
      "grad_norm": 0.7626745104789734,
      "learning_rate": 0.00028392292088675437,
      "loss": 3.9207,
      "step": 73090
    },
    {
      "epoch": 0.15229166666666666,
      "grad_norm": 0.7298381924629211,
      "learning_rate": 0.0002839184801598473,
      "loss": 4.0438,
      "step": 73100
    },
    {
      "epoch": 0.1523125,
      "grad_norm": 0.8463944792747498,
      "learning_rate": 0.0002839140388544655,
      "loss": 3.9336,
      "step": 73110
    },
    {
      "epoch": 0.15233333333333332,
      "grad_norm": 0.7844811081886292,
      "learning_rate": 0.000283909596970628,
      "loss": 3.9378,
      "step": 73120
    },
    {
      "epoch": 0.15235416666666668,
      "grad_norm": 0.8684730529785156,
      "learning_rate": 0.000283905154508354,
      "loss": 3.6447,
      "step": 73130
    },
    {
      "epoch": 0.152375,
      "grad_norm": 0.7893691658973694,
      "learning_rate": 0.0002839007114676628,
      "loss": 3.9233,
      "step": 73140
    },
    {
      "epoch": 0.15239583333333334,
      "grad_norm": 0.7345757484436035,
      "learning_rate": 0.00028389626784857357,
      "loss": 3.8923,
      "step": 73150
    },
    {
      "epoch": 0.15241666666666667,
      "grad_norm": 0.9433168172836304,
      "learning_rate": 0.0002838918236511054,
      "loss": 4.068,
      "step": 73160
    },
    {
      "epoch": 0.1524375,
      "grad_norm": 0.8687768578529358,
      "learning_rate": 0.00028388737887527753,
      "loss": 4.1145,
      "step": 73170
    },
    {
      "epoch": 0.15245833333333333,
      "grad_norm": 0.8037504553794861,
      "learning_rate": 0.00028388293352110927,
      "loss": 3.8816,
      "step": 73180
    },
    {
      "epoch": 0.15247916666666667,
      "grad_norm": 0.8040510416030884,
      "learning_rate": 0.0002838784875886196,
      "loss": 4.0265,
      "step": 73190
    },
    {
      "epoch": 0.1525,
      "grad_norm": 0.8467494249343872,
      "learning_rate": 0.000283874041077828,
      "loss": 3.9374,
      "step": 73200
    },
    {
      "epoch": 0.15252083333333333,
      "grad_norm": 0.7648420929908752,
      "learning_rate": 0.0002838695939887535,
      "loss": 3.9582,
      "step": 73210
    },
    {
      "epoch": 0.15254166666666666,
      "grad_norm": 0.7715051770210266,
      "learning_rate": 0.0002838651463214152,
      "loss": 4.0835,
      "step": 73220
    },
    {
      "epoch": 0.1525625,
      "grad_norm": 0.7688460350036621,
      "learning_rate": 0.00028386069807583264,
      "loss": 4.0062,
      "step": 73230
    },
    {
      "epoch": 0.15258333333333332,
      "grad_norm": 0.7146083116531372,
      "learning_rate": 0.00028385624925202476,
      "loss": 4.0293,
      "step": 73240
    },
    {
      "epoch": 0.15260416666666668,
      "grad_norm": 0.7722119092941284,
      "learning_rate": 0.0002838517998500108,
      "loss": 3.9419,
      "step": 73250
    },
    {
      "epoch": 0.152625,
      "grad_norm": 0.7356873154640198,
      "learning_rate": 0.0002838473498698102,
      "loss": 4.12,
      "step": 73260
    },
    {
      "epoch": 0.15264583333333334,
      "grad_norm": 0.7520571351051331,
      "learning_rate": 0.00028384289931144196,
      "loss": 3.9967,
      "step": 73270
    },
    {
      "epoch": 0.15266666666666667,
      "grad_norm": 0.6952807903289795,
      "learning_rate": 0.00028383844817492536,
      "loss": 4.2289,
      "step": 73280
    },
    {
      "epoch": 0.1526875,
      "grad_norm": 0.8427094221115112,
      "learning_rate": 0.0002838339964602797,
      "loss": 3.9082,
      "step": 73290
    },
    {
      "epoch": 0.15270833333333333,
      "grad_norm": 0.827663242816925,
      "learning_rate": 0.00028382954416752407,
      "loss": 4.0389,
      "step": 73300
    },
    {
      "epoch": 0.15272916666666667,
      "grad_norm": 0.9176377654075623,
      "learning_rate": 0.0002838250912966778,
      "loss": 4.1204,
      "step": 73310
    },
    {
      "epoch": 0.15275,
      "grad_norm": 0.8079107403755188,
      "learning_rate": 0.00028382063784776013,
      "loss": 4.0683,
      "step": 73320
    },
    {
      "epoch": 0.15277083333333333,
      "grad_norm": 0.7335153222084045,
      "learning_rate": 0.00028381618382079024,
      "loss": 4.0067,
      "step": 73330
    },
    {
      "epoch": 0.15279166666666666,
      "grad_norm": 0.7644971013069153,
      "learning_rate": 0.00028381172921578744,
      "loss": 3.9507,
      "step": 73340
    },
    {
      "epoch": 0.1528125,
      "grad_norm": 0.8006301522254944,
      "learning_rate": 0.00028380727403277094,
      "loss": 3.9322,
      "step": 73350
    },
    {
      "epoch": 0.15283333333333332,
      "grad_norm": 0.7938095927238464,
      "learning_rate": 0.00028380281827175997,
      "loss": 4.041,
      "step": 73360
    },
    {
      "epoch": 0.15285416666666668,
      "grad_norm": 0.8033451437950134,
      "learning_rate": 0.00028379836193277377,
      "loss": 3.88,
      "step": 73370
    },
    {
      "epoch": 0.152875,
      "grad_norm": 0.7751308083534241,
      "learning_rate": 0.00028379390501583166,
      "loss": 4.0363,
      "step": 73380
    },
    {
      "epoch": 0.15289583333333334,
      "grad_norm": 0.7850701212882996,
      "learning_rate": 0.0002837894475209528,
      "loss": 4.0163,
      "step": 73390
    },
    {
      "epoch": 0.15291666666666667,
      "grad_norm": 0.7530560493469238,
      "learning_rate": 0.00028378498944815647,
      "loss": 3.9799,
      "step": 73400
    },
    {
      "epoch": 0.1529375,
      "grad_norm": 0.8355073928833008,
      "learning_rate": 0.00028378053079746194,
      "loss": 4.0634,
      "step": 73410
    },
    {
      "epoch": 0.15295833333333334,
      "grad_norm": 0.7835350036621094,
      "learning_rate": 0.00028377607156888847,
      "loss": 4.095,
      "step": 73420
    },
    {
      "epoch": 0.15297916666666667,
      "grad_norm": 0.7210692167282104,
      "learning_rate": 0.0002837716117624554,
      "loss": 3.8746,
      "step": 73430
    },
    {
      "epoch": 0.153,
      "grad_norm": 0.8039471507072449,
      "learning_rate": 0.00028376715137818184,
      "loss": 3.9442,
      "step": 73440
    },
    {
      "epoch": 0.15302083333333333,
      "grad_norm": 0.7650304436683655,
      "learning_rate": 0.00028376269041608716,
      "loss": 4.0332,
      "step": 73450
    },
    {
      "epoch": 0.15304166666666666,
      "grad_norm": 0.7592710852622986,
      "learning_rate": 0.00028375822887619057,
      "loss": 3.9801,
      "step": 73460
    },
    {
      "epoch": 0.1530625,
      "grad_norm": 0.8189033269882202,
      "learning_rate": 0.0002837537667585114,
      "loss": 4.2142,
      "step": 73470
    },
    {
      "epoch": 0.15308333333333332,
      "grad_norm": 0.7113751173019409,
      "learning_rate": 0.00028374930406306896,
      "loss": 4.0691,
      "step": 73480
    },
    {
      "epoch": 0.15310416666666668,
      "grad_norm": 0.7578450441360474,
      "learning_rate": 0.0002837448407898824,
      "loss": 3.9702,
      "step": 73490
    },
    {
      "epoch": 0.153125,
      "grad_norm": 0.7560532093048096,
      "learning_rate": 0.0002837403769389711,
      "loss": 3.9826,
      "step": 73500
    },
    {
      "epoch": 0.15314583333333334,
      "grad_norm": 0.8160309791564941,
      "learning_rate": 0.00028373591251035425,
      "loss": 4.1464,
      "step": 73510
    },
    {
      "epoch": 0.15316666666666667,
      "grad_norm": 0.7979289293289185,
      "learning_rate": 0.00028373144750405124,
      "loss": 4.2059,
      "step": 73520
    },
    {
      "epoch": 0.1531875,
      "grad_norm": 1.3935414552688599,
      "learning_rate": 0.0002837269819200813,
      "loss": 3.9896,
      "step": 73530
    },
    {
      "epoch": 0.15320833333333334,
      "grad_norm": 0.7592385411262512,
      "learning_rate": 0.00028372251575846375,
      "loss": 3.8376,
      "step": 73540
    },
    {
      "epoch": 0.15322916666666667,
      "grad_norm": 0.9285362362861633,
      "learning_rate": 0.00028371804901921785,
      "loss": 4.0821,
      "step": 73550
    },
    {
      "epoch": 0.15325,
      "grad_norm": 0.8936423063278198,
      "learning_rate": 0.0002837135817023629,
      "loss": 3.8755,
      "step": 73560
    },
    {
      "epoch": 0.15327083333333333,
      "grad_norm": 0.7954498529434204,
      "learning_rate": 0.0002837091138079182,
      "loss": 3.8762,
      "step": 73570
    },
    {
      "epoch": 0.15329166666666666,
      "grad_norm": 0.8194359540939331,
      "learning_rate": 0.0002837046453359031,
      "loss": 3.857,
      "step": 73580
    },
    {
      "epoch": 0.1533125,
      "grad_norm": 0.8303548097610474,
      "learning_rate": 0.00028370017628633683,
      "loss": 3.9694,
      "step": 73590
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 0.7597904205322266,
      "learning_rate": 0.0002836957066592387,
      "loss": 3.8603,
      "step": 73600
    },
    {
      "epoch": 0.15335416666666668,
      "grad_norm": 0.7998079061508179,
      "learning_rate": 0.00028369123645462805,
      "loss": 4.0151,
      "step": 73610
    },
    {
      "epoch": 0.153375,
      "grad_norm": 0.7875493764877319,
      "learning_rate": 0.0002836867656725242,
      "loss": 4.031,
      "step": 73620
    },
    {
      "epoch": 0.15339583333333334,
      "grad_norm": 0.7740491032600403,
      "learning_rate": 0.0002836822943129464,
      "loss": 3.9649,
      "step": 73630
    },
    {
      "epoch": 0.15341666666666667,
      "grad_norm": 0.8287675380706787,
      "learning_rate": 0.00028367782237591403,
      "loss": 3.9921,
      "step": 73640
    },
    {
      "epoch": 0.1534375,
      "grad_norm": 0.8252224326133728,
      "learning_rate": 0.00028367334986144637,
      "loss": 3.8955,
      "step": 73650
    },
    {
      "epoch": 0.15345833333333334,
      "grad_norm": 0.8693181276321411,
      "learning_rate": 0.00028366887676956276,
      "loss": 4.1401,
      "step": 73660
    },
    {
      "epoch": 0.15347916666666667,
      "grad_norm": 0.8157568573951721,
      "learning_rate": 0.00028366440310028247,
      "loss": 3.9597,
      "step": 73670
    },
    {
      "epoch": 0.1535,
      "grad_norm": 0.822344183921814,
      "learning_rate": 0.00028365992885362495,
      "loss": 3.9391,
      "step": 73680
    },
    {
      "epoch": 0.15352083333333333,
      "grad_norm": 0.9049589037895203,
      "learning_rate": 0.0002836554540296094,
      "loss": 3.9783,
      "step": 73690
    },
    {
      "epoch": 0.15354166666666666,
      "grad_norm": 0.7346199750900269,
      "learning_rate": 0.00028365097862825513,
      "loss": 3.8874,
      "step": 73700
    },
    {
      "epoch": 0.1535625,
      "grad_norm": 0.8062243461608887,
      "learning_rate": 0.00028364650264958165,
      "loss": 4.1499,
      "step": 73710
    },
    {
      "epoch": 0.15358333333333332,
      "grad_norm": 0.7193365693092346,
      "learning_rate": 0.0002836420260936081,
      "loss": 4.0235,
      "step": 73720
    },
    {
      "epoch": 0.15360416666666668,
      "grad_norm": 0.787533164024353,
      "learning_rate": 0.00028363754896035395,
      "loss": 3.983,
      "step": 73730
    },
    {
      "epoch": 0.153625,
      "grad_norm": 0.8192620873451233,
      "learning_rate": 0.0002836330712498384,
      "loss": 4.0264,
      "step": 73740
    },
    {
      "epoch": 0.15364583333333334,
      "grad_norm": 0.709965705871582,
      "learning_rate": 0.00028362859296208093,
      "loss": 4.0014,
      "step": 73750
    },
    {
      "epoch": 0.15366666666666667,
      "grad_norm": 0.6903032660484314,
      "learning_rate": 0.00028362411409710086,
      "loss": 4.1528,
      "step": 73760
    },
    {
      "epoch": 0.1536875,
      "grad_norm": 0.8671177625656128,
      "learning_rate": 0.00028361963465491747,
      "loss": 3.7804,
      "step": 73770
    },
    {
      "epoch": 0.15370833333333334,
      "grad_norm": 0.7458586692810059,
      "learning_rate": 0.00028361515463555016,
      "loss": 4.028,
      "step": 73780
    },
    {
      "epoch": 0.15372916666666667,
      "grad_norm": 0.7680201530456543,
      "learning_rate": 0.0002836106740390183,
      "loss": 4.161,
      "step": 73790
    },
    {
      "epoch": 0.15375,
      "grad_norm": 0.8758038282394409,
      "learning_rate": 0.0002836061928653412,
      "loss": 3.9732,
      "step": 73800
    },
    {
      "epoch": 0.15377083333333333,
      "grad_norm": 0.7092270255088806,
      "learning_rate": 0.00028360171111453816,
      "loss": 3.9179,
      "step": 73810
    },
    {
      "epoch": 0.15379166666666666,
      "grad_norm": 0.7810970544815063,
      "learning_rate": 0.0002835972287866287,
      "loss": 4.0487,
      "step": 73820
    },
    {
      "epoch": 0.1538125,
      "grad_norm": 0.7219531536102295,
      "learning_rate": 0.00028359274588163206,
      "loss": 4.0425,
      "step": 73830
    },
    {
      "epoch": 0.15383333333333332,
      "grad_norm": 0.6883900165557861,
      "learning_rate": 0.00028358826239956766,
      "loss": 3.9364,
      "step": 73840
    },
    {
      "epoch": 0.15385416666666665,
      "grad_norm": 0.6988272070884705,
      "learning_rate": 0.0002835837783404548,
      "loss": 3.9364,
      "step": 73850
    },
    {
      "epoch": 0.153875,
      "grad_norm": 0.6967785954475403,
      "learning_rate": 0.00028357929370431294,
      "loss": 4.1574,
      "step": 73860
    },
    {
      "epoch": 0.15389583333333334,
      "grad_norm": 0.832975447177887,
      "learning_rate": 0.0002835748084911614,
      "loss": 3.9732,
      "step": 73870
    },
    {
      "epoch": 0.15391666666666667,
      "grad_norm": 0.8089030981063843,
      "learning_rate": 0.0002835703227010196,
      "loss": 4.0968,
      "step": 73880
    },
    {
      "epoch": 0.1539375,
      "grad_norm": 0.7326657772064209,
      "learning_rate": 0.00028356583633390675,
      "loss": 4.0256,
      "step": 73890
    },
    {
      "epoch": 0.15395833333333334,
      "grad_norm": 0.6976575255393982,
      "learning_rate": 0.00028356134938984246,
      "loss": 4.1072,
      "step": 73900
    },
    {
      "epoch": 0.15397916666666667,
      "grad_norm": 0.8250044584274292,
      "learning_rate": 0.00028355686186884595,
      "loss": 4.1239,
      "step": 73910
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.8209596872329712,
      "learning_rate": 0.0002835523737709367,
      "loss": 3.9264,
      "step": 73920
    },
    {
      "epoch": 0.15402083333333333,
      "grad_norm": 0.7477697730064392,
      "learning_rate": 0.000283547885096134,
      "loss": 3.9181,
      "step": 73930
    },
    {
      "epoch": 0.15404166666666666,
      "grad_norm": 0.708919107913971,
      "learning_rate": 0.0002835433958444574,
      "loss": 3.8325,
      "step": 73940
    },
    {
      "epoch": 0.1540625,
      "grad_norm": 0.8785334229469299,
      "learning_rate": 0.00028353890601592614,
      "loss": 3.9662,
      "step": 73950
    },
    {
      "epoch": 0.15408333333333332,
      "grad_norm": 0.7577531933784485,
      "learning_rate": 0.00028353441561055964,
      "loss": 3.7741,
      "step": 73960
    },
    {
      "epoch": 0.15410416666666665,
      "grad_norm": 0.7160803079605103,
      "learning_rate": 0.00028352992462837736,
      "loss": 3.947,
      "step": 73970
    },
    {
      "epoch": 0.154125,
      "grad_norm": 0.7292088270187378,
      "learning_rate": 0.0002835254330693986,
      "loss": 4.0908,
      "step": 73980
    },
    {
      "epoch": 0.15414583333333334,
      "grad_norm": 0.671909749507904,
      "learning_rate": 0.0002835209409336429,
      "loss": 4.0251,
      "step": 73990
    },
    {
      "epoch": 0.15416666666666667,
      "grad_norm": 0.6892721652984619,
      "learning_rate": 0.0002835164482211295,
      "loss": 4.0327,
      "step": 74000
    },
    {
      "epoch": 0.15416666666666667,
      "eval_loss": 4.283780574798584,
      "eval_runtime": 10.0265,
      "eval_samples_per_second": 0.997,
      "eval_steps_per_second": 0.299,
      "step": 74000
    },
    {
      "epoch": 0.1541875,
      "grad_norm": 0.7777121067047119,
      "learning_rate": 0.00028351195493187795,
      "loss": 3.895,
      "step": 74010
    },
    {
      "epoch": 0.15420833333333334,
      "grad_norm": 0.733920693397522,
      "learning_rate": 0.00028350746106590763,
      "loss": 4.0647,
      "step": 74020
    },
    {
      "epoch": 0.15422916666666667,
      "grad_norm": 0.6507008671760559,
      "learning_rate": 0.00028350296662323787,
      "loss": 3.8509,
      "step": 74030
    },
    {
      "epoch": 0.15425,
      "grad_norm": 0.833376944065094,
      "learning_rate": 0.0002834984716038882,
      "loss": 4.0186,
      "step": 74040
    },
    {
      "epoch": 0.15427083333333333,
      "grad_norm": 0.8900867104530334,
      "learning_rate": 0.00028349397600787793,
      "loss": 4.1141,
      "step": 74050
    },
    {
      "epoch": 0.15429166666666666,
      "grad_norm": 0.7419366836547852,
      "learning_rate": 0.0002834894798352265,
      "loss": 4.0453,
      "step": 74060
    },
    {
      "epoch": 0.1543125,
      "grad_norm": 0.6885731220245361,
      "learning_rate": 0.0002834849830859534,
      "loss": 4.1278,
      "step": 74070
    },
    {
      "epoch": 0.15433333333333332,
      "grad_norm": 0.9258619546890259,
      "learning_rate": 0.000283480485760078,
      "loss": 3.8765,
      "step": 74080
    },
    {
      "epoch": 0.15435416666666665,
      "grad_norm": 0.7779691219329834,
      "learning_rate": 0.00028347598785761975,
      "loss": 4.0027,
      "step": 74090
    },
    {
      "epoch": 0.154375,
      "grad_norm": 0.8266304135322571,
      "learning_rate": 0.000283471489378598,
      "loss": 3.8708,
      "step": 74100
    },
    {
      "epoch": 0.15439583333333334,
      "grad_norm": 0.7437942028045654,
      "learning_rate": 0.0002834669903230323,
      "loss": 3.6922,
      "step": 74110
    },
    {
      "epoch": 0.15441666666666667,
      "grad_norm": 0.7675392031669617,
      "learning_rate": 0.00028346249069094204,
      "loss": 4.0626,
      "step": 74120
    },
    {
      "epoch": 0.1544375,
      "grad_norm": 0.7813106775283813,
      "learning_rate": 0.0002834579904823467,
      "loss": 4.1491,
      "step": 74130
    },
    {
      "epoch": 0.15445833333333334,
      "grad_norm": 0.7985984086990356,
      "learning_rate": 0.00028345348969726556,
      "loss": 4.0049,
      "step": 74140
    },
    {
      "epoch": 0.15447916666666667,
      "grad_norm": 0.7868517637252808,
      "learning_rate": 0.00028344898833571817,
      "loss": 4.0591,
      "step": 74150
    },
    {
      "epoch": 0.1545,
      "grad_norm": 0.798766553401947,
      "learning_rate": 0.000283444486397724,
      "loss": 3.9644,
      "step": 74160
    },
    {
      "epoch": 0.15452083333333333,
      "grad_norm": 0.7904515862464905,
      "learning_rate": 0.0002834399838833025,
      "loss": 4.0561,
      "step": 74170
    },
    {
      "epoch": 0.15454166666666666,
      "grad_norm": 0.8406566977500916,
      "learning_rate": 0.00028343548079247307,
      "loss": 3.8442,
      "step": 74180
    },
    {
      "epoch": 0.1545625,
      "grad_norm": 0.8060728311538696,
      "learning_rate": 0.0002834309771252552,
      "loss": 3.849,
      "step": 74190
    },
    {
      "epoch": 0.15458333333333332,
      "grad_norm": 0.741301953792572,
      "learning_rate": 0.0002834264728816683,
      "loss": 4.0383,
      "step": 74200
    },
    {
      "epoch": 0.15460416666666665,
      "grad_norm": 0.6978849172592163,
      "learning_rate": 0.00028342196806173186,
      "loss": 3.8633,
      "step": 74210
    },
    {
      "epoch": 0.154625,
      "grad_norm": 0.861434280872345,
      "learning_rate": 0.00028341746266546535,
      "loss": 4.0145,
      "step": 74220
    },
    {
      "epoch": 0.15464583333333334,
      "grad_norm": 0.6940504312515259,
      "learning_rate": 0.0002834129566928882,
      "loss": 4.129,
      "step": 74230
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 0.7726131081581116,
      "learning_rate": 0.00028340845014401985,
      "loss": 3.9589,
      "step": 74240
    },
    {
      "epoch": 0.1546875,
      "grad_norm": 0.7230958342552185,
      "learning_rate": 0.00028340394301887983,
      "loss": 3.9849,
      "step": 74250
    },
    {
      "epoch": 0.15470833333333334,
      "grad_norm": 0.839603841304779,
      "learning_rate": 0.0002833994353174876,
      "loss": 3.9395,
      "step": 74260
    },
    {
      "epoch": 0.15472916666666667,
      "grad_norm": 0.852306067943573,
      "learning_rate": 0.0002833949270398626,
      "loss": 3.8796,
      "step": 74270
    },
    {
      "epoch": 0.15475,
      "grad_norm": 0.7826898097991943,
      "learning_rate": 0.0002833904181860243,
      "loss": 3.9891,
      "step": 74280
    },
    {
      "epoch": 0.15477083333333333,
      "grad_norm": 0.7693696022033691,
      "learning_rate": 0.00028338590875599215,
      "loss": 4.034,
      "step": 74290
    },
    {
      "epoch": 0.15479166666666666,
      "grad_norm": 1.066893458366394,
      "learning_rate": 0.0002833813987497857,
      "loss": 4.0199,
      "step": 74300
    },
    {
      "epoch": 0.1548125,
      "grad_norm": 0.8082525134086609,
      "learning_rate": 0.00028337688816742443,
      "loss": 4.0038,
      "step": 74310
    },
    {
      "epoch": 0.15483333333333332,
      "grad_norm": 0.7809162735939026,
      "learning_rate": 0.0002833723770089278,
      "loss": 3.8246,
      "step": 74320
    },
    {
      "epoch": 0.15485416666666665,
      "grad_norm": 0.7808398008346558,
      "learning_rate": 0.00028336786527431533,
      "loss": 3.7959,
      "step": 74330
    },
    {
      "epoch": 0.154875,
      "grad_norm": 0.764299750328064,
      "learning_rate": 0.00028336335296360644,
      "loss": 3.9448,
      "step": 74340
    },
    {
      "epoch": 0.15489583333333334,
      "grad_norm": 0.9053197503089905,
      "learning_rate": 0.00028335884007682065,
      "loss": 3.8515,
      "step": 74350
    },
    {
      "epoch": 0.15491666666666667,
      "grad_norm": 0.7905935645103455,
      "learning_rate": 0.00028335432661397744,
      "loss": 3.8667,
      "step": 74360
    },
    {
      "epoch": 0.1549375,
      "grad_norm": 0.7395516633987427,
      "learning_rate": 0.00028334981257509636,
      "loss": 4.0472,
      "step": 74370
    },
    {
      "epoch": 0.15495833333333334,
      "grad_norm": 0.7712090015411377,
      "learning_rate": 0.00028334529796019683,
      "loss": 3.9215,
      "step": 74380
    },
    {
      "epoch": 0.15497916666666667,
      "grad_norm": 0.7608568668365479,
      "learning_rate": 0.0002833407827692984,
      "loss": 3.9064,
      "step": 74390
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.8871476054191589,
      "learning_rate": 0.0002833362670024206,
      "loss": 3.8726,
      "step": 74400
    },
    {
      "epoch": 0.15502083333333333,
      "grad_norm": 0.8368592262268066,
      "learning_rate": 0.0002833317506595829,
      "loss": 3.8461,
      "step": 74410
    },
    {
      "epoch": 0.15504166666666666,
      "grad_norm": 0.9319838285446167,
      "learning_rate": 0.00028332723374080475,
      "loss": 3.9123,
      "step": 74420
    },
    {
      "epoch": 0.1550625,
      "grad_norm": 0.8985961079597473,
      "learning_rate": 0.0002833227162461058,
      "loss": 3.9965,
      "step": 74430
    },
    {
      "epoch": 0.15508333333333332,
      "grad_norm": 0.7412881255149841,
      "learning_rate": 0.0002833181981755055,
      "loss": 4.1284,
      "step": 74440
    },
    {
      "epoch": 0.15510416666666665,
      "grad_norm": 0.8004097938537598,
      "learning_rate": 0.00028331367952902326,
      "loss": 3.9482,
      "step": 74450
    },
    {
      "epoch": 0.155125,
      "grad_norm": 0.7659456133842468,
      "learning_rate": 0.0002833091603066788,
      "loss": 3.7329,
      "step": 74460
    },
    {
      "epoch": 0.15514583333333334,
      "grad_norm": 0.9894313216209412,
      "learning_rate": 0.00028330464050849147,
      "loss": 4.0193,
      "step": 74470
    },
    {
      "epoch": 0.15516666666666667,
      "grad_norm": 0.7359451651573181,
      "learning_rate": 0.00028330012013448087,
      "loss": 4.1081,
      "step": 74480
    },
    {
      "epoch": 0.1551875,
      "grad_norm": 0.9135481715202332,
      "learning_rate": 0.00028329559918466654,
      "loss": 3.8511,
      "step": 74490
    },
    {
      "epoch": 0.15520833333333334,
      "grad_norm": 0.8564267158508301,
      "learning_rate": 0.00028329107765906795,
      "loss": 3.7711,
      "step": 74500
    },
    {
      "epoch": 0.15522916666666667,
      "grad_norm": 0.7380326390266418,
      "learning_rate": 0.0002832865555577047,
      "loss": 4.1417,
      "step": 74510
    },
    {
      "epoch": 0.15525,
      "grad_norm": 0.7813717126846313,
      "learning_rate": 0.00028328203288059624,
      "loss": 4.0239,
      "step": 74520
    },
    {
      "epoch": 0.15527083333333333,
      "grad_norm": 0.8706365823745728,
      "learning_rate": 0.0002832775096277622,
      "loss": 3.968,
      "step": 74530
    },
    {
      "epoch": 0.15529166666666666,
      "grad_norm": 0.9258253574371338,
      "learning_rate": 0.00028327298579922203,
      "loss": 3.881,
      "step": 74540
    },
    {
      "epoch": 0.1553125,
      "grad_norm": 0.7382897138595581,
      "learning_rate": 0.00028326846139499533,
      "loss": 3.8864,
      "step": 74550
    },
    {
      "epoch": 0.15533333333333332,
      "grad_norm": 0.7979393005371094,
      "learning_rate": 0.00028326393641510167,
      "loss": 3.9732,
      "step": 74560
    },
    {
      "epoch": 0.15535416666666665,
      "grad_norm": 0.7758294343948364,
      "learning_rate": 0.0002832594108595605,
      "loss": 3.9235,
      "step": 74570
    },
    {
      "epoch": 0.155375,
      "grad_norm": 0.8742675185203552,
      "learning_rate": 0.00028325488472839144,
      "loss": 3.8543,
      "step": 74580
    },
    {
      "epoch": 0.15539583333333334,
      "grad_norm": 0.8914968967437744,
      "learning_rate": 0.00028325035802161406,
      "loss": 4.0674,
      "step": 74590
    },
    {
      "epoch": 0.15541666666666668,
      "grad_norm": 0.726053774356842,
      "learning_rate": 0.00028324583073924785,
      "loss": 4.0089,
      "step": 74600
    },
    {
      "epoch": 0.1554375,
      "grad_norm": 0.7506197094917297,
      "learning_rate": 0.0002832413028813124,
      "loss": 4.052,
      "step": 74610
    },
    {
      "epoch": 0.15545833333333334,
      "grad_norm": 0.8418910503387451,
      "learning_rate": 0.00028323677444782723,
      "loss": 4.0174,
      "step": 74620
    },
    {
      "epoch": 0.15547916666666667,
      "grad_norm": 0.7669274806976318,
      "learning_rate": 0.000283232245438812,
      "loss": 3.9461,
      "step": 74630
    },
    {
      "epoch": 0.1555,
      "grad_norm": 0.9000797867774963,
      "learning_rate": 0.0002832277158542861,
      "loss": 4.0901,
      "step": 74640
    },
    {
      "epoch": 0.15552083333333333,
      "grad_norm": 0.8246632814407349,
      "learning_rate": 0.0002832231856942693,
      "loss": 3.9433,
      "step": 74650
    },
    {
      "epoch": 0.15554166666666666,
      "grad_norm": 0.7363452911376953,
      "learning_rate": 0.000283218654958781,
      "loss": 4.0827,
      "step": 74660
    },
    {
      "epoch": 0.1555625,
      "grad_norm": 0.883378267288208,
      "learning_rate": 0.0002832141236478409,
      "loss": 4.0913,
      "step": 74670
    },
    {
      "epoch": 0.15558333333333332,
      "grad_norm": 0.7422046661376953,
      "learning_rate": 0.0002832095917614685,
      "loss": 3.9332,
      "step": 74680
    },
    {
      "epoch": 0.15560416666666665,
      "grad_norm": 0.7264895439147949,
      "learning_rate": 0.0002832050592996834,
      "loss": 3.9544,
      "step": 74690
    },
    {
      "epoch": 0.155625,
      "grad_norm": 0.8372377157211304,
      "learning_rate": 0.00028320052626250514,
      "loss": 3.9209,
      "step": 74700
    },
    {
      "epoch": 0.15564583333333334,
      "grad_norm": 0.7496258020401001,
      "learning_rate": 0.00028319599264995337,
      "loss": 4.0893,
      "step": 74710
    },
    {
      "epoch": 0.15566666666666668,
      "grad_norm": 0.7789977788925171,
      "learning_rate": 0.0002831914584620476,
      "loss": 3.8135,
      "step": 74720
    },
    {
      "epoch": 0.1556875,
      "grad_norm": 0.8583061695098877,
      "learning_rate": 0.00028318692369880743,
      "loss": 4.1,
      "step": 74730
    },
    {
      "epoch": 0.15570833333333334,
      "grad_norm": 0.8171669244766235,
      "learning_rate": 0.0002831823883602525,
      "loss": 3.9395,
      "step": 74740
    },
    {
      "epoch": 0.15572916666666667,
      "grad_norm": 0.7158638834953308,
      "learning_rate": 0.0002831778524464024,
      "loss": 3.9229,
      "step": 74750
    },
    {
      "epoch": 0.15575,
      "grad_norm": 0.9157170653343201,
      "learning_rate": 0.0002831733159572767,
      "loss": 3.9164,
      "step": 74760
    },
    {
      "epoch": 0.15577083333333333,
      "grad_norm": 0.7919090390205383,
      "learning_rate": 0.00028316877889289493,
      "loss": 3.8648,
      "step": 74770
    },
    {
      "epoch": 0.15579166666666666,
      "grad_norm": 0.7721575498580933,
      "learning_rate": 0.00028316424125327677,
      "loss": 3.8953,
      "step": 74780
    },
    {
      "epoch": 0.1558125,
      "grad_norm": 0.759651243686676,
      "learning_rate": 0.00028315970303844176,
      "loss": 4.0241,
      "step": 74790
    },
    {
      "epoch": 0.15583333333333332,
      "grad_norm": 0.7491286993026733,
      "learning_rate": 0.00028315516424840963,
      "loss": 3.9421,
      "step": 74800
    },
    {
      "epoch": 0.15585416666666665,
      "grad_norm": 0.7453456521034241,
      "learning_rate": 0.00028315062488319984,
      "loss": 3.9273,
      "step": 74810
    },
    {
      "epoch": 0.155875,
      "grad_norm": 0.6912851333618164,
      "learning_rate": 0.000283146084942832,
      "loss": 3.9494,
      "step": 74820
    },
    {
      "epoch": 0.15589583333333334,
      "grad_norm": 0.9785271883010864,
      "learning_rate": 0.00028314154442732586,
      "loss": 3.7434,
      "step": 74830
    },
    {
      "epoch": 0.15591666666666668,
      "grad_norm": 0.7941310405731201,
      "learning_rate": 0.0002831370033367009,
      "loss": 3.8623,
      "step": 74840
    },
    {
      "epoch": 0.1559375,
      "grad_norm": 0.8088726997375488,
      "learning_rate": 0.00028313246167097685,
      "loss": 3.8937,
      "step": 74850
    },
    {
      "epoch": 0.15595833333333334,
      "grad_norm": 0.7639140486717224,
      "learning_rate": 0.0002831279194301732,
      "loss": 3.9745,
      "step": 74860
    },
    {
      "epoch": 0.15597916666666667,
      "grad_norm": 0.8269873857498169,
      "learning_rate": 0.00028312337661430965,
      "loss": 4.0387,
      "step": 74870
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.7784593105316162,
      "learning_rate": 0.0002831188332234058,
      "loss": 4.2092,
      "step": 74880
    },
    {
      "epoch": 0.15602083333333333,
      "grad_norm": 0.7027403712272644,
      "learning_rate": 0.00028311428925748136,
      "loss": 3.8101,
      "step": 74890
    },
    {
      "epoch": 0.15604166666666666,
      "grad_norm": 0.6909337639808655,
      "learning_rate": 0.00028310974471655576,
      "loss": 4.0768,
      "step": 74900
    },
    {
      "epoch": 0.1560625,
      "grad_norm": 0.7203516960144043,
      "learning_rate": 0.0002831051996006488,
      "loss": 3.9196,
      "step": 74910
    },
    {
      "epoch": 0.15608333333333332,
      "grad_norm": 0.7892189621925354,
      "learning_rate": 0.0002831006539097801,
      "loss": 3.9966,
      "step": 74920
    },
    {
      "epoch": 0.15610416666666665,
      "grad_norm": 0.7794607877731323,
      "learning_rate": 0.0002830961076439692,
      "loss": 3.8825,
      "step": 74930
    },
    {
      "epoch": 0.156125,
      "grad_norm": 0.801398515701294,
      "learning_rate": 0.00028309156080323584,
      "loss": 4.1467,
      "step": 74940
    },
    {
      "epoch": 0.15614583333333334,
      "grad_norm": 0.899466872215271,
      "learning_rate": 0.00028308701338759963,
      "loss": 4.0464,
      "step": 74950
    },
    {
      "epoch": 0.15616666666666668,
      "grad_norm": 0.8653557300567627,
      "learning_rate": 0.0002830824653970802,
      "loss": 4.194,
      "step": 74960
    },
    {
      "epoch": 0.1561875,
      "grad_norm": 0.7732663750648499,
      "learning_rate": 0.00028307791683169716,
      "loss": 4.0648,
      "step": 74970
    },
    {
      "epoch": 0.15620833333333334,
      "grad_norm": 0.7247009873390198,
      "learning_rate": 0.0002830733676914702,
      "loss": 3.8168,
      "step": 74980
    },
    {
      "epoch": 0.15622916666666667,
      "grad_norm": 0.8430490493774414,
      "learning_rate": 0.000283068817976419,
      "loss": 4.0307,
      "step": 74990
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.9032727479934692,
      "learning_rate": 0.00028306426768656315,
      "loss": 4.0919,
      "step": 75000
    },
    {
      "epoch": 0.15625,
      "eval_loss": 4.294827461242676,
      "eval_runtime": 10.3173,
      "eval_samples_per_second": 0.969,
      "eval_steps_per_second": 0.291,
      "step": 75000
    },
    {
      "epoch": 0.15627083333333333,
      "grad_norm": 0.7757003307342529,
      "learning_rate": 0.00028305971682192235,
      "loss": 4.1201,
      "step": 75010
    },
    {
      "epoch": 0.15629166666666666,
      "grad_norm": 0.7746261358261108,
      "learning_rate": 0.0002830551653825162,
      "loss": 3.9816,
      "step": 75020
    },
    {
      "epoch": 0.1563125,
      "grad_norm": 0.9182020425796509,
      "learning_rate": 0.0002830506133683645,
      "loss": 4.0319,
      "step": 75030
    },
    {
      "epoch": 0.15633333333333332,
      "grad_norm": 0.7626779675483704,
      "learning_rate": 0.0002830460607794867,
      "loss": 4.0332,
      "step": 75040
    },
    {
      "epoch": 0.15635416666666666,
      "grad_norm": 0.7736157178878784,
      "learning_rate": 0.00028304150761590264,
      "loss": 3.831,
      "step": 75050
    },
    {
      "epoch": 0.156375,
      "grad_norm": 0.8082687258720398,
      "learning_rate": 0.00028303695387763196,
      "loss": 3.9608,
      "step": 75060
    },
    {
      "epoch": 0.15639583333333335,
      "grad_norm": 0.7461254000663757,
      "learning_rate": 0.0002830323995646943,
      "loss": 3.9867,
      "step": 75070
    },
    {
      "epoch": 0.15641666666666668,
      "grad_norm": 0.931937038898468,
      "learning_rate": 0.0002830278446771092,
      "loss": 3.9162,
      "step": 75080
    },
    {
      "epoch": 0.1564375,
      "grad_norm": 0.7474852204322815,
      "learning_rate": 0.0002830232892148966,
      "loss": 3.9125,
      "step": 75090
    },
    {
      "epoch": 0.15645833333333334,
      "grad_norm": 0.9105162620544434,
      "learning_rate": 0.000283018733178076,
      "loss": 3.9957,
      "step": 75100
    },
    {
      "epoch": 0.15647916666666667,
      "grad_norm": 0.9142236113548279,
      "learning_rate": 0.0002830141765666671,
      "loss": 4.0368,
      "step": 75110
    },
    {
      "epoch": 0.1565,
      "grad_norm": 0.7089110612869263,
      "learning_rate": 0.00028300961938068967,
      "loss": 3.8386,
      "step": 75120
    },
    {
      "epoch": 0.15652083333333333,
      "grad_norm": 0.7883853912353516,
      "learning_rate": 0.0002830050616201633,
      "loss": 4.0413,
      "step": 75130
    },
    {
      "epoch": 0.15654166666666666,
      "grad_norm": 0.7496956586837769,
      "learning_rate": 0.0002830005032851077,
      "loss": 3.9571,
      "step": 75140
    },
    {
      "epoch": 0.1565625,
      "grad_norm": 0.8716757297515869,
      "learning_rate": 0.0002829959443755426,
      "loss": 4.1665,
      "step": 75150
    },
    {
      "epoch": 0.15658333333333332,
      "grad_norm": 0.8706633448600769,
      "learning_rate": 0.0002829913848914876,
      "loss": 3.8684,
      "step": 75160
    },
    {
      "epoch": 0.15660416666666666,
      "grad_norm": 0.7000560164451599,
      "learning_rate": 0.0002829868248329625,
      "loss": 4.0183,
      "step": 75170
    },
    {
      "epoch": 0.156625,
      "grad_norm": 0.743086576461792,
      "learning_rate": 0.000282982264199987,
      "loss": 3.9112,
      "step": 75180
    },
    {
      "epoch": 0.15664583333333335,
      "grad_norm": 0.8093251585960388,
      "learning_rate": 0.0002829777029925807,
      "loss": 3.8349,
      "step": 75190
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 0.7323092222213745,
      "learning_rate": 0.0002829731412107634,
      "loss": 3.8805,
      "step": 75200
    },
    {
      "epoch": 0.1566875,
      "grad_norm": 0.884686291217804,
      "learning_rate": 0.0002829685788545547,
      "loss": 4.1359,
      "step": 75210
    },
    {
      "epoch": 0.15670833333333334,
      "grad_norm": 0.7528038620948792,
      "learning_rate": 0.0002829640159239744,
      "loss": 4.0419,
      "step": 75220
    },
    {
      "epoch": 0.15672916666666667,
      "grad_norm": 0.8092496395111084,
      "learning_rate": 0.0002829594524190422,
      "loss": 3.9373,
      "step": 75230
    },
    {
      "epoch": 0.15675,
      "grad_norm": 0.7876416444778442,
      "learning_rate": 0.0002829548883397778,
      "loss": 4.1648,
      "step": 75240
    },
    {
      "epoch": 0.15677083333333333,
      "grad_norm": 0.7210633158683777,
      "learning_rate": 0.0002829503236862009,
      "loss": 3.8416,
      "step": 75250
    },
    {
      "epoch": 0.15679166666666666,
      "grad_norm": 0.7232616543769836,
      "learning_rate": 0.00028294575845833124,
      "loss": 4.0833,
      "step": 75260
    },
    {
      "epoch": 0.1568125,
      "grad_norm": 0.7114320397377014,
      "learning_rate": 0.0002829411926561885,
      "loss": 3.8361,
      "step": 75270
    },
    {
      "epoch": 0.15683333333333332,
      "grad_norm": 0.7165527939796448,
      "learning_rate": 0.0002829366262797925,
      "loss": 3.832,
      "step": 75280
    },
    {
      "epoch": 0.15685416666666666,
      "grad_norm": 0.7345494627952576,
      "learning_rate": 0.0002829320593291628,
      "loss": 4.1464,
      "step": 75290
    },
    {
      "epoch": 0.156875,
      "grad_norm": 0.9463992714881897,
      "learning_rate": 0.00028292749180431926,
      "loss": 3.9632,
      "step": 75300
    },
    {
      "epoch": 0.15689583333333335,
      "grad_norm": 0.759655237197876,
      "learning_rate": 0.00028292292370528155,
      "loss": 4.0121,
      "step": 75310
    },
    {
      "epoch": 0.15691666666666668,
      "grad_norm": 0.7070793509483337,
      "learning_rate": 0.00028291835503206945,
      "loss": 3.8624,
      "step": 75320
    },
    {
      "epoch": 0.1569375,
      "grad_norm": 0.7248652577400208,
      "learning_rate": 0.00028291378578470264,
      "loss": 3.9107,
      "step": 75330
    },
    {
      "epoch": 0.15695833333333334,
      "grad_norm": 0.7431178092956543,
      "learning_rate": 0.00028290921596320096,
      "loss": 4.0116,
      "step": 75340
    },
    {
      "epoch": 0.15697916666666667,
      "grad_norm": 0.7796943187713623,
      "learning_rate": 0.000282904645567584,
      "loss": 3.925,
      "step": 75350
    },
    {
      "epoch": 0.157,
      "grad_norm": 0.7473316788673401,
      "learning_rate": 0.0002829000745978716,
      "loss": 3.9615,
      "step": 75360
    },
    {
      "epoch": 0.15702083333333333,
      "grad_norm": 0.8708781003952026,
      "learning_rate": 0.0002828955030540835,
      "loss": 4.0168,
      "step": 75370
    },
    {
      "epoch": 0.15704166666666666,
      "grad_norm": 0.7890445590019226,
      "learning_rate": 0.00028289093093623944,
      "loss": 3.8572,
      "step": 75380
    },
    {
      "epoch": 0.1570625,
      "grad_norm": 0.7362475991249084,
      "learning_rate": 0.00028288635824435913,
      "loss": 4.1805,
      "step": 75390
    },
    {
      "epoch": 0.15708333333333332,
      "grad_norm": 0.8462713956832886,
      "learning_rate": 0.00028288178497846235,
      "loss": 3.9365,
      "step": 75400
    },
    {
      "epoch": 0.15710416666666666,
      "grad_norm": 0.8394783139228821,
      "learning_rate": 0.0002828772111385689,
      "loss": 3.9892,
      "step": 75410
    },
    {
      "epoch": 0.157125,
      "grad_norm": 0.8036385774612427,
      "learning_rate": 0.00028287263672469845,
      "loss": 3.8587,
      "step": 75420
    },
    {
      "epoch": 0.15714583333333335,
      "grad_norm": 0.7561196088790894,
      "learning_rate": 0.0002828680617368708,
      "loss": 3.9055,
      "step": 75430
    },
    {
      "epoch": 0.15716666666666668,
      "grad_norm": 0.7310805320739746,
      "learning_rate": 0.0002828634861751057,
      "loss": 4.1096,
      "step": 75440
    },
    {
      "epoch": 0.1571875,
      "grad_norm": 0.8661282658576965,
      "learning_rate": 0.000282858910039423,
      "loss": 4.0184,
      "step": 75450
    },
    {
      "epoch": 0.15720833333333334,
      "grad_norm": 0.732476532459259,
      "learning_rate": 0.0002828543333298424,
      "loss": 3.892,
      "step": 75460
    },
    {
      "epoch": 0.15722916666666667,
      "grad_norm": 0.8299885988235474,
      "learning_rate": 0.0002828497560463836,
      "loss": 4.0139,
      "step": 75470
    },
    {
      "epoch": 0.15725,
      "grad_norm": 0.7175517082214355,
      "learning_rate": 0.00028284517818906647,
      "loss": 3.9803,
      "step": 75480
    },
    {
      "epoch": 0.15727083333333333,
      "grad_norm": 0.7774081230163574,
      "learning_rate": 0.00028284059975791073,
      "loss": 3.923,
      "step": 75490
    },
    {
      "epoch": 0.15729166666666666,
      "grad_norm": 0.7744555473327637,
      "learning_rate": 0.0002828360207529362,
      "loss": 3.987,
      "step": 75500
    },
    {
      "epoch": 0.1573125,
      "grad_norm": 0.8110352754592896,
      "learning_rate": 0.0002828314411741627,
      "loss": 4.0954,
      "step": 75510
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 0.7841536998748779,
      "learning_rate": 0.0002828268610216099,
      "loss": 4.0763,
      "step": 75520
    },
    {
      "epoch": 0.15735416666666666,
      "grad_norm": 0.7307306528091431,
      "learning_rate": 0.00028282228029529756,
      "loss": 4.0889,
      "step": 75530
    },
    {
      "epoch": 0.157375,
      "grad_norm": 0.7668660283088684,
      "learning_rate": 0.0002828176989952457,
      "loss": 3.8062,
      "step": 75540
    },
    {
      "epoch": 0.15739583333333335,
      "grad_norm": 1.111364483833313,
      "learning_rate": 0.0002828131171214738,
      "loss": 4.0511,
      "step": 75550
    },
    {
      "epoch": 0.15741666666666668,
      "grad_norm": 0.9632977843284607,
      "learning_rate": 0.0002828085346740019,
      "loss": 4.1244,
      "step": 75560
    },
    {
      "epoch": 0.1574375,
      "grad_norm": 0.7989946603775024,
      "learning_rate": 0.00028280395165284966,
      "loss": 3.9036,
      "step": 75570
    },
    {
      "epoch": 0.15745833333333334,
      "grad_norm": 0.863825261592865,
      "learning_rate": 0.00028279936805803693,
      "loss": 3.9993,
      "step": 75580
    },
    {
      "epoch": 0.15747916666666667,
      "grad_norm": 0.6984753012657166,
      "learning_rate": 0.00028279478388958346,
      "loss": 4.0045,
      "step": 75590
    },
    {
      "epoch": 0.1575,
      "grad_norm": 0.6629810333251953,
      "learning_rate": 0.00028279019914750913,
      "loss": 4.0051,
      "step": 75600
    },
    {
      "epoch": 0.15752083333333333,
      "grad_norm": 0.8555633425712585,
      "learning_rate": 0.00028278561383183375,
      "loss": 3.8364,
      "step": 75610
    },
    {
      "epoch": 0.15754166666666666,
      "grad_norm": 0.8599917888641357,
      "learning_rate": 0.000282781027942577,
      "loss": 3.9253,
      "step": 75620
    },
    {
      "epoch": 0.1575625,
      "grad_norm": 0.6819707155227661,
      "learning_rate": 0.0002827764414797588,
      "loss": 3.9887,
      "step": 75630
    },
    {
      "epoch": 0.15758333333333333,
      "grad_norm": 0.7660525441169739,
      "learning_rate": 0.0002827718544433989,
      "loss": 3.9117,
      "step": 75640
    },
    {
      "epoch": 0.15760416666666666,
      "grad_norm": 0.7988559603691101,
      "learning_rate": 0.0002827672668335172,
      "loss": 4.1743,
      "step": 75650
    },
    {
      "epoch": 0.157625,
      "grad_norm": 0.7464930415153503,
      "learning_rate": 0.0002827626786501334,
      "loss": 3.9746,
      "step": 75660
    },
    {
      "epoch": 0.15764583333333335,
      "grad_norm": 0.7660095691680908,
      "learning_rate": 0.00028275808989326745,
      "loss": 4.0881,
      "step": 75670
    },
    {
      "epoch": 0.15766666666666668,
      "grad_norm": 0.754641592502594,
      "learning_rate": 0.00028275350056293903,
      "loss": 3.9551,
      "step": 75680
    },
    {
      "epoch": 0.1576875,
      "grad_norm": 0.8997551202774048,
      "learning_rate": 0.00028274891065916807,
      "loss": 3.9043,
      "step": 75690
    },
    {
      "epoch": 0.15770833333333334,
      "grad_norm": 0.707555890083313,
      "learning_rate": 0.00028274432018197433,
      "loss": 3.9313,
      "step": 75700
    },
    {
      "epoch": 0.15772916666666667,
      "grad_norm": 0.6391733884811401,
      "learning_rate": 0.0002827397291313777,
      "loss": 4.0724,
      "step": 75710
    },
    {
      "epoch": 0.15775,
      "grad_norm": 0.7472472190856934,
      "learning_rate": 0.000282735137507398,
      "loss": 4.0522,
      "step": 75720
    },
    {
      "epoch": 0.15777083333333333,
      "grad_norm": 0.8960394859313965,
      "learning_rate": 0.000282730545310055,
      "loss": 3.9112,
      "step": 75730
    },
    {
      "epoch": 0.15779166666666666,
      "grad_norm": 0.7747138142585754,
      "learning_rate": 0.0002827259525393686,
      "loss": 4.1642,
      "step": 75740
    },
    {
      "epoch": 0.1578125,
      "grad_norm": 0.9636256098747253,
      "learning_rate": 0.0002827213591953586,
      "loss": 3.8899,
      "step": 75750
    },
    {
      "epoch": 0.15783333333333333,
      "grad_norm": 0.739754855632782,
      "learning_rate": 0.0002827167652780449,
      "loss": 3.9994,
      "step": 75760
    },
    {
      "epoch": 0.15785416666666666,
      "grad_norm": 0.7010102868080139,
      "learning_rate": 0.0002827121707874473,
      "loss": 3.9364,
      "step": 75770
    },
    {
      "epoch": 0.157875,
      "grad_norm": 0.717714250087738,
      "learning_rate": 0.00028270757572358566,
      "loss": 3.8546,
      "step": 75780
    },
    {
      "epoch": 0.15789583333333335,
      "grad_norm": 0.8208504915237427,
      "learning_rate": 0.0002827029800864798,
      "loss": 3.9711,
      "step": 75790
    },
    {
      "epoch": 0.15791666666666668,
      "grad_norm": 0.7008508443832397,
      "learning_rate": 0.00028269838387614963,
      "loss": 3.9697,
      "step": 75800
    },
    {
      "epoch": 0.1579375,
      "grad_norm": 0.8128792643547058,
      "learning_rate": 0.0002826937870926149,
      "loss": 4.0092,
      "step": 75810
    },
    {
      "epoch": 0.15795833333333334,
      "grad_norm": 0.7969948053359985,
      "learning_rate": 0.0002826891897358956,
      "loss": 4.0281,
      "step": 75820
    },
    {
      "epoch": 0.15797916666666667,
      "grad_norm": 0.8015409111976624,
      "learning_rate": 0.0002826845918060115,
      "loss": 4.0891,
      "step": 75830
    },
    {
      "epoch": 0.158,
      "grad_norm": 0.8711457848548889,
      "learning_rate": 0.0002826799933029825,
      "loss": 3.9759,
      "step": 75840
    },
    {
      "epoch": 0.15802083333333333,
      "grad_norm": 0.7980551719665527,
      "learning_rate": 0.00028267539422682845,
      "loss": 4.0469,
      "step": 75850
    },
    {
      "epoch": 0.15804166666666666,
      "grad_norm": 0.8307015299797058,
      "learning_rate": 0.00028267079457756916,
      "loss": 4.1748,
      "step": 75860
    },
    {
      "epoch": 0.1580625,
      "grad_norm": 0.7450071573257446,
      "learning_rate": 0.00028266619435522456,
      "loss": 3.8955,
      "step": 75870
    },
    {
      "epoch": 0.15808333333333333,
      "grad_norm": 0.8116423487663269,
      "learning_rate": 0.00028266159355981455,
      "loss": 4.0846,
      "step": 75880
    },
    {
      "epoch": 0.15810416666666666,
      "grad_norm": 0.7603946328163147,
      "learning_rate": 0.00028265699219135897,
      "loss": 3.9982,
      "step": 75890
    },
    {
      "epoch": 0.158125,
      "grad_norm": 1.1051918268203735,
      "learning_rate": 0.00028265239024987765,
      "loss": 3.8064,
      "step": 75900
    },
    {
      "epoch": 0.15814583333333335,
      "grad_norm": 0.8650094270706177,
      "learning_rate": 0.00028264778773539055,
      "loss": 3.8878,
      "step": 75910
    },
    {
      "epoch": 0.15816666666666668,
      "grad_norm": 0.6954330801963806,
      "learning_rate": 0.0002826431846479175,
      "loss": 3.9075,
      "step": 75920
    },
    {
      "epoch": 0.1581875,
      "grad_norm": 0.7248063087463379,
      "learning_rate": 0.0002826385809874784,
      "loss": 4.0262,
      "step": 75930
    },
    {
      "epoch": 0.15820833333333334,
      "grad_norm": 0.7589444518089294,
      "learning_rate": 0.0002826339767540931,
      "loss": 3.9346,
      "step": 75940
    },
    {
      "epoch": 0.15822916666666667,
      "grad_norm": 0.8581456542015076,
      "learning_rate": 0.0002826293719477816,
      "loss": 3.8324,
      "step": 75950
    },
    {
      "epoch": 0.15825,
      "grad_norm": 0.8212421536445618,
      "learning_rate": 0.00028262476656856365,
      "loss": 3.9996,
      "step": 75960
    },
    {
      "epoch": 0.15827083333333333,
      "grad_norm": 0.7714158892631531,
      "learning_rate": 0.00028262016061645923,
      "loss": 3.9726,
      "step": 75970
    },
    {
      "epoch": 0.15829166666666666,
      "grad_norm": 0.8194051384925842,
      "learning_rate": 0.0002826155540914882,
      "loss": 3.8854,
      "step": 75980
    },
    {
      "epoch": 0.1583125,
      "grad_norm": 0.7520144581794739,
      "learning_rate": 0.0002826109469936704,
      "loss": 3.9951,
      "step": 75990
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 0.7012163400650024,
      "learning_rate": 0.0002826063393230259,
      "loss": 3.9199,
      "step": 76000
    },
    {
      "epoch": 0.15833333333333333,
      "eval_loss": 4.272346496582031,
      "eval_runtime": 10.0944,
      "eval_samples_per_second": 0.991,
      "eval_steps_per_second": 0.297,
      "step": 76000
    },
    {
      "epoch": 0.15835416666666666,
      "grad_norm": 0.7953590750694275,
      "learning_rate": 0.00028260173107957454,
      "loss": 3.9434,
      "step": 76010
    },
    {
      "epoch": 0.158375,
      "grad_norm": 0.7307195663452148,
      "learning_rate": 0.00028259712226333606,
      "loss": 4.0165,
      "step": 76020
    },
    {
      "epoch": 0.15839583333333335,
      "grad_norm": 0.6790753602981567,
      "learning_rate": 0.0002825925128743306,
      "loss": 3.9749,
      "step": 76030
    },
    {
      "epoch": 0.15841666666666668,
      "grad_norm": 0.810470700263977,
      "learning_rate": 0.0002825879029125779,
      "loss": 3.861,
      "step": 76040
    },
    {
      "epoch": 0.1584375,
      "grad_norm": 0.7752151489257812,
      "learning_rate": 0.00028258329237809796,
      "loss": 3.8787,
      "step": 76050
    },
    {
      "epoch": 0.15845833333333334,
      "grad_norm": 0.7679166793823242,
      "learning_rate": 0.0002825786812709107,
      "loss": 3.9744,
      "step": 76060
    },
    {
      "epoch": 0.15847916666666667,
      "grad_norm": 0.71307373046875,
      "learning_rate": 0.000282574069591036,
      "loss": 4.014,
      "step": 76070
    },
    {
      "epoch": 0.1585,
      "grad_norm": 1.0094187259674072,
      "learning_rate": 0.0002825694573384938,
      "loss": 4.1499,
      "step": 76080
    },
    {
      "epoch": 0.15852083333333333,
      "grad_norm": 0.8448809385299683,
      "learning_rate": 0.00028256484451330403,
      "loss": 3.8072,
      "step": 76090
    },
    {
      "epoch": 0.15854166666666666,
      "grad_norm": 0.7933937311172485,
      "learning_rate": 0.00028256023111548656,
      "loss": 3.8486,
      "step": 76100
    },
    {
      "epoch": 0.1585625,
      "grad_norm": 0.9107272028923035,
      "learning_rate": 0.0002825556171450614,
      "loss": 4.1473,
      "step": 76110
    },
    {
      "epoch": 0.15858333333333333,
      "grad_norm": 0.7458012104034424,
      "learning_rate": 0.00028255100260204843,
      "loss": 3.9965,
      "step": 76120
    },
    {
      "epoch": 0.15860416666666666,
      "grad_norm": 0.9108791351318359,
      "learning_rate": 0.0002825463874864676,
      "loss": 4.1176,
      "step": 76130
    },
    {
      "epoch": 0.158625,
      "grad_norm": 0.7635220885276794,
      "learning_rate": 0.0002825417717983388,
      "loss": 3.8508,
      "step": 76140
    },
    {
      "epoch": 0.15864583333333335,
      "grad_norm": 0.7483041286468506,
      "learning_rate": 0.0002825371555376821,
      "loss": 3.8851,
      "step": 76150
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 0.7423616051673889,
      "learning_rate": 0.0002825325387045173,
      "loss": 4.0143,
      "step": 76160
    },
    {
      "epoch": 0.1586875,
      "grad_norm": 0.734764814376831,
      "learning_rate": 0.0002825279212988644,
      "loss": 3.9756,
      "step": 76170
    },
    {
      "epoch": 0.15870833333333334,
      "grad_norm": 0.6881306767463684,
      "learning_rate": 0.0002825233033207433,
      "loss": 3.8625,
      "step": 76180
    },
    {
      "epoch": 0.15872916666666667,
      "grad_norm": 0.7634227871894836,
      "learning_rate": 0.00028251868477017404,
      "loss": 4.0287,
      "step": 76190
    },
    {
      "epoch": 0.15875,
      "grad_norm": 0.9399139881134033,
      "learning_rate": 0.0002825140656471765,
      "loss": 4.0365,
      "step": 76200
    },
    {
      "epoch": 0.15877083333333333,
      "grad_norm": 0.7672933340072632,
      "learning_rate": 0.0002825094459517706,
      "loss": 3.8002,
      "step": 76210
    },
    {
      "epoch": 0.15879166666666666,
      "grad_norm": 0.8738235831260681,
      "learning_rate": 0.00028250482568397637,
      "loss": 3.9399,
      "step": 76220
    },
    {
      "epoch": 0.1588125,
      "grad_norm": 0.8719350099563599,
      "learning_rate": 0.0002825002048438138,
      "loss": 4.0996,
      "step": 76230
    },
    {
      "epoch": 0.15883333333333333,
      "grad_norm": 0.9176362156867981,
      "learning_rate": 0.00028249558343130274,
      "loss": 3.9686,
      "step": 76240
    },
    {
      "epoch": 0.15885416666666666,
      "grad_norm": 0.7847700715065002,
      "learning_rate": 0.00028249096144646323,
      "loss": 3.9953,
      "step": 76250
    },
    {
      "epoch": 0.158875,
      "grad_norm": 0.851382851600647,
      "learning_rate": 0.0002824863388893152,
      "loss": 3.9484,
      "step": 76260
    },
    {
      "epoch": 0.15889583333333332,
      "grad_norm": 0.9926491975784302,
      "learning_rate": 0.0002824817157598786,
      "loss": 3.9231,
      "step": 76270
    },
    {
      "epoch": 0.15891666666666668,
      "grad_norm": 0.7713356614112854,
      "learning_rate": 0.0002824770920581735,
      "loss": 3.9503,
      "step": 76280
    },
    {
      "epoch": 0.1589375,
      "grad_norm": 0.7865144610404968,
      "learning_rate": 0.00028247246778421975,
      "loss": 4.0258,
      "step": 76290
    },
    {
      "epoch": 0.15895833333333334,
      "grad_norm": 0.7672379016876221,
      "learning_rate": 0.00028246784293803736,
      "loss": 3.9187,
      "step": 76300
    },
    {
      "epoch": 0.15897916666666667,
      "grad_norm": 0.7569628953933716,
      "learning_rate": 0.00028246321751964633,
      "loss": 4.1577,
      "step": 76310
    },
    {
      "epoch": 0.159,
      "grad_norm": 0.8109440207481384,
      "learning_rate": 0.00028245859152906664,
      "loss": 3.9639,
      "step": 76320
    },
    {
      "epoch": 0.15902083333333333,
      "grad_norm": 0.7655479907989502,
      "learning_rate": 0.0002824539649663183,
      "loss": 4.0783,
      "step": 76330
    },
    {
      "epoch": 0.15904166666666666,
      "grad_norm": 0.7938690185546875,
      "learning_rate": 0.0002824493378314212,
      "loss": 4.0984,
      "step": 76340
    },
    {
      "epoch": 0.1590625,
      "grad_norm": 0.8598443865776062,
      "learning_rate": 0.0002824447101243954,
      "loss": 3.9626,
      "step": 76350
    },
    {
      "epoch": 0.15908333333333333,
      "grad_norm": 0.757732093334198,
      "learning_rate": 0.0002824400818452609,
      "loss": 4.1777,
      "step": 76360
    },
    {
      "epoch": 0.15910416666666666,
      "grad_norm": 0.7349156737327576,
      "learning_rate": 0.00028243545299403767,
      "loss": 3.7897,
      "step": 76370
    },
    {
      "epoch": 0.159125,
      "grad_norm": 0.7714874744415283,
      "learning_rate": 0.0002824308235707457,
      "loss": 3.9498,
      "step": 76380
    },
    {
      "epoch": 0.15914583333333332,
      "grad_norm": 0.8085525631904602,
      "learning_rate": 0.000282426193575405,
      "loss": 3.8451,
      "step": 76390
    },
    {
      "epoch": 0.15916666666666668,
      "grad_norm": 0.6810000538825989,
      "learning_rate": 0.0002824215630080356,
      "loss": 4.0197,
      "step": 76400
    },
    {
      "epoch": 0.1591875,
      "grad_norm": 0.8029125332832336,
      "learning_rate": 0.0002824169318686574,
      "loss": 4.1265,
      "step": 76410
    },
    {
      "epoch": 0.15920833333333334,
      "grad_norm": 0.7993583679199219,
      "learning_rate": 0.00028241230015729047,
      "loss": 3.9688,
      "step": 76420
    },
    {
      "epoch": 0.15922916666666667,
      "grad_norm": 0.8246841430664062,
      "learning_rate": 0.00028240766787395485,
      "loss": 4.0704,
      "step": 76430
    },
    {
      "epoch": 0.15925,
      "grad_norm": 1.060900330543518,
      "learning_rate": 0.0002824030350186705,
      "loss": 4.1199,
      "step": 76440
    },
    {
      "epoch": 0.15927083333333333,
      "grad_norm": 0.8627856969833374,
      "learning_rate": 0.0002823984015914574,
      "loss": 3.9793,
      "step": 76450
    },
    {
      "epoch": 0.15929166666666666,
      "grad_norm": 0.7318389415740967,
      "learning_rate": 0.0002823937675923357,
      "loss": 3.8164,
      "step": 76460
    },
    {
      "epoch": 0.1593125,
      "grad_norm": 1.0034836530685425,
      "learning_rate": 0.00028238913302132526,
      "loss": 3.9914,
      "step": 76470
    },
    {
      "epoch": 0.15933333333333333,
      "grad_norm": 0.9493329524993896,
      "learning_rate": 0.0002823844978784462,
      "loss": 4.0402,
      "step": 76480
    },
    {
      "epoch": 0.15935416666666666,
      "grad_norm": 0.9153264760971069,
      "learning_rate": 0.0002823798621637185,
      "loss": 4.0026,
      "step": 76490
    },
    {
      "epoch": 0.159375,
      "grad_norm": 0.7304118871688843,
      "learning_rate": 0.0002823752258771622,
      "loss": 3.9285,
      "step": 76500
    },
    {
      "epoch": 0.15939583333333332,
      "grad_norm": 0.6958821415901184,
      "learning_rate": 0.00028237058901879733,
      "loss": 3.8933,
      "step": 76510
    },
    {
      "epoch": 0.15941666666666668,
      "grad_norm": 0.84634929895401,
      "learning_rate": 0.0002823659515886439,
      "loss": 3.9329,
      "step": 76520
    },
    {
      "epoch": 0.1594375,
      "grad_norm": 0.7458611726760864,
      "learning_rate": 0.0002823613135867219,
      "loss": 4.0467,
      "step": 76530
    },
    {
      "epoch": 0.15945833333333334,
      "grad_norm": 0.9980223774909973,
      "learning_rate": 0.0002823566750130515,
      "loss": 3.9446,
      "step": 76540
    },
    {
      "epoch": 0.15947916666666667,
      "grad_norm": 0.770721435546875,
      "learning_rate": 0.00028235203586765263,
      "loss": 3.8964,
      "step": 76550
    },
    {
      "epoch": 0.1595,
      "grad_norm": 0.7319120764732361,
      "learning_rate": 0.0002823473961505454,
      "loss": 3.8982,
      "step": 76560
    },
    {
      "epoch": 0.15952083333333333,
      "grad_norm": 0.7265445590019226,
      "learning_rate": 0.00028234275586174975,
      "loss": 3.9067,
      "step": 76570
    },
    {
      "epoch": 0.15954166666666666,
      "grad_norm": 0.7723459005355835,
      "learning_rate": 0.00028233811500128576,
      "loss": 4.0191,
      "step": 76580
    },
    {
      "epoch": 0.1595625,
      "grad_norm": 0.792067289352417,
      "learning_rate": 0.0002823334735691736,
      "loss": 3.8823,
      "step": 76590
    },
    {
      "epoch": 0.15958333333333333,
      "grad_norm": 1.020997405052185,
      "learning_rate": 0.0002823288315654331,
      "loss": 4.0901,
      "step": 76600
    },
    {
      "epoch": 0.15960416666666666,
      "grad_norm": 0.7044355869293213,
      "learning_rate": 0.0002823241889900844,
      "loss": 3.9314,
      "step": 76610
    },
    {
      "epoch": 0.159625,
      "grad_norm": 0.7365557551383972,
      "learning_rate": 0.00028231954584314765,
      "loss": 3.9013,
      "step": 76620
    },
    {
      "epoch": 0.15964583333333332,
      "grad_norm": 0.8813196420669556,
      "learning_rate": 0.00028231490212464287,
      "loss": 3.8871,
      "step": 76630
    },
    {
      "epoch": 0.15966666666666668,
      "grad_norm": 0.8245474100112915,
      "learning_rate": 0.0002823102578345901,
      "loss": 4.1159,
      "step": 76640
    },
    {
      "epoch": 0.1596875,
      "grad_norm": 0.7396581172943115,
      "learning_rate": 0.0002823056129730093,
      "loss": 3.9981,
      "step": 76650
    },
    {
      "epoch": 0.15970833333333334,
      "grad_norm": 0.7071628570556641,
      "learning_rate": 0.00028230096753992066,
      "loss": 3.9196,
      "step": 76660
    },
    {
      "epoch": 0.15972916666666667,
      "grad_norm": 0.7886711359024048,
      "learning_rate": 0.00028229632153534416,
      "loss": 3.8484,
      "step": 76670
    },
    {
      "epoch": 0.15975,
      "grad_norm": 0.7425145506858826,
      "learning_rate": 0.0002822916749593,
      "loss": 4.0454,
      "step": 76680
    },
    {
      "epoch": 0.15977083333333333,
      "grad_norm": 0.8378704786300659,
      "learning_rate": 0.0002822870278118082,
      "loss": 3.9837,
      "step": 76690
    },
    {
      "epoch": 0.15979166666666667,
      "grad_norm": 0.8082764744758606,
      "learning_rate": 0.0002822823800928887,
      "loss": 4.0394,
      "step": 76700
    },
    {
      "epoch": 0.1598125,
      "grad_norm": 0.7006628513336182,
      "learning_rate": 0.0002822777318025617,
      "loss": 3.8999,
      "step": 76710
    },
    {
      "epoch": 0.15983333333333333,
      "grad_norm": 0.7836378216743469,
      "learning_rate": 0.00028227308294084726,
      "loss": 3.8537,
      "step": 76720
    },
    {
      "epoch": 0.15985416666666666,
      "grad_norm": 0.7611981630325317,
      "learning_rate": 0.0002822684335077655,
      "loss": 3.9553,
      "step": 76730
    },
    {
      "epoch": 0.159875,
      "grad_norm": 0.8038240075111389,
      "learning_rate": 0.0002822637835033364,
      "loss": 3.8048,
      "step": 76740
    },
    {
      "epoch": 0.15989583333333332,
      "grad_norm": 0.6807552576065063,
      "learning_rate": 0.0002822591329275802,
      "loss": 4.0335,
      "step": 76750
    },
    {
      "epoch": 0.15991666666666668,
      "grad_norm": 0.9691339731216431,
      "learning_rate": 0.00028225448178051686,
      "loss": 3.9505,
      "step": 76760
    },
    {
      "epoch": 0.1599375,
      "grad_norm": 0.7016648650169373,
      "learning_rate": 0.00028224983006216645,
      "loss": 3.8443,
      "step": 76770
    },
    {
      "epoch": 0.15995833333333334,
      "grad_norm": 0.7145435810089111,
      "learning_rate": 0.00028224517777254916,
      "loss": 3.8608,
      "step": 76780
    },
    {
      "epoch": 0.15997916666666667,
      "grad_norm": 0.9416621923446655,
      "learning_rate": 0.00028224052491168504,
      "loss": 3.9035,
      "step": 76790
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7591504454612732,
      "learning_rate": 0.00028223587147959426,
      "loss": 3.8585,
      "step": 76800
    },
    {
      "epoch": 0.16002083333333333,
      "grad_norm": 0.711595356464386,
      "learning_rate": 0.00028223121747629677,
      "loss": 3.9054,
      "step": 76810
    },
    {
      "epoch": 0.16004166666666667,
      "grad_norm": 0.9354443550109863,
      "learning_rate": 0.0002822265629018128,
      "loss": 4.204,
      "step": 76820
    },
    {
      "epoch": 0.1600625,
      "grad_norm": 0.8565996885299683,
      "learning_rate": 0.00028222190775616243,
      "loss": 3.923,
      "step": 76830
    },
    {
      "epoch": 0.16008333333333333,
      "grad_norm": 0.7267017960548401,
      "learning_rate": 0.00028221725203936575,
      "loss": 4.0982,
      "step": 76840
    },
    {
      "epoch": 0.16010416666666666,
      "grad_norm": 0.7077228426933289,
      "learning_rate": 0.00028221259575144286,
      "loss": 3.9528,
      "step": 76850
    },
    {
      "epoch": 0.160125,
      "grad_norm": 0.82989102602005,
      "learning_rate": 0.0002822079388924139,
      "loss": 3.991,
      "step": 76860
    },
    {
      "epoch": 0.16014583333333332,
      "grad_norm": 0.863614559173584,
      "learning_rate": 0.00028220328146229897,
      "loss": 3.7618,
      "step": 76870
    },
    {
      "epoch": 0.16016666666666668,
      "grad_norm": 0.8223214745521545,
      "learning_rate": 0.0002821986234611182,
      "loss": 3.8776,
      "step": 76880
    },
    {
      "epoch": 0.1601875,
      "grad_norm": 0.784129798412323,
      "learning_rate": 0.0002821939648888917,
      "loss": 3.961,
      "step": 76890
    },
    {
      "epoch": 0.16020833333333334,
      "grad_norm": 0.9202289581298828,
      "learning_rate": 0.0002821893057456396,
      "loss": 4.0354,
      "step": 76900
    },
    {
      "epoch": 0.16022916666666667,
      "grad_norm": 0.8466525077819824,
      "learning_rate": 0.00028218464603138203,
      "loss": 3.8609,
      "step": 76910
    },
    {
      "epoch": 0.16025,
      "grad_norm": 0.7251555323600769,
      "learning_rate": 0.0002821799857461391,
      "loss": 3.8541,
      "step": 76920
    },
    {
      "epoch": 0.16027083333333333,
      "grad_norm": 0.8714814782142639,
      "learning_rate": 0.00028217532488993095,
      "loss": 3.9944,
      "step": 76930
    },
    {
      "epoch": 0.16029166666666667,
      "grad_norm": 0.8698439598083496,
      "learning_rate": 0.0002821706634627777,
      "loss": 3.8205,
      "step": 76940
    },
    {
      "epoch": 0.1603125,
      "grad_norm": 0.7079991698265076,
      "learning_rate": 0.00028216600146469955,
      "loss": 4.0399,
      "step": 76950
    },
    {
      "epoch": 0.16033333333333333,
      "grad_norm": 0.8054331541061401,
      "learning_rate": 0.00028216133889571657,
      "loss": 3.9445,
      "step": 76960
    },
    {
      "epoch": 0.16035416666666666,
      "grad_norm": 0.9675517678260803,
      "learning_rate": 0.0002821566757558489,
      "loss": 3.9687,
      "step": 76970
    },
    {
      "epoch": 0.160375,
      "grad_norm": 0.9152339100837708,
      "learning_rate": 0.00028215201204511667,
      "loss": 3.9525,
      "step": 76980
    },
    {
      "epoch": 0.16039583333333332,
      "grad_norm": 0.8617864847183228,
      "learning_rate": 0.00028214734776354014,
      "loss": 3.9535,
      "step": 76990
    },
    {
      "epoch": 0.16041666666666668,
      "grad_norm": 0.7914890646934509,
      "learning_rate": 0.00028214268291113935,
      "loss": 3.9125,
      "step": 77000
    },
    {
      "epoch": 0.16041666666666668,
      "eval_loss": 4.286554336547852,
      "eval_runtime": 9.1004,
      "eval_samples_per_second": 1.099,
      "eval_steps_per_second": 0.33,
      "step": 77000
    },
    {
      "epoch": 0.1604375,
      "grad_norm": 0.7892403602600098,
      "learning_rate": 0.0002821380174879344,
      "loss": 3.8947,
      "step": 77010
    },
    {
      "epoch": 0.16045833333333334,
      "grad_norm": 0.734053373336792,
      "learning_rate": 0.0002821333514939456,
      "loss": 3.7525,
      "step": 77020
    },
    {
      "epoch": 0.16047916666666667,
      "grad_norm": 0.9047618508338928,
      "learning_rate": 0.00028212868492919304,
      "loss": 4.0585,
      "step": 77030
    },
    {
      "epoch": 0.1605,
      "grad_norm": 0.8187105655670166,
      "learning_rate": 0.0002821240177936968,
      "loss": 3.8896,
      "step": 77040
    },
    {
      "epoch": 0.16052083333333333,
      "grad_norm": 0.764279842376709,
      "learning_rate": 0.00028211935008747713,
      "loss": 3.9885,
      "step": 77050
    },
    {
      "epoch": 0.16054166666666667,
      "grad_norm": 0.8400261402130127,
      "learning_rate": 0.00028211468181055417,
      "loss": 4.0983,
      "step": 77060
    },
    {
      "epoch": 0.1605625,
      "grad_norm": 0.8541538715362549,
      "learning_rate": 0.00028211001296294806,
      "loss": 3.8116,
      "step": 77070
    },
    {
      "epoch": 0.16058333333333333,
      "grad_norm": 0.7912912368774414,
      "learning_rate": 0.000282105343544679,
      "loss": 3.937,
      "step": 77080
    },
    {
      "epoch": 0.16060416666666666,
      "grad_norm": 0.8191346526145935,
      "learning_rate": 0.0002821006735557671,
      "loss": 4.0099,
      "step": 77090
    },
    {
      "epoch": 0.160625,
      "grad_norm": 0.6960261464118958,
      "learning_rate": 0.0002820960029962327,
      "loss": 3.8428,
      "step": 77100
    },
    {
      "epoch": 0.16064583333333332,
      "grad_norm": 0.8192920088768005,
      "learning_rate": 0.00028209133186609574,
      "loss": 3.8466,
      "step": 77110
    },
    {
      "epoch": 0.16066666666666668,
      "grad_norm": 0.7489382028579712,
      "learning_rate": 0.00028208666016537654,
      "loss": 4.1436,
      "step": 77120
    },
    {
      "epoch": 0.1606875,
      "grad_norm": 0.8770329356193542,
      "learning_rate": 0.00028208198789409525,
      "loss": 3.9381,
      "step": 77130
    },
    {
      "epoch": 0.16070833333333334,
      "grad_norm": 0.7646051645278931,
      "learning_rate": 0.0002820773150522721,
      "loss": 3.8024,
      "step": 77140
    },
    {
      "epoch": 0.16072916666666667,
      "grad_norm": 0.8767563700675964,
      "learning_rate": 0.00028207264163992714,
      "loss": 4.1352,
      "step": 77150
    },
    {
      "epoch": 0.16075,
      "grad_norm": 0.7900148630142212,
      "learning_rate": 0.0002820679676570807,
      "loss": 3.6969,
      "step": 77160
    },
    {
      "epoch": 0.16077083333333334,
      "grad_norm": 0.6644408106803894,
      "learning_rate": 0.0002820632931037529,
      "loss": 4.0676,
      "step": 77170
    },
    {
      "epoch": 0.16079166666666667,
      "grad_norm": 0.9282814264297485,
      "learning_rate": 0.000282058617979964,
      "loss": 4.0554,
      "step": 77180
    },
    {
      "epoch": 0.1608125,
      "grad_norm": 0.6623526215553284,
      "learning_rate": 0.0002820539422857341,
      "loss": 4.1582,
      "step": 77190
    },
    {
      "epoch": 0.16083333333333333,
      "grad_norm": 0.7399011850357056,
      "learning_rate": 0.00028204926602108345,
      "loss": 4.1355,
      "step": 77200
    },
    {
      "epoch": 0.16085416666666666,
      "grad_norm": 0.7266656756401062,
      "learning_rate": 0.0002820445891860322,
      "loss": 3.9737,
      "step": 77210
    },
    {
      "epoch": 0.160875,
      "grad_norm": 0.9031581282615662,
      "learning_rate": 0.00028203991178060066,
      "loss": 3.8918,
      "step": 77220
    },
    {
      "epoch": 0.16089583333333332,
      "grad_norm": 0.9557989239692688,
      "learning_rate": 0.0002820352338048089,
      "loss": 3.8668,
      "step": 77230
    },
    {
      "epoch": 0.16091666666666668,
      "grad_norm": 0.8384221792221069,
      "learning_rate": 0.0002820305552586772,
      "loss": 3.9748,
      "step": 77240
    },
    {
      "epoch": 0.1609375,
      "grad_norm": 0.8813395500183105,
      "learning_rate": 0.0002820258761422258,
      "loss": 3.9288,
      "step": 77250
    },
    {
      "epoch": 0.16095833333333334,
      "grad_norm": 0.672451376914978,
      "learning_rate": 0.00028202119645547486,
      "loss": 3.9323,
      "step": 77260
    },
    {
      "epoch": 0.16097916666666667,
      "grad_norm": 0.7794919013977051,
      "learning_rate": 0.0002820165161984446,
      "loss": 3.9331,
      "step": 77270
    },
    {
      "epoch": 0.161,
      "grad_norm": 0.8153266906738281,
      "learning_rate": 0.00028201183537115526,
      "loss": 3.8777,
      "step": 77280
    },
    {
      "epoch": 0.16102083333333334,
      "grad_norm": 0.7694487571716309,
      "learning_rate": 0.00028200715397362706,
      "loss": 4.0199,
      "step": 77290
    },
    {
      "epoch": 0.16104166666666667,
      "grad_norm": 0.8496760129928589,
      "learning_rate": 0.0002820024720058802,
      "loss": 4.0325,
      "step": 77300
    },
    {
      "epoch": 0.1610625,
      "grad_norm": 0.8208592534065247,
      "learning_rate": 0.0002819977894679349,
      "loss": 3.9597,
      "step": 77310
    },
    {
      "epoch": 0.16108333333333333,
      "grad_norm": 0.7540953755378723,
      "learning_rate": 0.0002819931063598114,
      "loss": 3.8749,
      "step": 77320
    },
    {
      "epoch": 0.16110416666666666,
      "grad_norm": 0.7308695316314697,
      "learning_rate": 0.0002819884226815299,
      "loss": 3.969,
      "step": 77330
    },
    {
      "epoch": 0.161125,
      "grad_norm": 0.7791615724563599,
      "learning_rate": 0.0002819837384331107,
      "loss": 3.8187,
      "step": 77340
    },
    {
      "epoch": 0.16114583333333332,
      "grad_norm": 0.8104141354560852,
      "learning_rate": 0.00028197905361457395,
      "loss": 3.8937,
      "step": 77350
    },
    {
      "epoch": 0.16116666666666668,
      "grad_norm": 0.886809766292572,
      "learning_rate": 0.00028197436822593997,
      "loss": 4.0958,
      "step": 77360
    },
    {
      "epoch": 0.1611875,
      "grad_norm": 0.7157000303268433,
      "learning_rate": 0.00028196968226722896,
      "loss": 4.1509,
      "step": 77370
    },
    {
      "epoch": 0.16120833333333334,
      "grad_norm": 0.7488293051719666,
      "learning_rate": 0.00028196499573846114,
      "loss": 4.0335,
      "step": 77380
    },
    {
      "epoch": 0.16122916666666667,
      "grad_norm": 0.8180192112922668,
      "learning_rate": 0.00028196030863965674,
      "loss": 3.9454,
      "step": 77390
    },
    {
      "epoch": 0.16125,
      "grad_norm": 0.7691861987113953,
      "learning_rate": 0.0002819556209708361,
      "loss": 3.8645,
      "step": 77400
    },
    {
      "epoch": 0.16127083333333334,
      "grad_norm": 0.8262279629707336,
      "learning_rate": 0.0002819509327320194,
      "loss": 3.867,
      "step": 77410
    },
    {
      "epoch": 0.16129166666666667,
      "grad_norm": 0.6430023312568665,
      "learning_rate": 0.0002819462439232269,
      "loss": 4.0146,
      "step": 77420
    },
    {
      "epoch": 0.1613125,
      "grad_norm": 0.8910223841667175,
      "learning_rate": 0.0002819415545444788,
      "loss": 3.9812,
      "step": 77430
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 0.8111413717269897,
      "learning_rate": 0.00028193686459579545,
      "loss": 3.9185,
      "step": 77440
    },
    {
      "epoch": 0.16135416666666666,
      "grad_norm": 0.9452483057975769,
      "learning_rate": 0.0002819321740771971,
      "loss": 3.8944,
      "step": 77450
    },
    {
      "epoch": 0.161375,
      "grad_norm": 0.7182883024215698,
      "learning_rate": 0.0002819274829887039,
      "loss": 4.0136,
      "step": 77460
    },
    {
      "epoch": 0.16139583333333332,
      "grad_norm": 0.797468364238739,
      "learning_rate": 0.00028192279133033626,
      "loss": 4.1404,
      "step": 77470
    },
    {
      "epoch": 0.16141666666666668,
      "grad_norm": 0.7380503416061401,
      "learning_rate": 0.0002819180991021144,
      "loss": 3.9204,
      "step": 77480
    },
    {
      "epoch": 0.1614375,
      "grad_norm": 0.7636228799819946,
      "learning_rate": 0.0002819134063040585,
      "loss": 3.8477,
      "step": 77490
    },
    {
      "epoch": 0.16145833333333334,
      "grad_norm": 0.8906237483024597,
      "learning_rate": 0.00028190871293618896,
      "loss": 4.0253,
      "step": 77500
    },
    {
      "epoch": 0.16147916666666667,
      "grad_norm": 0.7980161309242249,
      "learning_rate": 0.00028190401899852593,
      "loss": 3.8547,
      "step": 77510
    },
    {
      "epoch": 0.1615,
      "grad_norm": 0.8454574942588806,
      "learning_rate": 0.0002818993244910898,
      "loss": 3.9795,
      "step": 77520
    },
    {
      "epoch": 0.16152083333333334,
      "grad_norm": 0.730657696723938,
      "learning_rate": 0.0002818946294139008,
      "loss": 3.972,
      "step": 77530
    },
    {
      "epoch": 0.16154166666666667,
      "grad_norm": 0.8677017688751221,
      "learning_rate": 0.00028188993376697917,
      "loss": 3.7749,
      "step": 77540
    },
    {
      "epoch": 0.1615625,
      "grad_norm": 0.6724606156349182,
      "learning_rate": 0.0002818852375503453,
      "loss": 3.8625,
      "step": 77550
    },
    {
      "epoch": 0.16158333333333333,
      "grad_norm": 0.7731778621673584,
      "learning_rate": 0.0002818805407640193,
      "loss": 4.029,
      "step": 77560
    },
    {
      "epoch": 0.16160416666666666,
      "grad_norm": 1.7634775638580322,
      "learning_rate": 0.00028187584340802165,
      "loss": 4.0182,
      "step": 77570
    },
    {
      "epoch": 0.161625,
      "grad_norm": 0.7673264741897583,
      "learning_rate": 0.0002818711454823725,
      "loss": 4.1467,
      "step": 77580
    },
    {
      "epoch": 0.16164583333333332,
      "grad_norm": 0.7856615781784058,
      "learning_rate": 0.0002818664469870923,
      "loss": 4.0113,
      "step": 77590
    },
    {
      "epoch": 0.16166666666666665,
      "grad_norm": 0.8648219704627991,
      "learning_rate": 0.00028186174792220117,
      "loss": 3.8751,
      "step": 77600
    },
    {
      "epoch": 0.1616875,
      "grad_norm": 0.9800983667373657,
      "learning_rate": 0.00028185704828771947,
      "loss": 3.8381,
      "step": 77610
    },
    {
      "epoch": 0.16170833333333334,
      "grad_norm": 0.7651121616363525,
      "learning_rate": 0.00028185234808366755,
      "loss": 3.935,
      "step": 77620
    },
    {
      "epoch": 0.16172916666666667,
      "grad_norm": 0.7131847739219666,
      "learning_rate": 0.00028184764731006563,
      "loss": 4.004,
      "step": 77630
    },
    {
      "epoch": 0.16175,
      "grad_norm": 0.7412257194519043,
      "learning_rate": 0.0002818429459669341,
      "loss": 4.1018,
      "step": 77640
    },
    {
      "epoch": 0.16177083333333334,
      "grad_norm": 0.8267483115196228,
      "learning_rate": 0.00028183824405429323,
      "loss": 4.1076,
      "step": 77650
    },
    {
      "epoch": 0.16179166666666667,
      "grad_norm": 0.7998443245887756,
      "learning_rate": 0.00028183354157216336,
      "loss": 3.9117,
      "step": 77660
    },
    {
      "epoch": 0.1618125,
      "grad_norm": 0.7442651391029358,
      "learning_rate": 0.0002818288385205647,
      "loss": 3.9858,
      "step": 77670
    },
    {
      "epoch": 0.16183333333333333,
      "grad_norm": 0.7578204274177551,
      "learning_rate": 0.0002818241348995177,
      "loss": 3.8649,
      "step": 77680
    },
    {
      "epoch": 0.16185416666666666,
      "grad_norm": 0.8133706450462341,
      "learning_rate": 0.0002818194307090426,
      "loss": 4.0649,
      "step": 77690
    },
    {
      "epoch": 0.161875,
      "grad_norm": 0.8488492965698242,
      "learning_rate": 0.00028181472594915975,
      "loss": 3.9993,
      "step": 77700
    },
    {
      "epoch": 0.16189583333333332,
      "grad_norm": 0.7341908812522888,
      "learning_rate": 0.00028181002061988944,
      "loss": 3.7736,
      "step": 77710
    },
    {
      "epoch": 0.16191666666666665,
      "grad_norm": 0.7555025815963745,
      "learning_rate": 0.00028180531472125203,
      "loss": 4.1005,
      "step": 77720
    },
    {
      "epoch": 0.1619375,
      "grad_norm": 0.767153799533844,
      "learning_rate": 0.0002818006082532678,
      "loss": 3.9736,
      "step": 77730
    },
    {
      "epoch": 0.16195833333333334,
      "grad_norm": 1.1169534921646118,
      "learning_rate": 0.00028179590121595716,
      "loss": 3.9937,
      "step": 77740
    },
    {
      "epoch": 0.16197916666666667,
      "grad_norm": 0.7159667611122131,
      "learning_rate": 0.00028179119360934035,
      "loss": 4.0599,
      "step": 77750
    },
    {
      "epoch": 0.162,
      "grad_norm": 0.8237123489379883,
      "learning_rate": 0.0002817864854334377,
      "loss": 3.9879,
      "step": 77760
    },
    {
      "epoch": 0.16202083333333334,
      "grad_norm": 1.3349041938781738,
      "learning_rate": 0.00028178177668826973,
      "loss": 4.0342,
      "step": 77770
    },
    {
      "epoch": 0.16204166666666667,
      "grad_norm": 0.7448614239692688,
      "learning_rate": 0.0002817770673738566,
      "loss": 3.9247,
      "step": 77780
    },
    {
      "epoch": 0.1620625,
      "grad_norm": 0.7991165518760681,
      "learning_rate": 0.00028177235749021865,
      "loss": 3.9533,
      "step": 77790
    },
    {
      "epoch": 0.16208333333333333,
      "grad_norm": 0.9273947477340698,
      "learning_rate": 0.0002817676470373763,
      "loss": 3.93,
      "step": 77800
    },
    {
      "epoch": 0.16210416666666666,
      "grad_norm": 0.8635169863700867,
      "learning_rate": 0.0002817629360153499,
      "loss": 3.9622,
      "step": 77810
    },
    {
      "epoch": 0.162125,
      "grad_norm": 0.6890774965286255,
      "learning_rate": 0.00028175822442415977,
      "loss": 3.9941,
      "step": 77820
    },
    {
      "epoch": 0.16214583333333332,
      "grad_norm": 0.7350051403045654,
      "learning_rate": 0.00028175351226382623,
      "loss": 3.9935,
      "step": 77830
    },
    {
      "epoch": 0.16216666666666665,
      "grad_norm": 0.7805533409118652,
      "learning_rate": 0.00028174879953436966,
      "loss": 3.979,
      "step": 77840
    },
    {
      "epoch": 0.1621875,
      "grad_norm": 0.8718862533569336,
      "learning_rate": 0.0002817440862358105,
      "loss": 3.8394,
      "step": 77850
    },
    {
      "epoch": 0.16220833333333334,
      "grad_norm": 0.6990556120872498,
      "learning_rate": 0.00028173937236816894,
      "loss": 3.9407,
      "step": 77860
    },
    {
      "epoch": 0.16222916666666667,
      "grad_norm": 0.760137677192688,
      "learning_rate": 0.0002817346579314655,
      "loss": 3.9406,
      "step": 77870
    },
    {
      "epoch": 0.16225,
      "grad_norm": 0.7366822957992554,
      "learning_rate": 0.0002817299429257205,
      "loss": 3.9827,
      "step": 77880
    },
    {
      "epoch": 0.16227083333333334,
      "grad_norm": 0.8118230104446411,
      "learning_rate": 0.00028172522735095423,
      "loss": 4.0764,
      "step": 77890
    },
    {
      "epoch": 0.16229166666666667,
      "grad_norm": 0.8695641160011292,
      "learning_rate": 0.00028172051120718716,
      "loss": 3.9189,
      "step": 77900
    },
    {
      "epoch": 0.1623125,
      "grad_norm": 0.8390635848045349,
      "learning_rate": 0.0002817157944944396,
      "loss": 4.0012,
      "step": 77910
    },
    {
      "epoch": 0.16233333333333333,
      "grad_norm": 0.7313005924224854,
      "learning_rate": 0.00028171107721273195,
      "loss": 4.0439,
      "step": 77920
    },
    {
      "epoch": 0.16235416666666666,
      "grad_norm": 0.8917751908302307,
      "learning_rate": 0.0002817063593620846,
      "loss": 4.03,
      "step": 77930
    },
    {
      "epoch": 0.162375,
      "grad_norm": 0.7846434116363525,
      "learning_rate": 0.00028170164094251784,
      "loss": 3.9948,
      "step": 77940
    },
    {
      "epoch": 0.16239583333333332,
      "grad_norm": 0.7751554846763611,
      "learning_rate": 0.00028169692195405217,
      "loss": 4.0489,
      "step": 77950
    },
    {
      "epoch": 0.16241666666666665,
      "grad_norm": 0.7526265382766724,
      "learning_rate": 0.00028169220239670795,
      "loss": 3.8384,
      "step": 77960
    },
    {
      "epoch": 0.1624375,
      "grad_norm": 0.9873279929161072,
      "learning_rate": 0.0002816874822705055,
      "loss": 4.0048,
      "step": 77970
    },
    {
      "epoch": 0.16245833333333334,
      "grad_norm": 0.8661308288574219,
      "learning_rate": 0.0002816827615754653,
      "loss": 3.9992,
      "step": 77980
    },
    {
      "epoch": 0.16247916666666667,
      "grad_norm": 0.7955375909805298,
      "learning_rate": 0.0002816780403116076,
      "loss": 3.7947,
      "step": 77990
    },
    {
      "epoch": 0.1625,
      "grad_norm": 0.7976799607276917,
      "learning_rate": 0.00028167331847895303,
      "loss": 3.7808,
      "step": 78000
    },
    {
      "epoch": 0.1625,
      "eval_loss": 4.262619495391846,
      "eval_runtime": 11.6365,
      "eval_samples_per_second": 0.859,
      "eval_steps_per_second": 0.258,
      "step": 78000
    },
    {
      "epoch": 0.16252083333333334,
      "grad_norm": 0.7579058408737183,
      "learning_rate": 0.0002816685960775217,
      "loss": 3.9662,
      "step": 78010
    },
    {
      "epoch": 0.16254166666666667,
      "grad_norm": 0.7158679962158203,
      "learning_rate": 0.00028166387310733424,
      "loss": 3.9153,
      "step": 78020
    },
    {
      "epoch": 0.1625625,
      "grad_norm": 0.7831252813339233,
      "learning_rate": 0.00028165914956841096,
      "loss": 3.9714,
      "step": 78030
    },
    {
      "epoch": 0.16258333333333333,
      "grad_norm": 0.8030210137367249,
      "learning_rate": 0.0002816544254607723,
      "loss": 4.0806,
      "step": 78040
    },
    {
      "epoch": 0.16260416666666666,
      "grad_norm": 0.7371701002120972,
      "learning_rate": 0.00028164970078443854,
      "loss": 3.8811,
      "step": 78050
    },
    {
      "epoch": 0.162625,
      "grad_norm": 0.7931488156318665,
      "learning_rate": 0.00028164497553943027,
      "loss": 4.0098,
      "step": 78060
    },
    {
      "epoch": 0.16264583333333332,
      "grad_norm": 1.0503406524658203,
      "learning_rate": 0.00028164024972576773,
      "loss": 3.9831,
      "step": 78070
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 0.8392672538757324,
      "learning_rate": 0.0002816355233434715,
      "loss": 3.8326,
      "step": 78080
    },
    {
      "epoch": 0.1626875,
      "grad_norm": 0.6595149040222168,
      "learning_rate": 0.00028163079639256187,
      "loss": 4.1154,
      "step": 78090
    },
    {
      "epoch": 0.16270833333333334,
      "grad_norm": 1.0223652124404907,
      "learning_rate": 0.0002816260688730593,
      "loss": 3.9909,
      "step": 78100
    },
    {
      "epoch": 0.16272916666666667,
      "grad_norm": 0.8171764016151428,
      "learning_rate": 0.00028162134078498424,
      "loss": 4.0057,
      "step": 78110
    },
    {
      "epoch": 0.16275,
      "grad_norm": 0.8894515037536621,
      "learning_rate": 0.00028161661212835706,
      "loss": 3.9079,
      "step": 78120
    },
    {
      "epoch": 0.16277083333333334,
      "grad_norm": 0.7435217499732971,
      "learning_rate": 0.0002816118829031982,
      "loss": 3.8378,
      "step": 78130
    },
    {
      "epoch": 0.16279166666666667,
      "grad_norm": 0.8137401342391968,
      "learning_rate": 0.00028160715310952816,
      "loss": 3.8413,
      "step": 78140
    },
    {
      "epoch": 0.1628125,
      "grad_norm": 0.8337034583091736,
      "learning_rate": 0.00028160242274736727,
      "loss": 4.0542,
      "step": 78150
    },
    {
      "epoch": 0.16283333333333333,
      "grad_norm": 0.8717995285987854,
      "learning_rate": 0.000281597691816736,
      "loss": 3.9369,
      "step": 78160
    },
    {
      "epoch": 0.16285416666666666,
      "grad_norm": 0.7795739769935608,
      "learning_rate": 0.0002815929603176548,
      "loss": 3.9666,
      "step": 78170
    },
    {
      "epoch": 0.162875,
      "grad_norm": 0.7289012670516968,
      "learning_rate": 0.0002815882282501441,
      "loss": 3.8687,
      "step": 78180
    },
    {
      "epoch": 0.16289583333333332,
      "grad_norm": 0.7760468125343323,
      "learning_rate": 0.0002815834956142244,
      "loss": 3.9681,
      "step": 78190
    },
    {
      "epoch": 0.16291666666666665,
      "grad_norm": 0.8668152093887329,
      "learning_rate": 0.000281578762409916,
      "loss": 3.9822,
      "step": 78200
    },
    {
      "epoch": 0.1629375,
      "grad_norm": 0.7797251343727112,
      "learning_rate": 0.0002815740286372395,
      "loss": 3.9824,
      "step": 78210
    },
    {
      "epoch": 0.16295833333333334,
      "grad_norm": 0.6885705590248108,
      "learning_rate": 0.0002815692942962152,
      "loss": 3.84,
      "step": 78220
    },
    {
      "epoch": 0.16297916666666667,
      "grad_norm": 1.1185550689697266,
      "learning_rate": 0.00028156455938686364,
      "loss": 3.907,
      "step": 78230
    },
    {
      "epoch": 0.163,
      "grad_norm": 0.7284876108169556,
      "learning_rate": 0.0002815598239092053,
      "loss": 3.9425,
      "step": 78240
    },
    {
      "epoch": 0.16302083333333334,
      "grad_norm": 0.6862362027168274,
      "learning_rate": 0.00028155508786326057,
      "loss": 3.9263,
      "step": 78250
    },
    {
      "epoch": 0.16304166666666667,
      "grad_norm": 0.7383018136024475,
      "learning_rate": 0.00028155035124904996,
      "loss": 3.9824,
      "step": 78260
    },
    {
      "epoch": 0.1630625,
      "grad_norm": 0.8319690823554993,
      "learning_rate": 0.00028154561406659387,
      "loss": 4.0939,
      "step": 78270
    },
    {
      "epoch": 0.16308333333333333,
      "grad_norm": 0.7824859619140625,
      "learning_rate": 0.00028154087631591284,
      "loss": 4.1139,
      "step": 78280
    },
    {
      "epoch": 0.16310416666666666,
      "grad_norm": 0.7834299802780151,
      "learning_rate": 0.00028153613799702725,
      "loss": 3.9378,
      "step": 78290
    },
    {
      "epoch": 0.163125,
      "grad_norm": 0.7087684273719788,
      "learning_rate": 0.00028153139910995766,
      "loss": 3.9882,
      "step": 78300
    },
    {
      "epoch": 0.16314583333333332,
      "grad_norm": 0.8483211994171143,
      "learning_rate": 0.0002815266596547244,
      "loss": 3.8009,
      "step": 78310
    },
    {
      "epoch": 0.16316666666666665,
      "grad_norm": 0.8948817253112793,
      "learning_rate": 0.0002815219196313481,
      "loss": 3.9416,
      "step": 78320
    },
    {
      "epoch": 0.1631875,
      "grad_norm": 0.7180911898612976,
      "learning_rate": 0.00028151717903984914,
      "loss": 3.919,
      "step": 78330
    },
    {
      "epoch": 0.16320833333333334,
      "grad_norm": 0.8306449055671692,
      "learning_rate": 0.000281512437880248,
      "loss": 4.0358,
      "step": 78340
    },
    {
      "epoch": 0.16322916666666668,
      "grad_norm": 0.7555968761444092,
      "learning_rate": 0.00028150769615256524,
      "loss": 3.916,
      "step": 78350
    },
    {
      "epoch": 0.16325,
      "grad_norm": 0.7461714148521423,
      "learning_rate": 0.00028150295385682126,
      "loss": 4.011,
      "step": 78360
    },
    {
      "epoch": 0.16327083333333334,
      "grad_norm": 0.8704186081886292,
      "learning_rate": 0.0002814982109930366,
      "loss": 3.9772,
      "step": 78370
    },
    {
      "epoch": 0.16329166666666667,
      "grad_norm": 0.8055309653282166,
      "learning_rate": 0.0002814934675612317,
      "loss": 3.8095,
      "step": 78380
    },
    {
      "epoch": 0.1633125,
      "grad_norm": 0.8662627339363098,
      "learning_rate": 0.00028148872356142707,
      "loss": 3.9857,
      "step": 78390
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 0.8140546083450317,
      "learning_rate": 0.00028148397899364317,
      "loss": 3.792,
      "step": 78400
    },
    {
      "epoch": 0.16335416666666666,
      "grad_norm": 0.6865202188491821,
      "learning_rate": 0.0002814792338579006,
      "loss": 3.9134,
      "step": 78410
    },
    {
      "epoch": 0.163375,
      "grad_norm": 0.7429100275039673,
      "learning_rate": 0.0002814744881542198,
      "loss": 4.079,
      "step": 78420
    },
    {
      "epoch": 0.16339583333333332,
      "grad_norm": 0.7780461311340332,
      "learning_rate": 0.00028146974188262116,
      "loss": 3.8791,
      "step": 78430
    },
    {
      "epoch": 0.16341666666666665,
      "grad_norm": 0.7875534296035767,
      "learning_rate": 0.00028146499504312525,
      "loss": 3.9419,
      "step": 78440
    },
    {
      "epoch": 0.1634375,
      "grad_norm": 1.051367998123169,
      "learning_rate": 0.00028146024763575265,
      "loss": 3.8882,
      "step": 78450
    },
    {
      "epoch": 0.16345833333333334,
      "grad_norm": 0.7486383318901062,
      "learning_rate": 0.00028145549966052385,
      "loss": 3.9927,
      "step": 78460
    },
    {
      "epoch": 0.16347916666666668,
      "grad_norm": 0.778175950050354,
      "learning_rate": 0.0002814507511174593,
      "loss": 3.7165,
      "step": 78470
    },
    {
      "epoch": 0.1635,
      "grad_norm": 0.7930928468704224,
      "learning_rate": 0.0002814460020065795,
      "loss": 3.9428,
      "step": 78480
    },
    {
      "epoch": 0.16352083333333334,
      "grad_norm": 0.8237566947937012,
      "learning_rate": 0.00028144125232790505,
      "loss": 3.934,
      "step": 78490
    },
    {
      "epoch": 0.16354166666666667,
      "grad_norm": 0.9469968676567078,
      "learning_rate": 0.0002814365020814564,
      "loss": 4.0879,
      "step": 78500
    },
    {
      "epoch": 0.1635625,
      "grad_norm": 0.797243595123291,
      "learning_rate": 0.0002814317512672541,
      "loss": 3.9702,
      "step": 78510
    },
    {
      "epoch": 0.16358333333333333,
      "grad_norm": 0.7317516207695007,
      "learning_rate": 0.0002814269998853186,
      "loss": 3.9352,
      "step": 78520
    },
    {
      "epoch": 0.16360416666666666,
      "grad_norm": 0.8259995579719543,
      "learning_rate": 0.00028142224793567056,
      "loss": 3.8832,
      "step": 78530
    },
    {
      "epoch": 0.163625,
      "grad_norm": 0.8196825981140137,
      "learning_rate": 0.0002814174954183304,
      "loss": 3.9699,
      "step": 78540
    },
    {
      "epoch": 0.16364583333333332,
      "grad_norm": 0.7598574757575989,
      "learning_rate": 0.0002814127423333187,
      "loss": 4.1293,
      "step": 78550
    },
    {
      "epoch": 0.16366666666666665,
      "grad_norm": 0.759049654006958,
      "learning_rate": 0.00028140798868065596,
      "loss": 4.0397,
      "step": 78560
    },
    {
      "epoch": 0.1636875,
      "grad_norm": 0.710602879524231,
      "learning_rate": 0.0002814032344603627,
      "loss": 3.7885,
      "step": 78570
    },
    {
      "epoch": 0.16370833333333334,
      "grad_norm": 0.74116051197052,
      "learning_rate": 0.00028139847967245945,
      "loss": 3.9658,
      "step": 78580
    },
    {
      "epoch": 0.16372916666666668,
      "grad_norm": 0.7533986568450928,
      "learning_rate": 0.00028139372431696687,
      "loss": 3.8657,
      "step": 78590
    },
    {
      "epoch": 0.16375,
      "grad_norm": 1.1377589702606201,
      "learning_rate": 0.00028138896839390536,
      "loss": 3.9384,
      "step": 78600
    },
    {
      "epoch": 0.16377083333333334,
      "grad_norm": 0.6965270042419434,
      "learning_rate": 0.0002813842119032955,
      "loss": 4.0344,
      "step": 78610
    },
    {
      "epoch": 0.16379166666666667,
      "grad_norm": 0.7911800146102905,
      "learning_rate": 0.00028137945484515785,
      "loss": 3.8957,
      "step": 78620
    },
    {
      "epoch": 0.1638125,
      "grad_norm": 0.8753644227981567,
      "learning_rate": 0.00028137469721951295,
      "loss": 3.9026,
      "step": 78630
    },
    {
      "epoch": 0.16383333333333333,
      "grad_norm": 0.639029860496521,
      "learning_rate": 0.0002813699390263814,
      "loss": 4.1008,
      "step": 78640
    },
    {
      "epoch": 0.16385416666666666,
      "grad_norm": 0.8278228044509888,
      "learning_rate": 0.0002813651802657837,
      "loss": 3.8747,
      "step": 78650
    },
    {
      "epoch": 0.163875,
      "grad_norm": 0.7701707482337952,
      "learning_rate": 0.0002813604209377404,
      "loss": 4.0514,
      "step": 78660
    },
    {
      "epoch": 0.16389583333333332,
      "grad_norm": 0.7326090931892395,
      "learning_rate": 0.00028135566104227214,
      "loss": 3.9016,
      "step": 78670
    },
    {
      "epoch": 0.16391666666666665,
      "grad_norm": 0.7848449945449829,
      "learning_rate": 0.00028135090057939934,
      "loss": 4.0841,
      "step": 78680
    },
    {
      "epoch": 0.1639375,
      "grad_norm": 0.9120119214057922,
      "learning_rate": 0.00028134613954914267,
      "loss": 3.7416,
      "step": 78690
    },
    {
      "epoch": 0.16395833333333334,
      "grad_norm": 0.7111124992370605,
      "learning_rate": 0.0002813413779515227,
      "loss": 3.9341,
      "step": 78700
    },
    {
      "epoch": 0.16397916666666668,
      "grad_norm": 0.7646217942237854,
      "learning_rate": 0.0002813366157865599,
      "loss": 4.0073,
      "step": 78710
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.9693976640701294,
      "learning_rate": 0.00028133185305427496,
      "loss": 4.006,
      "step": 78720
    },
    {
      "epoch": 0.16402083333333334,
      "grad_norm": 0.7938714623451233,
      "learning_rate": 0.0002813270897546884,
      "loss": 3.8783,
      "step": 78730
    },
    {
      "epoch": 0.16404166666666667,
      "grad_norm": 0.7984306216239929,
      "learning_rate": 0.00028132232588782077,
      "loss": 3.7759,
      "step": 78740
    },
    {
      "epoch": 0.1640625,
      "grad_norm": 0.8953321576118469,
      "learning_rate": 0.0002813175614536927,
      "loss": 4.0683,
      "step": 78750
    },
    {
      "epoch": 0.16408333333333333,
      "grad_norm": 0.6818082928657532,
      "learning_rate": 0.0002813127964523247,
      "loss": 3.9356,
      "step": 78760
    },
    {
      "epoch": 0.16410416666666666,
      "grad_norm": 0.8062520027160645,
      "learning_rate": 0.0002813080308837374,
      "loss": 3.9032,
      "step": 78770
    },
    {
      "epoch": 0.164125,
      "grad_norm": 0.7801048755645752,
      "learning_rate": 0.0002813032647479514,
      "loss": 4.067,
      "step": 78780
    },
    {
      "epoch": 0.16414583333333332,
      "grad_norm": 0.8505407571792603,
      "learning_rate": 0.0002812984980449873,
      "loss": 3.9753,
      "step": 78790
    },
    {
      "epoch": 0.16416666666666666,
      "grad_norm": 0.7905470132827759,
      "learning_rate": 0.0002812937307748656,
      "loss": 4.0678,
      "step": 78800
    },
    {
      "epoch": 0.1641875,
      "grad_norm": 0.6858739256858826,
      "learning_rate": 0.000281288962937607,
      "loss": 3.8236,
      "step": 78810
    },
    {
      "epoch": 0.16420833333333335,
      "grad_norm": 0.7694026827812195,
      "learning_rate": 0.00028128419453323205,
      "loss": 4.0352,
      "step": 78820
    },
    {
      "epoch": 0.16422916666666668,
      "grad_norm": 0.7331535816192627,
      "learning_rate": 0.00028127942556176134,
      "loss": 4.0846,
      "step": 78830
    },
    {
      "epoch": 0.16425,
      "grad_norm": 0.7223294973373413,
      "learning_rate": 0.00028127465602321544,
      "loss": 3.9307,
      "step": 78840
    },
    {
      "epoch": 0.16427083333333334,
      "grad_norm": 0.7279050946235657,
      "learning_rate": 0.000281269885917615,
      "loss": 4.1205,
      "step": 78850
    },
    {
      "epoch": 0.16429166666666667,
      "grad_norm": 0.6930234432220459,
      "learning_rate": 0.00028126511524498066,
      "loss": 4.0908,
      "step": 78860
    },
    {
      "epoch": 0.1643125,
      "grad_norm": 0.8562779426574707,
      "learning_rate": 0.00028126034400533293,
      "loss": 3.9442,
      "step": 78870
    },
    {
      "epoch": 0.16433333333333333,
      "grad_norm": 0.9261311292648315,
      "learning_rate": 0.0002812555721986925,
      "loss": 4.1227,
      "step": 78880
    },
    {
      "epoch": 0.16435416666666666,
      "grad_norm": 0.7066105008125305,
      "learning_rate": 0.00028125079982507995,
      "loss": 4.1251,
      "step": 78890
    },
    {
      "epoch": 0.164375,
      "grad_norm": 0.825730562210083,
      "learning_rate": 0.00028124602688451585,
      "loss": 3.8554,
      "step": 78900
    },
    {
      "epoch": 0.16439583333333332,
      "grad_norm": 0.6633230447769165,
      "learning_rate": 0.0002812412533770209,
      "loss": 3.9867,
      "step": 78910
    },
    {
      "epoch": 0.16441666666666666,
      "grad_norm": 0.726375937461853,
      "learning_rate": 0.0002812364793026157,
      "loss": 3.7262,
      "step": 78920
    },
    {
      "epoch": 0.1644375,
      "grad_norm": 0.8670837879180908,
      "learning_rate": 0.00028123170466132084,
      "loss": 4.0819,
      "step": 78930
    },
    {
      "epoch": 0.16445833333333335,
      "grad_norm": 0.7781756520271301,
      "learning_rate": 0.00028122692945315694,
      "loss": 3.9881,
      "step": 78940
    },
    {
      "epoch": 0.16447916666666668,
      "grad_norm": 0.7366481423377991,
      "learning_rate": 0.00028122215367814467,
      "loss": 3.9541,
      "step": 78950
    },
    {
      "epoch": 0.1645,
      "grad_norm": 0.7142907381057739,
      "learning_rate": 0.0002812173773363047,
      "loss": 3.9786,
      "step": 78960
    },
    {
      "epoch": 0.16452083333333334,
      "grad_norm": 0.7798681855201721,
      "learning_rate": 0.0002812126004276575,
      "loss": 3.7906,
      "step": 78970
    },
    {
      "epoch": 0.16454166666666667,
      "grad_norm": 0.7758227586746216,
      "learning_rate": 0.00028120782295222384,
      "loss": 3.8771,
      "step": 78980
    },
    {
      "epoch": 0.1645625,
      "grad_norm": 0.79195636510849,
      "learning_rate": 0.0002812030449100243,
      "loss": 3.8738,
      "step": 78990
    },
    {
      "epoch": 0.16458333333333333,
      "grad_norm": 0.836733877658844,
      "learning_rate": 0.0002811982663010796,
      "loss": 3.9531,
      "step": 79000
    },
    {
      "epoch": 0.16458333333333333,
      "eval_loss": 4.274040699005127,
      "eval_runtime": 10.5566,
      "eval_samples_per_second": 0.947,
      "eval_steps_per_second": 0.284,
      "step": 79000
    },
    {
      "epoch": 0.16460416666666666,
      "grad_norm": 0.7327297329902649,
      "learning_rate": 0.00028119348712541027,
      "loss": 4.0301,
      "step": 79010
    },
    {
      "epoch": 0.164625,
      "grad_norm": 0.7065144777297974,
      "learning_rate": 0.000281188707383037,
      "loss": 4.0149,
      "step": 79020
    },
    {
      "epoch": 0.16464583333333332,
      "grad_norm": 0.7505620718002319,
      "learning_rate": 0.00028118392707398047,
      "loss": 4.2055,
      "step": 79030
    },
    {
      "epoch": 0.16466666666666666,
      "grad_norm": 0.7665283679962158,
      "learning_rate": 0.0002811791461982613,
      "loss": 4.085,
      "step": 79040
    },
    {
      "epoch": 0.1646875,
      "grad_norm": 0.7255980968475342,
      "learning_rate": 0.0002811743647559001,
      "loss": 3.9971,
      "step": 79050
    },
    {
      "epoch": 0.16470833333333335,
      "grad_norm": 0.7955706119537354,
      "learning_rate": 0.0002811695827469176,
      "loss": 4.0807,
      "step": 79060
    },
    {
      "epoch": 0.16472916666666668,
      "grad_norm": 0.6661986112594604,
      "learning_rate": 0.00028116480017133445,
      "loss": 4.0839,
      "step": 79070
    },
    {
      "epoch": 0.16475,
      "grad_norm": 0.7678513526916504,
      "learning_rate": 0.0002811600170291713,
      "loss": 4.0343,
      "step": 79080
    },
    {
      "epoch": 0.16477083333333334,
      "grad_norm": 0.7826816439628601,
      "learning_rate": 0.00028115523332044874,
      "loss": 4.0307,
      "step": 79090
    },
    {
      "epoch": 0.16479166666666667,
      "grad_norm": 0.7666749954223633,
      "learning_rate": 0.0002811504490451875,
      "loss": 3.8973,
      "step": 79100
    },
    {
      "epoch": 0.1648125,
      "grad_norm": 0.7267382740974426,
      "learning_rate": 0.0002811456642034082,
      "loss": 4.0905,
      "step": 79110
    },
    {
      "epoch": 0.16483333333333333,
      "grad_norm": 0.7018510699272156,
      "learning_rate": 0.0002811408787951316,
      "loss": 4.3171,
      "step": 79120
    },
    {
      "epoch": 0.16485416666666666,
      "grad_norm": 0.8804318308830261,
      "learning_rate": 0.00028113609282037826,
      "loss": 3.9313,
      "step": 79130
    },
    {
      "epoch": 0.164875,
      "grad_norm": 0.7506440281867981,
      "learning_rate": 0.0002811313062791689,
      "loss": 3.8905,
      "step": 79140
    },
    {
      "epoch": 0.16489583333333332,
      "grad_norm": 0.7500459551811218,
      "learning_rate": 0.00028112651917152427,
      "loss": 3.985,
      "step": 79150
    },
    {
      "epoch": 0.16491666666666666,
      "grad_norm": 0.8562813997268677,
      "learning_rate": 0.00028112173149746493,
      "loss": 3.8087,
      "step": 79160
    },
    {
      "epoch": 0.1649375,
      "grad_norm": 0.7789769768714905,
      "learning_rate": 0.0002811169432570116,
      "loss": 3.8242,
      "step": 79170
    },
    {
      "epoch": 0.16495833333333335,
      "grad_norm": 0.7035313844680786,
      "learning_rate": 0.00028111215445018504,
      "loss": 4.0342,
      "step": 79180
    },
    {
      "epoch": 0.16497916666666668,
      "grad_norm": 0.7942529916763306,
      "learning_rate": 0.0002811073650770058,
      "loss": 3.8708,
      "step": 79190
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.697306215763092,
      "learning_rate": 0.0002811025751374947,
      "loss": 4.047,
      "step": 79200
    },
    {
      "epoch": 0.16502083333333334,
      "grad_norm": 0.8313982486724854,
      "learning_rate": 0.00028109778463167236,
      "loss": 3.9808,
      "step": 79210
    },
    {
      "epoch": 0.16504166666666667,
      "grad_norm": 0.799018383026123,
      "learning_rate": 0.0002810929935595594,
      "loss": 3.9431,
      "step": 79220
    },
    {
      "epoch": 0.1650625,
      "grad_norm": 0.8817393779754639,
      "learning_rate": 0.0002810882019211767,
      "loss": 3.943,
      "step": 79230
    },
    {
      "epoch": 0.16508333333333333,
      "grad_norm": 0.7654802203178406,
      "learning_rate": 0.00028108340971654477,
      "loss": 4.0624,
      "step": 79240
    },
    {
      "epoch": 0.16510416666666666,
      "grad_norm": 0.7417361736297607,
      "learning_rate": 0.00028107861694568446,
      "loss": 4.0455,
      "step": 79250
    },
    {
      "epoch": 0.165125,
      "grad_norm": 0.7481659650802612,
      "learning_rate": 0.0002810738236086164,
      "loss": 3.9971,
      "step": 79260
    },
    {
      "epoch": 0.16514583333333333,
      "grad_norm": 0.6726270318031311,
      "learning_rate": 0.0002810690297053613,
      "loss": 4.1322,
      "step": 79270
    },
    {
      "epoch": 0.16516666666666666,
      "grad_norm": 0.734876275062561,
      "learning_rate": 0.00028106423523593986,
      "loss": 3.9241,
      "step": 79280
    },
    {
      "epoch": 0.1651875,
      "grad_norm": 0.7638274431228638,
      "learning_rate": 0.0002810594402003728,
      "loss": 4.192,
      "step": 79290
    },
    {
      "epoch": 0.16520833333333335,
      "grad_norm": 0.8016508221626282,
      "learning_rate": 0.00028105464459868084,
      "loss": 4.1062,
      "step": 79300
    },
    {
      "epoch": 0.16522916666666668,
      "grad_norm": 0.9594808220863342,
      "learning_rate": 0.0002810498484308847,
      "loss": 3.9626,
      "step": 79310
    },
    {
      "epoch": 0.16525,
      "grad_norm": 0.7960378527641296,
      "learning_rate": 0.00028104505169700513,
      "loss": 3.8336,
      "step": 79320
    },
    {
      "epoch": 0.16527083333333334,
      "grad_norm": 0.7224286794662476,
      "learning_rate": 0.00028104025439706275,
      "loss": 3.8021,
      "step": 79330
    },
    {
      "epoch": 0.16529166666666667,
      "grad_norm": 0.7468209862709045,
      "learning_rate": 0.0002810354565310783,
      "loss": 3.9629,
      "step": 79340
    },
    {
      "epoch": 0.1653125,
      "grad_norm": 0.7305186986923218,
      "learning_rate": 0.0002810306580990726,
      "loss": 3.9092,
      "step": 79350
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 0.9614372253417969,
      "learning_rate": 0.00028102585910106634,
      "loss": 3.95,
      "step": 79360
    },
    {
      "epoch": 0.16535416666666666,
      "grad_norm": 1.5901360511779785,
      "learning_rate": 0.0002810210595370802,
      "loss": 4.1231,
      "step": 79370
    },
    {
      "epoch": 0.165375,
      "grad_norm": 0.7954540848731995,
      "learning_rate": 0.00028101625940713497,
      "loss": 4.2821,
      "step": 79380
    },
    {
      "epoch": 0.16539583333333333,
      "grad_norm": 0.7796814441680908,
      "learning_rate": 0.00028101145871125134,
      "loss": 4.0236,
      "step": 79390
    },
    {
      "epoch": 0.16541666666666666,
      "grad_norm": 0.7338184714317322,
      "learning_rate": 0.00028100665744945006,
      "loss": 3.9432,
      "step": 79400
    },
    {
      "epoch": 0.1654375,
      "grad_norm": 0.7124261260032654,
      "learning_rate": 0.0002810018556217519,
      "loss": 3.8748,
      "step": 79410
    },
    {
      "epoch": 0.16545833333333335,
      "grad_norm": 0.8054860234260559,
      "learning_rate": 0.00028099705322817757,
      "loss": 3.8258,
      "step": 79420
    },
    {
      "epoch": 0.16547916666666668,
      "grad_norm": 0.7687973380088806,
      "learning_rate": 0.0002809922502687478,
      "loss": 4.0275,
      "step": 79430
    },
    {
      "epoch": 0.1655,
      "grad_norm": 0.7981812357902527,
      "learning_rate": 0.00028098744674348336,
      "loss": 4.0861,
      "step": 79440
    },
    {
      "epoch": 0.16552083333333334,
      "grad_norm": 0.6536878943443298,
      "learning_rate": 0.000280982642652405,
      "loss": 3.8323,
      "step": 79450
    },
    {
      "epoch": 0.16554166666666667,
      "grad_norm": 0.7830265164375305,
      "learning_rate": 0.00028097783799553355,
      "loss": 3.8333,
      "step": 79460
    },
    {
      "epoch": 0.1655625,
      "grad_norm": 0.7079572081565857,
      "learning_rate": 0.0002809730327728896,
      "loss": 4.0455,
      "step": 79470
    },
    {
      "epoch": 0.16558333333333333,
      "grad_norm": 0.7992717027664185,
      "learning_rate": 0.000280968226984494,
      "loss": 3.968,
      "step": 79480
    },
    {
      "epoch": 0.16560416666666666,
      "grad_norm": 0.8496853709220886,
      "learning_rate": 0.0002809634206303675,
      "loss": 3.8516,
      "step": 79490
    },
    {
      "epoch": 0.165625,
      "grad_norm": 0.9133227467536926,
      "learning_rate": 0.0002809586137105309,
      "loss": 3.9876,
      "step": 79500
    },
    {
      "epoch": 0.16564583333333333,
      "grad_norm": 0.7644991278648376,
      "learning_rate": 0.0002809538062250049,
      "loss": 4.1199,
      "step": 79510
    },
    {
      "epoch": 0.16566666666666666,
      "grad_norm": 0.7046902775764465,
      "learning_rate": 0.0002809489981738103,
      "loss": 3.983,
      "step": 79520
    },
    {
      "epoch": 0.1656875,
      "grad_norm": 0.8305380344390869,
      "learning_rate": 0.00028094418955696787,
      "loss": 3.8723,
      "step": 79530
    },
    {
      "epoch": 0.16570833333333335,
      "grad_norm": 0.7289179563522339,
      "learning_rate": 0.00028093938037449835,
      "loss": 4.0626,
      "step": 79540
    },
    {
      "epoch": 0.16572916666666668,
      "grad_norm": 0.7896987199783325,
      "learning_rate": 0.0002809345706264225,
      "loss": 3.9664,
      "step": 79550
    },
    {
      "epoch": 0.16575,
      "grad_norm": 0.8748692870140076,
      "learning_rate": 0.00028092976031276123,
      "loss": 3.8873,
      "step": 79560
    },
    {
      "epoch": 0.16577083333333334,
      "grad_norm": 0.763181209564209,
      "learning_rate": 0.00028092494943353515,
      "loss": 4.1144,
      "step": 79570
    },
    {
      "epoch": 0.16579166666666667,
      "grad_norm": 0.7084277868270874,
      "learning_rate": 0.0002809201379887651,
      "loss": 3.9035,
      "step": 79580
    },
    {
      "epoch": 0.1658125,
      "grad_norm": 0.7882450819015503,
      "learning_rate": 0.00028091532597847193,
      "loss": 4.0627,
      "step": 79590
    },
    {
      "epoch": 0.16583333333333333,
      "grad_norm": 0.7391655445098877,
      "learning_rate": 0.0002809105134026763,
      "loss": 3.9874,
      "step": 79600
    },
    {
      "epoch": 0.16585416666666666,
      "grad_norm": 0.6247223615646362,
      "learning_rate": 0.00028090570026139913,
      "loss": 3.8176,
      "step": 79610
    },
    {
      "epoch": 0.165875,
      "grad_norm": 0.7402728796005249,
      "learning_rate": 0.00028090088655466117,
      "loss": 3.9619,
      "step": 79620
    },
    {
      "epoch": 0.16589583333333333,
      "grad_norm": 0.7551479935646057,
      "learning_rate": 0.0002808960722824831,
      "loss": 3.979,
      "step": 79630
    },
    {
      "epoch": 0.16591666666666666,
      "grad_norm": 0.8004513382911682,
      "learning_rate": 0.0002808912574448859,
      "loss": 3.9965,
      "step": 79640
    },
    {
      "epoch": 0.1659375,
      "grad_norm": 0.7752111554145813,
      "learning_rate": 0.00028088644204189023,
      "loss": 4.0278,
      "step": 79650
    },
    {
      "epoch": 0.16595833333333335,
      "grad_norm": 0.6938941478729248,
      "learning_rate": 0.000280881626073517,
      "loss": 4.0134,
      "step": 79660
    },
    {
      "epoch": 0.16597916666666668,
      "grad_norm": 0.7550760507583618,
      "learning_rate": 0.0002808768095397869,
      "loss": 3.9678,
      "step": 79670
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.7024582624435425,
      "learning_rate": 0.0002808719924407208,
      "loss": 4.1876,
      "step": 79680
    },
    {
      "epoch": 0.16602083333333334,
      "grad_norm": 0.7355544567108154,
      "learning_rate": 0.00028086717477633947,
      "loss": 3.8906,
      "step": 79690
    },
    {
      "epoch": 0.16604166666666667,
      "grad_norm": 0.7261409759521484,
      "learning_rate": 0.00028086235654666377,
      "loss": 3.8891,
      "step": 79700
    },
    {
      "epoch": 0.1660625,
      "grad_norm": 0.7331125736236572,
      "learning_rate": 0.0002808575377517145,
      "loss": 3.8622,
      "step": 79710
    },
    {
      "epoch": 0.16608333333333333,
      "grad_norm": 0.6785262823104858,
      "learning_rate": 0.00028085271839151246,
      "loss": 3.8791,
      "step": 79720
    },
    {
      "epoch": 0.16610416666666666,
      "grad_norm": 0.7882601022720337,
      "learning_rate": 0.0002808478984660785,
      "loss": 3.9126,
      "step": 79730
    },
    {
      "epoch": 0.166125,
      "grad_norm": 0.8628820180892944,
      "learning_rate": 0.0002808430779754333,
      "loss": 3.8392,
      "step": 79740
    },
    {
      "epoch": 0.16614583333333333,
      "grad_norm": 0.7681230306625366,
      "learning_rate": 0.00028083825691959784,
      "loss": 4.0293,
      "step": 79750
    },
    {
      "epoch": 0.16616666666666666,
      "grad_norm": 0.7893106937408447,
      "learning_rate": 0.000280833435298593,
      "loss": 3.9894,
      "step": 79760
    },
    {
      "epoch": 0.1661875,
      "grad_norm": 1.605272650718689,
      "learning_rate": 0.0002808286131124394,
      "loss": 3.9703,
      "step": 79770
    },
    {
      "epoch": 0.16620833333333335,
      "grad_norm": 0.8590608835220337,
      "learning_rate": 0.000280823790361158,
      "loss": 3.9137,
      "step": 79780
    },
    {
      "epoch": 0.16622916666666668,
      "grad_norm": 0.7291718125343323,
      "learning_rate": 0.00028081896704476963,
      "loss": 3.972,
      "step": 79790
    },
    {
      "epoch": 0.16625,
      "grad_norm": 0.7869355082511902,
      "learning_rate": 0.00028081414316329513,
      "loss": 4.0359,
      "step": 79800
    },
    {
      "epoch": 0.16627083333333334,
      "grad_norm": 0.8046999573707581,
      "learning_rate": 0.00028080931871675527,
      "loss": 4.0786,
      "step": 79810
    },
    {
      "epoch": 0.16629166666666667,
      "grad_norm": 0.7285691499710083,
      "learning_rate": 0.00028080449370517093,
      "loss": 4.1393,
      "step": 79820
    },
    {
      "epoch": 0.1663125,
      "grad_norm": 0.8584742546081543,
      "learning_rate": 0.000280799668128563,
      "loss": 4.04,
      "step": 79830
    },
    {
      "epoch": 0.16633333333333333,
      "grad_norm": 0.7154002785682678,
      "learning_rate": 0.0002807948419869522,
      "loss": 3.9499,
      "step": 79840
    },
    {
      "epoch": 0.16635416666666666,
      "grad_norm": 0.7684343457221985,
      "learning_rate": 0.0002807900152803595,
      "loss": 3.9646,
      "step": 79850
    },
    {
      "epoch": 0.166375,
      "grad_norm": 0.7506988644599915,
      "learning_rate": 0.00028078518800880566,
      "loss": 3.9211,
      "step": 79860
    },
    {
      "epoch": 0.16639583333333333,
      "grad_norm": 0.7584805488586426,
      "learning_rate": 0.0002807803601723116,
      "loss": 4.0662,
      "step": 79870
    },
    {
      "epoch": 0.16641666666666666,
      "grad_norm": 0.8655499219894409,
      "learning_rate": 0.0002807755317708982,
      "loss": 3.8505,
      "step": 79880
    },
    {
      "epoch": 0.1664375,
      "grad_norm": 0.7434529662132263,
      "learning_rate": 0.00028077070280458624,
      "loss": 4.0159,
      "step": 79890
    },
    {
      "epoch": 0.16645833333333335,
      "grad_norm": 0.9914050698280334,
      "learning_rate": 0.0002807658732733966,
      "loss": 4.0689,
      "step": 79900
    },
    {
      "epoch": 0.16647916666666668,
      "grad_norm": 0.8440589904785156,
      "learning_rate": 0.00028076104317735013,
      "loss": 3.9918,
      "step": 79910
    },
    {
      "epoch": 0.1665,
      "grad_norm": 0.7226964235305786,
      "learning_rate": 0.0002807562125164677,
      "loss": 3.9756,
      "step": 79920
    },
    {
      "epoch": 0.16652083333333334,
      "grad_norm": 0.8264700174331665,
      "learning_rate": 0.00028075138129077026,
      "loss": 3.7759,
      "step": 79930
    },
    {
      "epoch": 0.16654166666666667,
      "grad_norm": 0.7220835089683533,
      "learning_rate": 0.00028074654950027857,
      "loss": 3.9762,
      "step": 79940
    },
    {
      "epoch": 0.1665625,
      "grad_norm": 0.7459014058113098,
      "learning_rate": 0.0002807417171450135,
      "loss": 3.7879,
      "step": 79950
    },
    {
      "epoch": 0.16658333333333333,
      "grad_norm": 0.8057001829147339,
      "learning_rate": 0.000280736884224996,
      "loss": 3.936,
      "step": 79960
    },
    {
      "epoch": 0.16660416666666666,
      "grad_norm": 0.7922872304916382,
      "learning_rate": 0.0002807320507402469,
      "loss": 3.9335,
      "step": 79970
    },
    {
      "epoch": 0.166625,
      "grad_norm": 0.8780884146690369,
      "learning_rate": 0.00028072721669078715,
      "loss": 3.9507,
      "step": 79980
    },
    {
      "epoch": 0.16664583333333333,
      "grad_norm": 0.8475663065910339,
      "learning_rate": 0.0002807223820766375,
      "loss": 3.7474,
      "step": 79990
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 1.1149990558624268,
      "learning_rate": 0.0002807175468978189,
      "loss": 3.8218,
      "step": 80000
    },
    {
      "epoch": 0.16666666666666666,
      "eval_loss": 4.279177665710449,
      "eval_runtime": 13.5557,
      "eval_samples_per_second": 0.738,
      "eval_steps_per_second": 0.221,
      "step": 80000
    },
    {
      "epoch": 0.1666875,
      "grad_norm": 0.8452630639076233,
      "learning_rate": 0.0002807127111543523,
      "loss": 3.9662,
      "step": 80010
    },
    {
      "epoch": 0.16670833333333332,
      "grad_norm": 0.8235986828804016,
      "learning_rate": 0.0002807078748462584,
      "loss": 3.7763,
      "step": 80020
    },
    {
      "epoch": 0.16672916666666668,
      "grad_norm": 1.0518958568572998,
      "learning_rate": 0.0002807030379735583,
      "loss": 3.9067,
      "step": 80030
    },
    {
      "epoch": 0.16675,
      "grad_norm": 0.9278172254562378,
      "learning_rate": 0.0002806982005362728,
      "loss": 3.7963,
      "step": 80040
    },
    {
      "epoch": 0.16677083333333334,
      "grad_norm": 0.7798091173171997,
      "learning_rate": 0.0002806933625344229,
      "loss": 4.0174,
      "step": 80050
    },
    {
      "epoch": 0.16679166666666667,
      "grad_norm": 0.8742340207099915,
      "learning_rate": 0.0002806885239680293,
      "loss": 3.9202,
      "step": 80060
    },
    {
      "epoch": 0.1668125,
      "grad_norm": 0.9284462928771973,
      "learning_rate": 0.000280683684837113,
      "loss": 3.7859,
      "step": 80070
    },
    {
      "epoch": 0.16683333333333333,
      "grad_norm": 0.8931137323379517,
      "learning_rate": 0.000280678845141695,
      "loss": 3.7204,
      "step": 80080
    },
    {
      "epoch": 0.16685416666666666,
      "grad_norm": 0.7700774073600769,
      "learning_rate": 0.00028067400488179605,
      "loss": 4.0482,
      "step": 80090
    },
    {
      "epoch": 0.166875,
      "grad_norm": 0.7893162965774536,
      "learning_rate": 0.0002806691640574371,
      "loss": 3.8758,
      "step": 80100
    },
    {
      "epoch": 0.16689583333333333,
      "grad_norm": 0.8157781958580017,
      "learning_rate": 0.0002806643226686391,
      "loss": 4.164,
      "step": 80110
    },
    {
      "epoch": 0.16691666666666666,
      "grad_norm": 0.7681192755699158,
      "learning_rate": 0.000280659480715423,
      "loss": 3.8519,
      "step": 80120
    },
    {
      "epoch": 0.1669375,
      "grad_norm": 0.8873482942581177,
      "learning_rate": 0.0002806546381978096,
      "loss": 4.0934,
      "step": 80130
    },
    {
      "epoch": 0.16695833333333332,
      "grad_norm": 0.8485541939735413,
      "learning_rate": 0.00028064979511581987,
      "loss": 3.8956,
      "step": 80140
    },
    {
      "epoch": 0.16697916666666668,
      "grad_norm": 0.8873647451400757,
      "learning_rate": 0.0002806449514694748,
      "loss": 4.0133,
      "step": 80150
    },
    {
      "epoch": 0.167,
      "grad_norm": 1.0057164430618286,
      "learning_rate": 0.00028064010725879524,
      "loss": 3.923,
      "step": 80160
    },
    {
      "epoch": 0.16702083333333334,
      "grad_norm": 0.6553002595901489,
      "learning_rate": 0.0002806352624838021,
      "loss": 4.0175,
      "step": 80170
    },
    {
      "epoch": 0.16704166666666667,
      "grad_norm": 0.811758279800415,
      "learning_rate": 0.0002806304171445164,
      "loss": 3.8816,
      "step": 80180
    },
    {
      "epoch": 0.1670625,
      "grad_norm": 0.7502511143684387,
      "learning_rate": 0.0002806255712409589,
      "loss": 3.997,
      "step": 80190
    },
    {
      "epoch": 0.16708333333333333,
      "grad_norm": 0.7627707719802856,
      "learning_rate": 0.0002806207247731507,
      "loss": 4.0348,
      "step": 80200
    },
    {
      "epoch": 0.16710416666666666,
      "grad_norm": 0.7465724349021912,
      "learning_rate": 0.00028061587774111266,
      "loss": 3.9098,
      "step": 80210
    },
    {
      "epoch": 0.167125,
      "grad_norm": 0.733873724937439,
      "learning_rate": 0.0002806110301448657,
      "loss": 3.9728,
      "step": 80220
    },
    {
      "epoch": 0.16714583333333333,
      "grad_norm": 0.8118357062339783,
      "learning_rate": 0.00028060618198443086,
      "loss": 3.8905,
      "step": 80230
    },
    {
      "epoch": 0.16716666666666666,
      "grad_norm": 0.6868577003479004,
      "learning_rate": 0.00028060133325982897,
      "loss": 3.9723,
      "step": 80240
    },
    {
      "epoch": 0.1671875,
      "grad_norm": 0.9205425381660461,
      "learning_rate": 0.000280596483971081,
      "loss": 4.0445,
      "step": 80250
    },
    {
      "epoch": 0.16720833333333332,
      "grad_norm": 0.8666914701461792,
      "learning_rate": 0.000280591634118208,
      "loss": 3.9385,
      "step": 80260
    },
    {
      "epoch": 0.16722916666666668,
      "grad_norm": 0.7166321873664856,
      "learning_rate": 0.00028058678370123074,
      "loss": 3.6853,
      "step": 80270
    },
    {
      "epoch": 0.16725,
      "grad_norm": 0.9137424230575562,
      "learning_rate": 0.00028058193272017027,
      "loss": 3.9477,
      "step": 80280
    },
    {
      "epoch": 0.16727083333333334,
      "grad_norm": 0.7676709294319153,
      "learning_rate": 0.0002805770811750476,
      "loss": 4.1922,
      "step": 80290
    },
    {
      "epoch": 0.16729166666666667,
      "grad_norm": 0.7563128471374512,
      "learning_rate": 0.00028057222906588354,
      "loss": 3.933,
      "step": 80300
    },
    {
      "epoch": 0.1673125,
      "grad_norm": 0.9271994233131409,
      "learning_rate": 0.0002805673763926992,
      "loss": 3.9907,
      "step": 80310
    },
    {
      "epoch": 0.16733333333333333,
      "grad_norm": 0.7976372241973877,
      "learning_rate": 0.0002805625231555154,
      "loss": 3.9676,
      "step": 80320
    },
    {
      "epoch": 0.16735416666666666,
      "grad_norm": 0.901520848274231,
      "learning_rate": 0.00028055766935435327,
      "loss": 3.8295,
      "step": 80330
    },
    {
      "epoch": 0.167375,
      "grad_norm": 0.7262623310089111,
      "learning_rate": 0.00028055281498923364,
      "loss": 3.8379,
      "step": 80340
    },
    {
      "epoch": 0.16739583333333333,
      "grad_norm": 0.9015292525291443,
      "learning_rate": 0.00028054796006017754,
      "loss": 3.8567,
      "step": 80350
    },
    {
      "epoch": 0.16741666666666666,
      "grad_norm": 0.7392222285270691,
      "learning_rate": 0.00028054310456720593,
      "loss": 4.064,
      "step": 80360
    },
    {
      "epoch": 0.1674375,
      "grad_norm": 0.9553157687187195,
      "learning_rate": 0.0002805382485103398,
      "loss": 3.9364,
      "step": 80370
    },
    {
      "epoch": 0.16745833333333332,
      "grad_norm": 0.712239146232605,
      "learning_rate": 0.00028053339188960005,
      "loss": 4.0212,
      "step": 80380
    },
    {
      "epoch": 0.16747916666666668,
      "grad_norm": 0.761043131351471,
      "learning_rate": 0.00028052853470500775,
      "loss": 3.9499,
      "step": 80390
    },
    {
      "epoch": 0.1675,
      "grad_norm": 0.8301210403442383,
      "learning_rate": 0.00028052367695658386,
      "loss": 3.9665,
      "step": 80400
    },
    {
      "epoch": 0.16752083333333334,
      "grad_norm": 0.9389559030532837,
      "learning_rate": 0.0002805188186443493,
      "loss": 3.9139,
      "step": 80410
    },
    {
      "epoch": 0.16754166666666667,
      "grad_norm": 0.7564241290092468,
      "learning_rate": 0.0002805139597683252,
      "loss": 4.0067,
      "step": 80420
    },
    {
      "epoch": 0.1675625,
      "grad_norm": 0.6750020980834961,
      "learning_rate": 0.00028050910032853234,
      "loss": 3.921,
      "step": 80430
    },
    {
      "epoch": 0.16758333333333333,
      "grad_norm": 0.7333940863609314,
      "learning_rate": 0.0002805042403249919,
      "loss": 3.8761,
      "step": 80440
    },
    {
      "epoch": 0.16760416666666667,
      "grad_norm": 0.7410913705825806,
      "learning_rate": 0.0002804993797577248,
      "loss": 3.865,
      "step": 80450
    },
    {
      "epoch": 0.167625,
      "grad_norm": 0.7607890963554382,
      "learning_rate": 0.000280494518626752,
      "loss": 3.9806,
      "step": 80460
    },
    {
      "epoch": 0.16764583333333333,
      "grad_norm": 0.7862135171890259,
      "learning_rate": 0.00028048965693209453,
      "loss": 3.9377,
      "step": 80470
    },
    {
      "epoch": 0.16766666666666666,
      "grad_norm": 0.8229547142982483,
      "learning_rate": 0.0002804847946737734,
      "loss": 3.9907,
      "step": 80480
    },
    {
      "epoch": 0.1676875,
      "grad_norm": 0.8241860866546631,
      "learning_rate": 0.0002804799318518096,
      "loss": 3.8821,
      "step": 80490
    },
    {
      "epoch": 0.16770833333333332,
      "grad_norm": 0.843778133392334,
      "learning_rate": 0.0002804750684662242,
      "loss": 3.89,
      "step": 80500
    },
    {
      "epoch": 0.16772916666666668,
      "grad_norm": 0.7160305976867676,
      "learning_rate": 0.0002804702045170381,
      "loss": 4.1016,
      "step": 80510
    },
    {
      "epoch": 0.16775,
      "grad_norm": 0.7118239402770996,
      "learning_rate": 0.0002804653400042724,
      "loss": 3.9687,
      "step": 80520
    },
    {
      "epoch": 0.16777083333333334,
      "grad_norm": 0.7526283860206604,
      "learning_rate": 0.00028046047492794805,
      "loss": 4.0954,
      "step": 80530
    },
    {
      "epoch": 0.16779166666666667,
      "grad_norm": 0.7911638021469116,
      "learning_rate": 0.00028045560928808606,
      "loss": 3.9884,
      "step": 80540
    },
    {
      "epoch": 0.1678125,
      "grad_norm": 0.7980467677116394,
      "learning_rate": 0.0002804507430847075,
      "loss": 3.8179,
      "step": 80550
    },
    {
      "epoch": 0.16783333333333333,
      "grad_norm": 0.7775265574455261,
      "learning_rate": 0.00028044587631783334,
      "loss": 3.9125,
      "step": 80560
    },
    {
      "epoch": 0.16785416666666667,
      "grad_norm": 0.6612196564674377,
      "learning_rate": 0.0002804410089874846,
      "loss": 3.9613,
      "step": 80570
    },
    {
      "epoch": 0.167875,
      "grad_norm": 0.7300620675086975,
      "learning_rate": 0.00028043614109368243,
      "loss": 3.9923,
      "step": 80580
    },
    {
      "epoch": 0.16789583333333333,
      "grad_norm": 0.7935642004013062,
      "learning_rate": 0.00028043127263644775,
      "loss": 4.0617,
      "step": 80590
    },
    {
      "epoch": 0.16791666666666666,
      "grad_norm": 0.8007091879844666,
      "learning_rate": 0.00028042640361580155,
      "loss": 3.8146,
      "step": 80600
    },
    {
      "epoch": 0.1679375,
      "grad_norm": 0.7504349946975708,
      "learning_rate": 0.0002804215340317649,
      "loss": 3.8772,
      "step": 80610
    },
    {
      "epoch": 0.16795833333333332,
      "grad_norm": 0.6971269845962524,
      "learning_rate": 0.00028041666388435886,
      "loss": 3.8208,
      "step": 80620
    },
    {
      "epoch": 0.16797916666666668,
      "grad_norm": 0.7043132185935974,
      "learning_rate": 0.0002804117931736045,
      "loss": 3.8472,
      "step": 80630
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.8482775688171387,
      "learning_rate": 0.0002804069218995228,
      "loss": 3.8935,
      "step": 80640
    },
    {
      "epoch": 0.16802083333333334,
      "grad_norm": 0.7840139269828796,
      "learning_rate": 0.0002804020500621348,
      "loss": 3.888,
      "step": 80650
    },
    {
      "epoch": 0.16804166666666667,
      "grad_norm": 0.7546809911727905,
      "learning_rate": 0.00028039717766146154,
      "loss": 3.8702,
      "step": 80660
    },
    {
      "epoch": 0.1680625,
      "grad_norm": 0.8147913813591003,
      "learning_rate": 0.00028039230469752407,
      "loss": 4.02,
      "step": 80670
    },
    {
      "epoch": 0.16808333333333333,
      "grad_norm": 0.8539531230926514,
      "learning_rate": 0.00028038743117034357,
      "loss": 3.943,
      "step": 80680
    },
    {
      "epoch": 0.16810416666666667,
      "grad_norm": 0.8945760726928711,
      "learning_rate": 0.00028038255707994085,
      "loss": 4.0914,
      "step": 80690
    },
    {
      "epoch": 0.168125,
      "grad_norm": 0.8220838904380798,
      "learning_rate": 0.0002803776824263372,
      "loss": 3.9033,
      "step": 80700
    },
    {
      "epoch": 0.16814583333333333,
      "grad_norm": 0.6471647024154663,
      "learning_rate": 0.00028037280720955346,
      "loss": 3.7948,
      "step": 80710
    },
    {
      "epoch": 0.16816666666666666,
      "grad_norm": 0.9927796125411987,
      "learning_rate": 0.00028036793142961086,
      "loss": 3.9242,
      "step": 80720
    },
    {
      "epoch": 0.1681875,
      "grad_norm": 0.7403928637504578,
      "learning_rate": 0.0002803630550865304,
      "loss": 3.9476,
      "step": 80730
    },
    {
      "epoch": 0.16820833333333332,
      "grad_norm": 1.2569527626037598,
      "learning_rate": 0.00028035817818033315,
      "loss": 4.079,
      "step": 80740
    },
    {
      "epoch": 0.16822916666666668,
      "grad_norm": 0.7572879195213318,
      "learning_rate": 0.0002803533007110401,
      "loss": 3.9825,
      "step": 80750
    },
    {
      "epoch": 0.16825,
      "grad_norm": 0.84687739610672,
      "learning_rate": 0.0002803484226786725,
      "loss": 4.0196,
      "step": 80760
    },
    {
      "epoch": 0.16827083333333334,
      "grad_norm": 0.764293372631073,
      "learning_rate": 0.0002803435440832512,
      "loss": 3.83,
      "step": 80770
    },
    {
      "epoch": 0.16829166666666667,
      "grad_norm": 0.8155115246772766,
      "learning_rate": 0.0002803386649247975,
      "loss": 4.1501,
      "step": 80780
    },
    {
      "epoch": 0.1683125,
      "grad_norm": 0.9214715957641602,
      "learning_rate": 0.0002803337852033323,
      "loss": 3.9874,
      "step": 80790
    },
    {
      "epoch": 0.16833333333333333,
      "grad_norm": 0.806868314743042,
      "learning_rate": 0.0002803289049188767,
      "loss": 4.077,
      "step": 80800
    },
    {
      "epoch": 0.16835416666666667,
      "grad_norm": 0.8796967267990112,
      "learning_rate": 0.00028032402407145184,
      "loss": 4.1104,
      "step": 80810
    },
    {
      "epoch": 0.168375,
      "grad_norm": 0.789475679397583,
      "learning_rate": 0.00028031914266107876,
      "loss": 4.1166,
      "step": 80820
    },
    {
      "epoch": 0.16839583333333333,
      "grad_norm": 0.6871716976165771,
      "learning_rate": 0.00028031426068777864,
      "loss": 4.0947,
      "step": 80830
    },
    {
      "epoch": 0.16841666666666666,
      "grad_norm": 0.7051374912261963,
      "learning_rate": 0.00028030937815157246,
      "loss": 3.9045,
      "step": 80840
    },
    {
      "epoch": 0.1684375,
      "grad_norm": 0.809330403804779,
      "learning_rate": 0.0002803044950524813,
      "loss": 3.9822,
      "step": 80850
    },
    {
      "epoch": 0.16845833333333332,
      "grad_norm": 0.9692503213882446,
      "learning_rate": 0.0002802996113905264,
      "loss": 3.9517,
      "step": 80860
    },
    {
      "epoch": 0.16847916666666668,
      "grad_norm": 0.8738134503364563,
      "learning_rate": 0.00028029472716572867,
      "loss": 3.7231,
      "step": 80870
    },
    {
      "epoch": 0.1685,
      "grad_norm": 0.7911787033081055,
      "learning_rate": 0.0002802898423781093,
      "loss": 3.6726,
      "step": 80880
    },
    {
      "epoch": 0.16852083333333334,
      "grad_norm": 0.7951427698135376,
      "learning_rate": 0.0002802849570276894,
      "loss": 4.0394,
      "step": 80890
    },
    {
      "epoch": 0.16854166666666667,
      "grad_norm": 0.810341477394104,
      "learning_rate": 0.0002802800711144901,
      "loss": 3.7436,
      "step": 80900
    },
    {
      "epoch": 0.1685625,
      "grad_norm": 0.9517556428909302,
      "learning_rate": 0.0002802751846385324,
      "loss": 3.8068,
      "step": 80910
    },
    {
      "epoch": 0.16858333333333334,
      "grad_norm": 0.8446322083473206,
      "learning_rate": 0.00028027029759983746,
      "loss": 3.9325,
      "step": 80920
    },
    {
      "epoch": 0.16860416666666667,
      "grad_norm": 0.7706509232521057,
      "learning_rate": 0.00028026540999842646,
      "loss": 3.9307,
      "step": 80930
    },
    {
      "epoch": 0.168625,
      "grad_norm": 0.8258076310157776,
      "learning_rate": 0.0002802605218343204,
      "loss": 4.0252,
      "step": 80940
    },
    {
      "epoch": 0.16864583333333333,
      "grad_norm": 0.87649005651474,
      "learning_rate": 0.0002802556331075405,
      "loss": 3.9053,
      "step": 80950
    },
    {
      "epoch": 0.16866666666666666,
      "grad_norm": 0.8166248798370361,
      "learning_rate": 0.00028025074381810776,
      "loss": 3.9387,
      "step": 80960
    },
    {
      "epoch": 0.1686875,
      "grad_norm": 0.710884153842926,
      "learning_rate": 0.0002802458539660434,
      "loss": 3.8249,
      "step": 80970
    },
    {
      "epoch": 0.16870833333333332,
      "grad_norm": 0.7656628489494324,
      "learning_rate": 0.00028024096355136854,
      "loss": 3.9008,
      "step": 80980
    },
    {
      "epoch": 0.16872916666666668,
      "grad_norm": 0.8113968968391418,
      "learning_rate": 0.0002802360725741042,
      "loss": 3.8273,
      "step": 80990
    },
    {
      "epoch": 0.16875,
      "grad_norm": 0.7586864829063416,
      "learning_rate": 0.0002802311810342716,
      "loss": 3.9225,
      "step": 81000
    },
    {
      "epoch": 0.16875,
      "eval_loss": 4.2763352394104,
      "eval_runtime": 10.2697,
      "eval_samples_per_second": 0.974,
      "eval_steps_per_second": 0.292,
      "step": 81000
    },
    {
      "epoch": 0.16877083333333334,
      "grad_norm": 0.9365801215171814,
      "learning_rate": 0.0002802262889318918,
      "loss": 4.0601,
      "step": 81010
    },
    {
      "epoch": 0.16879166666666667,
      "grad_norm": 0.8260058760643005,
      "learning_rate": 0.00028022139626698606,
      "loss": 3.9112,
      "step": 81020
    },
    {
      "epoch": 0.1688125,
      "grad_norm": 0.8280866146087646,
      "learning_rate": 0.00028021650303957545,
      "loss": 4.0152,
      "step": 81030
    },
    {
      "epoch": 0.16883333333333334,
      "grad_norm": 1.4335800409317017,
      "learning_rate": 0.000280211609249681,
      "loss": 3.9492,
      "step": 81040
    },
    {
      "epoch": 0.16885416666666667,
      "grad_norm": 0.7633799314498901,
      "learning_rate": 0.000280206714897324,
      "loss": 3.8855,
      "step": 81050
    },
    {
      "epoch": 0.168875,
      "grad_norm": 0.6972874402999878,
      "learning_rate": 0.0002802018199825255,
      "loss": 3.8978,
      "step": 81060
    },
    {
      "epoch": 0.16889583333333333,
      "grad_norm": 0.7478734850883484,
      "learning_rate": 0.0002801969245053067,
      "loss": 3.8746,
      "step": 81070
    },
    {
      "epoch": 0.16891666666666666,
      "grad_norm": 0.8007070422172546,
      "learning_rate": 0.0002801920284656887,
      "loss": 3.9347,
      "step": 81080
    },
    {
      "epoch": 0.1689375,
      "grad_norm": 0.7030515670776367,
      "learning_rate": 0.0002801871318636927,
      "loss": 3.8915,
      "step": 81090
    },
    {
      "epoch": 0.16895833333333332,
      "grad_norm": 0.7649484872817993,
      "learning_rate": 0.0002801822346993398,
      "loss": 4.0601,
      "step": 81100
    },
    {
      "epoch": 0.16897916666666668,
      "grad_norm": 0.8628623485565186,
      "learning_rate": 0.00028017733697265117,
      "loss": 3.9757,
      "step": 81110
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.8294559717178345,
      "learning_rate": 0.000280172438683648,
      "loss": 3.8758,
      "step": 81120
    },
    {
      "epoch": 0.16902083333333334,
      "grad_norm": 0.8107723593711853,
      "learning_rate": 0.0002801675398323514,
      "loss": 3.7453,
      "step": 81130
    },
    {
      "epoch": 0.16904166666666667,
      "grad_norm": 0.795534074306488,
      "learning_rate": 0.0002801626404187826,
      "loss": 4.1106,
      "step": 81140
    },
    {
      "epoch": 0.1690625,
      "grad_norm": 0.7420551776885986,
      "learning_rate": 0.0002801577404429626,
      "loss": 4.0992,
      "step": 81150
    },
    {
      "epoch": 0.16908333333333334,
      "grad_norm": 0.8054308891296387,
      "learning_rate": 0.0002801528399049128,
      "loss": 4.01,
      "step": 81160
    },
    {
      "epoch": 0.16910416666666667,
      "grad_norm": 0.8937034010887146,
      "learning_rate": 0.0002801479388046542,
      "loss": 3.9965,
      "step": 81170
    },
    {
      "epoch": 0.169125,
      "grad_norm": 0.7872990965843201,
      "learning_rate": 0.00028014303714220804,
      "loss": 3.9223,
      "step": 81180
    },
    {
      "epoch": 0.16914583333333333,
      "grad_norm": 0.731533944606781,
      "learning_rate": 0.00028013813491759547,
      "loss": 3.929,
      "step": 81190
    },
    {
      "epoch": 0.16916666666666666,
      "grad_norm": 0.7908456921577454,
      "learning_rate": 0.0002801332321308376,
      "loss": 3.8914,
      "step": 81200
    },
    {
      "epoch": 0.1691875,
      "grad_norm": 0.7911894917488098,
      "learning_rate": 0.00028012832878195575,
      "loss": 4.056,
      "step": 81210
    },
    {
      "epoch": 0.16920833333333332,
      "grad_norm": 0.770489513874054,
      "learning_rate": 0.000280123424870971,
      "loss": 3.8683,
      "step": 81220
    },
    {
      "epoch": 0.16922916666666668,
      "grad_norm": 0.7589853405952454,
      "learning_rate": 0.0002801185203979046,
      "loss": 3.8689,
      "step": 81230
    },
    {
      "epoch": 0.16925,
      "grad_norm": 0.8417106866836548,
      "learning_rate": 0.0002801136153627777,
      "loss": 3.9292,
      "step": 81240
    },
    {
      "epoch": 0.16927083333333334,
      "grad_norm": 0.7086093425750732,
      "learning_rate": 0.0002801087097656114,
      "loss": 4.0074,
      "step": 81250
    },
    {
      "epoch": 0.16929166666666667,
      "grad_norm": 0.7774686217308044,
      "learning_rate": 0.00028010380360642703,
      "loss": 3.9733,
      "step": 81260
    },
    {
      "epoch": 0.1693125,
      "grad_norm": 0.8424275517463684,
      "learning_rate": 0.0002800988968852457,
      "loss": 3.9729,
      "step": 81270
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 0.7502890825271606,
      "learning_rate": 0.0002800939896020887,
      "loss": 3.8806,
      "step": 81280
    },
    {
      "epoch": 0.16935416666666667,
      "grad_norm": 0.8206419944763184,
      "learning_rate": 0.0002800890817569771,
      "loss": 4.0774,
      "step": 81290
    },
    {
      "epoch": 0.169375,
      "grad_norm": 0.8923568725585938,
      "learning_rate": 0.00028008417334993217,
      "loss": 3.8803,
      "step": 81300
    },
    {
      "epoch": 0.16939583333333333,
      "grad_norm": 0.7966017723083496,
      "learning_rate": 0.0002800792643809751,
      "loss": 3.9408,
      "step": 81310
    },
    {
      "epoch": 0.16941666666666666,
      "grad_norm": 0.8400110006332397,
      "learning_rate": 0.0002800743548501271,
      "loss": 4.0116,
      "step": 81320
    },
    {
      "epoch": 0.1694375,
      "grad_norm": 0.9517616033554077,
      "learning_rate": 0.00028006944475740943,
      "loss": 3.9417,
      "step": 81330
    },
    {
      "epoch": 0.16945833333333332,
      "grad_norm": 0.8916136026382446,
      "learning_rate": 0.0002800645341028432,
      "loss": 3.9859,
      "step": 81340
    },
    {
      "epoch": 0.16947916666666665,
      "grad_norm": 0.8174871802330017,
      "learning_rate": 0.0002800596228864496,
      "loss": 3.9851,
      "step": 81350
    },
    {
      "epoch": 0.1695,
      "grad_norm": 0.8414157032966614,
      "learning_rate": 0.00028005471110825,
      "loss": 4.0557,
      "step": 81360
    },
    {
      "epoch": 0.16952083333333334,
      "grad_norm": 0.8971309065818787,
      "learning_rate": 0.00028004979876826544,
      "loss": 3.8875,
      "step": 81370
    },
    {
      "epoch": 0.16954166666666667,
      "grad_norm": 0.7312085628509521,
      "learning_rate": 0.00028004488586651737,
      "loss": 3.9962,
      "step": 81380
    },
    {
      "epoch": 0.1695625,
      "grad_norm": 0.7814056277275085,
      "learning_rate": 0.00028003997240302675,
      "loss": 4.0662,
      "step": 81390
    },
    {
      "epoch": 0.16958333333333334,
      "grad_norm": 0.7489016652107239,
      "learning_rate": 0.00028003505837781494,
      "loss": 4.0411,
      "step": 81400
    },
    {
      "epoch": 0.16960416666666667,
      "grad_norm": 0.7263377904891968,
      "learning_rate": 0.00028003014379090314,
      "loss": 3.6851,
      "step": 81410
    },
    {
      "epoch": 0.169625,
      "grad_norm": 0.7704399824142456,
      "learning_rate": 0.00028002522864231265,
      "loss": 4.059,
      "step": 81420
    },
    {
      "epoch": 0.16964583333333333,
      "grad_norm": 0.8734249472618103,
      "learning_rate": 0.00028002031293206456,
      "loss": 3.9703,
      "step": 81430
    },
    {
      "epoch": 0.16966666666666666,
      "grad_norm": 0.8154728412628174,
      "learning_rate": 0.00028001539666018023,
      "loss": 3.912,
      "step": 81440
    },
    {
      "epoch": 0.1696875,
      "grad_norm": 0.7092462778091431,
      "learning_rate": 0.00028001047982668085,
      "loss": 4.0379,
      "step": 81450
    },
    {
      "epoch": 0.16970833333333332,
      "grad_norm": 0.7194523215293884,
      "learning_rate": 0.00028000556243158763,
      "loss": 3.9872,
      "step": 81460
    },
    {
      "epoch": 0.16972916666666665,
      "grad_norm": 0.7849944829940796,
      "learning_rate": 0.00028000064447492186,
      "loss": 3.8286,
      "step": 81470
    },
    {
      "epoch": 0.16975,
      "grad_norm": 0.9588846564292908,
      "learning_rate": 0.0002799957259567048,
      "loss": 4.0981,
      "step": 81480
    },
    {
      "epoch": 0.16977083333333334,
      "grad_norm": 0.8593902587890625,
      "learning_rate": 0.00027999080687695764,
      "loss": 3.9407,
      "step": 81490
    },
    {
      "epoch": 0.16979166666666667,
      "grad_norm": 0.7419275641441345,
      "learning_rate": 0.00027998588723570164,
      "loss": 3.9196,
      "step": 81500
    },
    {
      "epoch": 0.1698125,
      "grad_norm": 0.7268814444541931,
      "learning_rate": 0.00027998096703295804,
      "loss": 3.8543,
      "step": 81510
    },
    {
      "epoch": 0.16983333333333334,
      "grad_norm": 0.8479039072990417,
      "learning_rate": 0.00027997604626874814,
      "loss": 3.8584,
      "step": 81520
    },
    {
      "epoch": 0.16985416666666667,
      "grad_norm": 0.7454650402069092,
      "learning_rate": 0.00027997112494309315,
      "loss": 3.8629,
      "step": 81530
    },
    {
      "epoch": 0.169875,
      "grad_norm": 0.7754976749420166,
      "learning_rate": 0.00027996620305601437,
      "loss": 3.9413,
      "step": 81540
    },
    {
      "epoch": 0.16989583333333333,
      "grad_norm": 0.7925341129302979,
      "learning_rate": 0.000279961280607533,
      "loss": 3.9988,
      "step": 81550
    },
    {
      "epoch": 0.16991666666666666,
      "grad_norm": 0.6735754013061523,
      "learning_rate": 0.0002799563575976704,
      "loss": 3.6264,
      "step": 81560
    },
    {
      "epoch": 0.1699375,
      "grad_norm": 0.7044580578804016,
      "learning_rate": 0.00027995143402644767,
      "loss": 3.8438,
      "step": 81570
    },
    {
      "epoch": 0.16995833333333332,
      "grad_norm": 0.7400422096252441,
      "learning_rate": 0.0002799465098938863,
      "loss": 3.7251,
      "step": 81580
    },
    {
      "epoch": 0.16997916666666665,
      "grad_norm": 0.6878264546394348,
      "learning_rate": 0.00027994158520000734,
      "loss": 3.9619,
      "step": 81590
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8356401324272156,
      "learning_rate": 0.00027993665994483223,
      "loss": 4.0376,
      "step": 81600
    },
    {
      "epoch": 0.17002083333333334,
      "grad_norm": 0.747235119342804,
      "learning_rate": 0.00027993173412838214,
      "loss": 3.7897,
      "step": 81610
    },
    {
      "epoch": 0.17004166666666667,
      "grad_norm": 0.7572356462478638,
      "learning_rate": 0.0002799268077506784,
      "loss": 3.9198,
      "step": 81620
    },
    {
      "epoch": 0.1700625,
      "grad_norm": 0.8312356472015381,
      "learning_rate": 0.0002799218808117423,
      "loss": 3.8251,
      "step": 81630
    },
    {
      "epoch": 0.17008333333333334,
      "grad_norm": 0.7768791913986206,
      "learning_rate": 0.00027991695331159515,
      "loss": 4.0483,
      "step": 81640
    },
    {
      "epoch": 0.17010416666666667,
      "grad_norm": 0.7399845719337463,
      "learning_rate": 0.0002799120252502581,
      "loss": 3.8332,
      "step": 81650
    },
    {
      "epoch": 0.170125,
      "grad_norm": 0.8403314352035522,
      "learning_rate": 0.0002799070966277526,
      "loss": 3.7749,
      "step": 81660
    },
    {
      "epoch": 0.17014583333333333,
      "grad_norm": 0.8226832151412964,
      "learning_rate": 0.00027990216744409977,
      "loss": 3.8442,
      "step": 81670
    },
    {
      "epoch": 0.17016666666666666,
      "grad_norm": 0.8040117025375366,
      "learning_rate": 0.0002798972376993211,
      "loss": 3.857,
      "step": 81680
    },
    {
      "epoch": 0.1701875,
      "grad_norm": 0.7344703674316406,
      "learning_rate": 0.0002798923073934377,
      "loss": 3.8561,
      "step": 81690
    },
    {
      "epoch": 0.17020833333333332,
      "grad_norm": 0.7911918759346008,
      "learning_rate": 0.00027988737652647096,
      "loss": 3.7935,
      "step": 81700
    },
    {
      "epoch": 0.17022916666666665,
      "grad_norm": 0.9366786479949951,
      "learning_rate": 0.0002798824450984422,
      "loss": 3.921,
      "step": 81710
    },
    {
      "epoch": 0.17025,
      "grad_norm": 0.7270379662513733,
      "learning_rate": 0.0002798775131093727,
      "loss": 3.9251,
      "step": 81720
    },
    {
      "epoch": 0.17027083333333334,
      "grad_norm": 0.8347195386886597,
      "learning_rate": 0.0002798725805592837,
      "loss": 3.9917,
      "step": 81730
    },
    {
      "epoch": 0.17029166666666667,
      "grad_norm": 0.9000596404075623,
      "learning_rate": 0.00027986764744819656,
      "loss": 3.9198,
      "step": 81740
    },
    {
      "epoch": 0.1703125,
      "grad_norm": 0.8652284741401672,
      "learning_rate": 0.0002798627137761326,
      "loss": 3.9431,
      "step": 81750
    },
    {
      "epoch": 0.17033333333333334,
      "grad_norm": 0.8584786057472229,
      "learning_rate": 0.00027985777954311317,
      "loss": 4.0206,
      "step": 81760
    },
    {
      "epoch": 0.17035416666666667,
      "grad_norm": 0.7957494854927063,
      "learning_rate": 0.0002798528447491595,
      "loss": 3.8217,
      "step": 81770
    },
    {
      "epoch": 0.170375,
      "grad_norm": 0.7840234041213989,
      "learning_rate": 0.0002798479093942929,
      "loss": 3.8107,
      "step": 81780
    },
    {
      "epoch": 0.17039583333333333,
      "grad_norm": 0.753703773021698,
      "learning_rate": 0.00027984297347853474,
      "loss": 3.979,
      "step": 81790
    },
    {
      "epoch": 0.17041666666666666,
      "grad_norm": 0.7476680874824524,
      "learning_rate": 0.0002798380370019064,
      "loss": 3.9949,
      "step": 81800
    },
    {
      "epoch": 0.1704375,
      "grad_norm": 0.76930832862854,
      "learning_rate": 0.0002798330999644291,
      "loss": 3.8382,
      "step": 81810
    },
    {
      "epoch": 0.17045833333333332,
      "grad_norm": 0.8193716406822205,
      "learning_rate": 0.0002798281623661241,
      "loss": 4.0202,
      "step": 81820
    },
    {
      "epoch": 0.17047916666666665,
      "grad_norm": 0.8611440062522888,
      "learning_rate": 0.000279823224207013,
      "loss": 3.949,
      "step": 81830
    },
    {
      "epoch": 0.1705,
      "grad_norm": 0.7474245429039001,
      "learning_rate": 0.00027981828548711684,
      "loss": 3.8777,
      "step": 81840
    },
    {
      "epoch": 0.17052083333333334,
      "grad_norm": 0.9600389003753662,
      "learning_rate": 0.0002798133462064571,
      "loss": 3.8844,
      "step": 81850
    },
    {
      "epoch": 0.17054166666666667,
      "grad_norm": 0.8112174868583679,
      "learning_rate": 0.0002798084063650551,
      "loss": 4.0268,
      "step": 81860
    },
    {
      "epoch": 0.1705625,
      "grad_norm": 0.8159454464912415,
      "learning_rate": 0.0002798034659629321,
      "loss": 4.1248,
      "step": 81870
    },
    {
      "epoch": 0.17058333333333334,
      "grad_norm": 0.7615405321121216,
      "learning_rate": 0.0002797985250001096,
      "loss": 3.8783,
      "step": 81880
    },
    {
      "epoch": 0.17060416666666667,
      "grad_norm": 0.7259865999221802,
      "learning_rate": 0.0002797935834766088,
      "loss": 3.9543,
      "step": 81890
    },
    {
      "epoch": 0.170625,
      "grad_norm": 0.8303022980690002,
      "learning_rate": 0.00027978864139245114,
      "loss": 3.7657,
      "step": 81900
    },
    {
      "epoch": 0.17064583333333333,
      "grad_norm": 0.8027812242507935,
      "learning_rate": 0.0002797836987476579,
      "loss": 3.6884,
      "step": 81910
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 0.7016518712043762,
      "learning_rate": 0.0002797787555422504,
      "loss": 3.9281,
      "step": 81920
    },
    {
      "epoch": 0.1706875,
      "grad_norm": 0.8657918572425842,
      "learning_rate": 0.0002797738117762501,
      "loss": 3.9241,
      "step": 81930
    },
    {
      "epoch": 0.17070833333333332,
      "grad_norm": 0.9392837882041931,
      "learning_rate": 0.00027976886744967834,
      "loss": 3.8857,
      "step": 81940
    },
    {
      "epoch": 0.17072916666666665,
      "grad_norm": 0.8146774172782898,
      "learning_rate": 0.0002797639225625564,
      "loss": 4.0934,
      "step": 81950
    },
    {
      "epoch": 0.17075,
      "grad_norm": 0.8431332111358643,
      "learning_rate": 0.00027975897711490566,
      "loss": 3.8374,
      "step": 81960
    },
    {
      "epoch": 0.17077083333333334,
      "grad_norm": 1.1008341312408447,
      "learning_rate": 0.0002797540311067475,
      "loss": 3.8019,
      "step": 81970
    },
    {
      "epoch": 0.17079166666666667,
      "grad_norm": 0.830689013004303,
      "learning_rate": 0.00027974908453810333,
      "loss": 4.0135,
      "step": 81980
    },
    {
      "epoch": 0.1708125,
      "grad_norm": 0.7396224141120911,
      "learning_rate": 0.0002797441374089944,
      "loss": 3.9514,
      "step": 81990
    },
    {
      "epoch": 0.17083333333333334,
      "grad_norm": 0.8435444831848145,
      "learning_rate": 0.00027973918971944224,
      "loss": 3.9183,
      "step": 82000
    },
    {
      "epoch": 0.17083333333333334,
      "eval_loss": 4.26815128326416,
      "eval_runtime": 10.2732,
      "eval_samples_per_second": 0.973,
      "eval_steps_per_second": 0.292,
      "step": 82000
    },
    {
      "epoch": 0.17085416666666667,
      "grad_norm": 0.8723925352096558,
      "learning_rate": 0.0002797342414694681,
      "loss": 3.7764,
      "step": 82010
    },
    {
      "epoch": 0.170875,
      "grad_norm": 0.7729418277740479,
      "learning_rate": 0.00027972929265909335,
      "loss": 3.9798,
      "step": 82020
    },
    {
      "epoch": 0.17089583333333333,
      "grad_norm": 0.8588160872459412,
      "learning_rate": 0.0002797243432883394,
      "loss": 3.9554,
      "step": 82030
    },
    {
      "epoch": 0.17091666666666666,
      "grad_norm": 0.9018920660018921,
      "learning_rate": 0.00027971939335722765,
      "loss": 3.9377,
      "step": 82040
    },
    {
      "epoch": 0.1709375,
      "grad_norm": 0.7072643637657166,
      "learning_rate": 0.0002797144428657795,
      "loss": 3.9855,
      "step": 82050
    },
    {
      "epoch": 0.17095833333333332,
      "grad_norm": 0.749917209148407,
      "learning_rate": 0.0002797094918140163,
      "loss": 4.0305,
      "step": 82060
    },
    {
      "epoch": 0.17097916666666665,
      "grad_norm": 0.8828359842300415,
      "learning_rate": 0.0002797045402019594,
      "loss": 3.9135,
      "step": 82070
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.7662261128425598,
      "learning_rate": 0.00027969958802963026,
      "loss": 4.0648,
      "step": 82080
    },
    {
      "epoch": 0.17102083333333334,
      "grad_norm": 0.703414797782898,
      "learning_rate": 0.0002796946352970503,
      "loss": 3.957,
      "step": 82090
    },
    {
      "epoch": 0.17104166666666668,
      "grad_norm": 0.9364521503448486,
      "learning_rate": 0.00027968968200424075,
      "loss": 3.7102,
      "step": 82100
    },
    {
      "epoch": 0.1710625,
      "grad_norm": 0.7424483895301819,
      "learning_rate": 0.0002796847281512231,
      "loss": 3.8925,
      "step": 82110
    },
    {
      "epoch": 0.17108333333333334,
      "grad_norm": 0.7583352327346802,
      "learning_rate": 0.0002796797737380188,
      "loss": 3.9531,
      "step": 82120
    },
    {
      "epoch": 0.17110416666666667,
      "grad_norm": 0.7863916754722595,
      "learning_rate": 0.0002796748187646493,
      "loss": 3.9408,
      "step": 82130
    },
    {
      "epoch": 0.171125,
      "grad_norm": 0.7670108675956726,
      "learning_rate": 0.00027966986323113574,
      "loss": 4.0234,
      "step": 82140
    },
    {
      "epoch": 0.17114583333333333,
      "grad_norm": 0.7925761342048645,
      "learning_rate": 0.00027966490713749977,
      "loss": 3.9344,
      "step": 82150
    },
    {
      "epoch": 0.17116666666666666,
      "grad_norm": 0.764907717704773,
      "learning_rate": 0.0002796599504837628,
      "loss": 3.7791,
      "step": 82160
    },
    {
      "epoch": 0.1711875,
      "grad_norm": 0.7642652988433838,
      "learning_rate": 0.00027965499326994606,
      "loss": 3.8308,
      "step": 82170
    },
    {
      "epoch": 0.17120833333333332,
      "grad_norm": 0.7129635214805603,
      "learning_rate": 0.0002796500354960711,
      "loss": 3.9067,
      "step": 82180
    },
    {
      "epoch": 0.17122916666666665,
      "grad_norm": 0.9131090044975281,
      "learning_rate": 0.00027964507716215934,
      "loss": 3.9552,
      "step": 82190
    },
    {
      "epoch": 0.17125,
      "grad_norm": 0.705577552318573,
      "learning_rate": 0.0002796401182682321,
      "loss": 3.9065,
      "step": 82200
    },
    {
      "epoch": 0.17127083333333334,
      "grad_norm": 0.7409008145332336,
      "learning_rate": 0.0002796351588143109,
      "loss": 3.8939,
      "step": 82210
    },
    {
      "epoch": 0.17129166666666668,
      "grad_norm": 0.7977017164230347,
      "learning_rate": 0.00027963019880041716,
      "loss": 3.8995,
      "step": 82220
    },
    {
      "epoch": 0.1713125,
      "grad_norm": 0.6938869953155518,
      "learning_rate": 0.00027962523822657224,
      "loss": 4.0384,
      "step": 82230
    },
    {
      "epoch": 0.17133333333333334,
      "grad_norm": 0.7133720517158508,
      "learning_rate": 0.0002796202770927976,
      "loss": 3.8602,
      "step": 82240
    },
    {
      "epoch": 0.17135416666666667,
      "grad_norm": 0.83607017993927,
      "learning_rate": 0.0002796153153991147,
      "loss": 3.9322,
      "step": 82250
    },
    {
      "epoch": 0.171375,
      "grad_norm": 0.9939205050468445,
      "learning_rate": 0.0002796103531455449,
      "loss": 4.0756,
      "step": 82260
    },
    {
      "epoch": 0.17139583333333333,
      "grad_norm": 0.7288772463798523,
      "learning_rate": 0.00027960539033210967,
      "loss": 3.8335,
      "step": 82270
    },
    {
      "epoch": 0.17141666666666666,
      "grad_norm": 0.7894585728645325,
      "learning_rate": 0.0002796004269588305,
      "loss": 3.8929,
      "step": 82280
    },
    {
      "epoch": 0.1714375,
      "grad_norm": 0.8381339907646179,
      "learning_rate": 0.00027959546302572876,
      "loss": 4.0059,
      "step": 82290
    },
    {
      "epoch": 0.17145833333333332,
      "grad_norm": 0.7478272914886475,
      "learning_rate": 0.0002795904985328259,
      "loss": 4.1365,
      "step": 82300
    },
    {
      "epoch": 0.17147916666666665,
      "grad_norm": 0.7611980438232422,
      "learning_rate": 0.0002795855334801434,
      "loss": 3.9234,
      "step": 82310
    },
    {
      "epoch": 0.1715,
      "grad_norm": 0.7398145198822021,
      "learning_rate": 0.0002795805678677027,
      "loss": 3.9236,
      "step": 82320
    },
    {
      "epoch": 0.17152083333333334,
      "grad_norm": 0.8846268653869629,
      "learning_rate": 0.0002795756016955252,
      "loss": 3.7493,
      "step": 82330
    },
    {
      "epoch": 0.17154166666666668,
      "grad_norm": 0.7877893447875977,
      "learning_rate": 0.00027957063496363244,
      "loss": 3.9624,
      "step": 82340
    },
    {
      "epoch": 0.1715625,
      "grad_norm": 0.7485454082489014,
      "learning_rate": 0.00027956566767204586,
      "loss": 3.8892,
      "step": 82350
    },
    {
      "epoch": 0.17158333333333334,
      "grad_norm": 0.9533061981201172,
      "learning_rate": 0.00027956069982078676,
      "loss": 3.8027,
      "step": 82360
    },
    {
      "epoch": 0.17160416666666667,
      "grad_norm": 0.7603659629821777,
      "learning_rate": 0.00027955573140987685,
      "loss": 3.8284,
      "step": 82370
    },
    {
      "epoch": 0.171625,
      "grad_norm": 0.724149763584137,
      "learning_rate": 0.00027955076243933735,
      "loss": 3.8199,
      "step": 82380
    },
    {
      "epoch": 0.17164583333333333,
      "grad_norm": 0.773857831954956,
      "learning_rate": 0.0002795457929091899,
      "loss": 4.1184,
      "step": 82390
    },
    {
      "epoch": 0.17166666666666666,
      "grad_norm": 0.9327843189239502,
      "learning_rate": 0.00027954082281945585,
      "loss": 3.9101,
      "step": 82400
    },
    {
      "epoch": 0.1716875,
      "grad_norm": 0.7958089113235474,
      "learning_rate": 0.0002795358521701568,
      "loss": 3.7669,
      "step": 82410
    },
    {
      "epoch": 0.17170833333333332,
      "grad_norm": 0.9422511458396912,
      "learning_rate": 0.00027953088096131415,
      "loss": 3.8839,
      "step": 82420
    },
    {
      "epoch": 0.17172916666666665,
      "grad_norm": 0.775775134563446,
      "learning_rate": 0.00027952590919294926,
      "loss": 4.0133,
      "step": 82430
    },
    {
      "epoch": 0.17175,
      "grad_norm": 0.8461121320724487,
      "learning_rate": 0.0002795209368650838,
      "loss": 3.9321,
      "step": 82440
    },
    {
      "epoch": 0.17177083333333334,
      "grad_norm": 0.7532004714012146,
      "learning_rate": 0.0002795159639777391,
      "loss": 3.807,
      "step": 82450
    },
    {
      "epoch": 0.17179166666666668,
      "grad_norm": 0.7881927490234375,
      "learning_rate": 0.0002795109905309367,
      "loss": 3.8442,
      "step": 82460
    },
    {
      "epoch": 0.1718125,
      "grad_norm": 0.8583217859268188,
      "learning_rate": 0.00027950601652469817,
      "loss": 3.9713,
      "step": 82470
    },
    {
      "epoch": 0.17183333333333334,
      "grad_norm": 0.915955126285553,
      "learning_rate": 0.00027950104195904483,
      "loss": 4.1005,
      "step": 82480
    },
    {
      "epoch": 0.17185416666666667,
      "grad_norm": 0.75468909740448,
      "learning_rate": 0.00027949606683399825,
      "loss": 3.8659,
      "step": 82490
    },
    {
      "epoch": 0.171875,
      "grad_norm": 0.793210506439209,
      "learning_rate": 0.00027949109114958,
      "loss": 3.8902,
      "step": 82500
    },
    {
      "epoch": 0.17189583333333333,
      "grad_norm": 0.8105276226997375,
      "learning_rate": 0.0002794861149058114,
      "loss": 4.0892,
      "step": 82510
    },
    {
      "epoch": 0.17191666666666666,
      "grad_norm": 0.8544229865074158,
      "learning_rate": 0.0002794811381027141,
      "loss": 3.9561,
      "step": 82520
    },
    {
      "epoch": 0.1719375,
      "grad_norm": 0.747715413570404,
      "learning_rate": 0.0002794761607403095,
      "loss": 3.7651,
      "step": 82530
    },
    {
      "epoch": 0.17195833333333332,
      "grad_norm": 0.8120355606079102,
      "learning_rate": 0.0002794711828186192,
      "loss": 4.0433,
      "step": 82540
    },
    {
      "epoch": 0.17197916666666666,
      "grad_norm": 0.7175119519233704,
      "learning_rate": 0.00027946620433766454,
      "loss": 4.1538,
      "step": 82550
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.8877245783805847,
      "learning_rate": 0.00027946122529746715,
      "loss": 3.8631,
      "step": 82560
    },
    {
      "epoch": 0.17202083333333335,
      "grad_norm": 0.7743420004844666,
      "learning_rate": 0.0002794562456980486,
      "loss": 3.9706,
      "step": 82570
    },
    {
      "epoch": 0.17204166666666668,
      "grad_norm": 0.835727870464325,
      "learning_rate": 0.0002794512655394302,
      "loss": 3.7865,
      "step": 82580
    },
    {
      "epoch": 0.1720625,
      "grad_norm": 0.7515754699707031,
      "learning_rate": 0.0002794462848216336,
      "loss": 3.8611,
      "step": 82590
    },
    {
      "epoch": 0.17208333333333334,
      "grad_norm": 0.6909577250480652,
      "learning_rate": 0.0002794413035446803,
      "loss": 3.8673,
      "step": 82600
    },
    {
      "epoch": 0.17210416666666667,
      "grad_norm": 0.91279536485672,
      "learning_rate": 0.0002794363217085918,
      "loss": 3.8781,
      "step": 82610
    },
    {
      "epoch": 0.172125,
      "grad_norm": 0.7650876045227051,
      "learning_rate": 0.00027943133931338963,
      "loss": 3.9332,
      "step": 82620
    },
    {
      "epoch": 0.17214583333333333,
      "grad_norm": 0.8592379093170166,
      "learning_rate": 0.0002794263563590953,
      "loss": 3.8654,
      "step": 82630
    },
    {
      "epoch": 0.17216666666666666,
      "grad_norm": 0.7955253720283508,
      "learning_rate": 0.0002794213728457304,
      "loss": 4.1012,
      "step": 82640
    },
    {
      "epoch": 0.1721875,
      "grad_norm": 0.7046810388565063,
      "learning_rate": 0.0002794163887733163,
      "loss": 3.9431,
      "step": 82650
    },
    {
      "epoch": 0.17220833333333332,
      "grad_norm": 0.7281967997550964,
      "learning_rate": 0.00027941140414187467,
      "loss": 4.0753,
      "step": 82660
    },
    {
      "epoch": 0.17222916666666666,
      "grad_norm": 0.694696843624115,
      "learning_rate": 0.00027940641895142705,
      "loss": 3.9286,
      "step": 82670
    },
    {
      "epoch": 0.17225,
      "grad_norm": 0.7811099290847778,
      "learning_rate": 0.00027940143320199487,
      "loss": 3.8833,
      "step": 82680
    },
    {
      "epoch": 0.17227083333333335,
      "grad_norm": 0.7503398656845093,
      "learning_rate": 0.00027939644689359966,
      "loss": 3.8663,
      "step": 82690
    },
    {
      "epoch": 0.17229166666666668,
      "grad_norm": 0.706331729888916,
      "learning_rate": 0.00027939146002626316,
      "loss": 3.8451,
      "step": 82700
    },
    {
      "epoch": 0.1723125,
      "grad_norm": 0.7729867100715637,
      "learning_rate": 0.00027938647260000667,
      "loss": 3.8102,
      "step": 82710
    },
    {
      "epoch": 0.17233333333333334,
      "grad_norm": 1.0609384775161743,
      "learning_rate": 0.0002793814846148518,
      "loss": 3.8313,
      "step": 82720
    },
    {
      "epoch": 0.17235416666666667,
      "grad_norm": 0.8088382482528687,
      "learning_rate": 0.00027937649607082023,
      "loss": 3.8395,
      "step": 82730
    },
    {
      "epoch": 0.172375,
      "grad_norm": 0.8328053951263428,
      "learning_rate": 0.00027937150696793334,
      "loss": 4.2109,
      "step": 82740
    },
    {
      "epoch": 0.17239583333333333,
      "grad_norm": 0.8300962448120117,
      "learning_rate": 0.0002793665173062128,
      "loss": 3.9447,
      "step": 82750
    },
    {
      "epoch": 0.17241666666666666,
      "grad_norm": 0.7691106796264648,
      "learning_rate": 0.0002793615270856801,
      "loss": 3.8908,
      "step": 82760
    },
    {
      "epoch": 0.1724375,
      "grad_norm": 0.7667624950408936,
      "learning_rate": 0.0002793565363063568,
      "loss": 4.0487,
      "step": 82770
    },
    {
      "epoch": 0.17245833333333332,
      "grad_norm": 0.9151173830032349,
      "learning_rate": 0.0002793515449682644,
      "loss": 3.9439,
      "step": 82780
    },
    {
      "epoch": 0.17247916666666666,
      "grad_norm": 0.7841822504997253,
      "learning_rate": 0.00027934655307142463,
      "loss": 3.9952,
      "step": 82790
    },
    {
      "epoch": 0.1725,
      "grad_norm": 0.837735116481781,
      "learning_rate": 0.0002793415606158589,
      "loss": 3.9066,
      "step": 82800
    },
    {
      "epoch": 0.17252083333333335,
      "grad_norm": 0.8930957913398743,
      "learning_rate": 0.0002793365676015888,
      "loss": 3.9237,
      "step": 82810
    },
    {
      "epoch": 0.17254166666666668,
      "grad_norm": 0.9070920348167419,
      "learning_rate": 0.00027933157402863594,
      "loss": 3.882,
      "step": 82820
    },
    {
      "epoch": 0.1725625,
      "grad_norm": 0.8518992066383362,
      "learning_rate": 0.0002793265798970219,
      "loss": 3.7784,
      "step": 82830
    },
    {
      "epoch": 0.17258333333333334,
      "grad_norm": 0.7043384313583374,
      "learning_rate": 0.00027932158520676826,
      "loss": 3.9598,
      "step": 82840
    },
    {
      "epoch": 0.17260416666666667,
      "grad_norm": 0.6790194511413574,
      "learning_rate": 0.00027931658995789644,
      "loss": 4.0165,
      "step": 82850
    },
    {
      "epoch": 0.172625,
      "grad_norm": 0.761138916015625,
      "learning_rate": 0.00027931159415042826,
      "loss": 4.0759,
      "step": 82860
    },
    {
      "epoch": 0.17264583333333333,
      "grad_norm": 0.7683952450752258,
      "learning_rate": 0.00027930659778438514,
      "loss": 3.9473,
      "step": 82870
    },
    {
      "epoch": 0.17266666666666666,
      "grad_norm": 0.7209596633911133,
      "learning_rate": 0.00027930160085978866,
      "loss": 4.0018,
      "step": 82880
    },
    {
      "epoch": 0.1726875,
      "grad_norm": 0.7475635409355164,
      "learning_rate": 0.0002792966033766605,
      "loss": 3.8332,
      "step": 82890
    },
    {
      "epoch": 0.17270833333333332,
      "grad_norm": 0.7854220867156982,
      "learning_rate": 0.00027929160533502216,
      "loss": 3.9524,
      "step": 82900
    },
    {
      "epoch": 0.17272916666666666,
      "grad_norm": 0.692072868347168,
      "learning_rate": 0.00027928660673489524,
      "loss": 3.8658,
      "step": 82910
    },
    {
      "epoch": 0.17275,
      "grad_norm": 0.7875910997390747,
      "learning_rate": 0.00027928160757630143,
      "loss": 3.6999,
      "step": 82920
    },
    {
      "epoch": 0.17277083333333335,
      "grad_norm": 0.7357484698295593,
      "learning_rate": 0.0002792766078592622,
      "loss": 3.9245,
      "step": 82930
    },
    {
      "epoch": 0.17279166666666668,
      "grad_norm": 1.0390961170196533,
      "learning_rate": 0.0002792716075837991,
      "loss": 3.9285,
      "step": 82940
    },
    {
      "epoch": 0.1728125,
      "grad_norm": 0.7477717995643616,
      "learning_rate": 0.000279266606749934,
      "loss": 3.8242,
      "step": 82950
    },
    {
      "epoch": 0.17283333333333334,
      "grad_norm": 1.090368390083313,
      "learning_rate": 0.00027926160535768823,
      "loss": 3.9609,
      "step": 82960
    },
    {
      "epoch": 0.17285416666666667,
      "grad_norm": 0.8361069560050964,
      "learning_rate": 0.00027925660340708355,
      "loss": 3.9787,
      "step": 82970
    },
    {
      "epoch": 0.172875,
      "grad_norm": 0.8020942807197571,
      "learning_rate": 0.00027925160089814147,
      "loss": 3.9363,
      "step": 82980
    },
    {
      "epoch": 0.17289583333333333,
      "grad_norm": 0.8105101585388184,
      "learning_rate": 0.00027924659783088357,
      "loss": 3.9739,
      "step": 82990
    },
    {
      "epoch": 0.17291666666666666,
      "grad_norm": 0.882025420665741,
      "learning_rate": 0.0002792415942053316,
      "loss": 3.9687,
      "step": 83000
    },
    {
      "epoch": 0.17291666666666666,
      "eval_loss": 4.272902488708496,
      "eval_runtime": 9.5537,
      "eval_samples_per_second": 1.047,
      "eval_steps_per_second": 0.314,
      "step": 83000
    },
    {
      "epoch": 0.1729375,
      "grad_norm": 0.8533254265785217,
      "learning_rate": 0.0002792365900215071,
      "loss": 3.9896,
      "step": 83010
    },
    {
      "epoch": 0.17295833333333333,
      "grad_norm": 0.7569591999053955,
      "learning_rate": 0.00027923158527943165,
      "loss": 3.8812,
      "step": 83020
    },
    {
      "epoch": 0.17297916666666666,
      "grad_norm": 0.8822370171546936,
      "learning_rate": 0.00027922657997912694,
      "loss": 3.9943,
      "step": 83030
    },
    {
      "epoch": 0.173,
      "grad_norm": 0.8018847703933716,
      "learning_rate": 0.0002792215741206145,
      "loss": 3.8851,
      "step": 83040
    },
    {
      "epoch": 0.17302083333333335,
      "grad_norm": 0.7244037389755249,
      "learning_rate": 0.0002792165677039161,
      "loss": 3.8483,
      "step": 83050
    },
    {
      "epoch": 0.17304166666666668,
      "grad_norm": 0.8080905079841614,
      "learning_rate": 0.0002792115607290532,
      "loss": 3.9106,
      "step": 83060
    },
    {
      "epoch": 0.1730625,
      "grad_norm": 0.7445307374000549,
      "learning_rate": 0.00027920655319604756,
      "loss": 4.0644,
      "step": 83070
    },
    {
      "epoch": 0.17308333333333334,
      "grad_norm": 0.8013049960136414,
      "learning_rate": 0.00027920154510492075,
      "loss": 3.8509,
      "step": 83080
    },
    {
      "epoch": 0.17310416666666667,
      "grad_norm": 0.94022136926651,
      "learning_rate": 0.0002791965364556944,
      "loss": 3.721,
      "step": 83090
    },
    {
      "epoch": 0.173125,
      "grad_norm": 0.7792418599128723,
      "learning_rate": 0.0002791915272483901,
      "loss": 3.9518,
      "step": 83100
    },
    {
      "epoch": 0.17314583333333333,
      "grad_norm": 0.9220630526542664,
      "learning_rate": 0.0002791865174830295,
      "loss": 3.9117,
      "step": 83110
    },
    {
      "epoch": 0.17316666666666666,
      "grad_norm": 0.7423521280288696,
      "learning_rate": 0.0002791815071596344,
      "loss": 3.945,
      "step": 83120
    },
    {
      "epoch": 0.1731875,
      "grad_norm": 0.8135824203491211,
      "learning_rate": 0.0002791764962782263,
      "loss": 3.9741,
      "step": 83130
    },
    {
      "epoch": 0.17320833333333333,
      "grad_norm": 0.7727681994438171,
      "learning_rate": 0.00027917148483882684,
      "loss": 3.9885,
      "step": 83140
    },
    {
      "epoch": 0.17322916666666666,
      "grad_norm": 0.7588158845901489,
      "learning_rate": 0.0002791664728414577,
      "loss": 3.9875,
      "step": 83150
    },
    {
      "epoch": 0.17325,
      "grad_norm": 0.7090577483177185,
      "learning_rate": 0.0002791614602861405,
      "loss": 3.8236,
      "step": 83160
    },
    {
      "epoch": 0.17327083333333335,
      "grad_norm": 0.8372524380683899,
      "learning_rate": 0.00027915644717289693,
      "loss": 4.0665,
      "step": 83170
    },
    {
      "epoch": 0.17329166666666668,
      "grad_norm": 0.8240408301353455,
      "learning_rate": 0.00027915143350174866,
      "loss": 4.1229,
      "step": 83180
    },
    {
      "epoch": 0.1733125,
      "grad_norm": 0.9586848020553589,
      "learning_rate": 0.0002791464192727173,
      "loss": 3.8209,
      "step": 83190
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 0.7382382750511169,
      "learning_rate": 0.00027914140448582456,
      "loss": 3.7402,
      "step": 83200
    },
    {
      "epoch": 0.17335416666666667,
      "grad_norm": 0.7101136445999146,
      "learning_rate": 0.00027913638914109205,
      "loss": 3.8666,
      "step": 83210
    },
    {
      "epoch": 0.173375,
      "grad_norm": 1.1487118005752563,
      "learning_rate": 0.0002791313732385414,
      "loss": 3.8669,
      "step": 83220
    },
    {
      "epoch": 0.17339583333333333,
      "grad_norm": 0.8260146975517273,
      "learning_rate": 0.0002791263567781944,
      "loss": 3.9754,
      "step": 83230
    },
    {
      "epoch": 0.17341666666666666,
      "grad_norm": 0.8953239917755127,
      "learning_rate": 0.00027912133976007263,
      "loss": 3.7477,
      "step": 83240
    },
    {
      "epoch": 0.1734375,
      "grad_norm": 0.8289538621902466,
      "learning_rate": 0.00027911632218419777,
      "loss": 3.9531,
      "step": 83250
    },
    {
      "epoch": 0.17345833333333333,
      "grad_norm": 0.7979103326797485,
      "learning_rate": 0.0002791113040505915,
      "loss": 3.765,
      "step": 83260
    },
    {
      "epoch": 0.17347916666666666,
      "grad_norm": 0.717477023601532,
      "learning_rate": 0.00027910628535927554,
      "loss": 4.0737,
      "step": 83270
    },
    {
      "epoch": 0.1735,
      "grad_norm": 0.9137436747550964,
      "learning_rate": 0.0002791012661102715,
      "loss": 3.937,
      "step": 83280
    },
    {
      "epoch": 0.17352083333333335,
      "grad_norm": 0.7149949669837952,
      "learning_rate": 0.0002790962463036011,
      "loss": 3.7489,
      "step": 83290
    },
    {
      "epoch": 0.17354166666666668,
      "grad_norm": 0.8130715489387512,
      "learning_rate": 0.000279091225939286,
      "loss": 4.0589,
      "step": 83300
    },
    {
      "epoch": 0.1735625,
      "grad_norm": 0.7162622213363647,
      "learning_rate": 0.00027908620501734794,
      "loss": 3.8716,
      "step": 83310
    },
    {
      "epoch": 0.17358333333333334,
      "grad_norm": 0.7668971419334412,
      "learning_rate": 0.0002790811835378086,
      "loss": 3.7252,
      "step": 83320
    },
    {
      "epoch": 0.17360416666666667,
      "grad_norm": 0.8151586651802063,
      "learning_rate": 0.00027907616150068957,
      "loss": 3.9827,
      "step": 83330
    },
    {
      "epoch": 0.173625,
      "grad_norm": 0.7293826341629028,
      "learning_rate": 0.0002790711389060126,
      "loss": 3.8151,
      "step": 83340
    },
    {
      "epoch": 0.17364583333333333,
      "grad_norm": 0.7464020252227783,
      "learning_rate": 0.00027906611575379946,
      "loss": 3.9739,
      "step": 83350
    },
    {
      "epoch": 0.17366666666666666,
      "grad_norm": 0.843887209892273,
      "learning_rate": 0.00027906109204407174,
      "loss": 3.9953,
      "step": 83360
    },
    {
      "epoch": 0.1736875,
      "grad_norm": 0.7944560050964355,
      "learning_rate": 0.0002790560677768512,
      "loss": 3.9836,
      "step": 83370
    },
    {
      "epoch": 0.17370833333333333,
      "grad_norm": 0.8276804089546204,
      "learning_rate": 0.00027905104295215957,
      "loss": 4.032,
      "step": 83380
    },
    {
      "epoch": 0.17372916666666666,
      "grad_norm": 0.7507016658782959,
      "learning_rate": 0.0002790460175700185,
      "loss": 3.8706,
      "step": 83390
    },
    {
      "epoch": 0.17375,
      "grad_norm": 0.8533852100372314,
      "learning_rate": 0.00027904099163044967,
      "loss": 3.9115,
      "step": 83400
    },
    {
      "epoch": 0.17377083333333335,
      "grad_norm": 0.7546963691711426,
      "learning_rate": 0.00027903596513347484,
      "loss": 3.7678,
      "step": 83410
    },
    {
      "epoch": 0.17379166666666668,
      "grad_norm": 0.7139222621917725,
      "learning_rate": 0.0002790309380791158,
      "loss": 3.7841,
      "step": 83420
    },
    {
      "epoch": 0.1738125,
      "grad_norm": 0.9563751816749573,
      "learning_rate": 0.0002790259104673941,
      "loss": 3.9172,
      "step": 83430
    },
    {
      "epoch": 0.17383333333333334,
      "grad_norm": 0.7217628359794617,
      "learning_rate": 0.00027902088229833156,
      "loss": 3.8092,
      "step": 83440
    },
    {
      "epoch": 0.17385416666666667,
      "grad_norm": 0.7462176084518433,
      "learning_rate": 0.00027901585357194985,
      "loss": 4.0672,
      "step": 83450
    },
    {
      "epoch": 0.173875,
      "grad_norm": 0.7656264305114746,
      "learning_rate": 0.0002790108242882708,
      "loss": 3.9212,
      "step": 83460
    },
    {
      "epoch": 0.17389583333333333,
      "grad_norm": 0.8661513328552246,
      "learning_rate": 0.000279005794447316,
      "loss": 3.805,
      "step": 83470
    },
    {
      "epoch": 0.17391666666666666,
      "grad_norm": 1.272226095199585,
      "learning_rate": 0.0002790007640491072,
      "loss": 3.8231,
      "step": 83480
    },
    {
      "epoch": 0.1739375,
      "grad_norm": 0.743241012096405,
      "learning_rate": 0.0002789957330936662,
      "loss": 3.825,
      "step": 83490
    },
    {
      "epoch": 0.17395833333333333,
      "grad_norm": 0.7819918394088745,
      "learning_rate": 0.0002789907015810147,
      "loss": 3.9584,
      "step": 83500
    },
    {
      "epoch": 0.17397916666666666,
      "grad_norm": 0.7459301352500916,
      "learning_rate": 0.0002789856695111744,
      "loss": 3.9387,
      "step": 83510
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.8506456613540649,
      "learning_rate": 0.0002789806368841671,
      "loss": 4.1381,
      "step": 83520
    },
    {
      "epoch": 0.17402083333333335,
      "grad_norm": 0.7319548726081848,
      "learning_rate": 0.0002789756037000145,
      "loss": 3.8308,
      "step": 83530
    },
    {
      "epoch": 0.17404166666666668,
      "grad_norm": 0.7397971153259277,
      "learning_rate": 0.0002789705699587384,
      "loss": 3.761,
      "step": 83540
    },
    {
      "epoch": 0.1740625,
      "grad_norm": 0.9753512144088745,
      "learning_rate": 0.00027896553566036036,
      "loss": 3.9403,
      "step": 83550
    },
    {
      "epoch": 0.17408333333333334,
      "grad_norm": 1.173198938369751,
      "learning_rate": 0.0002789605008049023,
      "loss": 3.9649,
      "step": 83560
    },
    {
      "epoch": 0.17410416666666667,
      "grad_norm": 0.7332453727722168,
      "learning_rate": 0.000278955465392386,
      "loss": 4.0967,
      "step": 83570
    },
    {
      "epoch": 0.174125,
      "grad_norm": 0.7541020512580872,
      "learning_rate": 0.00027895042942283304,
      "loss": 3.6973,
      "step": 83580
    },
    {
      "epoch": 0.17414583333333333,
      "grad_norm": 0.8193091154098511,
      "learning_rate": 0.0002789453928962653,
      "loss": 3.8671,
      "step": 83590
    },
    {
      "epoch": 0.17416666666666666,
      "grad_norm": 0.8626209497451782,
      "learning_rate": 0.0002789403558127045,
      "loss": 3.8905,
      "step": 83600
    },
    {
      "epoch": 0.1741875,
      "grad_norm": 0.7703706622123718,
      "learning_rate": 0.00027893531817217243,
      "loss": 3.9341,
      "step": 83610
    },
    {
      "epoch": 0.17420833333333333,
      "grad_norm": 0.7932949662208557,
      "learning_rate": 0.0002789302799746907,
      "loss": 3.895,
      "step": 83620
    },
    {
      "epoch": 0.17422916666666666,
      "grad_norm": 0.7442330718040466,
      "learning_rate": 0.00027892524122028134,
      "loss": 3.8809,
      "step": 83630
    },
    {
      "epoch": 0.17425,
      "grad_norm": 0.7691386938095093,
      "learning_rate": 0.00027892020190896594,
      "loss": 3.8624,
      "step": 83640
    },
    {
      "epoch": 0.17427083333333335,
      "grad_norm": 0.7295940518379211,
      "learning_rate": 0.00027891516204076624,
      "loss": 3.7934,
      "step": 83650
    },
    {
      "epoch": 0.17429166666666668,
      "grad_norm": 0.7997854351997375,
      "learning_rate": 0.0002789101216157041,
      "loss": 4.009,
      "step": 83660
    },
    {
      "epoch": 0.1743125,
      "grad_norm": 0.876325249671936,
      "learning_rate": 0.00027890508063380126,
      "loss": 3.8933,
      "step": 83670
    },
    {
      "epoch": 0.17433333333333334,
      "grad_norm": 0.763355553150177,
      "learning_rate": 0.0002789000390950795,
      "loss": 3.931,
      "step": 83680
    },
    {
      "epoch": 0.17435416666666667,
      "grad_norm": 0.7472951412200928,
      "learning_rate": 0.0002788949969995606,
      "loss": 3.906,
      "step": 83690
    },
    {
      "epoch": 0.174375,
      "grad_norm": 0.806398868560791,
      "learning_rate": 0.0002788899543472663,
      "loss": 3.963,
      "step": 83700
    },
    {
      "epoch": 0.17439583333333333,
      "grad_norm": 0.7695059776306152,
      "learning_rate": 0.00027888491113821844,
      "loss": 3.8885,
      "step": 83710
    },
    {
      "epoch": 0.17441666666666666,
      "grad_norm": 0.7828018665313721,
      "learning_rate": 0.00027887986737243884,
      "loss": 3.9112,
      "step": 83720
    },
    {
      "epoch": 0.1744375,
      "grad_norm": 0.7775977253913879,
      "learning_rate": 0.00027887482304994913,
      "loss": 3.8477,
      "step": 83730
    },
    {
      "epoch": 0.17445833333333333,
      "grad_norm": 0.7511841058731079,
      "learning_rate": 0.00027886977817077126,
      "loss": 3.8066,
      "step": 83740
    },
    {
      "epoch": 0.17447916666666666,
      "grad_norm": 0.7984781861305237,
      "learning_rate": 0.0002788647327349269,
      "loss": 3.7472,
      "step": 83750
    },
    {
      "epoch": 0.1745,
      "grad_norm": 0.8926426768302917,
      "learning_rate": 0.00027885968674243794,
      "loss": 3.9356,
      "step": 83760
    },
    {
      "epoch": 0.17452083333333332,
      "grad_norm": 0.8819180130958557,
      "learning_rate": 0.0002788546401933262,
      "loss": 4.0745,
      "step": 83770
    },
    {
      "epoch": 0.17454166666666668,
      "grad_norm": 0.9382777214050293,
      "learning_rate": 0.0002788495930876133,
      "loss": 3.9779,
      "step": 83780
    },
    {
      "epoch": 0.1745625,
      "grad_norm": 0.8852372169494629,
      "learning_rate": 0.0002788445454253212,
      "loss": 3.9087,
      "step": 83790
    },
    {
      "epoch": 0.17458333333333334,
      "grad_norm": 0.7182701230049133,
      "learning_rate": 0.0002788394972064717,
      "loss": 3.9228,
      "step": 83800
    },
    {
      "epoch": 0.17460416666666667,
      "grad_norm": 0.7979435920715332,
      "learning_rate": 0.00027883444843108653,
      "loss": 3.8826,
      "step": 83810
    },
    {
      "epoch": 0.174625,
      "grad_norm": 0.7061285376548767,
      "learning_rate": 0.0002788293990991876,
      "loss": 4.1161,
      "step": 83820
    },
    {
      "epoch": 0.17464583333333333,
      "grad_norm": 0.7648921012878418,
      "learning_rate": 0.0002788243492107966,
      "loss": 3.8746,
      "step": 83830
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 0.754672110080719,
      "learning_rate": 0.0002788192987659354,
      "loss": 3.9068,
      "step": 83840
    },
    {
      "epoch": 0.1746875,
      "grad_norm": 0.8157461881637573,
      "learning_rate": 0.0002788142477646259,
      "loss": 3.9034,
      "step": 83850
    },
    {
      "epoch": 0.17470833333333333,
      "grad_norm": 0.6922156810760498,
      "learning_rate": 0.00027880919620688974,
      "loss": 3.8681,
      "step": 83860
    },
    {
      "epoch": 0.17472916666666666,
      "grad_norm": 0.8411691188812256,
      "learning_rate": 0.00027880414409274886,
      "loss": 3.9617,
      "step": 83870
    },
    {
      "epoch": 0.17475,
      "grad_norm": 0.7250730991363525,
      "learning_rate": 0.0002787990914222251,
      "loss": 3.8205,
      "step": 83880
    },
    {
      "epoch": 0.17477083333333332,
      "grad_norm": 0.7176262140274048,
      "learning_rate": 0.00027879403819534024,
      "loss": 3.7384,
      "step": 83890
    },
    {
      "epoch": 0.17479166666666668,
      "grad_norm": 0.6656303405761719,
      "learning_rate": 0.00027878898441211603,
      "loss": 3.8525,
      "step": 83900
    },
    {
      "epoch": 0.1748125,
      "grad_norm": 0.741327702999115,
      "learning_rate": 0.0002787839300725745,
      "loss": 3.8273,
      "step": 83910
    },
    {
      "epoch": 0.17483333333333334,
      "grad_norm": 0.7376288175582886,
      "learning_rate": 0.0002787788751767373,
      "loss": 3.9463,
      "step": 83920
    },
    {
      "epoch": 0.17485416666666667,
      "grad_norm": 0.8020192384719849,
      "learning_rate": 0.0002787738197246264,
      "loss": 4.0615,
      "step": 83930
    },
    {
      "epoch": 0.174875,
      "grad_norm": 0.9142674803733826,
      "learning_rate": 0.00027876876371626355,
      "loss": 3.9606,
      "step": 83940
    },
    {
      "epoch": 0.17489583333333333,
      "grad_norm": 0.7641014456748962,
      "learning_rate": 0.00027876370715167057,
      "loss": 3.8937,
      "step": 83950
    },
    {
      "epoch": 0.17491666666666666,
      "grad_norm": 0.71683669090271,
      "learning_rate": 0.00027875865003086934,
      "loss": 3.9109,
      "step": 83960
    },
    {
      "epoch": 0.1749375,
      "grad_norm": 0.8592399954795837,
      "learning_rate": 0.00027875359235388173,
      "loss": 3.8684,
      "step": 83970
    },
    {
      "epoch": 0.17495833333333333,
      "grad_norm": 0.7832514047622681,
      "learning_rate": 0.0002787485341207296,
      "loss": 3.7666,
      "step": 83980
    },
    {
      "epoch": 0.17497916666666666,
      "grad_norm": 0.7657424807548523,
      "learning_rate": 0.0002787434753314347,
      "loss": 3.9255,
      "step": 83990
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.6919958591461182,
      "learning_rate": 0.000278738415986019,
      "loss": 3.8568,
      "step": 84000
    },
    {
      "epoch": 0.175,
      "eval_loss": 4.264814853668213,
      "eval_runtime": 8.8907,
      "eval_samples_per_second": 1.125,
      "eval_steps_per_second": 0.337,
      "step": 84000
    },
    {
      "epoch": 0.17502083333333332,
      "grad_norm": 0.8901668787002563,
      "learning_rate": 0.0002787333560845043,
      "loss": 3.9178,
      "step": 84010
    },
    {
      "epoch": 0.17504166666666668,
      "grad_norm": 0.7753601670265198,
      "learning_rate": 0.00027872829562691244,
      "loss": 3.8885,
      "step": 84020
    },
    {
      "epoch": 0.1750625,
      "grad_norm": 0.7284010052680969,
      "learning_rate": 0.00027872323461326527,
      "loss": 3.9211,
      "step": 84030
    },
    {
      "epoch": 0.17508333333333334,
      "grad_norm": 0.7247377038002014,
      "learning_rate": 0.0002787181730435847,
      "loss": 3.9538,
      "step": 84040
    },
    {
      "epoch": 0.17510416666666667,
      "grad_norm": 1.0306096076965332,
      "learning_rate": 0.0002787131109178926,
      "loss": 3.8296,
      "step": 84050
    },
    {
      "epoch": 0.175125,
      "grad_norm": 0.8511313199996948,
      "learning_rate": 0.0002787080482362108,
      "loss": 3.827,
      "step": 84060
    },
    {
      "epoch": 0.17514583333333333,
      "grad_norm": 0.6872686743736267,
      "learning_rate": 0.0002787029849985611,
      "loss": 3.823,
      "step": 84070
    },
    {
      "epoch": 0.17516666666666666,
      "grad_norm": 0.8001198172569275,
      "learning_rate": 0.00027869792120496556,
      "loss": 3.9955,
      "step": 84080
    },
    {
      "epoch": 0.1751875,
      "grad_norm": 0.8212463855743408,
      "learning_rate": 0.00027869285685544584,
      "loss": 3.9432,
      "step": 84090
    },
    {
      "epoch": 0.17520833333333333,
      "grad_norm": 0.7340368032455444,
      "learning_rate": 0.000278687791950024,
      "loss": 3.97,
      "step": 84100
    },
    {
      "epoch": 0.17522916666666666,
      "grad_norm": 0.807033121585846,
      "learning_rate": 0.00027868272648872187,
      "loss": 3.8939,
      "step": 84110
    },
    {
      "epoch": 0.17525,
      "grad_norm": 0.9282466769218445,
      "learning_rate": 0.0002786776604715612,
      "loss": 3.984,
      "step": 84120
    },
    {
      "epoch": 0.17527083333333332,
      "grad_norm": 0.776353657245636,
      "learning_rate": 0.000278672593898564,
      "loss": 3.9141,
      "step": 84130
    },
    {
      "epoch": 0.17529166666666668,
      "grad_norm": 0.7287374138832092,
      "learning_rate": 0.00027866752676975213,
      "loss": 3.8703,
      "step": 84140
    },
    {
      "epoch": 0.1753125,
      "grad_norm": 0.7384030818939209,
      "learning_rate": 0.0002786624590851475,
      "loss": 3.8893,
      "step": 84150
    },
    {
      "epoch": 0.17533333333333334,
      "grad_norm": 0.8223645687103271,
      "learning_rate": 0.00027865739084477194,
      "loss": 3.6945,
      "step": 84160
    },
    {
      "epoch": 0.17535416666666667,
      "grad_norm": 0.8372085690498352,
      "learning_rate": 0.0002786523220486474,
      "loss": 3.8871,
      "step": 84170
    },
    {
      "epoch": 0.175375,
      "grad_norm": 0.8531904220581055,
      "learning_rate": 0.00027864725269679576,
      "loss": 3.9975,
      "step": 84180
    },
    {
      "epoch": 0.17539583333333333,
      "grad_norm": 0.7307296395301819,
      "learning_rate": 0.0002786421827892389,
      "loss": 3.9482,
      "step": 84190
    },
    {
      "epoch": 0.17541666666666667,
      "grad_norm": 0.7485204339027405,
      "learning_rate": 0.0002786371123259987,
      "loss": 3.8679,
      "step": 84200
    },
    {
      "epoch": 0.1754375,
      "grad_norm": 0.7368801236152649,
      "learning_rate": 0.00027863204130709713,
      "loss": 3.8844,
      "step": 84210
    },
    {
      "epoch": 0.17545833333333333,
      "grad_norm": 0.7550124526023865,
      "learning_rate": 0.00027862696973255605,
      "loss": 4.0683,
      "step": 84220
    },
    {
      "epoch": 0.17547916666666666,
      "grad_norm": 0.9082387685775757,
      "learning_rate": 0.00027862189760239736,
      "loss": 4.0058,
      "step": 84230
    },
    {
      "epoch": 0.1755,
      "grad_norm": 0.8255568742752075,
      "learning_rate": 0.000278616824916643,
      "loss": 4.0584,
      "step": 84240
    },
    {
      "epoch": 0.17552083333333332,
      "grad_norm": 0.7568209171295166,
      "learning_rate": 0.0002786117516753149,
      "loss": 3.8265,
      "step": 84250
    },
    {
      "epoch": 0.17554166666666668,
      "grad_norm": 0.70294588804245,
      "learning_rate": 0.0002786066778784349,
      "loss": 3.938,
      "step": 84260
    },
    {
      "epoch": 0.1755625,
      "grad_norm": 0.7837700843811035,
      "learning_rate": 0.00027860160352602496,
      "loss": 3.8897,
      "step": 84270
    },
    {
      "epoch": 0.17558333333333334,
      "grad_norm": 0.768639087677002,
      "learning_rate": 0.00027859652861810696,
      "loss": 3.9101,
      "step": 84280
    },
    {
      "epoch": 0.17560416666666667,
      "grad_norm": 0.706296443939209,
      "learning_rate": 0.0002785914531547029,
      "loss": 4.0257,
      "step": 84290
    },
    {
      "epoch": 0.175625,
      "grad_norm": 0.6341419816017151,
      "learning_rate": 0.00027858637713583465,
      "loss": 3.9011,
      "step": 84300
    },
    {
      "epoch": 0.17564583333333333,
      "grad_norm": 0.7969459295272827,
      "learning_rate": 0.0002785813005615242,
      "loss": 3.9285,
      "step": 84310
    },
    {
      "epoch": 0.17566666666666667,
      "grad_norm": 0.7704258561134338,
      "learning_rate": 0.00027857622343179335,
      "loss": 3.9489,
      "step": 84320
    },
    {
      "epoch": 0.1756875,
      "grad_norm": 0.7691376209259033,
      "learning_rate": 0.00027857114574666417,
      "loss": 3.9469,
      "step": 84330
    },
    {
      "epoch": 0.17570833333333333,
      "grad_norm": 0.8196581602096558,
      "learning_rate": 0.0002785660675061585,
      "loss": 4.0143,
      "step": 84340
    },
    {
      "epoch": 0.17572916666666666,
      "grad_norm": 0.7274945974349976,
      "learning_rate": 0.00027856098871029833,
      "loss": 3.8897,
      "step": 84350
    },
    {
      "epoch": 0.17575,
      "grad_norm": 0.8923137187957764,
      "learning_rate": 0.00027855590935910553,
      "loss": 4.0407,
      "step": 84360
    },
    {
      "epoch": 0.17577083333333332,
      "grad_norm": 0.8398615121841431,
      "learning_rate": 0.00027855082945260216,
      "loss": 3.7819,
      "step": 84370
    },
    {
      "epoch": 0.17579166666666668,
      "grad_norm": 0.740421712398529,
      "learning_rate": 0.00027854574899081,
      "loss": 3.8742,
      "step": 84380
    },
    {
      "epoch": 0.1758125,
      "grad_norm": 0.8344475030899048,
      "learning_rate": 0.00027854066797375115,
      "loss": 4.0188,
      "step": 84390
    },
    {
      "epoch": 0.17583333333333334,
      "grad_norm": 0.6929113268852234,
      "learning_rate": 0.0002785355864014475,
      "loss": 3.8484,
      "step": 84400
    },
    {
      "epoch": 0.17585416666666667,
      "grad_norm": 0.7731239199638367,
      "learning_rate": 0.00027853050427392094,
      "loss": 3.903,
      "step": 84410
    },
    {
      "epoch": 0.175875,
      "grad_norm": 0.7715256214141846,
      "learning_rate": 0.00027852542159119355,
      "loss": 3.7636,
      "step": 84420
    },
    {
      "epoch": 0.17589583333333333,
      "grad_norm": 0.7231314778327942,
      "learning_rate": 0.00027852033835328716,
      "loss": 3.8185,
      "step": 84430
    },
    {
      "epoch": 0.17591666666666667,
      "grad_norm": 0.8167307376861572,
      "learning_rate": 0.0002785152545602238,
      "loss": 3.9658,
      "step": 84440
    },
    {
      "epoch": 0.1759375,
      "grad_norm": 0.8277047872543335,
      "learning_rate": 0.0002785101702120254,
      "loss": 3.8558,
      "step": 84450
    },
    {
      "epoch": 0.17595833333333333,
      "grad_norm": 0.8618035912513733,
      "learning_rate": 0.00027850508530871394,
      "loss": 3.8981,
      "step": 84460
    },
    {
      "epoch": 0.17597916666666666,
      "grad_norm": 0.717369556427002,
      "learning_rate": 0.00027849999985031135,
      "loss": 3.8997,
      "step": 84470
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.7896784543991089,
      "learning_rate": 0.00027849491383683965,
      "loss": 3.9028,
      "step": 84480
    },
    {
      "epoch": 0.17602083333333332,
      "grad_norm": 0.8415800929069519,
      "learning_rate": 0.0002784898272683208,
      "loss": 3.9736,
      "step": 84490
    },
    {
      "epoch": 0.17604166666666668,
      "grad_norm": 0.8310298919677734,
      "learning_rate": 0.00027848474014477675,
      "loss": 3.7949,
      "step": 84500
    },
    {
      "epoch": 0.1760625,
      "grad_norm": 0.9235999584197998,
      "learning_rate": 0.00027847965246622947,
      "loss": 3.8432,
      "step": 84510
    },
    {
      "epoch": 0.17608333333333334,
      "grad_norm": 0.8253383040428162,
      "learning_rate": 0.00027847456423270094,
      "loss": 3.7867,
      "step": 84520
    },
    {
      "epoch": 0.17610416666666667,
      "grad_norm": 0.7661988735198975,
      "learning_rate": 0.0002784694754442131,
      "loss": 3.6832,
      "step": 84530
    },
    {
      "epoch": 0.176125,
      "grad_norm": 0.7327288389205933,
      "learning_rate": 0.0002784643861007881,
      "loss": 4.0185,
      "step": 84540
    },
    {
      "epoch": 0.17614583333333333,
      "grad_norm": 0.8049317598342896,
      "learning_rate": 0.0002784592962024477,
      "loss": 3.9106,
      "step": 84550
    },
    {
      "epoch": 0.17616666666666667,
      "grad_norm": 0.7769505977630615,
      "learning_rate": 0.000278454205749214,
      "loss": 3.8083,
      "step": 84560
    },
    {
      "epoch": 0.1761875,
      "grad_norm": 0.848537027835846,
      "learning_rate": 0.00027844911474110903,
      "loss": 3.8794,
      "step": 84570
    },
    {
      "epoch": 0.17620833333333333,
      "grad_norm": 0.9577915072441101,
      "learning_rate": 0.0002784440231781547,
      "loss": 3.7767,
      "step": 84580
    },
    {
      "epoch": 0.17622916666666666,
      "grad_norm": 0.8277558088302612,
      "learning_rate": 0.00027843893106037305,
      "loss": 3.8523,
      "step": 84590
    },
    {
      "epoch": 0.17625,
      "grad_norm": 0.9064648151397705,
      "learning_rate": 0.00027843383838778603,
      "loss": 3.8125,
      "step": 84600
    },
    {
      "epoch": 0.17627083333333332,
      "grad_norm": 0.7582958340644836,
      "learning_rate": 0.00027842874516041563,
      "loss": 4.0807,
      "step": 84610
    },
    {
      "epoch": 0.17629166666666668,
      "grad_norm": 0.6202499866485596,
      "learning_rate": 0.00027842365137828397,
      "loss": 3.9925,
      "step": 84620
    },
    {
      "epoch": 0.1763125,
      "grad_norm": 0.8294300436973572,
      "learning_rate": 0.0002784185570414129,
      "loss": 4.0316,
      "step": 84630
    },
    {
      "epoch": 0.17633333333333334,
      "grad_norm": 0.7661452293395996,
      "learning_rate": 0.0002784134621498245,
      "loss": 3.928,
      "step": 84640
    },
    {
      "epoch": 0.17635416666666667,
      "grad_norm": 0.9225952625274658,
      "learning_rate": 0.0002784083667035408,
      "loss": 3.7466,
      "step": 84650
    },
    {
      "epoch": 0.176375,
      "grad_norm": 0.8584547638893127,
      "learning_rate": 0.0002784032707025838,
      "loss": 4.0949,
      "step": 84660
    },
    {
      "epoch": 0.17639583333333334,
      "grad_norm": 0.6964746713638306,
      "learning_rate": 0.0002783981741469755,
      "loss": 4.0062,
      "step": 84670
    },
    {
      "epoch": 0.17641666666666667,
      "grad_norm": 0.8194291591644287,
      "learning_rate": 0.00027839307703673787,
      "loss": 3.912,
      "step": 84680
    },
    {
      "epoch": 0.1764375,
      "grad_norm": 0.6447473168373108,
      "learning_rate": 0.000278387979371893,
      "loss": 3.7769,
      "step": 84690
    },
    {
      "epoch": 0.17645833333333333,
      "grad_norm": 0.8188226819038391,
      "learning_rate": 0.0002783828811524628,
      "loss": 3.8529,
      "step": 84700
    },
    {
      "epoch": 0.17647916666666666,
      "grad_norm": 0.7701348662376404,
      "learning_rate": 0.0002783777823784695,
      "loss": 3.7937,
      "step": 84710
    },
    {
      "epoch": 0.1765,
      "grad_norm": 0.7389251589775085,
      "learning_rate": 0.0002783726830499349,
      "loss": 3.8626,
      "step": 84720
    },
    {
      "epoch": 0.17652083333333332,
      "grad_norm": 0.7238682508468628,
      "learning_rate": 0.00027836758316688117,
      "loss": 4.1363,
      "step": 84730
    },
    {
      "epoch": 0.17654166666666668,
      "grad_norm": 0.7437998652458191,
      "learning_rate": 0.0002783624827293303,
      "loss": 3.8801,
      "step": 84740
    },
    {
      "epoch": 0.1765625,
      "grad_norm": 0.7351630926132202,
      "learning_rate": 0.0002783573817373042,
      "loss": 3.8832,
      "step": 84750
    },
    {
      "epoch": 0.17658333333333334,
      "grad_norm": 0.7549439072608948,
      "learning_rate": 0.0002783522801908252,
      "loss": 3.9316,
      "step": 84760
    },
    {
      "epoch": 0.17660416666666667,
      "grad_norm": 0.8210441470146179,
      "learning_rate": 0.000278347178089915,
      "loss": 3.9767,
      "step": 84770
    },
    {
      "epoch": 0.176625,
      "grad_norm": 0.7545561790466309,
      "learning_rate": 0.0002783420754345959,
      "loss": 3.9057,
      "step": 84780
    },
    {
      "epoch": 0.17664583333333334,
      "grad_norm": 0.7018294930458069,
      "learning_rate": 0.0002783369722248898,
      "loss": 3.8982,
      "step": 84790
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 0.7414410710334778,
      "learning_rate": 0.00027833186846081876,
      "loss": 3.8117,
      "step": 84800
    },
    {
      "epoch": 0.1766875,
      "grad_norm": 0.8761700391769409,
      "learning_rate": 0.00027832676414240486,
      "loss": 3.7411,
      "step": 84810
    },
    {
      "epoch": 0.17670833333333333,
      "grad_norm": 0.6783495545387268,
      "learning_rate": 0.0002783216592696701,
      "loss": 3.9546,
      "step": 84820
    },
    {
      "epoch": 0.17672916666666666,
      "grad_norm": 0.7869935631752014,
      "learning_rate": 0.0002783165538426366,
      "loss": 3.9386,
      "step": 84830
    },
    {
      "epoch": 0.17675,
      "grad_norm": 0.7963854670524597,
      "learning_rate": 0.0002783114478613264,
      "loss": 3.9319,
      "step": 84840
    },
    {
      "epoch": 0.17677083333333332,
      "grad_norm": 0.8568111062049866,
      "learning_rate": 0.0002783063413257615,
      "loss": 3.9164,
      "step": 84850
    },
    {
      "epoch": 0.17679166666666668,
      "grad_norm": 0.8278138041496277,
      "learning_rate": 0.000278301234235964,
      "loss": 3.9649,
      "step": 84860
    },
    {
      "epoch": 0.1768125,
      "grad_norm": 0.8124381899833679,
      "learning_rate": 0.0002782961265919559,
      "loss": 3.9824,
      "step": 84870
    },
    {
      "epoch": 0.17683333333333334,
      "grad_norm": 0.8014158010482788,
      "learning_rate": 0.0002782910183937594,
      "loss": 3.9643,
      "step": 84880
    },
    {
      "epoch": 0.17685416666666667,
      "grad_norm": 0.779434323310852,
      "learning_rate": 0.00027828590964139646,
      "loss": 3.9617,
      "step": 84890
    },
    {
      "epoch": 0.176875,
      "grad_norm": 0.8767693638801575,
      "learning_rate": 0.0002782808003348892,
      "loss": 3.8822,
      "step": 84900
    },
    {
      "epoch": 0.17689583333333334,
      "grad_norm": 0.7560848593711853,
      "learning_rate": 0.0002782756904742596,
      "loss": 3.7424,
      "step": 84910
    },
    {
      "epoch": 0.17691666666666667,
      "grad_norm": 0.825802743434906,
      "learning_rate": 0.0002782705800595298,
      "loss": 4.0187,
      "step": 84920
    },
    {
      "epoch": 0.1769375,
      "grad_norm": 1.1611425876617432,
      "learning_rate": 0.00027826546909072187,
      "loss": 3.684,
      "step": 84930
    },
    {
      "epoch": 0.17695833333333333,
      "grad_norm": 0.7577826380729675,
      "learning_rate": 0.0002782603575678579,
      "loss": 3.9734,
      "step": 84940
    },
    {
      "epoch": 0.17697916666666666,
      "grad_norm": 0.7903863787651062,
      "learning_rate": 0.00027825524549095996,
      "loss": 3.7422,
      "step": 84950
    },
    {
      "epoch": 0.177,
      "grad_norm": 0.7231795787811279,
      "learning_rate": 0.0002782501328600501,
      "loss": 3.8684,
      "step": 84960
    },
    {
      "epoch": 0.17702083333333332,
      "grad_norm": 0.7165958881378174,
      "learning_rate": 0.00027824501967515044,
      "loss": 3.8542,
      "step": 84970
    },
    {
      "epoch": 0.17704166666666668,
      "grad_norm": 0.8805063366889954,
      "learning_rate": 0.0002782399059362831,
      "loss": 4.0852,
      "step": 84980
    },
    {
      "epoch": 0.1770625,
      "grad_norm": 0.9535393714904785,
      "learning_rate": 0.0002782347916434701,
      "loss": 3.8245,
      "step": 84990
    },
    {
      "epoch": 0.17708333333333334,
      "grad_norm": 0.6483847498893738,
      "learning_rate": 0.0002782296767967335,
      "loss": 4.0333,
      "step": 85000
    },
    {
      "epoch": 0.17708333333333334,
      "eval_loss": 4.270883083343506,
      "eval_runtime": 10.2903,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.292,
      "step": 85000
    },
    {
      "epoch": 0.17710416666666667,
      "grad_norm": 0.68458491563797,
      "learning_rate": 0.00027822456139609556,
      "loss": 3.7919,
      "step": 85010
    },
    {
      "epoch": 0.177125,
      "grad_norm": 0.7985631227493286,
      "learning_rate": 0.00027821944544157817,
      "loss": 4.0258,
      "step": 85020
    },
    {
      "epoch": 0.17714583333333334,
      "grad_norm": 0.7664515376091003,
      "learning_rate": 0.00027821432893320364,
      "loss": 3.9391,
      "step": 85030
    },
    {
      "epoch": 0.17716666666666667,
      "grad_norm": 0.8336789011955261,
      "learning_rate": 0.00027820921187099386,
      "loss": 3.8307,
      "step": 85040
    },
    {
      "epoch": 0.1771875,
      "grad_norm": 0.8124071359634399,
      "learning_rate": 0.000278204094254971,
      "loss": 3.8803,
      "step": 85050
    },
    {
      "epoch": 0.17720833333333333,
      "grad_norm": 0.8979480862617493,
      "learning_rate": 0.0002781989760851573,
      "loss": 3.8354,
      "step": 85060
    },
    {
      "epoch": 0.17722916666666666,
      "grad_norm": 0.773404598236084,
      "learning_rate": 0.00027819385736157473,
      "loss": 3.882,
      "step": 85070
    },
    {
      "epoch": 0.17725,
      "grad_norm": 0.8584886789321899,
      "learning_rate": 0.00027818873808424543,
      "loss": 3.8124,
      "step": 85080
    },
    {
      "epoch": 0.17727083333333332,
      "grad_norm": 0.7295774817466736,
      "learning_rate": 0.0002781836182531916,
      "loss": 3.7988,
      "step": 85090
    },
    {
      "epoch": 0.17729166666666665,
      "grad_norm": 0.7434903383255005,
      "learning_rate": 0.0002781784978684352,
      "loss": 3.8588,
      "step": 85100
    },
    {
      "epoch": 0.1773125,
      "grad_norm": 0.756166398525238,
      "learning_rate": 0.00027817337692999844,
      "loss": 4.0116,
      "step": 85110
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 0.7727351188659668,
      "learning_rate": 0.0002781682554379034,
      "loss": 3.8945,
      "step": 85120
    },
    {
      "epoch": 0.17735416666666667,
      "grad_norm": 1.001320719718933,
      "learning_rate": 0.00027816313339217225,
      "loss": 3.9001,
      "step": 85130
    },
    {
      "epoch": 0.177375,
      "grad_norm": 0.6802487969398499,
      "learning_rate": 0.0002781580107928271,
      "loss": 4.0778,
      "step": 85140
    },
    {
      "epoch": 0.17739583333333334,
      "grad_norm": 0.8479102849960327,
      "learning_rate": 0.0002781528876398901,
      "loss": 3.7289,
      "step": 85150
    },
    {
      "epoch": 0.17741666666666667,
      "grad_norm": 0.7498804926872253,
      "learning_rate": 0.0002781477639333833,
      "loss": 4.0002,
      "step": 85160
    },
    {
      "epoch": 0.1774375,
      "grad_norm": 0.7579991817474365,
      "learning_rate": 0.0002781426396733289,
      "loss": 3.8885,
      "step": 85170
    },
    {
      "epoch": 0.17745833333333333,
      "grad_norm": 2.7374372482299805,
      "learning_rate": 0.00027813751485974904,
      "loss": 4.0101,
      "step": 85180
    },
    {
      "epoch": 0.17747916666666666,
      "grad_norm": 0.6861532926559448,
      "learning_rate": 0.00027813238949266577,
      "loss": 3.776,
      "step": 85190
    },
    {
      "epoch": 0.1775,
      "grad_norm": 0.7910853028297424,
      "learning_rate": 0.0002781272635721014,
      "loss": 4.1329,
      "step": 85200
    },
    {
      "epoch": 0.17752083333333332,
      "grad_norm": 0.695736825466156,
      "learning_rate": 0.0002781221370980779,
      "loss": 3.7898,
      "step": 85210
    },
    {
      "epoch": 0.17754166666666665,
      "grad_norm": 0.7923392057418823,
      "learning_rate": 0.0002781170100706175,
      "loss": 3.8419,
      "step": 85220
    },
    {
      "epoch": 0.1775625,
      "grad_norm": 0.7961102724075317,
      "learning_rate": 0.0002781118824897423,
      "loss": 3.8805,
      "step": 85230
    },
    {
      "epoch": 0.17758333333333334,
      "grad_norm": 0.7338016629219055,
      "learning_rate": 0.00027810675435547454,
      "loss": 4.1231,
      "step": 85240
    },
    {
      "epoch": 0.17760416666666667,
      "grad_norm": 0.723019003868103,
      "learning_rate": 0.0002781016256678362,
      "loss": 3.6793,
      "step": 85250
    },
    {
      "epoch": 0.177625,
      "grad_norm": 0.737377405166626,
      "learning_rate": 0.00027809649642684963,
      "loss": 4.0939,
      "step": 85260
    },
    {
      "epoch": 0.17764583333333334,
      "grad_norm": 0.7326564788818359,
      "learning_rate": 0.00027809136663253694,
      "loss": 3.811,
      "step": 85270
    },
    {
      "epoch": 0.17766666666666667,
      "grad_norm": 0.8616056442260742,
      "learning_rate": 0.00027808623628492016,
      "loss": 3.9611,
      "step": 85280
    },
    {
      "epoch": 0.1776875,
      "grad_norm": 0.7072295546531677,
      "learning_rate": 0.00027808110538402156,
      "loss": 3.9105,
      "step": 85290
    },
    {
      "epoch": 0.17770833333333333,
      "grad_norm": 0.7990497946739197,
      "learning_rate": 0.0002780759739298633,
      "loss": 3.8518,
      "step": 85300
    },
    {
      "epoch": 0.17772916666666666,
      "grad_norm": 0.8465691208839417,
      "learning_rate": 0.00027807084192246756,
      "loss": 3.8166,
      "step": 85310
    },
    {
      "epoch": 0.17775,
      "grad_norm": 0.8017556667327881,
      "learning_rate": 0.0002780657093618564,
      "loss": 3.8697,
      "step": 85320
    },
    {
      "epoch": 0.17777083333333332,
      "grad_norm": 0.7984086871147156,
      "learning_rate": 0.00027806057624805216,
      "loss": 3.9159,
      "step": 85330
    },
    {
      "epoch": 0.17779166666666665,
      "grad_norm": 0.8751817345619202,
      "learning_rate": 0.0002780554425810768,
      "loss": 4.0004,
      "step": 85340
    },
    {
      "epoch": 0.1778125,
      "grad_norm": 0.7382178902626038,
      "learning_rate": 0.0002780503083609527,
      "loss": 3.8486,
      "step": 85350
    },
    {
      "epoch": 0.17783333333333334,
      "grad_norm": 0.8024728298187256,
      "learning_rate": 0.000278045173587702,
      "loss": 4.0176,
      "step": 85360
    },
    {
      "epoch": 0.17785416666666667,
      "grad_norm": 1.0524216890335083,
      "learning_rate": 0.00027804003826134674,
      "loss": 3.8536,
      "step": 85370
    },
    {
      "epoch": 0.177875,
      "grad_norm": 0.7176036834716797,
      "learning_rate": 0.00027803490238190924,
      "loss": 3.8711,
      "step": 85380
    },
    {
      "epoch": 0.17789583333333334,
      "grad_norm": 0.8119319081306458,
      "learning_rate": 0.0002780297659494116,
      "loss": 3.9395,
      "step": 85390
    },
    {
      "epoch": 0.17791666666666667,
      "grad_norm": 0.9334378242492676,
      "learning_rate": 0.0002780246289638761,
      "loss": 3.7965,
      "step": 85400
    },
    {
      "epoch": 0.1779375,
      "grad_norm": 0.6776244640350342,
      "learning_rate": 0.0002780194914253248,
      "loss": 3.9576,
      "step": 85410
    },
    {
      "epoch": 0.17795833333333333,
      "grad_norm": 0.8493268489837646,
      "learning_rate": 0.0002780143533337801,
      "loss": 3.9624,
      "step": 85420
    },
    {
      "epoch": 0.17797916666666666,
      "grad_norm": 0.725996732711792,
      "learning_rate": 0.00027800921468926394,
      "loss": 3.8757,
      "step": 85430
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.8265067934989929,
      "learning_rate": 0.00027800407549179873,
      "loss": 3.7489,
      "step": 85440
    },
    {
      "epoch": 0.17802083333333332,
      "grad_norm": 0.6908148527145386,
      "learning_rate": 0.0002779989357414065,
      "loss": 3.9662,
      "step": 85450
    },
    {
      "epoch": 0.17804166666666665,
      "grad_norm": 0.6956504583358765,
      "learning_rate": 0.0002779937954381096,
      "loss": 4.0488,
      "step": 85460
    },
    {
      "epoch": 0.1780625,
      "grad_norm": 0.8716495037078857,
      "learning_rate": 0.00027798865458193017,
      "loss": 3.9096,
      "step": 85470
    },
    {
      "epoch": 0.17808333333333334,
      "grad_norm": 0.8833160996437073,
      "learning_rate": 0.0002779835131728904,
      "loss": 3.8721,
      "step": 85480
    },
    {
      "epoch": 0.17810416666666667,
      "grad_norm": 0.7686583995819092,
      "learning_rate": 0.00027797837121101246,
      "loss": 3.9348,
      "step": 85490
    },
    {
      "epoch": 0.178125,
      "grad_norm": 0.9064064621925354,
      "learning_rate": 0.00027797322869631865,
      "loss": 4.0901,
      "step": 85500
    },
    {
      "epoch": 0.17814583333333334,
      "grad_norm": 0.9460353255271912,
      "learning_rate": 0.0002779680856288312,
      "loss": 4.2058,
      "step": 85510
    },
    {
      "epoch": 0.17816666666666667,
      "grad_norm": 0.764068067073822,
      "learning_rate": 0.0002779629420085722,
      "loss": 4.0236,
      "step": 85520
    },
    {
      "epoch": 0.1781875,
      "grad_norm": 0.8106610178947449,
      "learning_rate": 0.00027795779783556395,
      "loss": 3.8341,
      "step": 85530
    },
    {
      "epoch": 0.17820833333333333,
      "grad_norm": 0.7293939590454102,
      "learning_rate": 0.0002779526531098287,
      "loss": 3.9046,
      "step": 85540
    },
    {
      "epoch": 0.17822916666666666,
      "grad_norm": 0.8225104808807373,
      "learning_rate": 0.0002779475078313886,
      "loss": 3.9554,
      "step": 85550
    },
    {
      "epoch": 0.17825,
      "grad_norm": 0.7941524386405945,
      "learning_rate": 0.00027794236200026596,
      "loss": 4.0257,
      "step": 85560
    },
    {
      "epoch": 0.17827083333333332,
      "grad_norm": 0.7747449278831482,
      "learning_rate": 0.0002779372156164829,
      "loss": 3.9171,
      "step": 85570
    },
    {
      "epoch": 0.17829166666666665,
      "grad_norm": 0.8291200399398804,
      "learning_rate": 0.00027793206868006174,
      "loss": 3.9162,
      "step": 85580
    },
    {
      "epoch": 0.1783125,
      "grad_norm": 0.7966523170471191,
      "learning_rate": 0.00027792692119102473,
      "loss": 3.8511,
      "step": 85590
    },
    {
      "epoch": 0.17833333333333334,
      "grad_norm": 0.7935148477554321,
      "learning_rate": 0.00027792177314939394,
      "loss": 3.7484,
      "step": 85600
    },
    {
      "epoch": 0.17835416666666667,
      "grad_norm": 0.8843932151794434,
      "learning_rate": 0.0002779166245551918,
      "loss": 3.8398,
      "step": 85610
    },
    {
      "epoch": 0.178375,
      "grad_norm": 0.7689972519874573,
      "learning_rate": 0.0002779114754084405,
      "loss": 3.708,
      "step": 85620
    },
    {
      "epoch": 0.17839583333333334,
      "grad_norm": 0.7964766025543213,
      "learning_rate": 0.00027790632570916224,
      "loss": 4.0611,
      "step": 85630
    },
    {
      "epoch": 0.17841666666666667,
      "grad_norm": 1.0746008157730103,
      "learning_rate": 0.00027790117545737925,
      "loss": 3.905,
      "step": 85640
    },
    {
      "epoch": 0.1784375,
      "grad_norm": 1.1286265850067139,
      "learning_rate": 0.0002778960246531138,
      "loss": 3.9659,
      "step": 85650
    },
    {
      "epoch": 0.17845833333333333,
      "grad_norm": 0.6854866743087769,
      "learning_rate": 0.0002778908732963882,
      "loss": 3.9406,
      "step": 85660
    },
    {
      "epoch": 0.17847916666666666,
      "grad_norm": 0.7812469601631165,
      "learning_rate": 0.0002778857213872246,
      "loss": 3.9744,
      "step": 85670
    },
    {
      "epoch": 0.1785,
      "grad_norm": 0.9480813145637512,
      "learning_rate": 0.00027788056892564535,
      "loss": 3.8453,
      "step": 85680
    },
    {
      "epoch": 0.17852083333333332,
      "grad_norm": 0.7138664126396179,
      "learning_rate": 0.00027787541591167263,
      "loss": 3.8467,
      "step": 85690
    },
    {
      "epoch": 0.17854166666666665,
      "grad_norm": 0.7617980241775513,
      "learning_rate": 0.0002778702623453287,
      "loss": 3.7987,
      "step": 85700
    },
    {
      "epoch": 0.1785625,
      "grad_norm": 0.7998310923576355,
      "learning_rate": 0.0002778651082266359,
      "loss": 3.9373,
      "step": 85710
    },
    {
      "epoch": 0.17858333333333334,
      "grad_norm": 0.7830936908721924,
      "learning_rate": 0.00027785995355561645,
      "loss": 3.9655,
      "step": 85720
    },
    {
      "epoch": 0.17860416666666667,
      "grad_norm": 0.7035660743713379,
      "learning_rate": 0.0002778547983322926,
      "loss": 3.9824,
      "step": 85730
    },
    {
      "epoch": 0.178625,
      "grad_norm": 0.8720551133155823,
      "learning_rate": 0.0002778496425566866,
      "loss": 3.9131,
      "step": 85740
    },
    {
      "epoch": 0.17864583333333334,
      "grad_norm": 0.7178636193275452,
      "learning_rate": 0.0002778444862288208,
      "loss": 4.0619,
      "step": 85750
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 0.7582423090934753,
      "learning_rate": 0.0002778393293487174,
      "loss": 3.8318,
      "step": 85760
    },
    {
      "epoch": 0.1786875,
      "grad_norm": 0.769227921962738,
      "learning_rate": 0.0002778341719163987,
      "loss": 4.0159,
      "step": 85770
    },
    {
      "epoch": 0.17870833333333333,
      "grad_norm": 0.9777992367744446,
      "learning_rate": 0.000277829013931887,
      "loss": 3.9242,
      "step": 85780
    },
    {
      "epoch": 0.17872916666666666,
      "grad_norm": 0.7764589190483093,
      "learning_rate": 0.0002778238553952045,
      "loss": 3.8122,
      "step": 85790
    },
    {
      "epoch": 0.17875,
      "grad_norm": 0.791358232498169,
      "learning_rate": 0.00027781869630637355,
      "loss": 3.9199,
      "step": 85800
    },
    {
      "epoch": 0.17877083333333332,
      "grad_norm": 0.7822316288948059,
      "learning_rate": 0.0002778135366654165,
      "loss": 3.9028,
      "step": 85810
    },
    {
      "epoch": 0.17879166666666665,
      "grad_norm": 1.1834917068481445,
      "learning_rate": 0.0002778083764723555,
      "loss": 3.9403,
      "step": 85820
    },
    {
      "epoch": 0.1788125,
      "grad_norm": 0.7282077670097351,
      "learning_rate": 0.0002778032157272129,
      "loss": 3.8087,
      "step": 85830
    },
    {
      "epoch": 0.17883333333333334,
      "grad_norm": 0.9118136763572693,
      "learning_rate": 0.00027779805443001106,
      "loss": 3.8075,
      "step": 85840
    },
    {
      "epoch": 0.17885416666666668,
      "grad_norm": 0.7563148140907288,
      "learning_rate": 0.0002777928925807721,
      "loss": 3.8556,
      "step": 85850
    },
    {
      "epoch": 0.178875,
      "grad_norm": 0.7563636898994446,
      "learning_rate": 0.0002777877301795185,
      "loss": 3.923,
      "step": 85860
    },
    {
      "epoch": 0.17889583333333334,
      "grad_norm": 0.7616491317749023,
      "learning_rate": 0.00027778256722627253,
      "loss": 3.8456,
      "step": 85870
    },
    {
      "epoch": 0.17891666666666667,
      "grad_norm": 0.8798685669898987,
      "learning_rate": 0.0002777774037210564,
      "loss": 3.9007,
      "step": 85880
    },
    {
      "epoch": 0.1789375,
      "grad_norm": 0.8210008144378662,
      "learning_rate": 0.00027777223966389243,
      "loss": 3.9216,
      "step": 85890
    },
    {
      "epoch": 0.17895833333333333,
      "grad_norm": 0.8116207718849182,
      "learning_rate": 0.00027776707505480303,
      "loss": 3.9912,
      "step": 85900
    },
    {
      "epoch": 0.17897916666666666,
      "grad_norm": 0.7470940947532654,
      "learning_rate": 0.0002777619098938104,
      "loss": 4.1416,
      "step": 85910
    },
    {
      "epoch": 0.179,
      "grad_norm": 0.7884159088134766,
      "learning_rate": 0.00027775674418093686,
      "loss": 4.0423,
      "step": 85920
    },
    {
      "epoch": 0.17902083333333332,
      "grad_norm": 0.8260074853897095,
      "learning_rate": 0.0002777515779162048,
      "loss": 4.0291,
      "step": 85930
    },
    {
      "epoch": 0.17904166666666665,
      "grad_norm": 0.8841700553894043,
      "learning_rate": 0.0002777464110996365,
      "loss": 3.9149,
      "step": 85940
    },
    {
      "epoch": 0.1790625,
      "grad_norm": 0.7573043704032898,
      "learning_rate": 0.0002777412437312542,
      "loss": 4.0028,
      "step": 85950
    },
    {
      "epoch": 0.17908333333333334,
      "grad_norm": 0.830887496471405,
      "learning_rate": 0.0002777360758110804,
      "loss": 3.8941,
      "step": 85960
    },
    {
      "epoch": 0.17910416666666668,
      "grad_norm": 0.7752341628074646,
      "learning_rate": 0.00027773090733913727,
      "loss": 4.1286,
      "step": 85970
    },
    {
      "epoch": 0.179125,
      "grad_norm": 0.7582080960273743,
      "learning_rate": 0.0002777257383154471,
      "loss": 3.9649,
      "step": 85980
    },
    {
      "epoch": 0.17914583333333334,
      "grad_norm": 0.8516180515289307,
      "learning_rate": 0.0002777205687400324,
      "loss": 3.9943,
      "step": 85990
    },
    {
      "epoch": 0.17916666666666667,
      "grad_norm": 0.8340393900871277,
      "learning_rate": 0.00027771539861291535,
      "loss": 4.0159,
      "step": 86000
    },
    {
      "epoch": 0.17916666666666667,
      "eval_loss": 4.264447212219238,
      "eval_runtime": 9.9618,
      "eval_samples_per_second": 1.004,
      "eval_steps_per_second": 0.301,
      "step": 86000
    },
    {
      "epoch": 0.1791875,
      "grad_norm": 0.8380820155143738,
      "learning_rate": 0.0002777102279341183,
      "loss": 3.995,
      "step": 86010
    },
    {
      "epoch": 0.17920833333333333,
      "grad_norm": 0.8911182284355164,
      "learning_rate": 0.0002777050567036637,
      "loss": 3.9424,
      "step": 86020
    },
    {
      "epoch": 0.17922916666666666,
      "grad_norm": 0.7268779277801514,
      "learning_rate": 0.0002776998849215738,
      "loss": 3.8526,
      "step": 86030
    },
    {
      "epoch": 0.17925,
      "grad_norm": 0.8340833783149719,
      "learning_rate": 0.00027769471258787086,
      "loss": 3.9032,
      "step": 86040
    },
    {
      "epoch": 0.17927083333333332,
      "grad_norm": 0.6930897831916809,
      "learning_rate": 0.0002776895397025774,
      "loss": 4.0474,
      "step": 86050
    },
    {
      "epoch": 0.17929166666666665,
      "grad_norm": 0.762506365776062,
      "learning_rate": 0.0002776843662657156,
      "loss": 4.1076,
      "step": 86060
    },
    {
      "epoch": 0.1793125,
      "grad_norm": 0.8332167863845825,
      "learning_rate": 0.0002776791922773079,
      "loss": 3.944,
      "step": 86070
    },
    {
      "epoch": 0.17933333333333334,
      "grad_norm": 0.7995395064353943,
      "learning_rate": 0.0002776740177373766,
      "loss": 4.0739,
      "step": 86080
    },
    {
      "epoch": 0.17935416666666668,
      "grad_norm": 0.8047800064086914,
      "learning_rate": 0.00027766884264594414,
      "loss": 3.9314,
      "step": 86090
    },
    {
      "epoch": 0.179375,
      "grad_norm": 0.8498236536979675,
      "learning_rate": 0.0002776636670030328,
      "loss": 3.9711,
      "step": 86100
    },
    {
      "epoch": 0.17939583333333334,
      "grad_norm": 0.9017711877822876,
      "learning_rate": 0.00027765849080866494,
      "loss": 3.934,
      "step": 86110
    },
    {
      "epoch": 0.17941666666666667,
      "grad_norm": 0.8342052698135376,
      "learning_rate": 0.0002776533140628629,
      "loss": 4.1656,
      "step": 86120
    },
    {
      "epoch": 0.1794375,
      "grad_norm": 0.6985674500465393,
      "learning_rate": 0.0002776481367656491,
      "loss": 4.0342,
      "step": 86130
    },
    {
      "epoch": 0.17945833333333333,
      "grad_norm": 0.747012734413147,
      "learning_rate": 0.0002776429589170459,
      "loss": 4.0234,
      "step": 86140
    },
    {
      "epoch": 0.17947916666666666,
      "grad_norm": 0.722866952419281,
      "learning_rate": 0.0002776377805170756,
      "loss": 4.0712,
      "step": 86150
    },
    {
      "epoch": 0.1795,
      "grad_norm": 0.8306101560592651,
      "learning_rate": 0.0002776326015657607,
      "loss": 3.9106,
      "step": 86160
    },
    {
      "epoch": 0.17952083333333332,
      "grad_norm": 0.8258914947509766,
      "learning_rate": 0.00027762742206312335,
      "loss": 3.6867,
      "step": 86170
    },
    {
      "epoch": 0.17954166666666665,
      "grad_norm": 1.0408835411071777,
      "learning_rate": 0.0002776222420091861,
      "loss": 3.7529,
      "step": 86180
    },
    {
      "epoch": 0.1795625,
      "grad_norm": 0.9408711194992065,
      "learning_rate": 0.00027761706140397134,
      "loss": 3.884,
      "step": 86190
    },
    {
      "epoch": 0.17958333333333334,
      "grad_norm": 0.7155725955963135,
      "learning_rate": 0.00027761188024750134,
      "loss": 3.9833,
      "step": 86200
    },
    {
      "epoch": 0.17960416666666668,
      "grad_norm": 0.6851444244384766,
      "learning_rate": 0.0002776066985397985,
      "loss": 3.9916,
      "step": 86210
    },
    {
      "epoch": 0.179625,
      "grad_norm": 0.7510812282562256,
      "learning_rate": 0.00027760151628088527,
      "loss": 4.1098,
      "step": 86220
    },
    {
      "epoch": 0.17964583333333334,
      "grad_norm": 0.6606239080429077,
      "learning_rate": 0.000277596333470784,
      "loss": 3.8789,
      "step": 86230
    },
    {
      "epoch": 0.17966666666666667,
      "grad_norm": 0.7594720125198364,
      "learning_rate": 0.0002775911501095171,
      "loss": 3.9436,
      "step": 86240
    },
    {
      "epoch": 0.1796875,
      "grad_norm": 0.7470260262489319,
      "learning_rate": 0.0002775859661971069,
      "loss": 3.9608,
      "step": 86250
    },
    {
      "epoch": 0.17970833333333333,
      "grad_norm": 0.6869453191757202,
      "learning_rate": 0.00027758078173357586,
      "loss": 3.7846,
      "step": 86260
    },
    {
      "epoch": 0.17972916666666666,
      "grad_norm": 0.7238935828208923,
      "learning_rate": 0.0002775755967189463,
      "loss": 3.8762,
      "step": 86270
    },
    {
      "epoch": 0.17975,
      "grad_norm": 0.7277963757514954,
      "learning_rate": 0.0002775704111532407,
      "loss": 3.8483,
      "step": 86280
    },
    {
      "epoch": 0.17977083333333332,
      "grad_norm": 0.8137463927268982,
      "learning_rate": 0.0002775652250364814,
      "loss": 3.7965,
      "step": 86290
    },
    {
      "epoch": 0.17979166666666666,
      "grad_norm": 1.6932507753372192,
      "learning_rate": 0.0002775600383686908,
      "loss": 4.0959,
      "step": 86300
    },
    {
      "epoch": 0.1798125,
      "grad_norm": 0.7890238761901855,
      "learning_rate": 0.00027755485114989135,
      "loss": 4.0385,
      "step": 86310
    },
    {
      "epoch": 0.17983333333333335,
      "grad_norm": 0.816183865070343,
      "learning_rate": 0.00027754966338010544,
      "loss": 3.8311,
      "step": 86320
    },
    {
      "epoch": 0.17985416666666668,
      "grad_norm": 0.7907628417015076,
      "learning_rate": 0.00027754447505935547,
      "loss": 3.9034,
      "step": 86330
    },
    {
      "epoch": 0.179875,
      "grad_norm": 0.777371346950531,
      "learning_rate": 0.00027753928618766383,
      "loss": 4.0199,
      "step": 86340
    },
    {
      "epoch": 0.17989583333333334,
      "grad_norm": 0.7191076278686523,
      "learning_rate": 0.00027753409676505296,
      "loss": 3.7942,
      "step": 86350
    },
    {
      "epoch": 0.17991666666666667,
      "grad_norm": 0.7545293569564819,
      "learning_rate": 0.0002775289067915453,
      "loss": 3.8098,
      "step": 86360
    },
    {
      "epoch": 0.1799375,
      "grad_norm": 0.7242503762245178,
      "learning_rate": 0.0002775237162671632,
      "loss": 4.0995,
      "step": 86370
    },
    {
      "epoch": 0.17995833333333333,
      "grad_norm": 0.8849745988845825,
      "learning_rate": 0.0002775185251919292,
      "loss": 3.7909,
      "step": 86380
    },
    {
      "epoch": 0.17997916666666666,
      "grad_norm": 0.773890495300293,
      "learning_rate": 0.00027751333356586553,
      "loss": 3.9931,
      "step": 86390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7033124566078186,
      "learning_rate": 0.00027750814138899485,
      "loss": 3.8301,
      "step": 86400
    },
    {
      "epoch": 0.18002083333333332,
      "grad_norm": 0.8426800966262817,
      "learning_rate": 0.0002775029486613394,
      "loss": 4.0528,
      "step": 86410
    },
    {
      "epoch": 0.18004166666666666,
      "grad_norm": 0.6433781981468201,
      "learning_rate": 0.00027749775538292166,
      "loss": 4.0897,
      "step": 86420
    },
    {
      "epoch": 0.1800625,
      "grad_norm": 0.7904895544052124,
      "learning_rate": 0.00027749256155376416,
      "loss": 4.0513,
      "step": 86430
    },
    {
      "epoch": 0.18008333333333335,
      "grad_norm": 0.7739648222923279,
      "learning_rate": 0.00027748736717388926,
      "loss": 3.8679,
      "step": 86440
    },
    {
      "epoch": 0.18010416666666668,
      "grad_norm": 0.8046252727508545,
      "learning_rate": 0.00027748217224331934,
      "loss": 3.8913,
      "step": 86450
    },
    {
      "epoch": 0.180125,
      "grad_norm": 0.8813231587409973,
      "learning_rate": 0.0002774769767620769,
      "loss": 3.9458,
      "step": 86460
    },
    {
      "epoch": 0.18014583333333334,
      "grad_norm": 0.8923408389091492,
      "learning_rate": 0.0002774717807301844,
      "loss": 3.9908,
      "step": 86470
    },
    {
      "epoch": 0.18016666666666667,
      "grad_norm": 0.7435433864593506,
      "learning_rate": 0.0002774665841476643,
      "loss": 3.9282,
      "step": 86480
    },
    {
      "epoch": 0.1801875,
      "grad_norm": 0.8172239661216736,
      "learning_rate": 0.0002774613870145389,
      "loss": 3.9326,
      "step": 86490
    },
    {
      "epoch": 0.18020833333333333,
      "grad_norm": 0.8387504816055298,
      "learning_rate": 0.00027745618933083083,
      "loss": 4.1198,
      "step": 86500
    },
    {
      "epoch": 0.18022916666666666,
      "grad_norm": 0.7369555830955505,
      "learning_rate": 0.0002774509910965625,
      "loss": 3.9962,
      "step": 86510
    },
    {
      "epoch": 0.18025,
      "grad_norm": 0.8199030160903931,
      "learning_rate": 0.0002774457923117563,
      "loss": 3.9088,
      "step": 86520
    },
    {
      "epoch": 0.18027083333333332,
      "grad_norm": 0.7658722400665283,
      "learning_rate": 0.0002774405929764348,
      "loss": 4.0988,
      "step": 86530
    },
    {
      "epoch": 0.18029166666666666,
      "grad_norm": 0.8912103176116943,
      "learning_rate": 0.0002774353930906203,
      "loss": 3.9545,
      "step": 86540
    },
    {
      "epoch": 0.1803125,
      "grad_norm": 1.0174684524536133,
      "learning_rate": 0.00027743019265433536,
      "loss": 4.081,
      "step": 86550
    },
    {
      "epoch": 0.18033333333333335,
      "grad_norm": 0.7594966292381287,
      "learning_rate": 0.0002774249916676024,
      "loss": 4.0002,
      "step": 86560
    },
    {
      "epoch": 0.18035416666666668,
      "grad_norm": 0.7672754526138306,
      "learning_rate": 0.0002774197901304439,
      "loss": 3.964,
      "step": 86570
    },
    {
      "epoch": 0.180375,
      "grad_norm": 0.7904402017593384,
      "learning_rate": 0.0002774145880428824,
      "loss": 3.9128,
      "step": 86580
    },
    {
      "epoch": 0.18039583333333334,
      "grad_norm": 0.7765664458274841,
      "learning_rate": 0.00027740938540494033,
      "loss": 3.9941,
      "step": 86590
    },
    {
      "epoch": 0.18041666666666667,
      "grad_norm": 0.9382291436195374,
      "learning_rate": 0.00027740418221664014,
      "loss": 3.8465,
      "step": 86600
    },
    {
      "epoch": 0.1804375,
      "grad_norm": 0.8034531474113464,
      "learning_rate": 0.0002773989784780043,
      "loss": 4.0178,
      "step": 86610
    },
    {
      "epoch": 0.18045833333333333,
      "grad_norm": 0.6991348266601562,
      "learning_rate": 0.0002773937741890553,
      "loss": 4.1076,
      "step": 86620
    },
    {
      "epoch": 0.18047916666666666,
      "grad_norm": 0.9755804538726807,
      "learning_rate": 0.0002773885693498156,
      "loss": 3.9626,
      "step": 86630
    },
    {
      "epoch": 0.1805,
      "grad_norm": 0.8245457410812378,
      "learning_rate": 0.0002773833639603077,
      "loss": 4.1058,
      "step": 86640
    },
    {
      "epoch": 0.18052083333333332,
      "grad_norm": 0.7956671118736267,
      "learning_rate": 0.0002773781580205541,
      "loss": 3.8751,
      "step": 86650
    },
    {
      "epoch": 0.18054166666666666,
      "grad_norm": 0.7401562929153442,
      "learning_rate": 0.0002773729515305773,
      "loss": 4.1363,
      "step": 86660
    },
    {
      "epoch": 0.1805625,
      "grad_norm": 0.8218671679496765,
      "learning_rate": 0.00027736774449039976,
      "loss": 3.9871,
      "step": 86670
    },
    {
      "epoch": 0.18058333333333335,
      "grad_norm": 1.231929063796997,
      "learning_rate": 0.000277362536900044,
      "loss": 3.911,
      "step": 86680
    },
    {
      "epoch": 0.18060416666666668,
      "grad_norm": 0.7898419499397278,
      "learning_rate": 0.00027735732875953245,
      "loss": 4.0308,
      "step": 86690
    },
    {
      "epoch": 0.180625,
      "grad_norm": 0.7568915486335754,
      "learning_rate": 0.00027735212006888764,
      "loss": 3.8096,
      "step": 86700
    },
    {
      "epoch": 0.18064583333333334,
      "grad_norm": 0.89715975522995,
      "learning_rate": 0.0002773469108281321,
      "loss": 4.0099,
      "step": 86710
    },
    {
      "epoch": 0.18066666666666667,
      "grad_norm": 0.7076801061630249,
      "learning_rate": 0.00027734170103728835,
      "loss": 3.9542,
      "step": 86720
    },
    {
      "epoch": 0.1806875,
      "grad_norm": 0.8222557306289673,
      "learning_rate": 0.0002773364906963788,
      "loss": 3.9606,
      "step": 86730
    },
    {
      "epoch": 0.18070833333333333,
      "grad_norm": 0.817769467830658,
      "learning_rate": 0.000277331279805426,
      "loss": 3.8925,
      "step": 86740
    },
    {
      "epoch": 0.18072916666666666,
      "grad_norm": 0.7369047999382019,
      "learning_rate": 0.0002773260683644526,
      "loss": 3.9034,
      "step": 86750
    },
    {
      "epoch": 0.18075,
      "grad_norm": 0.6927917003631592,
      "learning_rate": 0.00027732085637348087,
      "loss": 4.1525,
      "step": 86760
    },
    {
      "epoch": 0.18077083333333333,
      "grad_norm": 0.7115907073020935,
      "learning_rate": 0.00027731564383253344,
      "loss": 3.8929,
      "step": 86770
    },
    {
      "epoch": 0.18079166666666666,
      "grad_norm": 0.9259523153305054,
      "learning_rate": 0.00027731043074163286,
      "loss": 3.7335,
      "step": 86780
    },
    {
      "epoch": 0.1808125,
      "grad_norm": 0.7273411154747009,
      "learning_rate": 0.0002773052171008016,
      "loss": 3.9717,
      "step": 86790
    },
    {
      "epoch": 0.18083333333333335,
      "grad_norm": 0.9670501947402954,
      "learning_rate": 0.0002773000029100622,
      "loss": 4.0591,
      "step": 86800
    },
    {
      "epoch": 0.18085416666666668,
      "grad_norm": 0.8025546073913574,
      "learning_rate": 0.0002772947881694372,
      "loss": 4.101,
      "step": 86810
    },
    {
      "epoch": 0.180875,
      "grad_norm": 0.8050698637962341,
      "learning_rate": 0.00027728957287894904,
      "loss": 3.9529,
      "step": 86820
    },
    {
      "epoch": 0.18089583333333334,
      "grad_norm": 0.7396500706672668,
      "learning_rate": 0.0002772843570386204,
      "loss": 3.9786,
      "step": 86830
    },
    {
      "epoch": 0.18091666666666667,
      "grad_norm": 0.6902603507041931,
      "learning_rate": 0.0002772791406484736,
      "loss": 4.0195,
      "step": 86840
    },
    {
      "epoch": 0.1809375,
      "grad_norm": 0.916330099105835,
      "learning_rate": 0.00027727392370853135,
      "loss": 4.1401,
      "step": 86850
    },
    {
      "epoch": 0.18095833333333333,
      "grad_norm": 1.0736193656921387,
      "learning_rate": 0.0002772687062188162,
      "loss": 3.8621,
      "step": 86860
    },
    {
      "epoch": 0.18097916666666666,
      "grad_norm": 0.7355148196220398,
      "learning_rate": 0.0002772634881793505,
      "loss": 3.9006,
      "step": 86870
    },
    {
      "epoch": 0.181,
      "grad_norm": 0.7642204165458679,
      "learning_rate": 0.00027725826959015695,
      "loss": 3.907,
      "step": 86880
    },
    {
      "epoch": 0.18102083333333333,
      "grad_norm": 0.838309109210968,
      "learning_rate": 0.00027725305045125806,
      "loss": 3.8492,
      "step": 86890
    },
    {
      "epoch": 0.18104166666666666,
      "grad_norm": 0.722305953502655,
      "learning_rate": 0.00027724783076267637,
      "loss": 3.8561,
      "step": 86900
    },
    {
      "epoch": 0.1810625,
      "grad_norm": 0.9098578691482544,
      "learning_rate": 0.00027724261052443437,
      "loss": 3.8183,
      "step": 86910
    },
    {
      "epoch": 0.18108333333333335,
      "grad_norm": 0.8164868950843811,
      "learning_rate": 0.0002772373897365547,
      "loss": 3.9282,
      "step": 86920
    },
    {
      "epoch": 0.18110416666666668,
      "grad_norm": 0.8785514831542969,
      "learning_rate": 0.00027723216839905987,
      "loss": 3.9323,
      "step": 86930
    },
    {
      "epoch": 0.181125,
      "grad_norm": 0.771049976348877,
      "learning_rate": 0.0002772269465119724,
      "loss": 4.0143,
      "step": 86940
    },
    {
      "epoch": 0.18114583333333334,
      "grad_norm": 0.8689170479774475,
      "learning_rate": 0.0002772217240753149,
      "loss": 3.8116,
      "step": 86950
    },
    {
      "epoch": 0.18116666666666667,
      "grad_norm": 0.9025158882141113,
      "learning_rate": 0.00027721650108911,
      "loss": 4.1129,
      "step": 86960
    },
    {
      "epoch": 0.1811875,
      "grad_norm": 0.8414560556411743,
      "learning_rate": 0.00027721127755338005,
      "loss": 3.9371,
      "step": 86970
    },
    {
      "epoch": 0.18120833333333333,
      "grad_norm": 0.8141510486602783,
      "learning_rate": 0.00027720605346814777,
      "loss": 4.0294,
      "step": 86980
    },
    {
      "epoch": 0.18122916666666666,
      "grad_norm": 0.754301905632019,
      "learning_rate": 0.0002772008288334357,
      "loss": 3.8286,
      "step": 86990
    },
    {
      "epoch": 0.18125,
      "grad_norm": 0.8273358941078186,
      "learning_rate": 0.0002771956036492664,
      "loss": 3.9802,
      "step": 87000
    },
    {
      "epoch": 0.18125,
      "eval_loss": 4.2762131690979,
      "eval_runtime": 9.7389,
      "eval_samples_per_second": 1.027,
      "eval_steps_per_second": 0.308,
      "step": 87000
    },
    {
      "epoch": 0.18127083333333333,
      "grad_norm": 0.7829307913780212,
      "learning_rate": 0.00027719037791566244,
      "loss": 3.8727,
      "step": 87010
    },
    {
      "epoch": 0.18129166666666666,
      "grad_norm": 0.717750608921051,
      "learning_rate": 0.0002771851516326464,
      "loss": 3.9016,
      "step": 87020
    },
    {
      "epoch": 0.1813125,
      "grad_norm": 0.7441225647926331,
      "learning_rate": 0.0002771799248002408,
      "loss": 3.9129,
      "step": 87030
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 0.7568635940551758,
      "learning_rate": 0.0002771746974184683,
      "loss": 4.0888,
      "step": 87040
    },
    {
      "epoch": 0.18135416666666668,
      "grad_norm": 0.8313568830490112,
      "learning_rate": 0.00027716946948735146,
      "loss": 4.0228,
      "step": 87050
    },
    {
      "epoch": 0.181375,
      "grad_norm": 0.8301163911819458,
      "learning_rate": 0.0002771642410069128,
      "loss": 3.788,
      "step": 87060
    },
    {
      "epoch": 0.18139583333333334,
      "grad_norm": 0.8366144299507141,
      "learning_rate": 0.000277159011977175,
      "loss": 3.8964,
      "step": 87070
    },
    {
      "epoch": 0.18141666666666667,
      "grad_norm": 0.8715069890022278,
      "learning_rate": 0.0002771537823981606,
      "loss": 4.0961,
      "step": 87080
    },
    {
      "epoch": 0.1814375,
      "grad_norm": 0.8349758982658386,
      "learning_rate": 0.0002771485522698922,
      "loss": 4.0396,
      "step": 87090
    },
    {
      "epoch": 0.18145833333333333,
      "grad_norm": 0.971042275428772,
      "learning_rate": 0.00027714332159239235,
      "loss": 4.0946,
      "step": 87100
    },
    {
      "epoch": 0.18147916666666666,
      "grad_norm": 0.8309457302093506,
      "learning_rate": 0.0002771380903656837,
      "loss": 3.8551,
      "step": 87110
    },
    {
      "epoch": 0.1815,
      "grad_norm": 0.7502473592758179,
      "learning_rate": 0.00027713285858978887,
      "loss": 3.9482,
      "step": 87120
    },
    {
      "epoch": 0.18152083333333333,
      "grad_norm": 0.7540673017501831,
      "learning_rate": 0.0002771276262647303,
      "loss": 3.8731,
      "step": 87130
    },
    {
      "epoch": 0.18154166666666666,
      "grad_norm": 0.8102383017539978,
      "learning_rate": 0.0002771223933905308,
      "loss": 3.8357,
      "step": 87140
    },
    {
      "epoch": 0.1815625,
      "grad_norm": 0.7553289532661438,
      "learning_rate": 0.0002771171599672128,
      "loss": 3.8382,
      "step": 87150
    },
    {
      "epoch": 0.18158333333333335,
      "grad_norm": 0.7286981344223022,
      "learning_rate": 0.00027711192599479904,
      "loss": 3.9077,
      "step": 87160
    },
    {
      "epoch": 0.18160416666666668,
      "grad_norm": 0.8576011657714844,
      "learning_rate": 0.0002771066914733121,
      "loss": 3.7951,
      "step": 87170
    },
    {
      "epoch": 0.181625,
      "grad_norm": 0.7307623028755188,
      "learning_rate": 0.0002771014564027745,
      "loss": 3.9714,
      "step": 87180
    },
    {
      "epoch": 0.18164583333333334,
      "grad_norm": 0.7565385699272156,
      "learning_rate": 0.00027709622078320894,
      "loss": 4.0664,
      "step": 87190
    },
    {
      "epoch": 0.18166666666666667,
      "grad_norm": 0.8211855292320251,
      "learning_rate": 0.00027709098461463805,
      "loss": 3.9163,
      "step": 87200
    },
    {
      "epoch": 0.1816875,
      "grad_norm": 0.8056821823120117,
      "learning_rate": 0.00027708574789708437,
      "loss": 4.0279,
      "step": 87210
    },
    {
      "epoch": 0.18170833333333333,
      "grad_norm": 0.8908872604370117,
      "learning_rate": 0.0002770805106305706,
      "loss": 3.8655,
      "step": 87220
    },
    {
      "epoch": 0.18172916666666666,
      "grad_norm": 0.836047887802124,
      "learning_rate": 0.0002770752728151193,
      "loss": 3.8783,
      "step": 87230
    },
    {
      "epoch": 0.18175,
      "grad_norm": 0.6923906207084656,
      "learning_rate": 0.0002770700344507531,
      "loss": 3.9411,
      "step": 87240
    },
    {
      "epoch": 0.18177083333333333,
      "grad_norm": 0.7421125769615173,
      "learning_rate": 0.0002770647955374947,
      "loss": 3.8956,
      "step": 87250
    },
    {
      "epoch": 0.18179166666666666,
      "grad_norm": 0.7003380656242371,
      "learning_rate": 0.00027705955607536665,
      "loss": 3.7415,
      "step": 87260
    },
    {
      "epoch": 0.1818125,
      "grad_norm": 0.733111560344696,
      "learning_rate": 0.0002770543160643916,
      "loss": 3.8,
      "step": 87270
    },
    {
      "epoch": 0.18183333333333335,
      "grad_norm": 0.81344074010849,
      "learning_rate": 0.0002770490755045922,
      "loss": 4.0517,
      "step": 87280
    },
    {
      "epoch": 0.18185416666666668,
      "grad_norm": 0.736926794052124,
      "learning_rate": 0.0002770438343959911,
      "loss": 3.9058,
      "step": 87290
    },
    {
      "epoch": 0.181875,
      "grad_norm": 0.8664732575416565,
      "learning_rate": 0.000277038592738611,
      "loss": 4.0394,
      "step": 87300
    },
    {
      "epoch": 0.18189583333333334,
      "grad_norm": 0.8464640378952026,
      "learning_rate": 0.0002770333505324743,
      "loss": 4.0282,
      "step": 87310
    },
    {
      "epoch": 0.18191666666666667,
      "grad_norm": 0.750221312046051,
      "learning_rate": 0.0002770281077776039,
      "loss": 4.0073,
      "step": 87320
    },
    {
      "epoch": 0.1819375,
      "grad_norm": 0.8822414875030518,
      "learning_rate": 0.00027702286447402235,
      "loss": 3.8761,
      "step": 87330
    },
    {
      "epoch": 0.18195833333333333,
      "grad_norm": 0.8932996392250061,
      "learning_rate": 0.0002770176206217523,
      "loss": 3.8584,
      "step": 87340
    },
    {
      "epoch": 0.18197916666666666,
      "grad_norm": 0.7007710933685303,
      "learning_rate": 0.0002770123762208164,
      "loss": 4.0211,
      "step": 87350
    },
    {
      "epoch": 0.182,
      "grad_norm": 0.7878519892692566,
      "learning_rate": 0.00027700713127123733,
      "loss": 4.0379,
      "step": 87360
    },
    {
      "epoch": 0.18202083333333333,
      "grad_norm": 0.8292218446731567,
      "learning_rate": 0.0002770018857730377,
      "loss": 4.0106,
      "step": 87370
    },
    {
      "epoch": 0.18204166666666666,
      "grad_norm": 0.8177099227905273,
      "learning_rate": 0.0002769966397262402,
      "loss": 4.0429,
      "step": 87380
    },
    {
      "epoch": 0.1820625,
      "grad_norm": 0.7227445244789124,
      "learning_rate": 0.0002769913931308675,
      "loss": 3.979,
      "step": 87390
    },
    {
      "epoch": 0.18208333333333335,
      "grad_norm": 0.8037196397781372,
      "learning_rate": 0.00027698614598694227,
      "loss": 4.142,
      "step": 87400
    },
    {
      "epoch": 0.18210416666666668,
      "grad_norm": 0.8336159586906433,
      "learning_rate": 0.0002769808982944871,
      "loss": 4.0123,
      "step": 87410
    },
    {
      "epoch": 0.182125,
      "grad_norm": 0.8700069189071655,
      "learning_rate": 0.00027697565005352473,
      "loss": 3.9346,
      "step": 87420
    },
    {
      "epoch": 0.18214583333333334,
      "grad_norm": 0.7583079934120178,
      "learning_rate": 0.0002769704012640778,
      "loss": 3.9338,
      "step": 87430
    },
    {
      "epoch": 0.18216666666666667,
      "grad_norm": 0.7131475806236267,
      "learning_rate": 0.0002769651519261691,
      "loss": 3.8463,
      "step": 87440
    },
    {
      "epoch": 0.1821875,
      "grad_norm": 0.7094453573226929,
      "learning_rate": 0.00027695990203982105,
      "loss": 3.905,
      "step": 87450
    },
    {
      "epoch": 0.18220833333333333,
      "grad_norm": 0.8984208703041077,
      "learning_rate": 0.0002769546516050566,
      "loss": 3.9301,
      "step": 87460
    },
    {
      "epoch": 0.18222916666666666,
      "grad_norm": 0.9187492728233337,
      "learning_rate": 0.0002769494006218982,
      "loss": 3.9991,
      "step": 87470
    },
    {
      "epoch": 0.18225,
      "grad_norm": 0.785453736782074,
      "learning_rate": 0.0002769441490903687,
      "loss": 3.9285,
      "step": 87480
    },
    {
      "epoch": 0.18227083333333333,
      "grad_norm": 0.7565127015113831,
      "learning_rate": 0.00027693889701049074,
      "loss": 3.8673,
      "step": 87490
    },
    {
      "epoch": 0.18229166666666666,
      "grad_norm": 0.7924365401268005,
      "learning_rate": 0.00027693364438228694,
      "loss": 3.8782,
      "step": 87500
    },
    {
      "epoch": 0.1823125,
      "grad_norm": 0.8229979872703552,
      "learning_rate": 0.00027692839120578,
      "loss": 3.7964,
      "step": 87510
    },
    {
      "epoch": 0.18233333333333332,
      "grad_norm": 0.7013866305351257,
      "learning_rate": 0.0002769231374809928,
      "loss": 3.703,
      "step": 87520
    },
    {
      "epoch": 0.18235416666666668,
      "grad_norm": 0.7846365571022034,
      "learning_rate": 0.00027691788320794775,
      "loss": 4.0488,
      "step": 87530
    },
    {
      "epoch": 0.182375,
      "grad_norm": 0.7673659920692444,
      "learning_rate": 0.0002769126283866677,
      "loss": 3.9344,
      "step": 87540
    },
    {
      "epoch": 0.18239583333333334,
      "grad_norm": 0.8162211775779724,
      "learning_rate": 0.0002769073730171754,
      "loss": 3.763,
      "step": 87550
    },
    {
      "epoch": 0.18241666666666667,
      "grad_norm": 0.6888481378555298,
      "learning_rate": 0.00027690211709949344,
      "loss": 3.8642,
      "step": 87560
    },
    {
      "epoch": 0.1824375,
      "grad_norm": 0.7766658663749695,
      "learning_rate": 0.0002768968606336446,
      "loss": 3.7084,
      "step": 87570
    },
    {
      "epoch": 0.18245833333333333,
      "grad_norm": 0.9030970335006714,
      "learning_rate": 0.0002768916036196515,
      "loss": 3.9177,
      "step": 87580
    },
    {
      "epoch": 0.18247916666666666,
      "grad_norm": 0.76337730884552,
      "learning_rate": 0.0002768863460575369,
      "loss": 3.9446,
      "step": 87590
    },
    {
      "epoch": 0.1825,
      "grad_norm": 0.797347366809845,
      "learning_rate": 0.00027688108794732356,
      "loss": 3.8734,
      "step": 87600
    },
    {
      "epoch": 0.18252083333333333,
      "grad_norm": 0.7519146203994751,
      "learning_rate": 0.00027687582928903414,
      "loss": 3.8493,
      "step": 87610
    },
    {
      "epoch": 0.18254166666666666,
      "grad_norm": 0.7263171076774597,
      "learning_rate": 0.0002768705700826913,
      "loss": 4.0843,
      "step": 87620
    },
    {
      "epoch": 0.1825625,
      "grad_norm": 0.854971170425415,
      "learning_rate": 0.0002768653103283179,
      "loss": 3.9364,
      "step": 87630
    },
    {
      "epoch": 0.18258333333333332,
      "grad_norm": 0.7594761252403259,
      "learning_rate": 0.00027686005002593644,
      "loss": 3.9043,
      "step": 87640
    },
    {
      "epoch": 0.18260416666666668,
      "grad_norm": 0.7557277679443359,
      "learning_rate": 0.00027685478917556993,
      "loss": 3.7167,
      "step": 87650
    },
    {
      "epoch": 0.182625,
      "grad_norm": 0.836554229259491,
      "learning_rate": 0.0002768495277772408,
      "loss": 3.8935,
      "step": 87660
    },
    {
      "epoch": 0.18264583333333334,
      "grad_norm": 0.8543583750724792,
      "learning_rate": 0.00027684426583097203,
      "loss": 3.9999,
      "step": 87670
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 0.7264884114265442,
      "learning_rate": 0.0002768390033367862,
      "loss": 3.9784,
      "step": 87680
    },
    {
      "epoch": 0.1826875,
      "grad_norm": 0.829288899898529,
      "learning_rate": 0.0002768337402947061,
      "loss": 3.9155,
      "step": 87690
    },
    {
      "epoch": 0.18270833333333333,
      "grad_norm": 0.8200216293334961,
      "learning_rate": 0.00027682847670475446,
      "loss": 3.9929,
      "step": 87700
    },
    {
      "epoch": 0.18272916666666666,
      "grad_norm": 0.7360736727714539,
      "learning_rate": 0.000276823212566954,
      "loss": 3.956,
      "step": 87710
    },
    {
      "epoch": 0.18275,
      "grad_norm": 0.7371709942817688,
      "learning_rate": 0.0002768179478813274,
      "loss": 3.9111,
      "step": 87720
    },
    {
      "epoch": 0.18277083333333333,
      "grad_norm": 0.7644110321998596,
      "learning_rate": 0.0002768126826478975,
      "loss": 3.9201,
      "step": 87730
    },
    {
      "epoch": 0.18279166666666666,
      "grad_norm": 0.7633153200149536,
      "learning_rate": 0.000276807416866687,
      "loss": 3.8998,
      "step": 87740
    },
    {
      "epoch": 0.1828125,
      "grad_norm": 1.025044560432434,
      "learning_rate": 0.0002768021505377187,
      "loss": 3.9701,
      "step": 87750
    },
    {
      "epoch": 0.18283333333333332,
      "grad_norm": 0.7863289713859558,
      "learning_rate": 0.0002767968836610153,
      "loss": 4.1157,
      "step": 87760
    },
    {
      "epoch": 0.18285416666666668,
      "grad_norm": 0.7808500528335571,
      "learning_rate": 0.0002767916162365995,
      "loss": 4.0034,
      "step": 87770
    },
    {
      "epoch": 0.182875,
      "grad_norm": 0.6739521622657776,
      "learning_rate": 0.00027678634826449407,
      "loss": 3.9762,
      "step": 87780
    },
    {
      "epoch": 0.18289583333333334,
      "grad_norm": 1.1730210781097412,
      "learning_rate": 0.0002767810797447219,
      "loss": 3.8859,
      "step": 87790
    },
    {
      "epoch": 0.18291666666666667,
      "grad_norm": 0.8041358590126038,
      "learning_rate": 0.0002767758106773056,
      "loss": 4.1744,
      "step": 87800
    },
    {
      "epoch": 0.1829375,
      "grad_norm": 0.8782163262367249,
      "learning_rate": 0.000276770541062268,
      "loss": 4.0348,
      "step": 87810
    },
    {
      "epoch": 0.18295833333333333,
      "grad_norm": 0.8994797468185425,
      "learning_rate": 0.00027676527089963177,
      "loss": 4.018,
      "step": 87820
    },
    {
      "epoch": 0.18297916666666666,
      "grad_norm": 0.7245046496391296,
      "learning_rate": 0.0002767600001894198,
      "loss": 3.8823,
      "step": 87830
    },
    {
      "epoch": 0.183,
      "grad_norm": 0.7504734396934509,
      "learning_rate": 0.0002767547289316548,
      "loss": 3.8876,
      "step": 87840
    },
    {
      "epoch": 0.18302083333333333,
      "grad_norm": 0.8326441049575806,
      "learning_rate": 0.00027674945712635957,
      "loss": 3.8836,
      "step": 87850
    },
    {
      "epoch": 0.18304166666666666,
      "grad_norm": 0.6638035178184509,
      "learning_rate": 0.0002767441847735568,
      "loss": 3.7964,
      "step": 87860
    },
    {
      "epoch": 0.1830625,
      "grad_norm": 0.8729750514030457,
      "learning_rate": 0.00027673891187326944,
      "loss": 4.0322,
      "step": 87870
    },
    {
      "epoch": 0.18308333333333332,
      "grad_norm": 0.8071134686470032,
      "learning_rate": 0.00027673363842552,
      "loss": 3.9481,
      "step": 87880
    },
    {
      "epoch": 0.18310416666666668,
      "grad_norm": 0.8748875856399536,
      "learning_rate": 0.0002767283644303315,
      "loss": 3.9024,
      "step": 87890
    },
    {
      "epoch": 0.183125,
      "grad_norm": 0.7890925407409668,
      "learning_rate": 0.0002767230898877266,
      "loss": 4.045,
      "step": 87900
    },
    {
      "epoch": 0.18314583333333334,
      "grad_norm": 0.7785685658454895,
      "learning_rate": 0.0002767178147977281,
      "loss": 3.9871,
      "step": 87910
    },
    {
      "epoch": 0.18316666666666667,
      "grad_norm": 0.9221833348274231,
      "learning_rate": 0.0002767125391603588,
      "loss": 3.9511,
      "step": 87920
    },
    {
      "epoch": 0.1831875,
      "grad_norm": 0.8880302309989929,
      "learning_rate": 0.00027670726297564154,
      "loss": 4.0629,
      "step": 87930
    },
    {
      "epoch": 0.18320833333333333,
      "grad_norm": 0.7509293556213379,
      "learning_rate": 0.00027670198624359896,
      "loss": 4.0799,
      "step": 87940
    },
    {
      "epoch": 0.18322916666666667,
      "grad_norm": 0.8642449975013733,
      "learning_rate": 0.000276696708964254,
      "loss": 4.0747,
      "step": 87950
    },
    {
      "epoch": 0.18325,
      "grad_norm": 0.8820912837982178,
      "learning_rate": 0.0002766914311376294,
      "loss": 4.0732,
      "step": 87960
    },
    {
      "epoch": 0.18327083333333333,
      "grad_norm": 0.92373126745224,
      "learning_rate": 0.00027668615276374805,
      "loss": 3.9147,
      "step": 87970
    },
    {
      "epoch": 0.18329166666666666,
      "grad_norm": 0.8607349991798401,
      "learning_rate": 0.00027668087384263255,
      "loss": 3.9928,
      "step": 87980
    },
    {
      "epoch": 0.1833125,
      "grad_norm": 0.7504574060440063,
      "learning_rate": 0.0002766755943743059,
      "loss": 4.0613,
      "step": 87990
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 0.8695613145828247,
      "learning_rate": 0.00027667031435879075,
      "loss": 3.9888,
      "step": 88000
    },
    {
      "epoch": 0.18333333333333332,
      "eval_loss": 4.29074239730835,
      "eval_runtime": 9.5409,
      "eval_samples_per_second": 1.048,
      "eval_steps_per_second": 0.314,
      "step": 88000
    },
    {
      "epoch": 0.18335416666666668,
      "grad_norm": 0.7890095710754395,
      "learning_rate": 0.00027666503379611,
      "loss": 3.78,
      "step": 88010
    },
    {
      "epoch": 0.183375,
      "grad_norm": 0.7826977372169495,
      "learning_rate": 0.0002766597526862865,
      "loss": 3.9982,
      "step": 88020
    },
    {
      "epoch": 0.18339583333333334,
      "grad_norm": 0.7879928350448608,
      "learning_rate": 0.00027665447102934296,
      "loss": 3.9673,
      "step": 88030
    },
    {
      "epoch": 0.18341666666666667,
      "grad_norm": 0.7032837867736816,
      "learning_rate": 0.00027664918882530225,
      "loss": 3.8704,
      "step": 88040
    },
    {
      "epoch": 0.1834375,
      "grad_norm": 0.7922263741493225,
      "learning_rate": 0.00027664390607418717,
      "loss": 3.9802,
      "step": 88050
    },
    {
      "epoch": 0.18345833333333333,
      "grad_norm": 0.7143397927284241,
      "learning_rate": 0.00027663862277602054,
      "loss": 3.9475,
      "step": 88060
    },
    {
      "epoch": 0.18347916666666667,
      "grad_norm": 0.7781085968017578,
      "learning_rate": 0.00027663333893082517,
      "loss": 4.0553,
      "step": 88070
    },
    {
      "epoch": 0.1835,
      "grad_norm": 0.8027164936065674,
      "learning_rate": 0.00027662805453862395,
      "loss": 3.8228,
      "step": 88080
    },
    {
      "epoch": 0.18352083333333333,
      "grad_norm": 0.897082507610321,
      "learning_rate": 0.0002766227695994396,
      "loss": 4.0345,
      "step": 88090
    },
    {
      "epoch": 0.18354166666666666,
      "grad_norm": 0.7642663717269897,
      "learning_rate": 0.0002766174841132951,
      "loss": 3.9021,
      "step": 88100
    },
    {
      "epoch": 0.1835625,
      "grad_norm": 0.8067945241928101,
      "learning_rate": 0.00027661219808021307,
      "loss": 3.9437,
      "step": 88110
    },
    {
      "epoch": 0.18358333333333332,
      "grad_norm": 0.7370964288711548,
      "learning_rate": 0.0002766069115002165,
      "loss": 3.9584,
      "step": 88120
    },
    {
      "epoch": 0.18360416666666668,
      "grad_norm": 0.7243981957435608,
      "learning_rate": 0.0002766016243733282,
      "loss": 3.8296,
      "step": 88130
    },
    {
      "epoch": 0.183625,
      "grad_norm": 0.7076358795166016,
      "learning_rate": 0.000276596336699571,
      "loss": 3.953,
      "step": 88140
    },
    {
      "epoch": 0.18364583333333334,
      "grad_norm": 0.8295220136642456,
      "learning_rate": 0.0002765910484789677,
      "loss": 3.8637,
      "step": 88150
    },
    {
      "epoch": 0.18366666666666667,
      "grad_norm": 0.7509817481040955,
      "learning_rate": 0.0002765857597115412,
      "loss": 4.0541,
      "step": 88160
    },
    {
      "epoch": 0.1836875,
      "grad_norm": 0.8788045048713684,
      "learning_rate": 0.0002765804703973144,
      "loss": 3.9488,
      "step": 88170
    },
    {
      "epoch": 0.18370833333333333,
      "grad_norm": 0.8003854751586914,
      "learning_rate": 0.00027657518053630996,
      "loss": 4.0549,
      "step": 88180
    },
    {
      "epoch": 0.18372916666666667,
      "grad_norm": 0.827948272228241,
      "learning_rate": 0.0002765698901285509,
      "loss": 3.9404,
      "step": 88190
    },
    {
      "epoch": 0.18375,
      "grad_norm": 0.7165871858596802,
      "learning_rate": 0.00027656459917406,
      "loss": 3.856,
      "step": 88200
    },
    {
      "epoch": 0.18377083333333333,
      "grad_norm": 0.8522375226020813,
      "learning_rate": 0.0002765593076728601,
      "loss": 4.084,
      "step": 88210
    },
    {
      "epoch": 0.18379166666666666,
      "grad_norm": 0.7691645622253418,
      "learning_rate": 0.00027655401562497417,
      "loss": 4.0144,
      "step": 88220
    },
    {
      "epoch": 0.1838125,
      "grad_norm": 0.723880410194397,
      "learning_rate": 0.0002765487230304249,
      "loss": 3.7982,
      "step": 88230
    },
    {
      "epoch": 0.18383333333333332,
      "grad_norm": 0.7315043210983276,
      "learning_rate": 0.00027654342988923524,
      "loss": 3.9605,
      "step": 88240
    },
    {
      "epoch": 0.18385416666666668,
      "grad_norm": 0.8680640459060669,
      "learning_rate": 0.0002765381362014282,
      "loss": 3.9021,
      "step": 88250
    },
    {
      "epoch": 0.183875,
      "grad_norm": 0.9071645140647888,
      "learning_rate": 0.00027653284196702633,
      "loss": 3.8715,
      "step": 88260
    },
    {
      "epoch": 0.18389583333333334,
      "grad_norm": 0.7919116616249084,
      "learning_rate": 0.0002765275471860527,
      "loss": 3.8815,
      "step": 88270
    },
    {
      "epoch": 0.18391666666666667,
      "grad_norm": 0.8136408925056458,
      "learning_rate": 0.0002765222518585302,
      "loss": 3.8861,
      "step": 88280
    },
    {
      "epoch": 0.1839375,
      "grad_norm": 0.8737508058547974,
      "learning_rate": 0.0002765169559844816,
      "loss": 3.8579,
      "step": 88290
    },
    {
      "epoch": 0.18395833333333333,
      "grad_norm": 0.7423958778381348,
      "learning_rate": 0.00027651165956392985,
      "loss": 4.0493,
      "step": 88300
    },
    {
      "epoch": 0.18397916666666667,
      "grad_norm": 0.793302595615387,
      "learning_rate": 0.0002765063625968978,
      "loss": 4.0295,
      "step": 88310
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.7486281991004944,
      "learning_rate": 0.00027650106508340835,
      "loss": 3.8815,
      "step": 88320
    },
    {
      "epoch": 0.18402083333333333,
      "grad_norm": 0.8140532374382019,
      "learning_rate": 0.00027649576702348436,
      "loss": 3.9092,
      "step": 88330
    },
    {
      "epoch": 0.18404166666666666,
      "grad_norm": 0.8728615045547485,
      "learning_rate": 0.0002764904684171487,
      "loss": 4.0579,
      "step": 88340
    },
    {
      "epoch": 0.1840625,
      "grad_norm": 0.7310709357261658,
      "learning_rate": 0.00027648516926442434,
      "loss": 3.7804,
      "step": 88350
    },
    {
      "epoch": 0.18408333333333332,
      "grad_norm": 0.7199096083641052,
      "learning_rate": 0.0002764798695653341,
      "loss": 4.119,
      "step": 88360
    },
    {
      "epoch": 0.18410416666666668,
      "grad_norm": 0.7274208664894104,
      "learning_rate": 0.00027647456931990087,
      "loss": 3.9022,
      "step": 88370
    },
    {
      "epoch": 0.184125,
      "grad_norm": 0.7428338527679443,
      "learning_rate": 0.00027646926852814763,
      "loss": 3.9269,
      "step": 88380
    },
    {
      "epoch": 0.18414583333333334,
      "grad_norm": 0.8210427165031433,
      "learning_rate": 0.0002764639671900971,
      "loss": 3.9589,
      "step": 88390
    },
    {
      "epoch": 0.18416666666666667,
      "grad_norm": 0.7799885272979736,
      "learning_rate": 0.0002764586653057724,
      "loss": 3.9239,
      "step": 88400
    },
    {
      "epoch": 0.1841875,
      "grad_norm": 0.8810585141181946,
      "learning_rate": 0.0002764533628751962,
      "loss": 4.088,
      "step": 88410
    },
    {
      "epoch": 0.18420833333333334,
      "grad_norm": 0.7676212787628174,
      "learning_rate": 0.00027644805989839163,
      "loss": 3.8941,
      "step": 88420
    },
    {
      "epoch": 0.18422916666666667,
      "grad_norm": 0.6871315836906433,
      "learning_rate": 0.00027644275637538144,
      "loss": 4.0138,
      "step": 88430
    },
    {
      "epoch": 0.18425,
      "grad_norm": 0.7277504205703735,
      "learning_rate": 0.00027643745230618863,
      "loss": 3.9849,
      "step": 88440
    },
    {
      "epoch": 0.18427083333333333,
      "grad_norm": 0.7299270629882812,
      "learning_rate": 0.00027643214769083603,
      "loss": 3.9388,
      "step": 88450
    },
    {
      "epoch": 0.18429166666666666,
      "grad_norm": 0.6751368045806885,
      "learning_rate": 0.00027642684252934666,
      "loss": 3.9853,
      "step": 88460
    },
    {
      "epoch": 0.1843125,
      "grad_norm": 0.7517796158790588,
      "learning_rate": 0.0002764215368217433,
      "loss": 4.0856,
      "step": 88470
    },
    {
      "epoch": 0.18433333333333332,
      "grad_norm": 0.7871310114860535,
      "learning_rate": 0.000276416230568049,
      "loss": 3.9931,
      "step": 88480
    },
    {
      "epoch": 0.18435416666666668,
      "grad_norm": 0.8664315342903137,
      "learning_rate": 0.0002764109237682866,
      "loss": 3.943,
      "step": 88490
    },
    {
      "epoch": 0.184375,
      "grad_norm": 0.8582894206047058,
      "learning_rate": 0.000276405616422479,
      "loss": 4.153,
      "step": 88500
    },
    {
      "epoch": 0.18439583333333334,
      "grad_norm": 0.7225536108016968,
      "learning_rate": 0.0002764003085306492,
      "loss": 3.8939,
      "step": 88510
    },
    {
      "epoch": 0.18441666666666667,
      "grad_norm": 0.721159040927887,
      "learning_rate": 0.00027639500009282015,
      "loss": 3.7858,
      "step": 88520
    },
    {
      "epoch": 0.1844375,
      "grad_norm": 0.8943138122558594,
      "learning_rate": 0.00027638969110901473,
      "loss": 3.8634,
      "step": 88530
    },
    {
      "epoch": 0.18445833333333334,
      "grad_norm": 0.7939661741256714,
      "learning_rate": 0.0002763843815792558,
      "loss": 3.8654,
      "step": 88540
    },
    {
      "epoch": 0.18447916666666667,
      "grad_norm": 0.7544674873352051,
      "learning_rate": 0.0002763790715035664,
      "loss": 3.8772,
      "step": 88550
    },
    {
      "epoch": 0.1845,
      "grad_norm": 0.748901903629303,
      "learning_rate": 0.0002763737608819694,
      "loss": 3.9768,
      "step": 88560
    },
    {
      "epoch": 0.18452083333333333,
      "grad_norm": 0.7297369241714478,
      "learning_rate": 0.0002763684497144879,
      "loss": 4.1252,
      "step": 88570
    },
    {
      "epoch": 0.18454166666666666,
      "grad_norm": 0.6932283043861389,
      "learning_rate": 0.0002763631380011446,
      "loss": 3.9537,
      "step": 88580
    },
    {
      "epoch": 0.1845625,
      "grad_norm": 0.805833101272583,
      "learning_rate": 0.0002763578257419626,
      "loss": 3.8452,
      "step": 88590
    },
    {
      "epoch": 0.18458333333333332,
      "grad_norm": 0.7612653374671936,
      "learning_rate": 0.0002763525129369648,
      "loss": 3.8933,
      "step": 88600
    },
    {
      "epoch": 0.18460416666666668,
      "grad_norm": 0.7577599883079529,
      "learning_rate": 0.00027634719958617417,
      "loss": 3.9752,
      "step": 88610
    },
    {
      "epoch": 0.184625,
      "grad_norm": 0.6952414512634277,
      "learning_rate": 0.00027634188568961365,
      "loss": 4.0679,
      "step": 88620
    },
    {
      "epoch": 0.18464583333333334,
      "grad_norm": 0.9316269755363464,
      "learning_rate": 0.0002763365712473062,
      "loss": 3.9413,
      "step": 88630
    },
    {
      "epoch": 0.18466666666666667,
      "grad_norm": 0.6981588006019592,
      "learning_rate": 0.0002763312562592747,
      "loss": 3.937,
      "step": 88640
    },
    {
      "epoch": 0.1846875,
      "grad_norm": 0.7068548202514648,
      "learning_rate": 0.0002763259407255423,
      "loss": 3.8029,
      "step": 88650
    },
    {
      "epoch": 0.18470833333333334,
      "grad_norm": 0.7920008897781372,
      "learning_rate": 0.00027632062464613173,
      "loss": 4.1221,
      "step": 88660
    },
    {
      "epoch": 0.18472916666666667,
      "grad_norm": 1.3808574676513672,
      "learning_rate": 0.00027631530802106613,
      "loss": 3.9122,
      "step": 88670
    },
    {
      "epoch": 0.18475,
      "grad_norm": 0.852178156375885,
      "learning_rate": 0.00027630999085036836,
      "loss": 4.0765,
      "step": 88680
    },
    {
      "epoch": 0.18477083333333333,
      "grad_norm": 0.8481760025024414,
      "learning_rate": 0.00027630467313406146,
      "loss": 3.9964,
      "step": 88690
    },
    {
      "epoch": 0.18479166666666666,
      "grad_norm": 0.7423007488250732,
      "learning_rate": 0.00027629935487216836,
      "loss": 3.732,
      "step": 88700
    },
    {
      "epoch": 0.1848125,
      "grad_norm": 0.785493016242981,
      "learning_rate": 0.000276294036064712,
      "loss": 4.0228,
      "step": 88710
    },
    {
      "epoch": 0.18483333333333332,
      "grad_norm": 0.8060574531555176,
      "learning_rate": 0.00027628871671171544,
      "loss": 4.0448,
      "step": 88720
    },
    {
      "epoch": 0.18485416666666668,
      "grad_norm": 2.909912347793579,
      "learning_rate": 0.0002762833968132016,
      "loss": 4.023,
      "step": 88730
    },
    {
      "epoch": 0.184875,
      "grad_norm": 0.7693156599998474,
      "learning_rate": 0.00027627807636919344,
      "loss": 3.9898,
      "step": 88740
    },
    {
      "epoch": 0.18489583333333334,
      "grad_norm": 0.7227055430412292,
      "learning_rate": 0.000276272755379714,
      "loss": 3.8248,
      "step": 88750
    },
    {
      "epoch": 0.18491666666666667,
      "grad_norm": 0.7221776843070984,
      "learning_rate": 0.00027626743384478623,
      "loss": 4.0202,
      "step": 88760
    },
    {
      "epoch": 0.1849375,
      "grad_norm": 0.710896909236908,
      "learning_rate": 0.00027626211176443315,
      "loss": 3.9443,
      "step": 88770
    },
    {
      "epoch": 0.18495833333333334,
      "grad_norm": 0.6673493981361389,
      "learning_rate": 0.0002762567891386777,
      "loss": 4.0255,
      "step": 88780
    },
    {
      "epoch": 0.18497916666666667,
      "grad_norm": 0.8053713440895081,
      "learning_rate": 0.0002762514659675429,
      "loss": 3.9367,
      "step": 88790
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.6909416317939758,
      "learning_rate": 0.00027624614225105177,
      "loss": 3.9277,
      "step": 88800
    },
    {
      "epoch": 0.18502083333333333,
      "grad_norm": 0.8633298873901367,
      "learning_rate": 0.00027624081798922727,
      "loss": 3.9217,
      "step": 88810
    },
    {
      "epoch": 0.18504166666666666,
      "grad_norm": 0.7115922570228577,
      "learning_rate": 0.00027623549318209233,
      "loss": 3.9014,
      "step": 88820
    },
    {
      "epoch": 0.1850625,
      "grad_norm": 0.7920133471488953,
      "learning_rate": 0.0002762301678296701,
      "loss": 3.9994,
      "step": 88830
    },
    {
      "epoch": 0.18508333333333332,
      "grad_norm": 0.6990574598312378,
      "learning_rate": 0.00027622484193198354,
      "loss": 3.9916,
      "step": 88840
    },
    {
      "epoch": 0.18510416666666665,
      "grad_norm": 0.851533055305481,
      "learning_rate": 0.00027621951548905554,
      "loss": 4.0342,
      "step": 88850
    },
    {
      "epoch": 0.185125,
      "grad_norm": 0.6753920316696167,
      "learning_rate": 0.0002762141885009092,
      "loss": 4.0132,
      "step": 88860
    },
    {
      "epoch": 0.18514583333333334,
      "grad_norm": 0.8283059597015381,
      "learning_rate": 0.00027620886096756765,
      "loss": 3.8397,
      "step": 88870
    },
    {
      "epoch": 0.18516666666666667,
      "grad_norm": 0.7125903964042664,
      "learning_rate": 0.00027620353288905367,
      "loss": 4.1474,
      "step": 88880
    },
    {
      "epoch": 0.1851875,
      "grad_norm": 1.0602282285690308,
      "learning_rate": 0.00027619820426539037,
      "loss": 4.045,
      "step": 88890
    },
    {
      "epoch": 0.18520833333333334,
      "grad_norm": 0.7853630781173706,
      "learning_rate": 0.00027619287509660084,
      "loss": 4.0366,
      "step": 88900
    },
    {
      "epoch": 0.18522916666666667,
      "grad_norm": 0.7283516526222229,
      "learning_rate": 0.000276187545382708,
      "loss": 3.9581,
      "step": 88910
    },
    {
      "epoch": 0.18525,
      "grad_norm": 0.7134384512901306,
      "learning_rate": 0.000276182215123735,
      "loss": 4.0543,
      "step": 88920
    },
    {
      "epoch": 0.18527083333333333,
      "grad_norm": 0.7980267405509949,
      "learning_rate": 0.00027617688431970464,
      "loss": 3.8665,
      "step": 88930
    },
    {
      "epoch": 0.18529166666666666,
      "grad_norm": 0.9083043336868286,
      "learning_rate": 0.00027617155297064017,
      "loss": 3.8635,
      "step": 88940
    },
    {
      "epoch": 0.1853125,
      "grad_norm": 0.7255121469497681,
      "learning_rate": 0.0002761662210765645,
      "loss": 3.7795,
      "step": 88950
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 0.9030846953392029,
      "learning_rate": 0.00027616088863750073,
      "loss": 4.0779,
      "step": 88960
    },
    {
      "epoch": 0.18535416666666665,
      "grad_norm": 0.7669171094894409,
      "learning_rate": 0.0002761555556534718,
      "loss": 3.9201,
      "step": 88970
    },
    {
      "epoch": 0.185375,
      "grad_norm": 0.7465364933013916,
      "learning_rate": 0.0002761502221245009,
      "loss": 4.0523,
      "step": 88980
    },
    {
      "epoch": 0.18539583333333334,
      "grad_norm": 0.8280254006385803,
      "learning_rate": 0.0002761448880506109,
      "loss": 4.0381,
      "step": 88990
    },
    {
      "epoch": 0.18541666666666667,
      "grad_norm": 0.7784864902496338,
      "learning_rate": 0.0002761395534318249,
      "loss": 3.9399,
      "step": 89000
    },
    {
      "epoch": 0.18541666666666667,
      "eval_loss": 4.298866271972656,
      "eval_runtime": 12.0141,
      "eval_samples_per_second": 0.832,
      "eval_steps_per_second": 0.25,
      "step": 89000
    },
    {
      "epoch": 0.1854375,
      "grad_norm": 1.2096363306045532,
      "learning_rate": 0.00027613421826816595,
      "loss": 3.9134,
      "step": 89010
    },
    {
      "epoch": 0.18545833333333334,
      "grad_norm": 0.7081828713417053,
      "learning_rate": 0.00027612888255965724,
      "loss": 3.8537,
      "step": 89020
    },
    {
      "epoch": 0.18547916666666667,
      "grad_norm": 1.0037404298782349,
      "learning_rate": 0.00027612354630632155,
      "loss": 4.1552,
      "step": 89030
    },
    {
      "epoch": 0.1855,
      "grad_norm": 0.7764583230018616,
      "learning_rate": 0.00027611820950818207,
      "loss": 3.8679,
      "step": 89040
    },
    {
      "epoch": 0.18552083333333333,
      "grad_norm": 0.8074873089790344,
      "learning_rate": 0.0002761128721652619,
      "loss": 3.9948,
      "step": 89050
    },
    {
      "epoch": 0.18554166666666666,
      "grad_norm": 0.7888335585594177,
      "learning_rate": 0.000276107534277584,
      "loss": 4.0423,
      "step": 89060
    },
    {
      "epoch": 0.1855625,
      "grad_norm": 0.8509371280670166,
      "learning_rate": 0.0002761021958451715,
      "loss": 4.0586,
      "step": 89070
    },
    {
      "epoch": 0.18558333333333332,
      "grad_norm": 1.0026004314422607,
      "learning_rate": 0.0002760968568680474,
      "loss": 3.8302,
      "step": 89080
    },
    {
      "epoch": 0.18560416666666665,
      "grad_norm": 0.8381650447845459,
      "learning_rate": 0.0002760915173462348,
      "loss": 3.9405,
      "step": 89090
    },
    {
      "epoch": 0.185625,
      "grad_norm": 0.7993146777153015,
      "learning_rate": 0.0002760861772797568,
      "loss": 4.0074,
      "step": 89100
    },
    {
      "epoch": 0.18564583333333334,
      "grad_norm": 0.720235288143158,
      "learning_rate": 0.00027608083666863634,
      "loss": 4.106,
      "step": 89110
    },
    {
      "epoch": 0.18566666666666667,
      "grad_norm": 0.860051155090332,
      "learning_rate": 0.00027607549551289664,
      "loss": 4.0359,
      "step": 89120
    },
    {
      "epoch": 0.1856875,
      "grad_norm": 0.7113305330276489,
      "learning_rate": 0.0002760701538125607,
      "loss": 3.9432,
      "step": 89130
    },
    {
      "epoch": 0.18570833333333334,
      "grad_norm": 1.0736980438232422,
      "learning_rate": 0.00027606481156765153,
      "loss": 4.1147,
      "step": 89140
    },
    {
      "epoch": 0.18572916666666667,
      "grad_norm": 0.8083234429359436,
      "learning_rate": 0.00027605946877819236,
      "loss": 3.9846,
      "step": 89150
    },
    {
      "epoch": 0.18575,
      "grad_norm": 0.8779605627059937,
      "learning_rate": 0.00027605412544420615,
      "loss": 3.8787,
      "step": 89160
    },
    {
      "epoch": 0.18577083333333333,
      "grad_norm": 0.7097904682159424,
      "learning_rate": 0.000276048781565716,
      "loss": 3.9343,
      "step": 89170
    },
    {
      "epoch": 0.18579166666666666,
      "grad_norm": 0.7155259847640991,
      "learning_rate": 0.000276043437142745,
      "loss": 3.8689,
      "step": 89180
    },
    {
      "epoch": 0.1858125,
      "grad_norm": 0.7701885104179382,
      "learning_rate": 0.00027603809217531625,
      "loss": 3.7983,
      "step": 89190
    },
    {
      "epoch": 0.18583333333333332,
      "grad_norm": 0.7614938616752625,
      "learning_rate": 0.00027603274666345286,
      "loss": 3.964,
      "step": 89200
    },
    {
      "epoch": 0.18585416666666665,
      "grad_norm": 0.8108147382736206,
      "learning_rate": 0.00027602740060717783,
      "loss": 3.9181,
      "step": 89210
    },
    {
      "epoch": 0.185875,
      "grad_norm": 0.7919842004776001,
      "learning_rate": 0.0002760220540065144,
      "loss": 3.888,
      "step": 89220
    },
    {
      "epoch": 0.18589583333333334,
      "grad_norm": 0.8006912469863892,
      "learning_rate": 0.0002760167068614855,
      "loss": 3.9911,
      "step": 89230
    },
    {
      "epoch": 0.18591666666666667,
      "grad_norm": 0.6830794811248779,
      "learning_rate": 0.00027601135917211436,
      "loss": 3.9372,
      "step": 89240
    },
    {
      "epoch": 0.1859375,
      "grad_norm": 0.7485286593437195,
      "learning_rate": 0.00027600601093842397,
      "loss": 4.0607,
      "step": 89250
    },
    {
      "epoch": 0.18595833333333334,
      "grad_norm": 0.7953529357910156,
      "learning_rate": 0.0002760006621604375,
      "loss": 4.0595,
      "step": 89260
    },
    {
      "epoch": 0.18597916666666667,
      "grad_norm": 0.6941603422164917,
      "learning_rate": 0.0002759953128381781,
      "loss": 4.0179,
      "step": 89270
    },
    {
      "epoch": 0.186,
      "grad_norm": 0.6825506687164307,
      "learning_rate": 0.0002759899629716688,
      "loss": 3.9162,
      "step": 89280
    },
    {
      "epoch": 0.18602083333333333,
      "grad_norm": 0.9081491231918335,
      "learning_rate": 0.0002759846125609327,
      "loss": 3.6899,
      "step": 89290
    },
    {
      "epoch": 0.18604166666666666,
      "grad_norm": 0.8196941614151001,
      "learning_rate": 0.000275979261605993,
      "loss": 3.8499,
      "step": 89300
    },
    {
      "epoch": 0.1860625,
      "grad_norm": 0.7357652187347412,
      "learning_rate": 0.0002759739101068727,
      "loss": 3.9789,
      "step": 89310
    },
    {
      "epoch": 0.18608333333333332,
      "grad_norm": 0.8006840944290161,
      "learning_rate": 0.00027596855806359503,
      "loss": 3.8858,
      "step": 89320
    },
    {
      "epoch": 0.18610416666666665,
      "grad_norm": 0.8082605600357056,
      "learning_rate": 0.000275963205476183,
      "loss": 3.9375,
      "step": 89330
    },
    {
      "epoch": 0.186125,
      "grad_norm": 0.8830567002296448,
      "learning_rate": 0.00027595785234465976,
      "loss": 3.8676,
      "step": 89340
    },
    {
      "epoch": 0.18614583333333334,
      "grad_norm": 0.9486656785011292,
      "learning_rate": 0.0002759524986690485,
      "loss": 4.1069,
      "step": 89350
    },
    {
      "epoch": 0.18616666666666667,
      "grad_norm": 0.7805612087249756,
      "learning_rate": 0.0002759471444493723,
      "loss": 3.9353,
      "step": 89360
    },
    {
      "epoch": 0.1861875,
      "grad_norm": 0.8980852961540222,
      "learning_rate": 0.0002759417896856543,
      "loss": 4.1242,
      "step": 89370
    },
    {
      "epoch": 0.18620833333333334,
      "grad_norm": 0.6506435871124268,
      "learning_rate": 0.0002759364343779176,
      "loss": 3.8812,
      "step": 89380
    },
    {
      "epoch": 0.18622916666666667,
      "grad_norm": 0.7133354544639587,
      "learning_rate": 0.0002759310785261854,
      "loss": 3.993,
      "step": 89390
    },
    {
      "epoch": 0.18625,
      "grad_norm": 0.7775059342384338,
      "learning_rate": 0.0002759257221304807,
      "loss": 3.9676,
      "step": 89400
    },
    {
      "epoch": 0.18627083333333333,
      "grad_norm": 0.6684448719024658,
      "learning_rate": 0.0002759203651908267,
      "loss": 3.9214,
      "step": 89410
    },
    {
      "epoch": 0.18629166666666666,
      "grad_norm": 0.7657297849655151,
      "learning_rate": 0.0002759150077072467,
      "loss": 3.8964,
      "step": 89420
    },
    {
      "epoch": 0.1863125,
      "grad_norm": 0.6800009608268738,
      "learning_rate": 0.0002759096496797636,
      "loss": 3.7839,
      "step": 89430
    },
    {
      "epoch": 0.18633333333333332,
      "grad_norm": 0.8518722057342529,
      "learning_rate": 0.0002759042911084007,
      "loss": 3.8452,
      "step": 89440
    },
    {
      "epoch": 0.18635416666666665,
      "grad_norm": 0.7656694650650024,
      "learning_rate": 0.0002758989319931811,
      "loss": 4.1663,
      "step": 89450
    },
    {
      "epoch": 0.186375,
      "grad_norm": 0.8027648329734802,
      "learning_rate": 0.00027589357233412794,
      "loss": 3.8722,
      "step": 89460
    },
    {
      "epoch": 0.18639583333333334,
      "grad_norm": 0.8354061245918274,
      "learning_rate": 0.0002758882121312644,
      "loss": 3.8319,
      "step": 89470
    },
    {
      "epoch": 0.18641666666666667,
      "grad_norm": 1.0203309059143066,
      "learning_rate": 0.0002758828513846136,
      "loss": 3.9267,
      "step": 89480
    },
    {
      "epoch": 0.1864375,
      "grad_norm": 0.7360163331031799,
      "learning_rate": 0.0002758774900941987,
      "loss": 4.0231,
      "step": 89490
    },
    {
      "epoch": 0.18645833333333334,
      "grad_norm": 0.7954447865486145,
      "learning_rate": 0.0002758721282600428,
      "loss": 3.8451,
      "step": 89500
    },
    {
      "epoch": 0.18647916666666667,
      "grad_norm": 0.6878617405891418,
      "learning_rate": 0.00027586676588216925,
      "loss": 3.9694,
      "step": 89510
    },
    {
      "epoch": 0.1865,
      "grad_norm": 0.7182298302650452,
      "learning_rate": 0.00027586140296060105,
      "loss": 3.8655,
      "step": 89520
    },
    {
      "epoch": 0.18652083333333333,
      "grad_norm": 0.7702656984329224,
      "learning_rate": 0.0002758560394953614,
      "loss": 3.8865,
      "step": 89530
    },
    {
      "epoch": 0.18654166666666666,
      "grad_norm": 0.7679427862167358,
      "learning_rate": 0.00027585067548647346,
      "loss": 3.907,
      "step": 89540
    },
    {
      "epoch": 0.1865625,
      "grad_norm": 0.6802034974098206,
      "learning_rate": 0.0002758453109339605,
      "loss": 3.8685,
      "step": 89550
    },
    {
      "epoch": 0.18658333333333332,
      "grad_norm": 0.8093920946121216,
      "learning_rate": 0.0002758399458378455,
      "loss": 3.9711,
      "step": 89560
    },
    {
      "epoch": 0.18660416666666665,
      "grad_norm": 0.7637585997581482,
      "learning_rate": 0.0002758345801981518,
      "loss": 3.8115,
      "step": 89570
    },
    {
      "epoch": 0.186625,
      "grad_norm": 0.7978289723396301,
      "learning_rate": 0.0002758292140149025,
      "loss": 3.9875,
      "step": 89580
    },
    {
      "epoch": 0.18664583333333334,
      "grad_norm": 0.7508188486099243,
      "learning_rate": 0.0002758238472881208,
      "loss": 4.0969,
      "step": 89590
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.7081105709075928,
      "learning_rate": 0.0002758184800178299,
      "loss": 4.1183,
      "step": 89600
    },
    {
      "epoch": 0.1866875,
      "grad_norm": 0.744877278804779,
      "learning_rate": 0.000275813112204053,
      "loss": 3.7202,
      "step": 89610
    },
    {
      "epoch": 0.18670833333333334,
      "grad_norm": 0.813997209072113,
      "learning_rate": 0.0002758077438468132,
      "loss": 4.0378,
      "step": 89620
    },
    {
      "epoch": 0.18672916666666667,
      "grad_norm": 0.8119266033172607,
      "learning_rate": 0.0002758023749461337,
      "loss": 3.8986,
      "step": 89630
    },
    {
      "epoch": 0.18675,
      "grad_norm": 0.8180190324783325,
      "learning_rate": 0.00027579700550203783,
      "loss": 3.9859,
      "step": 89640
    },
    {
      "epoch": 0.18677083333333333,
      "grad_norm": 0.9067244529724121,
      "learning_rate": 0.0002757916355145487,
      "loss": 3.8231,
      "step": 89650
    },
    {
      "epoch": 0.18679166666666666,
      "grad_norm": 0.7998123168945312,
      "learning_rate": 0.0002757862649836895,
      "loss": 3.9886,
      "step": 89660
    },
    {
      "epoch": 0.1868125,
      "grad_norm": 0.7788608074188232,
      "learning_rate": 0.0002757808939094834,
      "loss": 3.9497,
      "step": 89670
    },
    {
      "epoch": 0.18683333333333332,
      "grad_norm": 0.7209687232971191,
      "learning_rate": 0.0002757755222919536,
      "loss": 3.7818,
      "step": 89680
    },
    {
      "epoch": 0.18685416666666665,
      "grad_norm": 0.7668169140815735,
      "learning_rate": 0.0002757701501311233,
      "loss": 4.0408,
      "step": 89690
    },
    {
      "epoch": 0.186875,
      "grad_norm": 0.7057467103004456,
      "learning_rate": 0.0002757647774270158,
      "loss": 3.7789,
      "step": 89700
    },
    {
      "epoch": 0.18689583333333334,
      "grad_norm": 0.797359824180603,
      "learning_rate": 0.0002757594041796542,
      "loss": 3.87,
      "step": 89710
    },
    {
      "epoch": 0.18691666666666668,
      "grad_norm": 0.7950314879417419,
      "learning_rate": 0.0002757540303890617,
      "loss": 3.931,
      "step": 89720
    },
    {
      "epoch": 0.1869375,
      "grad_norm": 0.7354533076286316,
      "learning_rate": 0.0002757486560552617,
      "loss": 3.8874,
      "step": 89730
    },
    {
      "epoch": 0.18695833333333334,
      "grad_norm": 0.8701459765434265,
      "learning_rate": 0.0002757432811782772,
      "loss": 3.9536,
      "step": 89740
    },
    {
      "epoch": 0.18697916666666667,
      "grad_norm": 0.7935304641723633,
      "learning_rate": 0.00027573790575813155,
      "loss": 3.9164,
      "step": 89750
    },
    {
      "epoch": 0.187,
      "grad_norm": 0.7384026050567627,
      "learning_rate": 0.00027573252979484785,
      "loss": 3.8527,
      "step": 89760
    },
    {
      "epoch": 0.18702083333333333,
      "grad_norm": 0.8241063356399536,
      "learning_rate": 0.00027572715328844945,
      "loss": 3.7992,
      "step": 89770
    },
    {
      "epoch": 0.18704166666666666,
      "grad_norm": 0.9801690578460693,
      "learning_rate": 0.00027572177623895943,
      "loss": 3.7796,
      "step": 89780
    },
    {
      "epoch": 0.1870625,
      "grad_norm": 0.8996636271476746,
      "learning_rate": 0.00027571639864640117,
      "loss": 3.8248,
      "step": 89790
    },
    {
      "epoch": 0.18708333333333332,
      "grad_norm": 0.8434402346611023,
      "learning_rate": 0.0002757110205107978,
      "loss": 4.0475,
      "step": 89800
    },
    {
      "epoch": 0.18710416666666665,
      "grad_norm": 0.7799971699714661,
      "learning_rate": 0.00027570564183217265,
      "loss": 4.0126,
      "step": 89810
    },
    {
      "epoch": 0.187125,
      "grad_norm": 0.8561511635780334,
      "learning_rate": 0.0002757002626105488,
      "loss": 3.8496,
      "step": 89820
    },
    {
      "epoch": 0.18714583333333334,
      "grad_norm": 0.723863959312439,
      "learning_rate": 0.0002756948828459496,
      "loss": 4.0591,
      "step": 89830
    },
    {
      "epoch": 0.18716666666666668,
      "grad_norm": 0.8599280118942261,
      "learning_rate": 0.0002756895025383983,
      "loss": 3.9083,
      "step": 89840
    },
    {
      "epoch": 0.1871875,
      "grad_norm": 0.8584170937538147,
      "learning_rate": 0.00027568412168791804,
      "loss": 3.768,
      "step": 89850
    },
    {
      "epoch": 0.18720833333333334,
      "grad_norm": 0.8101885914802551,
      "learning_rate": 0.0002756787402945321,
      "loss": 4.0316,
      "step": 89860
    },
    {
      "epoch": 0.18722916666666667,
      "grad_norm": 0.7032775282859802,
      "learning_rate": 0.00027567335835826384,
      "loss": 3.9187,
      "step": 89870
    },
    {
      "epoch": 0.18725,
      "grad_norm": 0.8329091668128967,
      "learning_rate": 0.00027566797587913635,
      "loss": 4.0463,
      "step": 89880
    },
    {
      "epoch": 0.18727083333333333,
      "grad_norm": 0.733814537525177,
      "learning_rate": 0.000275662592857173,
      "loss": 3.9978,
      "step": 89890
    },
    {
      "epoch": 0.18729166666666666,
      "grad_norm": 0.8260434865951538,
      "learning_rate": 0.00027565720929239695,
      "loss": 3.8844,
      "step": 89900
    },
    {
      "epoch": 0.1873125,
      "grad_norm": 0.741408109664917,
      "learning_rate": 0.0002756518251848315,
      "loss": 3.8955,
      "step": 89910
    },
    {
      "epoch": 0.18733333333333332,
      "grad_norm": 1.0143468379974365,
      "learning_rate": 0.00027564644053449993,
      "loss": 4.0574,
      "step": 89920
    },
    {
      "epoch": 0.18735416666666665,
      "grad_norm": 0.8887616395950317,
      "learning_rate": 0.0002756410553414254,
      "loss": 3.8075,
      "step": 89930
    },
    {
      "epoch": 0.187375,
      "grad_norm": 0.6973094344139099,
      "learning_rate": 0.0002756356696056313,
      "loss": 4.1351,
      "step": 89940
    },
    {
      "epoch": 0.18739583333333334,
      "grad_norm": 0.8250039219856262,
      "learning_rate": 0.00027563028332714084,
      "loss": 3.9998,
      "step": 89950
    },
    {
      "epoch": 0.18741666666666668,
      "grad_norm": 0.7200683355331421,
      "learning_rate": 0.0002756248965059773,
      "loss": 3.9812,
      "step": 89960
    },
    {
      "epoch": 0.1874375,
      "grad_norm": 0.7437129616737366,
      "learning_rate": 0.00027561950914216387,
      "loss": 3.9968,
      "step": 89970
    },
    {
      "epoch": 0.18745833333333334,
      "grad_norm": 0.7318971753120422,
      "learning_rate": 0.00027561412123572397,
      "loss": 4.0593,
      "step": 89980
    },
    {
      "epoch": 0.18747916666666667,
      "grad_norm": 0.8358121514320374,
      "learning_rate": 0.0002756087327866807,
      "loss": 4.2084,
      "step": 89990
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.9614058136940002,
      "learning_rate": 0.00027560334379505744,
      "loss": 3.8818,
      "step": 90000
    },
    {
      "epoch": 0.1875,
      "eval_loss": 4.2920942306518555,
      "eval_runtime": 10.9871,
      "eval_samples_per_second": 0.91,
      "eval_steps_per_second": 0.273,
      "step": 90000
    },
    {
      "epoch": 0.18752083333333333,
      "grad_norm": 1.11366868019104,
      "learning_rate": 0.0002755979542608775,
      "loss": 3.8387,
      "step": 90010
    },
    {
      "epoch": 0.18754166666666666,
      "grad_norm": 0.8971464037895203,
      "learning_rate": 0.0002755925641841641,
      "loss": 3.9103,
      "step": 90020
    },
    {
      "epoch": 0.1875625,
      "grad_norm": 1.0217576026916504,
      "learning_rate": 0.0002755871735649405,
      "loss": 3.9588,
      "step": 90030
    },
    {
      "epoch": 0.18758333333333332,
      "grad_norm": 0.8443076610565186,
      "learning_rate": 0.00027558178240323,
      "loss": 3.8041,
      "step": 90040
    },
    {
      "epoch": 0.18760416666666666,
      "grad_norm": 1.0453131198883057,
      "learning_rate": 0.000275576390699056,
      "loss": 4.0446,
      "step": 90050
    },
    {
      "epoch": 0.187625,
      "grad_norm": 0.6860546469688416,
      "learning_rate": 0.00027557099845244165,
      "loss": 4.0248,
      "step": 90060
    },
    {
      "epoch": 0.18764583333333335,
      "grad_norm": 0.8259005546569824,
      "learning_rate": 0.00027556560566341023,
      "loss": 3.8635,
      "step": 90070
    },
    {
      "epoch": 0.18766666666666668,
      "grad_norm": 0.8179410099983215,
      "learning_rate": 0.0002755602123319852,
      "loss": 3.863,
      "step": 90080
    },
    {
      "epoch": 0.1876875,
      "grad_norm": 0.7073521614074707,
      "learning_rate": 0.00027555481845818974,
      "loss": 3.9528,
      "step": 90090
    },
    {
      "epoch": 0.18770833333333334,
      "grad_norm": 0.8947041630744934,
      "learning_rate": 0.00027554942404204707,
      "loss": 4.1079,
      "step": 90100
    },
    {
      "epoch": 0.18772916666666667,
      "grad_norm": 0.6746863722801208,
      "learning_rate": 0.00027554402908358067,
      "loss": 3.8617,
      "step": 90110
    },
    {
      "epoch": 0.18775,
      "grad_norm": 0.9067639112472534,
      "learning_rate": 0.00027553863358281374,
      "loss": 4.2157,
      "step": 90120
    },
    {
      "epoch": 0.18777083333333333,
      "grad_norm": 0.7524749040603638,
      "learning_rate": 0.0002755332375397696,
      "loss": 3.8636,
      "step": 90130
    },
    {
      "epoch": 0.18779166666666666,
      "grad_norm": 0.8891716003417969,
      "learning_rate": 0.00027552784095447155,
      "loss": 3.8854,
      "step": 90140
    },
    {
      "epoch": 0.1878125,
      "grad_norm": 0.7647290229797363,
      "learning_rate": 0.00027552244382694297,
      "loss": 3.7469,
      "step": 90150
    },
    {
      "epoch": 0.18783333333333332,
      "grad_norm": 0.7565181851387024,
      "learning_rate": 0.00027551704615720704,
      "loss": 3.6436,
      "step": 90160
    },
    {
      "epoch": 0.18785416666666666,
      "grad_norm": 0.8345105648040771,
      "learning_rate": 0.0002755116479452872,
      "loss": 3.8707,
      "step": 90170
    },
    {
      "epoch": 0.187875,
      "grad_norm": 0.8356766104698181,
      "learning_rate": 0.0002755062491912067,
      "loss": 3.8833,
      "step": 90180
    },
    {
      "epoch": 0.18789583333333335,
      "grad_norm": 1.0346956253051758,
      "learning_rate": 0.0002755008498949889,
      "loss": 4.1915,
      "step": 90190
    },
    {
      "epoch": 0.18791666666666668,
      "grad_norm": 0.8076524138450623,
      "learning_rate": 0.0002754954500566571,
      "loss": 3.8596,
      "step": 90200
    },
    {
      "epoch": 0.1879375,
      "grad_norm": 0.7552304267883301,
      "learning_rate": 0.0002754900496762346,
      "loss": 3.9999,
      "step": 90210
    },
    {
      "epoch": 0.18795833333333334,
      "grad_norm": 0.7007092237472534,
      "learning_rate": 0.0002754846487537448,
      "loss": 3.9292,
      "step": 90220
    },
    {
      "epoch": 0.18797916666666667,
      "grad_norm": 0.8677220344543457,
      "learning_rate": 0.000275479247289211,
      "loss": 4.0425,
      "step": 90230
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.7654786109924316,
      "learning_rate": 0.00027547384528265646,
      "loss": 3.893,
      "step": 90240
    },
    {
      "epoch": 0.18802083333333333,
      "grad_norm": 0.7446410655975342,
      "learning_rate": 0.0002754684427341046,
      "loss": 3.8495,
      "step": 90250
    },
    {
      "epoch": 0.18804166666666666,
      "grad_norm": 0.7536426782608032,
      "learning_rate": 0.00027546303964357877,
      "loss": 3.8203,
      "step": 90260
    },
    {
      "epoch": 0.1880625,
      "grad_norm": 0.7190613150596619,
      "learning_rate": 0.0002754576360111022,
      "loss": 3.9754,
      "step": 90270
    },
    {
      "epoch": 0.18808333333333332,
      "grad_norm": 0.7491293549537659,
      "learning_rate": 0.0002754522318366983,
      "loss": 4.0677,
      "step": 90280
    },
    {
      "epoch": 0.18810416666666666,
      "grad_norm": 1.0107452869415283,
      "learning_rate": 0.0002754468271203905,
      "loss": 3.8851,
      "step": 90290
    },
    {
      "epoch": 0.188125,
      "grad_norm": 0.684029221534729,
      "learning_rate": 0.00027544142186220204,
      "loss": 3.7384,
      "step": 90300
    },
    {
      "epoch": 0.18814583333333335,
      "grad_norm": 0.8449579477310181,
      "learning_rate": 0.00027543601606215627,
      "loss": 3.9798,
      "step": 90310
    },
    {
      "epoch": 0.18816666666666668,
      "grad_norm": 0.7163834571838379,
      "learning_rate": 0.00027543060972027656,
      "loss": 3.9439,
      "step": 90320
    },
    {
      "epoch": 0.1881875,
      "grad_norm": 0.7535377144813538,
      "learning_rate": 0.00027542520283658627,
      "loss": 3.9214,
      "step": 90330
    },
    {
      "epoch": 0.18820833333333334,
      "grad_norm": 0.7216730117797852,
      "learning_rate": 0.0002754197954111087,
      "loss": 4.024,
      "step": 90340
    },
    {
      "epoch": 0.18822916666666667,
      "grad_norm": 0.7601853609085083,
      "learning_rate": 0.00027541438744386733,
      "loss": 3.8554,
      "step": 90350
    },
    {
      "epoch": 0.18825,
      "grad_norm": 0.6821929216384888,
      "learning_rate": 0.0002754089789348854,
      "loss": 3.8161,
      "step": 90360
    },
    {
      "epoch": 0.18827083333333333,
      "grad_norm": 0.6998051404953003,
      "learning_rate": 0.00027540356988418636,
      "loss": 3.7827,
      "step": 90370
    },
    {
      "epoch": 0.18829166666666666,
      "grad_norm": 0.7484045028686523,
      "learning_rate": 0.0002753981602917935,
      "loss": 3.9709,
      "step": 90380
    },
    {
      "epoch": 0.1883125,
      "grad_norm": 0.7463517785072327,
      "learning_rate": 0.00027539275015773027,
      "loss": 4.0278,
      "step": 90390
    },
    {
      "epoch": 0.18833333333333332,
      "grad_norm": 0.8142198324203491,
      "learning_rate": 0.00027538733948201995,
      "loss": 4.0242,
      "step": 90400
    },
    {
      "epoch": 0.18835416666666666,
      "grad_norm": 0.777458131313324,
      "learning_rate": 0.00027538192826468604,
      "loss": 3.9408,
      "step": 90410
    },
    {
      "epoch": 0.188375,
      "grad_norm": 1.2004265785217285,
      "learning_rate": 0.0002753765165057517,
      "loss": 3.7879,
      "step": 90420
    },
    {
      "epoch": 0.18839583333333335,
      "grad_norm": 0.6975199580192566,
      "learning_rate": 0.0002753711042052405,
      "loss": 3.925,
      "step": 90430
    },
    {
      "epoch": 0.18841666666666668,
      "grad_norm": 0.7498310804367065,
      "learning_rate": 0.00027536569136317576,
      "loss": 3.7748,
      "step": 90440
    },
    {
      "epoch": 0.1884375,
      "grad_norm": 0.7448443174362183,
      "learning_rate": 0.00027536027797958086,
      "loss": 3.818,
      "step": 90450
    },
    {
      "epoch": 0.18845833333333334,
      "grad_norm": 0.7086969614028931,
      "learning_rate": 0.0002753548640544792,
      "loss": 4.0275,
      "step": 90460
    },
    {
      "epoch": 0.18847916666666667,
      "grad_norm": 0.7517547607421875,
      "learning_rate": 0.0002753494495878941,
      "loss": 3.8173,
      "step": 90470
    },
    {
      "epoch": 0.1885,
      "grad_norm": 0.9155359268188477,
      "learning_rate": 0.000275344034579849,
      "loss": 4.0659,
      "step": 90480
    },
    {
      "epoch": 0.18852083333333333,
      "grad_norm": 0.7029311656951904,
      "learning_rate": 0.0002753386190303673,
      "loss": 3.7859,
      "step": 90490
    },
    {
      "epoch": 0.18854166666666666,
      "grad_norm": 0.8668927550315857,
      "learning_rate": 0.00027533320293947236,
      "loss": 3.9797,
      "step": 90500
    },
    {
      "epoch": 0.1885625,
      "grad_norm": 0.8076042532920837,
      "learning_rate": 0.0002753277863071876,
      "loss": 3.9226,
      "step": 90510
    },
    {
      "epoch": 0.18858333333333333,
      "grad_norm": 0.6942238211631775,
      "learning_rate": 0.00027532236913353645,
      "loss": 4.1003,
      "step": 90520
    },
    {
      "epoch": 0.18860416666666666,
      "grad_norm": 0.8237395882606506,
      "learning_rate": 0.0002753169514185422,
      "loss": 3.9405,
      "step": 90530
    },
    {
      "epoch": 0.188625,
      "grad_norm": 0.7730165123939514,
      "learning_rate": 0.0002753115331622284,
      "loss": 3.8686,
      "step": 90540
    },
    {
      "epoch": 0.18864583333333335,
      "grad_norm": 0.7748793959617615,
      "learning_rate": 0.0002753061143646183,
      "loss": 3.9027,
      "step": 90550
    },
    {
      "epoch": 0.18866666666666668,
      "grad_norm": 0.7220009565353394,
      "learning_rate": 0.00027530069502573545,
      "loss": 3.7875,
      "step": 90560
    },
    {
      "epoch": 0.1886875,
      "grad_norm": 0.7040328979492188,
      "learning_rate": 0.0002752952751456032,
      "loss": 3.9804,
      "step": 90570
    },
    {
      "epoch": 0.18870833333333334,
      "grad_norm": 0.7275586128234863,
      "learning_rate": 0.00027528985472424495,
      "loss": 4.0049,
      "step": 90580
    },
    {
      "epoch": 0.18872916666666667,
      "grad_norm": 0.9606851935386658,
      "learning_rate": 0.00027528443376168406,
      "loss": 3.8625,
      "step": 90590
    },
    {
      "epoch": 0.18875,
      "grad_norm": 0.7357778549194336,
      "learning_rate": 0.00027527901225794403,
      "loss": 4.0667,
      "step": 90600
    },
    {
      "epoch": 0.18877083333333333,
      "grad_norm": 0.6824604272842407,
      "learning_rate": 0.0002752735902130483,
      "loss": 3.6783,
      "step": 90610
    },
    {
      "epoch": 0.18879166666666666,
      "grad_norm": 0.7038468718528748,
      "learning_rate": 0.00027526816762702024,
      "loss": 4.1564,
      "step": 90620
    },
    {
      "epoch": 0.1888125,
      "grad_norm": 0.8768200874328613,
      "learning_rate": 0.00027526274449988326,
      "loss": 3.9711,
      "step": 90630
    },
    {
      "epoch": 0.18883333333333333,
      "grad_norm": 0.8745374083518982,
      "learning_rate": 0.00027525732083166077,
      "loss": 4.0623,
      "step": 90640
    },
    {
      "epoch": 0.18885416666666666,
      "grad_norm": 0.8174855709075928,
      "learning_rate": 0.0002752518966223763,
      "loss": 3.9034,
      "step": 90650
    },
    {
      "epoch": 0.188875,
      "grad_norm": 0.8773013353347778,
      "learning_rate": 0.0002752464718720532,
      "loss": 3.921,
      "step": 90660
    },
    {
      "epoch": 0.18889583333333335,
      "grad_norm": 0.8423275351524353,
      "learning_rate": 0.0002752410465807149,
      "loss": 4.0036,
      "step": 90670
    },
    {
      "epoch": 0.18891666666666668,
      "grad_norm": 0.7193958759307861,
      "learning_rate": 0.00027523562074838485,
      "loss": 3.9239,
      "step": 90680
    },
    {
      "epoch": 0.1889375,
      "grad_norm": 0.8813473582267761,
      "learning_rate": 0.00027523019437508645,
      "loss": 4.0094,
      "step": 90690
    },
    {
      "epoch": 0.18895833333333334,
      "grad_norm": 0.7666972875595093,
      "learning_rate": 0.00027522476746084327,
      "loss": 3.8462,
      "step": 90700
    },
    {
      "epoch": 0.18897916666666667,
      "grad_norm": 0.8894777297973633,
      "learning_rate": 0.0002752193400056786,
      "loss": 3.9852,
      "step": 90710
    },
    {
      "epoch": 0.189,
      "grad_norm": 0.8080527186393738,
      "learning_rate": 0.000275213912009616,
      "loss": 3.957,
      "step": 90720
    },
    {
      "epoch": 0.18902083333333333,
      "grad_norm": 0.7745118141174316,
      "learning_rate": 0.00027520848347267876,
      "loss": 3.9157,
      "step": 90730
    },
    {
      "epoch": 0.18904166666666666,
      "grad_norm": 0.9185326099395752,
      "learning_rate": 0.00027520305439489057,
      "loss": 3.8117,
      "step": 90740
    },
    {
      "epoch": 0.1890625,
      "grad_norm": 0.8392927050590515,
      "learning_rate": 0.0002751976247762747,
      "loss": 3.8071,
      "step": 90750
    },
    {
      "epoch": 0.18908333333333333,
      "grad_norm": 0.954681932926178,
      "learning_rate": 0.00027519219461685454,
      "loss": 3.9229,
      "step": 90760
    },
    {
      "epoch": 0.18910416666666666,
      "grad_norm": 0.9523108601570129,
      "learning_rate": 0.00027518676391665375,
      "loss": 3.9633,
      "step": 90770
    },
    {
      "epoch": 0.189125,
      "grad_norm": 0.7654154896736145,
      "learning_rate": 0.0002751813326756957,
      "loss": 3.9699,
      "step": 90780
    },
    {
      "epoch": 0.18914583333333335,
      "grad_norm": 0.770520806312561,
      "learning_rate": 0.0002751759008940038,
      "loss": 3.8459,
      "step": 90790
    },
    {
      "epoch": 0.18916666666666668,
      "grad_norm": 0.8089296221733093,
      "learning_rate": 0.0002751704685716016,
      "loss": 3.9771,
      "step": 90800
    },
    {
      "epoch": 0.1891875,
      "grad_norm": 1.0744339227676392,
      "learning_rate": 0.0002751650357085125,
      "loss": 3.6902,
      "step": 90810
    },
    {
      "epoch": 0.18920833333333334,
      "grad_norm": 0.7356364727020264,
      "learning_rate": 0.00027515960230475997,
      "loss": 3.8714,
      "step": 90820
    },
    {
      "epoch": 0.18922916666666667,
      "grad_norm": 0.9227558970451355,
      "learning_rate": 0.00027515416836036753,
      "loss": 3.888,
      "step": 90830
    },
    {
      "epoch": 0.18925,
      "grad_norm": 0.7819401621818542,
      "learning_rate": 0.0002751487338753586,
      "loss": 3.8022,
      "step": 90840
    },
    {
      "epoch": 0.18927083333333333,
      "grad_norm": 0.7911032438278198,
      "learning_rate": 0.00027514329884975673,
      "loss": 4.0341,
      "step": 90850
    },
    {
      "epoch": 0.18929166666666666,
      "grad_norm": 0.8402722477912903,
      "learning_rate": 0.0002751378632835853,
      "loss": 3.9001,
      "step": 90860
    },
    {
      "epoch": 0.1893125,
      "grad_norm": 0.7463510036468506,
      "learning_rate": 0.0002751324271768678,
      "loss": 3.9722,
      "step": 90870
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 0.7551965117454529,
      "learning_rate": 0.0002751269905296278,
      "loss": 4.0114,
      "step": 90880
    },
    {
      "epoch": 0.18935416666666666,
      "grad_norm": 0.7226583361625671,
      "learning_rate": 0.0002751215533418887,
      "loss": 3.9945,
      "step": 90890
    },
    {
      "epoch": 0.189375,
      "grad_norm": 0.7309621572494507,
      "learning_rate": 0.000275116115613674,
      "loss": 4.0263,
      "step": 90900
    },
    {
      "epoch": 0.18939583333333335,
      "grad_norm": 0.7473005056381226,
      "learning_rate": 0.00027511067734500725,
      "loss": 3.9245,
      "step": 90910
    },
    {
      "epoch": 0.18941666666666668,
      "grad_norm": 0.8030510544776917,
      "learning_rate": 0.00027510523853591193,
      "loss": 3.922,
      "step": 90920
    },
    {
      "epoch": 0.1894375,
      "grad_norm": 0.740079939365387,
      "learning_rate": 0.00027509979918641144,
      "loss": 3.9914,
      "step": 90930
    },
    {
      "epoch": 0.18945833333333334,
      "grad_norm": 0.729196310043335,
      "learning_rate": 0.0002750943592965293,
      "loss": 3.9046,
      "step": 90940
    },
    {
      "epoch": 0.18947916666666667,
      "grad_norm": 0.6961444616317749,
      "learning_rate": 0.0002750889188662891,
      "loss": 4.0557,
      "step": 90950
    },
    {
      "epoch": 0.1895,
      "grad_norm": 0.9419139623641968,
      "learning_rate": 0.0002750834778957143,
      "loss": 3.8487,
      "step": 90960
    },
    {
      "epoch": 0.18952083333333333,
      "grad_norm": 0.7238985896110535,
      "learning_rate": 0.0002750780363848283,
      "loss": 4.1281,
      "step": 90970
    },
    {
      "epoch": 0.18954166666666666,
      "grad_norm": 0.8287613987922668,
      "learning_rate": 0.0002750725943336548,
      "loss": 3.9944,
      "step": 90980
    },
    {
      "epoch": 0.1895625,
      "grad_norm": 0.8379096388816833,
      "learning_rate": 0.00027506715174221714,
      "loss": 4.0347,
      "step": 90990
    },
    {
      "epoch": 0.18958333333333333,
      "grad_norm": 0.6929618120193481,
      "learning_rate": 0.0002750617086105389,
      "loss": 3.8417,
      "step": 91000
    },
    {
      "epoch": 0.18958333333333333,
      "eval_loss": 4.276630878448486,
      "eval_runtime": 10.2234,
      "eval_samples_per_second": 0.978,
      "eval_steps_per_second": 0.293,
      "step": 91000
    },
    {
      "epoch": 0.18960416666666666,
      "grad_norm": 0.8686568737030029,
      "learning_rate": 0.00027505626493864354,
      "loss": 3.9349,
      "step": 91010
    },
    {
      "epoch": 0.189625,
      "grad_norm": 0.8446127772331238,
      "learning_rate": 0.0002750508207265547,
      "loss": 3.9135,
      "step": 91020
    },
    {
      "epoch": 0.18964583333333335,
      "grad_norm": 0.8525540828704834,
      "learning_rate": 0.00027504537597429577,
      "loss": 4.0003,
      "step": 91030
    },
    {
      "epoch": 0.18966666666666668,
      "grad_norm": 0.823111355304718,
      "learning_rate": 0.00027503993068189026,
      "loss": 3.9984,
      "step": 91040
    },
    {
      "epoch": 0.1896875,
      "grad_norm": 0.7598847150802612,
      "learning_rate": 0.0002750344848493618,
      "loss": 3.9276,
      "step": 91050
    },
    {
      "epoch": 0.18970833333333334,
      "grad_norm": 0.8569549918174744,
      "learning_rate": 0.0002750290384767339,
      "loss": 3.9448,
      "step": 91060
    },
    {
      "epoch": 0.18972916666666667,
      "grad_norm": 0.6327351927757263,
      "learning_rate": 0.00027502359156402997,
      "loss": 3.98,
      "step": 91070
    },
    {
      "epoch": 0.18975,
      "grad_norm": 0.701816201210022,
      "learning_rate": 0.0002750181441112736,
      "loss": 3.8545,
      "step": 91080
    },
    {
      "epoch": 0.18977083333333333,
      "grad_norm": 0.8722787499427795,
      "learning_rate": 0.0002750126961184884,
      "loss": 3.8524,
      "step": 91090
    },
    {
      "epoch": 0.18979166666666666,
      "grad_norm": 0.7483274340629578,
      "learning_rate": 0.00027500724758569784,
      "loss": 3.8947,
      "step": 91100
    },
    {
      "epoch": 0.1898125,
      "grad_norm": 0.7213094830513,
      "learning_rate": 0.0002750017985129254,
      "loss": 4.1604,
      "step": 91110
    },
    {
      "epoch": 0.18983333333333333,
      "grad_norm": 0.8775256872177124,
      "learning_rate": 0.0002749963489001947,
      "loss": 3.9029,
      "step": 91120
    },
    {
      "epoch": 0.18985416666666666,
      "grad_norm": 0.8480299711227417,
      "learning_rate": 0.0002749908987475292,
      "loss": 3.9399,
      "step": 91130
    },
    {
      "epoch": 0.189875,
      "grad_norm": 0.9053731560707092,
      "learning_rate": 0.00027498544805495257,
      "loss": 3.9933,
      "step": 91140
    },
    {
      "epoch": 0.18989583333333335,
      "grad_norm": 0.829850435256958,
      "learning_rate": 0.0002749799968224882,
      "loss": 3.8422,
      "step": 91150
    },
    {
      "epoch": 0.18991666666666668,
      "grad_norm": 0.7775528430938721,
      "learning_rate": 0.0002749745450501598,
      "loss": 3.9708,
      "step": 91160
    },
    {
      "epoch": 0.1899375,
      "grad_norm": 0.6491659879684448,
      "learning_rate": 0.00027496909273799075,
      "loss": 4.0027,
      "step": 91170
    },
    {
      "epoch": 0.18995833333333334,
      "grad_norm": 0.7435899376869202,
      "learning_rate": 0.00027496363988600473,
      "loss": 3.7506,
      "step": 91180
    },
    {
      "epoch": 0.18997916666666667,
      "grad_norm": 0.7295722365379333,
      "learning_rate": 0.00027495818649422523,
      "loss": 3.9025,
      "step": 91190
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7059231400489807,
      "learning_rate": 0.00027495273256267585,
      "loss": 3.8826,
      "step": 91200
    },
    {
      "epoch": 0.19002083333333333,
      "grad_norm": 0.7443966269493103,
      "learning_rate": 0.0002749472780913801,
      "loss": 3.9267,
      "step": 91210
    },
    {
      "epoch": 0.19004166666666666,
      "grad_norm": 0.9410343170166016,
      "learning_rate": 0.00027494182308036163,
      "loss": 3.8722,
      "step": 91220
    },
    {
      "epoch": 0.1900625,
      "grad_norm": 0.8353641033172607,
      "learning_rate": 0.00027493636752964386,
      "loss": 4.0574,
      "step": 91230
    },
    {
      "epoch": 0.19008333333333333,
      "grad_norm": 0.7245425581932068,
      "learning_rate": 0.00027493091143925046,
      "loss": 4.0093,
      "step": 91240
    },
    {
      "epoch": 0.19010416666666666,
      "grad_norm": 0.7991434335708618,
      "learning_rate": 0.000274925454809205,
      "loss": 3.9749,
      "step": 91250
    },
    {
      "epoch": 0.190125,
      "grad_norm": 0.6720604300498962,
      "learning_rate": 0.000274919997639531,
      "loss": 4.0222,
      "step": 91260
    },
    {
      "epoch": 0.19014583333333332,
      "grad_norm": 0.8459290266036987,
      "learning_rate": 0.00027491453993025206,
      "loss": 3.9078,
      "step": 91270
    },
    {
      "epoch": 0.19016666666666668,
      "grad_norm": 0.7595254182815552,
      "learning_rate": 0.00027490908168139173,
      "loss": 4.0737,
      "step": 91280
    },
    {
      "epoch": 0.1901875,
      "grad_norm": 0.8362794518470764,
      "learning_rate": 0.00027490362289297364,
      "loss": 3.8611,
      "step": 91290
    },
    {
      "epoch": 0.19020833333333334,
      "grad_norm": 1.1498925685882568,
      "learning_rate": 0.0002748981635650213,
      "loss": 4.0931,
      "step": 91300
    },
    {
      "epoch": 0.19022916666666667,
      "grad_norm": 0.8223147392272949,
      "learning_rate": 0.0002748927036975584,
      "loss": 3.8085,
      "step": 91310
    },
    {
      "epoch": 0.19025,
      "grad_norm": 0.8182123303413391,
      "learning_rate": 0.0002748872432906084,
      "loss": 3.8545,
      "step": 91320
    },
    {
      "epoch": 0.19027083333333333,
      "grad_norm": 0.7466261982917786,
      "learning_rate": 0.000274881782344195,
      "loss": 3.8463,
      "step": 91330
    },
    {
      "epoch": 0.19029166666666666,
      "grad_norm": 0.8861969113349915,
      "learning_rate": 0.0002748763208583417,
      "loss": 4.027,
      "step": 91340
    },
    {
      "epoch": 0.1903125,
      "grad_norm": 0.7078753113746643,
      "learning_rate": 0.00027487085883307207,
      "loss": 3.9894,
      "step": 91350
    },
    {
      "epoch": 0.19033333333333333,
      "grad_norm": 0.8025042414665222,
      "learning_rate": 0.0002748653962684098,
      "loss": 4.005,
      "step": 91360
    },
    {
      "epoch": 0.19035416666666666,
      "grad_norm": 0.8878797888755798,
      "learning_rate": 0.0002748599331643784,
      "loss": 3.745,
      "step": 91370
    },
    {
      "epoch": 0.190375,
      "grad_norm": 0.7819230556488037,
      "learning_rate": 0.0002748544695210016,
      "loss": 4.0213,
      "step": 91380
    },
    {
      "epoch": 0.19039583333333332,
      "grad_norm": 0.8536155223846436,
      "learning_rate": 0.00027484900533830285,
      "loss": 3.7896,
      "step": 91390
    },
    {
      "epoch": 0.19041666666666668,
      "grad_norm": 0.786052942276001,
      "learning_rate": 0.0002748435406163059,
      "loss": 4.0097,
      "step": 91400
    },
    {
      "epoch": 0.1904375,
      "grad_norm": 0.718035876750946,
      "learning_rate": 0.0002748380753550342,
      "loss": 3.9545,
      "step": 91410
    },
    {
      "epoch": 0.19045833333333334,
      "grad_norm": 0.6784069538116455,
      "learning_rate": 0.00027483260955451144,
      "loss": 3.9363,
      "step": 91420
    },
    {
      "epoch": 0.19047916666666667,
      "grad_norm": 0.7188217043876648,
      "learning_rate": 0.0002748271432147612,
      "loss": 3.8519,
      "step": 91430
    },
    {
      "epoch": 0.1905,
      "grad_norm": 0.6768965125083923,
      "learning_rate": 0.0002748216763358071,
      "loss": 3.8921,
      "step": 91440
    },
    {
      "epoch": 0.19052083333333333,
      "grad_norm": 0.7178685069084167,
      "learning_rate": 0.0002748162089176728,
      "loss": 4.1011,
      "step": 91450
    },
    {
      "epoch": 0.19054166666666666,
      "grad_norm": 0.794382631778717,
      "learning_rate": 0.00027481074096038187,
      "loss": 4.1549,
      "step": 91460
    },
    {
      "epoch": 0.1905625,
      "grad_norm": 0.779817521572113,
      "learning_rate": 0.000274805272463958,
      "loss": 3.9833,
      "step": 91470
    },
    {
      "epoch": 0.19058333333333333,
      "grad_norm": 0.9672266840934753,
      "learning_rate": 0.00027479980342842464,
      "loss": 3.9802,
      "step": 91480
    },
    {
      "epoch": 0.19060416666666666,
      "grad_norm": 0.8670803904533386,
      "learning_rate": 0.00027479433385380563,
      "loss": 3.726,
      "step": 91490
    },
    {
      "epoch": 0.190625,
      "grad_norm": 0.7401044964790344,
      "learning_rate": 0.00027478886374012444,
      "loss": 3.9623,
      "step": 91500
    },
    {
      "epoch": 0.19064583333333332,
      "grad_norm": 0.9476518034934998,
      "learning_rate": 0.00027478339308740476,
      "loss": 3.9517,
      "step": 91510
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 0.780386209487915,
      "learning_rate": 0.00027477792189567024,
      "loss": 3.752,
      "step": 91520
    },
    {
      "epoch": 0.1906875,
      "grad_norm": 0.6833907961845398,
      "learning_rate": 0.00027477245016494444,
      "loss": 3.9909,
      "step": 91530
    },
    {
      "epoch": 0.19070833333333334,
      "grad_norm": 0.7191479802131653,
      "learning_rate": 0.0002747669778952511,
      "loss": 3.8381,
      "step": 91540
    },
    {
      "epoch": 0.19072916666666667,
      "grad_norm": 1.0186420679092407,
      "learning_rate": 0.00027476150508661375,
      "loss": 3.7833,
      "step": 91550
    },
    {
      "epoch": 0.19075,
      "grad_norm": 0.8338903784751892,
      "learning_rate": 0.0002747560317390561,
      "loss": 3.908,
      "step": 91560
    },
    {
      "epoch": 0.19077083333333333,
      "grad_norm": 0.7646533250808716,
      "learning_rate": 0.0002747505578526018,
      "loss": 4.0111,
      "step": 91570
    },
    {
      "epoch": 0.19079166666666666,
      "grad_norm": 0.7737823724746704,
      "learning_rate": 0.0002747450834272745,
      "loss": 3.8103,
      "step": 91580
    },
    {
      "epoch": 0.1908125,
      "grad_norm": 0.7915352582931519,
      "learning_rate": 0.00027473960846309775,
      "loss": 3.9467,
      "step": 91590
    },
    {
      "epoch": 0.19083333333333333,
      "grad_norm": 0.8901461958885193,
      "learning_rate": 0.0002747341329600953,
      "loss": 4.0009,
      "step": 91600
    },
    {
      "epoch": 0.19085416666666666,
      "grad_norm": 0.7481701374053955,
      "learning_rate": 0.0002747286569182907,
      "loss": 4.0391,
      "step": 91610
    },
    {
      "epoch": 0.190875,
      "grad_norm": 0.8185672760009766,
      "learning_rate": 0.00027472318033770776,
      "loss": 4.0325,
      "step": 91620
    },
    {
      "epoch": 0.19089583333333332,
      "grad_norm": 0.6752582788467407,
      "learning_rate": 0.00027471770321837,
      "loss": 3.9469,
      "step": 91630
    },
    {
      "epoch": 0.19091666666666668,
      "grad_norm": 0.7974951267242432,
      "learning_rate": 0.00027471222556030116,
      "loss": 3.8233,
      "step": 91640
    },
    {
      "epoch": 0.1909375,
      "grad_norm": 0.7876443862915039,
      "learning_rate": 0.00027470674736352485,
      "loss": 3.9325,
      "step": 91650
    },
    {
      "epoch": 0.19095833333333334,
      "grad_norm": 0.7514185309410095,
      "learning_rate": 0.00027470126862806475,
      "loss": 3.8126,
      "step": 91660
    },
    {
      "epoch": 0.19097916666666667,
      "grad_norm": 0.6796295046806335,
      "learning_rate": 0.00027469578935394455,
      "loss": 3.9914,
      "step": 91670
    },
    {
      "epoch": 0.191,
      "grad_norm": 0.7301395535469055,
      "learning_rate": 0.0002746903095411879,
      "loss": 4.1735,
      "step": 91680
    },
    {
      "epoch": 0.19102083333333333,
      "grad_norm": 0.6710376739501953,
      "learning_rate": 0.00027468482918981845,
      "loss": 4.0461,
      "step": 91690
    },
    {
      "epoch": 0.19104166666666667,
      "grad_norm": 0.7758207321166992,
      "learning_rate": 0.00027467934829985993,
      "loss": 3.8788,
      "step": 91700
    },
    {
      "epoch": 0.1910625,
      "grad_norm": 0.7084881663322449,
      "learning_rate": 0.0002746738668713359,
      "loss": 3.9367,
      "step": 91710
    },
    {
      "epoch": 0.19108333333333333,
      "grad_norm": 0.7900219559669495,
      "learning_rate": 0.00027466838490427023,
      "loss": 3.9891,
      "step": 91720
    },
    {
      "epoch": 0.19110416666666666,
      "grad_norm": 0.7622429132461548,
      "learning_rate": 0.0002746629023986864,
      "loss": 4.143,
      "step": 91730
    },
    {
      "epoch": 0.191125,
      "grad_norm": 0.7779148817062378,
      "learning_rate": 0.0002746574193546082,
      "loss": 3.9204,
      "step": 91740
    },
    {
      "epoch": 0.19114583333333332,
      "grad_norm": 0.8320451974868774,
      "learning_rate": 0.0002746519357720593,
      "loss": 4.0396,
      "step": 91750
    },
    {
      "epoch": 0.19116666666666668,
      "grad_norm": 0.6889131665229797,
      "learning_rate": 0.0002746464516510633,
      "loss": 4.0424,
      "step": 91760
    },
    {
      "epoch": 0.1911875,
      "grad_norm": 0.7551159262657166,
      "learning_rate": 0.0002746409669916441,
      "loss": 4.1392,
      "step": 91770
    },
    {
      "epoch": 0.19120833333333334,
      "grad_norm": 0.9842861294746399,
      "learning_rate": 0.0002746354817938251,
      "loss": 3.8253,
      "step": 91780
    },
    {
      "epoch": 0.19122916666666667,
      "grad_norm": 0.737730860710144,
      "learning_rate": 0.0002746299960576303,
      "loss": 3.9084,
      "step": 91790
    },
    {
      "epoch": 0.19125,
      "grad_norm": 0.6666132211685181,
      "learning_rate": 0.00027462450978308316,
      "loss": 3.9368,
      "step": 91800
    },
    {
      "epoch": 0.19127083333333333,
      "grad_norm": 1.0006086826324463,
      "learning_rate": 0.0002746190229702075,
      "loss": 3.9634,
      "step": 91810
    },
    {
      "epoch": 0.19129166666666667,
      "grad_norm": 0.7661669850349426,
      "learning_rate": 0.000274613535619027,
      "loss": 3.9001,
      "step": 91820
    },
    {
      "epoch": 0.1913125,
      "grad_norm": 0.7501083016395569,
      "learning_rate": 0.00027460804772956533,
      "loss": 3.8066,
      "step": 91830
    },
    {
      "epoch": 0.19133333333333333,
      "grad_norm": 0.8600069284439087,
      "learning_rate": 0.00027460255930184625,
      "loss": 3.9067,
      "step": 91840
    },
    {
      "epoch": 0.19135416666666666,
      "grad_norm": 0.6812048554420471,
      "learning_rate": 0.0002745970703358934,
      "loss": 4.0688,
      "step": 91850
    },
    {
      "epoch": 0.191375,
      "grad_norm": 0.7618786096572876,
      "learning_rate": 0.0002745915808317305,
      "loss": 3.9948,
      "step": 91860
    },
    {
      "epoch": 0.19139583333333332,
      "grad_norm": 0.8765764832496643,
      "learning_rate": 0.00027458609078938133,
      "loss": 3.9949,
      "step": 91870
    },
    {
      "epoch": 0.19141666666666668,
      "grad_norm": 0.7917579412460327,
      "learning_rate": 0.0002745806002088696,
      "loss": 3.826,
      "step": 91880
    },
    {
      "epoch": 0.1914375,
      "grad_norm": 0.7034358978271484,
      "learning_rate": 0.0002745751090902189,
      "loss": 3.9916,
      "step": 91890
    },
    {
      "epoch": 0.19145833333333334,
      "grad_norm": 0.725060760974884,
      "learning_rate": 0.00027456961743345306,
      "loss": 3.8604,
      "step": 91900
    },
    {
      "epoch": 0.19147916666666667,
      "grad_norm": 0.7747330069541931,
      "learning_rate": 0.00027456412523859584,
      "loss": 3.7856,
      "step": 91910
    },
    {
      "epoch": 0.1915,
      "grad_norm": 1.0238698720932007,
      "learning_rate": 0.0002745586325056709,
      "loss": 4.0772,
      "step": 91920
    },
    {
      "epoch": 0.19152083333333333,
      "grad_norm": 0.764764666557312,
      "learning_rate": 0.0002745531392347019,
      "loss": 3.8257,
      "step": 91930
    },
    {
      "epoch": 0.19154166666666667,
      "grad_norm": 0.8122008442878723,
      "learning_rate": 0.00027454764542571264,
      "loss": 3.8727,
      "step": 91940
    },
    {
      "epoch": 0.1915625,
      "grad_norm": 0.6949844360351562,
      "learning_rate": 0.0002745421510787269,
      "loss": 4.0294,
      "step": 91950
    },
    {
      "epoch": 0.19158333333333333,
      "grad_norm": 0.779973030090332,
      "learning_rate": 0.0002745366561937684,
      "loss": 3.9849,
      "step": 91960
    },
    {
      "epoch": 0.19160416666666666,
      "grad_norm": 0.8110035061836243,
      "learning_rate": 0.00027453116077086077,
      "loss": 3.8684,
      "step": 91970
    },
    {
      "epoch": 0.191625,
      "grad_norm": 0.7618404030799866,
      "learning_rate": 0.00027452566481002785,
      "loss": 3.8138,
      "step": 91980
    },
    {
      "epoch": 0.19164583333333332,
      "grad_norm": 0.8639703989028931,
      "learning_rate": 0.00027452016831129334,
      "loss": 4.0034,
      "step": 91990
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 0.9348292350769043,
      "learning_rate": 0.000274514671274681,
      "loss": 3.9246,
      "step": 92000
    },
    {
      "epoch": 0.19166666666666668,
      "eval_loss": 4.304018497467041,
      "eval_runtime": 10.3251,
      "eval_samples_per_second": 0.969,
      "eval_steps_per_second": 0.291,
      "step": 92000
    },
    {
      "epoch": 0.1916875,
      "grad_norm": 0.720513641834259,
      "learning_rate": 0.00027450917370021457,
      "loss": 4.0624,
      "step": 92010
    },
    {
      "epoch": 0.19170833333333334,
      "grad_norm": 0.7905014157295227,
      "learning_rate": 0.00027450367558791775,
      "loss": 3.9737,
      "step": 92020
    },
    {
      "epoch": 0.19172916666666667,
      "grad_norm": 0.773129940032959,
      "learning_rate": 0.00027449817693781436,
      "loss": 4.0088,
      "step": 92030
    },
    {
      "epoch": 0.19175,
      "grad_norm": 0.7528867721557617,
      "learning_rate": 0.00027449267774992816,
      "loss": 3.8686,
      "step": 92040
    },
    {
      "epoch": 0.19177083333333333,
      "grad_norm": 0.8468011021614075,
      "learning_rate": 0.00027448717802428283,
      "loss": 4.0911,
      "step": 92050
    },
    {
      "epoch": 0.19179166666666667,
      "grad_norm": 0.7901443243026733,
      "learning_rate": 0.0002744816777609022,
      "loss": 3.9156,
      "step": 92060
    },
    {
      "epoch": 0.1918125,
      "grad_norm": 0.921197235584259,
      "learning_rate": 0.00027447617695981,
      "loss": 4.1764,
      "step": 92070
    },
    {
      "epoch": 0.19183333333333333,
      "grad_norm": 0.7413967251777649,
      "learning_rate": 0.0002744706756210299,
      "loss": 3.9085,
      "step": 92080
    },
    {
      "epoch": 0.19185416666666666,
      "grad_norm": 0.7521814107894897,
      "learning_rate": 0.0002744651737445858,
      "loss": 3.9243,
      "step": 92090
    },
    {
      "epoch": 0.191875,
      "grad_norm": 0.8064786195755005,
      "learning_rate": 0.00027445967133050145,
      "loss": 3.8933,
      "step": 92100
    },
    {
      "epoch": 0.19189583333333332,
      "grad_norm": 0.8939036130905151,
      "learning_rate": 0.0002744541683788006,
      "loss": 4.1365,
      "step": 92110
    },
    {
      "epoch": 0.19191666666666668,
      "grad_norm": 0.9395675659179688,
      "learning_rate": 0.00027444866488950695,
      "loss": 3.8792,
      "step": 92120
    },
    {
      "epoch": 0.1919375,
      "grad_norm": 0.8432508111000061,
      "learning_rate": 0.00027444316086264436,
      "loss": 3.7222,
      "step": 92130
    },
    {
      "epoch": 0.19195833333333334,
      "grad_norm": 0.7654009461402893,
      "learning_rate": 0.00027443765629823656,
      "loss": 3.9068,
      "step": 92140
    },
    {
      "epoch": 0.19197916666666667,
      "grad_norm": 0.7469329833984375,
      "learning_rate": 0.00027443215119630734,
      "loss": 3.9266,
      "step": 92150
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.7478797435760498,
      "learning_rate": 0.00027442664555688044,
      "loss": 3.9401,
      "step": 92160
    },
    {
      "epoch": 0.19202083333333334,
      "grad_norm": 0.7221897840499878,
      "learning_rate": 0.00027442113937997973,
      "loss": 3.9671,
      "step": 92170
    },
    {
      "epoch": 0.19204166666666667,
      "grad_norm": 0.7009600400924683,
      "learning_rate": 0.000274415632665629,
      "loss": 3.9802,
      "step": 92180
    },
    {
      "epoch": 0.1920625,
      "grad_norm": 0.9405708312988281,
      "learning_rate": 0.0002744101254138519,
      "loss": 3.8237,
      "step": 92190
    },
    {
      "epoch": 0.19208333333333333,
      "grad_norm": 0.9240197539329529,
      "learning_rate": 0.0002744046176246723,
      "loss": 4.1535,
      "step": 92200
    },
    {
      "epoch": 0.19210416666666666,
      "grad_norm": 1.5765730142593384,
      "learning_rate": 0.000274399109298114,
      "loss": 3.8292,
      "step": 92210
    },
    {
      "epoch": 0.192125,
      "grad_norm": 0.7649264931678772,
      "learning_rate": 0.00027439360043420084,
      "loss": 4.0274,
      "step": 92220
    },
    {
      "epoch": 0.19214583333333332,
      "grad_norm": 0.8353575468063354,
      "learning_rate": 0.00027438809103295654,
      "loss": 3.9686,
      "step": 92230
    },
    {
      "epoch": 0.19216666666666668,
      "grad_norm": 0.8402441740036011,
      "learning_rate": 0.0002743825810944049,
      "loss": 3.9734,
      "step": 92240
    },
    {
      "epoch": 0.1921875,
      "grad_norm": 0.7814085483551025,
      "learning_rate": 0.00027437707061856977,
      "loss": 3.8722,
      "step": 92250
    },
    {
      "epoch": 0.19220833333333334,
      "grad_norm": 0.7611770033836365,
      "learning_rate": 0.0002743715596054749,
      "loss": 3.9009,
      "step": 92260
    },
    {
      "epoch": 0.19222916666666667,
      "grad_norm": 0.8077239990234375,
      "learning_rate": 0.00027436604805514413,
      "loss": 3.946,
      "step": 92270
    },
    {
      "epoch": 0.19225,
      "grad_norm": 0.902617871761322,
      "learning_rate": 0.0002743605359676013,
      "loss": 4.0646,
      "step": 92280
    },
    {
      "epoch": 0.19227083333333334,
      "grad_norm": 0.7679324746131897,
      "learning_rate": 0.0002743550233428701,
      "loss": 3.7573,
      "step": 92290
    },
    {
      "epoch": 0.19229166666666667,
      "grad_norm": 0.805543839931488,
      "learning_rate": 0.0002743495101809745,
      "loss": 3.961,
      "step": 92300
    },
    {
      "epoch": 0.1923125,
      "grad_norm": 0.8161610960960388,
      "learning_rate": 0.0002743439964819382,
      "loss": 3.9249,
      "step": 92310
    },
    {
      "epoch": 0.19233333333333333,
      "grad_norm": 0.8563823103904724,
      "learning_rate": 0.0002743384822457851,
      "loss": 3.9702,
      "step": 92320
    },
    {
      "epoch": 0.19235416666666666,
      "grad_norm": 0.820151686668396,
      "learning_rate": 0.0002743329674725389,
      "loss": 3.9398,
      "step": 92330
    },
    {
      "epoch": 0.192375,
      "grad_norm": 0.7374067306518555,
      "learning_rate": 0.00027432745216222356,
      "loss": 3.8798,
      "step": 92340
    },
    {
      "epoch": 0.19239583333333332,
      "grad_norm": 0.736767053604126,
      "learning_rate": 0.0002743219363148628,
      "loss": 3.9624,
      "step": 92350
    },
    {
      "epoch": 0.19241666666666668,
      "grad_norm": 0.9352604150772095,
      "learning_rate": 0.0002743164199304805,
      "loss": 4.012,
      "step": 92360
    },
    {
      "epoch": 0.1924375,
      "grad_norm": 0.6628725528717041,
      "learning_rate": 0.00027431090300910043,
      "loss": 3.9992,
      "step": 92370
    },
    {
      "epoch": 0.19245833333333334,
      "grad_norm": 0.7624752521514893,
      "learning_rate": 0.0002743053855507465,
      "loss": 3.9903,
      "step": 92380
    },
    {
      "epoch": 0.19247916666666667,
      "grad_norm": 0.781508207321167,
      "learning_rate": 0.00027429986755544256,
      "loss": 3.8491,
      "step": 92390
    },
    {
      "epoch": 0.1925,
      "grad_norm": 0.7229906916618347,
      "learning_rate": 0.0002742943490232123,
      "loss": 3.9524,
      "step": 92400
    },
    {
      "epoch": 0.19252083333333334,
      "grad_norm": 0.7586458921432495,
      "learning_rate": 0.0002742888299540797,
      "loss": 4.0652,
      "step": 92410
    },
    {
      "epoch": 0.19254166666666667,
      "grad_norm": 0.8727280497550964,
      "learning_rate": 0.0002742833103480686,
      "loss": 3.9226,
      "step": 92420
    },
    {
      "epoch": 0.1925625,
      "grad_norm": 0.8636091351509094,
      "learning_rate": 0.0002742777902052027,
      "loss": 3.8735,
      "step": 92430
    },
    {
      "epoch": 0.19258333333333333,
      "grad_norm": 0.8419030904769897,
      "learning_rate": 0.000274272269525506,
      "loss": 4.0432,
      "step": 92440
    },
    {
      "epoch": 0.19260416666666666,
      "grad_norm": 0.6897881031036377,
      "learning_rate": 0.0002742667483090023,
      "loss": 3.9078,
      "step": 92450
    },
    {
      "epoch": 0.192625,
      "grad_norm": 0.7528761029243469,
      "learning_rate": 0.00027426122655571536,
      "loss": 3.9572,
      "step": 92460
    },
    {
      "epoch": 0.19264583333333332,
      "grad_norm": 0.8524377346038818,
      "learning_rate": 0.00027425570426566916,
      "loss": 3.7353,
      "step": 92470
    },
    {
      "epoch": 0.19266666666666668,
      "grad_norm": 0.8729358315467834,
      "learning_rate": 0.0002742501814388875,
      "loss": 3.9651,
      "step": 92480
    },
    {
      "epoch": 0.1926875,
      "grad_norm": 0.8362614512443542,
      "learning_rate": 0.00027424465807539424,
      "loss": 3.9995,
      "step": 92490
    },
    {
      "epoch": 0.19270833333333334,
      "grad_norm": 0.6963710188865662,
      "learning_rate": 0.0002742391341752132,
      "loss": 3.9844,
      "step": 92500
    },
    {
      "epoch": 0.19272916666666667,
      "grad_norm": 0.7750999927520752,
      "learning_rate": 0.0002742336097383683,
      "loss": 3.9475,
      "step": 92510
    },
    {
      "epoch": 0.19275,
      "grad_norm": 0.7656430602073669,
      "learning_rate": 0.0002742280847648834,
      "loss": 4.0152,
      "step": 92520
    },
    {
      "epoch": 0.19277083333333334,
      "grad_norm": 0.7820266485214233,
      "learning_rate": 0.0002742225592547823,
      "loss": 4.0884,
      "step": 92530
    },
    {
      "epoch": 0.19279166666666667,
      "grad_norm": 0.7531667351722717,
      "learning_rate": 0.00027421703320808894,
      "loss": 3.8227,
      "step": 92540
    },
    {
      "epoch": 0.1928125,
      "grad_norm": 0.8280318379402161,
      "learning_rate": 0.00027421150662482717,
      "loss": 4.0076,
      "step": 92550
    },
    {
      "epoch": 0.19283333333333333,
      "grad_norm": 0.8133417963981628,
      "learning_rate": 0.0002742059795050209,
      "loss": 3.9055,
      "step": 92560
    },
    {
      "epoch": 0.19285416666666666,
      "grad_norm": 0.8578565120697021,
      "learning_rate": 0.0002742004518486939,
      "loss": 3.8173,
      "step": 92570
    },
    {
      "epoch": 0.192875,
      "grad_norm": 0.7284464240074158,
      "learning_rate": 0.0002741949236558701,
      "loss": 4.0032,
      "step": 92580
    },
    {
      "epoch": 0.19289583333333332,
      "grad_norm": 0.7112690210342407,
      "learning_rate": 0.00027418939492657347,
      "loss": 3.8814,
      "step": 92590
    },
    {
      "epoch": 0.19291666666666665,
      "grad_norm": 0.8367990851402283,
      "learning_rate": 0.00027418386566082774,
      "loss": 3.8413,
      "step": 92600
    },
    {
      "epoch": 0.1929375,
      "grad_norm": 0.8962868452072144,
      "learning_rate": 0.0002741783358586569,
      "loss": 3.8134,
      "step": 92610
    },
    {
      "epoch": 0.19295833333333334,
      "grad_norm": 0.6666688919067383,
      "learning_rate": 0.00027417280552008476,
      "loss": 4.0485,
      "step": 92620
    },
    {
      "epoch": 0.19297916666666667,
      "grad_norm": 0.7154685854911804,
      "learning_rate": 0.0002741672746451353,
      "loss": 4.2429,
      "step": 92630
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.7668737173080444,
      "learning_rate": 0.0002741617432338323,
      "loss": 3.6922,
      "step": 92640
    },
    {
      "epoch": 0.19302083333333334,
      "grad_norm": 0.7683324217796326,
      "learning_rate": 0.0002741562112861998,
      "loss": 4.0276,
      "step": 92650
    },
    {
      "epoch": 0.19304166666666667,
      "grad_norm": 0.9048532247543335,
      "learning_rate": 0.00027415067880226155,
      "loss": 4.0346,
      "step": 92660
    },
    {
      "epoch": 0.1930625,
      "grad_norm": 0.6691904664039612,
      "learning_rate": 0.00027414514578204155,
      "loss": 3.8164,
      "step": 92670
    },
    {
      "epoch": 0.19308333333333333,
      "grad_norm": 0.8999292850494385,
      "learning_rate": 0.0002741396122255636,
      "loss": 4.112,
      "step": 92680
    },
    {
      "epoch": 0.19310416666666666,
      "grad_norm": 0.8325583338737488,
      "learning_rate": 0.00027413407813285174,
      "loss": 3.9046,
      "step": 92690
    },
    {
      "epoch": 0.193125,
      "grad_norm": 0.7240872383117676,
      "learning_rate": 0.0002741285435039298,
      "loss": 3.7488,
      "step": 92700
    },
    {
      "epoch": 0.19314583333333332,
      "grad_norm": 0.7588842511177063,
      "learning_rate": 0.00027412300833882164,
      "loss": 4.0078,
      "step": 92710
    },
    {
      "epoch": 0.19316666666666665,
      "grad_norm": 0.9620528817176819,
      "learning_rate": 0.00027411747263755116,
      "loss": 3.8836,
      "step": 92720
    },
    {
      "epoch": 0.1931875,
      "grad_norm": 0.8557708859443665,
      "learning_rate": 0.00027411193640014244,
      "loss": 3.776,
      "step": 92730
    },
    {
      "epoch": 0.19320833333333334,
      "grad_norm": 0.8330896496772766,
      "learning_rate": 0.0002741063996266192,
      "loss": 4.1032,
      "step": 92740
    },
    {
      "epoch": 0.19322916666666667,
      "grad_norm": 0.9313504099845886,
      "learning_rate": 0.0002741008623170055,
      "loss": 4.0922,
      "step": 92750
    },
    {
      "epoch": 0.19325,
      "grad_norm": 0.8999679684638977,
      "learning_rate": 0.00027409532447132516,
      "loss": 3.9642,
      "step": 92760
    },
    {
      "epoch": 0.19327083333333334,
      "grad_norm": 0.8363356590270996,
      "learning_rate": 0.00027408978608960214,
      "loss": 3.9914,
      "step": 92770
    },
    {
      "epoch": 0.19329166666666667,
      "grad_norm": 0.9103180766105652,
      "learning_rate": 0.00027408424717186036,
      "loss": 4.0082,
      "step": 92780
    },
    {
      "epoch": 0.1933125,
      "grad_norm": 0.7567905187606812,
      "learning_rate": 0.00027407870771812377,
      "loss": 4.0551,
      "step": 92790
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 0.726589024066925,
      "learning_rate": 0.0002740731677284163,
      "loss": 3.7554,
      "step": 92800
    },
    {
      "epoch": 0.19335416666666666,
      "grad_norm": 0.7578080296516418,
      "learning_rate": 0.00027406762720276175,
      "loss": 4.1402,
      "step": 92810
    },
    {
      "epoch": 0.193375,
      "grad_norm": 0.7857120037078857,
      "learning_rate": 0.00027406208614118424,
      "loss": 3.9718,
      "step": 92820
    },
    {
      "epoch": 0.19339583333333332,
      "grad_norm": 0.7242152690887451,
      "learning_rate": 0.00027405654454370766,
      "loss": 3.9675,
      "step": 92830
    },
    {
      "epoch": 0.19341666666666665,
      "grad_norm": 0.7252117395401001,
      "learning_rate": 0.0002740510024103558,
      "loss": 3.8327,
      "step": 92840
    },
    {
      "epoch": 0.1934375,
      "grad_norm": 0.8823216557502747,
      "learning_rate": 0.0002740454597411528,
      "loss": 3.99,
      "step": 92850
    },
    {
      "epoch": 0.19345833333333334,
      "grad_norm": 0.9301354885101318,
      "learning_rate": 0.0002740399165361225,
      "loss": 3.8664,
      "step": 92860
    },
    {
      "epoch": 0.19347916666666667,
      "grad_norm": 0.7952534556388855,
      "learning_rate": 0.0002740343727952888,
      "loss": 3.9184,
      "step": 92870
    },
    {
      "epoch": 0.1935,
      "grad_norm": 0.7573935389518738,
      "learning_rate": 0.0002740288285186758,
      "loss": 3.6879,
      "step": 92880
    },
    {
      "epoch": 0.19352083333333334,
      "grad_norm": 0.7205803990364075,
      "learning_rate": 0.0002740232837063073,
      "loss": 3.6603,
      "step": 92890
    },
    {
      "epoch": 0.19354166666666667,
      "grad_norm": 0.8046885132789612,
      "learning_rate": 0.00027401773835820735,
      "loss": 3.993,
      "step": 92900
    },
    {
      "epoch": 0.1935625,
      "grad_norm": 0.7210755944252014,
      "learning_rate": 0.0002740121924743998,
      "loss": 4.0867,
      "step": 92910
    },
    {
      "epoch": 0.19358333333333333,
      "grad_norm": 0.7960945963859558,
      "learning_rate": 0.0002740066460549087,
      "loss": 3.9225,
      "step": 92920
    },
    {
      "epoch": 0.19360416666666666,
      "grad_norm": 0.7935143709182739,
      "learning_rate": 0.000274001099099758,
      "loss": 3.8238,
      "step": 92930
    },
    {
      "epoch": 0.193625,
      "grad_norm": 0.7336628437042236,
      "learning_rate": 0.00027399555160897163,
      "loss": 3.789,
      "step": 92940
    },
    {
      "epoch": 0.19364583333333332,
      "grad_norm": 0.835741400718689,
      "learning_rate": 0.00027399000358257347,
      "loss": 3.9717,
      "step": 92950
    },
    {
      "epoch": 0.19366666666666665,
      "grad_norm": 0.8618433475494385,
      "learning_rate": 0.0002739844550205877,
      "loss": 4.0095,
      "step": 92960
    },
    {
      "epoch": 0.1936875,
      "grad_norm": 0.8053343892097473,
      "learning_rate": 0.0002739789059230381,
      "loss": 3.9956,
      "step": 92970
    },
    {
      "epoch": 0.19370833333333334,
      "grad_norm": 0.7320711612701416,
      "learning_rate": 0.00027397335628994866,
      "loss": 3.7438,
      "step": 92980
    },
    {
      "epoch": 0.19372916666666667,
      "grad_norm": 0.7310126423835754,
      "learning_rate": 0.0002739678061213434,
      "loss": 3.9132,
      "step": 92990
    },
    {
      "epoch": 0.19375,
      "grad_norm": 0.8002314567565918,
      "learning_rate": 0.00027396225541724637,
      "loss": 4.0405,
      "step": 93000
    },
    {
      "epoch": 0.19375,
      "eval_loss": 4.269639015197754,
      "eval_runtime": 10.1917,
      "eval_samples_per_second": 0.981,
      "eval_steps_per_second": 0.294,
      "step": 93000
    },
    {
      "epoch": 0.19377083333333334,
      "grad_norm": 0.7941508293151855,
      "learning_rate": 0.0002739567041776814,
      "loss": 3.8952,
      "step": 93010
    },
    {
      "epoch": 0.19379166666666667,
      "grad_norm": 0.7720952033996582,
      "learning_rate": 0.00027395115240267255,
      "loss": 4.1051,
      "step": 93020
    },
    {
      "epoch": 0.1938125,
      "grad_norm": 0.927321195602417,
      "learning_rate": 0.0002739456000922438,
      "loss": 4.0727,
      "step": 93030
    },
    {
      "epoch": 0.19383333333333333,
      "grad_norm": 0.771827220916748,
      "learning_rate": 0.0002739400472464191,
      "loss": 3.9515,
      "step": 93040
    },
    {
      "epoch": 0.19385416666666666,
      "grad_norm": 0.7216969132423401,
      "learning_rate": 0.0002739344938652224,
      "loss": 3.8871,
      "step": 93050
    },
    {
      "epoch": 0.193875,
      "grad_norm": 0.8987125754356384,
      "learning_rate": 0.0002739289399486778,
      "loss": 3.743,
      "step": 93060
    },
    {
      "epoch": 0.19389583333333332,
      "grad_norm": 0.9023748636245728,
      "learning_rate": 0.00027392338549680925,
      "loss": 3.9201,
      "step": 93070
    },
    {
      "epoch": 0.19391666666666665,
      "grad_norm": 0.8799203634262085,
      "learning_rate": 0.0002739178305096407,
      "loss": 3.985,
      "step": 93080
    },
    {
      "epoch": 0.1939375,
      "grad_norm": 0.8309151530265808,
      "learning_rate": 0.00027391227498719617,
      "loss": 4.1411,
      "step": 93090
    },
    {
      "epoch": 0.19395833333333334,
      "grad_norm": 0.7469663619995117,
      "learning_rate": 0.0002739067189294997,
      "loss": 4.047,
      "step": 93100
    },
    {
      "epoch": 0.19397916666666667,
      "grad_norm": 1.0068955421447754,
      "learning_rate": 0.00027390116233657523,
      "loss": 3.7882,
      "step": 93110
    },
    {
      "epoch": 0.194,
      "grad_norm": 0.7198595404624939,
      "learning_rate": 0.00027389560520844675,
      "loss": 3.7972,
      "step": 93120
    },
    {
      "epoch": 0.19402083333333334,
      "grad_norm": 0.6688303351402283,
      "learning_rate": 0.00027389004754513834,
      "loss": 3.9947,
      "step": 93130
    },
    {
      "epoch": 0.19404166666666667,
      "grad_norm": 0.694288969039917,
      "learning_rate": 0.0002738844893466739,
      "loss": 3.9205,
      "step": 93140
    },
    {
      "epoch": 0.1940625,
      "grad_norm": 0.7417435050010681,
      "learning_rate": 0.00027387893061307756,
      "loss": 4.0214,
      "step": 93150
    },
    {
      "epoch": 0.19408333333333333,
      "grad_norm": 0.7214083075523376,
      "learning_rate": 0.00027387337134437327,
      "loss": 3.6254,
      "step": 93160
    },
    {
      "epoch": 0.19410416666666666,
      "grad_norm": 0.7388765811920166,
      "learning_rate": 0.000273867811540585,
      "loss": 4.0499,
      "step": 93170
    },
    {
      "epoch": 0.194125,
      "grad_norm": 0.856877863407135,
      "learning_rate": 0.00027386225120173686,
      "loss": 3.9623,
      "step": 93180
    },
    {
      "epoch": 0.19414583333333332,
      "grad_norm": 0.7007079720497131,
      "learning_rate": 0.0002738566903278528,
      "loss": 4.0631,
      "step": 93190
    },
    {
      "epoch": 0.19416666666666665,
      "grad_norm": 0.7219590544700623,
      "learning_rate": 0.0002738511289189569,
      "loss": 3.9473,
      "step": 93200
    },
    {
      "epoch": 0.1941875,
      "grad_norm": 0.7756072282791138,
      "learning_rate": 0.00027384556697507316,
      "loss": 4.1159,
      "step": 93210
    },
    {
      "epoch": 0.19420833333333334,
      "grad_norm": 0.9047934412956238,
      "learning_rate": 0.00027384000449622557,
      "loss": 4.0723,
      "step": 93220
    },
    {
      "epoch": 0.19422916666666667,
      "grad_norm": 0.805165708065033,
      "learning_rate": 0.00027383444148243815,
      "loss": 3.9257,
      "step": 93230
    },
    {
      "epoch": 0.19425,
      "grad_norm": 0.8401201963424683,
      "learning_rate": 0.000273828877933735,
      "loss": 4.0321,
      "step": 93240
    },
    {
      "epoch": 0.19427083333333334,
      "grad_norm": 0.8996986746788025,
      "learning_rate": 0.0002738233138501401,
      "loss": 4.08,
      "step": 93250
    },
    {
      "epoch": 0.19429166666666667,
      "grad_norm": 0.7385739684104919,
      "learning_rate": 0.00027381774923167744,
      "loss": 3.8499,
      "step": 93260
    },
    {
      "epoch": 0.1943125,
      "grad_norm": 0.9362020492553711,
      "learning_rate": 0.00027381218407837116,
      "loss": 3.9704,
      "step": 93270
    },
    {
      "epoch": 0.19433333333333333,
      "grad_norm": 0.736035168170929,
      "learning_rate": 0.00027380661839024523,
      "loss": 4.1272,
      "step": 93280
    },
    {
      "epoch": 0.19435416666666666,
      "grad_norm": 0.7421329617500305,
      "learning_rate": 0.0002738010521673238,
      "loss": 3.8996,
      "step": 93290
    },
    {
      "epoch": 0.194375,
      "grad_norm": 0.6876094937324524,
      "learning_rate": 0.00027379548540963075,
      "loss": 3.9998,
      "step": 93300
    },
    {
      "epoch": 0.19439583333333332,
      "grad_norm": 0.8467497229576111,
      "learning_rate": 0.0002737899181171902,
      "loss": 3.8202,
      "step": 93310
    },
    {
      "epoch": 0.19441666666666665,
      "grad_norm": 0.7419642210006714,
      "learning_rate": 0.00027378435029002627,
      "loss": 3.9519,
      "step": 93320
    },
    {
      "epoch": 0.1944375,
      "grad_norm": 0.7050631642341614,
      "learning_rate": 0.00027377878192816286,
      "loss": 4.0001,
      "step": 93330
    },
    {
      "epoch": 0.19445833333333334,
      "grad_norm": 0.7252691388130188,
      "learning_rate": 0.0002737732130316242,
      "loss": 3.8829,
      "step": 93340
    },
    {
      "epoch": 0.19447916666666668,
      "grad_norm": 0.7547847628593445,
      "learning_rate": 0.00027376764360043413,
      "loss": 3.977,
      "step": 93350
    },
    {
      "epoch": 0.1945,
      "grad_norm": 0.6897545456886292,
      "learning_rate": 0.00027376207363461694,
      "loss": 3.9498,
      "step": 93360
    },
    {
      "epoch": 0.19452083333333334,
      "grad_norm": 0.7228429317474365,
      "learning_rate": 0.0002737565031341965,
      "loss": 3.9702,
      "step": 93370
    },
    {
      "epoch": 0.19454166666666667,
      "grad_norm": 0.705147385597229,
      "learning_rate": 0.00027375093209919705,
      "loss": 3.8303,
      "step": 93380
    },
    {
      "epoch": 0.1945625,
      "grad_norm": 0.9464631676673889,
      "learning_rate": 0.0002737453605296424,
      "loss": 4.0417,
      "step": 93390
    },
    {
      "epoch": 0.19458333333333333,
      "grad_norm": 0.8223630785942078,
      "learning_rate": 0.0002737397884255569,
      "loss": 4.0428,
      "step": 93400
    },
    {
      "epoch": 0.19460416666666666,
      "grad_norm": 0.685832142829895,
      "learning_rate": 0.0002737342157869645,
      "loss": 3.9259,
      "step": 93410
    },
    {
      "epoch": 0.194625,
      "grad_norm": 0.8223825693130493,
      "learning_rate": 0.00027372864261388923,
      "loss": 3.8906,
      "step": 93420
    },
    {
      "epoch": 0.19464583333333332,
      "grad_norm": 1.185671329498291,
      "learning_rate": 0.0002737230689063552,
      "loss": 4.0781,
      "step": 93430
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 0.7670809626579285,
      "learning_rate": 0.0002737174946643865,
      "loss": 3.8752,
      "step": 93440
    },
    {
      "epoch": 0.1946875,
      "grad_norm": 0.8647821545600891,
      "learning_rate": 0.0002737119198880072,
      "loss": 4.0045,
      "step": 93450
    },
    {
      "epoch": 0.19470833333333334,
      "grad_norm": 0.7961347103118896,
      "learning_rate": 0.00027370634457724133,
      "loss": 3.9624,
      "step": 93460
    },
    {
      "epoch": 0.19472916666666668,
      "grad_norm": 0.7699318528175354,
      "learning_rate": 0.00027370076873211305,
      "loss": 3.8687,
      "step": 93470
    },
    {
      "epoch": 0.19475,
      "grad_norm": 0.8351806402206421,
      "learning_rate": 0.0002736951923526464,
      "loss": 4.1077,
      "step": 93480
    },
    {
      "epoch": 0.19477083333333334,
      "grad_norm": 0.9162630438804626,
      "learning_rate": 0.0002736896154388655,
      "loss": 4.0104,
      "step": 93490
    },
    {
      "epoch": 0.19479166666666667,
      "grad_norm": 0.745882511138916,
      "learning_rate": 0.0002736840379907944,
      "loss": 3.8675,
      "step": 93500
    },
    {
      "epoch": 0.1948125,
      "grad_norm": 0.747920572757721,
      "learning_rate": 0.0002736784600084572,
      "loss": 3.9878,
      "step": 93510
    },
    {
      "epoch": 0.19483333333333333,
      "grad_norm": 0.8390116095542908,
      "learning_rate": 0.00027367288149187806,
      "loss": 3.8748,
      "step": 93520
    },
    {
      "epoch": 0.19485416666666666,
      "grad_norm": 0.7207647562026978,
      "learning_rate": 0.000273667302441081,
      "loss": 3.7873,
      "step": 93530
    },
    {
      "epoch": 0.194875,
      "grad_norm": 0.8329967260360718,
      "learning_rate": 0.0002736617228560901,
      "loss": 3.8015,
      "step": 93540
    },
    {
      "epoch": 0.19489583333333332,
      "grad_norm": 0.7339974045753479,
      "learning_rate": 0.0002736561427369296,
      "loss": 3.8681,
      "step": 93550
    },
    {
      "epoch": 0.19491666666666665,
      "grad_norm": 0.798789918422699,
      "learning_rate": 0.0002736505620836234,
      "loss": 4.0514,
      "step": 93560
    },
    {
      "epoch": 0.1949375,
      "grad_norm": 0.7890822291374207,
      "learning_rate": 0.0002736449808961958,
      "loss": 3.9427,
      "step": 93570
    },
    {
      "epoch": 0.19495833333333334,
      "grad_norm": 0.7477342486381531,
      "learning_rate": 0.0002736393991746708,
      "loss": 3.8848,
      "step": 93580
    },
    {
      "epoch": 0.19497916666666668,
      "grad_norm": 0.898853063583374,
      "learning_rate": 0.0002736338169190725,
      "loss": 3.9888,
      "step": 93590
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.7376127243041992,
      "learning_rate": 0.0002736282341294251,
      "loss": 3.8526,
      "step": 93600
    },
    {
      "epoch": 0.19502083333333334,
      "grad_norm": 0.7087004780769348,
      "learning_rate": 0.0002736226508057526,
      "loss": 3.8738,
      "step": 93610
    },
    {
      "epoch": 0.19504166666666667,
      "grad_norm": 0.8363021016120911,
      "learning_rate": 0.0002736170669480793,
      "loss": 4.1419,
      "step": 93620
    },
    {
      "epoch": 0.1950625,
      "grad_norm": 0.7132776975631714,
      "learning_rate": 0.0002736114825564291,
      "loss": 4.0503,
      "step": 93630
    },
    {
      "epoch": 0.19508333333333333,
      "grad_norm": 0.7109072208404541,
      "learning_rate": 0.00027360589763082623,
      "loss": 4.128,
      "step": 93640
    },
    {
      "epoch": 0.19510416666666666,
      "grad_norm": 0.7300116419792175,
      "learning_rate": 0.0002736003121712948,
      "loss": 3.7277,
      "step": 93650
    },
    {
      "epoch": 0.195125,
      "grad_norm": 0.8087018728256226,
      "learning_rate": 0.000273594726177859,
      "loss": 3.8619,
      "step": 93660
    },
    {
      "epoch": 0.19514583333333332,
      "grad_norm": 0.8632952570915222,
      "learning_rate": 0.0002735891396505429,
      "loss": 4.1368,
      "step": 93670
    },
    {
      "epoch": 0.19516666666666665,
      "grad_norm": 0.934794008731842,
      "learning_rate": 0.0002735835525893706,
      "loss": 4.0777,
      "step": 93680
    },
    {
      "epoch": 0.1951875,
      "grad_norm": 0.7700251340866089,
      "learning_rate": 0.00027357796499436626,
      "loss": 3.9264,
      "step": 93690
    },
    {
      "epoch": 0.19520833333333334,
      "grad_norm": 0.7411268353462219,
      "learning_rate": 0.0002735723768655541,
      "loss": 4.1325,
      "step": 93700
    },
    {
      "epoch": 0.19522916666666668,
      "grad_norm": 0.9760246872901917,
      "learning_rate": 0.00027356678820295813,
      "loss": 3.9986,
      "step": 93710
    },
    {
      "epoch": 0.19525,
      "grad_norm": 0.7019138336181641,
      "learning_rate": 0.00027356119900660256,
      "loss": 4.0159,
      "step": 93720
    },
    {
      "epoch": 0.19527083333333334,
      "grad_norm": 0.7643010020256042,
      "learning_rate": 0.0002735556092765115,
      "loss": 4.0083,
      "step": 93730
    },
    {
      "epoch": 0.19529166666666667,
      "grad_norm": 0.8194450736045837,
      "learning_rate": 0.00027355001901270917,
      "loss": 3.8196,
      "step": 93740
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 0.7122031450271606,
      "learning_rate": 0.0002735444282152196,
      "loss": 3.9696,
      "step": 93750
    },
    {
      "epoch": 0.19533333333333333,
      "grad_norm": 0.9850800633430481,
      "learning_rate": 0.000273538836884067,
      "loss": 4.094,
      "step": 93760
    },
    {
      "epoch": 0.19535416666666666,
      "grad_norm": 0.7248971462249756,
      "learning_rate": 0.0002735332450192756,
      "loss": 4.1117,
      "step": 93770
    },
    {
      "epoch": 0.195375,
      "grad_norm": 0.7017927765846252,
      "learning_rate": 0.0002735276526208694,
      "loss": 3.8721,
      "step": 93780
    },
    {
      "epoch": 0.19539583333333332,
      "grad_norm": 0.8409106731414795,
      "learning_rate": 0.00027352205968887266,
      "loss": 3.9017,
      "step": 93790
    },
    {
      "epoch": 0.19541666666666666,
      "grad_norm": 0.7094943523406982,
      "learning_rate": 0.00027351646622330954,
      "loss": 3.95,
      "step": 93800
    },
    {
      "epoch": 0.1954375,
      "grad_norm": 0.750248372554779,
      "learning_rate": 0.00027351087222420413,
      "loss": 4.0178,
      "step": 93810
    },
    {
      "epoch": 0.19545833333333335,
      "grad_norm": 0.663446843624115,
      "learning_rate": 0.00027350527769158067,
      "loss": 3.8346,
      "step": 93820
    },
    {
      "epoch": 0.19547916666666668,
      "grad_norm": 0.7019898891448975,
      "learning_rate": 0.00027349968262546334,
      "loss": 3.9638,
      "step": 93830
    },
    {
      "epoch": 0.1955,
      "grad_norm": 0.7226138710975647,
      "learning_rate": 0.0002734940870258762,
      "loss": 3.9421,
      "step": 93840
    },
    {
      "epoch": 0.19552083333333334,
      "grad_norm": 0.7109925150871277,
      "learning_rate": 0.0002734884908928435,
      "loss": 4.1389,
      "step": 93850
    },
    {
      "epoch": 0.19554166666666667,
      "grad_norm": 0.7578256130218506,
      "learning_rate": 0.0002734828942263894,
      "loss": 4.1641,
      "step": 93860
    },
    {
      "epoch": 0.1955625,
      "grad_norm": 0.7542611956596375,
      "learning_rate": 0.00027347729702653813,
      "loss": 3.9333,
      "step": 93870
    },
    {
      "epoch": 0.19558333333333333,
      "grad_norm": 1.0114073753356934,
      "learning_rate": 0.00027347169929331375,
      "loss": 3.9586,
      "step": 93880
    },
    {
      "epoch": 0.19560416666666666,
      "grad_norm": 0.7541428208351135,
      "learning_rate": 0.0002734661010267405,
      "loss": 3.9015,
      "step": 93890
    },
    {
      "epoch": 0.195625,
      "grad_norm": 0.691645622253418,
      "learning_rate": 0.0002734605022268426,
      "loss": 3.8081,
      "step": 93900
    },
    {
      "epoch": 0.19564583333333332,
      "grad_norm": 0.9284999370574951,
      "learning_rate": 0.0002734549028936442,
      "loss": 3.9396,
      "step": 93910
    },
    {
      "epoch": 0.19566666666666666,
      "grad_norm": 0.7675895690917969,
      "learning_rate": 0.00027344930302716943,
      "loss": 3.9035,
      "step": 93920
    },
    {
      "epoch": 0.1956875,
      "grad_norm": 0.780472993850708,
      "learning_rate": 0.00027344370262744256,
      "loss": 3.9011,
      "step": 93930
    },
    {
      "epoch": 0.19570833333333335,
      "grad_norm": 0.7809320092201233,
      "learning_rate": 0.00027343810169448777,
      "loss": 3.8916,
      "step": 93940
    },
    {
      "epoch": 0.19572916666666668,
      "grad_norm": 0.7453614473342896,
      "learning_rate": 0.0002734325002283293,
      "loss": 3.8171,
      "step": 93950
    },
    {
      "epoch": 0.19575,
      "grad_norm": 0.9034572243690491,
      "learning_rate": 0.0002734268982289912,
      "loss": 3.8176,
      "step": 93960
    },
    {
      "epoch": 0.19577083333333334,
      "grad_norm": 0.7633448243141174,
      "learning_rate": 0.0002734212956964978,
      "loss": 3.7947,
      "step": 93970
    },
    {
      "epoch": 0.19579166666666667,
      "grad_norm": 0.9083358645439148,
      "learning_rate": 0.00027341569263087317,
      "loss": 3.8277,
      "step": 93980
    },
    {
      "epoch": 0.1958125,
      "grad_norm": 0.791124701499939,
      "learning_rate": 0.0002734100890321417,
      "loss": 3.9152,
      "step": 93990
    },
    {
      "epoch": 0.19583333333333333,
      "grad_norm": 0.8397074341773987,
      "learning_rate": 0.0002734044849003275,
      "loss": 4.0513,
      "step": 94000
    },
    {
      "epoch": 0.19583333333333333,
      "eval_loss": 4.285913944244385,
      "eval_runtime": 10.0018,
      "eval_samples_per_second": 1.0,
      "eval_steps_per_second": 0.3,
      "step": 94000
    },
    {
      "epoch": 0.19585416666666666,
      "grad_norm": 0.7428603768348694,
      "learning_rate": 0.0002733988802354547,
      "loss": 4.0798,
      "step": 94010
    },
    {
      "epoch": 0.195875,
      "grad_norm": 0.7495461702346802,
      "learning_rate": 0.0002733932750375476,
      "loss": 4.0043,
      "step": 94020
    },
    {
      "epoch": 0.19589583333333332,
      "grad_norm": 0.7680255770683289,
      "learning_rate": 0.00027338766930663045,
      "loss": 3.7617,
      "step": 94030
    },
    {
      "epoch": 0.19591666666666666,
      "grad_norm": 0.7712447047233582,
      "learning_rate": 0.00027338206304272736,
      "loss": 4.0918,
      "step": 94040
    },
    {
      "epoch": 0.1959375,
      "grad_norm": 0.800653338432312,
      "learning_rate": 0.00027337645624586263,
      "loss": 3.9981,
      "step": 94050
    },
    {
      "epoch": 0.19595833333333335,
      "grad_norm": 0.676794171333313,
      "learning_rate": 0.0002733708489160604,
      "loss": 3.9644,
      "step": 94060
    },
    {
      "epoch": 0.19597916666666668,
      "grad_norm": 0.6784111261367798,
      "learning_rate": 0.00027336524105334495,
      "loss": 3.9767,
      "step": 94070
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.8128810524940491,
      "learning_rate": 0.0002733596326577405,
      "loss": 3.9617,
      "step": 94080
    },
    {
      "epoch": 0.19602083333333334,
      "grad_norm": 0.8545257449150085,
      "learning_rate": 0.0002733540237292713,
      "loss": 3.8829,
      "step": 94090
    },
    {
      "epoch": 0.19604166666666667,
      "grad_norm": 0.7146647572517395,
      "learning_rate": 0.0002733484142679615,
      "loss": 3.9225,
      "step": 94100
    },
    {
      "epoch": 0.1960625,
      "grad_norm": 0.849390983581543,
      "learning_rate": 0.00027334280427383534,
      "loss": 4.0716,
      "step": 94110
    },
    {
      "epoch": 0.19608333333333333,
      "grad_norm": 0.7027696967124939,
      "learning_rate": 0.0002733371937469172,
      "loss": 3.9006,
      "step": 94120
    },
    {
      "epoch": 0.19610416666666666,
      "grad_norm": 0.7660244107246399,
      "learning_rate": 0.00027333158268723107,
      "loss": 3.7835,
      "step": 94130
    },
    {
      "epoch": 0.196125,
      "grad_norm": 0.8189563751220703,
      "learning_rate": 0.0002733259710948014,
      "loss": 3.8866,
      "step": 94140
    },
    {
      "epoch": 0.19614583333333332,
      "grad_norm": 0.7408201694488525,
      "learning_rate": 0.00027332035896965236,
      "loss": 3.8726,
      "step": 94150
    },
    {
      "epoch": 0.19616666666666666,
      "grad_norm": 0.809445321559906,
      "learning_rate": 0.0002733147463118081,
      "loss": 3.9916,
      "step": 94160
    },
    {
      "epoch": 0.1961875,
      "grad_norm": 0.7544098496437073,
      "learning_rate": 0.000273309133121293,
      "loss": 4.0405,
      "step": 94170
    },
    {
      "epoch": 0.19620833333333335,
      "grad_norm": 0.7298381924629211,
      "learning_rate": 0.0002733035193981313,
      "loss": 4.0829,
      "step": 94180
    },
    {
      "epoch": 0.19622916666666668,
      "grad_norm": 0.8632772564888,
      "learning_rate": 0.0002732979051423472,
      "loss": 3.992,
      "step": 94190
    },
    {
      "epoch": 0.19625,
      "grad_norm": 0.7655407786369324,
      "learning_rate": 0.0002732922903539649,
      "loss": 4.0246,
      "step": 94200
    },
    {
      "epoch": 0.19627083333333334,
      "grad_norm": 0.7302138209342957,
      "learning_rate": 0.00027328667503300874,
      "loss": 3.9714,
      "step": 94210
    },
    {
      "epoch": 0.19629166666666667,
      "grad_norm": 0.8145546317100525,
      "learning_rate": 0.0002732810591795029,
      "loss": 3.9614,
      "step": 94220
    },
    {
      "epoch": 0.1963125,
      "grad_norm": 0.710543155670166,
      "learning_rate": 0.0002732754427934717,
      "loss": 3.9526,
      "step": 94230
    },
    {
      "epoch": 0.19633333333333333,
      "grad_norm": 0.7220954298973083,
      "learning_rate": 0.00027326982587493943,
      "loss": 3.8375,
      "step": 94240
    },
    {
      "epoch": 0.19635416666666666,
      "grad_norm": 0.8978043794631958,
      "learning_rate": 0.00027326420842393025,
      "loss": 4.0095,
      "step": 94250
    },
    {
      "epoch": 0.196375,
      "grad_norm": 0.7745317220687866,
      "learning_rate": 0.0002732585904404685,
      "loss": 3.8199,
      "step": 94260
    },
    {
      "epoch": 0.19639583333333333,
      "grad_norm": 0.6638867855072021,
      "learning_rate": 0.00027325297192457845,
      "loss": 3.8557,
      "step": 94270
    },
    {
      "epoch": 0.19641666666666666,
      "grad_norm": 0.765419602394104,
      "learning_rate": 0.0002732473528762843,
      "loss": 4.1052,
      "step": 94280
    },
    {
      "epoch": 0.1964375,
      "grad_norm": 0.7885999083518982,
      "learning_rate": 0.00027324173329561045,
      "loss": 3.761,
      "step": 94290
    },
    {
      "epoch": 0.19645833333333335,
      "grad_norm": 0.7087690234184265,
      "learning_rate": 0.000273236113182581,
      "loss": 3.9428,
      "step": 94300
    },
    {
      "epoch": 0.19647916666666668,
      "grad_norm": 0.773313581943512,
      "learning_rate": 0.0002732304925372204,
      "loss": 3.9819,
      "step": 94310
    },
    {
      "epoch": 0.1965,
      "grad_norm": 0.8233387470245361,
      "learning_rate": 0.0002732248713595528,
      "loss": 4.0071,
      "step": 94320
    },
    {
      "epoch": 0.19652083333333334,
      "grad_norm": 0.8832021355628967,
      "learning_rate": 0.00027321924964960253,
      "loss": 3.7911,
      "step": 94330
    },
    {
      "epoch": 0.19654166666666667,
      "grad_norm": 0.8114696145057678,
      "learning_rate": 0.0002732136274073939,
      "loss": 4.1259,
      "step": 94340
    },
    {
      "epoch": 0.1965625,
      "grad_norm": 0.7254542112350464,
      "learning_rate": 0.0002732080046329512,
      "loss": 3.9026,
      "step": 94350
    },
    {
      "epoch": 0.19658333333333333,
      "grad_norm": 0.812205970287323,
      "learning_rate": 0.0002732023813262986,
      "loss": 3.7488,
      "step": 94360
    },
    {
      "epoch": 0.19660416666666666,
      "grad_norm": 0.8565831780433655,
      "learning_rate": 0.0002731967574874606,
      "loss": 3.8708,
      "step": 94370
    },
    {
      "epoch": 0.196625,
      "grad_norm": 0.7425814867019653,
      "learning_rate": 0.00027319113311646126,
      "loss": 3.959,
      "step": 94380
    },
    {
      "epoch": 0.19664583333333333,
      "grad_norm": 0.9900192022323608,
      "learning_rate": 0.00027318550821332506,
      "loss": 4.0643,
      "step": 94390
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 0.832787275314331,
      "learning_rate": 0.00027317988277807614,
      "loss": 3.9747,
      "step": 94400
    },
    {
      "epoch": 0.1966875,
      "grad_norm": 0.9632630944252014,
      "learning_rate": 0.00027317425681073896,
      "loss": 4.1129,
      "step": 94410
    },
    {
      "epoch": 0.19670833333333335,
      "grad_norm": 0.7998073101043701,
      "learning_rate": 0.00027316863031133775,
      "loss": 3.9019,
      "step": 94420
    },
    {
      "epoch": 0.19672916666666668,
      "grad_norm": 0.7998934388160706,
      "learning_rate": 0.0002731630032798968,
      "loss": 4.076,
      "step": 94430
    },
    {
      "epoch": 0.19675,
      "grad_norm": 0.8293442726135254,
      "learning_rate": 0.0002731573757164404,
      "loss": 3.924,
      "step": 94440
    },
    {
      "epoch": 0.19677083333333334,
      "grad_norm": 0.7782034277915955,
      "learning_rate": 0.0002731517476209929,
      "loss": 3.8855,
      "step": 94450
    },
    {
      "epoch": 0.19679166666666667,
      "grad_norm": 0.7438388466835022,
      "learning_rate": 0.00027314611899357854,
      "loss": 3.9089,
      "step": 94460
    },
    {
      "epoch": 0.1968125,
      "grad_norm": 0.768671989440918,
      "learning_rate": 0.0002731404898342218,
      "loss": 3.9499,
      "step": 94470
    },
    {
      "epoch": 0.19683333333333333,
      "grad_norm": 0.7243049740791321,
      "learning_rate": 0.00027313486014294685,
      "loss": 3.9702,
      "step": 94480
    },
    {
      "epoch": 0.19685416666666666,
      "grad_norm": 0.8078787922859192,
      "learning_rate": 0.00027312922991977803,
      "loss": 3.8232,
      "step": 94490
    },
    {
      "epoch": 0.196875,
      "grad_norm": 0.8151666522026062,
      "learning_rate": 0.00027312359916473964,
      "loss": 4.1178,
      "step": 94500
    },
    {
      "epoch": 0.19689583333333333,
      "grad_norm": 0.7245591282844543,
      "learning_rate": 0.00027311796787785606,
      "loss": 3.8415,
      "step": 94510
    },
    {
      "epoch": 0.19691666666666666,
      "grad_norm": 0.7509301900863647,
      "learning_rate": 0.00027311233605915164,
      "loss": 3.7977,
      "step": 94520
    },
    {
      "epoch": 0.1969375,
      "grad_norm": 0.7546054124832153,
      "learning_rate": 0.0002731067037086506,
      "loss": 3.7631,
      "step": 94530
    },
    {
      "epoch": 0.19695833333333335,
      "grad_norm": 0.8203265070915222,
      "learning_rate": 0.00027310107082637736,
      "loss": 3.8932,
      "step": 94540
    },
    {
      "epoch": 0.19697916666666668,
      "grad_norm": 0.6537691354751587,
      "learning_rate": 0.00027309543741235623,
      "loss": 3.957,
      "step": 94550
    },
    {
      "epoch": 0.197,
      "grad_norm": 0.7701115608215332,
      "learning_rate": 0.0002730898034666115,
      "loss": 3.8988,
      "step": 94560
    },
    {
      "epoch": 0.19702083333333334,
      "grad_norm": 0.7552040815353394,
      "learning_rate": 0.00027308416898916754,
      "loss": 3.9089,
      "step": 94570
    },
    {
      "epoch": 0.19704166666666667,
      "grad_norm": 0.8950221538543701,
      "learning_rate": 0.0002730785339800487,
      "loss": 3.8939,
      "step": 94580
    },
    {
      "epoch": 0.1970625,
      "grad_norm": 0.6725966334342957,
      "learning_rate": 0.0002730728984392793,
      "loss": 3.8281,
      "step": 94590
    },
    {
      "epoch": 0.19708333333333333,
      "grad_norm": 0.7390570044517517,
      "learning_rate": 0.00027306726236688375,
      "loss": 3.8458,
      "step": 94600
    },
    {
      "epoch": 0.19710416666666666,
      "grad_norm": 0.9460276365280151,
      "learning_rate": 0.00027306162576288634,
      "loss": 4.0306,
      "step": 94610
    },
    {
      "epoch": 0.197125,
      "grad_norm": 0.7983285784721375,
      "learning_rate": 0.0002730559886273114,
      "loss": 4.0208,
      "step": 94620
    },
    {
      "epoch": 0.19714583333333333,
      "grad_norm": 0.7989623546600342,
      "learning_rate": 0.0002730503509601833,
      "loss": 4.0132,
      "step": 94630
    },
    {
      "epoch": 0.19716666666666666,
      "grad_norm": 0.8446179032325745,
      "learning_rate": 0.0002730447127615263,
      "loss": 3.8906,
      "step": 94640
    },
    {
      "epoch": 0.1971875,
      "grad_norm": 0.7612013220787048,
      "learning_rate": 0.0002730390740313649,
      "loss": 3.9187,
      "step": 94650
    },
    {
      "epoch": 0.19720833333333335,
      "grad_norm": 0.6686002612113953,
      "learning_rate": 0.0002730334347697235,
      "loss": 3.9897,
      "step": 94660
    },
    {
      "epoch": 0.19722916666666668,
      "grad_norm": 0.8132466077804565,
      "learning_rate": 0.0002730277949766262,
      "loss": 3.9706,
      "step": 94670
    },
    {
      "epoch": 0.19725,
      "grad_norm": 0.8219506144523621,
      "learning_rate": 0.00027302215465209765,
      "loss": 3.9559,
      "step": 94680
    },
    {
      "epoch": 0.19727083333333334,
      "grad_norm": 0.8895891308784485,
      "learning_rate": 0.00027301651379616203,
      "loss": 4.0325,
      "step": 94690
    },
    {
      "epoch": 0.19729166666666667,
      "grad_norm": 0.7913607358932495,
      "learning_rate": 0.0002730108724088438,
      "loss": 3.904,
      "step": 94700
    },
    {
      "epoch": 0.1973125,
      "grad_norm": 0.9104297757148743,
      "learning_rate": 0.00027300523049016726,
      "loss": 4.0778,
      "step": 94710
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 0.754450798034668,
      "learning_rate": 0.0002729995880401568,
      "loss": 3.9666,
      "step": 94720
    },
    {
      "epoch": 0.19735416666666666,
      "grad_norm": 0.646834671497345,
      "learning_rate": 0.0002729939450588368,
      "loss": 3.836,
      "step": 94730
    },
    {
      "epoch": 0.197375,
      "grad_norm": 0.7612391114234924,
      "learning_rate": 0.00027298830154623167,
      "loss": 3.8928,
      "step": 94740
    },
    {
      "epoch": 0.19739583333333333,
      "grad_norm": 0.8547986745834351,
      "learning_rate": 0.00027298265750236577,
      "loss": 3.9103,
      "step": 94750
    },
    {
      "epoch": 0.19741666666666666,
      "grad_norm": 0.8213331699371338,
      "learning_rate": 0.00027297701292726347,
      "loss": 4.0028,
      "step": 94760
    },
    {
      "epoch": 0.1974375,
      "grad_norm": 0.7758845090866089,
      "learning_rate": 0.00027297136782094915,
      "loss": 3.8489,
      "step": 94770
    },
    {
      "epoch": 0.19745833333333335,
      "grad_norm": 0.7645173668861389,
      "learning_rate": 0.00027296572218344717,
      "loss": 3.8653,
      "step": 94780
    },
    {
      "epoch": 0.19747916666666668,
      "grad_norm": 0.8325846195220947,
      "learning_rate": 0.00027296007601478197,
      "loss": 3.8926,
      "step": 94790
    },
    {
      "epoch": 0.1975,
      "grad_norm": 0.7507449388504028,
      "learning_rate": 0.0002729544293149779,
      "loss": 3.8006,
      "step": 94800
    },
    {
      "epoch": 0.19752083333333334,
      "grad_norm": 0.8223894238471985,
      "learning_rate": 0.00027294878208405937,
      "loss": 4.062,
      "step": 94810
    },
    {
      "epoch": 0.19754166666666667,
      "grad_norm": 0.6670302152633667,
      "learning_rate": 0.0002729431343220507,
      "loss": 3.9239,
      "step": 94820
    },
    {
      "epoch": 0.1975625,
      "grad_norm": 0.7052832841873169,
      "learning_rate": 0.00027293748602897646,
      "loss": 3.8612,
      "step": 94830
    },
    {
      "epoch": 0.19758333333333333,
      "grad_norm": 0.8444905281066895,
      "learning_rate": 0.00027293183720486096,
      "loss": 4.0202,
      "step": 94840
    },
    {
      "epoch": 0.19760416666666666,
      "grad_norm": 0.8753871321678162,
      "learning_rate": 0.0002729261878497285,
      "loss": 3.9907,
      "step": 94850
    },
    {
      "epoch": 0.197625,
      "grad_norm": 0.7703127264976501,
      "learning_rate": 0.0002729205379636036,
      "loss": 3.9846,
      "step": 94860
    },
    {
      "epoch": 0.19764583333333333,
      "grad_norm": 0.710654079914093,
      "learning_rate": 0.0002729148875465106,
      "loss": 3.8334,
      "step": 94870
    },
    {
      "epoch": 0.19766666666666666,
      "grad_norm": 0.792307436466217,
      "learning_rate": 0.00027290923659847394,
      "loss": 4.1345,
      "step": 94880
    },
    {
      "epoch": 0.1976875,
      "grad_norm": 0.8061255812644958,
      "learning_rate": 0.00027290358511951806,
      "loss": 3.9624,
      "step": 94890
    },
    {
      "epoch": 0.19770833333333335,
      "grad_norm": 0.736041247844696,
      "learning_rate": 0.0002728979331096673,
      "loss": 3.932,
      "step": 94900
    },
    {
      "epoch": 0.19772916666666668,
      "grad_norm": 0.7914325594902039,
      "learning_rate": 0.00027289228056894617,
      "loss": 3.9747,
      "step": 94910
    },
    {
      "epoch": 0.19775,
      "grad_norm": 0.7332755327224731,
      "learning_rate": 0.000272886627497379,
      "loss": 3.917,
      "step": 94920
    },
    {
      "epoch": 0.19777083333333334,
      "grad_norm": 0.7542585730552673,
      "learning_rate": 0.00027288097389499024,
      "loss": 4.1028,
      "step": 94930
    },
    {
      "epoch": 0.19779166666666667,
      "grad_norm": 0.750957727432251,
      "learning_rate": 0.00027287531976180433,
      "loss": 3.8554,
      "step": 94940
    },
    {
      "epoch": 0.1978125,
      "grad_norm": 0.8525398969650269,
      "learning_rate": 0.00027286966509784563,
      "loss": 4.1059,
      "step": 94950
    },
    {
      "epoch": 0.19783333333333333,
      "grad_norm": 0.7257283926010132,
      "learning_rate": 0.0002728640099031387,
      "loss": 3.8929,
      "step": 94960
    },
    {
      "epoch": 0.19785416666666666,
      "grad_norm": 0.7192295789718628,
      "learning_rate": 0.00027285835417770784,
      "loss": 3.7907,
      "step": 94970
    },
    {
      "epoch": 0.197875,
      "grad_norm": 0.7817862629890442,
      "learning_rate": 0.0002728526979215775,
      "loss": 4.0013,
      "step": 94980
    },
    {
      "epoch": 0.19789583333333333,
      "grad_norm": 0.7521064281463623,
      "learning_rate": 0.00027284704113477213,
      "loss": 3.9138,
      "step": 94990
    },
    {
      "epoch": 0.19791666666666666,
      "grad_norm": 0.8898777365684509,
      "learning_rate": 0.00027284138381731616,
      "loss": 3.9277,
      "step": 95000
    },
    {
      "epoch": 0.19791666666666666,
      "eval_loss": 4.271115779876709,
      "eval_runtime": 10.2343,
      "eval_samples_per_second": 0.977,
      "eval_steps_per_second": 0.293,
      "step": 95000
    },
    {
      "epoch": 0.1979375,
      "grad_norm": 0.6711692810058594,
      "learning_rate": 0.0002728357259692341,
      "loss": 3.9482,
      "step": 95010
    },
    {
      "epoch": 0.19795833333333332,
      "grad_norm": 0.7672122120857239,
      "learning_rate": 0.00027283006759055024,
      "loss": 3.939,
      "step": 95020
    },
    {
      "epoch": 0.19797916666666668,
      "grad_norm": 0.7526044249534607,
      "learning_rate": 0.00027282440868128913,
      "loss": 3.9021,
      "step": 95030
    },
    {
      "epoch": 0.198,
      "grad_norm": 0.7613542675971985,
      "learning_rate": 0.0002728187492414752,
      "loss": 4.023,
      "step": 95040
    },
    {
      "epoch": 0.19802083333333334,
      "grad_norm": 0.8219260573387146,
      "learning_rate": 0.00027281308927113297,
      "loss": 3.8358,
      "step": 95050
    },
    {
      "epoch": 0.19804166666666667,
      "grad_norm": 0.7035009264945984,
      "learning_rate": 0.0002728074287702867,
      "loss": 4.0996,
      "step": 95060
    },
    {
      "epoch": 0.1980625,
      "grad_norm": 0.7991828918457031,
      "learning_rate": 0.000272801767738961,
      "loss": 3.8931,
      "step": 95070
    },
    {
      "epoch": 0.19808333333333333,
      "grad_norm": 0.8352935910224915,
      "learning_rate": 0.0002727961061771803,
      "loss": 3.913,
      "step": 95080
    },
    {
      "epoch": 0.19810416666666666,
      "grad_norm": 0.6879733800888062,
      "learning_rate": 0.00027279044408496896,
      "loss": 3.7716,
      "step": 95090
    },
    {
      "epoch": 0.198125,
      "grad_norm": 0.7977094054222107,
      "learning_rate": 0.0002727847814623515,
      "loss": 3.9439,
      "step": 95100
    },
    {
      "epoch": 0.19814583333333333,
      "grad_norm": 0.8713047504425049,
      "learning_rate": 0.0002727791183093524,
      "loss": 3.7435,
      "step": 95110
    },
    {
      "epoch": 0.19816666666666666,
      "grad_norm": 0.8096645474433899,
      "learning_rate": 0.00027277345462599616,
      "loss": 4.0533,
      "step": 95120
    },
    {
      "epoch": 0.1981875,
      "grad_norm": 0.7325319051742554,
      "learning_rate": 0.00027276779041230715,
      "loss": 3.9595,
      "step": 95130
    },
    {
      "epoch": 0.19820833333333332,
      "grad_norm": 1.015947937965393,
      "learning_rate": 0.00027276212566830987,
      "loss": 3.9971,
      "step": 95140
    },
    {
      "epoch": 0.19822916666666668,
      "grad_norm": 0.9872867465019226,
      "learning_rate": 0.0002727564603940288,
      "loss": 3.9777,
      "step": 95150
    },
    {
      "epoch": 0.19825,
      "grad_norm": 0.6348692774772644,
      "learning_rate": 0.00027275079458948843,
      "loss": 4.1258,
      "step": 95160
    },
    {
      "epoch": 0.19827083333333334,
      "grad_norm": 0.7497531771659851,
      "learning_rate": 0.00027274512825471324,
      "loss": 4.0081,
      "step": 95170
    },
    {
      "epoch": 0.19829166666666667,
      "grad_norm": 0.7661571502685547,
      "learning_rate": 0.00027273946138972767,
      "loss": 3.8591,
      "step": 95180
    },
    {
      "epoch": 0.1983125,
      "grad_norm": 0.7939054369926453,
      "learning_rate": 0.0002727337939945562,
      "loss": 4.1012,
      "step": 95190
    },
    {
      "epoch": 0.19833333333333333,
      "grad_norm": 0.7353616952896118,
      "learning_rate": 0.0002727281260692233,
      "loss": 3.8836,
      "step": 95200
    },
    {
      "epoch": 0.19835416666666666,
      "grad_norm": 0.7423490881919861,
      "learning_rate": 0.0002727224576137535,
      "loss": 3.9224,
      "step": 95210
    },
    {
      "epoch": 0.198375,
      "grad_norm": 0.7997414469718933,
      "learning_rate": 0.0002727167886281713,
      "loss": 3.9208,
      "step": 95220
    },
    {
      "epoch": 0.19839583333333333,
      "grad_norm": 0.7954651713371277,
      "learning_rate": 0.00027271111911250103,
      "loss": 3.927,
      "step": 95230
    },
    {
      "epoch": 0.19841666666666666,
      "grad_norm": 0.710033118724823,
      "learning_rate": 0.00027270544906676737,
      "loss": 4.0043,
      "step": 95240
    },
    {
      "epoch": 0.1984375,
      "grad_norm": 0.8082271814346313,
      "learning_rate": 0.00027269977849099476,
      "loss": 3.9193,
      "step": 95250
    },
    {
      "epoch": 0.19845833333333332,
      "grad_norm": 0.8078631162643433,
      "learning_rate": 0.0002726941073852077,
      "loss": 3.7871,
      "step": 95260
    },
    {
      "epoch": 0.19847916666666668,
      "grad_norm": 0.7675504684448242,
      "learning_rate": 0.00027268843574943056,
      "loss": 3.993,
      "step": 95270
    },
    {
      "epoch": 0.1985,
      "grad_norm": 0.8192450404167175,
      "learning_rate": 0.00027268276358368804,
      "loss": 3.921,
      "step": 95280
    },
    {
      "epoch": 0.19852083333333334,
      "grad_norm": 0.7936809062957764,
      "learning_rate": 0.00027267709088800446,
      "loss": 3.9812,
      "step": 95290
    },
    {
      "epoch": 0.19854166666666667,
      "grad_norm": 0.8804940581321716,
      "learning_rate": 0.00027267141766240444,
      "loss": 3.8316,
      "step": 95300
    },
    {
      "epoch": 0.1985625,
      "grad_norm": 1.021031379699707,
      "learning_rate": 0.0002726657439069125,
      "loss": 3.9863,
      "step": 95310
    },
    {
      "epoch": 0.19858333333333333,
      "grad_norm": 0.9963385462760925,
      "learning_rate": 0.000272660069621553,
      "loss": 3.9901,
      "step": 95320
    },
    {
      "epoch": 0.19860416666666666,
      "grad_norm": 0.8169689774513245,
      "learning_rate": 0.00027265439480635064,
      "loss": 3.9198,
      "step": 95330
    },
    {
      "epoch": 0.198625,
      "grad_norm": 0.7887220978736877,
      "learning_rate": 0.00027264871946132977,
      "loss": 3.9599,
      "step": 95340
    },
    {
      "epoch": 0.19864583333333333,
      "grad_norm": 0.755453884601593,
      "learning_rate": 0.000272643043586515,
      "loss": 3.893,
      "step": 95350
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 0.8351927399635315,
      "learning_rate": 0.0002726373671819309,
      "loss": 4.0355,
      "step": 95360
    },
    {
      "epoch": 0.1986875,
      "grad_norm": 0.870010495185852,
      "learning_rate": 0.00027263169024760187,
      "loss": 3.9091,
      "step": 95370
    },
    {
      "epoch": 0.19870833333333332,
      "grad_norm": 0.8379443883895874,
      "learning_rate": 0.00027262601278355247,
      "loss": 3.94,
      "step": 95380
    },
    {
      "epoch": 0.19872916666666668,
      "grad_norm": 0.7221532464027405,
      "learning_rate": 0.00027262033478980726,
      "loss": 3.9911,
      "step": 95390
    },
    {
      "epoch": 0.19875,
      "grad_norm": 0.7765875458717346,
      "learning_rate": 0.0002726146562663907,
      "loss": 3.8333,
      "step": 95400
    },
    {
      "epoch": 0.19877083333333334,
      "grad_norm": 0.8983017802238464,
      "learning_rate": 0.0002726089772133274,
      "loss": 3.9037,
      "step": 95410
    },
    {
      "epoch": 0.19879166666666667,
      "grad_norm": 0.6565699577331543,
      "learning_rate": 0.0002726032976306418,
      "loss": 3.8885,
      "step": 95420
    },
    {
      "epoch": 0.1988125,
      "grad_norm": 0.870557963848114,
      "learning_rate": 0.0002725976175183585,
      "loss": 3.9318,
      "step": 95430
    },
    {
      "epoch": 0.19883333333333333,
      "grad_norm": 0.6848026514053345,
      "learning_rate": 0.00027259193687650203,
      "loss": 3.8416,
      "step": 95440
    },
    {
      "epoch": 0.19885416666666667,
      "grad_norm": 0.7527801990509033,
      "learning_rate": 0.0002725862557050969,
      "loss": 4.0907,
      "step": 95450
    },
    {
      "epoch": 0.198875,
      "grad_norm": 0.8276255130767822,
      "learning_rate": 0.00027258057400416773,
      "loss": 3.762,
      "step": 95460
    },
    {
      "epoch": 0.19889583333333333,
      "grad_norm": 0.9026311635971069,
      "learning_rate": 0.000272574891773739,
      "loss": 3.8851,
      "step": 95470
    },
    {
      "epoch": 0.19891666666666666,
      "grad_norm": 0.7340048551559448,
      "learning_rate": 0.0002725692090138352,
      "loss": 3.9971,
      "step": 95480
    },
    {
      "epoch": 0.1989375,
      "grad_norm": 0.8014360070228577,
      "learning_rate": 0.00027256352572448096,
      "loss": 4.0204,
      "step": 95490
    },
    {
      "epoch": 0.19895833333333332,
      "grad_norm": 0.8241854310035706,
      "learning_rate": 0.0002725578419057008,
      "loss": 3.9715,
      "step": 95500
    },
    {
      "epoch": 0.19897916666666668,
      "grad_norm": 0.7955034375190735,
      "learning_rate": 0.00027255215755751924,
      "loss": 3.8963,
      "step": 95510
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.774272620677948,
      "learning_rate": 0.0002725464726799609,
      "loss": 4.0039,
      "step": 95520
    },
    {
      "epoch": 0.19902083333333334,
      "grad_norm": 0.8428143858909607,
      "learning_rate": 0.0002725407872730503,
      "loss": 3.8393,
      "step": 95530
    },
    {
      "epoch": 0.19904166666666667,
      "grad_norm": 0.7368664741516113,
      "learning_rate": 0.000272535101336812,
      "loss": 3.8077,
      "step": 95540
    },
    {
      "epoch": 0.1990625,
      "grad_norm": 0.7432920336723328,
      "learning_rate": 0.00027252941487127056,
      "loss": 4.0228,
      "step": 95550
    },
    {
      "epoch": 0.19908333333333333,
      "grad_norm": 0.720112144947052,
      "learning_rate": 0.0002725237278764506,
      "loss": 4.065,
      "step": 95560
    },
    {
      "epoch": 0.19910416666666667,
      "grad_norm": 0.7293336391448975,
      "learning_rate": 0.0002725180403523766,
      "loss": 3.8378,
      "step": 95570
    },
    {
      "epoch": 0.199125,
      "grad_norm": 0.7541269063949585,
      "learning_rate": 0.00027251235229907314,
      "loss": 3.9803,
      "step": 95580
    },
    {
      "epoch": 0.19914583333333333,
      "grad_norm": 0.7519063353538513,
      "learning_rate": 0.00027250666371656483,
      "loss": 4.0744,
      "step": 95590
    },
    {
      "epoch": 0.19916666666666666,
      "grad_norm": 0.74894779920578,
      "learning_rate": 0.0002725009746048762,
      "loss": 3.7719,
      "step": 95600
    },
    {
      "epoch": 0.1991875,
      "grad_norm": 0.7593650221824646,
      "learning_rate": 0.0002724952849640319,
      "loss": 3.811,
      "step": 95610
    },
    {
      "epoch": 0.19920833333333332,
      "grad_norm": 0.7517598867416382,
      "learning_rate": 0.0002724895947940564,
      "loss": 4.1314,
      "step": 95620
    },
    {
      "epoch": 0.19922916666666668,
      "grad_norm": 0.7260909080505371,
      "learning_rate": 0.00027248390409497435,
      "loss": 3.9499,
      "step": 95630
    },
    {
      "epoch": 0.19925,
      "grad_norm": 0.7088784575462341,
      "learning_rate": 0.0002724782128668103,
      "loss": 4.0847,
      "step": 95640
    },
    {
      "epoch": 0.19927083333333334,
      "grad_norm": 0.8258644938468933,
      "learning_rate": 0.0002724725211095889,
      "loss": 4.0237,
      "step": 95650
    },
    {
      "epoch": 0.19929166666666667,
      "grad_norm": 0.6923059821128845,
      "learning_rate": 0.0002724668288233347,
      "loss": 3.8894,
      "step": 95660
    },
    {
      "epoch": 0.1993125,
      "grad_norm": 0.8046190142631531,
      "learning_rate": 0.0002724611360080722,
      "loss": 3.92,
      "step": 95670
    },
    {
      "epoch": 0.19933333333333333,
      "grad_norm": 0.7987192273139954,
      "learning_rate": 0.0002724554426638261,
      "loss": 4.0126,
      "step": 95680
    },
    {
      "epoch": 0.19935416666666667,
      "grad_norm": 0.6852538585662842,
      "learning_rate": 0.000272449748790621,
      "loss": 3.8898,
      "step": 95690
    },
    {
      "epoch": 0.199375,
      "grad_norm": 0.7531848549842834,
      "learning_rate": 0.0002724440543884814,
      "loss": 3.9476,
      "step": 95700
    },
    {
      "epoch": 0.19939583333333333,
      "grad_norm": 0.8573852181434631,
      "learning_rate": 0.00027243835945743204,
      "loss": 3.9328,
      "step": 95710
    },
    {
      "epoch": 0.19941666666666666,
      "grad_norm": 0.8567180633544922,
      "learning_rate": 0.0002724326639974973,
      "loss": 3.803,
      "step": 95720
    },
    {
      "epoch": 0.1994375,
      "grad_norm": 0.7971590161323547,
      "learning_rate": 0.000272426968008702,
      "loss": 3.9547,
      "step": 95730
    },
    {
      "epoch": 0.19945833333333332,
      "grad_norm": 0.673969030380249,
      "learning_rate": 0.00027242127149107063,
      "loss": 3.8689,
      "step": 95740
    },
    {
      "epoch": 0.19947916666666668,
      "grad_norm": 0.7227053642272949,
      "learning_rate": 0.00027241557444462785,
      "loss": 3.9238,
      "step": 95750
    },
    {
      "epoch": 0.1995,
      "grad_norm": 0.8365728855133057,
      "learning_rate": 0.0002724098768693982,
      "loss": 3.8884,
      "step": 95760
    },
    {
      "epoch": 0.19952083333333334,
      "grad_norm": 0.7833431363105774,
      "learning_rate": 0.00027240417876540636,
      "loss": 4.0479,
      "step": 95770
    },
    {
      "epoch": 0.19954166666666667,
      "grad_norm": 0.7857282757759094,
      "learning_rate": 0.0002723984801326769,
      "loss": 4.031,
      "step": 95780
    },
    {
      "epoch": 0.1995625,
      "grad_norm": 0.7180692553520203,
      "learning_rate": 0.0002723927809712345,
      "loss": 3.7832,
      "step": 95790
    },
    {
      "epoch": 0.19958333333333333,
      "grad_norm": 0.7568239569664001,
      "learning_rate": 0.0002723870812811037,
      "loss": 4.0191,
      "step": 95800
    },
    {
      "epoch": 0.19960416666666667,
      "grad_norm": 1.0466986894607544,
      "learning_rate": 0.00027238138106230913,
      "loss": 4.0187,
      "step": 95810
    },
    {
      "epoch": 0.199625,
      "grad_norm": 0.7847929000854492,
      "learning_rate": 0.0002723756803148755,
      "loss": 3.9603,
      "step": 95820
    },
    {
      "epoch": 0.19964583333333333,
      "grad_norm": 0.6816434860229492,
      "learning_rate": 0.00027236997903882734,
      "loss": 3.8365,
      "step": 95830
    },
    {
      "epoch": 0.19966666666666666,
      "grad_norm": 0.7795352935791016,
      "learning_rate": 0.0002723642772341893,
      "loss": 3.8474,
      "step": 95840
    },
    {
      "epoch": 0.1996875,
      "grad_norm": 0.9082037806510925,
      "learning_rate": 0.000272358574900986,
      "loss": 3.9114,
      "step": 95850
    },
    {
      "epoch": 0.19970833333333332,
      "grad_norm": 0.786378800868988,
      "learning_rate": 0.0002723528720392421,
      "loss": 3.8308,
      "step": 95860
    },
    {
      "epoch": 0.19972916666666668,
      "grad_norm": 0.7490182518959045,
      "learning_rate": 0.00027234716864898224,
      "loss": 4.0144,
      "step": 95870
    },
    {
      "epoch": 0.19975,
      "grad_norm": 0.8036988377571106,
      "learning_rate": 0.000272341464730231,
      "loss": 3.8668,
      "step": 95880
    },
    {
      "epoch": 0.19977083333333334,
      "grad_norm": 0.9833376407623291,
      "learning_rate": 0.00027233576028301316,
      "loss": 3.8897,
      "step": 95890
    },
    {
      "epoch": 0.19979166666666667,
      "grad_norm": 0.8045269846916199,
      "learning_rate": 0.00027233005530735314,
      "loss": 3.8997,
      "step": 95900
    },
    {
      "epoch": 0.1998125,
      "grad_norm": 0.7489220499992371,
      "learning_rate": 0.00027232434980327576,
      "loss": 3.9744,
      "step": 95910
    },
    {
      "epoch": 0.19983333333333334,
      "grad_norm": 0.7048522233963013,
      "learning_rate": 0.0002723186437708056,
      "loss": 3.8358,
      "step": 95920
    },
    {
      "epoch": 0.19985416666666667,
      "grad_norm": 0.779782235622406,
      "learning_rate": 0.0002723129372099673,
      "loss": 3.8097,
      "step": 95930
    },
    {
      "epoch": 0.199875,
      "grad_norm": 1.021405577659607,
      "learning_rate": 0.00027230723012078555,
      "loss": 4.2053,
      "step": 95940
    },
    {
      "epoch": 0.19989583333333333,
      "grad_norm": 0.9189375638961792,
      "learning_rate": 0.000272301522503285,
      "loss": 3.9751,
      "step": 95950
    },
    {
      "epoch": 0.19991666666666666,
      "grad_norm": 0.8550997376441956,
      "learning_rate": 0.0002722958143574902,
      "loss": 3.9191,
      "step": 95960
    },
    {
      "epoch": 0.1999375,
      "grad_norm": 1.0112518072128296,
      "learning_rate": 0.000272290105683426,
      "loss": 3.9383,
      "step": 95970
    },
    {
      "epoch": 0.19995833333333332,
      "grad_norm": 0.9111433625221252,
      "learning_rate": 0.0002722843964811169,
      "loss": 3.868,
      "step": 95980
    },
    {
      "epoch": 0.19997916666666668,
      "grad_norm": 0.9547604918479919,
      "learning_rate": 0.00027227868675058764,
      "loss": 3.9079,
      "step": 95990
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7119100689888,
      "learning_rate": 0.00027227297649186274,
      "loss": 3.8974,
      "step": 96000
    },
    {
      "epoch": 0.2,
      "eval_loss": 4.269207000732422,
      "eval_runtime": 9.6444,
      "eval_samples_per_second": 1.037,
      "eval_steps_per_second": 0.311,
      "step": 96000
    },
    {
      "epoch": 0.20002083333333334,
      "grad_norm": 0.6749746799468994,
      "learning_rate": 0.0002722672657049671,
      "loss": 3.9385,
      "step": 96010
    },
    {
      "epoch": 0.20004166666666667,
      "grad_norm": 0.720657467842102,
      "learning_rate": 0.00027226155438992523,
      "loss": 3.8762,
      "step": 96020
    },
    {
      "epoch": 0.2000625,
      "grad_norm": 0.8139712810516357,
      "learning_rate": 0.00027225584254676185,
      "loss": 3.9956,
      "step": 96030
    },
    {
      "epoch": 0.20008333333333334,
      "grad_norm": 0.7231793403625488,
      "learning_rate": 0.0002722501301755016,
      "loss": 4.0713,
      "step": 96040
    },
    {
      "epoch": 0.20010416666666667,
      "grad_norm": 0.7793995141983032,
      "learning_rate": 0.0002722444172761692,
      "loss": 3.9339,
      "step": 96050
    },
    {
      "epoch": 0.200125,
      "grad_norm": 0.7356772422790527,
      "learning_rate": 0.00027223870384878926,
      "loss": 3.9066,
      "step": 96060
    },
    {
      "epoch": 0.20014583333333333,
      "grad_norm": 0.8260016441345215,
      "learning_rate": 0.0002722329898933865,
      "loss": 3.8784,
      "step": 96070
    },
    {
      "epoch": 0.20016666666666666,
      "grad_norm": 0.8359085321426392,
      "learning_rate": 0.0002722272754099857,
      "loss": 3.9533,
      "step": 96080
    },
    {
      "epoch": 0.2001875,
      "grad_norm": 0.7122097015380859,
      "learning_rate": 0.00027222156039861137,
      "loss": 3.9402,
      "step": 96090
    },
    {
      "epoch": 0.20020833333333332,
      "grad_norm": 0.833626925945282,
      "learning_rate": 0.00027221584485928835,
      "loss": 3.8526,
      "step": 96100
    },
    {
      "epoch": 0.20022916666666668,
      "grad_norm": 0.7518821954727173,
      "learning_rate": 0.0002722101287920412,
      "loss": 3.9381,
      "step": 96110
    },
    {
      "epoch": 0.20025,
      "grad_norm": 0.9906911253929138,
      "learning_rate": 0.00027220441219689463,
      "loss": 3.767,
      "step": 96120
    },
    {
      "epoch": 0.20027083333333334,
      "grad_norm": 0.7922478318214417,
      "learning_rate": 0.00027219869507387343,
      "loss": 3.9935,
      "step": 96130
    },
    {
      "epoch": 0.20029166666666667,
      "grad_norm": 0.8802465200424194,
      "learning_rate": 0.0002721929774230023,
      "loss": 3.999,
      "step": 96140
    },
    {
      "epoch": 0.2003125,
      "grad_norm": 0.753786563873291,
      "learning_rate": 0.0002721872592443057,
      "loss": 4.1773,
      "step": 96150
    },
    {
      "epoch": 0.20033333333333334,
      "grad_norm": 0.8047367334365845,
      "learning_rate": 0.00027218154053780866,
      "loss": 4.2498,
      "step": 96160
    },
    {
      "epoch": 0.20035416666666667,
      "grad_norm": 0.8207294940948486,
      "learning_rate": 0.00027217582130353564,
      "loss": 3.88,
      "step": 96170
    },
    {
      "epoch": 0.200375,
      "grad_norm": 0.8483783006668091,
      "learning_rate": 0.0002721701015415115,
      "loss": 3.913,
      "step": 96180
    },
    {
      "epoch": 0.20039583333333333,
      "grad_norm": 0.7812147736549377,
      "learning_rate": 0.0002721643812517608,
      "loss": 3.9171,
      "step": 96190
    },
    {
      "epoch": 0.20041666666666666,
      "grad_norm": 0.8235172033309937,
      "learning_rate": 0.0002721586604343084,
      "loss": 3.8888,
      "step": 96200
    },
    {
      "epoch": 0.2004375,
      "grad_norm": 0.8635163307189941,
      "learning_rate": 0.00027215293908917893,
      "loss": 3.7856,
      "step": 96210
    },
    {
      "epoch": 0.20045833333333332,
      "grad_norm": 0.7315236330032349,
      "learning_rate": 0.0002721472172163971,
      "loss": 3.9348,
      "step": 96220
    },
    {
      "epoch": 0.20047916666666668,
      "grad_norm": 0.7713849544525146,
      "learning_rate": 0.00027214149481598766,
      "loss": 3.911,
      "step": 96230
    },
    {
      "epoch": 0.2005,
      "grad_norm": 1.029566764831543,
      "learning_rate": 0.00027213577188797526,
      "loss": 3.933,
      "step": 96240
    },
    {
      "epoch": 0.20052083333333334,
      "grad_norm": 0.823090136051178,
      "learning_rate": 0.00027213004843238466,
      "loss": 4.0918,
      "step": 96250
    },
    {
      "epoch": 0.20054166666666667,
      "grad_norm": 0.7355145215988159,
      "learning_rate": 0.0002721243244492407,
      "loss": 3.841,
      "step": 96260
    },
    {
      "epoch": 0.2005625,
      "grad_norm": 0.7411622405052185,
      "learning_rate": 0.0002721185999385679,
      "loss": 3.9687,
      "step": 96270
    },
    {
      "epoch": 0.20058333333333334,
      "grad_norm": 0.770967960357666,
      "learning_rate": 0.00027211287490039115,
      "loss": 3.9921,
      "step": 96280
    },
    {
      "epoch": 0.20060416666666667,
      "grad_norm": 0.9157595634460449,
      "learning_rate": 0.00027210714933473506,
      "loss": 3.8543,
      "step": 96290
    },
    {
      "epoch": 0.200625,
      "grad_norm": 0.6340699791908264,
      "learning_rate": 0.0002721014232416245,
      "loss": 3.8014,
      "step": 96300
    },
    {
      "epoch": 0.20064583333333333,
      "grad_norm": 0.6797040104866028,
      "learning_rate": 0.00027209569662108404,
      "loss": 4.053,
      "step": 96310
    },
    {
      "epoch": 0.20066666666666666,
      "grad_norm": 0.8827582597732544,
      "learning_rate": 0.0002720899694731385,
      "loss": 3.9321,
      "step": 96320
    },
    {
      "epoch": 0.2006875,
      "grad_norm": 0.7410936951637268,
      "learning_rate": 0.00027208424179781264,
      "loss": 3.9641,
      "step": 96330
    },
    {
      "epoch": 0.20070833333333332,
      "grad_norm": 0.8671683669090271,
      "learning_rate": 0.0002720785135951312,
      "loss": 4.1283,
      "step": 96340
    },
    {
      "epoch": 0.20072916666666665,
      "grad_norm": 0.7476646900177002,
      "learning_rate": 0.00027207278486511885,
      "loss": 3.9762,
      "step": 96350
    },
    {
      "epoch": 0.20075,
      "grad_norm": 0.8110746741294861,
      "learning_rate": 0.00027206705560780045,
      "loss": 3.8652,
      "step": 96360
    },
    {
      "epoch": 0.20077083333333334,
      "grad_norm": 0.6852514743804932,
      "learning_rate": 0.0002720613258232007,
      "loss": 3.9914,
      "step": 96370
    },
    {
      "epoch": 0.20079166666666667,
      "grad_norm": 0.7378655076026917,
      "learning_rate": 0.0002720555955113443,
      "loss": 3.6811,
      "step": 96380
    },
    {
      "epoch": 0.2008125,
      "grad_norm": 0.7923538684844971,
      "learning_rate": 0.00027204986467225595,
      "loss": 3.9536,
      "step": 96390
    },
    {
      "epoch": 0.20083333333333334,
      "grad_norm": 0.7589314579963684,
      "learning_rate": 0.0002720441333059606,
      "loss": 3.7608,
      "step": 96400
    },
    {
      "epoch": 0.20085416666666667,
      "grad_norm": 0.7855508923530579,
      "learning_rate": 0.00027203840141248295,
      "loss": 3.9692,
      "step": 96410
    },
    {
      "epoch": 0.200875,
      "grad_norm": 0.8308335542678833,
      "learning_rate": 0.0002720326689918476,
      "loss": 3.7541,
      "step": 96420
    },
    {
      "epoch": 0.20089583333333333,
      "grad_norm": 0.8538427352905273,
      "learning_rate": 0.0002720269360440795,
      "loss": 4.0497,
      "step": 96430
    },
    {
      "epoch": 0.20091666666666666,
      "grad_norm": 0.7276864647865295,
      "learning_rate": 0.00027202120256920333,
      "loss": 4.0087,
      "step": 96440
    },
    {
      "epoch": 0.2009375,
      "grad_norm": 0.8275144100189209,
      "learning_rate": 0.00027201546856724383,
      "loss": 4.0622,
      "step": 96450
    },
    {
      "epoch": 0.20095833333333332,
      "grad_norm": 0.7370452284812927,
      "learning_rate": 0.00027200973403822585,
      "loss": 3.8801,
      "step": 96460
    },
    {
      "epoch": 0.20097916666666665,
      "grad_norm": 0.8280041217803955,
      "learning_rate": 0.00027200399898217405,
      "loss": 3.8309,
      "step": 96470
    },
    {
      "epoch": 0.201,
      "grad_norm": 0.8614276051521301,
      "learning_rate": 0.0002719982633991133,
      "loss": 4.0389,
      "step": 96480
    },
    {
      "epoch": 0.20102083333333334,
      "grad_norm": 0.7267210483551025,
      "learning_rate": 0.00027199252728906835,
      "loss": 3.9185,
      "step": 96490
    },
    {
      "epoch": 0.20104166666666667,
      "grad_norm": 0.7094448804855347,
      "learning_rate": 0.00027198679065206394,
      "loss": 3.9929,
      "step": 96500
    },
    {
      "epoch": 0.2010625,
      "grad_norm": 0.9102069735527039,
      "learning_rate": 0.0002719810534881249,
      "loss": 3.9923,
      "step": 96510
    },
    {
      "epoch": 0.20108333333333334,
      "grad_norm": 0.9140005111694336,
      "learning_rate": 0.000271975315797276,
      "loss": 3.861,
      "step": 96520
    },
    {
      "epoch": 0.20110416666666667,
      "grad_norm": 0.7833912372589111,
      "learning_rate": 0.0002719695775795421,
      "loss": 3.8002,
      "step": 96530
    },
    {
      "epoch": 0.201125,
      "grad_norm": 0.8272594809532166,
      "learning_rate": 0.00027196383883494775,
      "loss": 3.9008,
      "step": 96540
    },
    {
      "epoch": 0.20114583333333333,
      "grad_norm": 0.747657835483551,
      "learning_rate": 0.00027195809956351795,
      "loss": 3.9202,
      "step": 96550
    },
    {
      "epoch": 0.20116666666666666,
      "grad_norm": 0.8718542456626892,
      "learning_rate": 0.00027195235976527747,
      "loss": 3.9105,
      "step": 96560
    },
    {
      "epoch": 0.2011875,
      "grad_norm": 1.0046499967575073,
      "learning_rate": 0.000271946619440251,
      "loss": 4.0026,
      "step": 96570
    },
    {
      "epoch": 0.20120833333333332,
      "grad_norm": 0.7794237732887268,
      "learning_rate": 0.00027194087858846346,
      "loss": 3.9915,
      "step": 96580
    },
    {
      "epoch": 0.20122916666666665,
      "grad_norm": 0.8747658133506775,
      "learning_rate": 0.0002719351372099396,
      "loss": 3.881,
      "step": 96590
    },
    {
      "epoch": 0.20125,
      "grad_norm": 0.7785527110099792,
      "learning_rate": 0.0002719293953047042,
      "loss": 3.9765,
      "step": 96600
    },
    {
      "epoch": 0.20127083333333334,
      "grad_norm": 0.7424585223197937,
      "learning_rate": 0.0002719236528727821,
      "loss": 4.0881,
      "step": 96610
    },
    {
      "epoch": 0.20129166666666667,
      "grad_norm": 0.6733518838882446,
      "learning_rate": 0.00027191790991419796,
      "loss": 3.9841,
      "step": 96620
    },
    {
      "epoch": 0.2013125,
      "grad_norm": 0.8110787272453308,
      "learning_rate": 0.0002719121664289768,
      "loss": 4.0031,
      "step": 96630
    },
    {
      "epoch": 0.20133333333333334,
      "grad_norm": 0.7581105828285217,
      "learning_rate": 0.00027190642241714335,
      "loss": 3.7786,
      "step": 96640
    },
    {
      "epoch": 0.20135416666666667,
      "grad_norm": 0.6881938576698303,
      "learning_rate": 0.0002719006778787224,
      "loss": 3.8073,
      "step": 96650
    },
    {
      "epoch": 0.201375,
      "grad_norm": 0.8405342102050781,
      "learning_rate": 0.00027189493281373875,
      "loss": 4.0126,
      "step": 96660
    },
    {
      "epoch": 0.20139583333333333,
      "grad_norm": 0.7996871471405029,
      "learning_rate": 0.00027188918722221726,
      "loss": 4.0282,
      "step": 96670
    },
    {
      "epoch": 0.20141666666666666,
      "grad_norm": 0.7815754413604736,
      "learning_rate": 0.0002718834411041827,
      "loss": 3.8003,
      "step": 96680
    },
    {
      "epoch": 0.2014375,
      "grad_norm": 0.6517860889434814,
      "learning_rate": 0.00027187769445966,
      "loss": 4.0772,
      "step": 96690
    },
    {
      "epoch": 0.20145833333333332,
      "grad_norm": 0.870891273021698,
      "learning_rate": 0.0002718719472886738,
      "loss": 3.9419,
      "step": 96700
    },
    {
      "epoch": 0.20147916666666665,
      "grad_norm": 0.7152897715568542,
      "learning_rate": 0.000271866199591249,
      "loss": 3.9181,
      "step": 96710
    },
    {
      "epoch": 0.2015,
      "grad_norm": 0.688261866569519,
      "learning_rate": 0.0002718604513674106,
      "loss": 4.1037,
      "step": 96720
    },
    {
      "epoch": 0.20152083333333334,
      "grad_norm": 0.8328794240951538,
      "learning_rate": 0.0002718547026171832,
      "loss": 3.7863,
      "step": 96730
    },
    {
      "epoch": 0.20154166666666667,
      "grad_norm": 0.7212241291999817,
      "learning_rate": 0.00027184895334059173,
      "loss": 3.7936,
      "step": 96740
    },
    {
      "epoch": 0.2015625,
      "grad_norm": 0.8041657209396362,
      "learning_rate": 0.00027184320353766103,
      "loss": 3.9702,
      "step": 96750
    },
    {
      "epoch": 0.20158333333333334,
      "grad_norm": 0.7761883735656738,
      "learning_rate": 0.00027183745320841587,
      "loss": 3.8841,
      "step": 96760
    },
    {
      "epoch": 0.20160416666666667,
      "grad_norm": 0.7630966901779175,
      "learning_rate": 0.0002718317023528812,
      "loss": 3.988,
      "step": 96770
    },
    {
      "epoch": 0.201625,
      "grad_norm": 1.0216387510299683,
      "learning_rate": 0.00027182595097108173,
      "loss": 4.0325,
      "step": 96780
    },
    {
      "epoch": 0.20164583333333333,
      "grad_norm": 0.7563979029655457,
      "learning_rate": 0.00027182019906304245,
      "loss": 4.0333,
      "step": 96790
    },
    {
      "epoch": 0.20166666666666666,
      "grad_norm": 0.7872804403305054,
      "learning_rate": 0.00027181444662878804,
      "loss": 4.1554,
      "step": 96800
    },
    {
      "epoch": 0.2016875,
      "grad_norm": 0.732183039188385,
      "learning_rate": 0.00027180869366834353,
      "loss": 3.8076,
      "step": 96810
    },
    {
      "epoch": 0.20170833333333332,
      "grad_norm": 0.8412035703659058,
      "learning_rate": 0.00027180294018173365,
      "loss": 3.9898,
      "step": 96820
    },
    {
      "epoch": 0.20172916666666665,
      "grad_norm": 0.6848443746566772,
      "learning_rate": 0.0002717971861689833,
      "loss": 3.939,
      "step": 96830
    },
    {
      "epoch": 0.20175,
      "grad_norm": 0.7595687508583069,
      "learning_rate": 0.0002717914316301173,
      "loss": 3.9462,
      "step": 96840
    },
    {
      "epoch": 0.20177083333333334,
      "grad_norm": 0.7698736190795898,
      "learning_rate": 0.0002717856765651605,
      "loss": 3.8503,
      "step": 96850
    },
    {
      "epoch": 0.20179166666666667,
      "grad_norm": 0.7094859480857849,
      "learning_rate": 0.00027177992097413776,
      "loss": 3.8999,
      "step": 96860
    },
    {
      "epoch": 0.2018125,
      "grad_norm": 0.7424104809761047,
      "learning_rate": 0.000271774164857074,
      "loss": 3.9178,
      "step": 96870
    },
    {
      "epoch": 0.20183333333333334,
      "grad_norm": 0.8056774139404297,
      "learning_rate": 0.00027176840821399405,
      "loss": 4.1371,
      "step": 96880
    },
    {
      "epoch": 0.20185416666666667,
      "grad_norm": 0.9054586291313171,
      "learning_rate": 0.00027176265104492277,
      "loss": 3.8927,
      "step": 96890
    },
    {
      "epoch": 0.201875,
      "grad_norm": 0.730076014995575,
      "learning_rate": 0.00027175689334988507,
      "loss": 3.9444,
      "step": 96900
    },
    {
      "epoch": 0.20189583333333333,
      "grad_norm": 0.7134878635406494,
      "learning_rate": 0.00027175113512890577,
      "loss": 3.8593,
      "step": 96910
    },
    {
      "epoch": 0.20191666666666666,
      "grad_norm": 0.8196001648902893,
      "learning_rate": 0.0002717453763820097,
      "loss": 3.8333,
      "step": 96920
    },
    {
      "epoch": 0.2019375,
      "grad_norm": 0.7250441312789917,
      "learning_rate": 0.00027173961710922186,
      "loss": 3.9355,
      "step": 96930
    },
    {
      "epoch": 0.20195833333333332,
      "grad_norm": 0.7996559143066406,
      "learning_rate": 0.00027173385731056707,
      "loss": 3.8722,
      "step": 96940
    },
    {
      "epoch": 0.20197916666666665,
      "grad_norm": 0.8824446797370911,
      "learning_rate": 0.0002717280969860701,
      "loss": 3.962,
      "step": 96950
    },
    {
      "epoch": 0.202,
      "grad_norm": 0.7890738844871521,
      "learning_rate": 0.00027172233613575607,
      "loss": 4.0854,
      "step": 96960
    },
    {
      "epoch": 0.20202083333333334,
      "grad_norm": 0.7400267720222473,
      "learning_rate": 0.0002717165747596496,
      "loss": 3.7425,
      "step": 96970
    },
    {
      "epoch": 0.20204166666666667,
      "grad_norm": 0.6946665048599243,
      "learning_rate": 0.0002717108128577758,
      "loss": 3.8352,
      "step": 96980
    },
    {
      "epoch": 0.2020625,
      "grad_norm": 0.7933791279792786,
      "learning_rate": 0.00027170505043015947,
      "loss": 3.8984,
      "step": 96990
    },
    {
      "epoch": 0.20208333333333334,
      "grad_norm": 0.9109715819358826,
      "learning_rate": 0.0002716992874768254,
      "loss": 3.8104,
      "step": 97000
    },
    {
      "epoch": 0.20208333333333334,
      "eval_loss": 4.2821455001831055,
      "eval_runtime": 10.2029,
      "eval_samples_per_second": 0.98,
      "eval_steps_per_second": 0.294,
      "step": 97000
    },
    {
      "epoch": 0.20210416666666667,
      "grad_norm": 0.7184386849403381,
      "learning_rate": 0.00027169352399779865,
      "loss": 4.0512,
      "step": 97010
    },
    {
      "epoch": 0.202125,
      "grad_norm": 0.7090054154396057,
      "learning_rate": 0.00027168775999310404,
      "loss": 3.9147,
      "step": 97020
    },
    {
      "epoch": 0.20214583333333333,
      "grad_norm": 0.8819112777709961,
      "learning_rate": 0.00027168199546276654,
      "loss": 3.8482,
      "step": 97030
    },
    {
      "epoch": 0.20216666666666666,
      "grad_norm": 0.77251797914505,
      "learning_rate": 0.0002716762304068109,
      "loss": 3.8541,
      "step": 97040
    },
    {
      "epoch": 0.2021875,
      "grad_norm": 0.8518852591514587,
      "learning_rate": 0.0002716704648252621,
      "loss": 3.8788,
      "step": 97050
    },
    {
      "epoch": 0.20220833333333332,
      "grad_norm": 0.8591873645782471,
      "learning_rate": 0.0002716646987181451,
      "loss": 4.0258,
      "step": 97060
    },
    {
      "epoch": 0.20222916666666665,
      "grad_norm": 0.7187579870223999,
      "learning_rate": 0.00027165893208548473,
      "loss": 3.966,
      "step": 97070
    },
    {
      "epoch": 0.20225,
      "grad_norm": 0.8849664926528931,
      "learning_rate": 0.0002716531649273059,
      "loss": 3.8622,
      "step": 97080
    },
    {
      "epoch": 0.20227083333333334,
      "grad_norm": 0.7190258502960205,
      "learning_rate": 0.00027164739724363363,
      "loss": 4.0013,
      "step": 97090
    },
    {
      "epoch": 0.20229166666666668,
      "grad_norm": 0.7888973355293274,
      "learning_rate": 0.0002716416290344927,
      "loss": 3.9044,
      "step": 97100
    },
    {
      "epoch": 0.2023125,
      "grad_norm": 0.7764570713043213,
      "learning_rate": 0.00027163586029990813,
      "loss": 3.9109,
      "step": 97110
    },
    {
      "epoch": 0.20233333333333334,
      "grad_norm": 0.7124319672584534,
      "learning_rate": 0.0002716300910399047,
      "loss": 4.1086,
      "step": 97120
    },
    {
      "epoch": 0.20235416666666667,
      "grad_norm": 0.7800642251968384,
      "learning_rate": 0.0002716243212545075,
      "loss": 3.9384,
      "step": 97130
    },
    {
      "epoch": 0.202375,
      "grad_norm": 0.8160101175308228,
      "learning_rate": 0.00027161855094374137,
      "loss": 3.9939,
      "step": 97140
    },
    {
      "epoch": 0.20239583333333333,
      "grad_norm": 1.286986231803894,
      "learning_rate": 0.00027161278010763123,
      "loss": 3.8122,
      "step": 97150
    },
    {
      "epoch": 0.20241666666666666,
      "grad_norm": 0.7640390992164612,
      "learning_rate": 0.000271607008746202,
      "loss": 4.0387,
      "step": 97160
    },
    {
      "epoch": 0.2024375,
      "grad_norm": 0.8173478245735168,
      "learning_rate": 0.0002716012368594786,
      "loss": 3.8864,
      "step": 97170
    },
    {
      "epoch": 0.20245833333333332,
      "grad_norm": 0.7355332374572754,
      "learning_rate": 0.0002715954644474861,
      "loss": 3.802,
      "step": 97180
    },
    {
      "epoch": 0.20247916666666665,
      "grad_norm": 0.7653236389160156,
      "learning_rate": 0.0002715896915102492,
      "loss": 4.0003,
      "step": 97190
    },
    {
      "epoch": 0.2025,
      "grad_norm": 0.6865783929824829,
      "learning_rate": 0.00027158391804779305,
      "loss": 3.8954,
      "step": 97200
    },
    {
      "epoch": 0.20252083333333334,
      "grad_norm": 0.7461762428283691,
      "learning_rate": 0.0002715781440601424,
      "loss": 4.2432,
      "step": 97210
    },
    {
      "epoch": 0.20254166666666668,
      "grad_norm": 0.7023046612739563,
      "learning_rate": 0.0002715723695473224,
      "loss": 3.8207,
      "step": 97220
    },
    {
      "epoch": 0.2025625,
      "grad_norm": 0.7209023833274841,
      "learning_rate": 0.0002715665945093578,
      "loss": 3.8024,
      "step": 97230
    },
    {
      "epoch": 0.20258333333333334,
      "grad_norm": 0.8072795867919922,
      "learning_rate": 0.0002715608189462737,
      "loss": 3.878,
      "step": 97240
    },
    {
      "epoch": 0.20260416666666667,
      "grad_norm": 0.7748768329620361,
      "learning_rate": 0.00027155504285809493,
      "loss": 3.911,
      "step": 97250
    },
    {
      "epoch": 0.202625,
      "grad_norm": 0.7613902688026428,
      "learning_rate": 0.00027154926624484653,
      "loss": 3.9138,
      "step": 97260
    },
    {
      "epoch": 0.20264583333333333,
      "grad_norm": 0.7492506504058838,
      "learning_rate": 0.0002715434891065534,
      "loss": 3.9109,
      "step": 97270
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 0.8183521032333374,
      "learning_rate": 0.0002715377114432405,
      "loss": 3.9155,
      "step": 97280
    },
    {
      "epoch": 0.2026875,
      "grad_norm": 0.6761447191238403,
      "learning_rate": 0.0002715319332549328,
      "loss": 4.003,
      "step": 97290
    },
    {
      "epoch": 0.20270833333333332,
      "grad_norm": 0.8284725546836853,
      "learning_rate": 0.0002715261545416552,
      "loss": 3.9522,
      "step": 97300
    },
    {
      "epoch": 0.20272916666666665,
      "grad_norm": 0.9588183760643005,
      "learning_rate": 0.0002715203753034328,
      "loss": 3.9287,
      "step": 97310
    },
    {
      "epoch": 0.20275,
      "grad_norm": 0.8293543457984924,
      "learning_rate": 0.0002715145955402904,
      "loss": 3.8949,
      "step": 97320
    },
    {
      "epoch": 0.20277083333333334,
      "grad_norm": 0.7811524868011475,
      "learning_rate": 0.00027150881525225313,
      "loss": 3.8441,
      "step": 97330
    },
    {
      "epoch": 0.20279166666666668,
      "grad_norm": 0.7419423460960388,
      "learning_rate": 0.00027150303443934583,
      "loss": 4.0126,
      "step": 97340
    },
    {
      "epoch": 0.2028125,
      "grad_norm": 0.854369044303894,
      "learning_rate": 0.0002714972531015935,
      "loss": 3.9634,
      "step": 97350
    },
    {
      "epoch": 0.20283333333333334,
      "grad_norm": 0.8469094634056091,
      "learning_rate": 0.0002714914712390212,
      "loss": 3.885,
      "step": 97360
    },
    {
      "epoch": 0.20285416666666667,
      "grad_norm": 0.8944759368896484,
      "learning_rate": 0.00027148568885165374,
      "loss": 4.0116,
      "step": 97370
    },
    {
      "epoch": 0.202875,
      "grad_norm": 0.7014848589897156,
      "learning_rate": 0.00027147990593951626,
      "loss": 3.9866,
      "step": 97380
    },
    {
      "epoch": 0.20289583333333333,
      "grad_norm": 0.8370168805122375,
      "learning_rate": 0.00027147412250263364,
      "loss": 4.0335,
      "step": 97390
    },
    {
      "epoch": 0.20291666666666666,
      "grad_norm": 0.7997311949729919,
      "learning_rate": 0.0002714683385410309,
      "loss": 3.9079,
      "step": 97400
    },
    {
      "epoch": 0.2029375,
      "grad_norm": 0.7653656601905823,
      "learning_rate": 0.000271462554054733,
      "loss": 3.9678,
      "step": 97410
    },
    {
      "epoch": 0.20295833333333332,
      "grad_norm": 0.6855714321136475,
      "learning_rate": 0.000271456769043765,
      "loss": 3.9143,
      "step": 97420
    },
    {
      "epoch": 0.20297916666666665,
      "grad_norm": 0.8820379376411438,
      "learning_rate": 0.0002714509835081518,
      "loss": 4.0403,
      "step": 97430
    },
    {
      "epoch": 0.203,
      "grad_norm": 0.7624015212059021,
      "learning_rate": 0.00027144519744791835,
      "loss": 3.965,
      "step": 97440
    },
    {
      "epoch": 0.20302083333333334,
      "grad_norm": 0.7017776966094971,
      "learning_rate": 0.0002714394108630898,
      "loss": 4.1915,
      "step": 97450
    },
    {
      "epoch": 0.20304166666666668,
      "grad_norm": 0.8316776156425476,
      "learning_rate": 0.000271433623753691,
      "loss": 3.9246,
      "step": 97460
    },
    {
      "epoch": 0.2030625,
      "grad_norm": 0.8129537105560303,
      "learning_rate": 0.00027142783611974714,
      "loss": 3.881,
      "step": 97470
    },
    {
      "epoch": 0.20308333333333334,
      "grad_norm": 0.7926350831985474,
      "learning_rate": 0.000271422047961283,
      "loss": 3.9325,
      "step": 97480
    },
    {
      "epoch": 0.20310416666666667,
      "grad_norm": 0.8074626922607422,
      "learning_rate": 0.0002714162592783237,
      "loss": 3.977,
      "step": 97490
    },
    {
      "epoch": 0.203125,
      "grad_norm": 0.8846316337585449,
      "learning_rate": 0.0002714104700708942,
      "loss": 3.8196,
      "step": 97500
    },
    {
      "epoch": 0.20314583333333333,
      "grad_norm": 0.6884284019470215,
      "learning_rate": 0.00027140468033901954,
      "loss": 3.9149,
      "step": 97510
    },
    {
      "epoch": 0.20316666666666666,
      "grad_norm": 0.7488963603973389,
      "learning_rate": 0.0002713988900827247,
      "loss": 3.8872,
      "step": 97520
    },
    {
      "epoch": 0.2031875,
      "grad_norm": 0.6959220767021179,
      "learning_rate": 0.00027139309930203473,
      "loss": 3.9026,
      "step": 97530
    },
    {
      "epoch": 0.20320833333333332,
      "grad_norm": 0.8341795802116394,
      "learning_rate": 0.00027138730799697465,
      "loss": 4.0791,
      "step": 97540
    },
    {
      "epoch": 0.20322916666666666,
      "grad_norm": 0.8490181565284729,
      "learning_rate": 0.0002713815161675694,
      "loss": 4.0398,
      "step": 97550
    },
    {
      "epoch": 0.20325,
      "grad_norm": 0.6948962807655334,
      "learning_rate": 0.00027137572381384406,
      "loss": 3.8091,
      "step": 97560
    },
    {
      "epoch": 0.20327083333333335,
      "grad_norm": 0.709119439125061,
      "learning_rate": 0.00027136993093582364,
      "loss": 3.7727,
      "step": 97570
    },
    {
      "epoch": 0.20329166666666668,
      "grad_norm": 0.7375856637954712,
      "learning_rate": 0.00027136413753353313,
      "loss": 3.9572,
      "step": 97580
    },
    {
      "epoch": 0.2033125,
      "grad_norm": 0.7648619413375854,
      "learning_rate": 0.00027135834360699764,
      "loss": 3.9925,
      "step": 97590
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 0.7756049036979675,
      "learning_rate": 0.0002713525491562421,
      "loss": 3.93,
      "step": 97600
    },
    {
      "epoch": 0.20335416666666667,
      "grad_norm": 0.8068016767501831,
      "learning_rate": 0.0002713467541812916,
      "loss": 3.9425,
      "step": 97610
    },
    {
      "epoch": 0.203375,
      "grad_norm": 0.72282475233078,
      "learning_rate": 0.0002713409586821711,
      "loss": 3.8222,
      "step": 97620
    },
    {
      "epoch": 0.20339583333333333,
      "grad_norm": 0.7116051912307739,
      "learning_rate": 0.00027133516265890576,
      "loss": 3.9813,
      "step": 97630
    },
    {
      "epoch": 0.20341666666666666,
      "grad_norm": 0.8936026692390442,
      "learning_rate": 0.00027132936611152055,
      "loss": 3.8957,
      "step": 97640
    },
    {
      "epoch": 0.2034375,
      "grad_norm": 0.6795300841331482,
      "learning_rate": 0.0002713235690400405,
      "loss": 3.9239,
      "step": 97650
    },
    {
      "epoch": 0.20345833333333332,
      "grad_norm": 0.869817316532135,
      "learning_rate": 0.0002713177714444906,
      "loss": 4.0339,
      "step": 97660
    },
    {
      "epoch": 0.20347916666666666,
      "grad_norm": 0.6676619648933411,
      "learning_rate": 0.00027131197332489593,
      "loss": 3.8933,
      "step": 97670
    },
    {
      "epoch": 0.2035,
      "grad_norm": 0.7057666182518005,
      "learning_rate": 0.00027130617468128167,
      "loss": 4.0758,
      "step": 97680
    },
    {
      "epoch": 0.20352083333333335,
      "grad_norm": 0.7505435347557068,
      "learning_rate": 0.00027130037551367266,
      "loss": 4.0105,
      "step": 97690
    },
    {
      "epoch": 0.20354166666666668,
      "grad_norm": 0.7956533432006836,
      "learning_rate": 0.0002712945758220941,
      "loss": 3.8544,
      "step": 97700
    },
    {
      "epoch": 0.2035625,
      "grad_norm": 0.7448551058769226,
      "learning_rate": 0.00027128877560657095,
      "loss": 3.8635,
      "step": 97710
    },
    {
      "epoch": 0.20358333333333334,
      "grad_norm": 0.8416665196418762,
      "learning_rate": 0.0002712829748671283,
      "loss": 4.0299,
      "step": 97720
    },
    {
      "epoch": 0.20360416666666667,
      "grad_norm": 0.7655050158500671,
      "learning_rate": 0.00027127717360379117,
      "loss": 4.0655,
      "step": 97730
    },
    {
      "epoch": 0.203625,
      "grad_norm": 0.7575312852859497,
      "learning_rate": 0.0002712713718165847,
      "loss": 3.9177,
      "step": 97740
    },
    {
      "epoch": 0.20364583333333333,
      "grad_norm": 0.7807748317718506,
      "learning_rate": 0.0002712655695055339,
      "loss": 4.0441,
      "step": 97750
    },
    {
      "epoch": 0.20366666666666666,
      "grad_norm": 0.9041343927383423,
      "learning_rate": 0.00027125976667066384,
      "loss": 3.828,
      "step": 97760
    },
    {
      "epoch": 0.2036875,
      "grad_norm": 0.7137126922607422,
      "learning_rate": 0.0002712539633119996,
      "loss": 3.9601,
      "step": 97770
    },
    {
      "epoch": 0.20370833333333332,
      "grad_norm": 0.7491195797920227,
      "learning_rate": 0.0002712481594295662,
      "loss": 3.9191,
      "step": 97780
    },
    {
      "epoch": 0.20372916666666666,
      "grad_norm": 0.7567050457000732,
      "learning_rate": 0.00027124235502338877,
      "loss": 3.855,
      "step": 97790
    },
    {
      "epoch": 0.20375,
      "grad_norm": 0.8469628691673279,
      "learning_rate": 0.00027123655009349235,
      "loss": 3.9065,
      "step": 97800
    },
    {
      "epoch": 0.20377083333333335,
      "grad_norm": 0.8442763686180115,
      "learning_rate": 0.000271230744639902,
      "loss": 4.079,
      "step": 97810
    },
    {
      "epoch": 0.20379166666666668,
      "grad_norm": 0.7627809643745422,
      "learning_rate": 0.00027122493866264287,
      "loss": 4.0253,
      "step": 97820
    },
    {
      "epoch": 0.2038125,
      "grad_norm": 0.9450651407241821,
      "learning_rate": 0.00027121913216173995,
      "loss": 3.9751,
      "step": 97830
    },
    {
      "epoch": 0.20383333333333334,
      "grad_norm": 0.9559528231620789,
      "learning_rate": 0.0002712133251372184,
      "loss": 3.9703,
      "step": 97840
    },
    {
      "epoch": 0.20385416666666667,
      "grad_norm": 0.8710651397705078,
      "learning_rate": 0.00027120751758910323,
      "loss": 3.8856,
      "step": 97850
    },
    {
      "epoch": 0.203875,
      "grad_norm": 0.879367470741272,
      "learning_rate": 0.00027120170951741953,
      "loss": 3.9875,
      "step": 97860
    },
    {
      "epoch": 0.20389583333333333,
      "grad_norm": 0.8639014363288879,
      "learning_rate": 0.0002711959009221925,
      "loss": 3.8365,
      "step": 97870
    },
    {
      "epoch": 0.20391666666666666,
      "grad_norm": 0.8471252918243408,
      "learning_rate": 0.00027119009180344704,
      "loss": 3.9805,
      "step": 97880
    },
    {
      "epoch": 0.2039375,
      "grad_norm": 0.7566556334495544,
      "learning_rate": 0.00027118428216120846,
      "loss": 3.9799,
      "step": 97890
    },
    {
      "epoch": 0.20395833333333332,
      "grad_norm": 0.7058636546134949,
      "learning_rate": 0.0002711784719955017,
      "loss": 3.9915,
      "step": 97900
    },
    {
      "epoch": 0.20397916666666666,
      "grad_norm": 1.159803032875061,
      "learning_rate": 0.00027117266130635194,
      "loss": 3.8601,
      "step": 97910
    },
    {
      "epoch": 0.204,
      "grad_norm": 0.7626458406448364,
      "learning_rate": 0.00027116685009378425,
      "loss": 4.0315,
      "step": 97920
    },
    {
      "epoch": 0.20402083333333335,
      "grad_norm": 0.7354722619056702,
      "learning_rate": 0.00027116103835782366,
      "loss": 4.1317,
      "step": 97930
    },
    {
      "epoch": 0.20404166666666668,
      "grad_norm": 0.8794471025466919,
      "learning_rate": 0.00027115522609849537,
      "loss": 3.9106,
      "step": 97940
    },
    {
      "epoch": 0.2040625,
      "grad_norm": 0.7679542303085327,
      "learning_rate": 0.00027114941331582453,
      "loss": 3.8476,
      "step": 97950
    },
    {
      "epoch": 0.20408333333333334,
      "grad_norm": 0.7416098713874817,
      "learning_rate": 0.0002711436000098361,
      "loss": 3.8681,
      "step": 97960
    },
    {
      "epoch": 0.20410416666666667,
      "grad_norm": 0.8265259861946106,
      "learning_rate": 0.0002711377861805553,
      "loss": 3.7619,
      "step": 97970
    },
    {
      "epoch": 0.204125,
      "grad_norm": 0.7775449752807617,
      "learning_rate": 0.0002711319718280072,
      "loss": 4.1507,
      "step": 97980
    },
    {
      "epoch": 0.20414583333333333,
      "grad_norm": 0.666971743106842,
      "learning_rate": 0.00027112615695221696,
      "loss": 3.8885,
      "step": 97990
    },
    {
      "epoch": 0.20416666666666666,
      "grad_norm": 0.905532956123352,
      "learning_rate": 0.0002711203415532096,
      "loss": 3.9236,
      "step": 98000
    },
    {
      "epoch": 0.20416666666666666,
      "eval_loss": 4.271847724914551,
      "eval_runtime": 11.0625,
      "eval_samples_per_second": 0.904,
      "eval_steps_per_second": 0.271,
      "step": 98000
    },
    {
      "epoch": 0.2041875,
      "grad_norm": 0.7565674781799316,
      "learning_rate": 0.0002711145256310104,
      "loss": 3.8446,
      "step": 98010
    },
    {
      "epoch": 0.20420833333333333,
      "grad_norm": 0.8288971185684204,
      "learning_rate": 0.00027110870918564434,
      "loss": 4.0274,
      "step": 98020
    },
    {
      "epoch": 0.20422916666666666,
      "grad_norm": 0.7351484298706055,
      "learning_rate": 0.0002711028922171366,
      "loss": 3.998,
      "step": 98030
    },
    {
      "epoch": 0.20425,
      "grad_norm": 0.7573543787002563,
      "learning_rate": 0.0002710970747255123,
      "loss": 3.8923,
      "step": 98040
    },
    {
      "epoch": 0.20427083333333335,
      "grad_norm": 0.8019400238990784,
      "learning_rate": 0.0002710912567107965,
      "loss": 4.0546,
      "step": 98050
    },
    {
      "epoch": 0.20429166666666668,
      "grad_norm": 0.9333224892616272,
      "learning_rate": 0.00027108543817301454,
      "loss": 4.0017,
      "step": 98060
    },
    {
      "epoch": 0.2043125,
      "grad_norm": 0.8996326923370361,
      "learning_rate": 0.00027107961911219133,
      "loss": 4.1018,
      "step": 98070
    },
    {
      "epoch": 0.20433333333333334,
      "grad_norm": 0.9545336365699768,
      "learning_rate": 0.0002710737995283521,
      "loss": 3.9738,
      "step": 98080
    },
    {
      "epoch": 0.20435416666666667,
      "grad_norm": 0.7270487546920776,
      "learning_rate": 0.00027106797942152197,
      "loss": 3.9808,
      "step": 98090
    },
    {
      "epoch": 0.204375,
      "grad_norm": 0.7048183679580688,
      "learning_rate": 0.00027106215879172616,
      "loss": 4.1196,
      "step": 98100
    },
    {
      "epoch": 0.20439583333333333,
      "grad_norm": 0.7274428009986877,
      "learning_rate": 0.0002710563376389896,
      "loss": 3.9523,
      "step": 98110
    },
    {
      "epoch": 0.20441666666666666,
      "grad_norm": 0.8528040647506714,
      "learning_rate": 0.00027105051596333776,
      "loss": 4.0584,
      "step": 98120
    },
    {
      "epoch": 0.2044375,
      "grad_norm": 0.8082497715950012,
      "learning_rate": 0.00027104469376479546,
      "loss": 3.9875,
      "step": 98130
    },
    {
      "epoch": 0.20445833333333333,
      "grad_norm": 0.7904685735702515,
      "learning_rate": 0.0002710388710433881,
      "loss": 3.9763,
      "step": 98140
    },
    {
      "epoch": 0.20447916666666666,
      "grad_norm": 0.7936574220657349,
      "learning_rate": 0.0002710330477991407,
      "loss": 3.8748,
      "step": 98150
    },
    {
      "epoch": 0.2045,
      "grad_norm": 0.6941542029380798,
      "learning_rate": 0.0002710272240320784,
      "loss": 3.8785,
      "step": 98160
    },
    {
      "epoch": 0.20452083333333335,
      "grad_norm": 0.7061350345611572,
      "learning_rate": 0.00027102139974222644,
      "loss": 3.7852,
      "step": 98170
    },
    {
      "epoch": 0.20454166666666668,
      "grad_norm": 0.7819772362709045,
      "learning_rate": 0.0002710155749296099,
      "loss": 3.8965,
      "step": 98180
    },
    {
      "epoch": 0.2045625,
      "grad_norm": 0.762638509273529,
      "learning_rate": 0.00027100974959425397,
      "loss": 4.0542,
      "step": 98190
    },
    {
      "epoch": 0.20458333333333334,
      "grad_norm": 0.7688943147659302,
      "learning_rate": 0.00027100392373618387,
      "loss": 3.8433,
      "step": 98200
    },
    {
      "epoch": 0.20460416666666667,
      "grad_norm": 0.9404740929603577,
      "learning_rate": 0.00027099809735542466,
      "loss": 4.0874,
      "step": 98210
    },
    {
      "epoch": 0.204625,
      "grad_norm": 0.8107801079750061,
      "learning_rate": 0.0002709922704520016,
      "loss": 4.0638,
      "step": 98220
    },
    {
      "epoch": 0.20464583333333333,
      "grad_norm": 0.7169693112373352,
      "learning_rate": 0.00027098644302593985,
      "loss": 3.9551,
      "step": 98230
    },
    {
      "epoch": 0.20466666666666666,
      "grad_norm": 0.6465263962745667,
      "learning_rate": 0.00027098061507726455,
      "loss": 3.9921,
      "step": 98240
    },
    {
      "epoch": 0.2046875,
      "grad_norm": 0.7230799794197083,
      "learning_rate": 0.0002709747866060008,
      "loss": 4.0766,
      "step": 98250
    },
    {
      "epoch": 0.20470833333333333,
      "grad_norm": 0.8622190952301025,
      "learning_rate": 0.0002709689576121739,
      "loss": 4.0501,
      "step": 98260
    },
    {
      "epoch": 0.20472916666666666,
      "grad_norm": 0.6923192143440247,
      "learning_rate": 0.00027096312809580907,
      "loss": 3.9327,
      "step": 98270
    },
    {
      "epoch": 0.20475,
      "grad_norm": 0.8704793453216553,
      "learning_rate": 0.0002709572980569313,
      "loss": 3.9259,
      "step": 98280
    },
    {
      "epoch": 0.20477083333333335,
      "grad_norm": 0.8065400719642639,
      "learning_rate": 0.00027095146749556593,
      "loss": 4.0226,
      "step": 98290
    },
    {
      "epoch": 0.20479166666666668,
      "grad_norm": 0.7688430547714233,
      "learning_rate": 0.00027094563641173806,
      "loss": 3.9895,
      "step": 98300
    },
    {
      "epoch": 0.2048125,
      "grad_norm": 0.7918058633804321,
      "learning_rate": 0.00027093980480547296,
      "loss": 3.7162,
      "step": 98310
    },
    {
      "epoch": 0.20483333333333334,
      "grad_norm": 0.9288097620010376,
      "learning_rate": 0.00027093397267679577,
      "loss": 3.9202,
      "step": 98320
    },
    {
      "epoch": 0.20485416666666667,
      "grad_norm": 0.7767307162284851,
      "learning_rate": 0.00027092814002573166,
      "loss": 3.8106,
      "step": 98330
    },
    {
      "epoch": 0.204875,
      "grad_norm": 0.7230889201164246,
      "learning_rate": 0.00027092230685230587,
      "loss": 3.8489,
      "step": 98340
    },
    {
      "epoch": 0.20489583333333333,
      "grad_norm": 0.7469038963317871,
      "learning_rate": 0.0002709164731565436,
      "loss": 3.7774,
      "step": 98350
    },
    {
      "epoch": 0.20491666666666666,
      "grad_norm": 0.8063194155693054,
      "learning_rate": 0.00027091063893846997,
      "loss": 4.0771,
      "step": 98360
    },
    {
      "epoch": 0.2049375,
      "grad_norm": 0.7980257868766785,
      "learning_rate": 0.00027090480419811027,
      "loss": 3.7864,
      "step": 98370
    },
    {
      "epoch": 0.20495833333333333,
      "grad_norm": 0.8418265581130981,
      "learning_rate": 0.00027089896893548967,
      "loss": 3.8685,
      "step": 98380
    },
    {
      "epoch": 0.20497916666666666,
      "grad_norm": 0.8272743821144104,
      "learning_rate": 0.00027089313315063334,
      "loss": 3.8316,
      "step": 98390
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.8037554621696472,
      "learning_rate": 0.0002708872968435666,
      "loss": 3.9302,
      "step": 98400
    },
    {
      "epoch": 0.20502083333333335,
      "grad_norm": 0.7613440155982971,
      "learning_rate": 0.00027088146001431456,
      "loss": 3.8078,
      "step": 98410
    },
    {
      "epoch": 0.20504166666666668,
      "grad_norm": 0.6807852387428284,
      "learning_rate": 0.0002708756226629025,
      "loss": 3.9171,
      "step": 98420
    },
    {
      "epoch": 0.2050625,
      "grad_norm": 0.8898691534996033,
      "learning_rate": 0.0002708697847893555,
      "loss": 3.9192,
      "step": 98430
    },
    {
      "epoch": 0.20508333333333334,
      "grad_norm": 1.0383068323135376,
      "learning_rate": 0.0002708639463936989,
      "loss": 4.13,
      "step": 98440
    },
    {
      "epoch": 0.20510416666666667,
      "grad_norm": 0.7596967220306396,
      "learning_rate": 0.00027085810747595794,
      "loss": 3.9496,
      "step": 98450
    },
    {
      "epoch": 0.205125,
      "grad_norm": 0.8368827700614929,
      "learning_rate": 0.0002708522680361578,
      "loss": 3.8706,
      "step": 98460
    },
    {
      "epoch": 0.20514583333333333,
      "grad_norm": 0.8472090363502502,
      "learning_rate": 0.00027084642807432364,
      "loss": 3.8723,
      "step": 98470
    },
    {
      "epoch": 0.20516666666666666,
      "grad_norm": 0.6975506544113159,
      "learning_rate": 0.0002708405875904808,
      "loss": 4.0444,
      "step": 98480
    },
    {
      "epoch": 0.2051875,
      "grad_norm": 0.7413138747215271,
      "learning_rate": 0.0002708347465846544,
      "loss": 3.8107,
      "step": 98490
    },
    {
      "epoch": 0.20520833333333333,
      "grad_norm": 0.8085603713989258,
      "learning_rate": 0.00027082890505686976,
      "loss": 3.8597,
      "step": 98500
    },
    {
      "epoch": 0.20522916666666666,
      "grad_norm": 0.7990094423294067,
      "learning_rate": 0.00027082306300715213,
      "loss": 3.9583,
      "step": 98510
    },
    {
      "epoch": 0.20525,
      "grad_norm": 0.815497636795044,
      "learning_rate": 0.0002708172204355266,
      "loss": 3.8412,
      "step": 98520
    },
    {
      "epoch": 0.20527083333333335,
      "grad_norm": 0.8414531350135803,
      "learning_rate": 0.0002708113773420185,
      "loss": 3.9133,
      "step": 98530
    },
    {
      "epoch": 0.20529166666666668,
      "grad_norm": 0.7307424545288086,
      "learning_rate": 0.00027080553372665314,
      "loss": 3.934,
      "step": 98540
    },
    {
      "epoch": 0.2053125,
      "grad_norm": 0.7242031097412109,
      "learning_rate": 0.00027079968958945564,
      "loss": 3.9665,
      "step": 98550
    },
    {
      "epoch": 0.20533333333333334,
      "grad_norm": 0.6844214797019958,
      "learning_rate": 0.00027079384493045136,
      "loss": 4.0102,
      "step": 98560
    },
    {
      "epoch": 0.20535416666666667,
      "grad_norm": 0.8357396721839905,
      "learning_rate": 0.0002707879997496654,
      "loss": 3.9911,
      "step": 98570
    },
    {
      "epoch": 0.205375,
      "grad_norm": 0.7856284976005554,
      "learning_rate": 0.00027078215404712316,
      "loss": 4.0185,
      "step": 98580
    },
    {
      "epoch": 0.20539583333333333,
      "grad_norm": 0.7562322616577148,
      "learning_rate": 0.00027077630782284975,
      "loss": 4.0263,
      "step": 98590
    },
    {
      "epoch": 0.20541666666666666,
      "grad_norm": 0.7089793086051941,
      "learning_rate": 0.00027077046107687057,
      "loss": 3.9613,
      "step": 98600
    },
    {
      "epoch": 0.2054375,
      "grad_norm": 0.7472154498100281,
      "learning_rate": 0.00027076461380921076,
      "loss": 3.9225,
      "step": 98610
    },
    {
      "epoch": 0.20545833333333333,
      "grad_norm": 0.7424056529998779,
      "learning_rate": 0.0002707587660198957,
      "loss": 3.9592,
      "step": 98620
    },
    {
      "epoch": 0.20547916666666666,
      "grad_norm": 0.8588979244232178,
      "learning_rate": 0.00027075291770895047,
      "loss": 4.0654,
      "step": 98630
    },
    {
      "epoch": 0.2055,
      "grad_norm": 0.8278164267539978,
      "learning_rate": 0.0002707470688764004,
      "loss": 3.868,
      "step": 98640
    },
    {
      "epoch": 0.20552083333333335,
      "grad_norm": 0.8227831125259399,
      "learning_rate": 0.00027074121952227093,
      "loss": 3.8261,
      "step": 98650
    },
    {
      "epoch": 0.20554166666666668,
      "grad_norm": 0.6942715644836426,
      "learning_rate": 0.00027073536964658713,
      "loss": 3.9182,
      "step": 98660
    },
    {
      "epoch": 0.2055625,
      "grad_norm": 0.7321028113365173,
      "learning_rate": 0.0002707295192493743,
      "loss": 3.8486,
      "step": 98670
    },
    {
      "epoch": 0.20558333333333334,
      "grad_norm": 0.7090244293212891,
      "learning_rate": 0.0002707236683306577,
      "loss": 3.9105,
      "step": 98680
    },
    {
      "epoch": 0.20560416666666667,
      "grad_norm": 0.7848743200302124,
      "learning_rate": 0.0002707178168904627,
      "loss": 3.7812,
      "step": 98690
    },
    {
      "epoch": 0.205625,
      "grad_norm": 0.6596819758415222,
      "learning_rate": 0.00027071196492881445,
      "loss": 3.9523,
      "step": 98700
    },
    {
      "epoch": 0.20564583333333333,
      "grad_norm": 0.7594568133354187,
      "learning_rate": 0.0002707061124457384,
      "loss": 4.0017,
      "step": 98710
    },
    {
      "epoch": 0.20566666666666666,
      "grad_norm": 0.7677954435348511,
      "learning_rate": 0.0002707002594412596,
      "loss": 4.0189,
      "step": 98720
    },
    {
      "epoch": 0.2056875,
      "grad_norm": 0.7099378108978271,
      "learning_rate": 0.00027069440591540354,
      "loss": 3.9764,
      "step": 98730
    },
    {
      "epoch": 0.20570833333333333,
      "grad_norm": 0.7382763028144836,
      "learning_rate": 0.0002706885518681954,
      "loss": 4.0356,
      "step": 98740
    },
    {
      "epoch": 0.20572916666666666,
      "grad_norm": 0.7353635430335999,
      "learning_rate": 0.00027068269729966046,
      "loss": 3.9533,
      "step": 98750
    },
    {
      "epoch": 0.20575,
      "grad_norm": 0.8146982192993164,
      "learning_rate": 0.00027067684220982404,
      "loss": 3.8992,
      "step": 98760
    },
    {
      "epoch": 0.20577083333333332,
      "grad_norm": 0.70722496509552,
      "learning_rate": 0.00027067098659871146,
      "loss": 3.9481,
      "step": 98770
    },
    {
      "epoch": 0.20579166666666668,
      "grad_norm": 0.7846710085868835,
      "learning_rate": 0.00027066513046634797,
      "loss": 3.9041,
      "step": 98780
    },
    {
      "epoch": 0.2058125,
      "grad_norm": 0.772275984287262,
      "learning_rate": 0.0002706592738127589,
      "loss": 3.8238,
      "step": 98790
    },
    {
      "epoch": 0.20583333333333334,
      "grad_norm": 0.7178471088409424,
      "learning_rate": 0.0002706534166379695,
      "loss": 4.0251,
      "step": 98800
    },
    {
      "epoch": 0.20585416666666667,
      "grad_norm": 0.6998826861381531,
      "learning_rate": 0.0002706475589420051,
      "loss": 4.0017,
      "step": 98810
    },
    {
      "epoch": 0.205875,
      "grad_norm": 0.7184035778045654,
      "learning_rate": 0.000270641700724891,
      "loss": 3.8719,
      "step": 98820
    },
    {
      "epoch": 0.20589583333333333,
      "grad_norm": 0.7043710350990295,
      "learning_rate": 0.0002706358419866525,
      "loss": 3.9978,
      "step": 98830
    },
    {
      "epoch": 0.20591666666666666,
      "grad_norm": 0.7312883734703064,
      "learning_rate": 0.00027062998272731493,
      "loss": 3.8651,
      "step": 98840
    },
    {
      "epoch": 0.2059375,
      "grad_norm": 0.7845483422279358,
      "learning_rate": 0.0002706241229469036,
      "loss": 4.0236,
      "step": 98850
    },
    {
      "epoch": 0.20595833333333333,
      "grad_norm": 0.838993489742279,
      "learning_rate": 0.0002706182626454438,
      "loss": 3.8165,
      "step": 98860
    },
    {
      "epoch": 0.20597916666666666,
      "grad_norm": 0.7243244051933289,
      "learning_rate": 0.0002706124018229608,
      "loss": 4.0019,
      "step": 98870
    },
    {
      "epoch": 0.206,
      "grad_norm": 0.7149066925048828,
      "learning_rate": 0.00027060654047948,
      "loss": 3.9474,
      "step": 98880
    },
    {
      "epoch": 0.20602083333333332,
      "grad_norm": 0.8560032248497009,
      "learning_rate": 0.0002706006786150267,
      "loss": 3.9406,
      "step": 98890
    },
    {
      "epoch": 0.20604166666666668,
      "grad_norm": 0.7061344385147095,
      "learning_rate": 0.0002705948162296262,
      "loss": 3.8974,
      "step": 98900
    },
    {
      "epoch": 0.2060625,
      "grad_norm": 0.7748035192489624,
      "learning_rate": 0.0002705889533233038,
      "loss": 3.9183,
      "step": 98910
    },
    {
      "epoch": 0.20608333333333334,
      "grad_norm": 0.7170754075050354,
      "learning_rate": 0.0002705830898960849,
      "loss": 3.9709,
      "step": 98920
    },
    {
      "epoch": 0.20610416666666667,
      "grad_norm": 0.9497849345207214,
      "learning_rate": 0.0002705772259479947,
      "loss": 3.854,
      "step": 98930
    },
    {
      "epoch": 0.206125,
      "grad_norm": 0.7901989817619324,
      "learning_rate": 0.0002705713614790587,
      "loss": 3.7728,
      "step": 98940
    },
    {
      "epoch": 0.20614583333333333,
      "grad_norm": 0.696816086769104,
      "learning_rate": 0.0002705654964893021,
      "loss": 3.9173,
      "step": 98950
    },
    {
      "epoch": 0.20616666666666666,
      "grad_norm": 0.8627177476882935,
      "learning_rate": 0.0002705596309787503,
      "loss": 4.1863,
      "step": 98960
    },
    {
      "epoch": 0.2061875,
      "grad_norm": 0.720314085483551,
      "learning_rate": 0.00027055376494742857,
      "loss": 3.9828,
      "step": 98970
    },
    {
      "epoch": 0.20620833333333333,
      "grad_norm": 0.9319507479667664,
      "learning_rate": 0.00027054789839536233,
      "loss": 4.0786,
      "step": 98980
    },
    {
      "epoch": 0.20622916666666666,
      "grad_norm": 0.7610898613929749,
      "learning_rate": 0.0002705420313225769,
      "loss": 4.0303,
      "step": 98990
    },
    {
      "epoch": 0.20625,
      "grad_norm": 0.7480223178863525,
      "learning_rate": 0.0002705361637290976,
      "loss": 3.9511,
      "step": 99000
    },
    {
      "epoch": 0.20625,
      "eval_loss": 4.256772518157959,
      "eval_runtime": 10.6841,
      "eval_samples_per_second": 0.936,
      "eval_steps_per_second": 0.281,
      "step": 99000
    },
    {
      "epoch": 0.20627083333333332,
      "grad_norm": 0.7145761251449585,
      "learning_rate": 0.00027053029561494973,
      "loss": 3.8698,
      "step": 99010
    },
    {
      "epoch": 0.20629166666666668,
      "grad_norm": 0.8016746640205383,
      "learning_rate": 0.00027052442698015876,
      "loss": 3.9707,
      "step": 99020
    },
    {
      "epoch": 0.2063125,
      "grad_norm": 0.7398425340652466,
      "learning_rate": 0.00027051855782474996,
      "loss": 3.7976,
      "step": 99030
    },
    {
      "epoch": 0.20633333333333334,
      "grad_norm": 0.8325860500335693,
      "learning_rate": 0.0002705126881487487,
      "loss": 3.8547,
      "step": 99040
    },
    {
      "epoch": 0.20635416666666667,
      "grad_norm": 0.7015655636787415,
      "learning_rate": 0.0002705068179521803,
      "loss": 3.9988,
      "step": 99050
    },
    {
      "epoch": 0.206375,
      "grad_norm": 0.7375438213348389,
      "learning_rate": 0.00027050094723507013,
      "loss": 3.887,
      "step": 99060
    },
    {
      "epoch": 0.20639583333333333,
      "grad_norm": 0.7197336554527283,
      "learning_rate": 0.0002704950759974436,
      "loss": 4.0264,
      "step": 99070
    },
    {
      "epoch": 0.20641666666666666,
      "grad_norm": 0.6974433064460754,
      "learning_rate": 0.00027048920423932603,
      "loss": 3.7938,
      "step": 99080
    },
    {
      "epoch": 0.2064375,
      "grad_norm": 0.727984607219696,
      "learning_rate": 0.0002704833319607428,
      "loss": 3.9127,
      "step": 99090
    },
    {
      "epoch": 0.20645833333333333,
      "grad_norm": 0.6545091867446899,
      "learning_rate": 0.00027047745916171926,
      "loss": 3.9321,
      "step": 99100
    },
    {
      "epoch": 0.20647916666666666,
      "grad_norm": 0.7326334118843079,
      "learning_rate": 0.00027047158584228077,
      "loss": 3.9295,
      "step": 99110
    },
    {
      "epoch": 0.2065,
      "grad_norm": 0.995898425579071,
      "learning_rate": 0.00027046571200245277,
      "loss": 3.955,
      "step": 99120
    },
    {
      "epoch": 0.20652083333333332,
      "grad_norm": 0.7142347097396851,
      "learning_rate": 0.00027045983764226053,
      "loss": 3.7772,
      "step": 99130
    },
    {
      "epoch": 0.20654166666666668,
      "grad_norm": 0.9536827206611633,
      "learning_rate": 0.0002704539627617295,
      "loss": 4.0604,
      "step": 99140
    },
    {
      "epoch": 0.2065625,
      "grad_norm": 0.9706093072891235,
      "learning_rate": 0.000270448087360885,
      "loss": 3.897,
      "step": 99150
    },
    {
      "epoch": 0.20658333333333334,
      "grad_norm": 0.8020411729812622,
      "learning_rate": 0.0002704422114397524,
      "loss": 3.924,
      "step": 99160
    },
    {
      "epoch": 0.20660416666666667,
      "grad_norm": 0.7228273153305054,
      "learning_rate": 0.0002704363349983572,
      "loss": 3.9452,
      "step": 99170
    },
    {
      "epoch": 0.206625,
      "grad_norm": 0.7467770576477051,
      "learning_rate": 0.00027043045803672465,
      "loss": 3.8599,
      "step": 99180
    },
    {
      "epoch": 0.20664583333333333,
      "grad_norm": 0.6662198901176453,
      "learning_rate": 0.0002704245805548802,
      "loss": 3.9531,
      "step": 99190
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 0.7636839151382446,
      "learning_rate": 0.00027041870255284926,
      "loss": 3.9873,
      "step": 99200
    },
    {
      "epoch": 0.2066875,
      "grad_norm": 0.8352934718132019,
      "learning_rate": 0.00027041282403065717,
      "loss": 3.9992,
      "step": 99210
    },
    {
      "epoch": 0.20670833333333333,
      "grad_norm": 0.9625530242919922,
      "learning_rate": 0.00027040694498832934,
      "loss": 3.9511,
      "step": 99220
    },
    {
      "epoch": 0.20672916666666666,
      "grad_norm": 0.8624677062034607,
      "learning_rate": 0.00027040106542589124,
      "loss": 3.8357,
      "step": 99230
    },
    {
      "epoch": 0.20675,
      "grad_norm": 0.7134447693824768,
      "learning_rate": 0.0002703951853433681,
      "loss": 3.891,
      "step": 99240
    },
    {
      "epoch": 0.20677083333333332,
      "grad_norm": 0.7797545194625854,
      "learning_rate": 0.00027038930474078545,
      "loss": 3.9734,
      "step": 99250
    },
    {
      "epoch": 0.20679166666666668,
      "grad_norm": 0.7862750887870789,
      "learning_rate": 0.00027038342361816866,
      "loss": 4.0491,
      "step": 99260
    },
    {
      "epoch": 0.2068125,
      "grad_norm": 0.7302650213241577,
      "learning_rate": 0.0002703775419755431,
      "loss": 4.1421,
      "step": 99270
    },
    {
      "epoch": 0.20683333333333334,
      "grad_norm": 0.7886211276054382,
      "learning_rate": 0.00027037165981293426,
      "loss": 3.8874,
      "step": 99280
    },
    {
      "epoch": 0.20685416666666667,
      "grad_norm": 0.7321017384529114,
      "learning_rate": 0.00027036577713036744,
      "loss": 4.0311,
      "step": 99290
    },
    {
      "epoch": 0.206875,
      "grad_norm": 0.664029061794281,
      "learning_rate": 0.0002703598939278681,
      "loss": 3.868,
      "step": 99300
    },
    {
      "epoch": 0.20689583333333333,
      "grad_norm": 0.6837591528892517,
      "learning_rate": 0.00027035401020546174,
      "loss": 4.122,
      "step": 99310
    },
    {
      "epoch": 0.20691666666666667,
      "grad_norm": 0.7312952876091003,
      "learning_rate": 0.00027034812596317366,
      "loss": 3.9522,
      "step": 99320
    },
    {
      "epoch": 0.2069375,
      "grad_norm": 0.8689932823181152,
      "learning_rate": 0.0002703422412010293,
      "loss": 4.1706,
      "step": 99330
    },
    {
      "epoch": 0.20695833333333333,
      "grad_norm": 0.7996540665626526,
      "learning_rate": 0.0002703363559190541,
      "loss": 3.8171,
      "step": 99340
    },
    {
      "epoch": 0.20697916666666666,
      "grad_norm": 0.864711344242096,
      "learning_rate": 0.00027033047011727345,
      "loss": 3.9487,
      "step": 99350
    },
    {
      "epoch": 0.207,
      "grad_norm": 0.8300389647483826,
      "learning_rate": 0.0002703245837957128,
      "loss": 4.0347,
      "step": 99360
    },
    {
      "epoch": 0.20702083333333332,
      "grad_norm": 0.7777196168899536,
      "learning_rate": 0.00027031869695439765,
      "loss": 3.8458,
      "step": 99370
    },
    {
      "epoch": 0.20704166666666668,
      "grad_norm": 0.8874353170394897,
      "learning_rate": 0.0002703128095933533,
      "loss": 3.8151,
      "step": 99380
    },
    {
      "epoch": 0.2070625,
      "grad_norm": 0.852321207523346,
      "learning_rate": 0.0002703069217126052,
      "loss": 3.9535,
      "step": 99390
    },
    {
      "epoch": 0.20708333333333334,
      "grad_norm": 0.7844010591506958,
      "learning_rate": 0.0002703010333121789,
      "loss": 3.9026,
      "step": 99400
    },
    {
      "epoch": 0.20710416666666667,
      "grad_norm": 0.78663170337677,
      "learning_rate": 0.0002702951443920996,
      "loss": 3.8403,
      "step": 99410
    },
    {
      "epoch": 0.207125,
      "grad_norm": 0.6776803731918335,
      "learning_rate": 0.000270289254952393,
      "loss": 3.9337,
      "step": 99420
    },
    {
      "epoch": 0.20714583333333333,
      "grad_norm": 0.7785733938217163,
      "learning_rate": 0.0002702833649930845,
      "loss": 3.9292,
      "step": 99430
    },
    {
      "epoch": 0.20716666666666667,
      "grad_norm": 0.7961976528167725,
      "learning_rate": 0.0002702774745141994,
      "loss": 3.6678,
      "step": 99440
    },
    {
      "epoch": 0.2071875,
      "grad_norm": 0.7589039206504822,
      "learning_rate": 0.00027027158351576326,
      "loss": 3.9324,
      "step": 99450
    },
    {
      "epoch": 0.20720833333333333,
      "grad_norm": 0.7436046004295349,
      "learning_rate": 0.0002702656919978014,
      "loss": 4.034,
      "step": 99460
    },
    {
      "epoch": 0.20722916666666666,
      "grad_norm": 0.7713046669960022,
      "learning_rate": 0.0002702597999603394,
      "loss": 3.9752,
      "step": 99470
    },
    {
      "epoch": 0.20725,
      "grad_norm": 0.7547160983085632,
      "learning_rate": 0.0002702539074034027,
      "loss": 3.8981,
      "step": 99480
    },
    {
      "epoch": 0.20727083333333332,
      "grad_norm": 0.6990825533866882,
      "learning_rate": 0.0002702480143270167,
      "loss": 3.8734,
      "step": 99490
    },
    {
      "epoch": 0.20729166666666668,
      "grad_norm": 1.0489686727523804,
      "learning_rate": 0.00027024212073120684,
      "loss": 3.8486,
      "step": 99500
    },
    {
      "epoch": 0.2073125,
      "grad_norm": 0.8936699032783508,
      "learning_rate": 0.0002702362266159987,
      "loss": 3.9086,
      "step": 99510
    },
    {
      "epoch": 0.20733333333333334,
      "grad_norm": 0.7443354725837708,
      "learning_rate": 0.00027023033198141756,
      "loss": 3.8542,
      "step": 99520
    },
    {
      "epoch": 0.20735416666666667,
      "grad_norm": 0.7970522046089172,
      "learning_rate": 0.000270224436827489,
      "loss": 4.0252,
      "step": 99530
    },
    {
      "epoch": 0.207375,
      "grad_norm": 0.7859051823616028,
      "learning_rate": 0.0002702185411542385,
      "loss": 3.8541,
      "step": 99540
    },
    {
      "epoch": 0.20739583333333333,
      "grad_norm": 0.7349193692207336,
      "learning_rate": 0.00027021264496169146,
      "loss": 3.8772,
      "step": 99550
    },
    {
      "epoch": 0.20741666666666667,
      "grad_norm": 0.8676632642745972,
      "learning_rate": 0.00027020674824987335,
      "loss": 4.0154,
      "step": 99560
    },
    {
      "epoch": 0.2074375,
      "grad_norm": 0.7305377125740051,
      "learning_rate": 0.00027020085101880974,
      "loss": 3.6887,
      "step": 99570
    },
    {
      "epoch": 0.20745833333333333,
      "grad_norm": 0.8315433859825134,
      "learning_rate": 0.000270194953268526,
      "loss": 3.9902,
      "step": 99580
    },
    {
      "epoch": 0.20747916666666666,
      "grad_norm": 0.7022918462753296,
      "learning_rate": 0.00027018905499904763,
      "loss": 3.8534,
      "step": 99590
    },
    {
      "epoch": 0.2075,
      "grad_norm": 0.8246311545372009,
      "learning_rate": 0.0002701831562104001,
      "loss": 3.8297,
      "step": 99600
    },
    {
      "epoch": 0.20752083333333332,
      "grad_norm": 0.6984212398529053,
      "learning_rate": 0.0002701772569026089,
      "loss": 3.8181,
      "step": 99610
    },
    {
      "epoch": 0.20754166666666668,
      "grad_norm": 1.0341120958328247,
      "learning_rate": 0.00027017135707569956,
      "loss": 4.0088,
      "step": 99620
    },
    {
      "epoch": 0.2075625,
      "grad_norm": 0.6557123064994812,
      "learning_rate": 0.0002701654567296975,
      "loss": 3.9247,
      "step": 99630
    },
    {
      "epoch": 0.20758333333333334,
      "grad_norm": 0.7157204151153564,
      "learning_rate": 0.00027015955586462827,
      "loss": 4.0549,
      "step": 99640
    },
    {
      "epoch": 0.20760416666666667,
      "grad_norm": 0.8681158423423767,
      "learning_rate": 0.0002701536544805173,
      "loss": 3.9496,
      "step": 99650
    },
    {
      "epoch": 0.207625,
      "grad_norm": 0.7297716736793518,
      "learning_rate": 0.00027014775257739004,
      "loss": 3.7612,
      "step": 99660
    },
    {
      "epoch": 0.20764583333333334,
      "grad_norm": 0.7475490570068359,
      "learning_rate": 0.00027014185015527214,
      "loss": 3.9153,
      "step": 99670
    },
    {
      "epoch": 0.20766666666666667,
      "grad_norm": 0.731817364692688,
      "learning_rate": 0.00027013594721418894,
      "loss": 3.9172,
      "step": 99680
    },
    {
      "epoch": 0.2076875,
      "grad_norm": 0.7607062458992004,
      "learning_rate": 0.000270130043754166,
      "loss": 3.938,
      "step": 99690
    },
    {
      "epoch": 0.20770833333333333,
      "grad_norm": 0.6940791010856628,
      "learning_rate": 0.0002701241397752289,
      "loss": 3.7932,
      "step": 99700
    },
    {
      "epoch": 0.20772916666666666,
      "grad_norm": 0.8961820602416992,
      "learning_rate": 0.00027011823527740294,
      "loss": 3.9808,
      "step": 99710
    },
    {
      "epoch": 0.20775,
      "grad_norm": 0.7839245200157166,
      "learning_rate": 0.0002701123302607139,
      "loss": 3.9306,
      "step": 99720
    },
    {
      "epoch": 0.20777083333333332,
      "grad_norm": 0.7979865670204163,
      "learning_rate": 0.000270106424725187,
      "loss": 3.9324,
      "step": 99730
    },
    {
      "epoch": 0.20779166666666668,
      "grad_norm": 0.915101945400238,
      "learning_rate": 0.0002701005186708479,
      "loss": 3.9982,
      "step": 99740
    },
    {
      "epoch": 0.2078125,
      "grad_norm": 0.6369365453720093,
      "learning_rate": 0.0002700946120977222,
      "loss": 3.9639,
      "step": 99750
    },
    {
      "epoch": 0.20783333333333334,
      "grad_norm": 0.9562554359436035,
      "learning_rate": 0.0002700887050058352,
      "loss": 3.9891,
      "step": 99760
    },
    {
      "epoch": 0.20785416666666667,
      "grad_norm": 0.7328503131866455,
      "learning_rate": 0.0002700827973952126,
      "loss": 3.8668,
      "step": 99770
    },
    {
      "epoch": 0.207875,
      "grad_norm": 0.756215512752533,
      "learning_rate": 0.00027007688926587985,
      "loss": 3.8251,
      "step": 99780
    },
    {
      "epoch": 0.20789583333333334,
      "grad_norm": 0.8910409808158875,
      "learning_rate": 0.00027007098061786243,
      "loss": 3.8036,
      "step": 99790
    },
    {
      "epoch": 0.20791666666666667,
      "grad_norm": 0.7314499020576477,
      "learning_rate": 0.00027006507145118595,
      "loss": 3.8405,
      "step": 99800
    },
    {
      "epoch": 0.2079375,
      "grad_norm": 0.8136187195777893,
      "learning_rate": 0.0002700591617658758,
      "loss": 3.9835,
      "step": 99810
    },
    {
      "epoch": 0.20795833333333333,
      "grad_norm": 0.7605281472206116,
      "learning_rate": 0.0002700532515619577,
      "loss": 3.9367,
      "step": 99820
    },
    {
      "epoch": 0.20797916666666666,
      "grad_norm": 0.7892848253250122,
      "learning_rate": 0.000270047340839457,
      "loss": 3.9309,
      "step": 99830
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.9768999218940735,
      "learning_rate": 0.00027004142959839933,
      "loss": 3.9541,
      "step": 99840
    },
    {
      "epoch": 0.20802083333333332,
      "grad_norm": 0.7073710560798645,
      "learning_rate": 0.0002700355178388102,
      "loss": 4.0636,
      "step": 99850
    },
    {
      "epoch": 0.20804166666666668,
      "grad_norm": 0.8323172926902771,
      "learning_rate": 0.0002700296055607152,
      "loss": 3.9064,
      "step": 99860
    },
    {
      "epoch": 0.2080625,
      "grad_norm": 0.7948471307754517,
      "learning_rate": 0.00027002369276413977,
      "loss": 3.927,
      "step": 99870
    },
    {
      "epoch": 0.20808333333333334,
      "grad_norm": 0.9191707968711853,
      "learning_rate": 0.0002700177794491095,
      "loss": 4.0282,
      "step": 99880
    },
    {
      "epoch": 0.20810416666666667,
      "grad_norm": 0.7243791222572327,
      "learning_rate": 0.00027001186561564987,
      "loss": 3.9953,
      "step": 99890
    },
    {
      "epoch": 0.208125,
      "grad_norm": 0.7418065667152405,
      "learning_rate": 0.0002700059512637865,
      "loss": 3.8674,
      "step": 99900
    },
    {
      "epoch": 0.20814583333333334,
      "grad_norm": 0.8340119123458862,
      "learning_rate": 0.000270000036393545,
      "loss": 4.0167,
      "step": 99910
    },
    {
      "epoch": 0.20816666666666667,
      "grad_norm": 0.7639809250831604,
      "learning_rate": 0.00026999412100495076,
      "loss": 4.0151,
      "step": 99920
    },
    {
      "epoch": 0.2081875,
      "grad_norm": 0.6915614008903503,
      "learning_rate": 0.0002699882050980294,
      "loss": 4.0189,
      "step": 99930
    },
    {
      "epoch": 0.20820833333333333,
      "grad_norm": 0.7375022172927856,
      "learning_rate": 0.00026998228867280657,
      "loss": 3.8826,
      "step": 99940
    },
    {
      "epoch": 0.20822916666666666,
      "grad_norm": 0.7793653011322021,
      "learning_rate": 0.0002699763717293077,
      "loss": 3.9433,
      "step": 99950
    },
    {
      "epoch": 0.20825,
      "grad_norm": 0.7699088454246521,
      "learning_rate": 0.00026997045426755843,
      "loss": 3.9484,
      "step": 99960
    },
    {
      "epoch": 0.20827083333333332,
      "grad_norm": 0.7179043889045715,
      "learning_rate": 0.00026996453628758425,
      "loss": 3.8454,
      "step": 99970
    },
    {
      "epoch": 0.20829166666666668,
      "grad_norm": 0.9166111946105957,
      "learning_rate": 0.00026995861778941077,
      "loss": 3.9953,
      "step": 99980
    },
    {
      "epoch": 0.2083125,
      "grad_norm": 0.7917600274085999,
      "learning_rate": 0.00026995269877306356,
      "loss": 3.9487,
      "step": 99990
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 0.6542020440101624,
      "learning_rate": 0.0002699467792385681,
      "loss": 3.9057,
      "step": 100000
    },
    {
      "epoch": 0.20833333333333334,
      "eval_loss": 4.271517276763916,
      "eval_runtime": 10.24,
      "eval_samples_per_second": 0.977,
      "eval_steps_per_second": 0.293,
      "step": 100000
    },
    {
      "epoch": 0.20835416666666667,
      "grad_norm": 1.0828955173492432,
      "learning_rate": 0.0002699408591859501,
      "loss": 4.0128,
      "step": 100010
    },
    {
      "epoch": 0.208375,
      "grad_norm": 0.7887589931488037,
      "learning_rate": 0.0002699349386152351,
      "loss": 3.9277,
      "step": 100020
    },
    {
      "epoch": 0.20839583333333334,
      "grad_norm": 0.8306854367256165,
      "learning_rate": 0.0002699290175264486,
      "loss": 3.8462,
      "step": 100030
    },
    {
      "epoch": 0.20841666666666667,
      "grad_norm": 0.7744120359420776,
      "learning_rate": 0.0002699230959196162,
      "loss": 3.7912,
      "step": 100040
    },
    {
      "epoch": 0.2084375,
      "grad_norm": 0.8196149468421936,
      "learning_rate": 0.00026991717379476346,
      "loss": 3.9621,
      "step": 100050
    },
    {
      "epoch": 0.20845833333333333,
      "grad_norm": 0.9614679217338562,
      "learning_rate": 0.00026991125115191606,
      "loss": 3.9956,
      "step": 100060
    },
    {
      "epoch": 0.20847916666666666,
      "grad_norm": 0.7675607204437256,
      "learning_rate": 0.00026990532799109953,
      "loss": 3.8525,
      "step": 100070
    },
    {
      "epoch": 0.2085,
      "grad_norm": 0.6666399240493774,
      "learning_rate": 0.00026989940431233934,
      "loss": 3.9395,
      "step": 100080
    },
    {
      "epoch": 0.20852083333333332,
      "grad_norm": 0.7078964710235596,
      "learning_rate": 0.0002698934801156613,
      "loss": 4.0353,
      "step": 100090
    },
    {
      "epoch": 0.20854166666666665,
      "grad_norm": 0.7129538059234619,
      "learning_rate": 0.00026988755540109085,
      "loss": 3.9099,
      "step": 100100
    },
    {
      "epoch": 0.2085625,
      "grad_norm": 0.7828505039215088,
      "learning_rate": 0.00026988163016865356,
      "loss": 3.9194,
      "step": 100110
    },
    {
      "epoch": 0.20858333333333334,
      "grad_norm": 0.7264589071273804,
      "learning_rate": 0.0002698757044183752,
      "loss": 3.7734,
      "step": 100120
    },
    {
      "epoch": 0.20860416666666667,
      "grad_norm": 0.7864357829093933,
      "learning_rate": 0.0002698697781502811,
      "loss": 3.9147,
      "step": 100130
    },
    {
      "epoch": 0.208625,
      "grad_norm": 0.7802590727806091,
      "learning_rate": 0.0002698638513643971,
      "loss": 3.8665,
      "step": 100140
    },
    {
      "epoch": 0.20864583333333334,
      "grad_norm": 0.7286370396614075,
      "learning_rate": 0.0002698579240607487,
      "loss": 3.9713,
      "step": 100150
    },
    {
      "epoch": 0.20866666666666667,
      "grad_norm": 0.7840452194213867,
      "learning_rate": 0.00026985199623936145,
      "loss": 4.0005,
      "step": 100160
    },
    {
      "epoch": 0.2086875,
      "grad_norm": 0.7470037937164307,
      "learning_rate": 0.00026984606790026106,
      "loss": 4.0358,
      "step": 100170
    },
    {
      "epoch": 0.20870833333333333,
      "grad_norm": 0.7604383230209351,
      "learning_rate": 0.0002698401390434731,
      "loss": 3.9874,
      "step": 100180
    },
    {
      "epoch": 0.20872916666666666,
      "grad_norm": 0.9223660230636597,
      "learning_rate": 0.0002698342096690232,
      "loss": 3.9044,
      "step": 100190
    },
    {
      "epoch": 0.20875,
      "grad_norm": 0.7254631519317627,
      "learning_rate": 0.0002698282797769369,
      "loss": 4.0262,
      "step": 100200
    },
    {
      "epoch": 0.20877083333333332,
      "grad_norm": 0.7557848691940308,
      "learning_rate": 0.0002698223493672399,
      "loss": 3.8807,
      "step": 100210
    },
    {
      "epoch": 0.20879166666666665,
      "grad_norm": 0.8035601377487183,
      "learning_rate": 0.00026981641843995774,
      "loss": 3.8338,
      "step": 100220
    },
    {
      "epoch": 0.2088125,
      "grad_norm": 0.690593957901001,
      "learning_rate": 0.0002698104869951161,
      "loss": 3.7943,
      "step": 100230
    },
    {
      "epoch": 0.20883333333333334,
      "grad_norm": 0.7185525894165039,
      "learning_rate": 0.0002698045550327406,
      "loss": 3.7232,
      "step": 100240
    },
    {
      "epoch": 0.20885416666666667,
      "grad_norm": 0.7602024078369141,
      "learning_rate": 0.00026979862255285684,
      "loss": 3.8471,
      "step": 100250
    },
    {
      "epoch": 0.208875,
      "grad_norm": 0.8257759809494019,
      "learning_rate": 0.0002697926895554904,
      "loss": 3.9443,
      "step": 100260
    },
    {
      "epoch": 0.20889583333333334,
      "grad_norm": 0.6884680986404419,
      "learning_rate": 0.00026978675604066697,
      "loss": 3.7723,
      "step": 100270
    },
    {
      "epoch": 0.20891666666666667,
      "grad_norm": 0.7183137536048889,
      "learning_rate": 0.0002697808220084122,
      "loss": 4.1249,
      "step": 100280
    },
    {
      "epoch": 0.2089375,
      "grad_norm": 0.7529290914535522,
      "learning_rate": 0.0002697748874587517,
      "loss": 3.7536,
      "step": 100290
    },
    {
      "epoch": 0.20895833333333333,
      "grad_norm": 0.7425618171691895,
      "learning_rate": 0.00026976895239171105,
      "loss": 3.9431,
      "step": 100300
    },
    {
      "epoch": 0.20897916666666666,
      "grad_norm": 0.8318856954574585,
      "learning_rate": 0.000269763016807316,
      "loss": 4.0213,
      "step": 100310
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.8090575933456421,
      "learning_rate": 0.0002697570807055921,
      "loss": 3.8451,
      "step": 100320
    },
    {
      "epoch": 0.20902083333333332,
      "grad_norm": 0.906082034111023,
      "learning_rate": 0.000269751144086565,
      "loss": 3.9551,
      "step": 100330
    },
    {
      "epoch": 0.20904166666666665,
      "grad_norm": 0.7665221691131592,
      "learning_rate": 0.0002697452069502603,
      "loss": 3.9767,
      "step": 100340
    },
    {
      "epoch": 0.2090625,
      "grad_norm": 0.6740334630012512,
      "learning_rate": 0.00026973926929670377,
      "loss": 3.9988,
      "step": 100350
    },
    {
      "epoch": 0.20908333333333334,
      "grad_norm": 0.7616051435470581,
      "learning_rate": 0.00026973333112592104,
      "loss": 3.8608,
      "step": 100360
    },
    {
      "epoch": 0.20910416666666667,
      "grad_norm": 0.7959082722663879,
      "learning_rate": 0.00026972739243793766,
      "loss": 3.6754,
      "step": 100370
    },
    {
      "epoch": 0.209125,
      "grad_norm": 0.7682712078094482,
      "learning_rate": 0.00026972145323277927,
      "loss": 4.0071,
      "step": 100380
    },
    {
      "epoch": 0.20914583333333334,
      "grad_norm": 0.7272965312004089,
      "learning_rate": 0.0002697155135104717,
      "loss": 3.8289,
      "step": 100390
    },
    {
      "epoch": 0.20916666666666667,
      "grad_norm": 0.7779249548912048,
      "learning_rate": 0.0002697095732710404,
      "loss": 3.8347,
      "step": 100400
    },
    {
      "epoch": 0.2091875,
      "grad_norm": 0.8291679620742798,
      "learning_rate": 0.00026970363251451124,
      "loss": 3.9626,
      "step": 100410
    },
    {
      "epoch": 0.20920833333333333,
      "grad_norm": 0.7357811331748962,
      "learning_rate": 0.00026969769124090973,
      "loss": 3.7216,
      "step": 100420
    },
    {
      "epoch": 0.20922916666666666,
      "grad_norm": 0.734731912612915,
      "learning_rate": 0.0002696917494502615,
      "loss": 3.8712,
      "step": 100430
    },
    {
      "epoch": 0.20925,
      "grad_norm": 0.7748503088951111,
      "learning_rate": 0.0002696858071425924,
      "loss": 3.9399,
      "step": 100440
    },
    {
      "epoch": 0.20927083333333332,
      "grad_norm": 0.7709073424339294,
      "learning_rate": 0.00026967986431792793,
      "loss": 3.9281,
      "step": 100450
    },
    {
      "epoch": 0.20929166666666665,
      "grad_norm": 0.7457091212272644,
      "learning_rate": 0.0002696739209762938,
      "loss": 3.9381,
      "step": 100460
    },
    {
      "epoch": 0.2093125,
      "grad_norm": 0.7326961755752563,
      "learning_rate": 0.00026966797711771575,
      "loss": 3.9665,
      "step": 100470
    },
    {
      "epoch": 0.20933333333333334,
      "grad_norm": 0.7713673710823059,
      "learning_rate": 0.00026966203274221936,
      "loss": 4.0613,
      "step": 100480
    },
    {
      "epoch": 0.20935416666666667,
      "grad_norm": 0.7172417640686035,
      "learning_rate": 0.0002696560878498304,
      "loss": 3.8364,
      "step": 100490
    },
    {
      "epoch": 0.209375,
      "grad_norm": 0.6862996220588684,
      "learning_rate": 0.00026965014244057444,
      "loss": 3.9679,
      "step": 100500
    },
    {
      "epoch": 0.20939583333333334,
      "grad_norm": 0.7821856737136841,
      "learning_rate": 0.00026964419651447725,
      "loss": 3.9259,
      "step": 100510
    },
    {
      "epoch": 0.20941666666666667,
      "grad_norm": 0.6646330952644348,
      "learning_rate": 0.0002696382500715645,
      "loss": 3.897,
      "step": 100520
    },
    {
      "epoch": 0.2094375,
      "grad_norm": 0.906822144985199,
      "learning_rate": 0.0002696323031118619,
      "loss": 3.8748,
      "step": 100530
    },
    {
      "epoch": 0.20945833333333333,
      "grad_norm": 1.0426373481750488,
      "learning_rate": 0.00026962635563539507,
      "loss": 3.9749,
      "step": 100540
    },
    {
      "epoch": 0.20947916666666666,
      "grad_norm": 0.754717230796814,
      "learning_rate": 0.00026962040764218974,
      "loss": 3.79,
      "step": 100550
    },
    {
      "epoch": 0.2095,
      "grad_norm": 0.6997254490852356,
      "learning_rate": 0.00026961445913227164,
      "loss": 4.051,
      "step": 100560
    },
    {
      "epoch": 0.20952083333333332,
      "grad_norm": 0.8067952394485474,
      "learning_rate": 0.0002696085101056664,
      "loss": 3.9121,
      "step": 100570
    },
    {
      "epoch": 0.20954166666666665,
      "grad_norm": 0.7852560877799988,
      "learning_rate": 0.00026960256056239964,
      "loss": 3.8683,
      "step": 100580
    },
    {
      "epoch": 0.2095625,
      "grad_norm": 0.8277136087417603,
      "learning_rate": 0.0002695966105024973,
      "loss": 4.0107,
      "step": 100590
    },
    {
      "epoch": 0.20958333333333334,
      "grad_norm": 0.8291253447532654,
      "learning_rate": 0.00026959065992598484,
      "loss": 4.0464,
      "step": 100600
    },
    {
      "epoch": 0.20960416666666667,
      "grad_norm": 0.7416697144508362,
      "learning_rate": 0.0002695847088328881,
      "loss": 3.8658,
      "step": 100610
    },
    {
      "epoch": 0.209625,
      "grad_norm": 0.7298949360847473,
      "learning_rate": 0.00026957875722323277,
      "loss": 3.9691,
      "step": 100620
    },
    {
      "epoch": 0.20964583333333334,
      "grad_norm": 0.7824665904045105,
      "learning_rate": 0.0002695728050970445,
      "loss": 3.9395,
      "step": 100630
    },
    {
      "epoch": 0.20966666666666667,
      "grad_norm": 0.7905336022377014,
      "learning_rate": 0.00026956685245434913,
      "loss": 3.9125,
      "step": 100640
    },
    {
      "epoch": 0.2096875,
      "grad_norm": 0.7508228421211243,
      "learning_rate": 0.0002695608992951722,
      "loss": 4.1603,
      "step": 100650
    },
    {
      "epoch": 0.20970833333333333,
      "grad_norm": 0.7187749743461609,
      "learning_rate": 0.00026955494561953957,
      "loss": 4.0474,
      "step": 100660
    },
    {
      "epoch": 0.20972916666666666,
      "grad_norm": 0.8792694807052612,
      "learning_rate": 0.00026954899142747683,
      "loss": 3.9919,
      "step": 100670
    },
    {
      "epoch": 0.20975,
      "grad_norm": 0.7819789052009583,
      "learning_rate": 0.00026954303671900985,
      "loss": 3.8618,
      "step": 100680
    },
    {
      "epoch": 0.20977083333333332,
      "grad_norm": 0.9502438902854919,
      "learning_rate": 0.0002695370814941642,
      "loss": 4.0189,
      "step": 100690
    },
    {
      "epoch": 0.20979166666666665,
      "grad_norm": 0.691494882106781,
      "learning_rate": 0.0002695311257529657,
      "loss": 4.2064,
      "step": 100700
    },
    {
      "epoch": 0.2098125,
      "grad_norm": 0.7997622489929199,
      "learning_rate": 0.00026952516949544004,
      "loss": 4.0938,
      "step": 100710
    },
    {
      "epoch": 0.20983333333333334,
      "grad_norm": 0.794265627861023,
      "learning_rate": 0.00026951921272161297,
      "loss": 3.9638,
      "step": 100720
    },
    {
      "epoch": 0.20985416666666667,
      "grad_norm": 0.72667396068573,
      "learning_rate": 0.00026951325543151023,
      "loss": 3.9497,
      "step": 100730
    },
    {
      "epoch": 0.209875,
      "grad_norm": 0.8311936259269714,
      "learning_rate": 0.0002695072976251575,
      "loss": 3.922,
      "step": 100740
    },
    {
      "epoch": 0.20989583333333334,
      "grad_norm": 1.1751930713653564,
      "learning_rate": 0.00026950133930258056,
      "loss": 4.0144,
      "step": 100750
    },
    {
      "epoch": 0.20991666666666667,
      "grad_norm": 0.7665546536445618,
      "learning_rate": 0.0002694953804638052,
      "loss": 3.9702,
      "step": 100760
    },
    {
      "epoch": 0.2099375,
      "grad_norm": 0.7720737457275391,
      "learning_rate": 0.00026948942110885697,
      "loss": 3.886,
      "step": 100770
    },
    {
      "epoch": 0.20995833333333333,
      "grad_norm": 0.8131123781204224,
      "learning_rate": 0.0002694834612377618,
      "loss": 3.7739,
      "step": 100780
    },
    {
      "epoch": 0.20997916666666666,
      "grad_norm": 0.7736006379127502,
      "learning_rate": 0.0002694775008505454,
      "loss": 3.9595,
      "step": 100790
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7683284878730774,
      "learning_rate": 0.0002694715399472335,
      "loss": 3.937,
      "step": 100800
    },
    {
      "epoch": 0.21002083333333332,
      "grad_norm": 0.7940028309822083,
      "learning_rate": 0.00026946557852785175,
      "loss": 3.7637,
      "step": 100810
    },
    {
      "epoch": 0.21004166666666665,
      "grad_norm": 0.7502275705337524,
      "learning_rate": 0.00026945961659242604,
      "loss": 4.0259,
      "step": 100820
    },
    {
      "epoch": 0.2100625,
      "grad_norm": 0.8072684407234192,
      "learning_rate": 0.00026945365414098206,
      "loss": 3.8897,
      "step": 100830
    },
    {
      "epoch": 0.21008333333333334,
      "grad_norm": 0.8077104091644287,
      "learning_rate": 0.0002694476911735456,
      "loss": 4.2664,
      "step": 100840
    },
    {
      "epoch": 0.21010416666666668,
      "grad_norm": 0.7347311973571777,
      "learning_rate": 0.0002694417276901424,
      "loss": 3.9618,
      "step": 100850
    },
    {
      "epoch": 0.210125,
      "grad_norm": 0.7142252326011658,
      "learning_rate": 0.00026943576369079815,
      "loss": 3.7406,
      "step": 100860
    },
    {
      "epoch": 0.21014583333333334,
      "grad_norm": 1.0674288272857666,
      "learning_rate": 0.00026942979917553875,
      "loss": 3.8193,
      "step": 100870
    },
    {
      "epoch": 0.21016666666666667,
      "grad_norm": 1.098987102508545,
      "learning_rate": 0.00026942383414438987,
      "loss": 3.923,
      "step": 100880
    },
    {
      "epoch": 0.2101875,
      "grad_norm": 0.7651236653327942,
      "learning_rate": 0.00026941786859737733,
      "loss": 4.0019,
      "step": 100890
    },
    {
      "epoch": 0.21020833333333333,
      "grad_norm": 0.727094292640686,
      "learning_rate": 0.0002694119025345268,
      "loss": 3.9892,
      "step": 100900
    },
    {
      "epoch": 0.21022916666666666,
      "grad_norm": 0.7321663498878479,
      "learning_rate": 0.00026940593595586415,
      "loss": 3.9087,
      "step": 100910
    },
    {
      "epoch": 0.21025,
      "grad_norm": 0.7765200138092041,
      "learning_rate": 0.0002693999688614151,
      "loss": 3.9409,
      "step": 100920
    },
    {
      "epoch": 0.21027083333333332,
      "grad_norm": 0.8324688673019409,
      "learning_rate": 0.00026939400125120547,
      "loss": 3.9192,
      "step": 100930
    },
    {
      "epoch": 0.21029166666666665,
      "grad_norm": 0.7404791712760925,
      "learning_rate": 0.000269388033125261,
      "loss": 3.8032,
      "step": 100940
    },
    {
      "epoch": 0.2103125,
      "grad_norm": 0.7649177312850952,
      "learning_rate": 0.0002693820644836075,
      "loss": 3.7753,
      "step": 100950
    },
    {
      "epoch": 0.21033333333333334,
      "grad_norm": 0.6972590088844299,
      "learning_rate": 0.00026937609532627074,
      "loss": 3.8639,
      "step": 100960
    },
    {
      "epoch": 0.21035416666666668,
      "grad_norm": 0.8903745412826538,
      "learning_rate": 0.00026937012565327647,
      "loss": 3.8775,
      "step": 100970
    },
    {
      "epoch": 0.210375,
      "grad_norm": 0.7859228849411011,
      "learning_rate": 0.00026936415546465056,
      "loss": 3.8872,
      "step": 100980
    },
    {
      "epoch": 0.21039583333333334,
      "grad_norm": 0.6667293310165405,
      "learning_rate": 0.0002693581847604187,
      "loss": 3.7461,
      "step": 100990
    },
    {
      "epoch": 0.21041666666666667,
      "grad_norm": 0.7079753875732422,
      "learning_rate": 0.00026935221354060674,
      "loss": 3.9731,
      "step": 101000
    },
    {
      "epoch": 0.21041666666666667,
      "eval_loss": 4.2596330642700195,
      "eval_runtime": 9.2584,
      "eval_samples_per_second": 1.08,
      "eval_steps_per_second": 0.324,
      "step": 101000
    },
    {
      "epoch": 0.2104375,
      "grad_norm": 0.7572210431098938,
      "learning_rate": 0.0002693462418052405,
      "loss": 3.8059,
      "step": 101010
    },
    {
      "epoch": 0.21045833333333333,
      "grad_norm": 0.6829994916915894,
      "learning_rate": 0.00026934026955434566,
      "loss": 3.9567,
      "step": 101020
    },
    {
      "epoch": 0.21047916666666666,
      "grad_norm": 0.7596521973609924,
      "learning_rate": 0.00026933429678794815,
      "loss": 3.9586,
      "step": 101030
    },
    {
      "epoch": 0.2105,
      "grad_norm": 0.965099036693573,
      "learning_rate": 0.00026932832350607365,
      "loss": 4.0766,
      "step": 101040
    },
    {
      "epoch": 0.21052083333333332,
      "grad_norm": 0.7780905961990356,
      "learning_rate": 0.0002693223497087481,
      "loss": 4.0123,
      "step": 101050
    },
    {
      "epoch": 0.21054166666666665,
      "grad_norm": 0.7070611715316772,
      "learning_rate": 0.00026931637539599724,
      "loss": 3.868,
      "step": 101060
    },
    {
      "epoch": 0.2105625,
      "grad_norm": 0.7427692413330078,
      "learning_rate": 0.0002693104005678468,
      "loss": 3.8343,
      "step": 101070
    },
    {
      "epoch": 0.21058333333333334,
      "grad_norm": 0.9417982697486877,
      "learning_rate": 0.00026930442522432265,
      "loss": 4.0149,
      "step": 101080
    },
    {
      "epoch": 0.21060416666666668,
      "grad_norm": 0.8123637437820435,
      "learning_rate": 0.0002692984493654507,
      "loss": 3.9279,
      "step": 101090
    },
    {
      "epoch": 0.210625,
      "grad_norm": 0.7978792190551758,
      "learning_rate": 0.0002692924729912566,
      "loss": 3.996,
      "step": 101100
    },
    {
      "epoch": 0.21064583333333334,
      "grad_norm": 0.7046129107475281,
      "learning_rate": 0.0002692864961017662,
      "loss": 3.8943,
      "step": 101110
    },
    {
      "epoch": 0.21066666666666667,
      "grad_norm": 0.9492311477661133,
      "learning_rate": 0.00026928051869700543,
      "loss": 3.9427,
      "step": 101120
    },
    {
      "epoch": 0.2106875,
      "grad_norm": 0.7446462512016296,
      "learning_rate": 0.00026927454077699996,
      "loss": 3.987,
      "step": 101130
    },
    {
      "epoch": 0.21070833333333333,
      "grad_norm": 0.7630727291107178,
      "learning_rate": 0.00026926856234177576,
      "loss": 3.9315,
      "step": 101140
    },
    {
      "epoch": 0.21072916666666666,
      "grad_norm": 0.7730732560157776,
      "learning_rate": 0.00026926258339135854,
      "loss": 3.8829,
      "step": 101150
    },
    {
      "epoch": 0.21075,
      "grad_norm": 0.7772974371910095,
      "learning_rate": 0.0002692566039257742,
      "loss": 3.8147,
      "step": 101160
    },
    {
      "epoch": 0.21077083333333332,
      "grad_norm": 0.8188722133636475,
      "learning_rate": 0.00026925062394504847,
      "loss": 3.833,
      "step": 101170
    },
    {
      "epoch": 0.21079166666666665,
      "grad_norm": 0.7402281165122986,
      "learning_rate": 0.0002692446434492073,
      "loss": 3.8346,
      "step": 101180
    },
    {
      "epoch": 0.2108125,
      "grad_norm": 0.8557885885238647,
      "learning_rate": 0.0002692386624382765,
      "loss": 3.9747,
      "step": 101190
    },
    {
      "epoch": 0.21083333333333334,
      "grad_norm": 0.8117541670799255,
      "learning_rate": 0.0002692326809122818,
      "loss": 3.8675,
      "step": 101200
    },
    {
      "epoch": 0.21085416666666668,
      "grad_norm": 0.7949894070625305,
      "learning_rate": 0.00026922669887124913,
      "loss": 3.8146,
      "step": 101210
    },
    {
      "epoch": 0.210875,
      "grad_norm": 0.7698141932487488,
      "learning_rate": 0.0002692207163152044,
      "loss": 3.9943,
      "step": 101220
    },
    {
      "epoch": 0.21089583333333334,
      "grad_norm": 0.8617931604385376,
      "learning_rate": 0.00026921473324417327,
      "loss": 3.9423,
      "step": 101230
    },
    {
      "epoch": 0.21091666666666667,
      "grad_norm": 0.7801691293716431,
      "learning_rate": 0.0002692087496581817,
      "loss": 3.9933,
      "step": 101240
    },
    {
      "epoch": 0.2109375,
      "grad_norm": 0.7268981337547302,
      "learning_rate": 0.0002692027655572555,
      "loss": 3.9493,
      "step": 101250
    },
    {
      "epoch": 0.21095833333333333,
      "grad_norm": 0.8417555093765259,
      "learning_rate": 0.0002691967809414206,
      "loss": 3.9974,
      "step": 101260
    },
    {
      "epoch": 0.21097916666666666,
      "grad_norm": 0.7841132283210754,
      "learning_rate": 0.00026919079581070275,
      "loss": 4.0388,
      "step": 101270
    },
    {
      "epoch": 0.211,
      "grad_norm": 0.7825107574462891,
      "learning_rate": 0.00026918481016512786,
      "loss": 3.8295,
      "step": 101280
    },
    {
      "epoch": 0.21102083333333332,
      "grad_norm": 0.9452253580093384,
      "learning_rate": 0.00026917882400472173,
      "loss": 4.0078,
      "step": 101290
    },
    {
      "epoch": 0.21104166666666666,
      "grad_norm": 0.773239016532898,
      "learning_rate": 0.00026917283732951034,
      "loss": 3.8739,
      "step": 101300
    },
    {
      "epoch": 0.2110625,
      "grad_norm": 0.7082853317260742,
      "learning_rate": 0.0002691668501395194,
      "loss": 3.8803,
      "step": 101310
    },
    {
      "epoch": 0.21108333333333335,
      "grad_norm": 0.8155280947685242,
      "learning_rate": 0.00026916086243477475,
      "loss": 4.1947,
      "step": 101320
    },
    {
      "epoch": 0.21110416666666668,
      "grad_norm": 0.6907743811607361,
      "learning_rate": 0.0002691548742153025,
      "loss": 3.8008,
      "step": 101330
    },
    {
      "epoch": 0.211125,
      "grad_norm": 0.8461233377456665,
      "learning_rate": 0.00026914888548112823,
      "loss": 4.0174,
      "step": 101340
    },
    {
      "epoch": 0.21114583333333334,
      "grad_norm": 0.9016892910003662,
      "learning_rate": 0.000269142896232278,
      "loss": 4.026,
      "step": 101350
    },
    {
      "epoch": 0.21116666666666667,
      "grad_norm": 0.736811101436615,
      "learning_rate": 0.00026913690646877765,
      "loss": 3.9046,
      "step": 101360
    },
    {
      "epoch": 0.2111875,
      "grad_norm": 0.8122937083244324,
      "learning_rate": 0.000269130916190653,
      "loss": 3.9382,
      "step": 101370
    },
    {
      "epoch": 0.21120833333333333,
      "grad_norm": 0.7200863361358643,
      "learning_rate": 0.00026912492539792987,
      "loss": 3.7608,
      "step": 101380
    },
    {
      "epoch": 0.21122916666666666,
      "grad_norm": 0.6763854026794434,
      "learning_rate": 0.0002691189340906343,
      "loss": 3.9085,
      "step": 101390
    },
    {
      "epoch": 0.21125,
      "grad_norm": 0.6256564855575562,
      "learning_rate": 0.0002691129422687921,
      "loss": 3.8341,
      "step": 101400
    },
    {
      "epoch": 0.21127083333333332,
      "grad_norm": 0.7168192863464355,
      "learning_rate": 0.00026910694993242907,
      "loss": 3.7341,
      "step": 101410
    },
    {
      "epoch": 0.21129166666666666,
      "grad_norm": 0.773725688457489,
      "learning_rate": 0.0002691009570815712,
      "loss": 3.9621,
      "step": 101420
    },
    {
      "epoch": 0.2113125,
      "grad_norm": 0.7964165806770325,
      "learning_rate": 0.00026909496371624433,
      "loss": 3.7952,
      "step": 101430
    },
    {
      "epoch": 0.21133333333333335,
      "grad_norm": 0.7489926815032959,
      "learning_rate": 0.0002690889698364744,
      "loss": 4.0362,
      "step": 101440
    },
    {
      "epoch": 0.21135416666666668,
      "grad_norm": 0.6828926205635071,
      "learning_rate": 0.0002690829754422872,
      "loss": 3.98,
      "step": 101450
    },
    {
      "epoch": 0.211375,
      "grad_norm": 0.7501125335693359,
      "learning_rate": 0.0002690769805337086,
      "loss": 3.8035,
      "step": 101460
    },
    {
      "epoch": 0.21139583333333334,
      "grad_norm": 0.7287818789482117,
      "learning_rate": 0.00026907098511076477,
      "loss": 3.9405,
      "step": 101470
    },
    {
      "epoch": 0.21141666666666667,
      "grad_norm": 0.8872655630111694,
      "learning_rate": 0.0002690649891734813,
      "loss": 3.9516,
      "step": 101480
    },
    {
      "epoch": 0.2114375,
      "grad_norm": 0.8197237849235535,
      "learning_rate": 0.0002690589927218842,
      "loss": 3.8783,
      "step": 101490
    },
    {
      "epoch": 0.21145833333333333,
      "grad_norm": 0.727516233921051,
      "learning_rate": 0.00026905299575599945,
      "loss": 3.7657,
      "step": 101500
    },
    {
      "epoch": 0.21147916666666666,
      "grad_norm": 0.7150389552116394,
      "learning_rate": 0.0002690469982758528,
      "loss": 4.0368,
      "step": 101510
    },
    {
      "epoch": 0.2115,
      "grad_norm": 0.7241448163986206,
      "learning_rate": 0.0002690410002814703,
      "loss": 4.0007,
      "step": 101520
    },
    {
      "epoch": 0.21152083333333332,
      "grad_norm": 0.7516583800315857,
      "learning_rate": 0.0002690350017728778,
      "loss": 3.7458,
      "step": 101530
    },
    {
      "epoch": 0.21154166666666666,
      "grad_norm": 0.6799235939979553,
      "learning_rate": 0.0002690290027501012,
      "loss": 4.0149,
      "step": 101540
    },
    {
      "epoch": 0.2115625,
      "grad_norm": 0.8281518220901489,
      "learning_rate": 0.0002690230032131664,
      "loss": 4.0347,
      "step": 101550
    },
    {
      "epoch": 0.21158333333333335,
      "grad_norm": 0.7532950043678284,
      "learning_rate": 0.00026901700316209936,
      "loss": 4.0255,
      "step": 101560
    },
    {
      "epoch": 0.21160416666666668,
      "grad_norm": 0.87919020652771,
      "learning_rate": 0.0002690110025969259,
      "loss": 3.9045,
      "step": 101570
    },
    {
      "epoch": 0.211625,
      "grad_norm": 0.7727704644203186,
      "learning_rate": 0.00026900500151767217,
      "loss": 3.8065,
      "step": 101580
    },
    {
      "epoch": 0.21164583333333334,
      "grad_norm": 0.7319427728652954,
      "learning_rate": 0.0002689989999243638,
      "loss": 3.9018,
      "step": 101590
    },
    {
      "epoch": 0.21166666666666667,
      "grad_norm": 0.8042263984680176,
      "learning_rate": 0.00026899299781702694,
      "loss": 3.9037,
      "step": 101600
    },
    {
      "epoch": 0.2116875,
      "grad_norm": 0.785496711730957,
      "learning_rate": 0.0002689869951956874,
      "loss": 3.9505,
      "step": 101610
    },
    {
      "epoch": 0.21170833333333333,
      "grad_norm": 0.7060412764549255,
      "learning_rate": 0.0002689809920603711,
      "loss": 3.8536,
      "step": 101620
    },
    {
      "epoch": 0.21172916666666666,
      "grad_norm": 0.8036321997642517,
      "learning_rate": 0.00026897498841110405,
      "loss": 3.8078,
      "step": 101630
    },
    {
      "epoch": 0.21175,
      "grad_norm": 0.7490014433860779,
      "learning_rate": 0.00026896898424791214,
      "loss": 3.8779,
      "step": 101640
    },
    {
      "epoch": 0.21177083333333332,
      "grad_norm": 0.7449133992195129,
      "learning_rate": 0.00026896297957082135,
      "loss": 4.0354,
      "step": 101650
    },
    {
      "epoch": 0.21179166666666666,
      "grad_norm": 0.7575647830963135,
      "learning_rate": 0.0002689569743798575,
      "loss": 3.8706,
      "step": 101660
    },
    {
      "epoch": 0.2118125,
      "grad_norm": 0.6808041334152222,
      "learning_rate": 0.00026895096867504665,
      "loss": 3.776,
      "step": 101670
    },
    {
      "epoch": 0.21183333333333335,
      "grad_norm": 0.705390214920044,
      "learning_rate": 0.0002689449624564147,
      "loss": 3.8117,
      "step": 101680
    },
    {
      "epoch": 0.21185416666666668,
      "grad_norm": 0.7704113125801086,
      "learning_rate": 0.0002689389557239876,
      "loss": 3.7795,
      "step": 101690
    },
    {
      "epoch": 0.211875,
      "grad_norm": 0.8617448806762695,
      "learning_rate": 0.00026893294847779125,
      "loss": 3.8507,
      "step": 101700
    },
    {
      "epoch": 0.21189583333333334,
      "grad_norm": 0.9044981002807617,
      "learning_rate": 0.00026892694071785166,
      "loss": 4.0114,
      "step": 101710
    },
    {
      "epoch": 0.21191666666666667,
      "grad_norm": 0.8212941288948059,
      "learning_rate": 0.0002689209324441948,
      "loss": 4.0032,
      "step": 101720
    },
    {
      "epoch": 0.2119375,
      "grad_norm": 0.917941153049469,
      "learning_rate": 0.0002689149236568465,
      "loss": 3.9251,
      "step": 101730
    },
    {
      "epoch": 0.21195833333333333,
      "grad_norm": 0.7857261896133423,
      "learning_rate": 0.00026890891435583285,
      "loss": 3.8619,
      "step": 101740
    },
    {
      "epoch": 0.21197916666666666,
      "grad_norm": 1.1743850708007812,
      "learning_rate": 0.00026890290454117976,
      "loss": 3.992,
      "step": 101750
    },
    {
      "epoch": 0.212,
      "grad_norm": 0.8144389390945435,
      "learning_rate": 0.0002688968942129132,
      "loss": 4.0246,
      "step": 101760
    },
    {
      "epoch": 0.21202083333333333,
      "grad_norm": 0.827150821685791,
      "learning_rate": 0.0002688908833710591,
      "loss": 4.0306,
      "step": 101770
    },
    {
      "epoch": 0.21204166666666666,
      "grad_norm": 0.7052580118179321,
      "learning_rate": 0.00026888487201564345,
      "loss": 3.9917,
      "step": 101780
    },
    {
      "epoch": 0.2120625,
      "grad_norm": 0.8677448630332947,
      "learning_rate": 0.0002688788601466922,
      "loss": 3.9206,
      "step": 101790
    },
    {
      "epoch": 0.21208333333333335,
      "grad_norm": 0.6731429696083069,
      "learning_rate": 0.00026887284776423134,
      "loss": 3.8156,
      "step": 101800
    },
    {
      "epoch": 0.21210416666666668,
      "grad_norm": 0.8419640064239502,
      "learning_rate": 0.00026886683486828685,
      "loss": 3.755,
      "step": 101810
    },
    {
      "epoch": 0.212125,
      "grad_norm": 0.8198195099830627,
      "learning_rate": 0.00026886082145888464,
      "loss": 3.8881,
      "step": 101820
    },
    {
      "epoch": 0.21214583333333334,
      "grad_norm": 0.8400870561599731,
      "learning_rate": 0.0002688548075360508,
      "loss": 3.9401,
      "step": 101830
    },
    {
      "epoch": 0.21216666666666667,
      "grad_norm": 0.7324418425559998,
      "learning_rate": 0.00026884879309981116,
      "loss": 4.0222,
      "step": 101840
    },
    {
      "epoch": 0.2121875,
      "grad_norm": 0.7792113423347473,
      "learning_rate": 0.00026884277815019184,
      "loss": 4.0837,
      "step": 101850
    },
    {
      "epoch": 0.21220833333333333,
      "grad_norm": 0.8094585537910461,
      "learning_rate": 0.0002688367626872187,
      "loss": 3.8978,
      "step": 101860
    },
    {
      "epoch": 0.21222916666666666,
      "grad_norm": 0.6523857712745667,
      "learning_rate": 0.00026883074671091783,
      "loss": 3.9772,
      "step": 101870
    },
    {
      "epoch": 0.21225,
      "grad_norm": 0.7404894232749939,
      "learning_rate": 0.00026882473022131514,
      "loss": 3.9345,
      "step": 101880
    },
    {
      "epoch": 0.21227083333333333,
      "grad_norm": 0.7448127269744873,
      "learning_rate": 0.00026881871321843666,
      "loss": 3.9813,
      "step": 101890
    },
    {
      "epoch": 0.21229166666666666,
      "grad_norm": 0.8063109517097473,
      "learning_rate": 0.00026881269570230837,
      "loss": 3.8895,
      "step": 101900
    },
    {
      "epoch": 0.2123125,
      "grad_norm": 0.7606075406074524,
      "learning_rate": 0.0002688066776729563,
      "loss": 3.9711,
      "step": 101910
    },
    {
      "epoch": 0.21233333333333335,
      "grad_norm": 0.7763221263885498,
      "learning_rate": 0.0002688006591304063,
      "loss": 3.7966,
      "step": 101920
    },
    {
      "epoch": 0.21235416666666668,
      "grad_norm": 0.9131444692611694,
      "learning_rate": 0.00026879464007468465,
      "loss": 3.9333,
      "step": 101930
    },
    {
      "epoch": 0.212375,
      "grad_norm": 0.7246547937393188,
      "learning_rate": 0.00026878862050581703,
      "loss": 3.6485,
      "step": 101940
    },
    {
      "epoch": 0.21239583333333334,
      "grad_norm": 0.8146539926528931,
      "learning_rate": 0.00026878260042382965,
      "loss": 4.0253,
      "step": 101950
    },
    {
      "epoch": 0.21241666666666667,
      "grad_norm": 0.7101246118545532,
      "learning_rate": 0.0002687765798287484,
      "loss": 3.8005,
      "step": 101960
    },
    {
      "epoch": 0.2124375,
      "grad_norm": 0.7135463953018188,
      "learning_rate": 0.0002687705587205994,
      "loss": 3.9231,
      "step": 101970
    },
    {
      "epoch": 0.21245833333333333,
      "grad_norm": 0.7801119089126587,
      "learning_rate": 0.00026876453709940857,
      "loss": 3.8731,
      "step": 101980
    },
    {
      "epoch": 0.21247916666666666,
      "grad_norm": 0.7425222992897034,
      "learning_rate": 0.000268758514965202,
      "loss": 4.0029,
      "step": 101990
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.7243941426277161,
      "learning_rate": 0.0002687524923180056,
      "loss": 3.9541,
      "step": 102000
    },
    {
      "epoch": 0.2125,
      "eval_loss": 4.257933139801025,
      "eval_runtime": 10.5741,
      "eval_samples_per_second": 0.946,
      "eval_steps_per_second": 0.284,
      "step": 102000
    },
    {
      "epoch": 0.21252083333333333,
      "grad_norm": 0.7978315949440002,
      "learning_rate": 0.0002687464691578455,
      "loss": 3.92,
      "step": 102010
    },
    {
      "epoch": 0.21254166666666666,
      "grad_norm": 0.681343138217926,
      "learning_rate": 0.00026874044548474757,
      "loss": 4.0246,
      "step": 102020
    },
    {
      "epoch": 0.2125625,
      "grad_norm": 0.7588603496551514,
      "learning_rate": 0.000268734421298738,
      "loss": 3.916,
      "step": 102030
    },
    {
      "epoch": 0.21258333333333335,
      "grad_norm": 0.8589641451835632,
      "learning_rate": 0.0002687283965998426,
      "loss": 4.0735,
      "step": 102040
    },
    {
      "epoch": 0.21260416666666668,
      "grad_norm": 0.7631565928459167,
      "learning_rate": 0.00026872237138808765,
      "loss": 4.1029,
      "step": 102050
    },
    {
      "epoch": 0.212625,
      "grad_norm": 0.8590434789657593,
      "learning_rate": 0.000268716345663499,
      "loss": 3.9569,
      "step": 102060
    },
    {
      "epoch": 0.21264583333333334,
      "grad_norm": 0.838293731212616,
      "learning_rate": 0.0002687103194261028,
      "loss": 4.0072,
      "step": 102070
    },
    {
      "epoch": 0.21266666666666667,
      "grad_norm": 0.7529684901237488,
      "learning_rate": 0.00026870429267592487,
      "loss": 3.817,
      "step": 102080
    },
    {
      "epoch": 0.2126875,
      "grad_norm": 0.7946373224258423,
      "learning_rate": 0.00026869826541299144,
      "loss": 3.8726,
      "step": 102090
    },
    {
      "epoch": 0.21270833333333333,
      "grad_norm": 0.9467531442642212,
      "learning_rate": 0.00026869223763732855,
      "loss": 3.9858,
      "step": 102100
    },
    {
      "epoch": 0.21272916666666666,
      "grad_norm": 0.7930809855461121,
      "learning_rate": 0.0002686862093489621,
      "loss": 3.9987,
      "step": 102110
    },
    {
      "epoch": 0.21275,
      "grad_norm": 0.761275589466095,
      "learning_rate": 0.00026868018054791823,
      "loss": 4.1218,
      "step": 102120
    },
    {
      "epoch": 0.21277083333333333,
      "grad_norm": 0.7149988412857056,
      "learning_rate": 0.000268674151234223,
      "loss": 4.0132,
      "step": 102130
    },
    {
      "epoch": 0.21279166666666666,
      "grad_norm": 0.8866239190101624,
      "learning_rate": 0.00026866812140790235,
      "loss": 4.0156,
      "step": 102140
    },
    {
      "epoch": 0.2128125,
      "grad_norm": 0.7645127773284912,
      "learning_rate": 0.00026866209106898246,
      "loss": 3.8962,
      "step": 102150
    },
    {
      "epoch": 0.21283333333333335,
      "grad_norm": 0.7490736246109009,
      "learning_rate": 0.0002686560602174892,
      "loss": 3.9405,
      "step": 102160
    },
    {
      "epoch": 0.21285416666666668,
      "grad_norm": 0.7333042621612549,
      "learning_rate": 0.0002686500288534488,
      "loss": 3.8867,
      "step": 102170
    },
    {
      "epoch": 0.212875,
      "grad_norm": 0.7217627167701721,
      "learning_rate": 0.0002686439969768872,
      "loss": 3.927,
      "step": 102180
    },
    {
      "epoch": 0.21289583333333334,
      "grad_norm": 0.7511118054389954,
      "learning_rate": 0.00026863796458783057,
      "loss": 3.8395,
      "step": 102190
    },
    {
      "epoch": 0.21291666666666667,
      "grad_norm": 0.76315838098526,
      "learning_rate": 0.0002686319316863048,
      "loss": 4.1199,
      "step": 102200
    },
    {
      "epoch": 0.2129375,
      "grad_norm": 0.873668909072876,
      "learning_rate": 0.0002686258982723361,
      "loss": 3.9224,
      "step": 102210
    },
    {
      "epoch": 0.21295833333333333,
      "grad_norm": 0.6979446411132812,
      "learning_rate": 0.00026861986434595044,
      "loss": 3.9083,
      "step": 102220
    },
    {
      "epoch": 0.21297916666666666,
      "grad_norm": 0.7413837909698486,
      "learning_rate": 0.00026861382990717397,
      "loss": 3.8842,
      "step": 102230
    },
    {
      "epoch": 0.213,
      "grad_norm": 0.7603200674057007,
      "learning_rate": 0.00026860779495603267,
      "loss": 3.8725,
      "step": 102240
    },
    {
      "epoch": 0.21302083333333333,
      "grad_norm": 0.8010658025741577,
      "learning_rate": 0.0002686017594925526,
      "loss": 3.8885,
      "step": 102250
    },
    {
      "epoch": 0.21304166666666666,
      "grad_norm": 0.8114608526229858,
      "learning_rate": 0.00026859572351675996,
      "loss": 4.0786,
      "step": 102260
    },
    {
      "epoch": 0.2130625,
      "grad_norm": 0.7454273104667664,
      "learning_rate": 0.0002685896870286807,
      "loss": 3.8122,
      "step": 102270
    },
    {
      "epoch": 0.21308333333333335,
      "grad_norm": 0.7505452632904053,
      "learning_rate": 0.00026858365002834097,
      "loss": 3.8651,
      "step": 102280
    },
    {
      "epoch": 0.21310416666666668,
      "grad_norm": 0.6873261332511902,
      "learning_rate": 0.0002685776125157667,
      "loss": 3.869,
      "step": 102290
    },
    {
      "epoch": 0.213125,
      "grad_norm": 0.7360709309577942,
      "learning_rate": 0.0002685715744909842,
      "loss": 3.8295,
      "step": 102300
    },
    {
      "epoch": 0.21314583333333334,
      "grad_norm": 0.7566107511520386,
      "learning_rate": 0.00026856553595401935,
      "loss": 3.956,
      "step": 102310
    },
    {
      "epoch": 0.21316666666666667,
      "grad_norm": 0.7553548216819763,
      "learning_rate": 0.0002685594969048984,
      "loss": 3.989,
      "step": 102320
    },
    {
      "epoch": 0.2131875,
      "grad_norm": 0.7375275492668152,
      "learning_rate": 0.00026855345734364726,
      "loss": 3.9449,
      "step": 102330
    },
    {
      "epoch": 0.21320833333333333,
      "grad_norm": 0.9017612338066101,
      "learning_rate": 0.0002685474172702922,
      "loss": 3.8942,
      "step": 102340
    },
    {
      "epoch": 0.21322916666666666,
      "grad_norm": 0.764139711856842,
      "learning_rate": 0.00026854137668485916,
      "loss": 3.8897,
      "step": 102350
    },
    {
      "epoch": 0.21325,
      "grad_norm": 0.7723730206489563,
      "learning_rate": 0.0002685353355873743,
      "loss": 3.9012,
      "step": 102360
    },
    {
      "epoch": 0.21327083333333333,
      "grad_norm": 0.6823552846908569,
      "learning_rate": 0.00026852929397786374,
      "loss": 3.9441,
      "step": 102370
    },
    {
      "epoch": 0.21329166666666666,
      "grad_norm": 0.7374151349067688,
      "learning_rate": 0.00026852325185635354,
      "loss": 3.8815,
      "step": 102380
    },
    {
      "epoch": 0.2133125,
      "grad_norm": 0.7097358107566833,
      "learning_rate": 0.0002685172092228698,
      "loss": 3.9217,
      "step": 102390
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.9499896764755249,
      "learning_rate": 0.0002685111660774386,
      "loss": 3.9072,
      "step": 102400
    },
    {
      "epoch": 0.21335416666666668,
      "grad_norm": 0.7470501661300659,
      "learning_rate": 0.0002685051224200861,
      "loss": 3.8578,
      "step": 102410
    },
    {
      "epoch": 0.213375,
      "grad_norm": 0.7761180996894836,
      "learning_rate": 0.0002684990782508384,
      "loss": 4.0244,
      "step": 102420
    },
    {
      "epoch": 0.21339583333333334,
      "grad_norm": 0.8002363443374634,
      "learning_rate": 0.0002684930335697215,
      "loss": 3.873,
      "step": 102430
    },
    {
      "epoch": 0.21341666666666667,
      "grad_norm": 0.8261585235595703,
      "learning_rate": 0.00026848698837676175,
      "loss": 4.1082,
      "step": 102440
    },
    {
      "epoch": 0.2134375,
      "grad_norm": 0.79581618309021,
      "learning_rate": 0.000268480942671985,
      "loss": 3.9881,
      "step": 102450
    },
    {
      "epoch": 0.21345833333333333,
      "grad_norm": 1.0859493017196655,
      "learning_rate": 0.0002684748964554175,
      "loss": 3.9886,
      "step": 102460
    },
    {
      "epoch": 0.21347916666666666,
      "grad_norm": 0.8346890211105347,
      "learning_rate": 0.00026846884972708536,
      "loss": 4.0271,
      "step": 102470
    },
    {
      "epoch": 0.2135,
      "grad_norm": 0.6516628265380859,
      "learning_rate": 0.00026846280248701463,
      "loss": 3.9529,
      "step": 102480
    },
    {
      "epoch": 0.21352083333333333,
      "grad_norm": 0.8331006765365601,
      "learning_rate": 0.00026845675473523154,
      "loss": 3.9675,
      "step": 102490
    },
    {
      "epoch": 0.21354166666666666,
      "grad_norm": 0.7599084973335266,
      "learning_rate": 0.0002684507064717621,
      "loss": 3.9758,
      "step": 102500
    },
    {
      "epoch": 0.2135625,
      "grad_norm": 0.7038829326629639,
      "learning_rate": 0.0002684446576966325,
      "loss": 3.898,
      "step": 102510
    },
    {
      "epoch": 0.21358333333333332,
      "grad_norm": 0.7360091209411621,
      "learning_rate": 0.00026843860840986895,
      "loss": 3.8368,
      "step": 102520
    },
    {
      "epoch": 0.21360416666666668,
      "grad_norm": 0.7361437678337097,
      "learning_rate": 0.00026843255861149737,
      "loss": 4.0167,
      "step": 102530
    },
    {
      "epoch": 0.213625,
      "grad_norm": 0.9330411553382874,
      "learning_rate": 0.00026842650830154413,
      "loss": 4.0012,
      "step": 102540
    },
    {
      "epoch": 0.21364583333333334,
      "grad_norm": 0.8259146213531494,
      "learning_rate": 0.0002684204574800352,
      "loss": 3.9611,
      "step": 102550
    },
    {
      "epoch": 0.21366666666666667,
      "grad_norm": 0.6997962594032288,
      "learning_rate": 0.0002684144061469968,
      "loss": 3.9073,
      "step": 102560
    },
    {
      "epoch": 0.2136875,
      "grad_norm": 0.9808492064476013,
      "learning_rate": 0.000268408354302455,
      "loss": 3.8694,
      "step": 102570
    },
    {
      "epoch": 0.21370833333333333,
      "grad_norm": 0.8506420850753784,
      "learning_rate": 0.00026840230194643595,
      "loss": 3.8944,
      "step": 102580
    },
    {
      "epoch": 0.21372916666666666,
      "grad_norm": 0.7658294439315796,
      "learning_rate": 0.00026839624907896585,
      "loss": 3.7559,
      "step": 102590
    },
    {
      "epoch": 0.21375,
      "grad_norm": 0.7188820242881775,
      "learning_rate": 0.0002683901957000708,
      "loss": 3.9622,
      "step": 102600
    },
    {
      "epoch": 0.21377083333333333,
      "grad_norm": 0.6906453371047974,
      "learning_rate": 0.000268384141809777,
      "loss": 3.721,
      "step": 102610
    },
    {
      "epoch": 0.21379166666666666,
      "grad_norm": 0.7976897358894348,
      "learning_rate": 0.0002683780874081106,
      "loss": 3.8533,
      "step": 102620
    },
    {
      "epoch": 0.2138125,
      "grad_norm": 0.821456789970398,
      "learning_rate": 0.00026837203249509766,
      "loss": 4.0668,
      "step": 102630
    },
    {
      "epoch": 0.21383333333333332,
      "grad_norm": 0.7323678135871887,
      "learning_rate": 0.00026836597707076437,
      "loss": 3.8987,
      "step": 102640
    },
    {
      "epoch": 0.21385416666666668,
      "grad_norm": 0.846759557723999,
      "learning_rate": 0.00026835992113513705,
      "loss": 4.096,
      "step": 102650
    },
    {
      "epoch": 0.213875,
      "grad_norm": 0.7387557625770569,
      "learning_rate": 0.00026835386468824156,
      "loss": 3.9384,
      "step": 102660
    },
    {
      "epoch": 0.21389583333333334,
      "grad_norm": 0.8009338974952698,
      "learning_rate": 0.0002683478077301043,
      "loss": 3.7237,
      "step": 102670
    },
    {
      "epoch": 0.21391666666666667,
      "grad_norm": 0.7991369962692261,
      "learning_rate": 0.0002683417502607513,
      "loss": 4.1183,
      "step": 102680
    },
    {
      "epoch": 0.2139375,
      "grad_norm": 0.7126520276069641,
      "learning_rate": 0.0002683356922802089,
      "loss": 3.7857,
      "step": 102690
    },
    {
      "epoch": 0.21395833333333333,
      "grad_norm": 0.689676821231842,
      "learning_rate": 0.00026832963378850306,
      "loss": 3.8488,
      "step": 102700
    },
    {
      "epoch": 0.21397916666666666,
      "grad_norm": 0.8616625666618347,
      "learning_rate": 0.00026832357478566004,
      "loss": 3.9005,
      "step": 102710
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.8223869800567627,
      "learning_rate": 0.000268317515271706,
      "loss": 3.9147,
      "step": 102720
    },
    {
      "epoch": 0.21402083333333333,
      "grad_norm": 0.7108721733093262,
      "learning_rate": 0.00026831145524666716,
      "loss": 3.7697,
      "step": 102730
    },
    {
      "epoch": 0.21404166666666666,
      "grad_norm": 0.7605945467948914,
      "learning_rate": 0.00026830539471056966,
      "loss": 3.8239,
      "step": 102740
    },
    {
      "epoch": 0.2140625,
      "grad_norm": 0.776104211807251,
      "learning_rate": 0.0002682993336634397,
      "loss": 3.9029,
      "step": 102750
    },
    {
      "epoch": 0.21408333333333332,
      "grad_norm": 0.9401202201843262,
      "learning_rate": 0.0002682932721053035,
      "loss": 3.9727,
      "step": 102760
    },
    {
      "epoch": 0.21410416666666668,
      "grad_norm": 0.7934325933456421,
      "learning_rate": 0.00026828721003618704,
      "loss": 4.1223,
      "step": 102770
    },
    {
      "epoch": 0.214125,
      "grad_norm": 0.6608116626739502,
      "learning_rate": 0.00026828114745611675,
      "loss": 3.7889,
      "step": 102780
    },
    {
      "epoch": 0.21414583333333334,
      "grad_norm": 0.714304506778717,
      "learning_rate": 0.0002682750843651187,
      "loss": 3.9216,
      "step": 102790
    },
    {
      "epoch": 0.21416666666666667,
      "grad_norm": 0.8999590277671814,
      "learning_rate": 0.00026826902076321907,
      "loss": 4.0489,
      "step": 102800
    },
    {
      "epoch": 0.2141875,
      "grad_norm": 0.7042125463485718,
      "learning_rate": 0.00026826295665044415,
      "loss": 3.9472,
      "step": 102810
    },
    {
      "epoch": 0.21420833333333333,
      "grad_norm": 0.698754608631134,
      "learning_rate": 0.00026825689202682,
      "loss": 3.7831,
      "step": 102820
    },
    {
      "epoch": 0.21422916666666666,
      "grad_norm": 0.7814480066299438,
      "learning_rate": 0.000268250826892373,
      "loss": 4.0915,
      "step": 102830
    },
    {
      "epoch": 0.21425,
      "grad_norm": 0.7854883074760437,
      "learning_rate": 0.0002682447612471291,
      "loss": 4.0275,
      "step": 102840
    },
    {
      "epoch": 0.21427083333333333,
      "grad_norm": 0.6874034404754639,
      "learning_rate": 0.00026823869509111473,
      "loss": 3.886,
      "step": 102850
    },
    {
      "epoch": 0.21429166666666666,
      "grad_norm": 0.6771194338798523,
      "learning_rate": 0.00026823262842435593,
      "loss": 3.7821,
      "step": 102860
    },
    {
      "epoch": 0.2143125,
      "grad_norm": 0.8384600281715393,
      "learning_rate": 0.00026822656124687904,
      "loss": 3.972,
      "step": 102870
    },
    {
      "epoch": 0.21433333333333332,
      "grad_norm": 0.6740886569023132,
      "learning_rate": 0.00026822049355871013,
      "loss": 3.9947,
      "step": 102880
    },
    {
      "epoch": 0.21435416666666668,
      "grad_norm": 0.884361207485199,
      "learning_rate": 0.00026821442535987554,
      "loss": 3.7558,
      "step": 102890
    },
    {
      "epoch": 0.214375,
      "grad_norm": 0.7294917106628418,
      "learning_rate": 0.0002682083566504014,
      "loss": 4.0087,
      "step": 102900
    },
    {
      "epoch": 0.21439583333333334,
      "grad_norm": 0.7637292146682739,
      "learning_rate": 0.00026820228743031397,
      "loss": 3.9769,
      "step": 102910
    },
    {
      "epoch": 0.21441666666666667,
      "grad_norm": 0.74226975440979,
      "learning_rate": 0.00026819621769963946,
      "loss": 3.975,
      "step": 102920
    },
    {
      "epoch": 0.2144375,
      "grad_norm": 0.6588453054428101,
      "learning_rate": 0.000268190147458404,
      "loss": 4.0354,
      "step": 102930
    },
    {
      "epoch": 0.21445833333333333,
      "grad_norm": 0.8250126242637634,
      "learning_rate": 0.00026818407670663397,
      "loss": 3.9471,
      "step": 102940
    },
    {
      "epoch": 0.21447916666666667,
      "grad_norm": 0.8836731314659119,
      "learning_rate": 0.00026817800544435546,
      "loss": 3.966,
      "step": 102950
    },
    {
      "epoch": 0.2145,
      "grad_norm": 0.6795853972434998,
      "learning_rate": 0.0002681719336715948,
      "loss": 3.9269,
      "step": 102960
    },
    {
      "epoch": 0.21452083333333333,
      "grad_norm": 0.9713950157165527,
      "learning_rate": 0.00026816586138837806,
      "loss": 3.8463,
      "step": 102970
    },
    {
      "epoch": 0.21454166666666666,
      "grad_norm": 0.7444133758544922,
      "learning_rate": 0.00026815978859473164,
      "loss": 3.8646,
      "step": 102980
    },
    {
      "epoch": 0.2145625,
      "grad_norm": 0.7613767385482788,
      "learning_rate": 0.0002681537152906817,
      "loss": 4.0952,
      "step": 102990
    },
    {
      "epoch": 0.21458333333333332,
      "grad_norm": 0.7502779364585876,
      "learning_rate": 0.0002681476414762545,
      "loss": 3.838,
      "step": 103000
    },
    {
      "epoch": 0.21458333333333332,
      "eval_loss": 4.260862827301025,
      "eval_runtime": 10.4569,
      "eval_samples_per_second": 0.956,
      "eval_steps_per_second": 0.287,
      "step": 103000
    },
    {
      "epoch": 0.21460416666666668,
      "grad_norm": 0.6982792615890503,
      "learning_rate": 0.00026814156715147623,
      "loss": 3.9598,
      "step": 103010
    },
    {
      "epoch": 0.214625,
      "grad_norm": 0.7814749479293823,
      "learning_rate": 0.00026813549231637313,
      "loss": 3.7586,
      "step": 103020
    },
    {
      "epoch": 0.21464583333333334,
      "grad_norm": 0.8365145921707153,
      "learning_rate": 0.0002681294169709715,
      "loss": 3.8582,
      "step": 103030
    },
    {
      "epoch": 0.21466666666666667,
      "grad_norm": 0.8170823454856873,
      "learning_rate": 0.0002681233411152975,
      "loss": 3.9467,
      "step": 103040
    },
    {
      "epoch": 0.2146875,
      "grad_norm": 0.8920000791549683,
      "learning_rate": 0.0002681172647493775,
      "loss": 3.7777,
      "step": 103050
    },
    {
      "epoch": 0.21470833333333333,
      "grad_norm": 0.85231614112854,
      "learning_rate": 0.0002681111878732376,
      "loss": 3.8396,
      "step": 103060
    },
    {
      "epoch": 0.21472916666666667,
      "grad_norm": 0.717993438243866,
      "learning_rate": 0.00026810511048690417,
      "loss": 3.9329,
      "step": 103070
    },
    {
      "epoch": 0.21475,
      "grad_norm": 0.7576789855957031,
      "learning_rate": 0.0002680990325904034,
      "loss": 3.8043,
      "step": 103080
    },
    {
      "epoch": 0.21477083333333333,
      "grad_norm": 0.8052340149879456,
      "learning_rate": 0.0002680929541837615,
      "loss": 3.8089,
      "step": 103090
    },
    {
      "epoch": 0.21479166666666666,
      "grad_norm": 0.6904061436653137,
      "learning_rate": 0.0002680868752670049,
      "loss": 3.8332,
      "step": 103100
    },
    {
      "epoch": 0.2148125,
      "grad_norm": 0.7217944264411926,
      "learning_rate": 0.00026808079584015964,
      "loss": 3.8662,
      "step": 103110
    },
    {
      "epoch": 0.21483333333333332,
      "grad_norm": 0.8178644180297852,
      "learning_rate": 0.0002680747159032521,
      "loss": 3.8935,
      "step": 103120
    },
    {
      "epoch": 0.21485416666666668,
      "grad_norm": 0.6505054831504822,
      "learning_rate": 0.0002680686354563085,
      "loss": 3.9768,
      "step": 103130
    },
    {
      "epoch": 0.214875,
      "grad_norm": 0.8037826418876648,
      "learning_rate": 0.0002680625544993552,
      "loss": 3.9203,
      "step": 103140
    },
    {
      "epoch": 0.21489583333333334,
      "grad_norm": 0.7412013411521912,
      "learning_rate": 0.0002680564730324184,
      "loss": 3.948,
      "step": 103150
    },
    {
      "epoch": 0.21491666666666667,
      "grad_norm": 0.7569954991340637,
      "learning_rate": 0.0002680503910555243,
      "loss": 3.9984,
      "step": 103160
    },
    {
      "epoch": 0.2149375,
      "grad_norm": 0.7454707622528076,
      "learning_rate": 0.00026804430856869924,
      "loss": 3.7551,
      "step": 103170
    },
    {
      "epoch": 0.21495833333333333,
      "grad_norm": 0.7634373903274536,
      "learning_rate": 0.00026803822557196953,
      "loss": 3.9429,
      "step": 103180
    },
    {
      "epoch": 0.21497916666666667,
      "grad_norm": 0.7058666944503784,
      "learning_rate": 0.0002680321420653614,
      "loss": 4.0497,
      "step": 103190
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.7659200429916382,
      "learning_rate": 0.0002680260580489012,
      "loss": 3.9494,
      "step": 103200
    },
    {
      "epoch": 0.21502083333333333,
      "grad_norm": 0.8120572566986084,
      "learning_rate": 0.000268019973522615,
      "loss": 3.7899,
      "step": 103210
    },
    {
      "epoch": 0.21504166666666666,
      "grad_norm": 0.8189850449562073,
      "learning_rate": 0.00026801388848652935,
      "loss": 3.8968,
      "step": 103220
    },
    {
      "epoch": 0.2150625,
      "grad_norm": 0.7041645646095276,
      "learning_rate": 0.00026800780294067034,
      "loss": 3.8132,
      "step": 103230
    },
    {
      "epoch": 0.21508333333333332,
      "grad_norm": 0.7610019445419312,
      "learning_rate": 0.0002680017168850644,
      "loss": 4.0651,
      "step": 103240
    },
    {
      "epoch": 0.21510416666666668,
      "grad_norm": 0.8385465741157532,
      "learning_rate": 0.00026799563031973774,
      "loss": 4.0106,
      "step": 103250
    },
    {
      "epoch": 0.215125,
      "grad_norm": 0.754497766494751,
      "learning_rate": 0.0002679895432447166,
      "loss": 3.9309,
      "step": 103260
    },
    {
      "epoch": 0.21514583333333334,
      "grad_norm": 0.7783034443855286,
      "learning_rate": 0.0002679834556600274,
      "loss": 3.9577,
      "step": 103270
    },
    {
      "epoch": 0.21516666666666667,
      "grad_norm": 0.7606397271156311,
      "learning_rate": 0.0002679773675656964,
      "loss": 3.9848,
      "step": 103280
    },
    {
      "epoch": 0.2151875,
      "grad_norm": 0.77164226770401,
      "learning_rate": 0.0002679712789617498,
      "loss": 3.8466,
      "step": 103290
    },
    {
      "epoch": 0.21520833333333333,
      "grad_norm": 0.801077127456665,
      "learning_rate": 0.00026796518984821397,
      "loss": 3.8626,
      "step": 103300
    },
    {
      "epoch": 0.21522916666666667,
      "grad_norm": 0.8006694316864014,
      "learning_rate": 0.0002679591002251152,
      "loss": 3.8977,
      "step": 103310
    },
    {
      "epoch": 0.21525,
      "grad_norm": 0.7246871590614319,
      "learning_rate": 0.0002679530100924799,
      "loss": 3.8405,
      "step": 103320
    },
    {
      "epoch": 0.21527083333333333,
      "grad_norm": 0.7989106178283691,
      "learning_rate": 0.0002679469194503342,
      "loss": 3.8341,
      "step": 103330
    },
    {
      "epoch": 0.21529166666666666,
      "grad_norm": 1.6239168643951416,
      "learning_rate": 0.0002679408282987045,
      "loss": 4.0622,
      "step": 103340
    },
    {
      "epoch": 0.2153125,
      "grad_norm": 0.9158325791358948,
      "learning_rate": 0.00026793473663761717,
      "loss": 3.9563,
      "step": 103350
    },
    {
      "epoch": 0.21533333333333332,
      "grad_norm": 0.6992232799530029,
      "learning_rate": 0.0002679286444670984,
      "loss": 3.7751,
      "step": 103360
    },
    {
      "epoch": 0.21535416666666668,
      "grad_norm": 0.7879667282104492,
      "learning_rate": 0.00026792255178717463,
      "loss": 3.9625,
      "step": 103370
    },
    {
      "epoch": 0.215375,
      "grad_norm": 0.7148048281669617,
      "learning_rate": 0.00026791645859787207,
      "loss": 3.9527,
      "step": 103380
    },
    {
      "epoch": 0.21539583333333334,
      "grad_norm": 0.7951317429542542,
      "learning_rate": 0.00026791036489921707,
      "loss": 3.921,
      "step": 103390
    },
    {
      "epoch": 0.21541666666666667,
      "grad_norm": 0.7236343622207642,
      "learning_rate": 0.000267904270691236,
      "loss": 3.9359,
      "step": 103400
    },
    {
      "epoch": 0.2154375,
      "grad_norm": 0.7318707704544067,
      "learning_rate": 0.0002678981759739551,
      "loss": 3.8841,
      "step": 103410
    },
    {
      "epoch": 0.21545833333333334,
      "grad_norm": 0.774462103843689,
      "learning_rate": 0.0002678920807474008,
      "loss": 3.9174,
      "step": 103420
    },
    {
      "epoch": 0.21547916666666667,
      "grad_norm": 0.8632633090019226,
      "learning_rate": 0.00026788598501159935,
      "loss": 3.8909,
      "step": 103430
    },
    {
      "epoch": 0.2155,
      "grad_norm": 0.7106120586395264,
      "learning_rate": 0.0002678798887665771,
      "loss": 3.9104,
      "step": 103440
    },
    {
      "epoch": 0.21552083333333333,
      "grad_norm": 0.7379701137542725,
      "learning_rate": 0.00026787379201236044,
      "loss": 3.9152,
      "step": 103450
    },
    {
      "epoch": 0.21554166666666666,
      "grad_norm": 0.7571840882301331,
      "learning_rate": 0.00026786769474897556,
      "loss": 3.9346,
      "step": 103460
    },
    {
      "epoch": 0.2155625,
      "grad_norm": 0.6822111010551453,
      "learning_rate": 0.000267861596976449,
      "loss": 3.8323,
      "step": 103470
    },
    {
      "epoch": 0.21558333333333332,
      "grad_norm": 0.7523879408836365,
      "learning_rate": 0.0002678554986948069,
      "loss": 3.8893,
      "step": 103480
    },
    {
      "epoch": 0.21560416666666668,
      "grad_norm": 0.7549329996109009,
      "learning_rate": 0.00026784939990407575,
      "loss": 3.8454,
      "step": 103490
    },
    {
      "epoch": 0.215625,
      "grad_norm": 0.6732136011123657,
      "learning_rate": 0.00026784330060428184,
      "loss": 3.92,
      "step": 103500
    },
    {
      "epoch": 0.21564583333333334,
      "grad_norm": 0.7138423323631287,
      "learning_rate": 0.0002678372007954515,
      "loss": 3.766,
      "step": 103510
    },
    {
      "epoch": 0.21566666666666667,
      "grad_norm": 0.653668224811554,
      "learning_rate": 0.0002678311004776111,
      "loss": 4.0385,
      "step": 103520
    },
    {
      "epoch": 0.2156875,
      "grad_norm": 0.8782212138175964,
      "learning_rate": 0.000267824999650787,
      "loss": 3.8297,
      "step": 103530
    },
    {
      "epoch": 0.21570833333333334,
      "grad_norm": 0.7806443572044373,
      "learning_rate": 0.00026781889831500557,
      "loss": 3.7766,
      "step": 103540
    },
    {
      "epoch": 0.21572916666666667,
      "grad_norm": 0.7511743307113647,
      "learning_rate": 0.00026781279647029307,
      "loss": 3.9426,
      "step": 103550
    },
    {
      "epoch": 0.21575,
      "grad_norm": 0.7026357054710388,
      "learning_rate": 0.00026780669411667596,
      "loss": 3.8873,
      "step": 103560
    },
    {
      "epoch": 0.21577083333333333,
      "grad_norm": 0.8051574230194092,
      "learning_rate": 0.00026780059125418055,
      "loss": 3.8866,
      "step": 103570
    },
    {
      "epoch": 0.21579166666666666,
      "grad_norm": 0.8536532521247864,
      "learning_rate": 0.0002677944878828332,
      "loss": 3.9817,
      "step": 103580
    },
    {
      "epoch": 0.2158125,
      "grad_norm": 0.7482403516769409,
      "learning_rate": 0.0002677883840026603,
      "loss": 3.9137,
      "step": 103590
    },
    {
      "epoch": 0.21583333333333332,
      "grad_norm": 0.948333203792572,
      "learning_rate": 0.0002677822796136882,
      "loss": 3.9617,
      "step": 103600
    },
    {
      "epoch": 0.21585416666666668,
      "grad_norm": 0.7991553544998169,
      "learning_rate": 0.00026777617471594327,
      "loss": 3.7469,
      "step": 103610
    },
    {
      "epoch": 0.215875,
      "grad_norm": 0.8696415424346924,
      "learning_rate": 0.0002677700693094519,
      "loss": 3.8768,
      "step": 103620
    },
    {
      "epoch": 0.21589583333333334,
      "grad_norm": 0.8170913457870483,
      "learning_rate": 0.0002677639633942405,
      "loss": 3.8417,
      "step": 103630
    },
    {
      "epoch": 0.21591666666666667,
      "grad_norm": 0.7533899545669556,
      "learning_rate": 0.00026775785697033533,
      "loss": 3.8518,
      "step": 103640
    },
    {
      "epoch": 0.2159375,
      "grad_norm": 0.773405909538269,
      "learning_rate": 0.00026775175003776285,
      "loss": 3.8078,
      "step": 103650
    },
    {
      "epoch": 0.21595833333333334,
      "grad_norm": 0.7714802026748657,
      "learning_rate": 0.0002677456425965494,
      "loss": 3.8635,
      "step": 103660
    },
    {
      "epoch": 0.21597916666666667,
      "grad_norm": 0.7386381030082703,
      "learning_rate": 0.00026773953464672134,
      "loss": 3.9024,
      "step": 103670
    },
    {
      "epoch": 0.216,
      "grad_norm": 0.7434378266334534,
      "learning_rate": 0.00026773342618830517,
      "loss": 3.9514,
      "step": 103680
    },
    {
      "epoch": 0.21602083333333333,
      "grad_norm": 0.7749361991882324,
      "learning_rate": 0.00026772731722132716,
      "loss": 3.891,
      "step": 103690
    },
    {
      "epoch": 0.21604166666666666,
      "grad_norm": 0.7133052349090576,
      "learning_rate": 0.0002677212077458138,
      "loss": 3.8808,
      "step": 103700
    },
    {
      "epoch": 0.2160625,
      "grad_norm": 0.7226802110671997,
      "learning_rate": 0.0002677150977617913,
      "loss": 4.0399,
      "step": 103710
    },
    {
      "epoch": 0.21608333333333332,
      "grad_norm": 0.7969832420349121,
      "learning_rate": 0.0002677089872692863,
      "loss": 3.8664,
      "step": 103720
    },
    {
      "epoch": 0.21610416666666668,
      "grad_norm": 0.7299691438674927,
      "learning_rate": 0.00026770287626832497,
      "loss": 3.8752,
      "step": 103730
    },
    {
      "epoch": 0.216125,
      "grad_norm": 0.8858870267868042,
      "learning_rate": 0.0002676967647589339,
      "loss": 4.0339,
      "step": 103740
    },
    {
      "epoch": 0.21614583333333334,
      "grad_norm": 0.711050271987915,
      "learning_rate": 0.0002676906527411393,
      "loss": 3.8653,
      "step": 103750
    },
    {
      "epoch": 0.21616666666666667,
      "grad_norm": 0.7966354489326477,
      "learning_rate": 0.0002676845402149677,
      "loss": 3.9269,
      "step": 103760
    },
    {
      "epoch": 0.2161875,
      "grad_norm": 0.6632649898529053,
      "learning_rate": 0.00026767842718044546,
      "loss": 3.9883,
      "step": 103770
    },
    {
      "epoch": 0.21620833333333334,
      "grad_norm": 0.7212406396865845,
      "learning_rate": 0.00026767231363759907,
      "loss": 3.8808,
      "step": 103780
    },
    {
      "epoch": 0.21622916666666667,
      "grad_norm": 0.754252016544342,
      "learning_rate": 0.0002676661995864548,
      "loss": 3.9677,
      "step": 103790
    },
    {
      "epoch": 0.21625,
      "grad_norm": 0.7198277711868286,
      "learning_rate": 0.00026766008502703914,
      "loss": 3.9638,
      "step": 103800
    },
    {
      "epoch": 0.21627083333333333,
      "grad_norm": 0.7945812940597534,
      "learning_rate": 0.00026765396995937846,
      "loss": 3.9757,
      "step": 103810
    },
    {
      "epoch": 0.21629166666666666,
      "grad_norm": 0.7051178216934204,
      "learning_rate": 0.0002676478543834992,
      "loss": 3.8648,
      "step": 103820
    },
    {
      "epoch": 0.2163125,
      "grad_norm": 0.8302850127220154,
      "learning_rate": 0.0002676417382994278,
      "loss": 3.8902,
      "step": 103830
    },
    {
      "epoch": 0.21633333333333332,
      "grad_norm": 1.052733302116394,
      "learning_rate": 0.0002676356217071906,
      "loss": 3.9098,
      "step": 103840
    },
    {
      "epoch": 0.21635416666666665,
      "grad_norm": 0.8028723001480103,
      "learning_rate": 0.00026762950460681415,
      "loss": 3.9258,
      "step": 103850
    },
    {
      "epoch": 0.216375,
      "grad_norm": 0.7772068977355957,
      "learning_rate": 0.00026762338699832475,
      "loss": 3.7869,
      "step": 103860
    },
    {
      "epoch": 0.21639583333333334,
      "grad_norm": 0.781239926815033,
      "learning_rate": 0.00026761726888174895,
      "loss": 3.9336,
      "step": 103870
    },
    {
      "epoch": 0.21641666666666667,
      "grad_norm": 0.8122050762176514,
      "learning_rate": 0.000267611150257113,
      "loss": 3.9407,
      "step": 103880
    },
    {
      "epoch": 0.2164375,
      "grad_norm": 0.7631456851959229,
      "learning_rate": 0.00026760503112444354,
      "loss": 4.1303,
      "step": 103890
    },
    {
      "epoch": 0.21645833333333334,
      "grad_norm": 0.7108595967292786,
      "learning_rate": 0.00026759891148376685,
      "loss": 4.0887,
      "step": 103900
    },
    {
      "epoch": 0.21647916666666667,
      "grad_norm": 0.6934673190116882,
      "learning_rate": 0.0002675927913351094,
      "loss": 3.7694,
      "step": 103910
    },
    {
      "epoch": 0.2165,
      "grad_norm": 0.7208923697471619,
      "learning_rate": 0.00026758667067849765,
      "loss": 3.8423,
      "step": 103920
    },
    {
      "epoch": 0.21652083333333333,
      "grad_norm": 0.7249716520309448,
      "learning_rate": 0.000267580549513958,
      "loss": 3.882,
      "step": 103930
    },
    {
      "epoch": 0.21654166666666666,
      "grad_norm": 0.7159674167633057,
      "learning_rate": 0.00026757442784151696,
      "loss": 3.8892,
      "step": 103940
    },
    {
      "epoch": 0.2165625,
      "grad_norm": 0.7205800414085388,
      "learning_rate": 0.00026756830566120087,
      "loss": 3.7883,
      "step": 103950
    },
    {
      "epoch": 0.21658333333333332,
      "grad_norm": 0.7518658638000488,
      "learning_rate": 0.0002675621829730363,
      "loss": 4.0217,
      "step": 103960
    },
    {
      "epoch": 0.21660416666666665,
      "grad_norm": 0.7917511463165283,
      "learning_rate": 0.00026755605977704964,
      "loss": 3.8776,
      "step": 103970
    },
    {
      "epoch": 0.216625,
      "grad_norm": 0.8439042568206787,
      "learning_rate": 0.0002675499360732673,
      "loss": 3.942,
      "step": 103980
    },
    {
      "epoch": 0.21664583333333334,
      "grad_norm": 0.8198758363723755,
      "learning_rate": 0.00026754381186171574,
      "loss": 3.8107,
      "step": 103990
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 0.7065703272819519,
      "learning_rate": 0.0002675376871424215,
      "loss": 3.8423,
      "step": 104000
    },
    {
      "epoch": 0.21666666666666667,
      "eval_loss": 4.274416923522949,
      "eval_runtime": 12.4571,
      "eval_samples_per_second": 0.803,
      "eval_steps_per_second": 0.241,
      "step": 104000
    },
    {
      "epoch": 0.2166875,
      "grad_norm": 0.7423152327537537,
      "learning_rate": 0.00026753156191541095,
      "loss": 3.9345,
      "step": 104010
    },
    {
      "epoch": 0.21670833333333334,
      "grad_norm": 0.7986307740211487,
      "learning_rate": 0.0002675254361807106,
      "loss": 3.9252,
      "step": 104020
    },
    {
      "epoch": 0.21672916666666667,
      "grad_norm": 0.9137560129165649,
      "learning_rate": 0.0002675193099383468,
      "loss": 3.9921,
      "step": 104030
    },
    {
      "epoch": 0.21675,
      "grad_norm": 0.8167948722839355,
      "learning_rate": 0.0002675131831883462,
      "loss": 3.9545,
      "step": 104040
    },
    {
      "epoch": 0.21677083333333333,
      "grad_norm": 0.791115403175354,
      "learning_rate": 0.00026750705593073514,
      "loss": 3.8376,
      "step": 104050
    },
    {
      "epoch": 0.21679166666666666,
      "grad_norm": 0.8448063731193542,
      "learning_rate": 0.00026750092816554003,
      "loss": 4.0255,
      "step": 104060
    },
    {
      "epoch": 0.2168125,
      "grad_norm": 0.7388009428977966,
      "learning_rate": 0.00026749479989278754,
      "loss": 4.0163,
      "step": 104070
    },
    {
      "epoch": 0.21683333333333332,
      "grad_norm": 0.782379150390625,
      "learning_rate": 0.0002674886711125039,
      "loss": 3.9002,
      "step": 104080
    },
    {
      "epoch": 0.21685416666666665,
      "grad_norm": 0.697393536567688,
      "learning_rate": 0.0002674825418247158,
      "loss": 3.8552,
      "step": 104090
    },
    {
      "epoch": 0.216875,
      "grad_norm": 0.7120442986488342,
      "learning_rate": 0.0002674764120294496,
      "loss": 4.0263,
      "step": 104100
    },
    {
      "epoch": 0.21689583333333334,
      "grad_norm": 0.8131166100502014,
      "learning_rate": 0.00026747028172673175,
      "loss": 3.8023,
      "step": 104110
    },
    {
      "epoch": 0.21691666666666667,
      "grad_norm": 0.7342423796653748,
      "learning_rate": 0.0002674641509165889,
      "loss": 4.049,
      "step": 104120
    },
    {
      "epoch": 0.2169375,
      "grad_norm": 0.806699275970459,
      "learning_rate": 0.00026745801959904725,
      "loss": 3.7946,
      "step": 104130
    },
    {
      "epoch": 0.21695833333333334,
      "grad_norm": 0.7331568002700806,
      "learning_rate": 0.0002674518877741336,
      "loss": 3.8278,
      "step": 104140
    },
    {
      "epoch": 0.21697916666666667,
      "grad_norm": 0.7831412553787231,
      "learning_rate": 0.0002674457554418742,
      "loss": 4.0529,
      "step": 104150
    },
    {
      "epoch": 0.217,
      "grad_norm": 0.7117398977279663,
      "learning_rate": 0.00026743962260229563,
      "loss": 3.9099,
      "step": 104160
    },
    {
      "epoch": 0.21702083333333333,
      "grad_norm": 0.6962454915046692,
      "learning_rate": 0.00026743348925542445,
      "loss": 4.0312,
      "step": 104170
    },
    {
      "epoch": 0.21704166666666666,
      "grad_norm": 0.6746824383735657,
      "learning_rate": 0.000267427355401287,
      "loss": 3.925,
      "step": 104180
    },
    {
      "epoch": 0.2170625,
      "grad_norm": 0.9637673497200012,
      "learning_rate": 0.00026742122103990985,
      "loss": 3.9378,
      "step": 104190
    },
    {
      "epoch": 0.21708333333333332,
      "grad_norm": 0.8229334950447083,
      "learning_rate": 0.00026741508617131955,
      "loss": 4.0395,
      "step": 104200
    },
    {
      "epoch": 0.21710416666666665,
      "grad_norm": 0.7581438422203064,
      "learning_rate": 0.0002674089507955425,
      "loss": 3.8309,
      "step": 104210
    },
    {
      "epoch": 0.217125,
      "grad_norm": 0.849983274936676,
      "learning_rate": 0.0002674028149126053,
      "loss": 3.8995,
      "step": 104220
    },
    {
      "epoch": 0.21714583333333334,
      "grad_norm": 0.6840772032737732,
      "learning_rate": 0.0002673966785225344,
      "loss": 4.0081,
      "step": 104230
    },
    {
      "epoch": 0.21716666666666667,
      "grad_norm": 0.8355234861373901,
      "learning_rate": 0.0002673905416253563,
      "loss": 3.9356,
      "step": 104240
    },
    {
      "epoch": 0.2171875,
      "grad_norm": 0.7818974852561951,
      "learning_rate": 0.0002673844042210976,
      "loss": 4.0173,
      "step": 104250
    },
    {
      "epoch": 0.21720833333333334,
      "grad_norm": 0.7823631167411804,
      "learning_rate": 0.00026737826630978464,
      "loss": 3.9927,
      "step": 104260
    },
    {
      "epoch": 0.21722916666666667,
      "grad_norm": 0.8428428769111633,
      "learning_rate": 0.0002673721278914441,
      "loss": 3.8545,
      "step": 104270
    },
    {
      "epoch": 0.21725,
      "grad_norm": 0.7690878510475159,
      "learning_rate": 0.0002673659889661024,
      "loss": 4.0338,
      "step": 104280
    },
    {
      "epoch": 0.21727083333333333,
      "grad_norm": 0.7697757482528687,
      "learning_rate": 0.0002673598495337861,
      "loss": 4.1381,
      "step": 104290
    },
    {
      "epoch": 0.21729166666666666,
      "grad_norm": 0.7954941391944885,
      "learning_rate": 0.00026735370959452166,
      "loss": 3.7662,
      "step": 104300
    },
    {
      "epoch": 0.2173125,
      "grad_norm": 0.8215659856796265,
      "learning_rate": 0.0002673475691483357,
      "loss": 3.8771,
      "step": 104310
    },
    {
      "epoch": 0.21733333333333332,
      "grad_norm": 0.8557404279708862,
      "learning_rate": 0.00026734142819525463,
      "loss": 3.9002,
      "step": 104320
    },
    {
      "epoch": 0.21735416666666665,
      "grad_norm": 0.8209974765777588,
      "learning_rate": 0.0002673352867353051,
      "loss": 3.9765,
      "step": 104330
    },
    {
      "epoch": 0.217375,
      "grad_norm": 0.8450025320053101,
      "learning_rate": 0.00026732914476851354,
      "loss": 3.8594,
      "step": 104340
    },
    {
      "epoch": 0.21739583333333334,
      "grad_norm": 0.9227427840232849,
      "learning_rate": 0.00026732300229490654,
      "loss": 4.0199,
      "step": 104350
    },
    {
      "epoch": 0.21741666666666667,
      "grad_norm": 0.7749657034873962,
      "learning_rate": 0.0002673168593145106,
      "loss": 3.8585,
      "step": 104360
    },
    {
      "epoch": 0.2174375,
      "grad_norm": 0.7021118402481079,
      "learning_rate": 0.00026731071582735224,
      "loss": 3.773,
      "step": 104370
    },
    {
      "epoch": 0.21745833333333334,
      "grad_norm": 0.8828438520431519,
      "learning_rate": 0.0002673045718334581,
      "loss": 3.8008,
      "step": 104380
    },
    {
      "epoch": 0.21747916666666667,
      "grad_norm": 0.7635529041290283,
      "learning_rate": 0.00026729842733285456,
      "loss": 4.0125,
      "step": 104390
    },
    {
      "epoch": 0.2175,
      "grad_norm": 0.7537969350814819,
      "learning_rate": 0.0002672922823255682,
      "loss": 4.0364,
      "step": 104400
    },
    {
      "epoch": 0.21752083333333333,
      "grad_norm": 0.826253354549408,
      "learning_rate": 0.0002672861368116257,
      "loss": 3.8463,
      "step": 104410
    },
    {
      "epoch": 0.21754166666666666,
      "grad_norm": 0.761141836643219,
      "learning_rate": 0.0002672799907910535,
      "loss": 4.0086,
      "step": 104420
    },
    {
      "epoch": 0.2175625,
      "grad_norm": 0.7776395082473755,
      "learning_rate": 0.00026727384426387816,
      "loss": 4.0605,
      "step": 104430
    },
    {
      "epoch": 0.21758333333333332,
      "grad_norm": 0.7577017545700073,
      "learning_rate": 0.00026726769723012624,
      "loss": 3.9474,
      "step": 104440
    },
    {
      "epoch": 0.21760416666666665,
      "grad_norm": 0.6962851285934448,
      "learning_rate": 0.00026726154968982423,
      "loss": 3.8337,
      "step": 104450
    },
    {
      "epoch": 0.217625,
      "grad_norm": 0.7821736931800842,
      "learning_rate": 0.0002672554016429988,
      "loss": 3.8815,
      "step": 104460
    },
    {
      "epoch": 0.21764583333333334,
      "grad_norm": 0.7570845484733582,
      "learning_rate": 0.00026724925308967644,
      "loss": 3.9793,
      "step": 104470
    },
    {
      "epoch": 0.21766666666666667,
      "grad_norm": 0.7696646451950073,
      "learning_rate": 0.00026724310402988374,
      "loss": 3.9362,
      "step": 104480
    },
    {
      "epoch": 0.2176875,
      "grad_norm": 1.0080870389938354,
      "learning_rate": 0.00026723695446364724,
      "loss": 3.9891,
      "step": 104490
    },
    {
      "epoch": 0.21770833333333334,
      "grad_norm": 0.7530809640884399,
      "learning_rate": 0.00026723080439099346,
      "loss": 3.8873,
      "step": 104500
    },
    {
      "epoch": 0.21772916666666667,
      "grad_norm": 0.9744793772697449,
      "learning_rate": 0.000267224653811949,
      "loss": 4.0277,
      "step": 104510
    },
    {
      "epoch": 0.21775,
      "grad_norm": 0.7277044653892517,
      "learning_rate": 0.00026721850272654047,
      "loss": 3.9071,
      "step": 104520
    },
    {
      "epoch": 0.21777083333333333,
      "grad_norm": 0.778976559638977,
      "learning_rate": 0.0002672123511347944,
      "loss": 3.9885,
      "step": 104530
    },
    {
      "epoch": 0.21779166666666666,
      "grad_norm": 0.7113878130912781,
      "learning_rate": 0.0002672061990367373,
      "loss": 3.8071,
      "step": 104540
    },
    {
      "epoch": 0.2178125,
      "grad_norm": 0.7919794321060181,
      "learning_rate": 0.0002672000464323959,
      "loss": 3.9251,
      "step": 104550
    },
    {
      "epoch": 0.21783333333333332,
      "grad_norm": 0.7412070631980896,
      "learning_rate": 0.0002671938933217966,
      "loss": 3.8941,
      "step": 104560
    },
    {
      "epoch": 0.21785416666666665,
      "grad_norm": 0.7718671560287476,
      "learning_rate": 0.00026718773970496617,
      "loss": 4.0387,
      "step": 104570
    },
    {
      "epoch": 0.217875,
      "grad_norm": 0.7874016165733337,
      "learning_rate": 0.0002671815855819311,
      "loss": 3.8588,
      "step": 104580
    },
    {
      "epoch": 0.21789583333333334,
      "grad_norm": 0.7471857070922852,
      "learning_rate": 0.0002671754309527179,
      "loss": 3.8398,
      "step": 104590
    },
    {
      "epoch": 0.21791666666666668,
      "grad_norm": 0.809622049331665,
      "learning_rate": 0.0002671692758173532,
      "loss": 3.8368,
      "step": 104600
    },
    {
      "epoch": 0.2179375,
      "grad_norm": 0.7267488837242126,
      "learning_rate": 0.0002671631201758637,
      "loss": 3.974,
      "step": 104610
    },
    {
      "epoch": 0.21795833333333334,
      "grad_norm": 0.9010500907897949,
      "learning_rate": 0.00026715696402827583,
      "loss": 3.7927,
      "step": 104620
    },
    {
      "epoch": 0.21797916666666667,
      "grad_norm": 0.696721076965332,
      "learning_rate": 0.00026715080737461623,
      "loss": 3.855,
      "step": 104630
    },
    {
      "epoch": 0.218,
      "grad_norm": 0.8063490390777588,
      "learning_rate": 0.0002671446502149115,
      "loss": 3.892,
      "step": 104640
    },
    {
      "epoch": 0.21802083333333333,
      "grad_norm": 0.8231057524681091,
      "learning_rate": 0.00026713849254918833,
      "loss": 3.6312,
      "step": 104650
    },
    {
      "epoch": 0.21804166666666666,
      "grad_norm": 0.7074212431907654,
      "learning_rate": 0.0002671323343774732,
      "loss": 3.8466,
      "step": 104660
    },
    {
      "epoch": 0.2180625,
      "grad_norm": 0.6711615324020386,
      "learning_rate": 0.00026712617569979273,
      "loss": 3.8507,
      "step": 104670
    },
    {
      "epoch": 0.21808333333333332,
      "grad_norm": 0.7008763551712036,
      "learning_rate": 0.0002671200165161736,
      "loss": 3.8425,
      "step": 104680
    },
    {
      "epoch": 0.21810416666666665,
      "grad_norm": 0.81549471616745,
      "learning_rate": 0.0002671138568266423,
      "loss": 3.7309,
      "step": 104690
    },
    {
      "epoch": 0.218125,
      "grad_norm": 0.7578418254852295,
      "learning_rate": 0.00026710769663122557,
      "loss": 3.9151,
      "step": 104700
    },
    {
      "epoch": 0.21814583333333334,
      "grad_norm": 0.7082387208938599,
      "learning_rate": 0.0002671015359299499,
      "loss": 3.9013,
      "step": 104710
    },
    {
      "epoch": 0.21816666666666668,
      "grad_norm": 0.9113315939903259,
      "learning_rate": 0.0002670953747228419,
      "loss": 3.8836,
      "step": 104720
    },
    {
      "epoch": 0.2181875,
      "grad_norm": 0.8651805520057678,
      "learning_rate": 0.0002670892130099283,
      "loss": 4.0695,
      "step": 104730
    },
    {
      "epoch": 0.21820833333333334,
      "grad_norm": 0.8003982901573181,
      "learning_rate": 0.00026708305079123563,
      "loss": 3.8118,
      "step": 104740
    },
    {
      "epoch": 0.21822916666666667,
      "grad_norm": 0.9467316269874573,
      "learning_rate": 0.0002670768880667905,
      "loss": 4.0595,
      "step": 104750
    },
    {
      "epoch": 0.21825,
      "grad_norm": 0.7686951756477356,
      "learning_rate": 0.00026707072483661955,
      "loss": 4.0011,
      "step": 104760
    },
    {
      "epoch": 0.21827083333333333,
      "grad_norm": 0.7373315095901489,
      "learning_rate": 0.00026706456110074943,
      "loss": 3.7876,
      "step": 104770
    },
    {
      "epoch": 0.21829166666666666,
      "grad_norm": 0.7608977556228638,
      "learning_rate": 0.00026705839685920677,
      "loss": 4.0293,
      "step": 104780
    },
    {
      "epoch": 0.2183125,
      "grad_norm": 0.7952674031257629,
      "learning_rate": 0.0002670522321120181,
      "loss": 3.9461,
      "step": 104790
    },
    {
      "epoch": 0.21833333333333332,
      "grad_norm": 0.656443178653717,
      "learning_rate": 0.0002670460668592102,
      "loss": 4.0416,
      "step": 104800
    },
    {
      "epoch": 0.21835416666666665,
      "grad_norm": 0.8711400032043457,
      "learning_rate": 0.0002670399011008096,
      "loss": 4.0224,
      "step": 104810
    },
    {
      "epoch": 0.218375,
      "grad_norm": 0.8473699688911438,
      "learning_rate": 0.0002670337348368429,
      "loss": 3.9552,
      "step": 104820
    },
    {
      "epoch": 0.21839583333333334,
      "grad_norm": 0.8371500968933105,
      "learning_rate": 0.00026702756806733685,
      "loss": 3.8966,
      "step": 104830
    },
    {
      "epoch": 0.21841666666666668,
      "grad_norm": 0.7243757843971252,
      "learning_rate": 0.000267021400792318,
      "loss": 3.9566,
      "step": 104840
    },
    {
      "epoch": 0.2184375,
      "grad_norm": 0.7674323916435242,
      "learning_rate": 0.00026701523301181303,
      "loss": 4.0358,
      "step": 104850
    },
    {
      "epoch": 0.21845833333333334,
      "grad_norm": 0.7585069537162781,
      "learning_rate": 0.00026700906472584856,
      "loss": 3.792,
      "step": 104860
    },
    {
      "epoch": 0.21847916666666667,
      "grad_norm": 0.8280012011528015,
      "learning_rate": 0.00026700289593445126,
      "loss": 3.9146,
      "step": 104870
    },
    {
      "epoch": 0.2185,
      "grad_norm": 0.8288918137550354,
      "learning_rate": 0.00026699672663764776,
      "loss": 3.7976,
      "step": 104880
    },
    {
      "epoch": 0.21852083333333333,
      "grad_norm": 0.7592902779579163,
      "learning_rate": 0.00026699055683546466,
      "loss": 3.958,
      "step": 104890
    },
    {
      "epoch": 0.21854166666666666,
      "grad_norm": 0.6763870716094971,
      "learning_rate": 0.00026698438652792875,
      "loss": 3.9607,
      "step": 104900
    },
    {
      "epoch": 0.2185625,
      "grad_norm": 0.7556689977645874,
      "learning_rate": 0.00026697821571506654,
      "loss": 3.9862,
      "step": 104910
    },
    {
      "epoch": 0.21858333333333332,
      "grad_norm": 0.856159508228302,
      "learning_rate": 0.0002669720443969048,
      "loss": 3.9369,
      "step": 104920
    },
    {
      "epoch": 0.21860416666666665,
      "grad_norm": 0.7842695116996765,
      "learning_rate": 0.00026696587257347005,
      "loss": 3.8061,
      "step": 104930
    },
    {
      "epoch": 0.218625,
      "grad_norm": 0.762103796005249,
      "learning_rate": 0.00026695970024478906,
      "loss": 3.959,
      "step": 104940
    },
    {
      "epoch": 0.21864583333333334,
      "grad_norm": 0.7334314584732056,
      "learning_rate": 0.00026695352741088846,
      "loss": 3.9698,
      "step": 104950
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 0.7618116736412048,
      "learning_rate": 0.0002669473540717949,
      "loss": 3.7954,
      "step": 104960
    },
    {
      "epoch": 0.2186875,
      "grad_norm": 0.7822664380073547,
      "learning_rate": 0.00026694118022753513,
      "loss": 3.8656,
      "step": 104970
    },
    {
      "epoch": 0.21870833333333334,
      "grad_norm": 0.7530372738838196,
      "learning_rate": 0.0002669350058781357,
      "loss": 4.1112,
      "step": 104980
    },
    {
      "epoch": 0.21872916666666667,
      "grad_norm": 0.9639653563499451,
      "learning_rate": 0.00026692883102362333,
      "loss": 3.8474,
      "step": 104990
    },
    {
      "epoch": 0.21875,
      "grad_norm": 1.0002776384353638,
      "learning_rate": 0.00026692265566402465,
      "loss": 3.7543,
      "step": 105000
    },
    {
      "epoch": 0.21875,
      "eval_loss": 4.2600297927856445,
      "eval_runtime": 11.4193,
      "eval_samples_per_second": 0.876,
      "eval_steps_per_second": 0.263,
      "step": 105000
    },
    {
      "epoch": 0.21877083333333333,
      "grad_norm": 0.8150566816329956,
      "learning_rate": 0.00026691647979936643,
      "loss": 3.9516,
      "step": 105010
    },
    {
      "epoch": 0.21879166666666666,
      "grad_norm": 0.8290562033653259,
      "learning_rate": 0.00026691030342967535,
      "loss": 3.845,
      "step": 105020
    },
    {
      "epoch": 0.2188125,
      "grad_norm": 0.8604964017868042,
      "learning_rate": 0.00026690412655497797,
      "loss": 3.805,
      "step": 105030
    },
    {
      "epoch": 0.21883333333333332,
      "grad_norm": 0.7329251170158386,
      "learning_rate": 0.000266897949175301,
      "loss": 3.6805,
      "step": 105040
    },
    {
      "epoch": 0.21885416666666666,
      "grad_norm": 0.6748791933059692,
      "learning_rate": 0.00026689177129067125,
      "loss": 3.8343,
      "step": 105050
    },
    {
      "epoch": 0.218875,
      "grad_norm": 0.8582395911216736,
      "learning_rate": 0.00026688559290111527,
      "loss": 3.7663,
      "step": 105060
    },
    {
      "epoch": 0.21889583333333335,
      "grad_norm": 0.7886938452720642,
      "learning_rate": 0.00026687941400665977,
      "loss": 3.9143,
      "step": 105070
    },
    {
      "epoch": 0.21891666666666668,
      "grad_norm": 0.759994626045227,
      "learning_rate": 0.0002668732346073315,
      "loss": 3.8949,
      "step": 105080
    },
    {
      "epoch": 0.2189375,
      "grad_norm": 0.728993833065033,
      "learning_rate": 0.0002668670547031571,
      "loss": 3.8713,
      "step": 105090
    },
    {
      "epoch": 0.21895833333333334,
      "grad_norm": 0.9658108949661255,
      "learning_rate": 0.0002668608742941633,
      "loss": 3.9185,
      "step": 105100
    },
    {
      "epoch": 0.21897916666666667,
      "grad_norm": 0.8262014985084534,
      "learning_rate": 0.0002668546933803768,
      "loss": 3.9789,
      "step": 105110
    },
    {
      "epoch": 0.219,
      "grad_norm": 0.7392993569374084,
      "learning_rate": 0.0002668485119618242,
      "loss": 3.8367,
      "step": 105120
    },
    {
      "epoch": 0.21902083333333333,
      "grad_norm": 0.7432605624198914,
      "learning_rate": 0.00026684233003853236,
      "loss": 3.882,
      "step": 105130
    },
    {
      "epoch": 0.21904166666666666,
      "grad_norm": 0.7666639685630798,
      "learning_rate": 0.00026683614761052786,
      "loss": 3.9536,
      "step": 105140
    },
    {
      "epoch": 0.2190625,
      "grad_norm": 0.7497982978820801,
      "learning_rate": 0.00026682996467783745,
      "loss": 3.9303,
      "step": 105150
    },
    {
      "epoch": 0.21908333333333332,
      "grad_norm": 0.7865482568740845,
      "learning_rate": 0.0002668237812404879,
      "loss": 3.8498,
      "step": 105160
    },
    {
      "epoch": 0.21910416666666666,
      "grad_norm": 0.7616860270500183,
      "learning_rate": 0.0002668175972985058,
      "loss": 4.0287,
      "step": 105170
    },
    {
      "epoch": 0.219125,
      "grad_norm": 0.71839439868927,
      "learning_rate": 0.0002668114128519179,
      "loss": 3.9839,
      "step": 105180
    },
    {
      "epoch": 0.21914583333333335,
      "grad_norm": 0.7999733090400696,
      "learning_rate": 0.000266805227900751,
      "loss": 3.9214,
      "step": 105190
    },
    {
      "epoch": 0.21916666666666668,
      "grad_norm": 0.7660910487174988,
      "learning_rate": 0.00026679904244503167,
      "loss": 3.9398,
      "step": 105200
    },
    {
      "epoch": 0.2191875,
      "grad_norm": 0.7827932238578796,
      "learning_rate": 0.00026679285648478676,
      "loss": 3.9862,
      "step": 105210
    },
    {
      "epoch": 0.21920833333333334,
      "grad_norm": 0.7547827959060669,
      "learning_rate": 0.00026678667002004295,
      "loss": 4.0437,
      "step": 105220
    },
    {
      "epoch": 0.21922916666666667,
      "grad_norm": 0.9763752818107605,
      "learning_rate": 0.0002667804830508269,
      "loss": 3.773,
      "step": 105230
    },
    {
      "epoch": 0.21925,
      "grad_norm": 0.7883580327033997,
      "learning_rate": 0.00026677429557716545,
      "loss": 3.8381,
      "step": 105240
    },
    {
      "epoch": 0.21927083333333333,
      "grad_norm": 0.8377566337585449,
      "learning_rate": 0.00026676810759908526,
      "loss": 3.7737,
      "step": 105250
    },
    {
      "epoch": 0.21929166666666666,
      "grad_norm": 0.719329297542572,
      "learning_rate": 0.000266761919116613,
      "loss": 3.953,
      "step": 105260
    },
    {
      "epoch": 0.2193125,
      "grad_norm": 0.859813392162323,
      "learning_rate": 0.0002667557301297755,
      "loss": 4.0518,
      "step": 105270
    },
    {
      "epoch": 0.21933333333333332,
      "grad_norm": 0.6758179068565369,
      "learning_rate": 0.00026674954063859947,
      "loss": 4.0481,
      "step": 105280
    },
    {
      "epoch": 0.21935416666666666,
      "grad_norm": 0.7060511708259583,
      "learning_rate": 0.00026674335064311166,
      "loss": 3.8006,
      "step": 105290
    },
    {
      "epoch": 0.219375,
      "grad_norm": 0.7398645877838135,
      "learning_rate": 0.00026673716014333877,
      "loss": 3.8796,
      "step": 105300
    },
    {
      "epoch": 0.21939583333333335,
      "grad_norm": 0.724229097366333,
      "learning_rate": 0.00026673096913930756,
      "loss": 3.9223,
      "step": 105310
    },
    {
      "epoch": 0.21941666666666668,
      "grad_norm": 0.6884937286376953,
      "learning_rate": 0.00026672477763104477,
      "loss": 3.886,
      "step": 105320
    },
    {
      "epoch": 0.2194375,
      "grad_norm": 0.7349305748939514,
      "learning_rate": 0.0002667185856185771,
      "loss": 3.9454,
      "step": 105330
    },
    {
      "epoch": 0.21945833333333334,
      "grad_norm": 0.7666019201278687,
      "learning_rate": 0.0002667123931019314,
      "loss": 3.7856,
      "step": 105340
    },
    {
      "epoch": 0.21947916666666667,
      "grad_norm": 0.6945618987083435,
      "learning_rate": 0.0002667062000811343,
      "loss": 4.0033,
      "step": 105350
    },
    {
      "epoch": 0.2195,
      "grad_norm": 0.7147140502929688,
      "learning_rate": 0.00026670000655621264,
      "loss": 4.1642,
      "step": 105360
    },
    {
      "epoch": 0.21952083333333333,
      "grad_norm": 0.8542624115943909,
      "learning_rate": 0.0002666938125271932,
      "loss": 3.8872,
      "step": 105370
    },
    {
      "epoch": 0.21954166666666666,
      "grad_norm": 0.7031590342521667,
      "learning_rate": 0.0002666876179941026,
      "loss": 4.0464,
      "step": 105380
    },
    {
      "epoch": 0.2195625,
      "grad_norm": 0.771092414855957,
      "learning_rate": 0.0002666814229569677,
      "loss": 3.8151,
      "step": 105390
    },
    {
      "epoch": 0.21958333333333332,
      "grad_norm": 0.712288498878479,
      "learning_rate": 0.00026667522741581525,
      "loss": 4.0759,
      "step": 105400
    },
    {
      "epoch": 0.21960416666666666,
      "grad_norm": 0.7369149923324585,
      "learning_rate": 0.000266669031370672,
      "loss": 3.9501,
      "step": 105410
    },
    {
      "epoch": 0.219625,
      "grad_norm": 0.7684122323989868,
      "learning_rate": 0.0002666628348215647,
      "loss": 4.0854,
      "step": 105420
    },
    {
      "epoch": 0.21964583333333335,
      "grad_norm": 0.7138094305992126,
      "learning_rate": 0.00026665663776852017,
      "loss": 3.9972,
      "step": 105430
    },
    {
      "epoch": 0.21966666666666668,
      "grad_norm": 0.7374135851860046,
      "learning_rate": 0.0002666504402115651,
      "loss": 3.7908,
      "step": 105440
    },
    {
      "epoch": 0.2196875,
      "grad_norm": 0.8267068266868591,
      "learning_rate": 0.0002666442421507263,
      "loss": 3.8005,
      "step": 105450
    },
    {
      "epoch": 0.21970833333333334,
      "grad_norm": 1.0193334817886353,
      "learning_rate": 0.00026663804358603054,
      "loss": 3.7568,
      "step": 105460
    },
    {
      "epoch": 0.21972916666666667,
      "grad_norm": 0.8747304677963257,
      "learning_rate": 0.0002666318445175047,
      "loss": 3.9957,
      "step": 105470
    },
    {
      "epoch": 0.21975,
      "grad_norm": 0.9369239807128906,
      "learning_rate": 0.0002666256449451753,
      "loss": 3.8707,
      "step": 105480
    },
    {
      "epoch": 0.21977083333333333,
      "grad_norm": 0.700725793838501,
      "learning_rate": 0.0002666194448690694,
      "loss": 3.8802,
      "step": 105490
    },
    {
      "epoch": 0.21979166666666666,
      "grad_norm": 0.726491391658783,
      "learning_rate": 0.0002666132442892136,
      "loss": 4.0617,
      "step": 105500
    },
    {
      "epoch": 0.2198125,
      "grad_norm": 0.746843159198761,
      "learning_rate": 0.0002666070432056348,
      "loss": 3.8178,
      "step": 105510
    },
    {
      "epoch": 0.21983333333333333,
      "grad_norm": 0.7673795223236084,
      "learning_rate": 0.00026660084161835967,
      "loss": 3.797,
      "step": 105520
    },
    {
      "epoch": 0.21985416666666666,
      "grad_norm": 0.7605812549591064,
      "learning_rate": 0.00026659463952741506,
      "loss": 3.9315,
      "step": 105530
    },
    {
      "epoch": 0.219875,
      "grad_norm": 0.763658344745636,
      "learning_rate": 0.00026658843693282776,
      "loss": 4.0043,
      "step": 105540
    },
    {
      "epoch": 0.21989583333333335,
      "grad_norm": 0.8275021910667419,
      "learning_rate": 0.0002665822338346246,
      "loss": 3.8891,
      "step": 105550
    },
    {
      "epoch": 0.21991666666666668,
      "grad_norm": 0.7398106455802917,
      "learning_rate": 0.0002665760302328323,
      "loss": 3.8445,
      "step": 105560
    },
    {
      "epoch": 0.2199375,
      "grad_norm": 0.8677472472190857,
      "learning_rate": 0.0002665698261274777,
      "loss": 3.9601,
      "step": 105570
    },
    {
      "epoch": 0.21995833333333334,
      "grad_norm": 0.8173753619194031,
      "learning_rate": 0.0002665636215185876,
      "loss": 3.9152,
      "step": 105580
    },
    {
      "epoch": 0.21997916666666667,
      "grad_norm": 0.7400959730148315,
      "learning_rate": 0.0002665574164061888,
      "loss": 4.0748,
      "step": 105590
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9690905809402466,
      "learning_rate": 0.0002665512107903081,
      "loss": 3.938,
      "step": 105600
    },
    {
      "epoch": 0.22002083333333333,
      "grad_norm": 0.8001475930213928,
      "learning_rate": 0.0002665450046709723,
      "loss": 3.9462,
      "step": 105610
    },
    {
      "epoch": 0.22004166666666666,
      "grad_norm": 0.7573313117027283,
      "learning_rate": 0.00026653879804820817,
      "loss": 3.8258,
      "step": 105620
    },
    {
      "epoch": 0.2200625,
      "grad_norm": 0.8333478569984436,
      "learning_rate": 0.0002665325909220426,
      "loss": 3.9399,
      "step": 105630
    },
    {
      "epoch": 0.22008333333333333,
      "grad_norm": 0.6649231910705566,
      "learning_rate": 0.0002665263832925024,
      "loss": 4.0425,
      "step": 105640
    },
    {
      "epoch": 0.22010416666666666,
      "grad_norm": 0.7845414876937866,
      "learning_rate": 0.00026652017515961426,
      "loss": 3.9934,
      "step": 105650
    },
    {
      "epoch": 0.220125,
      "grad_norm": 0.7115461826324463,
      "learning_rate": 0.00026651396652340516,
      "loss": 3.6655,
      "step": 105660
    },
    {
      "epoch": 0.22014583333333335,
      "grad_norm": 0.7441027760505676,
      "learning_rate": 0.0002665077573839018,
      "loss": 3.906,
      "step": 105670
    },
    {
      "epoch": 0.22016666666666668,
      "grad_norm": 0.8220618963241577,
      "learning_rate": 0.0002665015477411311,
      "loss": 3.8488,
      "step": 105680
    },
    {
      "epoch": 0.2201875,
      "grad_norm": 0.726945161819458,
      "learning_rate": 0.0002664953375951198,
      "loss": 3.8297,
      "step": 105690
    },
    {
      "epoch": 0.22020833333333334,
      "grad_norm": 0.7362468838691711,
      "learning_rate": 0.00026648912694589473,
      "loss": 3.746,
      "step": 105700
    },
    {
      "epoch": 0.22022916666666667,
      "grad_norm": 0.7386288642883301,
      "learning_rate": 0.00026648291579348273,
      "loss": 3.7976,
      "step": 105710
    },
    {
      "epoch": 0.22025,
      "grad_norm": 0.7297850251197815,
      "learning_rate": 0.0002664767041379107,
      "loss": 4.0067,
      "step": 105720
    },
    {
      "epoch": 0.22027083333333333,
      "grad_norm": 0.7793077230453491,
      "learning_rate": 0.00026647049197920536,
      "loss": 3.9055,
      "step": 105730
    },
    {
      "epoch": 0.22029166666666666,
      "grad_norm": 0.7442745566368103,
      "learning_rate": 0.00026646427931739365,
      "loss": 3.8418,
      "step": 105740
    },
    {
      "epoch": 0.2203125,
      "grad_norm": 0.8482430577278137,
      "learning_rate": 0.00026645806615250233,
      "loss": 3.8892,
      "step": 105750
    },
    {
      "epoch": 0.22033333333333333,
      "grad_norm": 0.85197913646698,
      "learning_rate": 0.0002664518524845582,
      "loss": 3.9189,
      "step": 105760
    },
    {
      "epoch": 0.22035416666666666,
      "grad_norm": 0.853791356086731,
      "learning_rate": 0.0002664456383135882,
      "loss": 3.913,
      "step": 105770
    },
    {
      "epoch": 0.220375,
      "grad_norm": 0.719450056552887,
      "learning_rate": 0.0002664394236396192,
      "loss": 3.8338,
      "step": 105780
    },
    {
      "epoch": 0.22039583333333335,
      "grad_norm": 0.768027663230896,
      "learning_rate": 0.0002664332084626779,
      "loss": 4.0376,
      "step": 105790
    },
    {
      "epoch": 0.22041666666666668,
      "grad_norm": 0.7706342339515686,
      "learning_rate": 0.00026642699278279125,
      "loss": 3.8771,
      "step": 105800
    },
    {
      "epoch": 0.2204375,
      "grad_norm": 0.8393242955207825,
      "learning_rate": 0.0002664207765999861,
      "loss": 3.9024,
      "step": 105810
    },
    {
      "epoch": 0.22045833333333334,
      "grad_norm": 0.839827835559845,
      "learning_rate": 0.0002664145599142893,
      "loss": 3.7915,
      "step": 105820
    },
    {
      "epoch": 0.22047916666666667,
      "grad_norm": 0.8493495583534241,
      "learning_rate": 0.0002664083427257276,
      "loss": 4.0486,
      "step": 105830
    },
    {
      "epoch": 0.2205,
      "grad_norm": 0.7559679746627808,
      "learning_rate": 0.000266402125034328,
      "loss": 3.7525,
      "step": 105840
    },
    {
      "epoch": 0.22052083333333333,
      "grad_norm": 0.785567045211792,
      "learning_rate": 0.00026639590684011727,
      "loss": 3.8833,
      "step": 105850
    },
    {
      "epoch": 0.22054166666666666,
      "grad_norm": 0.8014571070671082,
      "learning_rate": 0.0002663896881431223,
      "loss": 3.9134,
      "step": 105860
    },
    {
      "epoch": 0.2205625,
      "grad_norm": 0.7504716515541077,
      "learning_rate": 0.0002663834689433699,
      "loss": 3.8839,
      "step": 105870
    },
    {
      "epoch": 0.22058333333333333,
      "grad_norm": 0.7571702003479004,
      "learning_rate": 0.0002663772492408871,
      "loss": 3.8229,
      "step": 105880
    },
    {
      "epoch": 0.22060416666666666,
      "grad_norm": 0.7657384276390076,
      "learning_rate": 0.00026637102903570055,
      "loss": 3.6461,
      "step": 105890
    },
    {
      "epoch": 0.220625,
      "grad_norm": 0.7977587580680847,
      "learning_rate": 0.00026636480832783723,
      "loss": 3.6772,
      "step": 105900
    },
    {
      "epoch": 0.22064583333333335,
      "grad_norm": 0.7607811093330383,
      "learning_rate": 0.000266358587117324,
      "loss": 3.7536,
      "step": 105910
    },
    {
      "epoch": 0.22066666666666668,
      "grad_norm": 0.7685151696205139,
      "learning_rate": 0.00026635236540418773,
      "loss": 3.9102,
      "step": 105920
    },
    {
      "epoch": 0.2206875,
      "grad_norm": 0.9433813691139221,
      "learning_rate": 0.00026634614318845533,
      "loss": 3.9243,
      "step": 105930
    },
    {
      "epoch": 0.22070833333333334,
      "grad_norm": 0.8997839689254761,
      "learning_rate": 0.00026633992047015364,
      "loss": 3.7783,
      "step": 105940
    },
    {
      "epoch": 0.22072916666666667,
      "grad_norm": 0.7003724575042725,
      "learning_rate": 0.0002663336972493095,
      "loss": 3.772,
      "step": 105950
    },
    {
      "epoch": 0.22075,
      "grad_norm": 0.7610173225402832,
      "learning_rate": 0.0002663274735259499,
      "loss": 3.894,
      "step": 105960
    },
    {
      "epoch": 0.22077083333333333,
      "grad_norm": 0.7154001593589783,
      "learning_rate": 0.0002663212493001016,
      "loss": 3.7608,
      "step": 105970
    },
    {
      "epoch": 0.22079166666666666,
      "grad_norm": 0.751069188117981,
      "learning_rate": 0.0002663150245717916,
      "loss": 3.9089,
      "step": 105980
    },
    {
      "epoch": 0.2208125,
      "grad_norm": 0.7022091150283813,
      "learning_rate": 0.0002663087993410467,
      "loss": 3.7608,
      "step": 105990
    },
    {
      "epoch": 0.22083333333333333,
      "grad_norm": 0.6944957971572876,
      "learning_rate": 0.0002663025736078938,
      "loss": 3.897,
      "step": 106000
    },
    {
      "epoch": 0.22083333333333333,
      "eval_loss": 4.263007164001465,
      "eval_runtime": 11.5851,
      "eval_samples_per_second": 0.863,
      "eval_steps_per_second": 0.259,
      "step": 106000
    },
    {
      "epoch": 0.22085416666666666,
      "grad_norm": 0.7495271563529968,
      "learning_rate": 0.0002662963473723599,
      "loss": 3.9281,
      "step": 106010
    },
    {
      "epoch": 0.220875,
      "grad_norm": 0.9212570190429688,
      "learning_rate": 0.00026629012063447173,
      "loss": 3.8094,
      "step": 106020
    },
    {
      "epoch": 0.22089583333333335,
      "grad_norm": 0.7677696943283081,
      "learning_rate": 0.0002662838933942563,
      "loss": 3.9096,
      "step": 106030
    },
    {
      "epoch": 0.22091666666666668,
      "grad_norm": 0.8192338943481445,
      "learning_rate": 0.0002662776656517405,
      "loss": 3.7621,
      "step": 106040
    },
    {
      "epoch": 0.2209375,
      "grad_norm": 0.767661452293396,
      "learning_rate": 0.00026627143740695115,
      "loss": 4.0155,
      "step": 106050
    },
    {
      "epoch": 0.22095833333333334,
      "grad_norm": 0.782114565372467,
      "learning_rate": 0.00026626520865991526,
      "loss": 3.927,
      "step": 106060
    },
    {
      "epoch": 0.22097916666666667,
      "grad_norm": 0.7513480186462402,
      "learning_rate": 0.00026625897941065974,
      "loss": 3.8428,
      "step": 106070
    },
    {
      "epoch": 0.221,
      "grad_norm": 0.7380729913711548,
      "learning_rate": 0.00026625274965921136,
      "loss": 4.0565,
      "step": 106080
    },
    {
      "epoch": 0.22102083333333333,
      "grad_norm": 0.7644425630569458,
      "learning_rate": 0.00026624651940559713,
      "loss": 3.8958,
      "step": 106090
    },
    {
      "epoch": 0.22104166666666666,
      "grad_norm": 0.7268819808959961,
      "learning_rate": 0.000266240288649844,
      "loss": 3.8689,
      "step": 106100
    },
    {
      "epoch": 0.2210625,
      "grad_norm": 0.9829049110412598,
      "learning_rate": 0.00026623405739197877,
      "loss": 3.8698,
      "step": 106110
    },
    {
      "epoch": 0.22108333333333333,
      "grad_norm": 0.7404220700263977,
      "learning_rate": 0.00026622782563202847,
      "loss": 3.9373,
      "step": 106120
    },
    {
      "epoch": 0.22110416666666666,
      "grad_norm": 0.6607434749603271,
      "learning_rate": 0.00026622159337002,
      "loss": 3.9529,
      "step": 106130
    },
    {
      "epoch": 0.221125,
      "grad_norm": 0.7616944909095764,
      "learning_rate": 0.0002662153606059801,
      "loss": 3.827,
      "step": 106140
    },
    {
      "epoch": 0.22114583333333335,
      "grad_norm": 0.7866303324699402,
      "learning_rate": 0.000266209127339936,
      "loss": 3.9808,
      "step": 106150
    },
    {
      "epoch": 0.22116666666666668,
      "grad_norm": 0.8451835513114929,
      "learning_rate": 0.00026620289357191443,
      "loss": 4.1705,
      "step": 106160
    },
    {
      "epoch": 0.2211875,
      "grad_norm": 0.7590757608413696,
      "learning_rate": 0.0002661966593019423,
      "loss": 3.7789,
      "step": 106170
    },
    {
      "epoch": 0.22120833333333334,
      "grad_norm": 0.7942466139793396,
      "learning_rate": 0.00026619042453004667,
      "loss": 3.8496,
      "step": 106180
    },
    {
      "epoch": 0.22122916666666667,
      "grad_norm": 0.7167297005653381,
      "learning_rate": 0.00026618418925625437,
      "loss": 3.9271,
      "step": 106190
    },
    {
      "epoch": 0.22125,
      "grad_norm": 0.8119813203811646,
      "learning_rate": 0.00026617795348059237,
      "loss": 4.1465,
      "step": 106200
    },
    {
      "epoch": 0.22127083333333333,
      "grad_norm": 0.7014748454093933,
      "learning_rate": 0.00026617171720308755,
      "loss": 3.8074,
      "step": 106210
    },
    {
      "epoch": 0.22129166666666666,
      "grad_norm": 0.7355243563652039,
      "learning_rate": 0.00026616548042376697,
      "loss": 4.0249,
      "step": 106220
    },
    {
      "epoch": 0.2213125,
      "grad_norm": 0.8808769583702087,
      "learning_rate": 0.00026615924314265745,
      "loss": 4.0511,
      "step": 106230
    },
    {
      "epoch": 0.22133333333333333,
      "grad_norm": 0.7928478717803955,
      "learning_rate": 0.00026615300535978595,
      "loss": 3.8143,
      "step": 106240
    },
    {
      "epoch": 0.22135416666666666,
      "grad_norm": 0.6332072615623474,
      "learning_rate": 0.00026614676707517945,
      "loss": 4.0583,
      "step": 106250
    },
    {
      "epoch": 0.221375,
      "grad_norm": 0.8525303602218628,
      "learning_rate": 0.00026614052828886496,
      "loss": 3.954,
      "step": 106260
    },
    {
      "epoch": 0.22139583333333332,
      "grad_norm": 0.7928577065467834,
      "learning_rate": 0.0002661342890008693,
      "loss": 3.7744,
      "step": 106270
    },
    {
      "epoch": 0.22141666666666668,
      "grad_norm": 0.7467909455299377,
      "learning_rate": 0.0002661280492112195,
      "loss": 3.7889,
      "step": 106280
    },
    {
      "epoch": 0.2214375,
      "grad_norm": 0.743579626083374,
      "learning_rate": 0.0002661218089199425,
      "loss": 3.9343,
      "step": 106290
    },
    {
      "epoch": 0.22145833333333334,
      "grad_norm": 0.7375714182853699,
      "learning_rate": 0.00026611556812706523,
      "loss": 3.9651,
      "step": 106300
    },
    {
      "epoch": 0.22147916666666667,
      "grad_norm": 0.9413690567016602,
      "learning_rate": 0.0002661093268326147,
      "loss": 3.7796,
      "step": 106310
    },
    {
      "epoch": 0.2215,
      "grad_norm": 0.7928476929664612,
      "learning_rate": 0.00026610308503661784,
      "loss": 3.9487,
      "step": 106320
    },
    {
      "epoch": 0.22152083333333333,
      "grad_norm": 0.8981952667236328,
      "learning_rate": 0.00026609684273910155,
      "loss": 3.9585,
      "step": 106330
    },
    {
      "epoch": 0.22154166666666666,
      "grad_norm": 0.6752199530601501,
      "learning_rate": 0.0002660905999400929,
      "loss": 3.7719,
      "step": 106340
    },
    {
      "epoch": 0.2215625,
      "grad_norm": 0.8216575980186462,
      "learning_rate": 0.00026608435663961875,
      "loss": 3.9238,
      "step": 106350
    },
    {
      "epoch": 0.22158333333333333,
      "grad_norm": 0.7550071477890015,
      "learning_rate": 0.0002660781128377062,
      "loss": 3.7972,
      "step": 106360
    },
    {
      "epoch": 0.22160416666666666,
      "grad_norm": 0.698108971118927,
      "learning_rate": 0.00026607186853438216,
      "loss": 3.8589,
      "step": 106370
    },
    {
      "epoch": 0.221625,
      "grad_norm": 0.804286539554596,
      "learning_rate": 0.00026606562372967355,
      "loss": 3.8882,
      "step": 106380
    },
    {
      "epoch": 0.22164583333333332,
      "grad_norm": 0.884022057056427,
      "learning_rate": 0.00026605937842360736,
      "loss": 4.0031,
      "step": 106390
    },
    {
      "epoch": 0.22166666666666668,
      "grad_norm": 0.7534272074699402,
      "learning_rate": 0.00026605313261621064,
      "loss": 3.9992,
      "step": 106400
    },
    {
      "epoch": 0.2216875,
      "grad_norm": 0.6922098398208618,
      "learning_rate": 0.00026604688630751033,
      "loss": 3.764,
      "step": 106410
    },
    {
      "epoch": 0.22170833333333334,
      "grad_norm": 0.8696918487548828,
      "learning_rate": 0.00026604063949753337,
      "loss": 3.9052,
      "step": 106420
    },
    {
      "epoch": 0.22172916666666667,
      "grad_norm": 0.8363291025161743,
      "learning_rate": 0.0002660343921863068,
      "loss": 3.9409,
      "step": 106430
    },
    {
      "epoch": 0.22175,
      "grad_norm": 0.8817480206489563,
      "learning_rate": 0.0002660281443738576,
      "loss": 3.9565,
      "step": 106440
    },
    {
      "epoch": 0.22177083333333333,
      "grad_norm": 0.7801922559738159,
      "learning_rate": 0.0002660218960602127,
      "loss": 3.9034,
      "step": 106450
    },
    {
      "epoch": 0.22179166666666666,
      "grad_norm": 0.7722594141960144,
      "learning_rate": 0.0002660156472453992,
      "loss": 3.9085,
      "step": 106460
    },
    {
      "epoch": 0.2218125,
      "grad_norm": 0.8719643950462341,
      "learning_rate": 0.000266009397929444,
      "loss": 4.0434,
      "step": 106470
    },
    {
      "epoch": 0.22183333333333333,
      "grad_norm": 0.7910572290420532,
      "learning_rate": 0.0002660031481123741,
      "loss": 4.0634,
      "step": 106480
    },
    {
      "epoch": 0.22185416666666666,
      "grad_norm": 1.0808076858520508,
      "learning_rate": 0.0002659968977942165,
      "loss": 4.0856,
      "step": 106490
    },
    {
      "epoch": 0.221875,
      "grad_norm": 0.8004506826400757,
      "learning_rate": 0.0002659906469749983,
      "loss": 3.8287,
      "step": 106500
    },
    {
      "epoch": 0.22189583333333332,
      "grad_norm": 0.8332095742225647,
      "learning_rate": 0.0002659843956547463,
      "loss": 3.859,
      "step": 106510
    },
    {
      "epoch": 0.22191666666666668,
      "grad_norm": 0.7841601967811584,
      "learning_rate": 0.0002659781438334877,
      "loss": 3.8558,
      "step": 106520
    },
    {
      "epoch": 0.2219375,
      "grad_norm": 0.7245835661888123,
      "learning_rate": 0.0002659718915112494,
      "loss": 3.8181,
      "step": 106530
    },
    {
      "epoch": 0.22195833333333334,
      "grad_norm": 0.7690312266349792,
      "learning_rate": 0.00026596563868805845,
      "loss": 3.8979,
      "step": 106540
    },
    {
      "epoch": 0.22197916666666667,
      "grad_norm": 0.7009631395339966,
      "learning_rate": 0.00026595938536394184,
      "loss": 3.9225,
      "step": 106550
    },
    {
      "epoch": 0.222,
      "grad_norm": 0.674130916595459,
      "learning_rate": 0.00026595313153892654,
      "loss": 3.9704,
      "step": 106560
    },
    {
      "epoch": 0.22202083333333333,
      "grad_norm": 0.9195488095283508,
      "learning_rate": 0.0002659468772130397,
      "loss": 3.7929,
      "step": 106570
    },
    {
      "epoch": 0.22204166666666666,
      "grad_norm": 0.7544596791267395,
      "learning_rate": 0.00026594062238630817,
      "loss": 3.8474,
      "step": 106580
    },
    {
      "epoch": 0.2220625,
      "grad_norm": 0.9778372645378113,
      "learning_rate": 0.0002659343670587591,
      "loss": 3.6234,
      "step": 106590
    },
    {
      "epoch": 0.22208333333333333,
      "grad_norm": 0.8703648447990417,
      "learning_rate": 0.00026592811123041937,
      "loss": 3.8989,
      "step": 106600
    },
    {
      "epoch": 0.22210416666666666,
      "grad_norm": 0.8328741192817688,
      "learning_rate": 0.00026592185490131615,
      "loss": 3.8533,
      "step": 106610
    },
    {
      "epoch": 0.222125,
      "grad_norm": 0.6787323355674744,
      "learning_rate": 0.00026591559807147643,
      "loss": 3.9707,
      "step": 106620
    },
    {
      "epoch": 0.22214583333333332,
      "grad_norm": 0.7863646745681763,
      "learning_rate": 0.00026590934074092716,
      "loss": 3.966,
      "step": 106630
    },
    {
      "epoch": 0.22216666666666668,
      "grad_norm": 0.7725445628166199,
      "learning_rate": 0.00026590308290969544,
      "loss": 3.9065,
      "step": 106640
    },
    {
      "epoch": 0.2221875,
      "grad_norm": 0.7791009545326233,
      "learning_rate": 0.00026589682457780827,
      "loss": 4.0331,
      "step": 106650
    },
    {
      "epoch": 0.22220833333333334,
      "grad_norm": 0.7611457705497742,
      "learning_rate": 0.0002658905657452927,
      "loss": 3.9234,
      "step": 106660
    },
    {
      "epoch": 0.22222916666666667,
      "grad_norm": 0.8106477856636047,
      "learning_rate": 0.0002658843064121757,
      "loss": 4.0255,
      "step": 106670
    },
    {
      "epoch": 0.22225,
      "grad_norm": 0.7849729657173157,
      "learning_rate": 0.00026587804657848444,
      "loss": 4.0635,
      "step": 106680
    },
    {
      "epoch": 0.22227083333333333,
      "grad_norm": 0.6616964936256409,
      "learning_rate": 0.00026587178624424586,
      "loss": 3.8768,
      "step": 106690
    },
    {
      "epoch": 0.22229166666666667,
      "grad_norm": 0.7264218330383301,
      "learning_rate": 0.000265865525409487,
      "loss": 4.1401,
      "step": 106700
    },
    {
      "epoch": 0.2223125,
      "grad_norm": 0.8588873147964478,
      "learning_rate": 0.000265859264074235,
      "loss": 3.8622,
      "step": 106710
    },
    {
      "epoch": 0.22233333333333333,
      "grad_norm": 0.712618350982666,
      "learning_rate": 0.0002658530022385168,
      "loss": 3.9907,
      "step": 106720
    },
    {
      "epoch": 0.22235416666666666,
      "grad_norm": 0.7516477108001709,
      "learning_rate": 0.0002658467399023595,
      "loss": 3.9207,
      "step": 106730
    },
    {
      "epoch": 0.222375,
      "grad_norm": 0.758374035358429,
      "learning_rate": 0.00026584047706579013,
      "loss": 4.0066,
      "step": 106740
    },
    {
      "epoch": 0.22239583333333332,
      "grad_norm": 0.8018149137496948,
      "learning_rate": 0.00026583421372883574,
      "loss": 3.9142,
      "step": 106750
    },
    {
      "epoch": 0.22241666666666668,
      "grad_norm": 0.7033915519714355,
      "learning_rate": 0.0002658279498915234,
      "loss": 3.9871,
      "step": 106760
    },
    {
      "epoch": 0.2224375,
      "grad_norm": 0.7712659239768982,
      "learning_rate": 0.00026582168555388017,
      "loss": 3.7746,
      "step": 106770
    },
    {
      "epoch": 0.22245833333333334,
      "grad_norm": 1.012284755706787,
      "learning_rate": 0.00026581542071593315,
      "loss": 3.9335,
      "step": 106780
    },
    {
      "epoch": 0.22247916666666667,
      "grad_norm": 0.8726108074188232,
      "learning_rate": 0.0002658091553777093,
      "loss": 3.8852,
      "step": 106790
    },
    {
      "epoch": 0.2225,
      "grad_norm": 0.6966093182563782,
      "learning_rate": 0.0002658028895392357,
      "loss": 3.9296,
      "step": 106800
    },
    {
      "epoch": 0.22252083333333333,
      "grad_norm": 0.7011997103691101,
      "learning_rate": 0.00026579662320053957,
      "loss": 4.0139,
      "step": 106810
    },
    {
      "epoch": 0.22254166666666667,
      "grad_norm": 0.6668365001678467,
      "learning_rate": 0.0002657903563616478,
      "loss": 3.9151,
      "step": 106820
    },
    {
      "epoch": 0.2225625,
      "grad_norm": 0.7497164607048035,
      "learning_rate": 0.0002657840890225875,
      "loss": 3.9849,
      "step": 106830
    },
    {
      "epoch": 0.22258333333333333,
      "grad_norm": 1.9956046342849731,
      "learning_rate": 0.0002657778211833858,
      "loss": 3.8486,
      "step": 106840
    },
    {
      "epoch": 0.22260416666666666,
      "grad_norm": 0.7006537318229675,
      "learning_rate": 0.00026577155284406977,
      "loss": 4.0221,
      "step": 106850
    },
    {
      "epoch": 0.222625,
      "grad_norm": 0.6869621276855469,
      "learning_rate": 0.00026576528400466636,
      "loss": 4.1174,
      "step": 106860
    },
    {
      "epoch": 0.22264583333333332,
      "grad_norm": 0.7424688339233398,
      "learning_rate": 0.0002657590146652028,
      "loss": 3.8777,
      "step": 106870
    },
    {
      "epoch": 0.22266666666666668,
      "grad_norm": 0.6974683403968811,
      "learning_rate": 0.00026575274482570617,
      "loss": 3.9291,
      "step": 106880
    },
    {
      "epoch": 0.2226875,
      "grad_norm": 0.8646669387817383,
      "learning_rate": 0.00026574647448620345,
      "loss": 4.0359,
      "step": 106890
    },
    {
      "epoch": 0.22270833333333334,
      "grad_norm": 0.7763456702232361,
      "learning_rate": 0.00026574020364672176,
      "loss": 3.9785,
      "step": 106900
    },
    {
      "epoch": 0.22272916666666667,
      "grad_norm": 0.7240476608276367,
      "learning_rate": 0.0002657339323072882,
      "loss": 3.7879,
      "step": 106910
    },
    {
      "epoch": 0.22275,
      "grad_norm": 0.8518239259719849,
      "learning_rate": 0.00026572766046792986,
      "loss": 3.8854,
      "step": 106920
    },
    {
      "epoch": 0.22277083333333333,
      "grad_norm": 0.7275566458702087,
      "learning_rate": 0.0002657213881286739,
      "loss": 3.9473,
      "step": 106930
    },
    {
      "epoch": 0.22279166666666667,
      "grad_norm": 0.7805466055870056,
      "learning_rate": 0.0002657151152895473,
      "loss": 3.8436,
      "step": 106940
    },
    {
      "epoch": 0.2228125,
      "grad_norm": 0.8923725485801697,
      "learning_rate": 0.0002657088419505772,
      "loss": 3.9055,
      "step": 106950
    },
    {
      "epoch": 0.22283333333333333,
      "grad_norm": 0.7302841544151306,
      "learning_rate": 0.0002657025681117907,
      "loss": 3.9748,
      "step": 106960
    },
    {
      "epoch": 0.22285416666666666,
      "grad_norm": 0.7336488962173462,
      "learning_rate": 0.00026569629377321495,
      "loss": 4.061,
      "step": 106970
    },
    {
      "epoch": 0.222875,
      "grad_norm": 0.7312243580818176,
      "learning_rate": 0.00026569001893487695,
      "loss": 3.8757,
      "step": 106980
    },
    {
      "epoch": 0.22289583333333332,
      "grad_norm": 0.7413064241409302,
      "learning_rate": 0.00026568374359680393,
      "loss": 4.0734,
      "step": 106990
    },
    {
      "epoch": 0.22291666666666668,
      "grad_norm": 0.7719700336456299,
      "learning_rate": 0.00026567746775902284,
      "loss": 4.0565,
      "step": 107000
    },
    {
      "epoch": 0.22291666666666668,
      "eval_loss": 4.259228706359863,
      "eval_runtime": 10.7727,
      "eval_samples_per_second": 0.928,
      "eval_steps_per_second": 0.278,
      "step": 107000
    },
    {
      "epoch": 0.2229375,
      "grad_norm": 0.7677245140075684,
      "learning_rate": 0.000265671191421561,
      "loss": 3.9025,
      "step": 107010
    },
    {
      "epoch": 0.22295833333333334,
      "grad_norm": 1.0918828248977661,
      "learning_rate": 0.0002656649145844453,
      "loss": 4.0099,
      "step": 107020
    },
    {
      "epoch": 0.22297916666666667,
      "grad_norm": 0.7574662566184998,
      "learning_rate": 0.00026565863724770295,
      "loss": 3.8251,
      "step": 107030
    },
    {
      "epoch": 0.223,
      "grad_norm": 0.8037267923355103,
      "learning_rate": 0.0002656523594113611,
      "loss": 3.8877,
      "step": 107040
    },
    {
      "epoch": 0.22302083333333333,
      "grad_norm": 0.8779398202896118,
      "learning_rate": 0.00026564608107544684,
      "loss": 3.8325,
      "step": 107050
    },
    {
      "epoch": 0.22304166666666667,
      "grad_norm": 0.8288348913192749,
      "learning_rate": 0.00026563980223998725,
      "loss": 3.9819,
      "step": 107060
    },
    {
      "epoch": 0.2230625,
      "grad_norm": 0.8896586298942566,
      "learning_rate": 0.00026563352290500953,
      "loss": 4.0356,
      "step": 107070
    },
    {
      "epoch": 0.22308333333333333,
      "grad_norm": 0.8191094994544983,
      "learning_rate": 0.0002656272430705408,
      "loss": 3.913,
      "step": 107080
    },
    {
      "epoch": 0.22310416666666666,
      "grad_norm": 0.6436986923217773,
      "learning_rate": 0.0002656209627366081,
      "loss": 3.9173,
      "step": 107090
    },
    {
      "epoch": 0.223125,
      "grad_norm": 0.7644083499908447,
      "learning_rate": 0.00026561468190323853,
      "loss": 3.804,
      "step": 107100
    },
    {
      "epoch": 0.22314583333333332,
      "grad_norm": 0.6941161155700684,
      "learning_rate": 0.00026560840057045937,
      "loss": 3.9998,
      "step": 107110
    },
    {
      "epoch": 0.22316666666666668,
      "grad_norm": 0.7605928182601929,
      "learning_rate": 0.0002656021187382977,
      "loss": 4.1159,
      "step": 107120
    },
    {
      "epoch": 0.2231875,
      "grad_norm": 0.8727775812149048,
      "learning_rate": 0.0002655958364067806,
      "loss": 4.0363,
      "step": 107130
    },
    {
      "epoch": 0.22320833333333334,
      "grad_norm": 0.7707823514938354,
      "learning_rate": 0.00026558955357593525,
      "loss": 3.9256,
      "step": 107140
    },
    {
      "epoch": 0.22322916666666667,
      "grad_norm": 0.760208249092102,
      "learning_rate": 0.0002655832702457888,
      "loss": 3.8698,
      "step": 107150
    },
    {
      "epoch": 0.22325,
      "grad_norm": 0.7524341344833374,
      "learning_rate": 0.00026557698641636835,
      "loss": 3.8695,
      "step": 107160
    },
    {
      "epoch": 0.22327083333333334,
      "grad_norm": 0.7939009666442871,
      "learning_rate": 0.0002655707020877011,
      "loss": 4.0827,
      "step": 107170
    },
    {
      "epoch": 0.22329166666666667,
      "grad_norm": 0.7592851519584656,
      "learning_rate": 0.00026556441725981414,
      "loss": 3.9316,
      "step": 107180
    },
    {
      "epoch": 0.2233125,
      "grad_norm": 0.7610192894935608,
      "learning_rate": 0.00026555813193273464,
      "loss": 3.9483,
      "step": 107190
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 0.8078341484069824,
      "learning_rate": 0.00026555184610648977,
      "loss": 3.8478,
      "step": 107200
    },
    {
      "epoch": 0.22335416666666666,
      "grad_norm": 0.750744104385376,
      "learning_rate": 0.0002655455597811066,
      "loss": 3.9728,
      "step": 107210
    },
    {
      "epoch": 0.223375,
      "grad_norm": 0.7998350262641907,
      "learning_rate": 0.0002655392729566124,
      "loss": 4.1324,
      "step": 107220
    },
    {
      "epoch": 0.22339583333333332,
      "grad_norm": 0.8170853853225708,
      "learning_rate": 0.0002655329856330343,
      "loss": 4.1032,
      "step": 107230
    },
    {
      "epoch": 0.22341666666666668,
      "grad_norm": 0.7446580529212952,
      "learning_rate": 0.0002655266978103994,
      "loss": 3.7184,
      "step": 107240
    },
    {
      "epoch": 0.2234375,
      "grad_norm": 0.6860045790672302,
      "learning_rate": 0.0002655204094887349,
      "loss": 4.0353,
      "step": 107250
    },
    {
      "epoch": 0.22345833333333334,
      "grad_norm": 0.8715390563011169,
      "learning_rate": 0.00026551412066806794,
      "loss": 3.9282,
      "step": 107260
    },
    {
      "epoch": 0.22347916666666667,
      "grad_norm": 0.7032885551452637,
      "learning_rate": 0.0002655078313484257,
      "loss": 3.8907,
      "step": 107270
    },
    {
      "epoch": 0.2235,
      "grad_norm": 0.7164519429206848,
      "learning_rate": 0.0002655015415298354,
      "loss": 3.7976,
      "step": 107280
    },
    {
      "epoch": 0.22352083333333334,
      "grad_norm": 0.7490293979644775,
      "learning_rate": 0.00026549525121232414,
      "loss": 3.9742,
      "step": 107290
    },
    {
      "epoch": 0.22354166666666667,
      "grad_norm": 0.7898446321487427,
      "learning_rate": 0.00026548896039591907,
      "loss": 3.9779,
      "step": 107300
    },
    {
      "epoch": 0.2235625,
      "grad_norm": 0.9759935736656189,
      "learning_rate": 0.0002654826690806475,
      "loss": 4.0217,
      "step": 107310
    },
    {
      "epoch": 0.22358333333333333,
      "grad_norm": 0.8574326038360596,
      "learning_rate": 0.0002654763772665364,
      "loss": 3.795,
      "step": 107320
    },
    {
      "epoch": 0.22360416666666666,
      "grad_norm": 0.6761444807052612,
      "learning_rate": 0.0002654700849536131,
      "loss": 3.9371,
      "step": 107330
    },
    {
      "epoch": 0.223625,
      "grad_norm": 0.745129406452179,
      "learning_rate": 0.00026546379214190477,
      "loss": 4.0349,
      "step": 107340
    },
    {
      "epoch": 0.22364583333333332,
      "grad_norm": 0.7850171327590942,
      "learning_rate": 0.00026545749883143853,
      "loss": 3.7608,
      "step": 107350
    },
    {
      "epoch": 0.22366666666666668,
      "grad_norm": 0.8618757128715515,
      "learning_rate": 0.0002654512050222416,
      "loss": 3.8327,
      "step": 107360
    },
    {
      "epoch": 0.2236875,
      "grad_norm": 0.739352822303772,
      "learning_rate": 0.00026544491071434117,
      "loss": 4.068,
      "step": 107370
    },
    {
      "epoch": 0.22370833333333334,
      "grad_norm": 0.7913686037063599,
      "learning_rate": 0.00026543861590776435,
      "loss": 4.0086,
      "step": 107380
    },
    {
      "epoch": 0.22372916666666667,
      "grad_norm": 0.7705641984939575,
      "learning_rate": 0.0002654323206025385,
      "loss": 3.915,
      "step": 107390
    },
    {
      "epoch": 0.22375,
      "grad_norm": 0.7584271430969238,
      "learning_rate": 0.00026542602479869064,
      "loss": 3.8358,
      "step": 107400
    },
    {
      "epoch": 0.22377083333333334,
      "grad_norm": 0.7203395366668701,
      "learning_rate": 0.0002654197284962481,
      "loss": 3.7604,
      "step": 107410
    },
    {
      "epoch": 0.22379166666666667,
      "grad_norm": 0.7428842782974243,
      "learning_rate": 0.00026541343169523803,
      "loss": 3.9863,
      "step": 107420
    },
    {
      "epoch": 0.2238125,
      "grad_norm": 0.7380913496017456,
      "learning_rate": 0.0002654071343956876,
      "loss": 3.96,
      "step": 107430
    },
    {
      "epoch": 0.22383333333333333,
      "grad_norm": 0.8246150016784668,
      "learning_rate": 0.000265400836597624,
      "loss": 3.7616,
      "step": 107440
    },
    {
      "epoch": 0.22385416666666666,
      "grad_norm": 1.0532253980636597,
      "learning_rate": 0.0002653945383010745,
      "loss": 3.9266,
      "step": 107450
    },
    {
      "epoch": 0.223875,
      "grad_norm": 0.6825015544891357,
      "learning_rate": 0.00026538823950606627,
      "loss": 3.8685,
      "step": 107460
    },
    {
      "epoch": 0.22389583333333332,
      "grad_norm": 0.7266039252281189,
      "learning_rate": 0.0002653819402126265,
      "loss": 3.7001,
      "step": 107470
    },
    {
      "epoch": 0.22391666666666668,
      "grad_norm": 0.9822700023651123,
      "learning_rate": 0.0002653756404207824,
      "loss": 4.0703,
      "step": 107480
    },
    {
      "epoch": 0.2239375,
      "grad_norm": 0.7079208493232727,
      "learning_rate": 0.00026536934013056125,
      "loss": 3.9164,
      "step": 107490
    },
    {
      "epoch": 0.22395833333333334,
      "grad_norm": 0.841139554977417,
      "learning_rate": 0.00026536303934199024,
      "loss": 4.0352,
      "step": 107500
    },
    {
      "epoch": 0.22397916666666667,
      "grad_norm": 0.6773451566696167,
      "learning_rate": 0.0002653567380550965,
      "loss": 3.8395,
      "step": 107510
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.8557222485542297,
      "learning_rate": 0.0002653504362699073,
      "loss": 3.8345,
      "step": 107520
    },
    {
      "epoch": 0.22402083333333334,
      "grad_norm": 0.7836664319038391,
      "learning_rate": 0.00026534413398644996,
      "loss": 3.818,
      "step": 107530
    },
    {
      "epoch": 0.22404166666666667,
      "grad_norm": 0.6668901443481445,
      "learning_rate": 0.00026533783120475155,
      "loss": 3.8794,
      "step": 107540
    },
    {
      "epoch": 0.2240625,
      "grad_norm": 0.7809096574783325,
      "learning_rate": 0.00026533152792483937,
      "loss": 3.9028,
      "step": 107550
    },
    {
      "epoch": 0.22408333333333333,
      "grad_norm": 0.9078205823898315,
      "learning_rate": 0.0002653252241467407,
      "loss": 3.9512,
      "step": 107560
    },
    {
      "epoch": 0.22410416666666666,
      "grad_norm": 0.8058987259864807,
      "learning_rate": 0.0002653189198704826,
      "loss": 4.0778,
      "step": 107570
    },
    {
      "epoch": 0.224125,
      "grad_norm": 0.9055424928665161,
      "learning_rate": 0.00026531261509609247,
      "loss": 3.8216,
      "step": 107580
    },
    {
      "epoch": 0.22414583333333332,
      "grad_norm": 0.9539164900779724,
      "learning_rate": 0.00026530630982359753,
      "loss": 3.9549,
      "step": 107590
    },
    {
      "epoch": 0.22416666666666665,
      "grad_norm": 0.7007455825805664,
      "learning_rate": 0.0002653000040530249,
      "loss": 3.9578,
      "step": 107600
    },
    {
      "epoch": 0.2241875,
      "grad_norm": 0.8495174050331116,
      "learning_rate": 0.0002652936977844019,
      "loss": 3.9749,
      "step": 107610
    },
    {
      "epoch": 0.22420833333333334,
      "grad_norm": 0.9904433488845825,
      "learning_rate": 0.00026528739101775584,
      "loss": 3.9216,
      "step": 107620
    },
    {
      "epoch": 0.22422916666666667,
      "grad_norm": 0.8151664137840271,
      "learning_rate": 0.00026528108375311384,
      "loss": 3.8695,
      "step": 107630
    },
    {
      "epoch": 0.22425,
      "grad_norm": 0.8081353306770325,
      "learning_rate": 0.00026527477599050316,
      "loss": 3.7737,
      "step": 107640
    },
    {
      "epoch": 0.22427083333333334,
      "grad_norm": 0.9427882432937622,
      "learning_rate": 0.0002652684677299511,
      "loss": 3.6688,
      "step": 107650
    },
    {
      "epoch": 0.22429166666666667,
      "grad_norm": 0.8764473795890808,
      "learning_rate": 0.00026526215897148484,
      "loss": 3.97,
      "step": 107660
    },
    {
      "epoch": 0.2243125,
      "grad_norm": 0.7579878568649292,
      "learning_rate": 0.00026525584971513175,
      "loss": 3.9794,
      "step": 107670
    },
    {
      "epoch": 0.22433333333333333,
      "grad_norm": 0.8373045921325684,
      "learning_rate": 0.000265249539960919,
      "loss": 3.9304,
      "step": 107680
    },
    {
      "epoch": 0.22435416666666666,
      "grad_norm": 0.7085008025169373,
      "learning_rate": 0.0002652432297088738,
      "loss": 3.9066,
      "step": 107690
    },
    {
      "epoch": 0.224375,
      "grad_norm": 0.6876103281974792,
      "learning_rate": 0.00026523691895902353,
      "loss": 3.8296,
      "step": 107700
    },
    {
      "epoch": 0.22439583333333332,
      "grad_norm": 0.8115256428718567,
      "learning_rate": 0.00026523060771139535,
      "loss": 3.9444,
      "step": 107710
    },
    {
      "epoch": 0.22441666666666665,
      "grad_norm": 0.6655845046043396,
      "learning_rate": 0.00026522429596601655,
      "loss": 3.9822,
      "step": 107720
    },
    {
      "epoch": 0.2244375,
      "grad_norm": 0.7063350677490234,
      "learning_rate": 0.0002652179837229144,
      "loss": 4.0137,
      "step": 107730
    },
    {
      "epoch": 0.22445833333333334,
      "grad_norm": 0.8975074887275696,
      "learning_rate": 0.00026521167098211623,
      "loss": 3.9922,
      "step": 107740
    },
    {
      "epoch": 0.22447916666666667,
      "grad_norm": 0.6861363053321838,
      "learning_rate": 0.0002652053577436491,
      "loss": 3.9582,
      "step": 107750
    },
    {
      "epoch": 0.2245,
      "grad_norm": 0.7187337875366211,
      "learning_rate": 0.0002651990440075406,
      "loss": 3.9205,
      "step": 107760
    },
    {
      "epoch": 0.22452083333333334,
      "grad_norm": 0.9012169241905212,
      "learning_rate": 0.00026519272977381774,
      "loss": 3.9932,
      "step": 107770
    },
    {
      "epoch": 0.22454166666666667,
      "grad_norm": 0.8746116161346436,
      "learning_rate": 0.0002651864150425079,
      "loss": 3.7856,
      "step": 107780
    },
    {
      "epoch": 0.2245625,
      "grad_norm": 0.8028250336647034,
      "learning_rate": 0.0002651800998136383,
      "loss": 3.8111,
      "step": 107790
    },
    {
      "epoch": 0.22458333333333333,
      "grad_norm": 0.8137475252151489,
      "learning_rate": 0.00026517378408723633,
      "loss": 3.832,
      "step": 107800
    },
    {
      "epoch": 0.22460416666666666,
      "grad_norm": 0.7160421013832092,
      "learning_rate": 0.00026516746786332915,
      "loss": 3.9565,
      "step": 107810
    },
    {
      "epoch": 0.224625,
      "grad_norm": 0.7053418159484863,
      "learning_rate": 0.0002651611511419441,
      "loss": 3.9425,
      "step": 107820
    },
    {
      "epoch": 0.22464583333333332,
      "grad_norm": 0.6934900283813477,
      "learning_rate": 0.0002651548339231085,
      "loss": 4.0303,
      "step": 107830
    },
    {
      "epoch": 0.22466666666666665,
      "grad_norm": 0.7565485239028931,
      "learning_rate": 0.00026514851620684955,
      "loss": 3.9256,
      "step": 107840
    },
    {
      "epoch": 0.2246875,
      "grad_norm": 0.700203001499176,
      "learning_rate": 0.0002651421979931946,
      "loss": 3.9349,
      "step": 107850
    },
    {
      "epoch": 0.22470833333333334,
      "grad_norm": 0.8127493262290955,
      "learning_rate": 0.00026513587928217095,
      "loss": 3.9847,
      "step": 107860
    },
    {
      "epoch": 0.22472916666666667,
      "grad_norm": 0.7424354553222656,
      "learning_rate": 0.00026512956007380587,
      "loss": 4.0018,
      "step": 107870
    },
    {
      "epoch": 0.22475,
      "grad_norm": 0.7245036363601685,
      "learning_rate": 0.00026512324036812664,
      "loss": 3.66,
      "step": 107880
    },
    {
      "epoch": 0.22477083333333334,
      "grad_norm": 0.7188828587532043,
      "learning_rate": 0.0002651169201651606,
      "loss": 3.7991,
      "step": 107890
    },
    {
      "epoch": 0.22479166666666667,
      "grad_norm": 0.7548100352287292,
      "learning_rate": 0.00026511059946493504,
      "loss": 4.0621,
      "step": 107900
    },
    {
      "epoch": 0.2248125,
      "grad_norm": 0.7032444477081299,
      "learning_rate": 0.00026510427826747726,
      "loss": 4.0631,
      "step": 107910
    },
    {
      "epoch": 0.22483333333333333,
      "grad_norm": 0.7910984754562378,
      "learning_rate": 0.0002650979565728145,
      "loss": 4.0126,
      "step": 107920
    },
    {
      "epoch": 0.22485416666666666,
      "grad_norm": 0.8080632090568542,
      "learning_rate": 0.0002650916343809742,
      "loss": 3.8145,
      "step": 107930
    },
    {
      "epoch": 0.224875,
      "grad_norm": 0.7022880911827087,
      "learning_rate": 0.00026508531169198356,
      "loss": 4.0366,
      "step": 107940
    },
    {
      "epoch": 0.22489583333333332,
      "grad_norm": 1.0428080558776855,
      "learning_rate": 0.00026507898850586996,
      "loss": 3.8148,
      "step": 107950
    },
    {
      "epoch": 0.22491666666666665,
      "grad_norm": 0.8246618509292603,
      "learning_rate": 0.0002650726648226606,
      "loss": 3.854,
      "step": 107960
    },
    {
      "epoch": 0.2249375,
      "grad_norm": 0.8671993017196655,
      "learning_rate": 0.00026506634064238295,
      "loss": 3.8819,
      "step": 107970
    },
    {
      "epoch": 0.22495833333333334,
      "grad_norm": 0.7429173588752747,
      "learning_rate": 0.00026506001596506425,
      "loss": 4.1048,
      "step": 107980
    },
    {
      "epoch": 0.22497916666666667,
      "grad_norm": 0.7929667234420776,
      "learning_rate": 0.0002650536907907318,
      "loss": 3.8898,
      "step": 107990
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.7828166484832764,
      "learning_rate": 0.000265047365119413,
      "loss": 3.9413,
      "step": 108000
    },
    {
      "epoch": 0.225,
      "eval_loss": 4.2701826095581055,
      "eval_runtime": 9.5578,
      "eval_samples_per_second": 1.046,
      "eval_steps_per_second": 0.314,
      "step": 108000
    },
    {
      "epoch": 0.22502083333333334,
      "grad_norm": 0.6855906248092651,
      "learning_rate": 0.0002650410389511351,
      "loss": 4.0664,
      "step": 108010
    },
    {
      "epoch": 0.22504166666666667,
      "grad_norm": 0.7390345931053162,
      "learning_rate": 0.0002650347122859254,
      "loss": 3.9795,
      "step": 108020
    },
    {
      "epoch": 0.2250625,
      "grad_norm": 0.7705675363540649,
      "learning_rate": 0.0002650283851238113,
      "loss": 3.8993,
      "step": 108030
    },
    {
      "epoch": 0.22508333333333333,
      "grad_norm": 0.9260096549987793,
      "learning_rate": 0.00026502205746482013,
      "loss": 4.0351,
      "step": 108040
    },
    {
      "epoch": 0.22510416666666666,
      "grad_norm": 0.9677886962890625,
      "learning_rate": 0.00026501572930897916,
      "loss": 3.8891,
      "step": 108050
    },
    {
      "epoch": 0.225125,
      "grad_norm": 0.6848931312561035,
      "learning_rate": 0.0002650094006563158,
      "loss": 3.8525,
      "step": 108060
    },
    {
      "epoch": 0.22514583333333332,
      "grad_norm": 0.7515177130699158,
      "learning_rate": 0.00026500307150685733,
      "loss": 3.81,
      "step": 108070
    },
    {
      "epoch": 0.22516666666666665,
      "grad_norm": 0.7472609281539917,
      "learning_rate": 0.0002649967418606311,
      "loss": 4.043,
      "step": 108080
    },
    {
      "epoch": 0.2251875,
      "grad_norm": 0.7035729289054871,
      "learning_rate": 0.0002649904117176645,
      "loss": 3.7697,
      "step": 108090
    },
    {
      "epoch": 0.22520833333333334,
      "grad_norm": 0.8153097033500671,
      "learning_rate": 0.00026498408107798483,
      "loss": 3.8596,
      "step": 108100
    },
    {
      "epoch": 0.22522916666666667,
      "grad_norm": 0.7727575302124023,
      "learning_rate": 0.00026497774994161945,
      "loss": 3.7768,
      "step": 108110
    },
    {
      "epoch": 0.22525,
      "grad_norm": 0.9080545902252197,
      "learning_rate": 0.0002649714183085957,
      "loss": 3.9655,
      "step": 108120
    },
    {
      "epoch": 0.22527083333333334,
      "grad_norm": 0.7253996133804321,
      "learning_rate": 0.0002649650861789409,
      "loss": 4.0605,
      "step": 108130
    },
    {
      "epoch": 0.22529166666666667,
      "grad_norm": 0.6984232068061829,
      "learning_rate": 0.00026495875355268247,
      "loss": 3.9623,
      "step": 108140
    },
    {
      "epoch": 0.2253125,
      "grad_norm": 0.7518556714057922,
      "learning_rate": 0.0002649524204298477,
      "loss": 3.9034,
      "step": 108150
    },
    {
      "epoch": 0.22533333333333333,
      "grad_norm": 1.0172518491744995,
      "learning_rate": 0.00026494608681046404,
      "loss": 3.8013,
      "step": 108160
    },
    {
      "epoch": 0.22535416666666666,
      "grad_norm": 0.8406162261962891,
      "learning_rate": 0.0002649397526945587,
      "loss": 3.8911,
      "step": 108170
    },
    {
      "epoch": 0.225375,
      "grad_norm": 0.8054888248443604,
      "learning_rate": 0.00026493341808215914,
      "loss": 3.9592,
      "step": 108180
    },
    {
      "epoch": 0.22539583333333332,
      "grad_norm": 0.7733594179153442,
      "learning_rate": 0.00026492708297329277,
      "loss": 3.7242,
      "step": 108190
    },
    {
      "epoch": 0.22541666666666665,
      "grad_norm": 0.9566751718521118,
      "learning_rate": 0.00026492074736798687,
      "loss": 3.812,
      "step": 108200
    },
    {
      "epoch": 0.2254375,
      "grad_norm": 0.7568111419677734,
      "learning_rate": 0.00026491441126626875,
      "loss": 3.8475,
      "step": 108210
    },
    {
      "epoch": 0.22545833333333334,
      "grad_norm": 0.9721013903617859,
      "learning_rate": 0.00026490807466816597,
      "loss": 3.8514,
      "step": 108220
    },
    {
      "epoch": 0.22547916666666667,
      "grad_norm": 0.7420798540115356,
      "learning_rate": 0.0002649017375737057,
      "loss": 3.952,
      "step": 108230
    },
    {
      "epoch": 0.2255,
      "grad_norm": 0.7340584993362427,
      "learning_rate": 0.00026489539998291546,
      "loss": 4.0204,
      "step": 108240
    },
    {
      "epoch": 0.22552083333333334,
      "grad_norm": 0.8068675398826599,
      "learning_rate": 0.0002648890618958226,
      "loss": 3.8098,
      "step": 108250
    },
    {
      "epoch": 0.22554166666666667,
      "grad_norm": 0.9337735772132874,
      "learning_rate": 0.0002648827233124544,
      "loss": 4.1307,
      "step": 108260
    },
    {
      "epoch": 0.2255625,
      "grad_norm": 0.769917368888855,
      "learning_rate": 0.0002648763842328383,
      "loss": 3.7521,
      "step": 108270
    },
    {
      "epoch": 0.22558333333333333,
      "grad_norm": 0.8258672952651978,
      "learning_rate": 0.00026487004465700173,
      "loss": 4.1334,
      "step": 108280
    },
    {
      "epoch": 0.22560416666666666,
      "grad_norm": 0.6714640259742737,
      "learning_rate": 0.000264863704584972,
      "loss": 3.9538,
      "step": 108290
    },
    {
      "epoch": 0.225625,
      "grad_norm": 0.8542248606681824,
      "learning_rate": 0.00026485736401677664,
      "loss": 3.983,
      "step": 108300
    },
    {
      "epoch": 0.22564583333333332,
      "grad_norm": 0.8766009211540222,
      "learning_rate": 0.0002648510229524428,
      "loss": 3.8602,
      "step": 108310
    },
    {
      "epoch": 0.22566666666666665,
      "grad_norm": 0.7024014592170715,
      "learning_rate": 0.0002648446813919981,
      "loss": 3.8481,
      "step": 108320
    },
    {
      "epoch": 0.2256875,
      "grad_norm": 0.9006258249282837,
      "learning_rate": 0.00026483833933546976,
      "loss": 4.0391,
      "step": 108330
    },
    {
      "epoch": 0.22570833333333334,
      "grad_norm": 0.7353135347366333,
      "learning_rate": 0.0002648319967828853,
      "loss": 3.8486,
      "step": 108340
    },
    {
      "epoch": 0.22572916666666668,
      "grad_norm": 0.7824783325195312,
      "learning_rate": 0.00026482565373427206,
      "loss": 4.0668,
      "step": 108350
    },
    {
      "epoch": 0.22575,
      "grad_norm": 0.7513824105262756,
      "learning_rate": 0.0002648193101896574,
      "loss": 3.952,
      "step": 108360
    },
    {
      "epoch": 0.22577083333333334,
      "grad_norm": 0.8437369465827942,
      "learning_rate": 0.0002648129661490688,
      "loss": 3.8093,
      "step": 108370
    },
    {
      "epoch": 0.22579166666666667,
      "grad_norm": 1.0553442239761353,
      "learning_rate": 0.00026480662161253366,
      "loss": 3.9647,
      "step": 108380
    },
    {
      "epoch": 0.2258125,
      "grad_norm": 0.7749742269515991,
      "learning_rate": 0.00026480027658007935,
      "loss": 4.1088,
      "step": 108390
    },
    {
      "epoch": 0.22583333333333333,
      "grad_norm": 0.8228604793548584,
      "learning_rate": 0.00026479393105173325,
      "loss": 3.9304,
      "step": 108400
    },
    {
      "epoch": 0.22585416666666666,
      "grad_norm": 0.9030579328536987,
      "learning_rate": 0.00026478758502752284,
      "loss": 3.7751,
      "step": 108410
    },
    {
      "epoch": 0.225875,
      "grad_norm": 0.8912897109985352,
      "learning_rate": 0.0002647812385074755,
      "loss": 3.7719,
      "step": 108420
    },
    {
      "epoch": 0.22589583333333332,
      "grad_norm": 0.8149330019950867,
      "learning_rate": 0.0002647748914916186,
      "loss": 3.9286,
      "step": 108430
    },
    {
      "epoch": 0.22591666666666665,
      "grad_norm": 0.7595223784446716,
      "learning_rate": 0.00026476854397997963,
      "loss": 3.8379,
      "step": 108440
    },
    {
      "epoch": 0.2259375,
      "grad_norm": 0.755595326423645,
      "learning_rate": 0.000264762195972586,
      "loss": 4.0013,
      "step": 108450
    },
    {
      "epoch": 0.22595833333333334,
      "grad_norm": 0.780499279499054,
      "learning_rate": 0.0002647558474694651,
      "loss": 3.8853,
      "step": 108460
    },
    {
      "epoch": 0.22597916666666668,
      "grad_norm": 0.775527834892273,
      "learning_rate": 0.00026474949847064437,
      "loss": 3.9691,
      "step": 108470
    },
    {
      "epoch": 0.226,
      "grad_norm": 0.718939483165741,
      "learning_rate": 0.0002647431489761512,
      "loss": 3.7946,
      "step": 108480
    },
    {
      "epoch": 0.22602083333333334,
      "grad_norm": 0.9269850254058838,
      "learning_rate": 0.00026473679898601305,
      "loss": 3.9013,
      "step": 108490
    },
    {
      "epoch": 0.22604166666666667,
      "grad_norm": 0.7547590136528015,
      "learning_rate": 0.00026473044850025735,
      "loss": 3.8128,
      "step": 108500
    },
    {
      "epoch": 0.2260625,
      "grad_norm": 0.7387957572937012,
      "learning_rate": 0.0002647240975189115,
      "loss": 3.9923,
      "step": 108510
    },
    {
      "epoch": 0.22608333333333333,
      "grad_norm": 0.893765926361084,
      "learning_rate": 0.000264717746042003,
      "loss": 4.0459,
      "step": 108520
    },
    {
      "epoch": 0.22610416666666666,
      "grad_norm": 0.8834101557731628,
      "learning_rate": 0.00026471139406955926,
      "loss": 3.9557,
      "step": 108530
    },
    {
      "epoch": 0.226125,
      "grad_norm": 0.7173231244087219,
      "learning_rate": 0.00026470504160160764,
      "loss": 4.1095,
      "step": 108540
    },
    {
      "epoch": 0.22614583333333332,
      "grad_norm": 0.7746885418891907,
      "learning_rate": 0.0002646986886381757,
      "loss": 3.8995,
      "step": 108550
    },
    {
      "epoch": 0.22616666666666665,
      "grad_norm": 0.8607303500175476,
      "learning_rate": 0.0002646923351792908,
      "loss": 3.9218,
      "step": 108560
    },
    {
      "epoch": 0.2261875,
      "grad_norm": 0.7040896415710449,
      "learning_rate": 0.0002646859812249804,
      "loss": 3.8774,
      "step": 108570
    },
    {
      "epoch": 0.22620833333333334,
      "grad_norm": 0.7985808849334717,
      "learning_rate": 0.00026467962677527196,
      "loss": 3.8572,
      "step": 108580
    },
    {
      "epoch": 0.22622916666666668,
      "grad_norm": 0.8430532217025757,
      "learning_rate": 0.00026467327183019295,
      "loss": 3.7673,
      "step": 108590
    },
    {
      "epoch": 0.22625,
      "grad_norm": 0.8355246782302856,
      "learning_rate": 0.00026466691638977075,
      "loss": 3.9548,
      "step": 108600
    },
    {
      "epoch": 0.22627083333333334,
      "grad_norm": 0.8682499527931213,
      "learning_rate": 0.0002646605604540329,
      "loss": 3.8205,
      "step": 108610
    },
    {
      "epoch": 0.22629166666666667,
      "grad_norm": 0.6535966992378235,
      "learning_rate": 0.00026465420402300684,
      "loss": 3.7764,
      "step": 108620
    },
    {
      "epoch": 0.2263125,
      "grad_norm": 0.7928372025489807,
      "learning_rate": 0.00026464784709671993,
      "loss": 4.0335,
      "step": 108630
    },
    {
      "epoch": 0.22633333333333333,
      "grad_norm": 0.7565931081771851,
      "learning_rate": 0.0002646414896751997,
      "loss": 3.8317,
      "step": 108640
    },
    {
      "epoch": 0.22635416666666666,
      "grad_norm": 0.8574429750442505,
      "learning_rate": 0.0002646351317584737,
      "loss": 3.957,
      "step": 108650
    },
    {
      "epoch": 0.226375,
      "grad_norm": 0.7410995364189148,
      "learning_rate": 0.0002646287733465693,
      "loss": 3.7798,
      "step": 108660
    },
    {
      "epoch": 0.22639583333333332,
      "grad_norm": 0.653450608253479,
      "learning_rate": 0.0002646224144395139,
      "loss": 3.9486,
      "step": 108670
    },
    {
      "epoch": 0.22641666666666665,
      "grad_norm": 0.9384242296218872,
      "learning_rate": 0.00026461605503733506,
      "loss": 3.9158,
      "step": 108680
    },
    {
      "epoch": 0.2264375,
      "grad_norm": 0.7668075561523438,
      "learning_rate": 0.0002646096951400603,
      "loss": 3.9525,
      "step": 108690
    },
    {
      "epoch": 0.22645833333333334,
      "grad_norm": 0.7403702139854431,
      "learning_rate": 0.00026460333474771693,
      "loss": 3.8136,
      "step": 108700
    },
    {
      "epoch": 0.22647916666666668,
      "grad_norm": 0.7225868105888367,
      "learning_rate": 0.00026459697386033257,
      "loss": 3.8819,
      "step": 108710
    },
    {
      "epoch": 0.2265,
      "grad_norm": 0.6888270378112793,
      "learning_rate": 0.00026459061247793457,
      "loss": 4.0308,
      "step": 108720
    },
    {
      "epoch": 0.22652083333333334,
      "grad_norm": 0.872168779373169,
      "learning_rate": 0.00026458425060055056,
      "loss": 4.0748,
      "step": 108730
    },
    {
      "epoch": 0.22654166666666667,
      "grad_norm": 0.678532600402832,
      "learning_rate": 0.0002645778882282079,
      "loss": 4.1489,
      "step": 108740
    },
    {
      "epoch": 0.2265625,
      "grad_norm": 0.7982475757598877,
      "learning_rate": 0.0002645715253609342,
      "loss": 4.0493,
      "step": 108750
    },
    {
      "epoch": 0.22658333333333333,
      "grad_norm": 0.7670603394508362,
      "learning_rate": 0.0002645651619987568,
      "loss": 3.9351,
      "step": 108760
    },
    {
      "epoch": 0.22660416666666666,
      "grad_norm": 0.7278753519058228,
      "learning_rate": 0.0002645587981417032,
      "loss": 3.9232,
      "step": 108770
    },
    {
      "epoch": 0.226625,
      "grad_norm": 0.7164149880409241,
      "learning_rate": 0.000264552433789801,
      "loss": 3.9732,
      "step": 108780
    },
    {
      "epoch": 0.22664583333333332,
      "grad_norm": 0.7963036298751831,
      "learning_rate": 0.0002645460689430776,
      "loss": 4.0386,
      "step": 108790
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 0.7459926605224609,
      "learning_rate": 0.0002645397036015606,
      "loss": 3.942,
      "step": 108800
    },
    {
      "epoch": 0.2266875,
      "grad_norm": 0.701884925365448,
      "learning_rate": 0.00026453333776527735,
      "loss": 3.745,
      "step": 108810
    },
    {
      "epoch": 0.22670833333333335,
      "grad_norm": 0.7518672943115234,
      "learning_rate": 0.00026452697143425536,
      "loss": 3.8424,
      "step": 108820
    },
    {
      "epoch": 0.22672916666666668,
      "grad_norm": 0.6924442648887634,
      "learning_rate": 0.0002645206046085223,
      "loss": 3.9889,
      "step": 108830
    },
    {
      "epoch": 0.22675,
      "grad_norm": 0.795567512512207,
      "learning_rate": 0.0002645142372881055,
      "loss": 3.8982,
      "step": 108840
    },
    {
      "epoch": 0.22677083333333334,
      "grad_norm": 0.7239937782287598,
      "learning_rate": 0.0002645078694730325,
      "loss": 3.8779,
      "step": 108850
    },
    {
      "epoch": 0.22679166666666667,
      "grad_norm": 0.7635540962219238,
      "learning_rate": 0.0002645015011633309,
      "loss": 3.7136,
      "step": 108860
    },
    {
      "epoch": 0.2268125,
      "grad_norm": 0.7305667400360107,
      "learning_rate": 0.00026449513235902804,
      "loss": 3.9036,
      "step": 108870
    },
    {
      "epoch": 0.22683333333333333,
      "grad_norm": 0.761264443397522,
      "learning_rate": 0.0002644887630601516,
      "loss": 3.9273,
      "step": 108880
    },
    {
      "epoch": 0.22685416666666666,
      "grad_norm": 0.7146025896072388,
      "learning_rate": 0.000264482393266729,
      "loss": 4.0215,
      "step": 108890
    },
    {
      "epoch": 0.226875,
      "grad_norm": 0.8386164903640747,
      "learning_rate": 0.0002644760229787878,
      "loss": 3.8077,
      "step": 108900
    },
    {
      "epoch": 0.22689583333333332,
      "grad_norm": 0.7800633907318115,
      "learning_rate": 0.00026446965219635544,
      "loss": 4.0506,
      "step": 108910
    },
    {
      "epoch": 0.22691666666666666,
      "grad_norm": 0.7347279191017151,
      "learning_rate": 0.00026446328091945956,
      "loss": 3.8444,
      "step": 108920
    },
    {
      "epoch": 0.2269375,
      "grad_norm": 0.8164711594581604,
      "learning_rate": 0.00026445690914812754,
      "loss": 4.001,
      "step": 108930
    },
    {
      "epoch": 0.22695833333333335,
      "grad_norm": 0.6698181629180908,
      "learning_rate": 0.000264450536882387,
      "loss": 3.7945,
      "step": 108940
    },
    {
      "epoch": 0.22697916666666668,
      "grad_norm": 0.7902946472167969,
      "learning_rate": 0.0002644441641222655,
      "loss": 3.9007,
      "step": 108950
    },
    {
      "epoch": 0.227,
      "grad_norm": 0.8352525234222412,
      "learning_rate": 0.0002644377908677905,
      "loss": 3.9775,
      "step": 108960
    },
    {
      "epoch": 0.22702083333333334,
      "grad_norm": 0.7898527383804321,
      "learning_rate": 0.00026443141711898944,
      "loss": 3.9275,
      "step": 108970
    },
    {
      "epoch": 0.22704166666666667,
      "grad_norm": 0.6846413612365723,
      "learning_rate": 0.00026442504287589006,
      "loss": 3.973,
      "step": 108980
    },
    {
      "epoch": 0.2270625,
      "grad_norm": 0.73252934217453,
      "learning_rate": 0.0002644186681385197,
      "loss": 3.8706,
      "step": 108990
    },
    {
      "epoch": 0.22708333333333333,
      "grad_norm": 0.8041558861732483,
      "learning_rate": 0.0002644122929069061,
      "loss": 3.923,
      "step": 109000
    },
    {
      "epoch": 0.22708333333333333,
      "eval_loss": 4.2499494552612305,
      "eval_runtime": 10.4155,
      "eval_samples_per_second": 0.96,
      "eval_steps_per_second": 0.288,
      "step": 109000
    },
    {
      "epoch": 0.22710416666666666,
      "grad_norm": 0.7211470603942871,
      "learning_rate": 0.00026440591718107664,
      "loss": 3.9642,
      "step": 109010
    },
    {
      "epoch": 0.227125,
      "grad_norm": 0.8587322235107422,
      "learning_rate": 0.00026439954096105884,
      "loss": 3.8876,
      "step": 109020
    },
    {
      "epoch": 0.22714583333333332,
      "grad_norm": 0.824578583240509,
      "learning_rate": 0.00026439316424688034,
      "loss": 3.8638,
      "step": 109030
    },
    {
      "epoch": 0.22716666666666666,
      "grad_norm": 0.7026079893112183,
      "learning_rate": 0.0002643867870385687,
      "loss": 3.9412,
      "step": 109040
    },
    {
      "epoch": 0.2271875,
      "grad_norm": 0.7915549874305725,
      "learning_rate": 0.0002643804093361514,
      "loss": 4.0401,
      "step": 109050
    },
    {
      "epoch": 0.22720833333333335,
      "grad_norm": 0.7297204732894897,
      "learning_rate": 0.00026437403113965596,
      "loss": 4.0048,
      "step": 109060
    },
    {
      "epoch": 0.22722916666666668,
      "grad_norm": 0.7245772480964661,
      "learning_rate": 0.00026436765244911,
      "loss": 3.8391,
      "step": 109070
    },
    {
      "epoch": 0.22725,
      "grad_norm": 0.9843947291374207,
      "learning_rate": 0.00026436127326454105,
      "loss": 3.9333,
      "step": 109080
    },
    {
      "epoch": 0.22727083333333334,
      "grad_norm": 0.7660737037658691,
      "learning_rate": 0.00026435489358597665,
      "loss": 3.9236,
      "step": 109090
    },
    {
      "epoch": 0.22729166666666667,
      "grad_norm": 0.7760373950004578,
      "learning_rate": 0.0002643485134134444,
      "loss": 3.993,
      "step": 109100
    },
    {
      "epoch": 0.2273125,
      "grad_norm": 0.7885679602622986,
      "learning_rate": 0.0002643421327469718,
      "loss": 3.7301,
      "step": 109110
    },
    {
      "epoch": 0.22733333333333333,
      "grad_norm": 0.8297938108444214,
      "learning_rate": 0.0002643357515865865,
      "loss": 4.0085,
      "step": 109120
    },
    {
      "epoch": 0.22735416666666666,
      "grad_norm": 0.7652775049209595,
      "learning_rate": 0.000264329369932316,
      "loss": 3.83,
      "step": 109130
    },
    {
      "epoch": 0.227375,
      "grad_norm": 1.2758543491363525,
      "learning_rate": 0.0002643229877841878,
      "loss": 4.2243,
      "step": 109140
    },
    {
      "epoch": 0.22739583333333332,
      "grad_norm": 0.9598618745803833,
      "learning_rate": 0.0002643166051422297,
      "loss": 3.8953,
      "step": 109150
    },
    {
      "epoch": 0.22741666666666666,
      "grad_norm": 0.7711547017097473,
      "learning_rate": 0.000264310222006469,
      "loss": 4.0641,
      "step": 109160
    },
    {
      "epoch": 0.2274375,
      "grad_norm": 0.7458028793334961,
      "learning_rate": 0.0002643038383769334,
      "loss": 3.9576,
      "step": 109170
    },
    {
      "epoch": 0.22745833333333335,
      "grad_norm": 0.7583891153335571,
      "learning_rate": 0.00026429745425365046,
      "loss": 3.9374,
      "step": 109180
    },
    {
      "epoch": 0.22747916666666668,
      "grad_norm": 0.7509993314743042,
      "learning_rate": 0.0002642910696366478,
      "loss": 3.8812,
      "step": 109190
    },
    {
      "epoch": 0.2275,
      "grad_norm": 0.8617029190063477,
      "learning_rate": 0.00026428468452595295,
      "loss": 4.0242,
      "step": 109200
    },
    {
      "epoch": 0.22752083333333334,
      "grad_norm": 0.7223390340805054,
      "learning_rate": 0.00026427829892159343,
      "loss": 3.8089,
      "step": 109210
    },
    {
      "epoch": 0.22754166666666667,
      "grad_norm": 0.9702696800231934,
      "learning_rate": 0.000264271912823597,
      "loss": 4.011,
      "step": 109220
    },
    {
      "epoch": 0.2275625,
      "grad_norm": 0.7030995488166809,
      "learning_rate": 0.00026426552623199105,
      "loss": 3.7721,
      "step": 109230
    },
    {
      "epoch": 0.22758333333333333,
      "grad_norm": 0.7186703681945801,
      "learning_rate": 0.00026425913914680327,
      "loss": 3.8339,
      "step": 109240
    },
    {
      "epoch": 0.22760416666666666,
      "grad_norm": 0.8866310119628906,
      "learning_rate": 0.00026425275156806123,
      "loss": 3.9068,
      "step": 109250
    },
    {
      "epoch": 0.227625,
      "grad_norm": 0.8194873929023743,
      "learning_rate": 0.0002642463634957926,
      "loss": 3.9625,
      "step": 109260
    },
    {
      "epoch": 0.22764583333333333,
      "grad_norm": 0.7451662421226501,
      "learning_rate": 0.00026423997493002483,
      "loss": 3.8809,
      "step": 109270
    },
    {
      "epoch": 0.22766666666666666,
      "grad_norm": 0.8646328449249268,
      "learning_rate": 0.00026423358587078564,
      "loss": 3.8685,
      "step": 109280
    },
    {
      "epoch": 0.2276875,
      "grad_norm": 0.8582132458686829,
      "learning_rate": 0.0002642271963181025,
      "loss": 3.8492,
      "step": 109290
    },
    {
      "epoch": 0.22770833333333335,
      "grad_norm": 0.8723394274711609,
      "learning_rate": 0.00026422080627200317,
      "loss": 3.8499,
      "step": 109300
    },
    {
      "epoch": 0.22772916666666668,
      "grad_norm": 0.8789157867431641,
      "learning_rate": 0.0002642144157325151,
      "loss": 3.8766,
      "step": 109310
    },
    {
      "epoch": 0.22775,
      "grad_norm": 0.7020376324653625,
      "learning_rate": 0.000264208024699666,
      "loss": 3.9585,
      "step": 109320
    },
    {
      "epoch": 0.22777083333333334,
      "grad_norm": 0.7438896894454956,
      "learning_rate": 0.00026420163317348347,
      "loss": 4.084,
      "step": 109330
    },
    {
      "epoch": 0.22779166666666667,
      "grad_norm": 0.9015541672706604,
      "learning_rate": 0.00026419524115399505,
      "loss": 3.9749,
      "step": 109340
    },
    {
      "epoch": 0.2278125,
      "grad_norm": 0.8149701952934265,
      "learning_rate": 0.0002641888486412284,
      "loss": 3.9668,
      "step": 109350
    },
    {
      "epoch": 0.22783333333333333,
      "grad_norm": 0.6502760648727417,
      "learning_rate": 0.0002641824556352111,
      "loss": 4.0524,
      "step": 109360
    },
    {
      "epoch": 0.22785416666666666,
      "grad_norm": 0.8575359582901001,
      "learning_rate": 0.0002641760621359708,
      "loss": 3.8735,
      "step": 109370
    },
    {
      "epoch": 0.227875,
      "grad_norm": 0.8677646517753601,
      "learning_rate": 0.0002641696681435351,
      "loss": 3.8544,
      "step": 109380
    },
    {
      "epoch": 0.22789583333333333,
      "grad_norm": 0.7077972292900085,
      "learning_rate": 0.00026416327365793164,
      "loss": 4.0386,
      "step": 109390
    },
    {
      "epoch": 0.22791666666666666,
      "grad_norm": 0.7458457946777344,
      "learning_rate": 0.00026415687867918804,
      "loss": 4.0746,
      "step": 109400
    },
    {
      "epoch": 0.2279375,
      "grad_norm": 0.7556995749473572,
      "learning_rate": 0.0002641504832073319,
      "loss": 3.9944,
      "step": 109410
    },
    {
      "epoch": 0.22795833333333335,
      "grad_norm": 0.8564623594284058,
      "learning_rate": 0.00026414408724239084,
      "loss": 3.9201,
      "step": 109420
    },
    {
      "epoch": 0.22797916666666668,
      "grad_norm": 0.7261602282524109,
      "learning_rate": 0.00026413769078439253,
      "loss": 4.0478,
      "step": 109430
    },
    {
      "epoch": 0.228,
      "grad_norm": 0.8424165844917297,
      "learning_rate": 0.0002641312938333645,
      "loss": 3.9259,
      "step": 109440
    },
    {
      "epoch": 0.22802083333333334,
      "grad_norm": 0.9319525361061096,
      "learning_rate": 0.0002641248963893345,
      "loss": 4.0891,
      "step": 109450
    },
    {
      "epoch": 0.22804166666666667,
      "grad_norm": 0.8633121848106384,
      "learning_rate": 0.0002641184984523302,
      "loss": 3.8944,
      "step": 109460
    },
    {
      "epoch": 0.2280625,
      "grad_norm": 0.9659656286239624,
      "learning_rate": 0.0002641121000223791,
      "loss": 3.8978,
      "step": 109470
    },
    {
      "epoch": 0.22808333333333333,
      "grad_norm": 0.8419045805931091,
      "learning_rate": 0.0002641057010995089,
      "loss": 3.9073,
      "step": 109480
    },
    {
      "epoch": 0.22810416666666666,
      "grad_norm": 0.9332680702209473,
      "learning_rate": 0.0002640993016837472,
      "loss": 3.7823,
      "step": 109490
    },
    {
      "epoch": 0.228125,
      "grad_norm": 0.7900363802909851,
      "learning_rate": 0.0002640929017751217,
      "loss": 3.8347,
      "step": 109500
    },
    {
      "epoch": 0.22814583333333333,
      "grad_norm": 0.7122859358787537,
      "learning_rate": 0.00026408650137366006,
      "loss": 4.0859,
      "step": 109510
    },
    {
      "epoch": 0.22816666666666666,
      "grad_norm": 0.8112831711769104,
      "learning_rate": 0.00026408010047938987,
      "loss": 3.971,
      "step": 109520
    },
    {
      "epoch": 0.2281875,
      "grad_norm": 0.8198418021202087,
      "learning_rate": 0.0002640736990923388,
      "loss": 3.867,
      "step": 109530
    },
    {
      "epoch": 0.22820833333333335,
      "grad_norm": 0.7016808986663818,
      "learning_rate": 0.0002640672972125345,
      "loss": 4.0692,
      "step": 109540
    },
    {
      "epoch": 0.22822916666666668,
      "grad_norm": 0.7392622232437134,
      "learning_rate": 0.00026406089484000466,
      "loss": 3.8595,
      "step": 109550
    },
    {
      "epoch": 0.22825,
      "grad_norm": 0.7799830436706543,
      "learning_rate": 0.00026405449197477684,
      "loss": 3.922,
      "step": 109560
    },
    {
      "epoch": 0.22827083333333334,
      "grad_norm": 1.1229808330535889,
      "learning_rate": 0.00026404808861687877,
      "loss": 3.8587,
      "step": 109570
    },
    {
      "epoch": 0.22829166666666667,
      "grad_norm": 0.7212927937507629,
      "learning_rate": 0.0002640416847663381,
      "loss": 3.9411,
      "step": 109580
    },
    {
      "epoch": 0.2283125,
      "grad_norm": 0.9135217070579529,
      "learning_rate": 0.00026403528042318253,
      "loss": 3.9338,
      "step": 109590
    },
    {
      "epoch": 0.22833333333333333,
      "grad_norm": 0.9486455321311951,
      "learning_rate": 0.00026402887558743966,
      "loss": 3.7547,
      "step": 109600
    },
    {
      "epoch": 0.22835416666666666,
      "grad_norm": 0.8096184134483337,
      "learning_rate": 0.00026402247025913723,
      "loss": 4.0848,
      "step": 109610
    },
    {
      "epoch": 0.228375,
      "grad_norm": 0.7783848643302917,
      "learning_rate": 0.00026401606443830284,
      "loss": 4.0792,
      "step": 109620
    },
    {
      "epoch": 0.22839583333333333,
      "grad_norm": 0.765708863735199,
      "learning_rate": 0.00026400965812496414,
      "loss": 4.0049,
      "step": 109630
    },
    {
      "epoch": 0.22841666666666666,
      "grad_norm": 1.0106561183929443,
      "learning_rate": 0.00026400325131914894,
      "loss": 3.9896,
      "step": 109640
    },
    {
      "epoch": 0.2284375,
      "grad_norm": 0.9338300824165344,
      "learning_rate": 0.0002639968440208847,
      "loss": 3.8279,
      "step": 109650
    },
    {
      "epoch": 0.22845833333333335,
      "grad_norm": 0.6938652396202087,
      "learning_rate": 0.0002639904362301993,
      "loss": 4.0593,
      "step": 109660
    },
    {
      "epoch": 0.22847916666666668,
      "grad_norm": 0.7950575351715088,
      "learning_rate": 0.0002639840279471203,
      "loss": 3.8256,
      "step": 109670
    },
    {
      "epoch": 0.2285,
      "grad_norm": 0.863710343837738,
      "learning_rate": 0.0002639776191716754,
      "loss": 4.1375,
      "step": 109680
    },
    {
      "epoch": 0.22852083333333334,
      "grad_norm": 0.7684694528579712,
      "learning_rate": 0.00026397120990389233,
      "loss": 4.0483,
      "step": 109690
    },
    {
      "epoch": 0.22854166666666667,
      "grad_norm": 0.76094651222229,
      "learning_rate": 0.00026396480014379876,
      "loss": 3.7674,
      "step": 109700
    },
    {
      "epoch": 0.2285625,
      "grad_norm": 0.789027988910675,
      "learning_rate": 0.0002639583898914223,
      "loss": 3.8377,
      "step": 109710
    },
    {
      "epoch": 0.22858333333333333,
      "grad_norm": 0.6967670917510986,
      "learning_rate": 0.0002639519791467908,
      "loss": 3.7613,
      "step": 109720
    },
    {
      "epoch": 0.22860416666666666,
      "grad_norm": 1.0734822750091553,
      "learning_rate": 0.0002639455679099318,
      "loss": 3.8546,
      "step": 109730
    },
    {
      "epoch": 0.228625,
      "grad_norm": 0.9505367875099182,
      "learning_rate": 0.00026393915618087307,
      "loss": 3.999,
      "step": 109740
    },
    {
      "epoch": 0.22864583333333333,
      "grad_norm": 0.9332210421562195,
      "learning_rate": 0.00026393274395964224,
      "loss": 3.9409,
      "step": 109750
    },
    {
      "epoch": 0.22866666666666666,
      "grad_norm": 0.7475576400756836,
      "learning_rate": 0.00026392633124626706,
      "loss": 3.9663,
      "step": 109760
    },
    {
      "epoch": 0.2286875,
      "grad_norm": 0.7160632610321045,
      "learning_rate": 0.0002639199180407753,
      "loss": 3.8305,
      "step": 109770
    },
    {
      "epoch": 0.22870833333333335,
      "grad_norm": 0.7517324686050415,
      "learning_rate": 0.0002639135043431945,
      "loss": 3.7539,
      "step": 109780
    },
    {
      "epoch": 0.22872916666666668,
      "grad_norm": 0.818114697933197,
      "learning_rate": 0.0002639070901535525,
      "loss": 3.9507,
      "step": 109790
    },
    {
      "epoch": 0.22875,
      "grad_norm": 0.7590651512145996,
      "learning_rate": 0.00026390067547187696,
      "loss": 4.0164,
      "step": 109800
    },
    {
      "epoch": 0.22877083333333334,
      "grad_norm": 0.7373353838920593,
      "learning_rate": 0.0002638942602981956,
      "loss": 3.8152,
      "step": 109810
    },
    {
      "epoch": 0.22879166666666667,
      "grad_norm": 0.7649748921394348,
      "learning_rate": 0.00026388784463253603,
      "loss": 3.8372,
      "step": 109820
    },
    {
      "epoch": 0.2288125,
      "grad_norm": 0.9198845028877258,
      "learning_rate": 0.00026388142847492616,
      "loss": 3.8272,
      "step": 109830
    },
    {
      "epoch": 0.22883333333333333,
      "grad_norm": 0.7580945491790771,
      "learning_rate": 0.00026387501182539353,
      "loss": 3.8579,
      "step": 109840
    },
    {
      "epoch": 0.22885416666666666,
      "grad_norm": 0.8657234311103821,
      "learning_rate": 0.00026386859468396597,
      "loss": 3.8016,
      "step": 109850
    },
    {
      "epoch": 0.228875,
      "grad_norm": 0.7559195160865784,
      "learning_rate": 0.0002638621770506711,
      "loss": 3.9147,
      "step": 109860
    },
    {
      "epoch": 0.22889583333333333,
      "grad_norm": 0.8593403697013855,
      "learning_rate": 0.0002638557589255367,
      "loss": 3.9565,
      "step": 109870
    },
    {
      "epoch": 0.22891666666666666,
      "grad_norm": 0.8786885738372803,
      "learning_rate": 0.0002638493403085905,
      "loss": 3.7291,
      "step": 109880
    },
    {
      "epoch": 0.2289375,
      "grad_norm": 0.8491235971450806,
      "learning_rate": 0.00026384292119986023,
      "loss": 3.9545,
      "step": 109890
    },
    {
      "epoch": 0.22895833333333335,
      "grad_norm": 0.6955267190933228,
      "learning_rate": 0.00026383650159937357,
      "loss": 4.1,
      "step": 109900
    },
    {
      "epoch": 0.22897916666666668,
      "grad_norm": 0.7136731147766113,
      "learning_rate": 0.00026383008150715834,
      "loss": 3.9432,
      "step": 109910
    },
    {
      "epoch": 0.229,
      "grad_norm": 1.0043952465057373,
      "learning_rate": 0.0002638236609232422,
      "loss": 3.997,
      "step": 109920
    },
    {
      "epoch": 0.22902083333333334,
      "grad_norm": 0.7582695484161377,
      "learning_rate": 0.00026381723984765287,
      "loss": 3.9381,
      "step": 109930
    },
    {
      "epoch": 0.22904166666666667,
      "grad_norm": 0.7013106942176819,
      "learning_rate": 0.0002638108182804181,
      "loss": 3.9009,
      "step": 109940
    },
    {
      "epoch": 0.2290625,
      "grad_norm": 0.8008269667625427,
      "learning_rate": 0.00026380439622156567,
      "loss": 4.1077,
      "step": 109950
    },
    {
      "epoch": 0.22908333333333333,
      "grad_norm": 0.742562472820282,
      "learning_rate": 0.0002637979736711233,
      "loss": 3.8171,
      "step": 109960
    },
    {
      "epoch": 0.22910416666666666,
      "grad_norm": 0.8089008331298828,
      "learning_rate": 0.0002637915506291187,
      "loss": 3.7811,
      "step": 109970
    },
    {
      "epoch": 0.229125,
      "grad_norm": 0.830127477645874,
      "learning_rate": 0.0002637851270955797,
      "loss": 3.8195,
      "step": 109980
    },
    {
      "epoch": 0.22914583333333333,
      "grad_norm": 0.8295267820358276,
      "learning_rate": 0.00026377870307053397,
      "loss": 3.8919,
      "step": 109990
    },
    {
      "epoch": 0.22916666666666666,
      "grad_norm": 0.718661367893219,
      "learning_rate": 0.00026377227855400924,
      "loss": 3.8697,
      "step": 110000
    },
    {
      "epoch": 0.22916666666666666,
      "eval_loss": 4.249701499938965,
      "eval_runtime": 10.5597,
      "eval_samples_per_second": 0.947,
      "eval_steps_per_second": 0.284,
      "step": 110000
    },
    {
      "epoch": 0.2291875,
      "grad_norm": 0.7415273189544678,
      "learning_rate": 0.00026376585354603334,
      "loss": 3.7861,
      "step": 110010
    },
    {
      "epoch": 0.22920833333333332,
      "grad_norm": 0.7925416231155396,
      "learning_rate": 0.00026375942804663397,
      "loss": 3.9635,
      "step": 110020
    },
    {
      "epoch": 0.22922916666666668,
      "grad_norm": 0.7430617809295654,
      "learning_rate": 0.0002637530020558389,
      "loss": 3.9246,
      "step": 110030
    },
    {
      "epoch": 0.22925,
      "grad_norm": 0.7445803284645081,
      "learning_rate": 0.00026374657557367594,
      "loss": 3.8988,
      "step": 110040
    },
    {
      "epoch": 0.22927083333333334,
      "grad_norm": 0.7336782217025757,
      "learning_rate": 0.00026374014860017274,
      "loss": 4.0082,
      "step": 110050
    },
    {
      "epoch": 0.22929166666666667,
      "grad_norm": 0.6729409694671631,
      "learning_rate": 0.0002637337211353571,
      "loss": 4.0101,
      "step": 110060
    },
    {
      "epoch": 0.2293125,
      "grad_norm": 0.7361496686935425,
      "learning_rate": 0.0002637272931792568,
      "loss": 3.8981,
      "step": 110070
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 0.7461500763893127,
      "learning_rate": 0.00026372086473189964,
      "loss": 3.8955,
      "step": 110080
    },
    {
      "epoch": 0.22935416666666666,
      "grad_norm": 0.7760915756225586,
      "learning_rate": 0.0002637144357933134,
      "loss": 3.8394,
      "step": 110090
    },
    {
      "epoch": 0.229375,
      "grad_norm": 0.8526029586791992,
      "learning_rate": 0.0002637080063635258,
      "loss": 3.8861,
      "step": 110100
    },
    {
      "epoch": 0.22939583333333333,
      "grad_norm": 0.8022934794425964,
      "learning_rate": 0.00026370157644256455,
      "loss": 4.0007,
      "step": 110110
    },
    {
      "epoch": 0.22941666666666666,
      "grad_norm": 0.7521193623542786,
      "learning_rate": 0.0002636951460304575,
      "loss": 3.9473,
      "step": 110120
    },
    {
      "epoch": 0.2294375,
      "grad_norm": 0.7516229748725891,
      "learning_rate": 0.0002636887151272325,
      "loss": 4.0419,
      "step": 110130
    },
    {
      "epoch": 0.22945833333333332,
      "grad_norm": 0.6763893365859985,
      "learning_rate": 0.0002636822837329172,
      "loss": 3.8682,
      "step": 110140
    },
    {
      "epoch": 0.22947916666666668,
      "grad_norm": 0.7663094997406006,
      "learning_rate": 0.00026367585184753945,
      "loss": 3.866,
      "step": 110150
    },
    {
      "epoch": 0.2295,
      "grad_norm": 0.882121205329895,
      "learning_rate": 0.000263669419471127,
      "loss": 4.0151,
      "step": 110160
    },
    {
      "epoch": 0.22952083333333334,
      "grad_norm": 0.6913464665412903,
      "learning_rate": 0.00026366298660370765,
      "loss": 3.8905,
      "step": 110170
    },
    {
      "epoch": 0.22954166666666667,
      "grad_norm": 0.7483918070793152,
      "learning_rate": 0.00026365655324530924,
      "loss": 4.0546,
      "step": 110180
    },
    {
      "epoch": 0.2295625,
      "grad_norm": 0.7755992412567139,
      "learning_rate": 0.0002636501193959594,
      "loss": 3.7696,
      "step": 110190
    },
    {
      "epoch": 0.22958333333333333,
      "grad_norm": 0.7326026558876038,
      "learning_rate": 0.00026364368505568615,
      "loss": 3.8869,
      "step": 110200
    },
    {
      "epoch": 0.22960416666666666,
      "grad_norm": 0.7769258618354797,
      "learning_rate": 0.0002636372502245171,
      "loss": 3.9524,
      "step": 110210
    },
    {
      "epoch": 0.229625,
      "grad_norm": 0.7584809064865112,
      "learning_rate": 0.0002636308149024801,
      "loss": 3.8568,
      "step": 110220
    },
    {
      "epoch": 0.22964583333333333,
      "grad_norm": 0.7712398767471313,
      "learning_rate": 0.000263624379089603,
      "loss": 3.8487,
      "step": 110230
    },
    {
      "epoch": 0.22966666666666666,
      "grad_norm": 0.7107548117637634,
      "learning_rate": 0.0002636179427859135,
      "loss": 3.8059,
      "step": 110240
    },
    {
      "epoch": 0.2296875,
      "grad_norm": 0.9684906005859375,
      "learning_rate": 0.0002636115059914395,
      "loss": 3.8416,
      "step": 110250
    },
    {
      "epoch": 0.22970833333333332,
      "grad_norm": 0.7956709861755371,
      "learning_rate": 0.00026360506870620883,
      "loss": 3.8661,
      "step": 110260
    },
    {
      "epoch": 0.22972916666666668,
      "grad_norm": 0.7930283546447754,
      "learning_rate": 0.00026359863093024916,
      "loss": 4.023,
      "step": 110270
    },
    {
      "epoch": 0.22975,
      "grad_norm": 0.7595381140708923,
      "learning_rate": 0.00026359219266358836,
      "loss": 4.0126,
      "step": 110280
    },
    {
      "epoch": 0.22977083333333334,
      "grad_norm": 0.6647530198097229,
      "learning_rate": 0.00026358575390625426,
      "loss": 3.9504,
      "step": 110290
    },
    {
      "epoch": 0.22979166666666667,
      "grad_norm": 0.7436468005180359,
      "learning_rate": 0.0002635793146582747,
      "loss": 3.8658,
      "step": 110300
    },
    {
      "epoch": 0.2298125,
      "grad_norm": 0.7605845928192139,
      "learning_rate": 0.0002635728749196774,
      "loss": 3.8086,
      "step": 110310
    },
    {
      "epoch": 0.22983333333333333,
      "grad_norm": 0.7105920910835266,
      "learning_rate": 0.0002635664346904902,
      "loss": 3.8331,
      "step": 110320
    },
    {
      "epoch": 0.22985416666666666,
      "grad_norm": 0.7485894560813904,
      "learning_rate": 0.00026355999397074107,
      "loss": 3.9268,
      "step": 110330
    },
    {
      "epoch": 0.229875,
      "grad_norm": 0.8219748735427856,
      "learning_rate": 0.00026355355276045766,
      "loss": 4.0463,
      "step": 110340
    },
    {
      "epoch": 0.22989583333333333,
      "grad_norm": 0.8608161211013794,
      "learning_rate": 0.00026354711105966785,
      "loss": 3.8347,
      "step": 110350
    },
    {
      "epoch": 0.22991666666666666,
      "grad_norm": 0.746091365814209,
      "learning_rate": 0.00026354066886839946,
      "loss": 3.7858,
      "step": 110360
    },
    {
      "epoch": 0.2299375,
      "grad_norm": 0.804319441318512,
      "learning_rate": 0.00026353422618668034,
      "loss": 4.1033,
      "step": 110370
    },
    {
      "epoch": 0.22995833333333332,
      "grad_norm": 0.7565343976020813,
      "learning_rate": 0.0002635277830145383,
      "loss": 3.941,
      "step": 110380
    },
    {
      "epoch": 0.22997916666666668,
      "grad_norm": 0.8230046629905701,
      "learning_rate": 0.00026352133935200116,
      "loss": 3.8843,
      "step": 110390
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8380718231201172,
      "learning_rate": 0.0002635148951990968,
      "loss": 3.9133,
      "step": 110400
    },
    {
      "epoch": 0.23002083333333334,
      "grad_norm": 0.9129257202148438,
      "learning_rate": 0.00026350845055585296,
      "loss": 3.8807,
      "step": 110410
    },
    {
      "epoch": 0.23004166666666667,
      "grad_norm": 0.7682124972343445,
      "learning_rate": 0.00026350200542229763,
      "loss": 4.0301,
      "step": 110420
    },
    {
      "epoch": 0.2300625,
      "grad_norm": 0.8067581057548523,
      "learning_rate": 0.0002634955597984585,
      "loss": 3.8033,
      "step": 110430
    },
    {
      "epoch": 0.23008333333333333,
      "grad_norm": 0.8139240741729736,
      "learning_rate": 0.00026348911368436346,
      "loss": 3.8868,
      "step": 110440
    },
    {
      "epoch": 0.23010416666666667,
      "grad_norm": 0.7920733690261841,
      "learning_rate": 0.0002634826670800404,
      "loss": 3.8681,
      "step": 110450
    },
    {
      "epoch": 0.230125,
      "grad_norm": 0.7330632209777832,
      "learning_rate": 0.00026347621998551717,
      "loss": 3.781,
      "step": 110460
    },
    {
      "epoch": 0.23014583333333333,
      "grad_norm": 0.7772855758666992,
      "learning_rate": 0.0002634697724008216,
      "loss": 3.9946,
      "step": 110470
    },
    {
      "epoch": 0.23016666666666666,
      "grad_norm": 0.8419053554534912,
      "learning_rate": 0.0002634633243259814,
      "loss": 4.0081,
      "step": 110480
    },
    {
      "epoch": 0.2301875,
      "grad_norm": 0.7357924580574036,
      "learning_rate": 0.0002634568757610247,
      "loss": 3.855,
      "step": 110490
    },
    {
      "epoch": 0.23020833333333332,
      "grad_norm": 1.0452427864074707,
      "learning_rate": 0.0002634504267059792,
      "loss": 3.8022,
      "step": 110500
    },
    {
      "epoch": 0.23022916666666668,
      "grad_norm": 0.6946810483932495,
      "learning_rate": 0.00026344397716087265,
      "loss": 4.0258,
      "step": 110510
    },
    {
      "epoch": 0.23025,
      "grad_norm": 0.9397356510162354,
      "learning_rate": 0.0002634375271257331,
      "loss": 3.9896,
      "step": 110520
    },
    {
      "epoch": 0.23027083333333334,
      "grad_norm": 0.7494910955429077,
      "learning_rate": 0.0002634310766005883,
      "loss": 4.1399,
      "step": 110530
    },
    {
      "epoch": 0.23029166666666667,
      "grad_norm": 0.8289433121681213,
      "learning_rate": 0.00026342462558546614,
      "loss": 3.9751,
      "step": 110540
    },
    {
      "epoch": 0.2303125,
      "grad_norm": 0.8440728783607483,
      "learning_rate": 0.00026341817408039454,
      "loss": 3.8619,
      "step": 110550
    },
    {
      "epoch": 0.23033333333333333,
      "grad_norm": 0.9003103375434875,
      "learning_rate": 0.0002634117220854013,
      "loss": 3.9259,
      "step": 110560
    },
    {
      "epoch": 0.23035416666666667,
      "grad_norm": 0.7315119504928589,
      "learning_rate": 0.0002634052696005143,
      "loss": 3.9721,
      "step": 110570
    },
    {
      "epoch": 0.230375,
      "grad_norm": 0.7476469874382019,
      "learning_rate": 0.00026339881662576145,
      "loss": 3.8515,
      "step": 110580
    },
    {
      "epoch": 0.23039583333333333,
      "grad_norm": 0.9370314478874207,
      "learning_rate": 0.00026339236316117056,
      "loss": 3.9393,
      "step": 110590
    },
    {
      "epoch": 0.23041666666666666,
      "grad_norm": 0.7821308374404907,
      "learning_rate": 0.0002633859092067696,
      "loss": 3.8511,
      "step": 110600
    },
    {
      "epoch": 0.2304375,
      "grad_norm": 0.938216507434845,
      "learning_rate": 0.0002633794547625863,
      "loss": 3.8838,
      "step": 110610
    },
    {
      "epoch": 0.23045833333333332,
      "grad_norm": 0.6697997450828552,
      "learning_rate": 0.00026337299982864875,
      "loss": 3.8901,
      "step": 110620
    },
    {
      "epoch": 0.23047916666666668,
      "grad_norm": 0.7944203019142151,
      "learning_rate": 0.0002633665444049847,
      "loss": 3.9081,
      "step": 110630
    },
    {
      "epoch": 0.2305,
      "grad_norm": 0.7712404131889343,
      "learning_rate": 0.000263360088491622,
      "loss": 3.9264,
      "step": 110640
    },
    {
      "epoch": 0.23052083333333334,
      "grad_norm": 0.7657455801963806,
      "learning_rate": 0.0002633536320885886,
      "loss": 3.806,
      "step": 110650
    },
    {
      "epoch": 0.23054166666666667,
      "grad_norm": 0.8278506398200989,
      "learning_rate": 0.0002633471751959124,
      "loss": 3.9548,
      "step": 110660
    },
    {
      "epoch": 0.2305625,
      "grad_norm": 0.7828817963600159,
      "learning_rate": 0.00026334071781362124,
      "loss": 3.9745,
      "step": 110670
    },
    {
      "epoch": 0.23058333333333333,
      "grad_norm": 0.7219924926757812,
      "learning_rate": 0.00026333425994174304,
      "loss": 3.8848,
      "step": 110680
    },
    {
      "epoch": 0.23060416666666667,
      "grad_norm": 0.7578567266464233,
      "learning_rate": 0.0002633278015803057,
      "loss": 3.7908,
      "step": 110690
    },
    {
      "epoch": 0.230625,
      "grad_norm": 0.8224273324012756,
      "learning_rate": 0.00026332134272933716,
      "loss": 3.8528,
      "step": 110700
    },
    {
      "epoch": 0.23064583333333333,
      "grad_norm": 0.891659140586853,
      "learning_rate": 0.0002633148833888652,
      "loss": 3.8193,
      "step": 110710
    },
    {
      "epoch": 0.23066666666666666,
      "grad_norm": 0.8037193417549133,
      "learning_rate": 0.0002633084235589179,
      "loss": 3.8481,
      "step": 110720
    },
    {
      "epoch": 0.2306875,
      "grad_norm": 0.7784743905067444,
      "learning_rate": 0.000263301963239523,
      "loss": 3.9424,
      "step": 110730
    },
    {
      "epoch": 0.23070833333333332,
      "grad_norm": 0.7517142295837402,
      "learning_rate": 0.00026329550243070845,
      "loss": 4.0266,
      "step": 110740
    },
    {
      "epoch": 0.23072916666666668,
      "grad_norm": 0.6955044269561768,
      "learning_rate": 0.00026328904113250213,
      "loss": 3.9015,
      "step": 110750
    },
    {
      "epoch": 0.23075,
      "grad_norm": 0.8060383796691895,
      "learning_rate": 0.0002632825793449321,
      "loss": 3.8304,
      "step": 110760
    },
    {
      "epoch": 0.23077083333333334,
      "grad_norm": 0.7709038853645325,
      "learning_rate": 0.0002632761170680261,
      "loss": 3.8963,
      "step": 110770
    },
    {
      "epoch": 0.23079166666666667,
      "grad_norm": 0.7380147576332092,
      "learning_rate": 0.00026326965430181217,
      "loss": 3.8006,
      "step": 110780
    },
    {
      "epoch": 0.2308125,
      "grad_norm": 0.8429622054100037,
      "learning_rate": 0.00026326319104631816,
      "loss": 3.9463,
      "step": 110790
    },
    {
      "epoch": 0.23083333333333333,
      "grad_norm": 0.6555927395820618,
      "learning_rate": 0.00026325672730157196,
      "loss": 3.9201,
      "step": 110800
    },
    {
      "epoch": 0.23085416666666667,
      "grad_norm": 0.7551180124282837,
      "learning_rate": 0.00026325026306760153,
      "loss": 3.9295,
      "step": 110810
    },
    {
      "epoch": 0.230875,
      "grad_norm": 0.714095413684845,
      "learning_rate": 0.0002632437983444348,
      "loss": 3.7702,
      "step": 110820
    },
    {
      "epoch": 0.23089583333333333,
      "grad_norm": 0.9376791715621948,
      "learning_rate": 0.0002632373331320997,
      "loss": 3.9306,
      "step": 110830
    },
    {
      "epoch": 0.23091666666666666,
      "grad_norm": 0.8611328601837158,
      "learning_rate": 0.0002632308674306241,
      "loss": 4.0446,
      "step": 110840
    },
    {
      "epoch": 0.2309375,
      "grad_norm": 0.8162150382995605,
      "learning_rate": 0.00026322440124003604,
      "loss": 3.903,
      "step": 110850
    },
    {
      "epoch": 0.23095833333333332,
      "grad_norm": 0.7970434427261353,
      "learning_rate": 0.0002632179345603633,
      "loss": 4.04,
      "step": 110860
    },
    {
      "epoch": 0.23097916666666668,
      "grad_norm": 0.7253361940383911,
      "learning_rate": 0.000263211467391634,
      "loss": 4.0305,
      "step": 110870
    },
    {
      "epoch": 0.231,
      "grad_norm": 0.718839704990387,
      "learning_rate": 0.0002632049997338759,
      "loss": 3.9479,
      "step": 110880
    },
    {
      "epoch": 0.23102083333333334,
      "grad_norm": 0.8014327883720398,
      "learning_rate": 0.000263198531587117,
      "loss": 3.8546,
      "step": 110890
    },
    {
      "epoch": 0.23104166666666667,
      "grad_norm": 0.6378292441368103,
      "learning_rate": 0.0002631920629513853,
      "loss": 3.9452,
      "step": 110900
    },
    {
      "epoch": 0.2310625,
      "grad_norm": 0.7460970282554626,
      "learning_rate": 0.00026318559382670865,
      "loss": 3.8953,
      "step": 110910
    },
    {
      "epoch": 0.23108333333333334,
      "grad_norm": 0.7733733057975769,
      "learning_rate": 0.0002631791242131151,
      "loss": 3.8513,
      "step": 110920
    },
    {
      "epoch": 0.23110416666666667,
      "grad_norm": 0.6646256446838379,
      "learning_rate": 0.00026317265411063246,
      "loss": 3.8363,
      "step": 110930
    },
    {
      "epoch": 0.231125,
      "grad_norm": 0.6862418055534363,
      "learning_rate": 0.0002631661835192888,
      "loss": 3.8604,
      "step": 110940
    },
    {
      "epoch": 0.23114583333333333,
      "grad_norm": 0.8158310055732727,
      "learning_rate": 0.000263159712439112,
      "loss": 3.95,
      "step": 110950
    },
    {
      "epoch": 0.23116666666666666,
      "grad_norm": 0.8497163653373718,
      "learning_rate": 0.00026315324087013,
      "loss": 3.9401,
      "step": 110960
    },
    {
      "epoch": 0.2311875,
      "grad_norm": 0.8626744747161865,
      "learning_rate": 0.0002631467688123709,
      "loss": 3.954,
      "step": 110970
    },
    {
      "epoch": 0.23120833333333332,
      "grad_norm": 0.8702007532119751,
      "learning_rate": 0.00026314029626586246,
      "loss": 3.8886,
      "step": 110980
    },
    {
      "epoch": 0.23122916666666668,
      "grad_norm": 0.7809944152832031,
      "learning_rate": 0.0002631338232306327,
      "loss": 3.9979,
      "step": 110990
    },
    {
      "epoch": 0.23125,
      "grad_norm": 1.011650800704956,
      "learning_rate": 0.00026312734970670965,
      "loss": 3.899,
      "step": 111000
    },
    {
      "epoch": 0.23125,
      "eval_loss": 4.259222984313965,
      "eval_runtime": 12.1814,
      "eval_samples_per_second": 0.821,
      "eval_steps_per_second": 0.246,
      "step": 111000
    },
    {
      "epoch": 0.23127083333333334,
      "grad_norm": 0.7447972297668457,
      "learning_rate": 0.00026312087569412126,
      "loss": 3.9835,
      "step": 111010
    },
    {
      "epoch": 0.23129166666666667,
      "grad_norm": 0.7871766686439514,
      "learning_rate": 0.0002631144011928954,
      "loss": 4.0029,
      "step": 111020
    },
    {
      "epoch": 0.2313125,
      "grad_norm": 0.7316348552703857,
      "learning_rate": 0.00026310792620306016,
      "loss": 3.9094,
      "step": 111030
    },
    {
      "epoch": 0.23133333333333334,
      "grad_norm": 0.7284290194511414,
      "learning_rate": 0.0002631014507246434,
      "loss": 3.777,
      "step": 111040
    },
    {
      "epoch": 0.23135416666666667,
      "grad_norm": 0.671930193901062,
      "learning_rate": 0.00026309497475767314,
      "loss": 3.9091,
      "step": 111050
    },
    {
      "epoch": 0.231375,
      "grad_norm": 0.7103212475776672,
      "learning_rate": 0.0002630884983021774,
      "loss": 3.9506,
      "step": 111060
    },
    {
      "epoch": 0.23139583333333333,
      "grad_norm": 1.211203932762146,
      "learning_rate": 0.00026308202135818403,
      "loss": 4.0763,
      "step": 111070
    },
    {
      "epoch": 0.23141666666666666,
      "grad_norm": 0.8662888407707214,
      "learning_rate": 0.0002630755439257211,
      "loss": 3.9137,
      "step": 111080
    },
    {
      "epoch": 0.2314375,
      "grad_norm": 0.7737754583358765,
      "learning_rate": 0.0002630690660048167,
      "loss": 3.8654,
      "step": 111090
    },
    {
      "epoch": 0.23145833333333332,
      "grad_norm": 0.7639414668083191,
      "learning_rate": 0.00026306258759549857,
      "loss": 3.9977,
      "step": 111100
    },
    {
      "epoch": 0.23147916666666668,
      "grad_norm": 0.7029449343681335,
      "learning_rate": 0.00026305610869779486,
      "loss": 3.8866,
      "step": 111110
    },
    {
      "epoch": 0.2315,
      "grad_norm": 0.725816547870636,
      "learning_rate": 0.00026304962931173354,
      "loss": 3.8516,
      "step": 111120
    },
    {
      "epoch": 0.23152083333333334,
      "grad_norm": 0.7402777075767517,
      "learning_rate": 0.0002630431494373425,
      "loss": 3.9251,
      "step": 111130
    },
    {
      "epoch": 0.23154166666666667,
      "grad_norm": 0.6928304433822632,
      "learning_rate": 0.0002630366690746498,
      "loss": 3.7762,
      "step": 111140
    },
    {
      "epoch": 0.2315625,
      "grad_norm": 1.0071220397949219,
      "learning_rate": 0.00026303018822368353,
      "loss": 3.9681,
      "step": 111150
    },
    {
      "epoch": 0.23158333333333334,
      "grad_norm": 0.6975928544998169,
      "learning_rate": 0.0002630237068844715,
      "loss": 4.0362,
      "step": 111160
    },
    {
      "epoch": 0.23160416666666667,
      "grad_norm": 0.7705450654029846,
      "learning_rate": 0.00026301722505704184,
      "loss": 3.9652,
      "step": 111170
    },
    {
      "epoch": 0.231625,
      "grad_norm": 0.7328722476959229,
      "learning_rate": 0.0002630107427414225,
      "loss": 3.7845,
      "step": 111180
    },
    {
      "epoch": 0.23164583333333333,
      "grad_norm": 0.8429649472236633,
      "learning_rate": 0.00026300425993764146,
      "loss": 3.7654,
      "step": 111190
    },
    {
      "epoch": 0.23166666666666666,
      "grad_norm": 0.6927450299263,
      "learning_rate": 0.0002629977766457268,
      "loss": 3.8065,
      "step": 111200
    },
    {
      "epoch": 0.2316875,
      "grad_norm": 0.8214758038520813,
      "learning_rate": 0.00026299129286570637,
      "loss": 3.8802,
      "step": 111210
    },
    {
      "epoch": 0.23170833333333332,
      "grad_norm": 0.8582007884979248,
      "learning_rate": 0.0002629848085976084,
      "loss": 3.9225,
      "step": 111220
    },
    {
      "epoch": 0.23172916666666668,
      "grad_norm": 0.8587452173233032,
      "learning_rate": 0.0002629783238414607,
      "loss": 3.8799,
      "step": 111230
    },
    {
      "epoch": 0.23175,
      "grad_norm": 0.7185875773429871,
      "learning_rate": 0.00026297183859729135,
      "loss": 3.9331,
      "step": 111240
    },
    {
      "epoch": 0.23177083333333334,
      "grad_norm": 0.7874863743782043,
      "learning_rate": 0.0002629653528651284,
      "loss": 4.0469,
      "step": 111250
    },
    {
      "epoch": 0.23179166666666667,
      "grad_norm": 0.688462495803833,
      "learning_rate": 0.00026295886664499984,
      "loss": 3.856,
      "step": 111260
    },
    {
      "epoch": 0.2318125,
      "grad_norm": 0.7100249528884888,
      "learning_rate": 0.0002629523799369337,
      "loss": 3.8522,
      "step": 111270
    },
    {
      "epoch": 0.23183333333333334,
      "grad_norm": 0.717502236366272,
      "learning_rate": 0.000262945892740958,
      "loss": 3.7062,
      "step": 111280
    },
    {
      "epoch": 0.23185416666666667,
      "grad_norm": 0.7285719513893127,
      "learning_rate": 0.00026293940505710067,
      "loss": 3.8296,
      "step": 111290
    },
    {
      "epoch": 0.231875,
      "grad_norm": 0.7048869132995605,
      "learning_rate": 0.0002629329168853899,
      "loss": 3.8523,
      "step": 111300
    },
    {
      "epoch": 0.23189583333333333,
      "grad_norm": 0.9402475953102112,
      "learning_rate": 0.0002629264282258536,
      "loss": 4.0261,
      "step": 111310
    },
    {
      "epoch": 0.23191666666666666,
      "grad_norm": 0.7475755214691162,
      "learning_rate": 0.00026291993907851983,
      "loss": 3.8453,
      "step": 111320
    },
    {
      "epoch": 0.2319375,
      "grad_norm": 0.6509888172149658,
      "learning_rate": 0.00026291344944341666,
      "loss": 3.946,
      "step": 111330
    },
    {
      "epoch": 0.23195833333333332,
      "grad_norm": 0.6837831735610962,
      "learning_rate": 0.000262906959320572,
      "loss": 3.9729,
      "step": 111340
    },
    {
      "epoch": 0.23197916666666665,
      "grad_norm": 0.8936699032783508,
      "learning_rate": 0.000262900468710014,
      "loss": 4.0117,
      "step": 111350
    },
    {
      "epoch": 0.232,
      "grad_norm": 0.8879022598266602,
      "learning_rate": 0.0002628939776117707,
      "loss": 3.7899,
      "step": 111360
    },
    {
      "epoch": 0.23202083333333334,
      "grad_norm": 0.710128128528595,
      "learning_rate": 0.00026288748602587005,
      "loss": 4.1887,
      "step": 111370
    },
    {
      "epoch": 0.23204166666666667,
      "grad_norm": 0.7109906077384949,
      "learning_rate": 0.0002628809939523402,
      "loss": 3.927,
      "step": 111380
    },
    {
      "epoch": 0.2320625,
      "grad_norm": 0.7970317006111145,
      "learning_rate": 0.0002628745013912091,
      "loss": 3.9565,
      "step": 111390
    },
    {
      "epoch": 0.23208333333333334,
      "grad_norm": 0.770982027053833,
      "learning_rate": 0.0002628680083425049,
      "loss": 3.8723,
      "step": 111400
    },
    {
      "epoch": 0.23210416666666667,
      "grad_norm": 0.7223377823829651,
      "learning_rate": 0.0002628615148062555,
      "loss": 3.8235,
      "step": 111410
    },
    {
      "epoch": 0.232125,
      "grad_norm": 0.8547884225845337,
      "learning_rate": 0.00026285502078248905,
      "loss": 3.9321,
      "step": 111420
    },
    {
      "epoch": 0.23214583333333333,
      "grad_norm": 0.7768958210945129,
      "learning_rate": 0.00026284852627123356,
      "loss": 3.9343,
      "step": 111430
    },
    {
      "epoch": 0.23216666666666666,
      "grad_norm": 0.7044298648834229,
      "learning_rate": 0.0002628420312725172,
      "loss": 3.7384,
      "step": 111440
    },
    {
      "epoch": 0.2321875,
      "grad_norm": 0.6861140727996826,
      "learning_rate": 0.00026283553578636785,
      "loss": 3.9858,
      "step": 111450
    },
    {
      "epoch": 0.23220833333333332,
      "grad_norm": 0.7831413149833679,
      "learning_rate": 0.00026282903981281365,
      "loss": 3.8283,
      "step": 111460
    },
    {
      "epoch": 0.23222916666666665,
      "grad_norm": 0.9140717387199402,
      "learning_rate": 0.00026282254335188265,
      "loss": 3.889,
      "step": 111470
    },
    {
      "epoch": 0.23225,
      "grad_norm": 0.8580403327941895,
      "learning_rate": 0.00026281604640360294,
      "loss": 3.8962,
      "step": 111480
    },
    {
      "epoch": 0.23227083333333334,
      "grad_norm": 0.7603825330734253,
      "learning_rate": 0.0002628095489680026,
      "loss": 3.8639,
      "step": 111490
    },
    {
      "epoch": 0.23229166666666667,
      "grad_norm": 0.9072398543357849,
      "learning_rate": 0.00026280305104510964,
      "loss": 4.0419,
      "step": 111500
    },
    {
      "epoch": 0.2323125,
      "grad_norm": 0.8351004719734192,
      "learning_rate": 0.0002627965526349521,
      "loss": 3.7948,
      "step": 111510
    },
    {
      "epoch": 0.23233333333333334,
      "grad_norm": 0.758663535118103,
      "learning_rate": 0.00026279005373755813,
      "loss": 3.7984,
      "step": 111520
    },
    {
      "epoch": 0.23235416666666667,
      "grad_norm": 0.7044987678527832,
      "learning_rate": 0.0002627835543529558,
      "loss": 3.7625,
      "step": 111530
    },
    {
      "epoch": 0.232375,
      "grad_norm": 0.8230049014091492,
      "learning_rate": 0.00026277705448117316,
      "loss": 3.9412,
      "step": 111540
    },
    {
      "epoch": 0.23239583333333333,
      "grad_norm": 0.7038384675979614,
      "learning_rate": 0.0002627705541222382,
      "loss": 3.9714,
      "step": 111550
    },
    {
      "epoch": 0.23241666666666666,
      "grad_norm": 0.686237633228302,
      "learning_rate": 0.0002627640532761792,
      "loss": 3.9185,
      "step": 111560
    },
    {
      "epoch": 0.2324375,
      "grad_norm": 0.7641128301620483,
      "learning_rate": 0.0002627575519430241,
      "loss": 3.8886,
      "step": 111570
    },
    {
      "epoch": 0.23245833333333332,
      "grad_norm": 0.8373143672943115,
      "learning_rate": 0.00026275105012280096,
      "loss": 3.9086,
      "step": 111580
    },
    {
      "epoch": 0.23247916666666665,
      "grad_norm": 0.7255634069442749,
      "learning_rate": 0.0002627445478155379,
      "loss": 3.8907,
      "step": 111590
    },
    {
      "epoch": 0.2325,
      "grad_norm": 0.6677389740943909,
      "learning_rate": 0.0002627380450212631,
      "loss": 4.0584,
      "step": 111600
    },
    {
      "epoch": 0.23252083333333334,
      "grad_norm": 0.9531341791152954,
      "learning_rate": 0.00026273154174000457,
      "loss": 3.8513,
      "step": 111610
    },
    {
      "epoch": 0.23254166666666667,
      "grad_norm": 0.7701080441474915,
      "learning_rate": 0.0002627250379717903,
      "loss": 3.8268,
      "step": 111620
    },
    {
      "epoch": 0.2325625,
      "grad_norm": 0.7749426364898682,
      "learning_rate": 0.00026271853371664857,
      "loss": 3.9065,
      "step": 111630
    },
    {
      "epoch": 0.23258333333333334,
      "grad_norm": 0.5677282214164734,
      "learning_rate": 0.00026271202897460734,
      "loss": 3.9892,
      "step": 111640
    },
    {
      "epoch": 0.23260416666666667,
      "grad_norm": 0.7585051655769348,
      "learning_rate": 0.0002627055237456948,
      "loss": 3.802,
      "step": 111650
    },
    {
      "epoch": 0.232625,
      "grad_norm": 0.8361876010894775,
      "learning_rate": 0.000262699018029939,
      "loss": 3.9132,
      "step": 111660
    },
    {
      "epoch": 0.23264583333333333,
      "grad_norm": 0.7064248323440552,
      "learning_rate": 0.00026269251182736806,
      "loss": 3.7597,
      "step": 111670
    },
    {
      "epoch": 0.23266666666666666,
      "grad_norm": 0.7732850313186646,
      "learning_rate": 0.00026268600513801007,
      "loss": 3.9992,
      "step": 111680
    },
    {
      "epoch": 0.2326875,
      "grad_norm": 0.765714704990387,
      "learning_rate": 0.0002626794979618931,
      "loss": 3.9224,
      "step": 111690
    },
    {
      "epoch": 0.23270833333333332,
      "grad_norm": 0.6995965838432312,
      "learning_rate": 0.00026267299029904533,
      "loss": 3.9122,
      "step": 111700
    },
    {
      "epoch": 0.23272916666666665,
      "grad_norm": 0.7562347054481506,
      "learning_rate": 0.00026266648214949486,
      "loss": 3.9894,
      "step": 111710
    },
    {
      "epoch": 0.23275,
      "grad_norm": 0.7201587557792664,
      "learning_rate": 0.0002626599735132698,
      "loss": 3.8096,
      "step": 111720
    },
    {
      "epoch": 0.23277083333333334,
      "grad_norm": 0.6826424598693848,
      "learning_rate": 0.00026265346439039816,
      "loss": 4.0296,
      "step": 111730
    },
    {
      "epoch": 0.23279166666666667,
      "grad_norm": 0.7603018879890442,
      "learning_rate": 0.00026264695478090826,
      "loss": 3.8851,
      "step": 111740
    },
    {
      "epoch": 0.2328125,
      "grad_norm": 0.740297257900238,
      "learning_rate": 0.00026264044468482804,
      "loss": 4.0285,
      "step": 111750
    },
    {
      "epoch": 0.23283333333333334,
      "grad_norm": 0.7939237952232361,
      "learning_rate": 0.0002626339341021857,
      "loss": 3.8378,
      "step": 111760
    },
    {
      "epoch": 0.23285416666666667,
      "grad_norm": 0.7580857276916504,
      "learning_rate": 0.0002626274230330093,
      "loss": 4.0436,
      "step": 111770
    },
    {
      "epoch": 0.232875,
      "grad_norm": 0.840263307094574,
      "learning_rate": 0.000262620911477327,
      "loss": 3.8759,
      "step": 111780
    },
    {
      "epoch": 0.23289583333333333,
      "grad_norm": 0.7579668164253235,
      "learning_rate": 0.00026261439943516706,
      "loss": 3.7403,
      "step": 111790
    },
    {
      "epoch": 0.23291666666666666,
      "grad_norm": 0.7859682440757751,
      "learning_rate": 0.0002626078869065574,
      "loss": 3.924,
      "step": 111800
    },
    {
      "epoch": 0.2329375,
      "grad_norm": 0.7735762596130371,
      "learning_rate": 0.0002626013738915263,
      "loss": 4.0336,
      "step": 111810
    },
    {
      "epoch": 0.23295833333333332,
      "grad_norm": 0.7913901805877686,
      "learning_rate": 0.0002625948603901018,
      "loss": 4.0462,
      "step": 111820
    },
    {
      "epoch": 0.23297916666666665,
      "grad_norm": 0.6808672547340393,
      "learning_rate": 0.00026258834640231207,
      "loss": 3.9063,
      "step": 111830
    },
    {
      "epoch": 0.233,
      "grad_norm": 0.8610113263130188,
      "learning_rate": 0.00026258183192818526,
      "loss": 3.8985,
      "step": 111840
    },
    {
      "epoch": 0.23302083333333334,
      "grad_norm": 0.819995641708374,
      "learning_rate": 0.0002625753169677495,
      "loss": 3.9316,
      "step": 111850
    },
    {
      "epoch": 0.23304166666666667,
      "grad_norm": 0.7497013211250305,
      "learning_rate": 0.0002625688015210329,
      "loss": 3.9134,
      "step": 111860
    },
    {
      "epoch": 0.2330625,
      "grad_norm": 0.8400436043739319,
      "learning_rate": 0.00026256228558806365,
      "loss": 3.9156,
      "step": 111870
    },
    {
      "epoch": 0.23308333333333334,
      "grad_norm": 0.8771371841430664,
      "learning_rate": 0.0002625557691688699,
      "loss": 3.8162,
      "step": 111880
    },
    {
      "epoch": 0.23310416666666667,
      "grad_norm": 0.790725588798523,
      "learning_rate": 0.0002625492522634798,
      "loss": 3.7881,
      "step": 111890
    },
    {
      "epoch": 0.233125,
      "grad_norm": 0.7919836640357971,
      "learning_rate": 0.00026254273487192145,
      "loss": 3.886,
      "step": 111900
    },
    {
      "epoch": 0.23314583333333333,
      "grad_norm": 0.7582946419715881,
      "learning_rate": 0.000262536216994223,
      "loss": 3.8966,
      "step": 111910
    },
    {
      "epoch": 0.23316666666666666,
      "grad_norm": 0.7517276406288147,
      "learning_rate": 0.0002625296986304127,
      "loss": 3.7688,
      "step": 111920
    },
    {
      "epoch": 0.2331875,
      "grad_norm": 0.8119111657142639,
      "learning_rate": 0.0002625231797805186,
      "loss": 3.7797,
      "step": 111930
    },
    {
      "epoch": 0.23320833333333332,
      "grad_norm": 0.6608599424362183,
      "learning_rate": 0.0002625166604445689,
      "loss": 3.8323,
      "step": 111940
    },
    {
      "epoch": 0.23322916666666665,
      "grad_norm": 0.7229088544845581,
      "learning_rate": 0.00026251014062259184,
      "loss": 3.7491,
      "step": 111950
    },
    {
      "epoch": 0.23325,
      "grad_norm": 0.7446879148483276,
      "learning_rate": 0.0002625036203146154,
      "loss": 3.8828,
      "step": 111960
    },
    {
      "epoch": 0.23327083333333334,
      "grad_norm": 0.837006688117981,
      "learning_rate": 0.0002624970995206679,
      "loss": 3.8628,
      "step": 111970
    },
    {
      "epoch": 0.23329166666666667,
      "grad_norm": 0.7080159187316895,
      "learning_rate": 0.00026249057824077746,
      "loss": 3.7792,
      "step": 111980
    },
    {
      "epoch": 0.2333125,
      "grad_norm": 0.7472955584526062,
      "learning_rate": 0.0002624840564749722,
      "loss": 3.9049,
      "step": 111990
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 0.7172091007232666,
      "learning_rate": 0.0002624775342232804,
      "loss": 3.7349,
      "step": 112000
    },
    {
      "epoch": 0.23333333333333334,
      "eval_loss": 4.255408763885498,
      "eval_runtime": 9.3201,
      "eval_samples_per_second": 1.073,
      "eval_steps_per_second": 0.322,
      "step": 112000
    },
    {
      "epoch": 0.23335416666666667,
      "grad_norm": 0.7072089314460754,
      "learning_rate": 0.00026247101148573024,
      "loss": 3.6939,
      "step": 112010
    },
    {
      "epoch": 0.233375,
      "grad_norm": 0.7706016302108765,
      "learning_rate": 0.00026246448826234973,
      "loss": 3.871,
      "step": 112020
    },
    {
      "epoch": 0.23339583333333333,
      "grad_norm": 0.7672034502029419,
      "learning_rate": 0.00026245796455316717,
      "loss": 4.0457,
      "step": 112030
    },
    {
      "epoch": 0.23341666666666666,
      "grad_norm": 0.7202407717704773,
      "learning_rate": 0.0002624514403582107,
      "loss": 3.9787,
      "step": 112040
    },
    {
      "epoch": 0.2334375,
      "grad_norm": 0.7958422899246216,
      "learning_rate": 0.00026244491567750856,
      "loss": 4.0647,
      "step": 112050
    },
    {
      "epoch": 0.23345833333333332,
      "grad_norm": 0.6803152561187744,
      "learning_rate": 0.00026243839051108884,
      "loss": 3.7944,
      "step": 112060
    },
    {
      "epoch": 0.23347916666666665,
      "grad_norm": 0.7441197633743286,
      "learning_rate": 0.0002624318648589798,
      "loss": 3.9932,
      "step": 112070
    },
    {
      "epoch": 0.2335,
      "grad_norm": 0.8197855949401855,
      "learning_rate": 0.00026242533872120966,
      "loss": 3.702,
      "step": 112080
    },
    {
      "epoch": 0.23352083333333334,
      "grad_norm": 0.9275585412979126,
      "learning_rate": 0.00026241881209780653,
      "loss": 3.7043,
      "step": 112090
    },
    {
      "epoch": 0.23354166666666668,
      "grad_norm": 0.7420555353164673,
      "learning_rate": 0.00026241228498879857,
      "loss": 3.7687,
      "step": 112100
    },
    {
      "epoch": 0.2335625,
      "grad_norm": 0.7635204195976257,
      "learning_rate": 0.0002624057573942141,
      "loss": 3.9274,
      "step": 112110
    },
    {
      "epoch": 0.23358333333333334,
      "grad_norm": 0.7383560538291931,
      "learning_rate": 0.00026239922931408125,
      "loss": 3.9865,
      "step": 112120
    },
    {
      "epoch": 0.23360416666666667,
      "grad_norm": 0.706870436668396,
      "learning_rate": 0.00026239270074842816,
      "loss": 3.8564,
      "step": 112130
    },
    {
      "epoch": 0.233625,
      "grad_norm": 0.8389548659324646,
      "learning_rate": 0.00026238617169728316,
      "loss": 3.8187,
      "step": 112140
    },
    {
      "epoch": 0.23364583333333333,
      "grad_norm": 0.8292524218559265,
      "learning_rate": 0.00026237964216067433,
      "loss": 3.9247,
      "step": 112150
    },
    {
      "epoch": 0.23366666666666666,
      "grad_norm": 0.7681282162666321,
      "learning_rate": 0.00026237311213862997,
      "loss": 3.8309,
      "step": 112160
    },
    {
      "epoch": 0.2336875,
      "grad_norm": 0.7173855304718018,
      "learning_rate": 0.0002623665816311782,
      "loss": 3.7896,
      "step": 112170
    },
    {
      "epoch": 0.23370833333333332,
      "grad_norm": 0.7048563361167908,
      "learning_rate": 0.0002623600506383473,
      "loss": 4.0499,
      "step": 112180
    },
    {
      "epoch": 0.23372916666666665,
      "grad_norm": 0.8285587430000305,
      "learning_rate": 0.0002623535191601655,
      "loss": 3.8513,
      "step": 112190
    },
    {
      "epoch": 0.23375,
      "grad_norm": 0.69991534948349,
      "learning_rate": 0.0002623469871966609,
      "loss": 4.0091,
      "step": 112200
    },
    {
      "epoch": 0.23377083333333334,
      "grad_norm": 0.6780224442481995,
      "learning_rate": 0.00026234045474786183,
      "loss": 3.9649,
      "step": 112210
    },
    {
      "epoch": 0.23379166666666668,
      "grad_norm": 0.7998135685920715,
      "learning_rate": 0.0002623339218137964,
      "loss": 3.9319,
      "step": 112220
    },
    {
      "epoch": 0.2338125,
      "grad_norm": 0.9621427655220032,
      "learning_rate": 0.000262327388394493,
      "loss": 3.92,
      "step": 112230
    },
    {
      "epoch": 0.23383333333333334,
      "grad_norm": 0.7570099830627441,
      "learning_rate": 0.0002623208544899797,
      "loss": 3.8329,
      "step": 112240
    },
    {
      "epoch": 0.23385416666666667,
      "grad_norm": 0.7789862155914307,
      "learning_rate": 0.00026231432010028475,
      "loss": 3.9784,
      "step": 112250
    },
    {
      "epoch": 0.233875,
      "grad_norm": 0.6812233924865723,
      "learning_rate": 0.0002623077852254364,
      "loss": 3.9572,
      "step": 112260
    },
    {
      "epoch": 0.23389583333333333,
      "grad_norm": 0.7824247479438782,
      "learning_rate": 0.00026230124986546284,
      "loss": 4.0227,
      "step": 112270
    },
    {
      "epoch": 0.23391666666666666,
      "grad_norm": 0.7145914435386658,
      "learning_rate": 0.0002622947140203924,
      "loss": 3.8778,
      "step": 112280
    },
    {
      "epoch": 0.2339375,
      "grad_norm": 0.7928178310394287,
      "learning_rate": 0.00026228817769025314,
      "loss": 4.0464,
      "step": 112290
    },
    {
      "epoch": 0.23395833333333332,
      "grad_norm": 0.7519782781600952,
      "learning_rate": 0.0002622816408750735,
      "loss": 3.8932,
      "step": 112300
    },
    {
      "epoch": 0.23397916666666665,
      "grad_norm": 0.7235788106918335,
      "learning_rate": 0.0002622751035748816,
      "loss": 3.8302,
      "step": 112310
    },
    {
      "epoch": 0.234,
      "grad_norm": 0.7413920164108276,
      "learning_rate": 0.0002622685657897057,
      "loss": 3.9072,
      "step": 112320
    },
    {
      "epoch": 0.23402083333333334,
      "grad_norm": 0.8739325404167175,
      "learning_rate": 0.000262262027519574,
      "loss": 4.043,
      "step": 112330
    },
    {
      "epoch": 0.23404166666666668,
      "grad_norm": 1.0761208534240723,
      "learning_rate": 0.0002622554887645148,
      "loss": 3.8481,
      "step": 112340
    },
    {
      "epoch": 0.2340625,
      "grad_norm": 0.8072762489318848,
      "learning_rate": 0.0002622489495245563,
      "loss": 3.9273,
      "step": 112350
    },
    {
      "epoch": 0.23408333333333334,
      "grad_norm": 0.7394698262214661,
      "learning_rate": 0.00026224240979972675,
      "loss": 3.6577,
      "step": 112360
    },
    {
      "epoch": 0.23410416666666667,
      "grad_norm": 0.6784875988960266,
      "learning_rate": 0.00026223586959005446,
      "loss": 4.043,
      "step": 112370
    },
    {
      "epoch": 0.234125,
      "grad_norm": 0.7344674468040466,
      "learning_rate": 0.0002622293288955676,
      "loss": 3.9131,
      "step": 112380
    },
    {
      "epoch": 0.23414583333333333,
      "grad_norm": 0.7370862364768982,
      "learning_rate": 0.00026222278771629453,
      "loss": 3.9838,
      "step": 112390
    },
    {
      "epoch": 0.23416666666666666,
      "grad_norm": 0.8208688497543335,
      "learning_rate": 0.00026221624605226343,
      "loss": 3.9771,
      "step": 112400
    },
    {
      "epoch": 0.2341875,
      "grad_norm": 0.8002815246582031,
      "learning_rate": 0.0002622097039035025,
      "loss": 3.845,
      "step": 112410
    },
    {
      "epoch": 0.23420833333333332,
      "grad_norm": 0.8399003148078918,
      "learning_rate": 0.0002622031612700401,
      "loss": 4.1704,
      "step": 112420
    },
    {
      "epoch": 0.23422916666666665,
      "grad_norm": 0.7511206865310669,
      "learning_rate": 0.00026219661815190447,
      "loss": 3.841,
      "step": 112430
    },
    {
      "epoch": 0.23425,
      "grad_norm": 0.6996220350265503,
      "learning_rate": 0.00026219007454912385,
      "loss": 4.055,
      "step": 112440
    },
    {
      "epoch": 0.23427083333333334,
      "grad_norm": 0.8284479379653931,
      "learning_rate": 0.0002621835304617265,
      "loss": 3.822,
      "step": 112450
    },
    {
      "epoch": 0.23429166666666668,
      "grad_norm": 0.732962429523468,
      "learning_rate": 0.0002621769858897407,
      "loss": 3.8288,
      "step": 112460
    },
    {
      "epoch": 0.2343125,
      "grad_norm": 0.6844059824943542,
      "learning_rate": 0.00026217044083319476,
      "loss": 4.026,
      "step": 112470
    },
    {
      "epoch": 0.23433333333333334,
      "grad_norm": 0.7182744145393372,
      "learning_rate": 0.00026216389529211685,
      "loss": 4.106,
      "step": 112480
    },
    {
      "epoch": 0.23435416666666667,
      "grad_norm": 0.7824922800064087,
      "learning_rate": 0.0002621573492665354,
      "loss": 3.892,
      "step": 112490
    },
    {
      "epoch": 0.234375,
      "grad_norm": 0.761566162109375,
      "learning_rate": 0.0002621508027564786,
      "loss": 3.8131,
      "step": 112500
    },
    {
      "epoch": 0.23439583333333333,
      "grad_norm": 0.7079015970230103,
      "learning_rate": 0.00026214425576197466,
      "loss": 3.9687,
      "step": 112510
    },
    {
      "epoch": 0.23441666666666666,
      "grad_norm": 0.7447836399078369,
      "learning_rate": 0.0002621377082830519,
      "loss": 3.9782,
      "step": 112520
    },
    {
      "epoch": 0.2344375,
      "grad_norm": 0.816684901714325,
      "learning_rate": 0.0002621311603197387,
      "loss": 3.8896,
      "step": 112530
    },
    {
      "epoch": 0.23445833333333332,
      "grad_norm": 0.7626854777336121,
      "learning_rate": 0.0002621246118720632,
      "loss": 3.9266,
      "step": 112540
    },
    {
      "epoch": 0.23447916666666666,
      "grad_norm": 0.8282618522644043,
      "learning_rate": 0.0002621180629400538,
      "loss": 3.8656,
      "step": 112550
    },
    {
      "epoch": 0.2345,
      "grad_norm": 0.7841196060180664,
      "learning_rate": 0.00026211151352373876,
      "loss": 3.9661,
      "step": 112560
    },
    {
      "epoch": 0.23452083333333335,
      "grad_norm": 0.7180324196815491,
      "learning_rate": 0.0002621049636231463,
      "loss": 3.9818,
      "step": 112570
    },
    {
      "epoch": 0.23454166666666668,
      "grad_norm": 0.7510347366333008,
      "learning_rate": 0.00026209841323830485,
      "loss": 3.6956,
      "step": 112580
    },
    {
      "epoch": 0.2345625,
      "grad_norm": 0.8722372651100159,
      "learning_rate": 0.00026209186236924263,
      "loss": 3.952,
      "step": 112590
    },
    {
      "epoch": 0.23458333333333334,
      "grad_norm": 0.7620896697044373,
      "learning_rate": 0.0002620853110159879,
      "loss": 3.7804,
      "step": 112600
    },
    {
      "epoch": 0.23460416666666667,
      "grad_norm": 0.7736909985542297,
      "learning_rate": 0.000262078759178569,
      "loss": 3.9963,
      "step": 112610
    },
    {
      "epoch": 0.234625,
      "grad_norm": 0.7790977358818054,
      "learning_rate": 0.0002620722068570142,
      "loss": 3.9914,
      "step": 112620
    },
    {
      "epoch": 0.23464583333333333,
      "grad_norm": 0.7237060070037842,
      "learning_rate": 0.0002620656540513518,
      "loss": 3.8542,
      "step": 112630
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 0.9768034219741821,
      "learning_rate": 0.0002620591007616102,
      "loss": 3.8891,
      "step": 112640
    },
    {
      "epoch": 0.2346875,
      "grad_norm": 0.6890493631362915,
      "learning_rate": 0.0002620525469878176,
      "loss": 3.7818,
      "step": 112650
    },
    {
      "epoch": 0.23470833333333332,
      "grad_norm": 0.9258646965026855,
      "learning_rate": 0.0002620459927300024,
      "loss": 3.9585,
      "step": 112660
    },
    {
      "epoch": 0.23472916666666666,
      "grad_norm": 1.2307043075561523,
      "learning_rate": 0.0002620394379881928,
      "loss": 3.763,
      "step": 112670
    },
    {
      "epoch": 0.23475,
      "grad_norm": 0.7087436318397522,
      "learning_rate": 0.0002620328827624172,
      "loss": 3.7612,
      "step": 112680
    },
    {
      "epoch": 0.23477083333333335,
      "grad_norm": 0.7315555810928345,
      "learning_rate": 0.00026202632705270393,
      "loss": 3.8208,
      "step": 112690
    },
    {
      "epoch": 0.23479166666666668,
      "grad_norm": 0.7825053334236145,
      "learning_rate": 0.0002620197708590812,
      "loss": 3.9261,
      "step": 112700
    },
    {
      "epoch": 0.2348125,
      "grad_norm": 0.8862001299858093,
      "learning_rate": 0.00026201321418157744,
      "loss": 3.8814,
      "step": 112710
    },
    {
      "epoch": 0.23483333333333334,
      "grad_norm": 0.7509416937828064,
      "learning_rate": 0.00026200665702022096,
      "loss": 3.9814,
      "step": 112720
    },
    {
      "epoch": 0.23485416666666667,
      "grad_norm": 0.7726261019706726,
      "learning_rate": 0.00026200009937504,
      "loss": 4.0606,
      "step": 112730
    },
    {
      "epoch": 0.234875,
      "grad_norm": 0.6815237998962402,
      "learning_rate": 0.00026199354124606297,
      "loss": 3.7853,
      "step": 112740
    },
    {
      "epoch": 0.23489583333333333,
      "grad_norm": 0.7003218531608582,
      "learning_rate": 0.00026198698263331816,
      "loss": 3.7727,
      "step": 112750
    },
    {
      "epoch": 0.23491666666666666,
      "grad_norm": 0.8282172679901123,
      "learning_rate": 0.00026198042353683395,
      "loss": 3.9612,
      "step": 112760
    },
    {
      "epoch": 0.2349375,
      "grad_norm": 0.6605738997459412,
      "learning_rate": 0.0002619738639566386,
      "loss": 3.8221,
      "step": 112770
    },
    {
      "epoch": 0.23495833333333332,
      "grad_norm": 0.751958429813385,
      "learning_rate": 0.0002619673038927605,
      "loss": 3.8575,
      "step": 112780
    },
    {
      "epoch": 0.23497916666666666,
      "grad_norm": 0.8201401829719543,
      "learning_rate": 0.0002619607433452279,
      "loss": 4.0231,
      "step": 112790
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.8694060444831848,
      "learning_rate": 0.0002619541823140693,
      "loss": 3.9477,
      "step": 112800
    },
    {
      "epoch": 0.23502083333333335,
      "grad_norm": 0.7929521203041077,
      "learning_rate": 0.0002619476207993129,
      "loss": 3.8248,
      "step": 112810
    },
    {
      "epoch": 0.23504166666666668,
      "grad_norm": 0.725143551826477,
      "learning_rate": 0.0002619410588009871,
      "loss": 3.8737,
      "step": 112820
    },
    {
      "epoch": 0.2350625,
      "grad_norm": 0.8168599605560303,
      "learning_rate": 0.00026193449631912026,
      "loss": 3.7516,
      "step": 112830
    },
    {
      "epoch": 0.23508333333333334,
      "grad_norm": 0.8912594318389893,
      "learning_rate": 0.00026192793335374066,
      "loss": 4.0511,
      "step": 112840
    },
    {
      "epoch": 0.23510416666666667,
      "grad_norm": 0.8464767336845398,
      "learning_rate": 0.0002619213699048767,
      "loss": 3.6606,
      "step": 112850
    },
    {
      "epoch": 0.235125,
      "grad_norm": 0.824193000793457,
      "learning_rate": 0.0002619148059725568,
      "loss": 4.0295,
      "step": 112860
    },
    {
      "epoch": 0.23514583333333333,
      "grad_norm": 0.7161937355995178,
      "learning_rate": 0.0002619082415568091,
      "loss": 3.8706,
      "step": 112870
    },
    {
      "epoch": 0.23516666666666666,
      "grad_norm": 0.7569338083267212,
      "learning_rate": 0.0002619016766576622,
      "loss": 3.7718,
      "step": 112880
    },
    {
      "epoch": 0.2351875,
      "grad_norm": 0.7777268886566162,
      "learning_rate": 0.0002618951112751443,
      "loss": 3.7888,
      "step": 112890
    },
    {
      "epoch": 0.23520833333333332,
      "grad_norm": 0.8880210518836975,
      "learning_rate": 0.0002618885454092838,
      "loss": 3.8777,
      "step": 112900
    },
    {
      "epoch": 0.23522916666666666,
      "grad_norm": 1.0999858379364014,
      "learning_rate": 0.00026188197906010913,
      "loss": 3.9637,
      "step": 112910
    },
    {
      "epoch": 0.23525,
      "grad_norm": 0.8330174088478088,
      "learning_rate": 0.00026187541222764856,
      "loss": 3.9946,
      "step": 112920
    },
    {
      "epoch": 0.23527083333333335,
      "grad_norm": 0.7998022437095642,
      "learning_rate": 0.00026186884491193047,
      "loss": 4.0292,
      "step": 112930
    },
    {
      "epoch": 0.23529166666666668,
      "grad_norm": 0.7511048316955566,
      "learning_rate": 0.0002618622771129833,
      "loss": 3.9363,
      "step": 112940
    },
    {
      "epoch": 0.2353125,
      "grad_norm": 0.7381274700164795,
      "learning_rate": 0.0002618557088308353,
      "loss": 3.9134,
      "step": 112950
    },
    {
      "epoch": 0.23533333333333334,
      "grad_norm": 0.69205641746521,
      "learning_rate": 0.000261849140065515,
      "loss": 3.8321,
      "step": 112960
    },
    {
      "epoch": 0.23535416666666667,
      "grad_norm": 0.7544022798538208,
      "learning_rate": 0.0002618425708170506,
      "loss": 3.6865,
      "step": 112970
    },
    {
      "epoch": 0.235375,
      "grad_norm": 0.7884484529495239,
      "learning_rate": 0.0002618360010854707,
      "loss": 3.7413,
      "step": 112980
    },
    {
      "epoch": 0.23539583333333333,
      "grad_norm": 0.81086266040802,
      "learning_rate": 0.00026182943087080344,
      "loss": 3.9115,
      "step": 112990
    },
    {
      "epoch": 0.23541666666666666,
      "grad_norm": 0.7462107539176941,
      "learning_rate": 0.0002618228601730773,
      "loss": 3.9045,
      "step": 113000
    },
    {
      "epoch": 0.23541666666666666,
      "eval_loss": 4.26096248626709,
      "eval_runtime": 9.3227,
      "eval_samples_per_second": 1.073,
      "eval_steps_per_second": 0.322,
      "step": 113000
    },
    {
      "epoch": 0.2354375,
      "grad_norm": 0.8278399109840393,
      "learning_rate": 0.0002618162889923207,
      "loss": 4.0592,
      "step": 113010
    },
    {
      "epoch": 0.23545833333333333,
      "grad_norm": 0.7057823538780212,
      "learning_rate": 0.00026180971732856195,
      "loss": 3.9916,
      "step": 113020
    },
    {
      "epoch": 0.23547916666666666,
      "grad_norm": 0.7851118445396423,
      "learning_rate": 0.0002618031451818295,
      "loss": 4.1084,
      "step": 113030
    },
    {
      "epoch": 0.2355,
      "grad_norm": 0.7384151816368103,
      "learning_rate": 0.0002617965725521517,
      "loss": 3.8835,
      "step": 113040
    },
    {
      "epoch": 0.23552083333333335,
      "grad_norm": 1.0190908908843994,
      "learning_rate": 0.000261789999439557,
      "loss": 3.8852,
      "step": 113050
    },
    {
      "epoch": 0.23554166666666668,
      "grad_norm": 0.7323639988899231,
      "learning_rate": 0.00026178342584407373,
      "loss": 4.0053,
      "step": 113060
    },
    {
      "epoch": 0.2355625,
      "grad_norm": 0.7451760768890381,
      "learning_rate": 0.0002617768517657303,
      "loss": 3.9405,
      "step": 113070
    },
    {
      "epoch": 0.23558333333333334,
      "grad_norm": 0.8560953140258789,
      "learning_rate": 0.0002617702772045552,
      "loss": 3.8062,
      "step": 113080
    },
    {
      "epoch": 0.23560416666666667,
      "grad_norm": 0.7370516657829285,
      "learning_rate": 0.0002617637021605766,
      "loss": 3.8479,
      "step": 113090
    },
    {
      "epoch": 0.235625,
      "grad_norm": 0.8259835243225098,
      "learning_rate": 0.00026175712663382316,
      "loss": 3.7711,
      "step": 113100
    },
    {
      "epoch": 0.23564583333333333,
      "grad_norm": 0.7790320515632629,
      "learning_rate": 0.00026175055062432315,
      "loss": 3.9084,
      "step": 113110
    },
    {
      "epoch": 0.23566666666666666,
      "grad_norm": 0.7821506857872009,
      "learning_rate": 0.00026174397413210494,
      "loss": 3.7912,
      "step": 113120
    },
    {
      "epoch": 0.2356875,
      "grad_norm": 0.730197012424469,
      "learning_rate": 0.00026173739715719705,
      "loss": 3.9163,
      "step": 113130
    },
    {
      "epoch": 0.23570833333333333,
      "grad_norm": 0.7655876874923706,
      "learning_rate": 0.0002617308196996278,
      "loss": 3.9123,
      "step": 113140
    },
    {
      "epoch": 0.23572916666666666,
      "grad_norm": 0.8811327815055847,
      "learning_rate": 0.00026172424175942565,
      "loss": 3.6363,
      "step": 113150
    },
    {
      "epoch": 0.23575,
      "grad_norm": 0.8580450415611267,
      "learning_rate": 0.00026171766333661894,
      "loss": 3.7783,
      "step": 113160
    },
    {
      "epoch": 0.23577083333333335,
      "grad_norm": 0.8216408491134644,
      "learning_rate": 0.00026171108443123623,
      "loss": 3.968,
      "step": 113170
    },
    {
      "epoch": 0.23579166666666668,
      "grad_norm": 0.8225196003913879,
      "learning_rate": 0.0002617045050433058,
      "loss": 3.7732,
      "step": 113180
    },
    {
      "epoch": 0.2358125,
      "grad_norm": 0.8478304147720337,
      "learning_rate": 0.00026169792517285616,
      "loss": 3.8318,
      "step": 113190
    },
    {
      "epoch": 0.23583333333333334,
      "grad_norm": 0.9333080053329468,
      "learning_rate": 0.00026169134481991566,
      "loss": 3.8541,
      "step": 113200
    },
    {
      "epoch": 0.23585416666666667,
      "grad_norm": 0.8038802742958069,
      "learning_rate": 0.0002616847639845128,
      "loss": 4.0497,
      "step": 113210
    },
    {
      "epoch": 0.235875,
      "grad_norm": 0.675420880317688,
      "learning_rate": 0.00026167818266667594,
      "loss": 3.9327,
      "step": 113220
    },
    {
      "epoch": 0.23589583333333333,
      "grad_norm": 0.8065382242202759,
      "learning_rate": 0.00026167160086643354,
      "loss": 3.8605,
      "step": 113230
    },
    {
      "epoch": 0.23591666666666666,
      "grad_norm": 0.6767610907554626,
      "learning_rate": 0.0002616650185838141,
      "loss": 4.0246,
      "step": 113240
    },
    {
      "epoch": 0.2359375,
      "grad_norm": 0.8441426157951355,
      "learning_rate": 0.00026165843581884586,
      "loss": 3.8533,
      "step": 113250
    },
    {
      "epoch": 0.23595833333333333,
      "grad_norm": 0.8039485812187195,
      "learning_rate": 0.0002616518525715574,
      "loss": 4.012,
      "step": 113260
    },
    {
      "epoch": 0.23597916666666666,
      "grad_norm": 0.8812327980995178,
      "learning_rate": 0.0002616452688419772,
      "loss": 3.8435,
      "step": 113270
    },
    {
      "epoch": 0.236,
      "grad_norm": 0.8026545643806458,
      "learning_rate": 0.0002616386846301336,
      "loss": 3.8735,
      "step": 113280
    },
    {
      "epoch": 0.23602083333333335,
      "grad_norm": 0.8382328152656555,
      "learning_rate": 0.000261632099936055,
      "loss": 3.8716,
      "step": 113290
    },
    {
      "epoch": 0.23604166666666668,
      "grad_norm": 0.8009381294250488,
      "learning_rate": 0.00026162551475977,
      "loss": 3.7203,
      "step": 113300
    },
    {
      "epoch": 0.2360625,
      "grad_norm": 0.7849263548851013,
      "learning_rate": 0.00026161892910130693,
      "loss": 3.9239,
      "step": 113310
    },
    {
      "epoch": 0.23608333333333334,
      "grad_norm": 0.7992645502090454,
      "learning_rate": 0.0002616123429606943,
      "loss": 3.8202,
      "step": 113320
    },
    {
      "epoch": 0.23610416666666667,
      "grad_norm": 0.8581199049949646,
      "learning_rate": 0.0002616057563379605,
      "loss": 3.7453,
      "step": 113330
    },
    {
      "epoch": 0.236125,
      "grad_norm": 0.8569010496139526,
      "learning_rate": 0.000261599169233134,
      "loss": 3.8997,
      "step": 113340
    },
    {
      "epoch": 0.23614583333333333,
      "grad_norm": 0.7280343770980835,
      "learning_rate": 0.00026159258164624327,
      "loss": 3.7878,
      "step": 113350
    },
    {
      "epoch": 0.23616666666666666,
      "grad_norm": 0.9599436521530151,
      "learning_rate": 0.00026158599357731677,
      "loss": 3.7773,
      "step": 113360
    },
    {
      "epoch": 0.2361875,
      "grad_norm": 0.7498140335083008,
      "learning_rate": 0.00026157940502638294,
      "loss": 3.9682,
      "step": 113370
    },
    {
      "epoch": 0.23620833333333333,
      "grad_norm": 0.8583912253379822,
      "learning_rate": 0.00026157281599347023,
      "loss": 3.8666,
      "step": 113380
    },
    {
      "epoch": 0.23622916666666666,
      "grad_norm": 0.8194348216056824,
      "learning_rate": 0.00026156622647860716,
      "loss": 3.8318,
      "step": 113390
    },
    {
      "epoch": 0.23625,
      "grad_norm": 0.6903581023216248,
      "learning_rate": 0.00026155963648182213,
      "loss": 4.0164,
      "step": 113400
    },
    {
      "epoch": 0.23627083333333335,
      "grad_norm": 0.8513405323028564,
      "learning_rate": 0.0002615530460031436,
      "loss": 3.9531,
      "step": 113410
    },
    {
      "epoch": 0.23629166666666668,
      "grad_norm": 0.8295087218284607,
      "learning_rate": 0.0002615464550426001,
      "loss": 4.0258,
      "step": 113420
    },
    {
      "epoch": 0.2363125,
      "grad_norm": 0.7575225234031677,
      "learning_rate": 0.00026153986360022007,
      "loss": 3.88,
      "step": 113430
    },
    {
      "epoch": 0.23633333333333334,
      "grad_norm": 0.7763004302978516,
      "learning_rate": 0.000261533271676032,
      "loss": 3.9596,
      "step": 113440
    },
    {
      "epoch": 0.23635416666666667,
      "grad_norm": 0.9391988515853882,
      "learning_rate": 0.0002615266792700643,
      "loss": 3.9439,
      "step": 113450
    },
    {
      "epoch": 0.236375,
      "grad_norm": 0.815933108329773,
      "learning_rate": 0.0002615200863823455,
      "loss": 3.7458,
      "step": 113460
    },
    {
      "epoch": 0.23639583333333333,
      "grad_norm": 0.6595311760902405,
      "learning_rate": 0.00026151349301290405,
      "loss": 3.908,
      "step": 113470
    },
    {
      "epoch": 0.23641666666666666,
      "grad_norm": 0.7461366653442383,
      "learning_rate": 0.0002615068991617685,
      "loss": 3.972,
      "step": 113480
    },
    {
      "epoch": 0.2364375,
      "grad_norm": 0.94295734167099,
      "learning_rate": 0.0002615003048289673,
      "loss": 3.8458,
      "step": 113490
    },
    {
      "epoch": 0.23645833333333333,
      "grad_norm": 0.6933321952819824,
      "learning_rate": 0.00026149371001452885,
      "loss": 3.6789,
      "step": 113500
    },
    {
      "epoch": 0.23647916666666666,
      "grad_norm": 0.7620449662208557,
      "learning_rate": 0.0002614871147184817,
      "loss": 4.0125,
      "step": 113510
    },
    {
      "epoch": 0.2365,
      "grad_norm": 0.8424232006072998,
      "learning_rate": 0.0002614805189408544,
      "loss": 3.9163,
      "step": 113520
    },
    {
      "epoch": 0.23652083333333335,
      "grad_norm": 0.6996073722839355,
      "learning_rate": 0.0002614739226816754,
      "loss": 3.9681,
      "step": 113530
    },
    {
      "epoch": 0.23654166666666668,
      "grad_norm": 0.7832129597663879,
      "learning_rate": 0.0002614673259409731,
      "loss": 3.822,
      "step": 113540
    },
    {
      "epoch": 0.2365625,
      "grad_norm": 0.8291290998458862,
      "learning_rate": 0.0002614607287187761,
      "loss": 3.9458,
      "step": 113550
    },
    {
      "epoch": 0.23658333333333334,
      "grad_norm": 0.7482668161392212,
      "learning_rate": 0.0002614541310151129,
      "loss": 3.8046,
      "step": 113560
    },
    {
      "epoch": 0.23660416666666667,
      "grad_norm": 0.7317926287651062,
      "learning_rate": 0.00026144753283001193,
      "loss": 3.9622,
      "step": 113570
    },
    {
      "epoch": 0.236625,
      "grad_norm": 0.7550917267799377,
      "learning_rate": 0.0002614409341635018,
      "loss": 3.8706,
      "step": 113580
    },
    {
      "epoch": 0.23664583333333333,
      "grad_norm": 0.7495788335800171,
      "learning_rate": 0.0002614343350156109,
      "loss": 3.9195,
      "step": 113590
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 0.9394643902778625,
      "learning_rate": 0.0002614277353863678,
      "loss": 3.8986,
      "step": 113600
    },
    {
      "epoch": 0.2366875,
      "grad_norm": 0.7414722442626953,
      "learning_rate": 0.00026142113527580094,
      "loss": 3.7689,
      "step": 113610
    },
    {
      "epoch": 0.23670833333333333,
      "grad_norm": 0.7958858013153076,
      "learning_rate": 0.0002614145346839389,
      "loss": 3.7782,
      "step": 113620
    },
    {
      "epoch": 0.23672916666666666,
      "grad_norm": 0.7467257380485535,
      "learning_rate": 0.0002614079336108102,
      "loss": 3.8583,
      "step": 113630
    },
    {
      "epoch": 0.23675,
      "grad_norm": 0.7843925356864929,
      "learning_rate": 0.0002614013320564433,
      "loss": 3.7919,
      "step": 113640
    },
    {
      "epoch": 0.23677083333333335,
      "grad_norm": 0.773753821849823,
      "learning_rate": 0.00026139473002086675,
      "loss": 3.8849,
      "step": 113650
    },
    {
      "epoch": 0.23679166666666668,
      "grad_norm": 0.8628260493278503,
      "learning_rate": 0.0002613881275041091,
      "loss": 3.9306,
      "step": 113660
    },
    {
      "epoch": 0.2368125,
      "grad_norm": 0.8059950470924377,
      "learning_rate": 0.00026138152450619876,
      "loss": 3.822,
      "step": 113670
    },
    {
      "epoch": 0.23683333333333334,
      "grad_norm": 0.7553508281707764,
      "learning_rate": 0.00026137492102716435,
      "loss": 3.7846,
      "step": 113680
    },
    {
      "epoch": 0.23685416666666667,
      "grad_norm": 0.8282298445701599,
      "learning_rate": 0.0002613683170670344,
      "loss": 3.9299,
      "step": 113690
    },
    {
      "epoch": 0.236875,
      "grad_norm": 0.7417914271354675,
      "learning_rate": 0.00026136171262583735,
      "loss": 3.8805,
      "step": 113700
    },
    {
      "epoch": 0.23689583333333333,
      "grad_norm": 0.7207459807395935,
      "learning_rate": 0.0002613551077036018,
      "loss": 3.8517,
      "step": 113710
    },
    {
      "epoch": 0.23691666666666666,
      "grad_norm": 0.6979677677154541,
      "learning_rate": 0.00026134850230035626,
      "loss": 3.9228,
      "step": 113720
    },
    {
      "epoch": 0.2369375,
      "grad_norm": 0.6991243362426758,
      "learning_rate": 0.0002613418964161293,
      "loss": 3.8076,
      "step": 113730
    },
    {
      "epoch": 0.23695833333333333,
      "grad_norm": 0.6677184700965881,
      "learning_rate": 0.00026133529005094937,
      "loss": 3.9327,
      "step": 113740
    },
    {
      "epoch": 0.23697916666666666,
      "grad_norm": 0.7654378414154053,
      "learning_rate": 0.00026132868320484504,
      "loss": 3.8384,
      "step": 113750
    },
    {
      "epoch": 0.237,
      "grad_norm": 0.9106190800666809,
      "learning_rate": 0.00026132207587784494,
      "loss": 3.9872,
      "step": 113760
    },
    {
      "epoch": 0.23702083333333332,
      "grad_norm": 0.8048157095909119,
      "learning_rate": 0.0002613154680699775,
      "loss": 3.935,
      "step": 113770
    },
    {
      "epoch": 0.23704166666666668,
      "grad_norm": 0.8073506355285645,
      "learning_rate": 0.00026130885978127127,
      "loss": 3.786,
      "step": 113780
    },
    {
      "epoch": 0.2370625,
      "grad_norm": 0.7299621105194092,
      "learning_rate": 0.0002613022510117549,
      "loss": 3.9242,
      "step": 113790
    },
    {
      "epoch": 0.23708333333333334,
      "grad_norm": 0.7716646790504456,
      "learning_rate": 0.0002612956417614568,
      "loss": 3.8563,
      "step": 113800
    },
    {
      "epoch": 0.23710416666666667,
      "grad_norm": 0.7175790071487427,
      "learning_rate": 0.00026128903203040556,
      "loss": 4.0354,
      "step": 113810
    },
    {
      "epoch": 0.237125,
      "grad_norm": 0.6506059765815735,
      "learning_rate": 0.0002612824218186298,
      "loss": 3.8953,
      "step": 113820
    },
    {
      "epoch": 0.23714583333333333,
      "grad_norm": 0.7555687427520752,
      "learning_rate": 0.00026127581112615804,
      "loss": 3.8858,
      "step": 113830
    },
    {
      "epoch": 0.23716666666666666,
      "grad_norm": 0.7510266900062561,
      "learning_rate": 0.0002612691999530188,
      "loss": 3.862,
      "step": 113840
    },
    {
      "epoch": 0.2371875,
      "grad_norm": 0.7787691950798035,
      "learning_rate": 0.00026126258829924066,
      "loss": 4.1028,
      "step": 113850
    },
    {
      "epoch": 0.23720833333333333,
      "grad_norm": 0.7241496443748474,
      "learning_rate": 0.0002612559761648522,
      "loss": 3.8725,
      "step": 113860
    },
    {
      "epoch": 0.23722916666666666,
      "grad_norm": 0.7116979956626892,
      "learning_rate": 0.0002612493635498819,
      "loss": 3.995,
      "step": 113870
    },
    {
      "epoch": 0.23725,
      "grad_norm": 0.8266820311546326,
      "learning_rate": 0.0002612427504543584,
      "loss": 3.7682,
      "step": 113880
    },
    {
      "epoch": 0.23727083333333332,
      "grad_norm": 0.6824839115142822,
      "learning_rate": 0.0002612361368783103,
      "loss": 3.9402,
      "step": 113890
    },
    {
      "epoch": 0.23729166666666668,
      "grad_norm": 0.7754460573196411,
      "learning_rate": 0.0002612295228217661,
      "loss": 3.891,
      "step": 113900
    },
    {
      "epoch": 0.2373125,
      "grad_norm": 0.7085105776786804,
      "learning_rate": 0.00026122290828475435,
      "loss": 3.9192,
      "step": 113910
    },
    {
      "epoch": 0.23733333333333334,
      "grad_norm": 0.6307634711265564,
      "learning_rate": 0.0002612162932673037,
      "loss": 3.8076,
      "step": 113920
    },
    {
      "epoch": 0.23735416666666667,
      "grad_norm": 0.8724708557128906,
      "learning_rate": 0.00026120967776944266,
      "loss": 3.8679,
      "step": 113930
    },
    {
      "epoch": 0.237375,
      "grad_norm": 0.8018783330917358,
      "learning_rate": 0.0002612030617911999,
      "loss": 3.9368,
      "step": 113940
    },
    {
      "epoch": 0.23739583333333333,
      "grad_norm": 0.7467615008354187,
      "learning_rate": 0.00026119644533260385,
      "loss": 3.9215,
      "step": 113950
    },
    {
      "epoch": 0.23741666666666666,
      "grad_norm": 0.8405132293701172,
      "learning_rate": 0.00026118982839368324,
      "loss": 3.875,
      "step": 113960
    },
    {
      "epoch": 0.2374375,
      "grad_norm": 0.6761019825935364,
      "learning_rate": 0.00026118321097446653,
      "loss": 3.8323,
      "step": 113970
    },
    {
      "epoch": 0.23745833333333333,
      "grad_norm": 0.982046902179718,
      "learning_rate": 0.00026117659307498236,
      "loss": 3.9609,
      "step": 113980
    },
    {
      "epoch": 0.23747916666666666,
      "grad_norm": 0.7016381621360779,
      "learning_rate": 0.0002611699746952593,
      "loss": 4.0141,
      "step": 113990
    },
    {
      "epoch": 0.2375,
      "grad_norm": 0.6979237794876099,
      "learning_rate": 0.000261163355835326,
      "loss": 3.8632,
      "step": 114000
    },
    {
      "epoch": 0.2375,
      "eval_loss": 4.274669170379639,
      "eval_runtime": 10.1558,
      "eval_samples_per_second": 0.985,
      "eval_steps_per_second": 0.295,
      "step": 114000
    },
    {
      "epoch": 0.23752083333333332,
      "grad_norm": 0.707955539226532,
      "learning_rate": 0.000261156736495211,
      "loss": 3.8232,
      "step": 114010
    },
    {
      "epoch": 0.23754166666666668,
      "grad_norm": 0.833194375038147,
      "learning_rate": 0.0002611501166749429,
      "loss": 3.7136,
      "step": 114020
    },
    {
      "epoch": 0.2375625,
      "grad_norm": 0.7838445901870728,
      "learning_rate": 0.00026114349637455027,
      "loss": 3.8977,
      "step": 114030
    },
    {
      "epoch": 0.23758333333333334,
      "grad_norm": 0.8599135875701904,
      "learning_rate": 0.00026113687559406175,
      "loss": 3.849,
      "step": 114040
    },
    {
      "epoch": 0.23760416666666667,
      "grad_norm": 0.987023115158081,
      "learning_rate": 0.0002611302543335059,
      "loss": 4.0649,
      "step": 114050
    },
    {
      "epoch": 0.237625,
      "grad_norm": 0.7492974996566772,
      "learning_rate": 0.0002611236325929113,
      "loss": 3.9408,
      "step": 114060
    },
    {
      "epoch": 0.23764583333333333,
      "grad_norm": 0.7786435484886169,
      "learning_rate": 0.00026111701037230664,
      "loss": 3.8493,
      "step": 114070
    },
    {
      "epoch": 0.23766666666666666,
      "grad_norm": 0.8377174735069275,
      "learning_rate": 0.00026111038767172046,
      "loss": 3.888,
      "step": 114080
    },
    {
      "epoch": 0.2376875,
      "grad_norm": 0.7755816578865051,
      "learning_rate": 0.0002611037644911814,
      "loss": 3.9386,
      "step": 114090
    },
    {
      "epoch": 0.23770833333333333,
      "grad_norm": 0.7938888072967529,
      "learning_rate": 0.0002610971408307181,
      "loss": 3.8402,
      "step": 114100
    },
    {
      "epoch": 0.23772916666666666,
      "grad_norm": 0.684544563293457,
      "learning_rate": 0.00026109051669035907,
      "loss": 3.7374,
      "step": 114110
    },
    {
      "epoch": 0.23775,
      "grad_norm": 0.7818745970726013,
      "learning_rate": 0.000261083892070133,
      "loss": 3.8437,
      "step": 114120
    },
    {
      "epoch": 0.23777083333333332,
      "grad_norm": 0.6883953213691711,
      "learning_rate": 0.0002610772669700684,
      "loss": 3.8417,
      "step": 114130
    },
    {
      "epoch": 0.23779166666666668,
      "grad_norm": 0.7021319270133972,
      "learning_rate": 0.00026107064139019407,
      "loss": 3.9388,
      "step": 114140
    },
    {
      "epoch": 0.2378125,
      "grad_norm": 0.7883499264717102,
      "learning_rate": 0.0002610640153305386,
      "loss": 3.8189,
      "step": 114150
    },
    {
      "epoch": 0.23783333333333334,
      "grad_norm": 0.7388126254081726,
      "learning_rate": 0.0002610573887911304,
      "loss": 3.9782,
      "step": 114160
    },
    {
      "epoch": 0.23785416666666667,
      "grad_norm": 0.7088503837585449,
      "learning_rate": 0.0002610507617719983,
      "loss": 3.8246,
      "step": 114170
    },
    {
      "epoch": 0.237875,
      "grad_norm": 0.8095081448554993,
      "learning_rate": 0.00026104413427317086,
      "loss": 3.865,
      "step": 114180
    },
    {
      "epoch": 0.23789583333333333,
      "grad_norm": 0.7264026999473572,
      "learning_rate": 0.00026103750629467674,
      "loss": 3.891,
      "step": 114190
    },
    {
      "epoch": 0.23791666666666667,
      "grad_norm": 0.7216106653213501,
      "learning_rate": 0.00026103087783654454,
      "loss": 3.9403,
      "step": 114200
    },
    {
      "epoch": 0.2379375,
      "grad_norm": 0.7419866323471069,
      "learning_rate": 0.0002610242488988029,
      "loss": 3.906,
      "step": 114210
    },
    {
      "epoch": 0.23795833333333333,
      "grad_norm": 0.7289590835571289,
      "learning_rate": 0.00026101761948148043,
      "loss": 3.7424,
      "step": 114220
    },
    {
      "epoch": 0.23797916666666666,
      "grad_norm": 0.9748528003692627,
      "learning_rate": 0.0002610109895846058,
      "loss": 3.9552,
      "step": 114230
    },
    {
      "epoch": 0.238,
      "grad_norm": 0.8353610038757324,
      "learning_rate": 0.0002610043592082076,
      "loss": 4.0065,
      "step": 114240
    },
    {
      "epoch": 0.23802083333333332,
      "grad_norm": 0.8529026508331299,
      "learning_rate": 0.00026099772835231456,
      "loss": 3.8788,
      "step": 114250
    },
    {
      "epoch": 0.23804166666666668,
      "grad_norm": 0.8682144284248352,
      "learning_rate": 0.0002609910970169552,
      "loss": 3.7228,
      "step": 114260
    },
    {
      "epoch": 0.2380625,
      "grad_norm": 0.7240811586380005,
      "learning_rate": 0.0002609844652021583,
      "loss": 3.9139,
      "step": 114270
    },
    {
      "epoch": 0.23808333333333334,
      "grad_norm": 0.8528417944908142,
      "learning_rate": 0.0002609778329079524,
      "loss": 3.8395,
      "step": 114280
    },
    {
      "epoch": 0.23810416666666667,
      "grad_norm": 0.7062963247299194,
      "learning_rate": 0.00026097120013436625,
      "loss": 3.9186,
      "step": 114290
    },
    {
      "epoch": 0.238125,
      "grad_norm": 0.7778975963592529,
      "learning_rate": 0.0002609645668814284,
      "loss": 3.7888,
      "step": 114300
    },
    {
      "epoch": 0.23814583333333333,
      "grad_norm": 0.7422923445701599,
      "learning_rate": 0.0002609579331491675,
      "loss": 4.0528,
      "step": 114310
    },
    {
      "epoch": 0.23816666666666667,
      "grad_norm": 0.8436475396156311,
      "learning_rate": 0.00026095129893761234,
      "loss": 4.028,
      "step": 114320
    },
    {
      "epoch": 0.2381875,
      "grad_norm": 0.8094499111175537,
      "learning_rate": 0.00026094466424679146,
      "loss": 3.7622,
      "step": 114330
    },
    {
      "epoch": 0.23820833333333333,
      "grad_norm": 0.8609719276428223,
      "learning_rate": 0.0002609380290767335,
      "loss": 3.7944,
      "step": 114340
    },
    {
      "epoch": 0.23822916666666666,
      "grad_norm": 0.7979872226715088,
      "learning_rate": 0.0002609313934274672,
      "loss": 3.8434,
      "step": 114350
    },
    {
      "epoch": 0.23825,
      "grad_norm": 0.9424957633018494,
      "learning_rate": 0.0002609247572990212,
      "loss": 3.8321,
      "step": 114360
    },
    {
      "epoch": 0.23827083333333332,
      "grad_norm": 0.7749367356300354,
      "learning_rate": 0.00026091812069142415,
      "loss": 3.9443,
      "step": 114370
    },
    {
      "epoch": 0.23829166666666668,
      "grad_norm": 0.7836552262306213,
      "learning_rate": 0.0002609114836047047,
      "loss": 3.9337,
      "step": 114380
    },
    {
      "epoch": 0.2383125,
      "grad_norm": 0.6600876450538635,
      "learning_rate": 0.0002609048460388915,
      "loss": 3.9098,
      "step": 114390
    },
    {
      "epoch": 0.23833333333333334,
      "grad_norm": 0.7677357196807861,
      "learning_rate": 0.00026089820799401336,
      "loss": 4.0287,
      "step": 114400
    },
    {
      "epoch": 0.23835416666666667,
      "grad_norm": 0.7388955354690552,
      "learning_rate": 0.0002608915694700988,
      "loss": 4.0129,
      "step": 114410
    },
    {
      "epoch": 0.238375,
      "grad_norm": 0.7915213108062744,
      "learning_rate": 0.0002608849304671766,
      "loss": 3.8023,
      "step": 114420
    },
    {
      "epoch": 0.23839583333333333,
      "grad_norm": 0.8580248355865479,
      "learning_rate": 0.00026087829098527535,
      "loss": 3.8921,
      "step": 114430
    },
    {
      "epoch": 0.23841666666666667,
      "grad_norm": 0.8447347283363342,
      "learning_rate": 0.00026087165102442375,
      "loss": 3.9229,
      "step": 114440
    },
    {
      "epoch": 0.2384375,
      "grad_norm": 0.6824004650115967,
      "learning_rate": 0.00026086501058465055,
      "loss": 3.914,
      "step": 114450
    },
    {
      "epoch": 0.23845833333333333,
      "grad_norm": 0.7024351954460144,
      "learning_rate": 0.0002608583696659844,
      "loss": 3.8175,
      "step": 114460
    },
    {
      "epoch": 0.23847916666666666,
      "grad_norm": 0.7374757528305054,
      "learning_rate": 0.0002608517282684539,
      "loss": 3.8488,
      "step": 114470
    },
    {
      "epoch": 0.2385,
      "grad_norm": 0.7171477675437927,
      "learning_rate": 0.0002608450863920879,
      "loss": 3.839,
      "step": 114480
    },
    {
      "epoch": 0.23852083333333332,
      "grad_norm": 1.2253645658493042,
      "learning_rate": 0.00026083844403691493,
      "loss": 3.9028,
      "step": 114490
    },
    {
      "epoch": 0.23854166666666668,
      "grad_norm": 0.8538299202919006,
      "learning_rate": 0.00026083180120296383,
      "loss": 3.7607,
      "step": 114500
    },
    {
      "epoch": 0.2385625,
      "grad_norm": 0.8508172631263733,
      "learning_rate": 0.00026082515789026316,
      "loss": 3.9103,
      "step": 114510
    },
    {
      "epoch": 0.23858333333333334,
      "grad_norm": 0.888931393623352,
      "learning_rate": 0.00026081851409884174,
      "loss": 3.7562,
      "step": 114520
    },
    {
      "epoch": 0.23860416666666667,
      "grad_norm": 0.8008545637130737,
      "learning_rate": 0.0002608118698287281,
      "loss": 3.7393,
      "step": 114530
    },
    {
      "epoch": 0.238625,
      "grad_norm": 1.2680237293243408,
      "learning_rate": 0.00026080522507995106,
      "loss": 3.9353,
      "step": 114540
    },
    {
      "epoch": 0.23864583333333333,
      "grad_norm": 0.906619131565094,
      "learning_rate": 0.0002607985798525394,
      "loss": 3.842,
      "step": 114550
    },
    {
      "epoch": 0.23866666666666667,
      "grad_norm": 0.7736608982086182,
      "learning_rate": 0.00026079193414652166,
      "loss": 3.7793,
      "step": 114560
    },
    {
      "epoch": 0.2386875,
      "grad_norm": 0.8171983957290649,
      "learning_rate": 0.00026078528796192663,
      "loss": 3.9688,
      "step": 114570
    },
    {
      "epoch": 0.23870833333333333,
      "grad_norm": 0.8694718480110168,
      "learning_rate": 0.00026077864129878304,
      "loss": 3.8157,
      "step": 114580
    },
    {
      "epoch": 0.23872916666666666,
      "grad_norm": 0.7078268527984619,
      "learning_rate": 0.00026077199415711956,
      "loss": 3.7632,
      "step": 114590
    },
    {
      "epoch": 0.23875,
      "grad_norm": 0.7211157083511353,
      "learning_rate": 0.0002607653465369649,
      "loss": 3.8509,
      "step": 114600
    },
    {
      "epoch": 0.23877083333333332,
      "grad_norm": 0.6716285347938538,
      "learning_rate": 0.0002607586984383478,
      "loss": 3.9599,
      "step": 114610
    },
    {
      "epoch": 0.23879166666666668,
      "grad_norm": 0.7134262323379517,
      "learning_rate": 0.00026075204986129695,
      "loss": 3.8272,
      "step": 114620
    },
    {
      "epoch": 0.2388125,
      "grad_norm": 0.7559017539024353,
      "learning_rate": 0.00026074540080584104,
      "loss": 3.8747,
      "step": 114630
    },
    {
      "epoch": 0.23883333333333334,
      "grad_norm": 0.7917506694793701,
      "learning_rate": 0.0002607387512720089,
      "loss": 4.0529,
      "step": 114640
    },
    {
      "epoch": 0.23885416666666667,
      "grad_norm": 0.7047008872032166,
      "learning_rate": 0.0002607321012598292,
      "loss": 3.8136,
      "step": 114650
    },
    {
      "epoch": 0.238875,
      "grad_norm": 0.7834599018096924,
      "learning_rate": 0.00026072545076933056,
      "loss": 3.8974,
      "step": 114660
    },
    {
      "epoch": 0.23889583333333334,
      "grad_norm": 0.790911853313446,
      "learning_rate": 0.0002607187998005419,
      "loss": 3.8195,
      "step": 114670
    },
    {
      "epoch": 0.23891666666666667,
      "grad_norm": 0.8479803204536438,
      "learning_rate": 0.0002607121483534918,
      "loss": 4.0642,
      "step": 114680
    },
    {
      "epoch": 0.2389375,
      "grad_norm": 0.8249107599258423,
      "learning_rate": 0.000260705496428209,
      "loss": 3.8174,
      "step": 114690
    },
    {
      "epoch": 0.23895833333333333,
      "grad_norm": 0.685752809047699,
      "learning_rate": 0.00026069884402472236,
      "loss": 3.8388,
      "step": 114700
    },
    {
      "epoch": 0.23897916666666666,
      "grad_norm": 0.8596463799476624,
      "learning_rate": 0.0002606921911430605,
      "loss": 3.9567,
      "step": 114710
    },
    {
      "epoch": 0.239,
      "grad_norm": 0.7592532634735107,
      "learning_rate": 0.0002606855377832522,
      "loss": 3.817,
      "step": 114720
    },
    {
      "epoch": 0.23902083333333332,
      "grad_norm": 0.9025839567184448,
      "learning_rate": 0.00026067888394532614,
      "loss": 3.9749,
      "step": 114730
    },
    {
      "epoch": 0.23904166666666668,
      "grad_norm": 0.7498944997787476,
      "learning_rate": 0.00026067222962931116,
      "loss": 3.8145,
      "step": 114740
    },
    {
      "epoch": 0.2390625,
      "grad_norm": 0.6617084741592407,
      "learning_rate": 0.000260665574835236,
      "loss": 3.8192,
      "step": 114750
    },
    {
      "epoch": 0.23908333333333334,
      "grad_norm": 0.7757551074028015,
      "learning_rate": 0.0002606589195631293,
      "loss": 3.789,
      "step": 114760
    },
    {
      "epoch": 0.23910416666666667,
      "grad_norm": 0.7989000678062439,
      "learning_rate": 0.0002606522638130198,
      "loss": 3.8031,
      "step": 114770
    },
    {
      "epoch": 0.239125,
      "grad_norm": 0.9631623029708862,
      "learning_rate": 0.00026064560758493646,
      "loss": 3.7692,
      "step": 114780
    },
    {
      "epoch": 0.23914583333333334,
      "grad_norm": 0.9125344753265381,
      "learning_rate": 0.0002606389508789078,
      "loss": 3.8187,
      "step": 114790
    },
    {
      "epoch": 0.23916666666666667,
      "grad_norm": 0.9317472577095032,
      "learning_rate": 0.00026063229369496267,
      "loss": 3.7828,
      "step": 114800
    },
    {
      "epoch": 0.2391875,
      "grad_norm": 0.7269681692123413,
      "learning_rate": 0.00026062563603312987,
      "loss": 3.8293,
      "step": 114810
    },
    {
      "epoch": 0.23920833333333333,
      "grad_norm": 0.7286441326141357,
      "learning_rate": 0.00026061897789343805,
      "loss": 3.895,
      "step": 114820
    },
    {
      "epoch": 0.23922916666666666,
      "grad_norm": 0.865191638469696,
      "learning_rate": 0.0002606123192759161,
      "loss": 3.7164,
      "step": 114830
    },
    {
      "epoch": 0.23925,
      "grad_norm": 0.7402560114860535,
      "learning_rate": 0.00026060566018059266,
      "loss": 3.9105,
      "step": 114840
    },
    {
      "epoch": 0.23927083333333332,
      "grad_norm": 0.9875277876853943,
      "learning_rate": 0.0002605990006074966,
      "loss": 3.9954,
      "step": 114850
    },
    {
      "epoch": 0.23929166666666668,
      "grad_norm": 0.7138338685035706,
      "learning_rate": 0.00026059234055665663,
      "loss": 4.0028,
      "step": 114860
    },
    {
      "epoch": 0.2393125,
      "grad_norm": 0.680026650428772,
      "learning_rate": 0.00026058568002810146,
      "loss": 3.8785,
      "step": 114870
    },
    {
      "epoch": 0.23933333333333334,
      "grad_norm": 0.8372796177864075,
      "learning_rate": 0.00026057901902186,
      "loss": 4.0017,
      "step": 114880
    },
    {
      "epoch": 0.23935416666666667,
      "grad_norm": 0.9821401834487915,
      "learning_rate": 0.00026057235753796087,
      "loss": 3.6303,
      "step": 114890
    },
    {
      "epoch": 0.239375,
      "grad_norm": 0.7389310598373413,
      "learning_rate": 0.00026056569557643297,
      "loss": 3.8975,
      "step": 114900
    },
    {
      "epoch": 0.23939583333333334,
      "grad_norm": 0.7369092106819153,
      "learning_rate": 0.000260559033137305,
      "loss": 3.9146,
      "step": 114910
    },
    {
      "epoch": 0.23941666666666667,
      "grad_norm": 0.7818358540534973,
      "learning_rate": 0.00026055237022060585,
      "loss": 3.9397,
      "step": 114920
    },
    {
      "epoch": 0.2394375,
      "grad_norm": 0.7191615104675293,
      "learning_rate": 0.00026054570682636414,
      "loss": 3.9114,
      "step": 114930
    },
    {
      "epoch": 0.23945833333333333,
      "grad_norm": 0.6996783018112183,
      "learning_rate": 0.00026053904295460874,
      "loss": 3.8098,
      "step": 114940
    },
    {
      "epoch": 0.23947916666666666,
      "grad_norm": 0.7549847960472107,
      "learning_rate": 0.00026053237860536847,
      "loss": 3.9116,
      "step": 114950
    },
    {
      "epoch": 0.2395,
      "grad_norm": 0.7843330502510071,
      "learning_rate": 0.0002605257137786721,
      "loss": 3.9704,
      "step": 114960
    },
    {
      "epoch": 0.23952083333333332,
      "grad_norm": 0.8731957077980042,
      "learning_rate": 0.0002605190484745483,
      "loss": 3.8214,
      "step": 114970
    },
    {
      "epoch": 0.23954166666666668,
      "grad_norm": 1.0411624908447266,
      "learning_rate": 0.000260512382693026,
      "loss": 3.9145,
      "step": 114980
    },
    {
      "epoch": 0.2395625,
      "grad_norm": 0.8362072706222534,
      "learning_rate": 0.000260505716434134,
      "loss": 3.8692,
      "step": 114990
    },
    {
      "epoch": 0.23958333333333334,
      "grad_norm": 0.9187620282173157,
      "learning_rate": 0.00026049904969790093,
      "loss": 3.8984,
      "step": 115000
    },
    {
      "epoch": 0.23958333333333334,
      "eval_loss": 4.277940273284912,
      "eval_runtime": 9.5298,
      "eval_samples_per_second": 1.049,
      "eval_steps_per_second": 0.315,
      "step": 115000
    },
    {
      "epoch": 0.23960416666666667,
      "grad_norm": 0.8665232062339783,
      "learning_rate": 0.0002604923824843558,
      "loss": 3.8811,
      "step": 115010
    },
    {
      "epoch": 0.239625,
      "grad_norm": 0.7611491680145264,
      "learning_rate": 0.0002604857147935273,
      "loss": 3.9553,
      "step": 115020
    },
    {
      "epoch": 0.23964583333333334,
      "grad_norm": 0.6717048287391663,
      "learning_rate": 0.0002604790466254442,
      "loss": 3.9914,
      "step": 115030
    },
    {
      "epoch": 0.23966666666666667,
      "grad_norm": 0.8163872957229614,
      "learning_rate": 0.0002604723779801354,
      "loss": 3.9749,
      "step": 115040
    },
    {
      "epoch": 0.2396875,
      "grad_norm": 0.7745394110679626,
      "learning_rate": 0.00026046570885762964,
      "loss": 3.9945,
      "step": 115050
    },
    {
      "epoch": 0.23970833333333333,
      "grad_norm": 0.7717122435569763,
      "learning_rate": 0.00026045903925795577,
      "loss": 3.7198,
      "step": 115060
    },
    {
      "epoch": 0.23972916666666666,
      "grad_norm": 0.7597681879997253,
      "learning_rate": 0.0002604523691811425,
      "loss": 3.795,
      "step": 115070
    },
    {
      "epoch": 0.23975,
      "grad_norm": 0.6760414838790894,
      "learning_rate": 0.0002604456986272188,
      "loss": 3.9673,
      "step": 115080
    },
    {
      "epoch": 0.23977083333333332,
      "grad_norm": 0.7097985744476318,
      "learning_rate": 0.0002604390275962134,
      "loss": 3.9733,
      "step": 115090
    },
    {
      "epoch": 0.23979166666666665,
      "grad_norm": 0.7956592440605164,
      "learning_rate": 0.00026043235608815506,
      "loss": 3.877,
      "step": 115100
    },
    {
      "epoch": 0.2398125,
      "grad_norm": 0.7657138705253601,
      "learning_rate": 0.00026042568410307264,
      "loss": 3.7238,
      "step": 115110
    },
    {
      "epoch": 0.23983333333333334,
      "grad_norm": 0.8124246597290039,
      "learning_rate": 0.00026041901164099504,
      "loss": 3.7767,
      "step": 115120
    },
    {
      "epoch": 0.23985416666666667,
      "grad_norm": 0.7243840098381042,
      "learning_rate": 0.00026041233870195094,
      "loss": 3.9495,
      "step": 115130
    },
    {
      "epoch": 0.239875,
      "grad_norm": 0.8098496794700623,
      "learning_rate": 0.0002604056652859693,
      "loss": 3.815,
      "step": 115140
    },
    {
      "epoch": 0.23989583333333334,
      "grad_norm": 0.7868401408195496,
      "learning_rate": 0.00026039899139307886,
      "loss": 3.8543,
      "step": 115150
    },
    {
      "epoch": 0.23991666666666667,
      "grad_norm": 0.8721498847007751,
      "learning_rate": 0.0002603923170233085,
      "loss": 3.9988,
      "step": 115160
    },
    {
      "epoch": 0.2399375,
      "grad_norm": 0.7743726372718811,
      "learning_rate": 0.000260385642176687,
      "loss": 3.7932,
      "step": 115170
    },
    {
      "epoch": 0.23995833333333333,
      "grad_norm": 0.7834858298301697,
      "learning_rate": 0.0002603789668532432,
      "loss": 3.8865,
      "step": 115180
    },
    {
      "epoch": 0.23997916666666666,
      "grad_norm": 0.868409276008606,
      "learning_rate": 0.000260372291053006,
      "loss": 3.9339,
      "step": 115190
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7618752121925354,
      "learning_rate": 0.0002603656147760042,
      "loss": 3.724,
      "step": 115200
    },
    {
      "epoch": 0.24002083333333332,
      "grad_norm": 0.8054734468460083,
      "learning_rate": 0.0002603589380222666,
      "loss": 3.7611,
      "step": 115210
    },
    {
      "epoch": 0.24004166666666665,
      "grad_norm": 0.8302469849586487,
      "learning_rate": 0.0002603522607918221,
      "loss": 3.9,
      "step": 115220
    },
    {
      "epoch": 0.2400625,
      "grad_norm": 0.7552115321159363,
      "learning_rate": 0.0002603455830846995,
      "loss": 3.9184,
      "step": 115230
    },
    {
      "epoch": 0.24008333333333334,
      "grad_norm": 0.7636775374412537,
      "learning_rate": 0.0002603389049009276,
      "loss": 3.9328,
      "step": 115240
    },
    {
      "epoch": 0.24010416666666667,
      "grad_norm": 1.0122946500778198,
      "learning_rate": 0.0002603322262405354,
      "loss": 3.7834,
      "step": 115250
    },
    {
      "epoch": 0.240125,
      "grad_norm": 0.8122518658638,
      "learning_rate": 0.0002603255471035516,
      "loss": 3.867,
      "step": 115260
    },
    {
      "epoch": 0.24014583333333334,
      "grad_norm": 0.7597981691360474,
      "learning_rate": 0.0002603188674900051,
      "loss": 3.9474,
      "step": 115270
    },
    {
      "epoch": 0.24016666666666667,
      "grad_norm": 0.8387296199798584,
      "learning_rate": 0.0002603121873999248,
      "loss": 3.9787,
      "step": 115280
    },
    {
      "epoch": 0.2401875,
      "grad_norm": 0.7291693091392517,
      "learning_rate": 0.00026030550683333947,
      "loss": 3.9418,
      "step": 115290
    },
    {
      "epoch": 0.24020833333333333,
      "grad_norm": 0.6397300362586975,
      "learning_rate": 0.00026029882579027807,
      "loss": 3.8501,
      "step": 115300
    },
    {
      "epoch": 0.24022916666666666,
      "grad_norm": 0.8513126969337463,
      "learning_rate": 0.00026029214427076934,
      "loss": 3.996,
      "step": 115310
    },
    {
      "epoch": 0.24025,
      "grad_norm": 0.766761302947998,
      "learning_rate": 0.0002602854622748423,
      "loss": 3.8538,
      "step": 115320
    },
    {
      "epoch": 0.24027083333333332,
      "grad_norm": 0.7275024652481079,
      "learning_rate": 0.0002602787798025256,
      "loss": 3.865,
      "step": 115330
    },
    {
      "epoch": 0.24029166666666665,
      "grad_norm": 0.6636534929275513,
      "learning_rate": 0.00026027209685384827,
      "loss": 3.9783,
      "step": 115340
    },
    {
      "epoch": 0.2403125,
      "grad_norm": 0.769293487071991,
      "learning_rate": 0.0002602654134288391,
      "loss": 3.9783,
      "step": 115350
    },
    {
      "epoch": 0.24033333333333334,
      "grad_norm": 0.7248364686965942,
      "learning_rate": 0.000260258729527527,
      "loss": 3.9378,
      "step": 115360
    },
    {
      "epoch": 0.24035416666666667,
      "grad_norm": 0.68677818775177,
      "learning_rate": 0.0002602520451499409,
      "loss": 3.968,
      "step": 115370
    },
    {
      "epoch": 0.240375,
      "grad_norm": 0.9008524417877197,
      "learning_rate": 0.00026024536029610956,
      "loss": 3.8415,
      "step": 115380
    },
    {
      "epoch": 0.24039583333333334,
      "grad_norm": 0.889981210231781,
      "learning_rate": 0.00026023867496606187,
      "loss": 3.9423,
      "step": 115390
    },
    {
      "epoch": 0.24041666666666667,
      "grad_norm": 0.8326575756072998,
      "learning_rate": 0.00026023198915982684,
      "loss": 3.9177,
      "step": 115400
    },
    {
      "epoch": 0.2404375,
      "grad_norm": 0.7323761582374573,
      "learning_rate": 0.00026022530287743315,
      "loss": 4.0097,
      "step": 115410
    },
    {
      "epoch": 0.24045833333333333,
      "grad_norm": 0.6826841831207275,
      "learning_rate": 0.0002602186161189098,
      "loss": 3.7704,
      "step": 115420
    },
    {
      "epoch": 0.24047916666666666,
      "grad_norm": 0.9225627779960632,
      "learning_rate": 0.00026021192888428567,
      "loss": 3.8628,
      "step": 115430
    },
    {
      "epoch": 0.2405,
      "grad_norm": 0.7063223123550415,
      "learning_rate": 0.0002602052411735896,
      "loss": 3.9168,
      "step": 115440
    },
    {
      "epoch": 0.24052083333333332,
      "grad_norm": 0.715499758720398,
      "learning_rate": 0.00026019855298685054,
      "loss": 3.8754,
      "step": 115450
    },
    {
      "epoch": 0.24054166666666665,
      "grad_norm": 0.8689903616905212,
      "learning_rate": 0.0002601918643240974,
      "loss": 3.703,
      "step": 115460
    },
    {
      "epoch": 0.2405625,
      "grad_norm": 0.8279256224632263,
      "learning_rate": 0.00026018517518535897,
      "loss": 3.8142,
      "step": 115470
    },
    {
      "epoch": 0.24058333333333334,
      "grad_norm": 0.738116443157196,
      "learning_rate": 0.00026017848557066415,
      "loss": 4.1691,
      "step": 115480
    },
    {
      "epoch": 0.24060416666666667,
      "grad_norm": 0.743424117565155,
      "learning_rate": 0.00026017179548004193,
      "loss": 3.8714,
      "step": 115490
    },
    {
      "epoch": 0.240625,
      "grad_norm": 0.7706015110015869,
      "learning_rate": 0.0002601651049135212,
      "loss": 3.852,
      "step": 115500
    },
    {
      "epoch": 0.24064583333333334,
      "grad_norm": 0.7491422295570374,
      "learning_rate": 0.0002601584138711308,
      "loss": 3.9881,
      "step": 115510
    },
    {
      "epoch": 0.24066666666666667,
      "grad_norm": 0.7675372362136841,
      "learning_rate": 0.00026015172235289963,
      "loss": 3.9055,
      "step": 115520
    },
    {
      "epoch": 0.2406875,
      "grad_norm": 0.6913831233978271,
      "learning_rate": 0.00026014503035885663,
      "loss": 4.0176,
      "step": 115530
    },
    {
      "epoch": 0.24070833333333333,
      "grad_norm": 0.7792788743972778,
      "learning_rate": 0.0002601383378890307,
      "loss": 4.0364,
      "step": 115540
    },
    {
      "epoch": 0.24072916666666666,
      "grad_norm": 0.7344367504119873,
      "learning_rate": 0.00026013164494345073,
      "loss": 3.9964,
      "step": 115550
    },
    {
      "epoch": 0.24075,
      "grad_norm": 0.7833885550498962,
      "learning_rate": 0.00026012495152214567,
      "loss": 4.0095,
      "step": 115560
    },
    {
      "epoch": 0.24077083333333332,
      "grad_norm": 0.6592714190483093,
      "learning_rate": 0.00026011825762514446,
      "loss": 3.8675,
      "step": 115570
    },
    {
      "epoch": 0.24079166666666665,
      "grad_norm": 0.8733033537864685,
      "learning_rate": 0.0002601115632524759,
      "loss": 3.8531,
      "step": 115580
    },
    {
      "epoch": 0.2408125,
      "grad_norm": 0.7357209920883179,
      "learning_rate": 0.000260104868404169,
      "loss": 3.8205,
      "step": 115590
    },
    {
      "epoch": 0.24083333333333334,
      "grad_norm": 0.6903390884399414,
      "learning_rate": 0.0002600981730802526,
      "loss": 3.9439,
      "step": 115600
    },
    {
      "epoch": 0.24085416666666667,
      "grad_norm": 0.7157521843910217,
      "learning_rate": 0.0002600914772807557,
      "loss": 3.8341,
      "step": 115610
    },
    {
      "epoch": 0.240875,
      "grad_norm": 0.7281493544578552,
      "learning_rate": 0.00026008478100570726,
      "loss": 3.7966,
      "step": 115620
    },
    {
      "epoch": 0.24089583333333334,
      "grad_norm": 0.8439201712608337,
      "learning_rate": 0.00026007808425513603,
      "loss": 3.8699,
      "step": 115630
    },
    {
      "epoch": 0.24091666666666667,
      "grad_norm": 0.827664315700531,
      "learning_rate": 0.00026007138702907113,
      "loss": 3.8798,
      "step": 115640
    },
    {
      "epoch": 0.2409375,
      "grad_norm": 0.7361575365066528,
      "learning_rate": 0.00026006468932754135,
      "loss": 4.0136,
      "step": 115650
    },
    {
      "epoch": 0.24095833333333333,
      "grad_norm": 0.6786472201347351,
      "learning_rate": 0.0002600579911505757,
      "loss": 3.9109,
      "step": 115660
    },
    {
      "epoch": 0.24097916666666666,
      "grad_norm": 0.6592401266098022,
      "learning_rate": 0.0002600512924982031,
      "loss": 3.7852,
      "step": 115670
    },
    {
      "epoch": 0.241,
      "grad_norm": 0.6761149168014526,
      "learning_rate": 0.0002600445933704525,
      "loss": 3.9503,
      "step": 115680
    },
    {
      "epoch": 0.24102083333333332,
      "grad_norm": 0.8813633918762207,
      "learning_rate": 0.0002600378937673528,
      "loss": 3.8897,
      "step": 115690
    },
    {
      "epoch": 0.24104166666666665,
      "grad_norm": 0.8154450058937073,
      "learning_rate": 0.0002600311936889329,
      "loss": 3.7943,
      "step": 115700
    },
    {
      "epoch": 0.2410625,
      "grad_norm": 0.7494574785232544,
      "learning_rate": 0.00026002449313522187,
      "loss": 3.806,
      "step": 115710
    },
    {
      "epoch": 0.24108333333333334,
      "grad_norm": 0.8022719621658325,
      "learning_rate": 0.00026001779210624857,
      "loss": 4.0115,
      "step": 115720
    },
    {
      "epoch": 0.24110416666666667,
      "grad_norm": 0.7826627492904663,
      "learning_rate": 0.0002600110906020419,
      "loss": 3.9712,
      "step": 115730
    },
    {
      "epoch": 0.241125,
      "grad_norm": 0.8162029981613159,
      "learning_rate": 0.00026000438862263097,
      "loss": 3.929,
      "step": 115740
    },
    {
      "epoch": 0.24114583333333334,
      "grad_norm": 0.7820276021957397,
      "learning_rate": 0.00025999768616804457,
      "loss": 3.9347,
      "step": 115750
    },
    {
      "epoch": 0.24116666666666667,
      "grad_norm": 0.8058353662490845,
      "learning_rate": 0.00025999098323831166,
      "loss": 4.1583,
      "step": 115760
    },
    {
      "epoch": 0.2411875,
      "grad_norm": 0.7865243554115295,
      "learning_rate": 0.0002599842798334613,
      "loss": 4.0209,
      "step": 115770
    },
    {
      "epoch": 0.24120833333333333,
      "grad_norm": 0.8769298195838928,
      "learning_rate": 0.00025997757595352234,
      "loss": 3.8901,
      "step": 115780
    },
    {
      "epoch": 0.24122916666666666,
      "grad_norm": 0.843979001045227,
      "learning_rate": 0.0002599708715985238,
      "loss": 3.9604,
      "step": 115790
    },
    {
      "epoch": 0.24125,
      "grad_norm": 0.7673715353012085,
      "learning_rate": 0.00025996416676849464,
      "loss": 3.7127,
      "step": 115800
    },
    {
      "epoch": 0.24127083333333332,
      "grad_norm": 0.7727834582328796,
      "learning_rate": 0.0002599574614634638,
      "loss": 3.8271,
      "step": 115810
    },
    {
      "epoch": 0.24129166666666665,
      "grad_norm": 0.7556334733963013,
      "learning_rate": 0.00025995075568346025,
      "loss": 4.1219,
      "step": 115820
    },
    {
      "epoch": 0.2413125,
      "grad_norm": 0.8232370018959045,
      "learning_rate": 0.0002599440494285129,
      "loss": 4.1545,
      "step": 115830
    },
    {
      "epoch": 0.24133333333333334,
      "grad_norm": 0.8181596398353577,
      "learning_rate": 0.0002599373426986509,
      "loss": 3.7967,
      "step": 115840
    },
    {
      "epoch": 0.24135416666666668,
      "grad_norm": 0.8050000667572021,
      "learning_rate": 0.00025993063549390296,
      "loss": 3.9781,
      "step": 115850
    },
    {
      "epoch": 0.241375,
      "grad_norm": 0.7994040250778198,
      "learning_rate": 0.0002599239278142983,
      "loss": 3.891,
      "step": 115860
    },
    {
      "epoch": 0.24139583333333334,
      "grad_norm": 0.7868145704269409,
      "learning_rate": 0.0002599172196598657,
      "loss": 3.8387,
      "step": 115870
    },
    {
      "epoch": 0.24141666666666667,
      "grad_norm": 0.742220401763916,
      "learning_rate": 0.0002599105110306343,
      "loss": 3.8433,
      "step": 115880
    },
    {
      "epoch": 0.2414375,
      "grad_norm": 0.919288158416748,
      "learning_rate": 0.0002599038019266329,
      "loss": 3.8763,
      "step": 115890
    },
    {
      "epoch": 0.24145833333333333,
      "grad_norm": 0.7905799746513367,
      "learning_rate": 0.00025989709234789066,
      "loss": 3.686,
      "step": 115900
    },
    {
      "epoch": 0.24147916666666666,
      "grad_norm": 0.7417182922363281,
      "learning_rate": 0.00025989038229443643,
      "loss": 3.8377,
      "step": 115910
    },
    {
      "epoch": 0.2415,
      "grad_norm": 0.7821013331413269,
      "learning_rate": 0.00025988367176629925,
      "loss": 3.8474,
      "step": 115920
    },
    {
      "epoch": 0.24152083333333332,
      "grad_norm": 0.9150959849357605,
      "learning_rate": 0.0002598769607635081,
      "loss": 3.6116,
      "step": 115930
    },
    {
      "epoch": 0.24154166666666665,
      "grad_norm": 0.6710528135299683,
      "learning_rate": 0.00025987024928609203,
      "loss": 3.737,
      "step": 115940
    },
    {
      "epoch": 0.2415625,
      "grad_norm": 0.8117600083351135,
      "learning_rate": 0.00025986353733407994,
      "loss": 3.8148,
      "step": 115950
    },
    {
      "epoch": 0.24158333333333334,
      "grad_norm": 0.7698238492012024,
      "learning_rate": 0.00025985682490750085,
      "loss": 4.0023,
      "step": 115960
    },
    {
      "epoch": 0.24160416666666668,
      "grad_norm": 0.9356105327606201,
      "learning_rate": 0.00025985011200638377,
      "loss": 3.8954,
      "step": 115970
    },
    {
      "epoch": 0.241625,
      "grad_norm": 0.773661732673645,
      "learning_rate": 0.0002598433986307577,
      "loss": 4.0737,
      "step": 115980
    },
    {
      "epoch": 0.24164583333333334,
      "grad_norm": 0.7811927795410156,
      "learning_rate": 0.0002598366847806516,
      "loss": 3.5673,
      "step": 115990
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 0.7317502498626709,
      "learning_rate": 0.0002598299704560945,
      "loss": 3.93,
      "step": 116000
    },
    {
      "epoch": 0.24166666666666667,
      "eval_loss": 4.257462978363037,
      "eval_runtime": 9.5771,
      "eval_samples_per_second": 1.044,
      "eval_steps_per_second": 0.313,
      "step": 116000
    },
    {
      "epoch": 0.2416875,
      "grad_norm": 0.6917761564254761,
      "learning_rate": 0.0002598232556571154,
      "loss": 3.9443,
      "step": 116010
    },
    {
      "epoch": 0.24170833333333333,
      "grad_norm": 0.7054569125175476,
      "learning_rate": 0.00025981654038374335,
      "loss": 3.8276,
      "step": 116020
    },
    {
      "epoch": 0.24172916666666666,
      "grad_norm": 0.8852920532226562,
      "learning_rate": 0.0002598098246360072,
      "loss": 3.8606,
      "step": 116030
    },
    {
      "epoch": 0.24175,
      "grad_norm": 0.8094838857650757,
      "learning_rate": 0.0002598031084139362,
      "loss": 4.0563,
      "step": 116040
    },
    {
      "epoch": 0.24177083333333332,
      "grad_norm": 0.7740088701248169,
      "learning_rate": 0.0002597963917175592,
      "loss": 3.8043,
      "step": 116050
    },
    {
      "epoch": 0.24179166666666665,
      "grad_norm": 0.7583639621734619,
      "learning_rate": 0.0002597896745469052,
      "loss": 3.929,
      "step": 116060
    },
    {
      "epoch": 0.2418125,
      "grad_norm": 0.7717350721359253,
      "learning_rate": 0.0002597829569020033,
      "loss": 3.6648,
      "step": 116070
    },
    {
      "epoch": 0.24183333333333334,
      "grad_norm": 0.7236257195472717,
      "learning_rate": 0.00025977623878288244,
      "loss": 3.9055,
      "step": 116080
    },
    {
      "epoch": 0.24185416666666668,
      "grad_norm": 0.7113205194473267,
      "learning_rate": 0.0002597695201895718,
      "loss": 3.9422,
      "step": 116090
    },
    {
      "epoch": 0.241875,
      "grad_norm": 0.8215823173522949,
      "learning_rate": 0.00025976280112210016,
      "loss": 3.8281,
      "step": 116100
    },
    {
      "epoch": 0.24189583333333334,
      "grad_norm": 0.8866168260574341,
      "learning_rate": 0.0002597560815804967,
      "loss": 4.0249,
      "step": 116110
    },
    {
      "epoch": 0.24191666666666667,
      "grad_norm": 0.8423787355422974,
      "learning_rate": 0.00025974936156479046,
      "loss": 3.8418,
      "step": 116120
    },
    {
      "epoch": 0.2419375,
      "grad_norm": 0.9628915190696716,
      "learning_rate": 0.00025974264107501033,
      "loss": 3.9925,
      "step": 116130
    },
    {
      "epoch": 0.24195833333333333,
      "grad_norm": 0.851317822933197,
      "learning_rate": 0.0002597359201111855,
      "loss": 3.9211,
      "step": 116140
    },
    {
      "epoch": 0.24197916666666666,
      "grad_norm": 0.8120859861373901,
      "learning_rate": 0.0002597291986733449,
      "loss": 3.7712,
      "step": 116150
    },
    {
      "epoch": 0.242,
      "grad_norm": 0.6859013438224792,
      "learning_rate": 0.0002597224767615176,
      "loss": 3.8546,
      "step": 116160
    },
    {
      "epoch": 0.24202083333333332,
      "grad_norm": 0.7952880263328552,
      "learning_rate": 0.00025971575437573266,
      "loss": 3.6966,
      "step": 116170
    },
    {
      "epoch": 0.24204166666666665,
      "grad_norm": 0.7338311672210693,
      "learning_rate": 0.00025970903151601907,
      "loss": 4.0408,
      "step": 116180
    },
    {
      "epoch": 0.2420625,
      "grad_norm": 0.8171995282173157,
      "learning_rate": 0.0002597023081824059,
      "loss": 3.8387,
      "step": 116190
    },
    {
      "epoch": 0.24208333333333334,
      "grad_norm": 0.7956803441047668,
      "learning_rate": 0.00025969558437492215,
      "loss": 3.7903,
      "step": 116200
    },
    {
      "epoch": 0.24210416666666668,
      "grad_norm": 0.8171812891960144,
      "learning_rate": 0.00025968886009359693,
      "loss": 3.8972,
      "step": 116210
    },
    {
      "epoch": 0.242125,
      "grad_norm": 0.6809042692184448,
      "learning_rate": 0.0002596821353384592,
      "loss": 3.8001,
      "step": 116220
    },
    {
      "epoch": 0.24214583333333334,
      "grad_norm": 0.6739193201065063,
      "learning_rate": 0.00025967541010953814,
      "loss": 3.8659,
      "step": 116230
    },
    {
      "epoch": 0.24216666666666667,
      "grad_norm": 0.7918659448623657,
      "learning_rate": 0.0002596686844068627,
      "loss": 3.9693,
      "step": 116240
    },
    {
      "epoch": 0.2421875,
      "grad_norm": 0.8061742782592773,
      "learning_rate": 0.0002596619582304619,
      "loss": 3.8957,
      "step": 116250
    },
    {
      "epoch": 0.24220833333333333,
      "grad_norm": 0.7432987689971924,
      "learning_rate": 0.0002596552315803649,
      "loss": 3.9082,
      "step": 116260
    },
    {
      "epoch": 0.24222916666666666,
      "grad_norm": 0.6846911907196045,
      "learning_rate": 0.00025964850445660064,
      "loss": 3.7562,
      "step": 116270
    },
    {
      "epoch": 0.24225,
      "grad_norm": 0.9619568586349487,
      "learning_rate": 0.00025964177685919824,
      "loss": 3.861,
      "step": 116280
    },
    {
      "epoch": 0.24227083333333332,
      "grad_norm": 0.789553165435791,
      "learning_rate": 0.0002596350487881869,
      "loss": 4.0047,
      "step": 116290
    },
    {
      "epoch": 0.24229166666666666,
      "grad_norm": 0.7478734850883484,
      "learning_rate": 0.0002596283202435954,
      "loss": 3.9989,
      "step": 116300
    },
    {
      "epoch": 0.2423125,
      "grad_norm": 0.7954090237617493,
      "learning_rate": 0.000259621591225453,
      "loss": 3.8302,
      "step": 116310
    },
    {
      "epoch": 0.24233333333333335,
      "grad_norm": 0.9067075848579407,
      "learning_rate": 0.00025961486173378874,
      "loss": 3.9416,
      "step": 116320
    },
    {
      "epoch": 0.24235416666666668,
      "grad_norm": 0.7972802519798279,
      "learning_rate": 0.00025960813176863164,
      "loss": 3.9194,
      "step": 116330
    },
    {
      "epoch": 0.242375,
      "grad_norm": 0.9493650794029236,
      "learning_rate": 0.0002596014013300109,
      "loss": 3.9079,
      "step": 116340
    },
    {
      "epoch": 0.24239583333333334,
      "grad_norm": 0.7626553177833557,
      "learning_rate": 0.00025959467041795534,
      "loss": 3.8957,
      "step": 116350
    },
    {
      "epoch": 0.24241666666666667,
      "grad_norm": 0.7938113212585449,
      "learning_rate": 0.00025958793903249427,
      "loss": 3.9083,
      "step": 116360
    },
    {
      "epoch": 0.2424375,
      "grad_norm": 0.8069543242454529,
      "learning_rate": 0.0002595812071736566,
      "loss": 3.971,
      "step": 116370
    },
    {
      "epoch": 0.24245833333333333,
      "grad_norm": 0.7843195199966431,
      "learning_rate": 0.00025957447484147153,
      "loss": 3.9601,
      "step": 116380
    },
    {
      "epoch": 0.24247916666666666,
      "grad_norm": 0.7222977876663208,
      "learning_rate": 0.00025956774203596814,
      "loss": 3.6944,
      "step": 116390
    },
    {
      "epoch": 0.2425,
      "grad_norm": 0.6622121334075928,
      "learning_rate": 0.00025956100875717544,
      "loss": 3.7766,
      "step": 116400
    },
    {
      "epoch": 0.24252083333333332,
      "grad_norm": 0.6966058611869812,
      "learning_rate": 0.0002595542750051225,
      "loss": 3.6411,
      "step": 116410
    },
    {
      "epoch": 0.24254166666666666,
      "grad_norm": 0.9141052961349487,
      "learning_rate": 0.00025954754077983855,
      "loss": 3.9816,
      "step": 116420
    },
    {
      "epoch": 0.2425625,
      "grad_norm": 0.727435290813446,
      "learning_rate": 0.00025954080608135254,
      "loss": 3.7795,
      "step": 116430
    },
    {
      "epoch": 0.24258333333333335,
      "grad_norm": 0.8648117780685425,
      "learning_rate": 0.00025953407090969366,
      "loss": 4.0119,
      "step": 116440
    },
    {
      "epoch": 0.24260416666666668,
      "grad_norm": 0.7691929936408997,
      "learning_rate": 0.0002595273352648909,
      "loss": 3.8281,
      "step": 116450
    },
    {
      "epoch": 0.242625,
      "grad_norm": 0.7509002685546875,
      "learning_rate": 0.0002595205991469734,
      "loss": 3.7915,
      "step": 116460
    },
    {
      "epoch": 0.24264583333333334,
      "grad_norm": 0.8490985631942749,
      "learning_rate": 0.0002595138625559703,
      "loss": 3.9081,
      "step": 116470
    },
    {
      "epoch": 0.24266666666666667,
      "grad_norm": 0.8261803388595581,
      "learning_rate": 0.0002595071254919106,
      "loss": 3.9555,
      "step": 116480
    },
    {
      "epoch": 0.2426875,
      "grad_norm": 0.7897732853889465,
      "learning_rate": 0.0002595003879548235,
      "loss": 3.8452,
      "step": 116490
    },
    {
      "epoch": 0.24270833333333333,
      "grad_norm": 0.8003754615783691,
      "learning_rate": 0.0002594936499447381,
      "loss": 3.8708,
      "step": 116500
    },
    {
      "epoch": 0.24272916666666666,
      "grad_norm": 0.7413751482963562,
      "learning_rate": 0.00025948691146168343,
      "loss": 4.0482,
      "step": 116510
    },
    {
      "epoch": 0.24275,
      "grad_norm": 0.6921604871749878,
      "learning_rate": 0.00025948017250568864,
      "loss": 3.9819,
      "step": 116520
    },
    {
      "epoch": 0.24277083333333332,
      "grad_norm": 0.6663542985916138,
      "learning_rate": 0.00025947343307678285,
      "loss": 3.9209,
      "step": 116530
    },
    {
      "epoch": 0.24279166666666666,
      "grad_norm": 0.7911424040794373,
      "learning_rate": 0.00025946669317499513,
      "loss": 4.1013,
      "step": 116540
    },
    {
      "epoch": 0.2428125,
      "grad_norm": 0.7296214699745178,
      "learning_rate": 0.0002594599528003547,
      "loss": 3.9969,
      "step": 116550
    },
    {
      "epoch": 0.24283333333333335,
      "grad_norm": 0.8899838924407959,
      "learning_rate": 0.00025945321195289055,
      "loss": 3.7518,
      "step": 116560
    },
    {
      "epoch": 0.24285416666666668,
      "grad_norm": 0.7114010453224182,
      "learning_rate": 0.00025944647063263186,
      "loss": 3.992,
      "step": 116570
    },
    {
      "epoch": 0.242875,
      "grad_norm": 0.857628583908081,
      "learning_rate": 0.00025943972883960773,
      "loss": 3.8461,
      "step": 116580
    },
    {
      "epoch": 0.24289583333333334,
      "grad_norm": 0.7786334753036499,
      "learning_rate": 0.0002594329865738473,
      "loss": 3.9069,
      "step": 116590
    },
    {
      "epoch": 0.24291666666666667,
      "grad_norm": 0.8355357050895691,
      "learning_rate": 0.00025942624383537967,
      "loss": 3.9935,
      "step": 116600
    },
    {
      "epoch": 0.2429375,
      "grad_norm": 0.8979407548904419,
      "learning_rate": 0.000259419500624234,
      "loss": 3.9506,
      "step": 116610
    },
    {
      "epoch": 0.24295833333333333,
      "grad_norm": 0.6659632921218872,
      "learning_rate": 0.0002594127569404394,
      "loss": 3.8784,
      "step": 116620
    },
    {
      "epoch": 0.24297916666666666,
      "grad_norm": 0.7302885055541992,
      "learning_rate": 0.000259406012784025,
      "loss": 3.7433,
      "step": 116630
    },
    {
      "epoch": 0.243,
      "grad_norm": 0.8123252987861633,
      "learning_rate": 0.0002593992681550199,
      "loss": 4.0612,
      "step": 116640
    },
    {
      "epoch": 0.24302083333333332,
      "grad_norm": 0.7398465275764465,
      "learning_rate": 0.0002593925230534533,
      "loss": 3.9271,
      "step": 116650
    },
    {
      "epoch": 0.24304166666666666,
      "grad_norm": 0.7925382256507874,
      "learning_rate": 0.0002593857774793543,
      "loss": 3.9625,
      "step": 116660
    },
    {
      "epoch": 0.2430625,
      "grad_norm": 0.9005240797996521,
      "learning_rate": 0.00025937903143275203,
      "loss": 3.7249,
      "step": 116670
    },
    {
      "epoch": 0.24308333333333335,
      "grad_norm": 0.789962887763977,
      "learning_rate": 0.0002593722849136756,
      "loss": 3.8014,
      "step": 116680
    },
    {
      "epoch": 0.24310416666666668,
      "grad_norm": 0.8386132121086121,
      "learning_rate": 0.00025936553792215426,
      "loss": 3.8312,
      "step": 116690
    },
    {
      "epoch": 0.243125,
      "grad_norm": 0.7865932583808899,
      "learning_rate": 0.000259358790458217,
      "loss": 3.812,
      "step": 116700
    },
    {
      "epoch": 0.24314583333333334,
      "grad_norm": 0.8433756828308105,
      "learning_rate": 0.00025935204252189314,
      "loss": 3.9282,
      "step": 116710
    },
    {
      "epoch": 0.24316666666666667,
      "grad_norm": 0.7681934833526611,
      "learning_rate": 0.0002593452941132117,
      "loss": 3.7525,
      "step": 116720
    },
    {
      "epoch": 0.2431875,
      "grad_norm": 0.9916110038757324,
      "learning_rate": 0.0002593385452322019,
      "loss": 3.8572,
      "step": 116730
    },
    {
      "epoch": 0.24320833333333333,
      "grad_norm": 0.7875805497169495,
      "learning_rate": 0.0002593317958788928,
      "loss": 3.9969,
      "step": 116740
    },
    {
      "epoch": 0.24322916666666666,
      "grad_norm": 0.7784370183944702,
      "learning_rate": 0.0002593250460533137,
      "loss": 3.9646,
      "step": 116750
    },
    {
      "epoch": 0.24325,
      "grad_norm": 0.8628151416778564,
      "learning_rate": 0.00025931829575549364,
      "loss": 3.9546,
      "step": 116760
    },
    {
      "epoch": 0.24327083333333333,
      "grad_norm": 0.6791853904724121,
      "learning_rate": 0.0002593115449854618,
      "loss": 3.9645,
      "step": 116770
    },
    {
      "epoch": 0.24329166666666666,
      "grad_norm": 0.6625243425369263,
      "learning_rate": 0.00025930479374324737,
      "loss": 3.8641,
      "step": 116780
    },
    {
      "epoch": 0.2433125,
      "grad_norm": 0.782039225101471,
      "learning_rate": 0.0002592980420288795,
      "loss": 3.7476,
      "step": 116790
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 0.7374080419540405,
      "learning_rate": 0.00025929128984238727,
      "loss": 4.0216,
      "step": 116800
    },
    {
      "epoch": 0.24335416666666668,
      "grad_norm": 0.7469167709350586,
      "learning_rate": 0.0002592845371838001,
      "loss": 3.7283,
      "step": 116810
    },
    {
      "epoch": 0.243375,
      "grad_norm": 0.6884095668792725,
      "learning_rate": 0.0002592777840531469,
      "loss": 3.9686,
      "step": 116820
    },
    {
      "epoch": 0.24339583333333334,
      "grad_norm": 0.7887201309204102,
      "learning_rate": 0.0002592710304504568,
      "loss": 3.9597,
      "step": 116830
    },
    {
      "epoch": 0.24341666666666667,
      "grad_norm": 0.7530519962310791,
      "learning_rate": 0.00025926427637575924,
      "loss": 3.8162,
      "step": 116840
    },
    {
      "epoch": 0.2434375,
      "grad_norm": 0.6478872299194336,
      "learning_rate": 0.00025925752182908324,
      "loss": 4.1641,
      "step": 116850
    },
    {
      "epoch": 0.24345833333333333,
      "grad_norm": 0.7160364985466003,
      "learning_rate": 0.000259250766810458,
      "loss": 4.0355,
      "step": 116860
    },
    {
      "epoch": 0.24347916666666666,
      "grad_norm": 0.9682184457778931,
      "learning_rate": 0.00025924401131991267,
      "loss": 3.9978,
      "step": 116870
    },
    {
      "epoch": 0.2435,
      "grad_norm": 0.752261757850647,
      "learning_rate": 0.00025923725535747643,
      "loss": 3.8223,
      "step": 116880
    },
    {
      "epoch": 0.24352083333333333,
      "grad_norm": 0.8060197830200195,
      "learning_rate": 0.00025923049892317854,
      "loss": 3.865,
      "step": 116890
    },
    {
      "epoch": 0.24354166666666666,
      "grad_norm": 0.7600920796394348,
      "learning_rate": 0.0002592237420170481,
      "loss": 3.8748,
      "step": 116900
    },
    {
      "epoch": 0.2435625,
      "grad_norm": 0.8843249082565308,
      "learning_rate": 0.0002592169846391144,
      "loss": 3.8346,
      "step": 116910
    },
    {
      "epoch": 0.24358333333333335,
      "grad_norm": 0.859544038772583,
      "learning_rate": 0.00025921022678940643,
      "loss": 3.7077,
      "step": 116920
    },
    {
      "epoch": 0.24360416666666668,
      "grad_norm": 0.763481855392456,
      "learning_rate": 0.0002592034684679536,
      "loss": 3.902,
      "step": 116930
    },
    {
      "epoch": 0.243625,
      "grad_norm": 0.7508820295333862,
      "learning_rate": 0.000259196709674785,
      "loss": 3.9739,
      "step": 116940
    },
    {
      "epoch": 0.24364583333333334,
      "grad_norm": 0.7567071914672852,
      "learning_rate": 0.00025918995040992974,
      "loss": 3.9304,
      "step": 116950
    },
    {
      "epoch": 0.24366666666666667,
      "grad_norm": 0.7885265946388245,
      "learning_rate": 0.00025918319067341723,
      "loss": 3.9852,
      "step": 116960
    },
    {
      "epoch": 0.2436875,
      "grad_norm": 0.7665534615516663,
      "learning_rate": 0.0002591764304652765,
      "loss": 4.0126,
      "step": 116970
    },
    {
      "epoch": 0.24370833333333333,
      "grad_norm": 0.6745424866676331,
      "learning_rate": 0.00025916966978553683,
      "loss": 3.9742,
      "step": 116980
    },
    {
      "epoch": 0.24372916666666666,
      "grad_norm": 0.7563460469245911,
      "learning_rate": 0.00025916290863422744,
      "loss": 4.0185,
      "step": 116990
    },
    {
      "epoch": 0.24375,
      "grad_norm": 0.7510818243026733,
      "learning_rate": 0.0002591561470113774,
      "loss": 3.8582,
      "step": 117000
    },
    {
      "epoch": 0.24375,
      "eval_loss": 4.26155948638916,
      "eval_runtime": 9.6524,
      "eval_samples_per_second": 1.036,
      "eval_steps_per_second": 0.311,
      "step": 117000
    },
    {
      "epoch": 0.24377083333333333,
      "grad_norm": 0.7554516196250916,
      "learning_rate": 0.0002591493849170161,
      "loss": 4.0088,
      "step": 117010
    },
    {
      "epoch": 0.24379166666666666,
      "grad_norm": 0.6987264752388,
      "learning_rate": 0.00025914262235117257,
      "loss": 3.6363,
      "step": 117020
    },
    {
      "epoch": 0.2438125,
      "grad_norm": 0.7333374619483948,
      "learning_rate": 0.00025913585931387615,
      "loss": 3.9231,
      "step": 117030
    },
    {
      "epoch": 0.24383333333333335,
      "grad_norm": 0.7988362908363342,
      "learning_rate": 0.0002591290958051561,
      "loss": 4.1034,
      "step": 117040
    },
    {
      "epoch": 0.24385416666666668,
      "grad_norm": 0.7397446036338806,
      "learning_rate": 0.00025912233182504143,
      "loss": 3.7541,
      "step": 117050
    },
    {
      "epoch": 0.243875,
      "grad_norm": 0.832311749458313,
      "learning_rate": 0.0002591155673735616,
      "loss": 3.9655,
      "step": 117060
    },
    {
      "epoch": 0.24389583333333334,
      "grad_norm": 0.7686418294906616,
      "learning_rate": 0.0002591088024507456,
      "loss": 3.9101,
      "step": 117070
    },
    {
      "epoch": 0.24391666666666667,
      "grad_norm": 0.7144972681999207,
      "learning_rate": 0.0002591020370566228,
      "loss": 3.9001,
      "step": 117080
    },
    {
      "epoch": 0.2439375,
      "grad_norm": 0.7584365010261536,
      "learning_rate": 0.0002590952711912224,
      "loss": 3.8508,
      "step": 117090
    },
    {
      "epoch": 0.24395833333333333,
      "grad_norm": 0.629894495010376,
      "learning_rate": 0.0002590885048545736,
      "loss": 4.0654,
      "step": 117100
    },
    {
      "epoch": 0.24397916666666666,
      "grad_norm": 0.7575013041496277,
      "learning_rate": 0.00025908173804670565,
      "loss": 3.957,
      "step": 117110
    },
    {
      "epoch": 0.244,
      "grad_norm": 0.8635952472686768,
      "learning_rate": 0.0002590749707676477,
      "loss": 3.7749,
      "step": 117120
    },
    {
      "epoch": 0.24402083333333333,
      "grad_norm": 0.6803057193756104,
      "learning_rate": 0.00025906820301742914,
      "loss": 3.778,
      "step": 117130
    },
    {
      "epoch": 0.24404166666666666,
      "grad_norm": 0.7499809861183167,
      "learning_rate": 0.0002590614347960791,
      "loss": 3.7579,
      "step": 117140
    },
    {
      "epoch": 0.2440625,
      "grad_norm": 0.8167714476585388,
      "learning_rate": 0.0002590546661036268,
      "loss": 4.0128,
      "step": 117150
    },
    {
      "epoch": 0.24408333333333335,
      "grad_norm": 0.7857744097709656,
      "learning_rate": 0.00025904789694010155,
      "loss": 3.8611,
      "step": 117160
    },
    {
      "epoch": 0.24410416666666668,
      "grad_norm": 0.9107292294502258,
      "learning_rate": 0.0002590411273055325,
      "loss": 3.9661,
      "step": 117170
    },
    {
      "epoch": 0.244125,
      "grad_norm": 0.7575744986534119,
      "learning_rate": 0.000259034357199949,
      "loss": 3.7755,
      "step": 117180
    },
    {
      "epoch": 0.24414583333333334,
      "grad_norm": 0.8039848208427429,
      "learning_rate": 0.0002590275866233802,
      "loss": 3.7417,
      "step": 117190
    },
    {
      "epoch": 0.24416666666666667,
      "grad_norm": 0.8951263427734375,
      "learning_rate": 0.00025902081557585533,
      "loss": 3.9693,
      "step": 117200
    },
    {
      "epoch": 0.2441875,
      "grad_norm": 0.6488986611366272,
      "learning_rate": 0.0002590140440574038,
      "loss": 3.9269,
      "step": 117210
    },
    {
      "epoch": 0.24420833333333333,
      "grad_norm": 0.7462566494941711,
      "learning_rate": 0.00025900727206805467,
      "loss": 3.9519,
      "step": 117220
    },
    {
      "epoch": 0.24422916666666666,
      "grad_norm": 0.7055051326751709,
      "learning_rate": 0.0002590004996078373,
      "loss": 3.9398,
      "step": 117230
    },
    {
      "epoch": 0.24425,
      "grad_norm": 0.7725315093994141,
      "learning_rate": 0.00025899372667678093,
      "loss": 3.8799,
      "step": 117240
    },
    {
      "epoch": 0.24427083333333333,
      "grad_norm": 0.813205361366272,
      "learning_rate": 0.00025898695327491474,
      "loss": 3.7179,
      "step": 117250
    },
    {
      "epoch": 0.24429166666666666,
      "grad_norm": 0.8894073963165283,
      "learning_rate": 0.0002589801794022681,
      "loss": 3.8764,
      "step": 117260
    },
    {
      "epoch": 0.2443125,
      "grad_norm": 0.7551104426383972,
      "learning_rate": 0.00025897340505887025,
      "loss": 3.8527,
      "step": 117270
    },
    {
      "epoch": 0.24433333333333335,
      "grad_norm": 0.8153460025787354,
      "learning_rate": 0.0002589666302447504,
      "loss": 3.8497,
      "step": 117280
    },
    {
      "epoch": 0.24435416666666668,
      "grad_norm": 0.6907312273979187,
      "learning_rate": 0.0002589598549599378,
      "loss": 3.8355,
      "step": 117290
    },
    {
      "epoch": 0.244375,
      "grad_norm": 0.8143213391304016,
      "learning_rate": 0.00025895307920446186,
      "loss": 3.9018,
      "step": 117300
    },
    {
      "epoch": 0.24439583333333334,
      "grad_norm": 0.791246771812439,
      "learning_rate": 0.0002589463029783517,
      "loss": 3.9516,
      "step": 117310
    },
    {
      "epoch": 0.24441666666666667,
      "grad_norm": 0.8003825545310974,
      "learning_rate": 0.00025893952628163657,
      "loss": 3.6461,
      "step": 117320
    },
    {
      "epoch": 0.2444375,
      "grad_norm": 0.7607778906822205,
      "learning_rate": 0.0002589327491143458,
      "loss": 3.7387,
      "step": 117330
    },
    {
      "epoch": 0.24445833333333333,
      "grad_norm": 0.9828870892524719,
      "learning_rate": 0.0002589259714765088,
      "loss": 3.9542,
      "step": 117340
    },
    {
      "epoch": 0.24447916666666666,
      "grad_norm": 0.7388181090354919,
      "learning_rate": 0.0002589191933681546,
      "loss": 3.8616,
      "step": 117350
    },
    {
      "epoch": 0.2445,
      "grad_norm": 0.7895506024360657,
      "learning_rate": 0.00025891241478931263,
      "loss": 3.8009,
      "step": 117360
    },
    {
      "epoch": 0.24452083333333333,
      "grad_norm": 0.8436576724052429,
      "learning_rate": 0.00025890563574001215,
      "loss": 3.9693,
      "step": 117370
    },
    {
      "epoch": 0.24454166666666666,
      "grad_norm": 0.7068819403648376,
      "learning_rate": 0.0002588988562202824,
      "loss": 3.797,
      "step": 117380
    },
    {
      "epoch": 0.2445625,
      "grad_norm": 0.7679857015609741,
      "learning_rate": 0.00025889207623015277,
      "loss": 3.7666,
      "step": 117390
    },
    {
      "epoch": 0.24458333333333335,
      "grad_norm": 1.0029438734054565,
      "learning_rate": 0.00025888529576965246,
      "loss": 3.9507,
      "step": 117400
    },
    {
      "epoch": 0.24460416666666668,
      "grad_norm": 0.9146065711975098,
      "learning_rate": 0.00025887851483881073,
      "loss": 3.7531,
      "step": 117410
    },
    {
      "epoch": 0.244625,
      "grad_norm": 0.8020023703575134,
      "learning_rate": 0.00025887173343765694,
      "loss": 3.8742,
      "step": 117420
    },
    {
      "epoch": 0.24464583333333334,
      "grad_norm": 0.8427119851112366,
      "learning_rate": 0.0002588649515662203,
      "loss": 3.9582,
      "step": 117430
    },
    {
      "epoch": 0.24466666666666667,
      "grad_norm": 0.859825074672699,
      "learning_rate": 0.0002588581692245302,
      "loss": 3.9081,
      "step": 117440
    },
    {
      "epoch": 0.2446875,
      "grad_norm": 0.7488427758216858,
      "learning_rate": 0.00025885138641261587,
      "loss": 3.7319,
      "step": 117450
    },
    {
      "epoch": 0.24470833333333333,
      "grad_norm": 0.7474827766418457,
      "learning_rate": 0.0002588446031305067,
      "loss": 4.1,
      "step": 117460
    },
    {
      "epoch": 0.24472916666666666,
      "grad_norm": 0.7461313009262085,
      "learning_rate": 0.00025883781937823187,
      "loss": 3.8202,
      "step": 117470
    },
    {
      "epoch": 0.24475,
      "grad_norm": 0.750504732131958,
      "learning_rate": 0.0002588310351558208,
      "loss": 3.8696,
      "step": 117480
    },
    {
      "epoch": 0.24477083333333333,
      "grad_norm": 0.7263540625572205,
      "learning_rate": 0.0002588242504633027,
      "loss": 3.7726,
      "step": 117490
    },
    {
      "epoch": 0.24479166666666666,
      "grad_norm": 0.8759488463401794,
      "learning_rate": 0.0002588174653007069,
      "loss": 3.8658,
      "step": 117500
    },
    {
      "epoch": 0.2448125,
      "grad_norm": 0.9535866379737854,
      "learning_rate": 0.00025881067966806277,
      "loss": 3.8374,
      "step": 117510
    },
    {
      "epoch": 0.24483333333333332,
      "grad_norm": 0.7921175956726074,
      "learning_rate": 0.00025880389356539957,
      "loss": 3.7613,
      "step": 117520
    },
    {
      "epoch": 0.24485416666666668,
      "grad_norm": 0.8246281743049622,
      "learning_rate": 0.00025879710699274654,
      "loss": 3.7673,
      "step": 117530
    },
    {
      "epoch": 0.244875,
      "grad_norm": 0.7820576429367065,
      "learning_rate": 0.0002587903199501331,
      "loss": 4.0497,
      "step": 117540
    },
    {
      "epoch": 0.24489583333333334,
      "grad_norm": 0.7198566794395447,
      "learning_rate": 0.00025878353243758854,
      "loss": 3.9102,
      "step": 117550
    },
    {
      "epoch": 0.24491666666666667,
      "grad_norm": 0.7308896780014038,
      "learning_rate": 0.00025877674445514223,
      "loss": 3.9733,
      "step": 117560
    },
    {
      "epoch": 0.2449375,
      "grad_norm": 0.798051118850708,
      "learning_rate": 0.0002587699560028234,
      "loss": 3.7004,
      "step": 117570
    },
    {
      "epoch": 0.24495833333333333,
      "grad_norm": 1.5684512853622437,
      "learning_rate": 0.00025876316708066144,
      "loss": 4.0953,
      "step": 117580
    },
    {
      "epoch": 0.24497916666666666,
      "grad_norm": 0.7186267971992493,
      "learning_rate": 0.0002587563776886857,
      "loss": 3.7871,
      "step": 117590
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.7487741112709045,
      "learning_rate": 0.00025874958782692533,
      "loss": 3.9525,
      "step": 117600
    },
    {
      "epoch": 0.24502083333333333,
      "grad_norm": 0.7397080659866333,
      "learning_rate": 0.00025874279749540984,
      "loss": 3.9106,
      "step": 117610
    },
    {
      "epoch": 0.24504166666666666,
      "grad_norm": 0.8941218256950378,
      "learning_rate": 0.0002587360066941686,
      "loss": 3.7492,
      "step": 117620
    },
    {
      "epoch": 0.2450625,
      "grad_norm": 0.7385103702545166,
      "learning_rate": 0.0002587292154232307,
      "loss": 3.9872,
      "step": 117630
    },
    {
      "epoch": 0.24508333333333332,
      "grad_norm": 0.6979750990867615,
      "learning_rate": 0.00025872242368262573,
      "loss": 4.0853,
      "step": 117640
    },
    {
      "epoch": 0.24510416666666668,
      "grad_norm": 0.7693807482719421,
      "learning_rate": 0.00025871563147238287,
      "loss": 3.9558,
      "step": 117650
    },
    {
      "epoch": 0.245125,
      "grad_norm": 0.7990791201591492,
      "learning_rate": 0.00025870883879253154,
      "loss": 3.9242,
      "step": 117660
    },
    {
      "epoch": 0.24514583333333334,
      "grad_norm": 0.8244684934616089,
      "learning_rate": 0.00025870204564310104,
      "loss": 3.8094,
      "step": 117670
    },
    {
      "epoch": 0.24516666666666667,
      "grad_norm": 0.8368804454803467,
      "learning_rate": 0.0002586952520241208,
      "loss": 4.0372,
      "step": 117680
    },
    {
      "epoch": 0.2451875,
      "grad_norm": 0.8076561093330383,
      "learning_rate": 0.00025868845793562,
      "loss": 3.9389,
      "step": 117690
    },
    {
      "epoch": 0.24520833333333333,
      "grad_norm": 0.9318450093269348,
      "learning_rate": 0.0002586816633776281,
      "loss": 3.8375,
      "step": 117700
    },
    {
      "epoch": 0.24522916666666666,
      "grad_norm": 0.7877236008644104,
      "learning_rate": 0.00025867486835017445,
      "loss": 4.0749,
      "step": 117710
    },
    {
      "epoch": 0.24525,
      "grad_norm": 0.6671950817108154,
      "learning_rate": 0.00025866807285328844,
      "loss": 4.0142,
      "step": 117720
    },
    {
      "epoch": 0.24527083333333333,
      "grad_norm": 0.9261797070503235,
      "learning_rate": 0.0002586612768869993,
      "loss": 3.9154,
      "step": 117730
    },
    {
      "epoch": 0.24529166666666666,
      "grad_norm": 0.8583394885063171,
      "learning_rate": 0.00025865448045133646,
      "loss": 3.801,
      "step": 117740
    },
    {
      "epoch": 0.2453125,
      "grad_norm": 0.7578561305999756,
      "learning_rate": 0.0002586476835463293,
      "loss": 3.9084,
      "step": 117750
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 0.7461709976196289,
      "learning_rate": 0.00025864088617200717,
      "loss": 4.0578,
      "step": 117760
    },
    {
      "epoch": 0.24535416666666668,
      "grad_norm": 0.6663042902946472,
      "learning_rate": 0.0002586340883283994,
      "loss": 3.8212,
      "step": 117770
    },
    {
      "epoch": 0.245375,
      "grad_norm": 0.8195911645889282,
      "learning_rate": 0.0002586272900155353,
      "loss": 3.8269,
      "step": 117780
    },
    {
      "epoch": 0.24539583333333334,
      "grad_norm": 0.7312809228897095,
      "learning_rate": 0.00025862049123344437,
      "loss": 3.8748,
      "step": 117790
    },
    {
      "epoch": 0.24541666666666667,
      "grad_norm": 0.7168952822685242,
      "learning_rate": 0.0002586136919821559,
      "loss": 3.8224,
      "step": 117800
    },
    {
      "epoch": 0.2454375,
      "grad_norm": 0.6587426662445068,
      "learning_rate": 0.0002586068922616993,
      "loss": 3.8837,
      "step": 117810
    },
    {
      "epoch": 0.24545833333333333,
      "grad_norm": 0.7248347997665405,
      "learning_rate": 0.0002586000920721039,
      "loss": 3.8846,
      "step": 117820
    },
    {
      "epoch": 0.24547916666666666,
      "grad_norm": 0.9438204169273376,
      "learning_rate": 0.00025859329141339905,
      "loss": 3.8208,
      "step": 117830
    },
    {
      "epoch": 0.2455,
      "grad_norm": 0.7446009516716003,
      "learning_rate": 0.00025858649028561424,
      "loss": 3.6054,
      "step": 117840
    },
    {
      "epoch": 0.24552083333333333,
      "grad_norm": 0.7440967559814453,
      "learning_rate": 0.0002585796886887787,
      "loss": 3.9672,
      "step": 117850
    },
    {
      "epoch": 0.24554166666666666,
      "grad_norm": 0.8069555759429932,
      "learning_rate": 0.0002585728866229219,
      "loss": 4.0227,
      "step": 117860
    },
    {
      "epoch": 0.2455625,
      "grad_norm": 0.6850826144218445,
      "learning_rate": 0.0002585660840880732,
      "loss": 3.7899,
      "step": 117870
    },
    {
      "epoch": 0.24558333333333332,
      "grad_norm": 0.8871257901191711,
      "learning_rate": 0.00025855928108426204,
      "loss": 3.8527,
      "step": 117880
    },
    {
      "epoch": 0.24560416666666668,
      "grad_norm": 0.7395383715629578,
      "learning_rate": 0.0002585524776115177,
      "loss": 3.9098,
      "step": 117890
    },
    {
      "epoch": 0.245625,
      "grad_norm": 0.8603458404541016,
      "learning_rate": 0.00025854567366986967,
      "loss": 4.0497,
      "step": 117900
    },
    {
      "epoch": 0.24564583333333334,
      "grad_norm": 0.848872721195221,
      "learning_rate": 0.0002585388692593473,
      "loss": 3.7729,
      "step": 117910
    },
    {
      "epoch": 0.24566666666666667,
      "grad_norm": 0.8818458318710327,
      "learning_rate": 0.00025853206437997993,
      "loss": 3.8417,
      "step": 117920
    },
    {
      "epoch": 0.2456875,
      "grad_norm": 0.8350204229354858,
      "learning_rate": 0.00025852525903179705,
      "loss": 3.9054,
      "step": 117930
    },
    {
      "epoch": 0.24570833333333333,
      "grad_norm": 0.8009337782859802,
      "learning_rate": 0.0002585184532148279,
      "loss": 3.8578,
      "step": 117940
    },
    {
      "epoch": 0.24572916666666667,
      "grad_norm": 0.7838413715362549,
      "learning_rate": 0.0002585116469291021,
      "loss": 3.8416,
      "step": 117950
    },
    {
      "epoch": 0.24575,
      "grad_norm": 0.7169784307479858,
      "learning_rate": 0.00025850484017464893,
      "loss": 3.9229,
      "step": 117960
    },
    {
      "epoch": 0.24577083333333333,
      "grad_norm": 0.7186762094497681,
      "learning_rate": 0.0002584980329514978,
      "loss": 4.0552,
      "step": 117970
    },
    {
      "epoch": 0.24579166666666666,
      "grad_norm": 0.6634181141853333,
      "learning_rate": 0.00025849122525967806,
      "loss": 3.8731,
      "step": 117980
    },
    {
      "epoch": 0.2458125,
      "grad_norm": 0.7562337517738342,
      "learning_rate": 0.0002584844170992192,
      "loss": 3.7924,
      "step": 117990
    },
    {
      "epoch": 0.24583333333333332,
      "grad_norm": 0.8085762858390808,
      "learning_rate": 0.0002584776084701506,
      "loss": 4.0219,
      "step": 118000
    },
    {
      "epoch": 0.24583333333333332,
      "eval_loss": 4.266958713531494,
      "eval_runtime": 10.2424,
      "eval_samples_per_second": 0.976,
      "eval_steps_per_second": 0.293,
      "step": 118000
    },
    {
      "epoch": 0.24585416666666668,
      "grad_norm": 0.8509557843208313,
      "learning_rate": 0.0002584707993725017,
      "loss": 3.8858,
      "step": 118010
    },
    {
      "epoch": 0.245875,
      "grad_norm": 0.7315271496772766,
      "learning_rate": 0.0002584639898063018,
      "loss": 3.9974,
      "step": 118020
    },
    {
      "epoch": 0.24589583333333334,
      "grad_norm": 0.7400884628295898,
      "learning_rate": 0.0002584571797715805,
      "loss": 3.7917,
      "step": 118030
    },
    {
      "epoch": 0.24591666666666667,
      "grad_norm": 0.823716402053833,
      "learning_rate": 0.00025845036926836704,
      "loss": 3.9015,
      "step": 118040
    },
    {
      "epoch": 0.2459375,
      "grad_norm": 0.7612546682357788,
      "learning_rate": 0.0002584435582966909,
      "loss": 3.9922,
      "step": 118050
    },
    {
      "epoch": 0.24595833333333333,
      "grad_norm": 0.8200158476829529,
      "learning_rate": 0.0002584367468565816,
      "loss": 4.0538,
      "step": 118060
    },
    {
      "epoch": 0.24597916666666667,
      "grad_norm": 1.0333000421524048,
      "learning_rate": 0.00025842993494806836,
      "loss": 3.9545,
      "step": 118070
    },
    {
      "epoch": 0.246,
      "grad_norm": 0.754226565361023,
      "learning_rate": 0.00025842312257118083,
      "loss": 3.7857,
      "step": 118080
    },
    {
      "epoch": 0.24602083333333333,
      "grad_norm": 0.7303328514099121,
      "learning_rate": 0.0002584163097259483,
      "loss": 3.8981,
      "step": 118090
    },
    {
      "epoch": 0.24604166666666666,
      "grad_norm": 0.9526427984237671,
      "learning_rate": 0.0002584094964124002,
      "loss": 3.9291,
      "step": 118100
    },
    {
      "epoch": 0.2460625,
      "grad_norm": 0.8157503604888916,
      "learning_rate": 0.000258402682630566,
      "loss": 3.9873,
      "step": 118110
    },
    {
      "epoch": 0.24608333333333332,
      "grad_norm": 0.7763271927833557,
      "learning_rate": 0.0002583958683804751,
      "loss": 3.786,
      "step": 118120
    },
    {
      "epoch": 0.24610416666666668,
      "grad_norm": 0.8745626211166382,
      "learning_rate": 0.00025838905366215695,
      "loss": 3.8689,
      "step": 118130
    },
    {
      "epoch": 0.246125,
      "grad_norm": 0.7494639158248901,
      "learning_rate": 0.000258382238475641,
      "loss": 3.9522,
      "step": 118140
    },
    {
      "epoch": 0.24614583333333334,
      "grad_norm": 0.7587249279022217,
      "learning_rate": 0.0002583754228209567,
      "loss": 4.0,
      "step": 118150
    },
    {
      "epoch": 0.24616666666666667,
      "grad_norm": 0.7290973663330078,
      "learning_rate": 0.0002583686066981335,
      "loss": 3.775,
      "step": 118160
    },
    {
      "epoch": 0.2461875,
      "grad_norm": 0.7882353067398071,
      "learning_rate": 0.0002583617901072008,
      "loss": 4.0013,
      "step": 118170
    },
    {
      "epoch": 0.24620833333333333,
      "grad_norm": 0.7927708625793457,
      "learning_rate": 0.000258354973048188,
      "loss": 3.7872,
      "step": 118180
    },
    {
      "epoch": 0.24622916666666667,
      "grad_norm": 0.7805205583572388,
      "learning_rate": 0.00025834815552112467,
      "loss": 3.8634,
      "step": 118190
    },
    {
      "epoch": 0.24625,
      "grad_norm": 0.7336538434028625,
      "learning_rate": 0.00025834133752604014,
      "loss": 3.8598,
      "step": 118200
    },
    {
      "epoch": 0.24627083333333333,
      "grad_norm": 0.8449468612670898,
      "learning_rate": 0.0002583345190629639,
      "loss": 3.8523,
      "step": 118210
    },
    {
      "epoch": 0.24629166666666666,
      "grad_norm": 0.6761786341667175,
      "learning_rate": 0.0002583277001319255,
      "loss": 3.9557,
      "step": 118220
    },
    {
      "epoch": 0.2463125,
      "grad_norm": 0.7736433148384094,
      "learning_rate": 0.00025832088073295427,
      "loss": 3.7703,
      "step": 118230
    },
    {
      "epoch": 0.24633333333333332,
      "grad_norm": 1.455973744392395,
      "learning_rate": 0.00025831406086607975,
      "loss": 3.8762,
      "step": 118240
    },
    {
      "epoch": 0.24635416666666668,
      "grad_norm": 0.7978841662406921,
      "learning_rate": 0.00025830724053133134,
      "loss": 3.7365,
      "step": 118250
    },
    {
      "epoch": 0.246375,
      "grad_norm": 0.7907574772834778,
      "learning_rate": 0.00025830041972873846,
      "loss": 3.8346,
      "step": 118260
    },
    {
      "epoch": 0.24639583333333334,
      "grad_norm": 0.8256410360336304,
      "learning_rate": 0.00025829359845833073,
      "loss": 4.0863,
      "step": 118270
    },
    {
      "epoch": 0.24641666666666667,
      "grad_norm": 0.8104029893875122,
      "learning_rate": 0.00025828677672013747,
      "loss": 3.8549,
      "step": 118280
    },
    {
      "epoch": 0.2464375,
      "grad_norm": 0.7649282813072205,
      "learning_rate": 0.0002582799545141882,
      "loss": 3.7909,
      "step": 118290
    },
    {
      "epoch": 0.24645833333333333,
      "grad_norm": 0.7104467749595642,
      "learning_rate": 0.0002582731318405124,
      "loss": 3.8779,
      "step": 118300
    },
    {
      "epoch": 0.24647916666666667,
      "grad_norm": 0.7515720725059509,
      "learning_rate": 0.00025826630869913954,
      "loss": 4.0247,
      "step": 118310
    },
    {
      "epoch": 0.2465,
      "grad_norm": 0.7575503587722778,
      "learning_rate": 0.00025825948509009905,
      "loss": 3.8245,
      "step": 118320
    },
    {
      "epoch": 0.24652083333333333,
      "grad_norm": 0.7842723727226257,
      "learning_rate": 0.0002582526610134205,
      "loss": 3.7684,
      "step": 118330
    },
    {
      "epoch": 0.24654166666666666,
      "grad_norm": 0.7189513444900513,
      "learning_rate": 0.00025824583646913315,
      "loss": 3.698,
      "step": 118340
    },
    {
      "epoch": 0.2465625,
      "grad_norm": 0.9049310088157654,
      "learning_rate": 0.0002582390114572668,
      "loss": 3.7851,
      "step": 118350
    },
    {
      "epoch": 0.24658333333333332,
      "grad_norm": 0.7991364002227783,
      "learning_rate": 0.0002582321859778507,
      "loss": 3.8576,
      "step": 118360
    },
    {
      "epoch": 0.24660416666666668,
      "grad_norm": 0.7606180310249329,
      "learning_rate": 0.00025822536003091437,
      "loss": 4.0814,
      "step": 118370
    },
    {
      "epoch": 0.246625,
      "grad_norm": 0.6880004405975342,
      "learning_rate": 0.00025821853361648737,
      "loss": 3.8324,
      "step": 118380
    },
    {
      "epoch": 0.24664583333333334,
      "grad_norm": 0.6642782092094421,
      "learning_rate": 0.0002582117067345991,
      "loss": 3.9126,
      "step": 118390
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 0.7893816828727722,
      "learning_rate": 0.0002582048793852791,
      "loss": 3.7172,
      "step": 118400
    },
    {
      "epoch": 0.2466875,
      "grad_norm": 0.7701625227928162,
      "learning_rate": 0.0002581980515685569,
      "loss": 3.8943,
      "step": 118410
    },
    {
      "epoch": 0.24670833333333334,
      "grad_norm": 0.7917223572731018,
      "learning_rate": 0.0002581912232844619,
      "loss": 3.9412,
      "step": 118420
    },
    {
      "epoch": 0.24672916666666667,
      "grad_norm": 0.6916700601577759,
      "learning_rate": 0.0002581843945330236,
      "loss": 4.0062,
      "step": 118430
    },
    {
      "epoch": 0.24675,
      "grad_norm": 0.7683937549591064,
      "learning_rate": 0.00025817756531427164,
      "loss": 3.9351,
      "step": 118440
    },
    {
      "epoch": 0.24677083333333333,
      "grad_norm": 0.7596041560173035,
      "learning_rate": 0.00025817073562823536,
      "loss": 3.9528,
      "step": 118450
    },
    {
      "epoch": 0.24679166666666666,
      "grad_norm": 0.7966545224189758,
      "learning_rate": 0.0002581639054749443,
      "loss": 3.8081,
      "step": 118460
    },
    {
      "epoch": 0.2468125,
      "grad_norm": 0.7783086895942688,
      "learning_rate": 0.000258157074854428,
      "loss": 3.9701,
      "step": 118470
    },
    {
      "epoch": 0.24683333333333332,
      "grad_norm": 0.7720364928245544,
      "learning_rate": 0.000258150243766716,
      "loss": 3.8943,
      "step": 118480
    },
    {
      "epoch": 0.24685416666666668,
      "grad_norm": 0.7991997003555298,
      "learning_rate": 0.0002581434122118377,
      "loss": 3.8773,
      "step": 118490
    },
    {
      "epoch": 0.246875,
      "grad_norm": 0.8031527400016785,
      "learning_rate": 0.00025813658018982263,
      "loss": 3.8566,
      "step": 118500
    },
    {
      "epoch": 0.24689583333333334,
      "grad_norm": 0.7115350961685181,
      "learning_rate": 0.0002581297477007004,
      "loss": 3.81,
      "step": 118510
    },
    {
      "epoch": 0.24691666666666667,
      "grad_norm": 0.8297569751739502,
      "learning_rate": 0.0002581229147445005,
      "loss": 3.9956,
      "step": 118520
    },
    {
      "epoch": 0.2469375,
      "grad_norm": 0.6959481239318848,
      "learning_rate": 0.0002581160813212523,
      "loss": 3.8531,
      "step": 118530
    },
    {
      "epoch": 0.24695833333333334,
      "grad_norm": 0.7457829117774963,
      "learning_rate": 0.0002581092474309855,
      "loss": 3.9337,
      "step": 118540
    },
    {
      "epoch": 0.24697916666666667,
      "grad_norm": 0.7139862179756165,
      "learning_rate": 0.0002581024130737295,
      "loss": 3.8651,
      "step": 118550
    },
    {
      "epoch": 0.247,
      "grad_norm": 0.8388549089431763,
      "learning_rate": 0.0002580955782495139,
      "loss": 3.8096,
      "step": 118560
    },
    {
      "epoch": 0.24702083333333333,
      "grad_norm": 0.8134562969207764,
      "learning_rate": 0.0002580887429583681,
      "loss": 3.8764,
      "step": 118570
    },
    {
      "epoch": 0.24704166666666666,
      "grad_norm": 0.7748236060142517,
      "learning_rate": 0.0002580819072003218,
      "loss": 3.9372,
      "step": 118580
    },
    {
      "epoch": 0.2470625,
      "grad_norm": 0.8163461685180664,
      "learning_rate": 0.00025807507097540445,
      "loss": 3.9046,
      "step": 118590
    },
    {
      "epoch": 0.24708333333333332,
      "grad_norm": 0.7864865064620972,
      "learning_rate": 0.0002580682342836455,
      "loss": 3.9183,
      "step": 118600
    },
    {
      "epoch": 0.24710416666666668,
      "grad_norm": 0.6933535933494568,
      "learning_rate": 0.00025806139712507465,
      "loss": 3.8614,
      "step": 118610
    },
    {
      "epoch": 0.247125,
      "grad_norm": 0.7521572709083557,
      "learning_rate": 0.0002580545594997213,
      "loss": 3.9273,
      "step": 118620
    },
    {
      "epoch": 0.24714583333333334,
      "grad_norm": 0.8213915824890137,
      "learning_rate": 0.00025804772140761503,
      "loss": 3.9741,
      "step": 118630
    },
    {
      "epoch": 0.24716666666666667,
      "grad_norm": 0.8198223114013672,
      "learning_rate": 0.00025804088284878536,
      "loss": 3.7938,
      "step": 118640
    },
    {
      "epoch": 0.2471875,
      "grad_norm": 0.7838565111160278,
      "learning_rate": 0.00025803404382326184,
      "loss": 3.6433,
      "step": 118650
    },
    {
      "epoch": 0.24720833333333334,
      "grad_norm": 0.7857825756072998,
      "learning_rate": 0.000258027204331074,
      "loss": 3.8687,
      "step": 118660
    },
    {
      "epoch": 0.24722916666666667,
      "grad_norm": 0.7897281646728516,
      "learning_rate": 0.0002580203643722514,
      "loss": 3.7845,
      "step": 118670
    },
    {
      "epoch": 0.24725,
      "grad_norm": 0.7169413566589355,
      "learning_rate": 0.0002580135239468236,
      "loss": 3.9585,
      "step": 118680
    },
    {
      "epoch": 0.24727083333333333,
      "grad_norm": 0.714391827583313,
      "learning_rate": 0.00025800668305482014,
      "loss": 3.9187,
      "step": 118690
    },
    {
      "epoch": 0.24729166666666666,
      "grad_norm": 0.874221920967102,
      "learning_rate": 0.00025799984169627054,
      "loss": 3.7858,
      "step": 118700
    },
    {
      "epoch": 0.2473125,
      "grad_norm": 0.9348215460777283,
      "learning_rate": 0.0002579929998712044,
      "loss": 3.8379,
      "step": 118710
    },
    {
      "epoch": 0.24733333333333332,
      "grad_norm": 0.7128881812095642,
      "learning_rate": 0.0002579861575796512,
      "loss": 3.8892,
      "step": 118720
    },
    {
      "epoch": 0.24735416666666668,
      "grad_norm": 0.785354495048523,
      "learning_rate": 0.0002579793148216406,
      "loss": 3.9584,
      "step": 118730
    },
    {
      "epoch": 0.247375,
      "grad_norm": 0.7651207447052002,
      "learning_rate": 0.000257972471597202,
      "loss": 3.8266,
      "step": 118740
    },
    {
      "epoch": 0.24739583333333334,
      "grad_norm": 0.7556189894676208,
      "learning_rate": 0.0002579656279063652,
      "loss": 3.9462,
      "step": 118750
    },
    {
      "epoch": 0.24741666666666667,
      "grad_norm": 0.7322025895118713,
      "learning_rate": 0.00025795878374915957,
      "loss": 3.966,
      "step": 118760
    },
    {
      "epoch": 0.2474375,
      "grad_norm": 0.7910550236701965,
      "learning_rate": 0.0002579519391256147,
      "loss": 3.9621,
      "step": 118770
    },
    {
      "epoch": 0.24745833333333334,
      "grad_norm": 0.8131060004234314,
      "learning_rate": 0.0002579450940357602,
      "loss": 3.7817,
      "step": 118780
    },
    {
      "epoch": 0.24747916666666667,
      "grad_norm": 0.7775981426239014,
      "learning_rate": 0.0002579382484796256,
      "loss": 3.7924,
      "step": 118790
    },
    {
      "epoch": 0.2475,
      "grad_norm": 0.7095739841461182,
      "learning_rate": 0.00025793140245724053,
      "loss": 3.919,
      "step": 118800
    },
    {
      "epoch": 0.24752083333333333,
      "grad_norm": 0.808732807636261,
      "learning_rate": 0.0002579245559686345,
      "loss": 3.6478,
      "step": 118810
    },
    {
      "epoch": 0.24754166666666666,
      "grad_norm": 0.7501935958862305,
      "learning_rate": 0.0002579177090138371,
      "loss": 4.0657,
      "step": 118820
    },
    {
      "epoch": 0.2475625,
      "grad_norm": 0.7679192423820496,
      "learning_rate": 0.0002579108615928779,
      "loss": 3.9001,
      "step": 118830
    },
    {
      "epoch": 0.24758333333333332,
      "grad_norm": 0.831760823726654,
      "learning_rate": 0.00025790401370578655,
      "loss": 3.9945,
      "step": 118840
    },
    {
      "epoch": 0.24760416666666665,
      "grad_norm": 0.7904289960861206,
      "learning_rate": 0.00025789716535259255,
      "loss": 3.8589,
      "step": 118850
    },
    {
      "epoch": 0.247625,
      "grad_norm": 0.7790654301643372,
      "learning_rate": 0.0002578903165333255,
      "loss": 3.8282,
      "step": 118860
    },
    {
      "epoch": 0.24764583333333334,
      "grad_norm": 0.7892662286758423,
      "learning_rate": 0.000257883467248015,
      "loss": 3.9182,
      "step": 118870
    },
    {
      "epoch": 0.24766666666666667,
      "grad_norm": 0.7266308069229126,
      "learning_rate": 0.0002578766174966906,
      "loss": 3.9661,
      "step": 118880
    },
    {
      "epoch": 0.2476875,
      "grad_norm": 0.8332687020301819,
      "learning_rate": 0.0002578697672793819,
      "loss": 4.0452,
      "step": 118890
    },
    {
      "epoch": 0.24770833333333334,
      "grad_norm": 0.8307802081108093,
      "learning_rate": 0.0002578629165961185,
      "loss": 3.9783,
      "step": 118900
    },
    {
      "epoch": 0.24772916666666667,
      "grad_norm": 0.7504441738128662,
      "learning_rate": 0.00025785606544693004,
      "loss": 4.0456,
      "step": 118910
    },
    {
      "epoch": 0.24775,
      "grad_norm": 0.9212787747383118,
      "learning_rate": 0.00025784921383184605,
      "loss": 3.9358,
      "step": 118920
    },
    {
      "epoch": 0.24777083333333333,
      "grad_norm": 0.8976601362228394,
      "learning_rate": 0.00025784236175089615,
      "loss": 3.8662,
      "step": 118930
    },
    {
      "epoch": 0.24779166666666666,
      "grad_norm": 0.8270803689956665,
      "learning_rate": 0.00025783550920410996,
      "loss": 3.9675,
      "step": 118940
    },
    {
      "epoch": 0.2478125,
      "grad_norm": 0.7403931021690369,
      "learning_rate": 0.00025782865619151696,
      "loss": 3.9215,
      "step": 118950
    },
    {
      "epoch": 0.24783333333333332,
      "grad_norm": 0.7046790719032288,
      "learning_rate": 0.0002578218027131469,
      "loss": 3.9054,
      "step": 118960
    },
    {
      "epoch": 0.24785416666666665,
      "grad_norm": 0.795700192451477,
      "learning_rate": 0.00025781494876902936,
      "loss": 3.8708,
      "step": 118970
    },
    {
      "epoch": 0.247875,
      "grad_norm": 0.7278501391410828,
      "learning_rate": 0.0002578080943591939,
      "loss": 3.8362,
      "step": 118980
    },
    {
      "epoch": 0.24789583333333334,
      "grad_norm": 0.7614150643348694,
      "learning_rate": 0.00025780123948367014,
      "loss": 3.8015,
      "step": 118990
    },
    {
      "epoch": 0.24791666666666667,
      "grad_norm": 0.7986441254615784,
      "learning_rate": 0.0002577943841424877,
      "loss": 3.7756,
      "step": 119000
    },
    {
      "epoch": 0.24791666666666667,
      "eval_loss": 4.25430965423584,
      "eval_runtime": 10.5281,
      "eval_samples_per_second": 0.95,
      "eval_steps_per_second": 0.285,
      "step": 119000
    },
    {
      "epoch": 0.2479375,
      "grad_norm": 0.7183091044425964,
      "learning_rate": 0.0002577875283356762,
      "loss": 3.9684,
      "step": 119010
    },
    {
      "epoch": 0.24795833333333334,
      "grad_norm": 0.7396254539489746,
      "learning_rate": 0.0002577806720632652,
      "loss": 3.8953,
      "step": 119020
    },
    {
      "epoch": 0.24797916666666667,
      "grad_norm": 0.8980370759963989,
      "learning_rate": 0.0002577738153252844,
      "loss": 3.9279,
      "step": 119030
    },
    {
      "epoch": 0.248,
      "grad_norm": 0.6665918827056885,
      "learning_rate": 0.0002577669581217634,
      "loss": 3.829,
      "step": 119040
    },
    {
      "epoch": 0.24802083333333333,
      "grad_norm": 0.7784817814826965,
      "learning_rate": 0.00025776010045273174,
      "loss": 3.906,
      "step": 119050
    },
    {
      "epoch": 0.24804166666666666,
      "grad_norm": 0.6717686653137207,
      "learning_rate": 0.00025775324231821914,
      "loss": 3.9668,
      "step": 119060
    },
    {
      "epoch": 0.2480625,
      "grad_norm": 0.7231533527374268,
      "learning_rate": 0.0002577463837182552,
      "loss": 3.9343,
      "step": 119070
    },
    {
      "epoch": 0.24808333333333332,
      "grad_norm": 0.8420966267585754,
      "learning_rate": 0.0002577395246528695,
      "loss": 3.9364,
      "step": 119080
    },
    {
      "epoch": 0.24810416666666665,
      "grad_norm": 0.6961618661880493,
      "learning_rate": 0.00025773266512209167,
      "loss": 3.9292,
      "step": 119090
    },
    {
      "epoch": 0.248125,
      "grad_norm": 0.7590980529785156,
      "learning_rate": 0.0002577258051259514,
      "loss": 3.8922,
      "step": 119100
    },
    {
      "epoch": 0.24814583333333334,
      "grad_norm": 0.7866113781929016,
      "learning_rate": 0.0002577189446644783,
      "loss": 4.0258,
      "step": 119110
    },
    {
      "epoch": 0.24816666666666667,
      "grad_norm": 0.7445114254951477,
      "learning_rate": 0.000257712083737702,
      "loss": 4.057,
      "step": 119120
    },
    {
      "epoch": 0.2481875,
      "grad_norm": 0.8174688816070557,
      "learning_rate": 0.00025770522234565214,
      "loss": 3.8783,
      "step": 119130
    },
    {
      "epoch": 0.24820833333333334,
      "grad_norm": 0.768875777721405,
      "learning_rate": 0.00025769836048835835,
      "loss": 3.8768,
      "step": 119140
    },
    {
      "epoch": 0.24822916666666667,
      "grad_norm": 0.7465024590492249,
      "learning_rate": 0.0002576914981658502,
      "loss": 3.9433,
      "step": 119150
    },
    {
      "epoch": 0.24825,
      "grad_norm": 0.7953804731369019,
      "learning_rate": 0.00025768463537815747,
      "loss": 3.8746,
      "step": 119160
    },
    {
      "epoch": 0.24827083333333333,
      "grad_norm": 0.8756990432739258,
      "learning_rate": 0.00025767777212530975,
      "loss": 3.9471,
      "step": 119170
    },
    {
      "epoch": 0.24829166666666666,
      "grad_norm": 0.6783236861228943,
      "learning_rate": 0.00025767090840733665,
      "loss": 3.7586,
      "step": 119180
    },
    {
      "epoch": 0.2483125,
      "grad_norm": 0.7433435916900635,
      "learning_rate": 0.00025766404422426786,
      "loss": 3.9846,
      "step": 119190
    },
    {
      "epoch": 0.24833333333333332,
      "grad_norm": 0.9738131761550903,
      "learning_rate": 0.00025765717957613305,
      "loss": 3.9793,
      "step": 119200
    },
    {
      "epoch": 0.24835416666666665,
      "grad_norm": 0.9018031358718872,
      "learning_rate": 0.0002576503144629618,
      "loss": 3.776,
      "step": 119210
    },
    {
      "epoch": 0.248375,
      "grad_norm": 0.8421837687492371,
      "learning_rate": 0.00025764344888478384,
      "loss": 3.8659,
      "step": 119220
    },
    {
      "epoch": 0.24839583333333334,
      "grad_norm": 0.7560642957687378,
      "learning_rate": 0.0002576365828416287,
      "loss": 3.9978,
      "step": 119230
    },
    {
      "epoch": 0.24841666666666667,
      "grad_norm": 0.9240201115608215,
      "learning_rate": 0.0002576297163335262,
      "loss": 3.7973,
      "step": 119240
    },
    {
      "epoch": 0.2484375,
      "grad_norm": 0.7427593469619751,
      "learning_rate": 0.0002576228493605059,
      "loss": 3.7976,
      "step": 119250
    },
    {
      "epoch": 0.24845833333333334,
      "grad_norm": 0.7888592481613159,
      "learning_rate": 0.00025761598192259753,
      "loss": 3.9443,
      "step": 119260
    },
    {
      "epoch": 0.24847916666666667,
      "grad_norm": 0.7696585655212402,
      "learning_rate": 0.00025760911401983064,
      "loss": 3.8123,
      "step": 119270
    },
    {
      "epoch": 0.2485,
      "grad_norm": 0.7770204544067383,
      "learning_rate": 0.000257602245652235,
      "loss": 3.6487,
      "step": 119280
    },
    {
      "epoch": 0.24852083333333333,
      "grad_norm": 0.8350966572761536,
      "learning_rate": 0.0002575953768198403,
      "loss": 3.9704,
      "step": 119290
    },
    {
      "epoch": 0.24854166666666666,
      "grad_norm": 0.8749803900718689,
      "learning_rate": 0.0002575885075226761,
      "loss": 4.0506,
      "step": 119300
    },
    {
      "epoch": 0.2485625,
      "grad_norm": 0.7713797092437744,
      "learning_rate": 0.0002575816377607722,
      "loss": 3.8592,
      "step": 119310
    },
    {
      "epoch": 0.24858333333333332,
      "grad_norm": 0.7840929627418518,
      "learning_rate": 0.00025757476753415814,
      "loss": 3.9434,
      "step": 119320
    },
    {
      "epoch": 0.24860416666666665,
      "grad_norm": 0.7748851776123047,
      "learning_rate": 0.0002575678968428637,
      "loss": 4.0439,
      "step": 119330
    },
    {
      "epoch": 0.248625,
      "grad_norm": 0.8977269530296326,
      "learning_rate": 0.00025756102568691853,
      "loss": 3.7257,
      "step": 119340
    },
    {
      "epoch": 0.24864583333333334,
      "grad_norm": 1.0532125234603882,
      "learning_rate": 0.0002575541540663523,
      "loss": 3.8985,
      "step": 119350
    },
    {
      "epoch": 0.24866666666666667,
      "grad_norm": 0.7944119572639465,
      "learning_rate": 0.0002575472819811947,
      "loss": 4.0293,
      "step": 119360
    },
    {
      "epoch": 0.2486875,
      "grad_norm": 0.7961151003837585,
      "learning_rate": 0.0002575404094314754,
      "loss": 3.7829,
      "step": 119370
    },
    {
      "epoch": 0.24870833333333334,
      "grad_norm": 0.8592562079429626,
      "learning_rate": 0.00025753353641722406,
      "loss": 3.8202,
      "step": 119380
    },
    {
      "epoch": 0.24872916666666667,
      "grad_norm": 0.7673205733299255,
      "learning_rate": 0.0002575266629384705,
      "loss": 3.7408,
      "step": 119390
    },
    {
      "epoch": 0.24875,
      "grad_norm": 0.7821853160858154,
      "learning_rate": 0.00025751978899524425,
      "loss": 4.0078,
      "step": 119400
    },
    {
      "epoch": 0.24877083333333333,
      "grad_norm": 0.80134117603302,
      "learning_rate": 0.0002575129145875751,
      "loss": 3.8949,
      "step": 119410
    },
    {
      "epoch": 0.24879166666666666,
      "grad_norm": 0.8038097023963928,
      "learning_rate": 0.0002575060397154927,
      "loss": 3.9979,
      "step": 119420
    },
    {
      "epoch": 0.2488125,
      "grad_norm": 0.698530912399292,
      "learning_rate": 0.0002574991643790268,
      "loss": 3.9226,
      "step": 119430
    },
    {
      "epoch": 0.24883333333333332,
      "grad_norm": 0.8223938345909119,
      "learning_rate": 0.00025749228857820697,
      "loss": 4.0191,
      "step": 119440
    },
    {
      "epoch": 0.24885416666666665,
      "grad_norm": 1.0998618602752686,
      "learning_rate": 0.0002574854123130631,
      "loss": 3.9105,
      "step": 119450
    },
    {
      "epoch": 0.248875,
      "grad_norm": 0.8840294480323792,
      "learning_rate": 0.0002574785355836247,
      "loss": 3.9844,
      "step": 119460
    },
    {
      "epoch": 0.24889583333333334,
      "grad_norm": 0.7713092565536499,
      "learning_rate": 0.00025747165838992163,
      "loss": 3.8983,
      "step": 119470
    },
    {
      "epoch": 0.24891666666666667,
      "grad_norm": 0.7873407006263733,
      "learning_rate": 0.00025746478073198357,
      "loss": 4.0182,
      "step": 119480
    },
    {
      "epoch": 0.2489375,
      "grad_norm": 0.8315816521644592,
      "learning_rate": 0.0002574579026098401,
      "loss": 3.9179,
      "step": 119490
    },
    {
      "epoch": 0.24895833333333334,
      "grad_norm": 0.7342570424079895,
      "learning_rate": 0.0002574510240235211,
      "loss": 3.8784,
      "step": 119500
    },
    {
      "epoch": 0.24897916666666667,
      "grad_norm": 0.6908738017082214,
      "learning_rate": 0.0002574441449730562,
      "loss": 3.7849,
      "step": 119510
    },
    {
      "epoch": 0.249,
      "grad_norm": 0.8053215742111206,
      "learning_rate": 0.00025743726545847514,
      "loss": 3.8258,
      "step": 119520
    },
    {
      "epoch": 0.24902083333333333,
      "grad_norm": 0.8010688424110413,
      "learning_rate": 0.0002574303854798076,
      "loss": 3.7594,
      "step": 119530
    },
    {
      "epoch": 0.24904166666666666,
      "grad_norm": 0.7700222134590149,
      "learning_rate": 0.0002574235050370833,
      "loss": 3.7725,
      "step": 119540
    },
    {
      "epoch": 0.2490625,
      "grad_norm": 0.7160970568656921,
      "learning_rate": 0.000257416624130332,
      "loss": 3.779,
      "step": 119550
    },
    {
      "epoch": 0.24908333333333332,
      "grad_norm": 0.8002211451530457,
      "learning_rate": 0.0002574097427595834,
      "loss": 3.9337,
      "step": 119560
    },
    {
      "epoch": 0.24910416666666665,
      "grad_norm": 0.8235437870025635,
      "learning_rate": 0.0002574028609248672,
      "loss": 3.8452,
      "step": 119570
    },
    {
      "epoch": 0.249125,
      "grad_norm": 0.7225263118743896,
      "learning_rate": 0.00025739597862621316,
      "loss": 3.7191,
      "step": 119580
    },
    {
      "epoch": 0.24914583333333334,
      "grad_norm": 0.6830423474311829,
      "learning_rate": 0.000257389095863651,
      "loss": 3.8314,
      "step": 119590
    },
    {
      "epoch": 0.24916666666666668,
      "grad_norm": 0.655307412147522,
      "learning_rate": 0.0002573822126372105,
      "loss": 4.003,
      "step": 119600
    },
    {
      "epoch": 0.2491875,
      "grad_norm": 0.6475358009338379,
      "learning_rate": 0.00025737532894692125,
      "loss": 3.9405,
      "step": 119610
    },
    {
      "epoch": 0.24920833333333334,
      "grad_norm": 0.7996302247047424,
      "learning_rate": 0.00025736844479281316,
      "loss": 3.9271,
      "step": 119620
    },
    {
      "epoch": 0.24922916666666667,
      "grad_norm": 0.7359477877616882,
      "learning_rate": 0.0002573615601749159,
      "loss": 3.7936,
      "step": 119630
    },
    {
      "epoch": 0.24925,
      "grad_norm": 0.7516186237335205,
      "learning_rate": 0.0002573546750932592,
      "loss": 3.9198,
      "step": 119640
    },
    {
      "epoch": 0.24927083333333333,
      "grad_norm": 0.7371119856834412,
      "learning_rate": 0.0002573477895478727,
      "loss": 4.0028,
      "step": 119650
    },
    {
      "epoch": 0.24929166666666666,
      "grad_norm": 0.6925827860832214,
      "learning_rate": 0.0002573409035387863,
      "loss": 3.868,
      "step": 119660
    },
    {
      "epoch": 0.2493125,
      "grad_norm": 0.7882235646247864,
      "learning_rate": 0.00025733401706602975,
      "loss": 3.8277,
      "step": 119670
    },
    {
      "epoch": 0.24933333333333332,
      "grad_norm": 0.696254312992096,
      "learning_rate": 0.00025732713012963267,
      "loss": 4.1132,
      "step": 119680
    },
    {
      "epoch": 0.24935416666666665,
      "grad_norm": 0.7049545049667358,
      "learning_rate": 0.0002573202427296249,
      "loss": 3.9165,
      "step": 119690
    },
    {
      "epoch": 0.249375,
      "grad_norm": 0.8547190427780151,
      "learning_rate": 0.00025731335486603614,
      "loss": 3.9967,
      "step": 119700
    },
    {
      "epoch": 0.24939583333333334,
      "grad_norm": 0.7897358536720276,
      "learning_rate": 0.0002573064665388961,
      "loss": 4.0586,
      "step": 119710
    },
    {
      "epoch": 0.24941666666666668,
      "grad_norm": 0.809725284576416,
      "learning_rate": 0.0002572995777482347,
      "loss": 3.9585,
      "step": 119720
    },
    {
      "epoch": 0.2494375,
      "grad_norm": 0.7695266604423523,
      "learning_rate": 0.0002572926884940815,
      "loss": 3.8964,
      "step": 119730
    },
    {
      "epoch": 0.24945833333333334,
      "grad_norm": 0.7468916773796082,
      "learning_rate": 0.00025728579877646647,
      "loss": 3.8965,
      "step": 119740
    },
    {
      "epoch": 0.24947916666666667,
      "grad_norm": 0.8666465282440186,
      "learning_rate": 0.00025727890859541917,
      "loss": 3.6965,
      "step": 119750
    },
    {
      "epoch": 0.2495,
      "grad_norm": 0.7638580799102783,
      "learning_rate": 0.0002572720179509695,
      "loss": 4.0191,
      "step": 119760
    },
    {
      "epoch": 0.24952083333333333,
      "grad_norm": 0.7271072268486023,
      "learning_rate": 0.00025726512684314716,
      "loss": 3.9314,
      "step": 119770
    },
    {
      "epoch": 0.24954166666666666,
      "grad_norm": 0.8101192116737366,
      "learning_rate": 0.0002572582352719819,
      "loss": 3.961,
      "step": 119780
    },
    {
      "epoch": 0.2495625,
      "grad_norm": 0.8703235387802124,
      "learning_rate": 0.00025725134323750353,
      "loss": 3.9955,
      "step": 119790
    },
    {
      "epoch": 0.24958333333333332,
      "grad_norm": 0.7605385780334473,
      "learning_rate": 0.00025724445073974187,
      "loss": 3.8108,
      "step": 119800
    },
    {
      "epoch": 0.24960416666666665,
      "grad_norm": 0.8410705327987671,
      "learning_rate": 0.00025723755777872653,
      "loss": 3.8291,
      "step": 119810
    },
    {
      "epoch": 0.249625,
      "grad_norm": 0.8532662987709045,
      "learning_rate": 0.00025723066435448744,
      "loss": 3.9263,
      "step": 119820
    },
    {
      "epoch": 0.24964583333333334,
      "grad_norm": 0.8252196311950684,
      "learning_rate": 0.00025722377046705436,
      "loss": 3.8751,
      "step": 119830
    },
    {
      "epoch": 0.24966666666666668,
      "grad_norm": 0.7906928062438965,
      "learning_rate": 0.000257216876116457,
      "loss": 3.8821,
      "step": 119840
    },
    {
      "epoch": 0.2496875,
      "grad_norm": 0.7223817110061646,
      "learning_rate": 0.00025720998130272516,
      "loss": 4.1374,
      "step": 119850
    },
    {
      "epoch": 0.24970833333333334,
      "grad_norm": 0.7797434329986572,
      "learning_rate": 0.0002572030860258887,
      "loss": 3.8997,
      "step": 119860
    },
    {
      "epoch": 0.24972916666666667,
      "grad_norm": 0.6658298373222351,
      "learning_rate": 0.00025719619028597725,
      "loss": 3.8031,
      "step": 119870
    },
    {
      "epoch": 0.24975,
      "grad_norm": 0.7384726405143738,
      "learning_rate": 0.00025718929408302075,
      "loss": 3.9821,
      "step": 119880
    },
    {
      "epoch": 0.24977083333333333,
      "grad_norm": 1.0788984298706055,
      "learning_rate": 0.00025718239741704893,
      "loss": 4.1502,
      "step": 119890
    },
    {
      "epoch": 0.24979166666666666,
      "grad_norm": 0.716058075428009,
      "learning_rate": 0.00025717550028809156,
      "loss": 4.0253,
      "step": 119900
    },
    {
      "epoch": 0.2498125,
      "grad_norm": 0.782516360282898,
      "learning_rate": 0.00025716860269617845,
      "loss": 3.8881,
      "step": 119910
    },
    {
      "epoch": 0.24983333333333332,
      "grad_norm": 0.7745581865310669,
      "learning_rate": 0.00025716170464133936,
      "loss": 3.7859,
      "step": 119920
    },
    {
      "epoch": 0.24985416666666665,
      "grad_norm": 0.73885178565979,
      "learning_rate": 0.0002571548061236042,
      "loss": 3.7987,
      "step": 119930
    },
    {
      "epoch": 0.249875,
      "grad_norm": 0.7535274624824524,
      "learning_rate": 0.00025714790714300264,
      "loss": 3.8836,
      "step": 119940
    },
    {
      "epoch": 0.24989583333333334,
      "grad_norm": 0.7769490480422974,
      "learning_rate": 0.0002571410076995646,
      "loss": 4.0735,
      "step": 119950
    },
    {
      "epoch": 0.24991666666666668,
      "grad_norm": 0.8473771214485168,
      "learning_rate": 0.0002571341077933197,
      "loss": 3.9483,
      "step": 119960
    },
    {
      "epoch": 0.2499375,
      "grad_norm": 0.7447115182876587,
      "learning_rate": 0.00025712720742429796,
      "loss": 3.8819,
      "step": 119970
    },
    {
      "epoch": 0.24995833333333334,
      "grad_norm": 0.7020084261894226,
      "learning_rate": 0.00025712030659252904,
      "loss": 3.8774,
      "step": 119980
    },
    {
      "epoch": 0.24997916666666667,
      "grad_norm": 0.8581231236457825,
      "learning_rate": 0.0002571134052980428,
      "loss": 3.939,
      "step": 119990
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8581737279891968,
      "learning_rate": 0.0002571065035408691,
      "loss": 3.9143,
      "step": 120000
    },
    {
      "epoch": 0.25,
      "eval_loss": 4.261592864990234,
      "eval_runtime": 10.3068,
      "eval_samples_per_second": 0.97,
      "eval_steps_per_second": 0.291,
      "step": 120000
    }
  ],
  "logging_steps": 10,
  "max_steps": 480000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 120000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4.4577633337344e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}