{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.25,
  "eval_steps": 2000,
  "global_step": 4000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.000125,
      "grad_norm": 428.0,
      "learning_rate": 1.18e-05,
      "loss": 99.3619,
      "loss/crossentropy": 9.37970495223999,
      "loss/hidden": 16.625,
      "loss/jsd": 0.0,
      "loss/logits": 7.257124900817871,
      "step": 2
    },
    {
      "epoch": 0.00025,
      "grad_norm": 356.0,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 97.1216,
      "loss/crossentropy": 9.159881591796875,
      "loss/hidden": 16.625,
      "loss/jsd": 0.0,
      "loss/logits": 7.145160675048828,
      "step": 4
    },
    {
      "epoch": 0.000375,
      "grad_norm": 380.0,
      "learning_rate": 1.54e-05,
      "loss": 100.1942,
      "loss/crossentropy": 9.186327457427979,
      "loss/hidden": 16.625,
      "loss/jsd": 0.0,
      "loss/logits": 7.2050676345825195,
      "step": 6
    },
    {
      "epoch": 0.0005,
      "grad_norm": 185.0,
      "learning_rate": 1.72e-05,
      "loss": 95.7478,
      "loss/crossentropy": 8.873358249664307,
      "loss/hidden": 16.5625,
      "loss/jsd": 0.0,
      "loss/logits": 6.897953987121582,
      "step": 8
    },
    {
      "epoch": 0.000625,
      "grad_norm": 163.0,
      "learning_rate": 1.9e-05,
      "loss": 92.634,
      "loss/crossentropy": 8.72307538986206,
      "loss/hidden": 16.375,
      "loss/jsd": 0.0,
      "loss/logits": 6.7046730518341064,
      "step": 10
    },
    {
      "epoch": 0.00075,
      "grad_norm": 153.0,
      "learning_rate": 2.0800000000000004e-05,
      "loss": 88.4929,
      "loss/crossentropy": 8.53145456314087,
      "loss/hidden": 16.3125,
      "loss/jsd": 0.0,
      "loss/logits": 6.585271596908569,
      "step": 12
    },
    {
      "epoch": 0.000875,
      "grad_norm": 153.0,
      "learning_rate": 2.2600000000000004e-05,
      "loss": 86.7945,
      "loss/crossentropy": 8.174943923950195,
      "loss/hidden": 16.25,
      "loss/jsd": 0.0,
      "loss/logits": 6.037625789642334,
      "step": 14
    },
    {
      "epoch": 0.001,
      "grad_norm": 121.0,
      "grad_norm_var": 14208.2,
      "learning_rate": 2.4400000000000004e-05,
      "loss": 81.4154,
      "loss/crossentropy": 7.956912994384766,
      "loss/hidden": 15.8125,
      "loss/jsd": 0.0,
      "loss/logits": 5.961349010467529,
      "step": 16
    },
    {
      "epoch": 0.001125,
      "grad_norm": 136.0,
      "grad_norm_var": 9968.116666666667,
      "learning_rate": 2.6200000000000003e-05,
      "loss": 80.922,
      "loss/crossentropy": 7.872050046920776,
      "loss/hidden": 15.34375,
      "loss/jsd": 0.0,
      "loss/logits": 5.787276268005371,
      "step": 18
    },
    {
      "epoch": 0.00125,
      "grad_norm": 64.5,
      "grad_norm_var": 8084.873958333334,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 76.7299,
      "loss/crossentropy": 7.452724456787109,
      "loss/hidden": 15.21875,
      "loss/jsd": 0.0,
      "loss/logits": 5.1816017627716064,
      "step": 20
    },
    {
      "epoch": 0.001375,
      "grad_norm": 43.0,
      "grad_norm_var": 4135.966666666666,
      "learning_rate": 2.9800000000000006e-05,
      "loss": 74.1086,
      "loss/crossentropy": 7.244980812072754,
      "loss/hidden": 15.0625,
      "loss/jsd": 0.0,
      "loss/logits": 5.154205322265625,
      "step": 22
    },
    {
      "epoch": 0.0015,
      "grad_norm": 49.0,
      "grad_norm_var": 3930.31640625,
      "learning_rate": 3.16e-05,
      "loss": 71.8732,
      "loss/crossentropy": 7.059436321258545,
      "loss/hidden": 15.0,
      "loss/jsd": 0.0,
      "loss/logits": 4.9876039028167725,
      "step": 24
    },
    {
      "epoch": 0.001625,
      "grad_norm": 77.5,
      "grad_norm_var": 3864.5622395833334,
      "learning_rate": 3.3400000000000005e-05,
      "loss": 66.5866,
      "loss/crossentropy": 6.667392730712891,
      "loss/hidden": 14.90625,
      "loss/jsd": 0.0,
      "loss/logits": 4.435611724853516,
      "step": 26
    },
    {
      "epoch": 0.00175,
      "grad_norm": 72.0,
      "grad_norm_var": 3618.5559895833335,
      "learning_rate": 3.520000000000001e-05,
      "loss": 62.1951,
      "loss/crossentropy": 6.15596079826355,
      "loss/hidden": 14.15625,
      "loss/jsd": 0.0,
      "loss/logits": 4.280491590499878,
      "step": 28
    },
    {
      "epoch": 0.001875,
      "grad_norm": 66.5,
      "grad_norm_var": 3451.262239583333,
      "learning_rate": 3.7e-05,
      "loss": 59.1185,
      "loss/crossentropy": 5.833110809326172,
      "loss/hidden": 13.6875,
      "loss/jsd": 0.0,
      "loss/logits": 3.8512399196624756,
      "step": 30
    },
    {
      "epoch": 0.002,
      "grad_norm": 63.0,
      "grad_norm_var": 3467.72890625,
      "learning_rate": 3.88e-05,
      "loss": 54.6163,
      "loss/crossentropy": 5.594937324523926,
      "loss/hidden": 13.40625,
      "loss/jsd": 0.0,
      "loss/logits": 3.619442343711853,
      "step": 32
    },
    {
      "epoch": 0.002125,
      "grad_norm": 70.0,
      "grad_norm_var": 585.5997395833333,
      "learning_rate": 4.0600000000000004e-05,
      "loss": 49.8176,
      "loss/crossentropy": 5.316510438919067,
      "loss/hidden": 12.96875,
      "loss/jsd": 0.0,
      "loss/logits": 3.1636284589767456,
      "step": 34
    },
    {
      "epoch": 0.00225,
      "grad_norm": 54.25,
      "grad_norm_var": 208.6875,
      "learning_rate": 4.240000000000001e-05,
      "loss": 44.5006,
      "loss/crossentropy": 4.8605875968933105,
      "loss/hidden": 12.03125,
      "loss/jsd": 0.0,
      "loss/logits": 2.5045835971832275,
      "step": 36
    },
    {
      "epoch": 0.002375,
      "grad_norm": 43.0,
      "grad_norm_var": 205.99140625,
      "learning_rate": 4.420000000000001e-05,
      "loss": 41.8596,
      "loss/crossentropy": 4.582718849182129,
      "loss/hidden": 12.0,
      "loss/jsd": 0.0,
      "loss/logits": 2.616296648979187,
      "step": 38
    },
    {
      "epoch": 0.0025,
      "grad_norm": 39.75,
      "grad_norm_var": 217.99140625,
      "learning_rate": 4.600000000000001e-05,
      "loss": 38.6887,
      "loss/crossentropy": 4.197612762451172,
      "loss/hidden": 11.21875,
      "loss/jsd": 0.0,
      "loss/logits": 2.2158924341201782,
      "step": 40
    },
    {
      "epoch": 0.002625,
      "grad_norm": 57.75,
      "grad_norm_var": 215.47395833333334,
      "learning_rate": 4.78e-05,
      "loss": 35.5871,
      "loss/crossentropy": 4.077736258506775,
      "loss/hidden": 10.59375,
      "loss/jsd": 0.0,
      "loss/logits": 1.8813174366950989,
      "step": 42
    },
    {
      "epoch": 0.00275,
      "grad_norm": 33.75,
      "grad_norm_var": 158.04140625,
      "learning_rate": 4.96e-05,
      "loss": 33.6872,
      "loss/crossentropy": 4.088571310043335,
      "loss/hidden": 10.46875,
      "loss/jsd": 0.0,
      "loss/logits": 1.9159515500068665,
      "step": 44
    },
    {
      "epoch": 0.002875,
      "grad_norm": 27.25,
      "grad_norm_var": 173.02057291666668,
      "learning_rate": 5.14e-05,
      "loss": 31.5202,
      "loss/crossentropy": 3.7112059593200684,
      "loss/hidden": 10.09375,
      "loss/jsd": 0.0,
      "loss/logits": 1.8669533133506775,
      "step": 46
    },
    {
      "epoch": 0.003,
      "grad_norm": 30.625,
      "grad_norm_var": 153.88170572916667,
      "learning_rate": 5.3200000000000006e-05,
      "loss": 29.7576,
      "loss/crossentropy": 3.6459821462631226,
      "loss/hidden": 9.875,
      "loss/jsd": 0.0,
      "loss/logits": 1.7125096917152405,
      "step": 48
    },
    {
      "epoch": 0.003125,
      "grad_norm": 24.625,
      "grad_norm_var": 156.196875,
      "learning_rate": 5.500000000000001e-05,
      "loss": 28.6917,
      "loss/crossentropy": 3.534511685371399,
      "loss/hidden": 9.59375,
      "loss/jsd": 0.0,
      "loss/logits": 1.5916491150856018,
      "step": 50
    },
    {
      "epoch": 0.00325,
      "grad_norm": 26.0,
      "grad_norm_var": 119.83958333333334,
      "learning_rate": 5.680000000000001e-05,
      "loss": 27.6631,
      "loss/crossentropy": 3.3382843732833862,
      "loss/hidden": 9.25,
      "loss/jsd": 0.0,
      "loss/logits": 1.4924674034118652,
      "step": 52
    },
    {
      "epoch": 0.003375,
      "grad_norm": 21.25,
      "grad_norm_var": 231.38541666666666,
      "learning_rate": 5.860000000000001e-05,
      "loss": 26.1809,
      "loss/crossentropy": 3.426845669746399,
      "loss/hidden": 9.125,
      "loss/jsd": 0.0,
      "loss/logits": 1.3821245431900024,
      "step": 54
    },
    {
      "epoch": 0.0035,
      "grad_norm": 21.25,
      "grad_norm_var": 249.90358072916666,
      "learning_rate": 6.040000000000001e-05,
      "loss": 25.1479,
      "loss/crossentropy": 3.4015276432037354,
      "loss/hidden": 8.65625,
      "loss/jsd": 0.0,
      "loss/logits": 1.259027361869812,
      "step": 56
    },
    {
      "epoch": 0.003625,
      "grad_norm": 59.75,
      "grad_norm_var": 251.05416666666667,
      "learning_rate": 6.220000000000001e-05,
      "loss": 24.6783,
      "loss/crossentropy": 3.363521456718445,
      "loss/hidden": 8.5625,
      "loss/jsd": 0.0,
      "loss/logits": 1.218069314956665,
      "step": 58
    },
    {
      "epoch": 0.00375,
      "grad_norm": 14.9375,
      "grad_norm_var": 283.126806640625,
      "learning_rate": 6.400000000000001e-05,
      "loss": 23.6541,
      "loss/crossentropy": 3.4112290143966675,
      "loss/hidden": 8.5,
      "loss/jsd": 0.0,
      "loss/logits": 1.222625195980072,
      "step": 60
    },
    {
      "epoch": 0.003875,
      "grad_norm": 21.25,
      "grad_norm_var": 301.22120768229166,
      "learning_rate": 6.58e-05,
      "loss": 22.9688,
      "loss/crossentropy": 3.150188446044922,
      "loss/hidden": 8.28125,
      "loss/jsd": 0.0,
      "loss/logits": 1.157865822315216,
      "step": 62
    },
    {
      "epoch": 0.004,
      "grad_norm": 20.25,
      "grad_norm_var": 336.315087890625,
      "learning_rate": 6.76e-05,
      "loss": 22.4484,
      "loss/crossentropy": 3.2142295837402344,
      "loss/hidden": 8.078125,
      "loss/jsd": 0.0,
      "loss/logits": 1.1245205402374268,
      "step": 64
    },
    {
      "epoch": 0.004125,
      "grad_norm": 20.25,
      "grad_norm_var": 350.4535807291667,
      "learning_rate": 6.94e-05,
      "loss": 21.3778,
      "loss/crossentropy": 3.3086668252944946,
      "loss/hidden": 7.78125,
      "loss/jsd": 0.0,
      "loss/logits": 1.0809211134910583,
      "step": 66
    },
    {
      "epoch": 0.00425,
      "grad_norm": 17.75,
      "grad_norm_var": 363.0113932291667,
      "learning_rate": 7.120000000000001e-05,
      "loss": 20.7697,
      "loss/crossentropy": 3.0438809394836426,
      "loss/hidden": 7.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.9832420945167542,
      "step": 68
    },
    {
      "epoch": 0.004375,
      "grad_norm": 16.625,
      "grad_norm_var": 176.550634765625,
      "learning_rate": 7.3e-05,
      "loss": 20.7695,
      "loss/crossentropy": 3.005946159362793,
      "loss/hidden": 7.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.979515790939331,
      "step": 70
    },
    {
      "epoch": 0.0045,
      "grad_norm": 14.6875,
      "grad_norm_var": 182.58118489583333,
      "learning_rate": 7.48e-05,
      "loss": 20.2026,
      "loss/crossentropy": 3.1091376543045044,
      "loss/hidden": 7.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.994384378194809,
      "step": 72
    },
    {
      "epoch": 0.004625,
      "grad_norm": 19.75,
      "grad_norm_var": 81.90494791666667,
      "learning_rate": 7.66e-05,
      "loss": 19.8715,
      "loss/crossentropy": 3.172377586364746,
      "loss/hidden": 7.359375,
      "loss/jsd": 0.0,
      "loss/logits": 1.0095622539520264,
      "step": 74
    },
    {
      "epoch": 0.00475,
      "grad_norm": 17.0,
      "grad_norm_var": 81.86875,
      "learning_rate": 7.840000000000001e-05,
      "loss": 19.2123,
      "loss/crossentropy": 2.75563645362854,
      "loss/hidden": 7.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.8763986825942993,
      "step": 76
    },
    {
      "epoch": 0.004875,
      "grad_norm": 15.9375,
      "grad_norm_var": 84.11599934895834,
      "learning_rate": 8.020000000000001e-05,
      "loss": 19.1961,
      "loss/crossentropy": 2.981382369995117,
      "loss/hidden": 7.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.9651070237159729,
      "step": 78
    },
    {
      "epoch": 0.005,
      "grad_norm": 15.1875,
      "grad_norm_var": 2.9731770833333333,
      "learning_rate": 8.200000000000001e-05,
      "loss": 18.5459,
      "loss/crossentropy": 3.1191996335983276,
      "loss/hidden": 7.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.8418412506580353,
      "step": 80
    },
    {
      "epoch": 0.005125,
      "grad_norm": 14.6875,
      "grad_norm_var": 2.395166015625,
      "learning_rate": 8.38e-05,
      "loss": 18.149,
      "loss/crossentropy": 2.564948797225952,
      "loss/hidden": 6.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.8517245650291443,
      "step": 82
    },
    {
      "epoch": 0.00525,
      "grad_norm": 16.0,
      "grad_norm_var": 2.08125,
      "learning_rate": 8.560000000000001e-05,
      "loss": 18.4829,
      "loss/crossentropy": 3.1382123231887817,
      "loss/hidden": 7.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.9703748524188995,
      "step": 84
    },
    {
      "epoch": 0.005375,
      "grad_norm": 15.9375,
      "grad_norm_var": 2.0563639322916667,
      "learning_rate": 8.740000000000001e-05,
      "loss": 17.9624,
      "loss/crossentropy": 3.091128706932068,
      "loss/hidden": 6.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.8826551735401154,
      "step": 86
    },
    {
      "epoch": 0.0055,
      "grad_norm": 15.25,
      "grad_norm_var": 1.9325358072916667,
      "learning_rate": 8.92e-05,
      "loss": 17.5696,
      "loss/crossentropy": 2.9899988174438477,
      "loss/hidden": 6.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.7654303312301636,
      "step": 88
    },
    {
      "epoch": 0.005625,
      "grad_norm": 16.25,
      "grad_norm_var": 0.789306640625,
      "learning_rate": 9.1e-05,
      "loss": 17.0042,
      "loss/crossentropy": 2.8025410175323486,
      "loss/hidden": 6.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.7915366590023041,
      "step": 90
    },
    {
      "epoch": 0.00575,
      "grad_norm": 13.625,
      "grad_norm_var": 2.162744140625,
      "learning_rate": 9.28e-05,
      "loss": 17.2984,
      "loss/crossentropy": 3.013433814048767,
      "loss/hidden": 6.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.8098262250423431,
      "step": 92
    },
    {
      "epoch": 0.005875,
      "grad_norm": 16.5,
      "grad_norm_var": 2.249739583333333,
      "learning_rate": 9.46e-05,
      "loss": 17.1342,
      "loss/crossentropy": 2.912646174430847,
      "loss/hidden": 6.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.8038456439971924,
      "step": 94
    },
    {
      "epoch": 0.006,
      "grad_norm": 11.625,
      "grad_norm_var": 2.714306640625,
      "learning_rate": 9.64e-05,
      "loss": 16.7369,
      "loss/crossentropy": 2.9029338359832764,
      "loss/hidden": 6.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.7524089217185974,
      "step": 96
    },
    {
      "epoch": 0.006125,
      "grad_norm": 12.375,
      "grad_norm_var": 4.069124348958334,
      "learning_rate": 9.82e-05,
      "loss": 16.4013,
      "loss/crossentropy": 2.8420186042785645,
      "loss/hidden": 6.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.7496578097343445,
      "step": 98
    },
    {
      "epoch": 0.00625,
      "grad_norm": 12.5,
      "grad_norm_var": 3.99140625,
      "learning_rate": 0.0001,
      "loss": 16.5129,
      "loss/crossentropy": 2.7955269813537598,
      "loss/hidden": 6.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.7174519896507263,
      "step": 100
    },
    {
      "epoch": 0.006375,
      "grad_norm": 11.6875,
      "grad_norm_var": 3.717431640625,
      "learning_rate": 0.0001,
      "loss": 16.1005,
      "loss/crossentropy": 2.890980839729309,
      "loss/hidden": 6.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.7031005620956421,
      "step": 102
    },
    {
      "epoch": 0.0065,
      "grad_norm": 10.1875,
      "grad_norm_var": 4.207796223958334,
      "learning_rate": 0.0001,
      "loss": 16.0555,
      "loss/crossentropy": 2.8553627729415894,
      "loss/hidden": 6.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.6933196187019348,
      "step": 104
    },
    {
      "epoch": 0.006625,
      "grad_norm": 15.0625,
      "grad_norm_var": 3.723372395833333,
      "learning_rate": 0.0001,
      "loss": 16.25,
      "loss/crossentropy": 2.7866374254226685,
      "loss/hidden": 6.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6986292898654938,
      "step": 106
    },
    {
      "epoch": 0.00675,
      "grad_norm": 12.25,
      "grad_norm_var": 3.645556640625,
      "learning_rate": 0.0001,
      "loss": 16.4036,
      "loss/crossentropy": 2.8795191049575806,
      "loss/hidden": 6.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.6980823576450348,
      "step": 108
    },
    {
      "epoch": 0.006875,
      "grad_norm": 11.3125,
      "grad_norm_var": 2.959830729166667,
      "learning_rate": 0.0001,
      "loss": 15.5029,
      "loss/crossentropy": 2.6974622011184692,
      "loss/hidden": 6.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.7379841208457947,
      "step": 110
    },
    {
      "epoch": 0.007,
      "grad_norm": 14.375,
      "grad_norm_var": 2.8355305989583335,
      "learning_rate": 0.0001,
      "loss": 15.5842,
      "loss/crossentropy": 2.5517276525497437,
      "loss/hidden": 6.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.6455385684967041,
      "step": 112
    },
    {
      "epoch": 0.007125,
      "grad_norm": 12.6875,
      "grad_norm_var": 2.512093098958333,
      "learning_rate": 0.0001,
      "loss": 15.6556,
      "loss/crossentropy": 2.710301995277405,
      "loss/hidden": 5.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.7062334418296814,
      "step": 114
    },
    {
      "epoch": 0.00725,
      "grad_norm": 13.75,
      "grad_norm_var": 2.6353515625,
      "learning_rate": 0.0001,
      "loss": 15.3746,
      "loss/crossentropy": 2.9104617834091187,
      "loss/hidden": 5.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.6806878745555878,
      "step": 116
    },
    {
      "epoch": 0.007375,
      "grad_norm": 10.8125,
      "grad_norm_var": 2.628059895833333,
      "learning_rate": 0.0001,
      "loss": 15.3926,
      "loss/crossentropy": 2.7969307899475098,
      "loss/hidden": 5.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.7158068418502808,
      "step": 118
    },
    {
      "epoch": 0.0075,
      "grad_norm": 11.375,
      "grad_norm_var": 2.486962890625,
      "learning_rate": 0.0001,
      "loss": 15.4671,
      "loss/crossentropy": 2.758000612258911,
      "loss/hidden": 6.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.692883163690567,
      "step": 120
    },
    {
      "epoch": 0.007625,
      "grad_norm": 11.9375,
      "grad_norm_var": 2.400764973958333,
      "learning_rate": 0.0001,
      "loss": 15.5392,
      "loss/crossentropy": 2.814534068107605,
      "loss/hidden": 5.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.669840395450592,
      "step": 122
    },
    {
      "epoch": 0.00775,
      "grad_norm": 10.875,
      "grad_norm_var": 1.5585774739583333,
      "learning_rate": 0.0001,
      "loss": 15.0821,
      "loss/crossentropy": 2.4222623109817505,
      "loss/hidden": 5.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.6296161711215973,
      "step": 124
    },
    {
      "epoch": 0.007875,
      "grad_norm": 9.375,
      "grad_norm_var": 2.016650390625,
      "learning_rate": 0.0001,
      "loss": 14.7169,
      "loss/crossentropy": 2.8036348819732666,
      "loss/hidden": 5.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5952793657779694,
      "step": 126
    },
    {
      "epoch": 0.008,
      "grad_norm": 19.5,
      "grad_norm_var": 5.5265625,
      "learning_rate": 0.0001,
      "loss": 15.6228,
      "loss/crossentropy": 2.871894598007202,
      "loss/hidden": 5.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.8850542902946472,
      "step": 128
    },
    {
      "epoch": 0.008125,
      "grad_norm": 13.875,
      "grad_norm_var": 5.818489583333333,
      "learning_rate": 0.0001,
      "loss": 15.3871,
      "loss/crossentropy": 2.7824504375457764,
      "loss/hidden": 5.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.6649284958839417,
      "step": 130
    },
    {
      "epoch": 0.00825,
      "grad_norm": 9.75,
      "grad_norm_var": 6.017122395833334,
      "learning_rate": 0.0001,
      "loss": 14.802,
      "loss/crossentropy": 2.7720154523849487,
      "loss/hidden": 5.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6440402269363403,
      "step": 132
    },
    {
      "epoch": 0.008375,
      "grad_norm": 12.0625,
      "grad_norm_var": 5.979947916666666,
      "learning_rate": 0.0001,
      "loss": 14.896,
      "loss/crossentropy": 2.4699759483337402,
      "loss/hidden": 5.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.631425142288208,
      "step": 134
    },
    {
      "epoch": 0.0085,
      "grad_norm": 11.8125,
      "grad_norm_var": 6.357747395833333,
      "learning_rate": 0.0001,
      "loss": 14.7694,
      "loss/crossentropy": 2.9012371301651,
      "loss/hidden": 5.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.709007978439331,
      "step": 136
    },
    {
      "epoch": 0.008625,
      "grad_norm": 10.625,
      "grad_norm_var": 6.092171223958333,
      "learning_rate": 0.0001,
      "loss": 14.6342,
      "loss/crossentropy": 2.7152575254440308,
      "loss/hidden": 5.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.6243754923343658,
      "step": 138
    },
    {
      "epoch": 0.00875,
      "grad_norm": 8.6875,
      "grad_norm_var": 6.715104166666666,
      "learning_rate": 0.0001,
      "loss": 14.6597,
      "loss/crossentropy": 2.5907901525497437,
      "loss/hidden": 5.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.6299647688865662,
      "step": 140
    },
    {
      "epoch": 0.008875,
      "grad_norm": 8.1875,
      "grad_norm_var": 7.1994140625,
      "learning_rate": 0.0001,
      "loss": 13.9556,
      "loss/crossentropy": 2.699749708175659,
      "loss/hidden": 5.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5889811217784882,
      "step": 142
    },
    {
      "epoch": 0.009,
      "grad_norm": 8.5,
      "grad_norm_var": 3.0494791666666665,
      "learning_rate": 0.0001,
      "loss": 13.9315,
      "loss/crossentropy": 2.455536365509033,
      "loss/hidden": 5.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5711115598678589,
      "step": 144
    },
    {
      "epoch": 0.009125,
      "grad_norm": 11.6875,
      "grad_norm_var": 1.7934895833333333,
      "learning_rate": 0.0001,
      "loss": 14.3392,
      "loss/crossentropy": 2.5603734254837036,
      "loss/hidden": 5.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6282104849815369,
      "step": 146
    },
    {
      "epoch": 0.00925,
      "grad_norm": 9.9375,
      "grad_norm_var": 1.81640625,
      "learning_rate": 0.0001,
      "loss": 14.155,
      "loss/crossentropy": 2.7742687463760376,
      "loss/hidden": 5.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5838975608348846,
      "step": 148
    },
    {
      "epoch": 0.009375,
      "grad_norm": 7.28125,
      "grad_norm_var": 1.9861287434895833,
      "learning_rate": 0.0001,
      "loss": 14.2792,
      "loss/crossentropy": 2.50667142868042,
      "loss/hidden": 5.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.547415554523468,
      "step": 150
    },
    {
      "epoch": 0.0095,
      "grad_norm": 12.5,
      "grad_norm_var": 2.164969889322917,
      "learning_rate": 0.0001,
      "loss": 14.4224,
      "loss/crossentropy": 2.701486349105835,
      "loss/hidden": 5.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.567545473575592,
      "step": 152
    },
    {
      "epoch": 0.009625,
      "grad_norm": 10.0,
      "grad_norm_var": 1.96607666015625,
      "learning_rate": 0.0001,
      "loss": 13.5836,
      "loss/crossentropy": 2.611671805381775,
      "loss/hidden": 5.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5661961734294891,
      "step": 154
    },
    {
      "epoch": 0.00975,
      "grad_norm": 9.125,
      "grad_norm_var": 1.7756795247395833,
      "learning_rate": 0.0001,
      "loss": 13.775,
      "loss/crossentropy": 2.598029851913452,
      "loss/hidden": 5.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5618497729301453,
      "step": 156
    },
    {
      "epoch": 0.009875,
      "grad_norm": 7.9375,
      "grad_norm_var": 1.92681884765625,
      "learning_rate": 0.0001,
      "loss": 13.5367,
      "loss/crossentropy": 2.6330727338790894,
      "loss/hidden": 5.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5757810473442078,
      "step": 158
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.375,
      "grad_norm_var": 1.8233683268229166,
      "learning_rate": 0.0001,
      "loss": 13.7555,
      "loss/crossentropy": 2.6642661094665527,
      "loss/hidden": 5.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5554981827735901,
      "step": 160
    },
    {
      "epoch": 0.010125,
      "grad_norm": 7.53125,
      "grad_norm_var": 1.7612630208333333,
      "learning_rate": 0.0001,
      "loss": 13.4486,
      "loss/crossentropy": 2.670701742172241,
      "loss/hidden": 5.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5661377012729645,
      "step": 162
    },
    {
      "epoch": 0.01025,
      "grad_norm": 10.25,
      "grad_norm_var": 1.9761678059895833,
      "learning_rate": 0.0001,
      "loss": 13.2185,
      "loss/crossentropy": 2.4556703567504883,
      "loss/hidden": 5.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5137010216712952,
      "step": 164
    },
    {
      "epoch": 0.010375,
      "grad_norm": 7.1875,
      "grad_norm_var": 1.959228515625,
      "learning_rate": 0.0001,
      "loss": 13.2531,
      "loss/crossentropy": 2.7351680994033813,
      "loss/hidden": 5.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5712402760982513,
      "step": 166
    },
    {
      "epoch": 0.0105,
      "grad_norm": 10.75,
      "grad_norm_var": 1.699072265625,
      "learning_rate": 0.0001,
      "loss": 13.6734,
      "loss/crossentropy": 2.588118314743042,
      "loss/hidden": 5.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5905281007289886,
      "step": 168
    },
    {
      "epoch": 0.010625,
      "grad_norm": 9.1875,
      "grad_norm_var": 1.7223795572916667,
      "learning_rate": 0.0001,
      "loss": 13.5448,
      "loss/crossentropy": 2.7176616191864014,
      "loss/hidden": 5.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5851459503173828,
      "step": 170
    },
    {
      "epoch": 0.01075,
      "grad_norm": 7.21875,
      "grad_norm_var": 2.4208943684895834,
      "learning_rate": 0.0001,
      "loss": 13.6468,
      "loss/crossentropy": 2.6239798069000244,
      "loss/hidden": 5.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5490683615207672,
      "step": 172
    },
    {
      "epoch": 0.010875,
      "grad_norm": 7.625,
      "grad_norm_var": 2.434273274739583,
      "learning_rate": 0.0001,
      "loss": 13.0877,
      "loss/crossentropy": 2.648572325706482,
      "loss/hidden": 5.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5484789907932281,
      "step": 174
    },
    {
      "epoch": 0.011,
      "grad_norm": 8.5,
      "grad_norm_var": 2.4641764322916666,
      "learning_rate": 0.0001,
      "loss": 12.9536,
      "loss/crossentropy": 2.6549497842788696,
      "loss/hidden": 5.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5412751138210297,
      "step": 176
    },
    {
      "epoch": 0.011125,
      "grad_norm": 7.84375,
      "grad_norm_var": 2.4390462239583335,
      "learning_rate": 0.0001,
      "loss": 13.4435,
      "loss/crossentropy": 2.421927332878113,
      "loss/hidden": 5.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.555980384349823,
      "step": 178
    },
    {
      "epoch": 0.01125,
      "grad_norm": 8.5625,
      "grad_norm_var": 2.372119140625,
      "learning_rate": 0.0001,
      "loss": 13.2014,
      "loss/crossentropy": 2.680444836616516,
      "loss/hidden": 5.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4972950965166092,
      "step": 180
    },
    {
      "epoch": 0.011375,
      "grad_norm": 11.0,
      "grad_norm_var": 73.80558268229167,
      "learning_rate": 0.0001,
      "loss": 13.4406,
      "loss/crossentropy": 2.49616801738739,
      "loss/hidden": 5.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5274538397789001,
      "step": 182
    },
    {
      "epoch": 0.0115,
      "grad_norm": 9.3125,
      "grad_norm_var": 74.92745768229166,
      "learning_rate": 0.0001,
      "loss": 12.7807,
      "loss/crossentropy": 2.4947917461395264,
      "loss/hidden": 5.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5059804916381836,
      "step": 184
    },
    {
      "epoch": 0.011625,
      "grad_norm": 8.125,
      "grad_norm_var": 74.739697265625,
      "learning_rate": 0.0001,
      "loss": 12.7996,
      "loss/crossentropy": 2.5512574911117554,
      "loss/hidden": 5.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.49534276127815247,
      "step": 186
    },
    {
      "epoch": 0.01175,
      "grad_norm": 6.90625,
      "grad_norm_var": 75.45623372395833,
      "learning_rate": 0.0001,
      "loss": 12.934,
      "loss/crossentropy": 2.630277991294861,
      "loss/hidden": 5.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5003396719694138,
      "step": 188
    },
    {
      "epoch": 0.011875,
      "grad_norm": 7.625,
      "grad_norm_var": 76.01287434895833,
      "learning_rate": 0.0001,
      "loss": 12.9007,
      "loss/crossentropy": 2.5264713764190674,
      "loss/hidden": 5.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5094788670539856,
      "step": 190
    },
    {
      "epoch": 0.012,
      "grad_norm": 7.71875,
      "grad_norm_var": 76.15037434895834,
      "learning_rate": 0.0001,
      "loss": 13.0658,
      "loss/crossentropy": 2.704426646232605,
      "loss/hidden": 5.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.522599458694458,
      "step": 192
    },
    {
      "epoch": 0.012125,
      "grad_norm": 8.1875,
      "grad_norm_var": 76.128125,
      "learning_rate": 0.0001,
      "loss": 12.9704,
      "loss/crossentropy": 2.702088713645935,
      "loss/hidden": 5.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5415545701980591,
      "step": 194
    },
    {
      "epoch": 0.01225,
      "grad_norm": 6.8125,
      "grad_norm_var": 76.61405843098959,
      "learning_rate": 0.0001,
      "loss": 12.7,
      "loss/crossentropy": 2.705085873603821,
      "loss/hidden": 5.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5454063713550568,
      "step": 196
    },
    {
      "epoch": 0.012375,
      "grad_norm": 8.25,
      "grad_norm_var": 0.5269368489583334,
      "learning_rate": 0.0001,
      "loss": 12.8295,
      "loss/crossentropy": 2.5774309635162354,
      "loss/hidden": 5.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5220803320407867,
      "step": 198
    },
    {
      "epoch": 0.0125,
      "grad_norm": 6.90625,
      "grad_norm_var": 0.41435139973958335,
      "learning_rate": 0.0001,
      "loss": 12.6159,
      "loss/crossentropy": 2.1811429262161255,
      "loss/hidden": 4.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4608597755432129,
      "step": 200
    },
    {
      "epoch": 0.012625,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.252587890625,
      "learning_rate": 0.0001,
      "loss": 12.4811,
      "loss/crossentropy": 2.6321566104888916,
      "loss/hidden": 5.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5277400612831116,
      "step": 202
    },
    {
      "epoch": 0.01275,
      "grad_norm": 8.125,
      "grad_norm_var": 0.29940999348958336,
      "learning_rate": 0.0001,
      "loss": 12.7234,
      "loss/crossentropy": 2.4674800634384155,
      "loss/hidden": 4.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4902832508087158,
      "step": 204
    },
    {
      "epoch": 0.012875,
      "grad_norm": 7.0625,
      "grad_norm_var": 0.3092732747395833,
      "learning_rate": 0.0001,
      "loss": 12.6082,
      "loss/crossentropy": 2.418899178504944,
      "loss/hidden": 5.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.44220657646656036,
      "step": 206
    },
    {
      "epoch": 0.013,
      "grad_norm": 8.1875,
      "grad_norm_var": 0.31503499348958336,
      "learning_rate": 0.0001,
      "loss": 12.2736,
      "loss/crossentropy": 2.5233161449432373,
      "loss/hidden": 5.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.4981265068054199,
      "step": 208
    },
    {
      "epoch": 0.013125,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.35037434895833336,
      "learning_rate": 0.0001,
      "loss": 12.4505,
      "loss/crossentropy": 2.5429080724716187,
      "loss/hidden": 4.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.49663229286670685,
      "step": 210
    },
    {
      "epoch": 0.01325,
      "grad_norm": 7.96875,
      "grad_norm_var": 0.29889322916666666,
      "learning_rate": 0.0001,
      "loss": 12.9271,
      "loss/crossentropy": 2.7774670124053955,
      "loss/hidden": 4.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5223149955272675,
      "step": 212
    },
    {
      "epoch": 0.013375,
      "grad_norm": 6.5625,
      "grad_norm_var": 0.37265218098958336,
      "learning_rate": 0.0001,
      "loss": 12.2444,
      "loss/crossentropy": 2.550992965698242,
      "loss/hidden": 4.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4571031928062439,
      "step": 214
    },
    {
      "epoch": 0.0135,
      "grad_norm": 7.53125,
      "grad_norm_var": 0.29010009765625,
      "learning_rate": 0.0001,
      "loss": 12.1625,
      "loss/crossentropy": 2.2462257146835327,
      "loss/hidden": 4.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.48005372285842896,
      "step": 216
    },
    {
      "epoch": 0.013625,
      "grad_norm": 7.875,
      "grad_norm_var": 0.298046875,
      "learning_rate": 0.0001,
      "loss": 12.3998,
      "loss/crossentropy": 2.617794990539551,
      "loss/hidden": 4.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5356446206569672,
      "step": 218
    },
    {
      "epoch": 0.01375,
      "grad_norm": 6.84375,
      "grad_norm_var": 0.21796875,
      "learning_rate": 0.0001,
      "loss": 12.4159,
      "loss/crossentropy": 2.432363748550415,
      "loss/hidden": 4.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5167964398860931,
      "step": 220
    },
    {
      "epoch": 0.013875,
      "grad_norm": 7.71875,
      "grad_norm_var": 0.21158447265625,
      "learning_rate": 0.0001,
      "loss": 12.267,
      "loss/crossentropy": 2.5088655948638916,
      "loss/hidden": 4.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5033310353755951,
      "step": 222
    },
    {
      "epoch": 0.014,
      "grad_norm": 8.6875,
      "grad_norm_var": 0.27616780598958335,
      "learning_rate": 0.0001,
      "loss": 12.5268,
      "loss/crossentropy": 2.463010787963867,
      "loss/hidden": 4.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5101533681154251,
      "step": 224
    },
    {
      "epoch": 0.014125,
      "grad_norm": 7.40625,
      "grad_norm_var": 0.2908203125,
      "learning_rate": 0.0001,
      "loss": 12.4375,
      "loss/crossentropy": 2.7142781019210815,
      "loss/hidden": 4.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.48157520592212677,
      "step": 226
    },
    {
      "epoch": 0.01425,
      "grad_norm": 6.84375,
      "grad_norm_var": 0.36500244140625,
      "learning_rate": 0.0001,
      "loss": 12.1223,
      "loss/crossentropy": 2.696410059928894,
      "loss/hidden": 4.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4689347445964813,
      "step": 228
    },
    {
      "epoch": 0.014375,
      "grad_norm": 7.84375,
      "grad_norm_var": 0.3846354166666667,
      "learning_rate": 0.0001,
      "loss": 12.2157,
      "loss/crossentropy": 2.5104721784591675,
      "loss/hidden": 4.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4914693534374237,
      "step": 230
    },
    {
      "epoch": 0.0145,
      "grad_norm": 6.875,
      "grad_norm_var": 0.41243082682291665,
      "learning_rate": 0.0001,
      "loss": 12.3422,
      "loss/crossentropy": 2.638755679130554,
      "loss/hidden": 4.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5526512563228607,
      "step": 232
    },
    {
      "epoch": 0.014625,
      "grad_norm": 6.1875,
      "grad_norm_var": 0.521337890625,
      "learning_rate": 0.0001,
      "loss": 12.0554,
      "loss/crossentropy": 2.48711097240448,
      "loss/hidden": 4.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4476258456707001,
      "step": 234
    },
    {
      "epoch": 0.01475,
      "grad_norm": 8.375,
      "grad_norm_var": 0.54586181640625,
      "learning_rate": 0.0001,
      "loss": 12.2178,
      "loss/crossentropy": 2.5519078969955444,
      "loss/hidden": 4.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.456609308719635,
      "step": 236
    },
    {
      "epoch": 0.014875,
      "grad_norm": 7.125,
      "grad_norm_var": 0.563671875,
      "learning_rate": 0.0001,
      "loss": 12.0904,
      "loss/crossentropy": 2.4752217531204224,
      "loss/hidden": 4.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4934917986392975,
      "step": 238
    },
    {
      "epoch": 0.015,
      "grad_norm": 6.34375,
      "grad_norm_var": 0.5327962239583334,
      "learning_rate": 0.0001,
      "loss": 12.3964,
      "loss/crossentropy": 2.834780216217041,
      "loss/hidden": 4.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5274220705032349,
      "step": 240
    },
    {
      "epoch": 0.015125,
      "grad_norm": 10.1875,
      "grad_norm_var": 1.0213826497395833,
      "learning_rate": 0.0001,
      "loss": 12.6241,
      "loss/crossentropy": 2.6608060598373413,
      "loss/hidden": 4.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5230352878570557,
      "step": 242
    },
    {
      "epoch": 0.01525,
      "grad_norm": 9.0625,
      "grad_norm_var": 1.1087890625,
      "learning_rate": 0.0001,
      "loss": 12.4601,
      "loss/crossentropy": 2.5716851949691772,
      "loss/hidden": 4.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5314892381429672,
      "step": 244
    },
    {
      "epoch": 0.015375,
      "grad_norm": 7.46875,
      "grad_norm_var": 1.082666015625,
      "learning_rate": 0.0001,
      "loss": 12.2352,
      "loss/crossentropy": 2.655149459838867,
      "loss/hidden": 4.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4710581600666046,
      "step": 246
    },
    {
      "epoch": 0.0155,
      "grad_norm": 5.65625,
      "grad_norm_var": 1.328515625,
      "learning_rate": 0.0001,
      "loss": 11.692,
      "loss/crossentropy": 2.1561089754104614,
      "loss/hidden": 4.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.45925989747047424,
      "step": 248
    },
    {
      "epoch": 0.015625,
      "grad_norm": 6.75,
      "grad_norm_var": 1.30445556640625,
      "learning_rate": 0.0001,
      "loss": 11.7933,
      "loss/crossentropy": 2.410550117492676,
      "loss/hidden": 4.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4565409719944,
      "step": 250
    },
    {
      "epoch": 0.01575,
      "grad_norm": 6.84375,
      "grad_norm_var": 1.2310831705729166,
      "learning_rate": 0.0001,
      "loss": 11.88,
      "loss/crossentropy": 2.586890459060669,
      "loss/hidden": 4.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4949754476547241,
      "step": 252
    },
    {
      "epoch": 0.015875,
      "grad_norm": 6.4375,
      "grad_norm_var": 1.3586873372395833,
      "learning_rate": 0.0001,
      "loss": 12.0459,
      "loss/crossentropy": 2.446923851966858,
      "loss/hidden": 4.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.46594707667827606,
      "step": 254
    },
    {
      "epoch": 0.016,
      "grad_norm": 6.40625,
      "grad_norm_var": 1.3482381184895833,
      "learning_rate": 0.0001,
      "loss": 12.1629,
      "loss/crossentropy": 2.57769775390625,
      "loss/hidden": 4.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4595105051994324,
      "step": 256
    },
    {
      "epoch": 0.016125,
      "grad_norm": 6.625,
      "grad_norm_var": 0.7177734375,
      "learning_rate": 0.0001,
      "loss": 12.0016,
      "loss/crossentropy": 2.37365186214447,
      "loss/hidden": 4.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4366963058710098,
      "step": 258
    },
    {
      "epoch": 0.01625,
      "grad_norm": 6.1875,
      "grad_norm_var": 0.43580322265625,
      "learning_rate": 0.0001,
      "loss": 11.9528,
      "loss/crossentropy": 2.3685457706451416,
      "loss/hidden": 4.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.45073819160461426,
      "step": 260
    },
    {
      "epoch": 0.016375,
      "grad_norm": 6.8125,
      "grad_norm_var": 0.26324462890625,
      "learning_rate": 0.0001,
      "loss": 12.0193,
      "loss/crossentropy": 2.349572777748108,
      "loss/hidden": 4.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4415210783481598,
      "step": 262
    },
    {
      "epoch": 0.0165,
      "grad_norm": 6.4375,
      "grad_norm_var": 0.204150390625,
      "learning_rate": 0.0001,
      "loss": 11.828,
      "loss/crossentropy": 2.376862049102783,
      "loss/hidden": 4.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4309367835521698,
      "step": 264
    },
    {
      "epoch": 0.016625,
      "grad_norm": 6.6875,
      "grad_norm_var": 0.20725504557291666,
      "learning_rate": 0.0001,
      "loss": 11.6319,
      "loss/crossentropy": 2.316063165664673,
      "loss/hidden": 4.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.43444499373435974,
      "step": 266
    },
    {
      "epoch": 0.01675,
      "grad_norm": 5.5625,
      "grad_norm_var": 0.18316650390625,
      "learning_rate": 0.0001,
      "loss": 11.7038,
      "loss/crossentropy": 2.402170777320862,
      "loss/hidden": 4.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.44065244495868683,
      "step": 268
    },
    {
      "epoch": 0.016875,
      "grad_norm": 6.5625,
      "grad_norm_var": 0.17633056640625,
      "learning_rate": 0.0001,
      "loss": 11.6722,
      "loss/crossentropy": 2.5016753673553467,
      "loss/hidden": 4.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4539669454097748,
      "step": 270
    },
    {
      "epoch": 0.017,
      "grad_norm": 6.34375,
      "grad_norm_var": 0.15442708333333333,
      "learning_rate": 0.0001,
      "loss": 11.756,
      "loss/crossentropy": 2.344158887863159,
      "loss/hidden": 4.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.46556878089904785,
      "step": 272
    },
    {
      "epoch": 0.017125,
      "grad_norm": 6.25,
      "grad_norm_var": 0.18977864583333334,
      "learning_rate": 0.0001,
      "loss": 11.4672,
      "loss/crossentropy": 2.3533241748809814,
      "loss/hidden": 4.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.42739230394363403,
      "step": 274
    },
    {
      "epoch": 0.01725,
      "grad_norm": 8.0625,
      "grad_norm_var": 0.48045247395833335,
      "learning_rate": 0.0001,
      "loss": 11.7908,
      "loss/crossentropy": 2.360278367996216,
      "loss/hidden": 4.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.46030762791633606,
      "step": 276
    },
    {
      "epoch": 0.017375,
      "grad_norm": 6.5625,
      "grad_norm_var": 0.45963134765625,
      "learning_rate": 0.0001,
      "loss": 11.8649,
      "loss/crossentropy": 2.433812379837036,
      "loss/hidden": 4.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4665477126836777,
      "step": 278
    },
    {
      "epoch": 0.0175,
      "grad_norm": 5.34375,
      "grad_norm_var": 0.56021728515625,
      "learning_rate": 0.0001,
      "loss": 11.8492,
      "loss/crossentropy": 2.4910370111465454,
      "loss/hidden": 4.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4576037526130676,
      "step": 280
    },
    {
      "epoch": 0.017625,
      "grad_norm": 7.4375,
      "grad_norm_var": 0.601171875,
      "learning_rate": 0.0001,
      "loss": 11.7673,
      "loss/crossentropy": 2.730518341064453,
      "loss/hidden": 4.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5011050552129745,
      "step": 282
    },
    {
      "epoch": 0.01775,
      "grad_norm": 6.03125,
      "grad_norm_var": 0.5543904622395833,
      "learning_rate": 0.0001,
      "loss": 11.739,
      "loss/crossentropy": 2.53789222240448,
      "loss/hidden": 4.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.44618333876132965,
      "step": 284
    },
    {
      "epoch": 0.017875,
      "grad_norm": 6.3125,
      "grad_norm_var": 0.5624308268229167,
      "learning_rate": 0.0001,
      "loss": 12.0365,
      "loss/crossentropy": 2.5072152614593506,
      "loss/hidden": 4.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.4584163427352905,
      "step": 286
    },
    {
      "epoch": 0.018,
      "grad_norm": 7.0,
      "grad_norm_var": 0.56744384765625,
      "learning_rate": 0.0001,
      "loss": 11.7216,
      "loss/crossentropy": 2.713698387145996,
      "loss/hidden": 4.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.47771963477134705,
      "step": 288
    },
    {
      "epoch": 0.018125,
      "grad_norm": 5.34375,
      "grad_norm_var": 0.5739420572916667,
      "learning_rate": 0.0001,
      "loss": 11.3088,
      "loss/crossentropy": 2.4359713792800903,
      "loss/hidden": 4.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4259905219078064,
      "step": 290
    },
    {
      "epoch": 0.01825,
      "grad_norm": 7.5,
      "grad_norm_var": 0.36584879557291666,
      "learning_rate": 0.0001,
      "loss": 11.7531,
      "loss/crossentropy": 2.5594223737716675,
      "loss/hidden": 4.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4502502828836441,
      "step": 292
    },
    {
      "epoch": 0.018375,
      "grad_norm": 10.1875,
      "grad_norm_var": 1.243994140625,
      "learning_rate": 0.0001,
      "loss": 12.587,
      "loss/crossentropy": 2.979864239692688,
      "loss/hidden": 4.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6050755679607391,
      "step": 294
    },
    {
      "epoch": 0.0185,
      "grad_norm": 6.125,
      "grad_norm_var": 3.3922159830729166,
      "learning_rate": 0.0001,
      "loss": 12.0734,
      "loss/crossentropy": 2.6472045183181763,
      "loss/hidden": 4.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4378223419189453,
      "step": 296
    },
    {
      "epoch": 0.018625,
      "grad_norm": 6.125,
      "grad_norm_var": 3.450972493489583,
      "learning_rate": 0.0001,
      "loss": 11.4956,
      "loss/crossentropy": 2.5419256687164307,
      "loss/hidden": 4.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4189437925815582,
      "step": 298
    },
    {
      "epoch": 0.01875,
      "grad_norm": 6.4375,
      "grad_norm_var": 3.3952433268229165,
      "learning_rate": 0.0001,
      "loss": 11.4754,
      "loss/crossentropy": 2.4922432899475098,
      "loss/hidden": 4.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4700406640768051,
      "step": 300
    },
    {
      "epoch": 0.018875,
      "grad_norm": 5.8125,
      "grad_norm_var": 3.46099853515625,
      "learning_rate": 0.0001,
      "loss": 11.4791,
      "loss/crossentropy": 2.1792010068893433,
      "loss/hidden": 4.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4193985015153885,
      "step": 302
    },
    {
      "epoch": 0.019,
      "grad_norm": 5.8125,
      "grad_norm_var": 3.5378743489583333,
      "learning_rate": 0.0001,
      "loss": 11.4713,
      "loss/crossentropy": 2.5582441091537476,
      "loss/hidden": 4.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.45763692259788513,
      "step": 304
    },
    {
      "epoch": 0.019125,
      "grad_norm": 6.78125,
      "grad_norm_var": 3.42242431640625,
      "learning_rate": 0.0001,
      "loss": 11.5659,
      "loss/crossentropy": 2.501905083656311,
      "loss/hidden": 4.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.43473342061042786,
      "step": 306
    },
    {
      "epoch": 0.01925,
      "grad_norm": 5.9375,
      "grad_norm_var": 3.487744140625,
      "learning_rate": 0.0001,
      "loss": 11.6014,
      "loss/crossentropy": 2.5585442781448364,
      "loss/hidden": 4.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5095447897911072,
      "step": 308
    },
    {
      "epoch": 0.019375,
      "grad_norm": 6.21875,
      "grad_norm_var": 2.76822509765625,
      "learning_rate": 0.0001,
      "loss": 11.567,
      "loss/crossentropy": 2.4677284955978394,
      "loss/hidden": 4.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4294033944606781,
      "step": 310
    },
    {
      "epoch": 0.0195,
      "grad_norm": 6.25,
      "grad_norm_var": 0.22245686848958332,
      "learning_rate": 0.0001,
      "loss": 11.2982,
      "loss/crossentropy": 2.3961949348449707,
      "loss/hidden": 4.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.4119955450296402,
      "step": 312
    },
    {
      "epoch": 0.019625,
      "grad_norm": 5.9375,
      "grad_norm_var": 0.32304280598958335,
      "learning_rate": 0.0001,
      "loss": 11.5074,
      "loss/crossentropy": 2.310800790786743,
      "loss/hidden": 4.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.42905446887016296,
      "step": 314
    },
    {
      "epoch": 0.01975,
      "grad_norm": 5.8125,
      "grad_norm_var": 0.33020426432291666,
      "learning_rate": 0.0001,
      "loss": 11.3422,
      "loss/crossentropy": 2.4780253171920776,
      "loss/hidden": 4.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.45472322404384613,
      "step": 316
    },
    {
      "epoch": 0.019875,
      "grad_norm": 5.9375,
      "grad_norm_var": 0.33508707682291666,
      "learning_rate": 0.0001,
      "loss": 11.5055,
      "loss/crossentropy": 2.6155530214309692,
      "loss/hidden": 4.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.48140254616737366,
      "step": 318
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.5,
      "grad_norm_var": 0.31060791015625,
      "learning_rate": 0.0001,
      "loss": 11.3301,
      "loss/crossentropy": 2.5840269327163696,
      "loss/hidden": 4.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4504729211330414,
      "step": 320
    },
    {
      "epoch": 0.020125,
      "grad_norm": 5.9375,
      "grad_norm_var": 0.3453125,
      "learning_rate": 0.0001,
      "loss": 11.7327,
      "loss/crossentropy": 2.5163029432296753,
      "loss/hidden": 4.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.45117421448230743,
      "step": 322
    },
    {
      "epoch": 0.02025,
      "grad_norm": 5.375,
      "grad_norm_var": 0.71353759765625,
      "learning_rate": 0.0001,
      "loss": 11.4897,
      "loss/crossentropy": 2.4774335622787476,
      "loss/hidden": 4.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4575677663087845,
      "step": 324
    },
    {
      "epoch": 0.020375,
      "grad_norm": 6.78125,
      "grad_norm_var": 0.67857666015625,
      "learning_rate": 0.0001,
      "loss": 11.1918,
      "loss/crossentropy": 2.431584596633911,
      "loss/hidden": 4.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4284675121307373,
      "step": 326
    },
    {
      "epoch": 0.0205,
      "grad_norm": 6.03125,
      "grad_norm_var": 0.6340779622395833,
      "learning_rate": 0.0001,
      "loss": 11.2356,
      "loss/crossentropy": 2.2354328632354736,
      "loss/hidden": 4.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.44321516156196594,
      "step": 328
    },
    {
      "epoch": 0.020625,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.5881510416666667,
      "learning_rate": 0.0001,
      "loss": 11.3096,
      "loss/crossentropy": 2.349725842475891,
      "loss/hidden": 4.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.39839838445186615,
      "step": 330
    },
    {
      "epoch": 0.02075,
      "grad_norm": 5.625,
      "grad_norm_var": 0.6135050455729166,
      "learning_rate": 0.0001,
      "loss": 11.5636,
      "loss/crossentropy": 2.704393744468689,
      "loss/hidden": 4.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.42811933159828186,
      "step": 332
    },
    {
      "epoch": 0.020875,
      "grad_norm": 5.71875,
      "grad_norm_var": 0.6152180989583333,
      "learning_rate": 0.0001,
      "loss": 11.1634,
      "loss/crossentropy": 2.2040624618530273,
      "loss/hidden": 4.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.38388490676879883,
      "step": 334
    },
    {
      "epoch": 0.021,
      "grad_norm": 7.15625,
      "grad_norm_var": 0.6815104166666667,
      "learning_rate": 0.0001,
      "loss": 11.2019,
      "loss/crossentropy": 2.334352135658264,
      "loss/hidden": 4.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4286506623029709,
      "step": 336
    },
    {
      "epoch": 0.021125,
      "grad_norm": 6.21875,
      "grad_norm_var": 0.6352213541666667,
      "learning_rate": 0.0001,
      "loss": 11.1504,
      "loss/crossentropy": 2.390920877456665,
      "loss/hidden": 4.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4297266751527786,
      "step": 338
    },
    {
      "epoch": 0.02125,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.27034098307291665,
      "learning_rate": 0.0001,
      "loss": 10.968,
      "loss/crossentropy": 2.589638829231262,
      "loss/hidden": 4.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.41065070033073425,
      "step": 340
    },
    {
      "epoch": 0.021375,
      "grad_norm": 6.59375,
      "grad_norm_var": 1.3688151041666667,
      "learning_rate": 0.0001,
      "loss": 11.5793,
      "loss/crossentropy": 2.735411524772644,
      "loss/hidden": 4.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.43197204172611237,
      "step": 342
    },
    {
      "epoch": 0.0215,
      "grad_norm": 6.34375,
      "grad_norm_var": 1.35992431640625,
      "learning_rate": 0.0001,
      "loss": 11.1228,
      "loss/crossentropy": 2.424543857574463,
      "loss/hidden": 4.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4435572326183319,
      "step": 344
    },
    {
      "epoch": 0.021625,
      "grad_norm": 6.15625,
      "grad_norm_var": 1.3089803059895833,
      "learning_rate": 0.0001,
      "loss": 11.3887,
      "loss/crossentropy": 2.3145734071731567,
      "loss/hidden": 4.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4381801038980484,
      "step": 346
    },
    {
      "epoch": 0.02175,
      "grad_norm": 5.90625,
      "grad_norm_var": 1.2807576497395834,
      "learning_rate": 0.0001,
      "loss": 11.3132,
      "loss/crossentropy": 2.4313782453536987,
      "loss/hidden": 4.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.44939403235912323,
      "step": 348
    },
    {
      "epoch": 0.021875,
      "grad_norm": 6.3125,
      "grad_norm_var": 1.2580078125,
      "learning_rate": 0.0001,
      "loss": 11.2425,
      "loss/crossentropy": 2.2621657848358154,
      "loss/hidden": 4.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4138593226671219,
      "step": 350
    },
    {
      "epoch": 0.022,
      "grad_norm": 5.78125,
      "grad_norm_var": 1.2151652018229167,
      "learning_rate": 0.0001,
      "loss": 11.4478,
      "loss/crossentropy": 2.9294599294662476,
      "loss/hidden": 4.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.43130405247211456,
      "step": 352
    },
    {
      "epoch": 0.022125,
      "grad_norm": 5.28125,
      "grad_norm_var": 1.3285807291666667,
      "learning_rate": 0.0001,
      "loss": 11.0711,
      "loss/crossentropy": 2.4152419567108154,
      "loss/hidden": 4.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4246339052915573,
      "step": 354
    },
    {
      "epoch": 0.02225,
      "grad_norm": 5.28125,
      "grad_norm_var": 1.4159993489583333,
      "learning_rate": 0.0001,
      "loss": 10.4805,
      "loss/crossentropy": 2.342584490776062,
      "loss/hidden": 4.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.39343252778053284,
      "step": 356
    },
    {
      "epoch": 0.022375,
      "grad_norm": 5.3125,
      "grad_norm_var": 0.24654947916666667,
      "learning_rate": 0.0001,
      "loss": 10.7117,
      "loss/crossentropy": 2.268111824989319,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.37643152475357056,
      "step": 358
    },
    {
      "epoch": 0.0225,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.26873372395833334,
      "learning_rate": 0.0001,
      "loss": 10.8794,
      "loss/crossentropy": 2.2588669061660767,
      "loss/hidden": 4.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.38288983702659607,
      "step": 360
    },
    {
      "epoch": 0.022625,
      "grad_norm": 5.46875,
      "grad_norm_var": 0.2638631184895833,
      "learning_rate": 0.0001,
      "loss": 11.0366,
      "loss/crossentropy": 2.458423137664795,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.42026595771312714,
      "step": 362
    },
    {
      "epoch": 0.02275,
      "grad_norm": 6.8125,
      "grad_norm_var": 0.31164957682291666,
      "learning_rate": 0.0001,
      "loss": 11.3242,
      "loss/crossentropy": 2.321816086769104,
      "loss/hidden": 4.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3996615409851074,
      "step": 364
    },
    {
      "epoch": 0.022875,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.30230712890625,
      "learning_rate": 0.0001,
      "loss": 10.7526,
      "loss/crossentropy": 2.370081901550293,
      "loss/hidden": 4.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.39483100175857544,
      "step": 366
    },
    {
      "epoch": 0.023,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.22395833333333334,
      "learning_rate": 0.0001,
      "loss": 10.7775,
      "loss/crossentropy": 2.292533278465271,
      "loss/hidden": 4.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4388478994369507,
      "step": 368
    },
    {
      "epoch": 0.023125,
      "grad_norm": 5.5,
      "grad_norm_var": 0.22610270182291667,
      "learning_rate": 0.0001,
      "loss": 10.8841,
      "loss/crossentropy": 2.3297876119613647,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.4065796434879303,
      "step": 370
    },
    {
      "epoch": 0.02325,
      "grad_norm": 6.125,
      "grad_norm_var": 0.23635660807291667,
      "learning_rate": 0.0001,
      "loss": 10.7713,
      "loss/crossentropy": 2.5502147674560547,
      "loss/hidden": 4.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3998092859983444,
      "step": 372
    },
    {
      "epoch": 0.023375,
      "grad_norm": 5.15625,
      "grad_norm_var": 0.23821614583333334,
      "learning_rate": 0.0001,
      "loss": 11.0205,
      "loss/crossentropy": 2.385592818260193,
      "loss/hidden": 4.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4194333106279373,
      "step": 374
    },
    {
      "epoch": 0.0235,
      "grad_norm": 6.09375,
      "grad_norm_var": 0.23645833333333333,
      "learning_rate": 0.0001,
      "loss": 10.8672,
      "loss/crossentropy": 2.4565255641937256,
      "loss/hidden": 4.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4082058221101761,
      "step": 376
    },
    {
      "epoch": 0.023625,
      "grad_norm": 5.28125,
      "grad_norm_var": 0.27864176432291665,
      "learning_rate": 0.0001,
      "loss": 11.2051,
      "loss/crossentropy": 2.621595621109009,
      "loss/hidden": 4.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.44046278297901154,
      "step": 378
    },
    {
      "epoch": 0.02375,
      "grad_norm": 5.875,
      "grad_norm_var": 0.18631184895833333,
      "learning_rate": 0.0001,
      "loss": 11.0582,
      "loss/crossentropy": 2.856778144836426,
      "loss/hidden": 4.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.42068275809288025,
      "step": 380
    },
    {
      "epoch": 0.023875,
      "grad_norm": 5.96875,
      "grad_norm_var": 0.18183186848958333,
      "learning_rate": 0.0001,
      "loss": 10.952,
      "loss/crossentropy": 2.5854907035827637,
      "loss/hidden": 4.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.40150247514247894,
      "step": 382
    },
    {
      "epoch": 0.024,
      "grad_norm": 5.8125,
      "grad_norm_var": 0.17877604166666666,
      "learning_rate": 0.0001,
      "loss": 10.7008,
      "loss/crossentropy": 2.3077510595321655,
      "loss/hidden": 4.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.39931294322013855,
      "step": 384
    },
    {
      "epoch": 0.024125,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.172509765625,
      "learning_rate": 0.0001,
      "loss": 10.931,
      "loss/crossentropy": 2.533818006515503,
      "loss/hidden": 4.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.43096111714839935,
      "step": 386
    },
    {
      "epoch": 0.02425,
      "grad_norm": 6.5625,
      "grad_norm_var": 0.21328125,
      "learning_rate": 0.0001,
      "loss": 10.9486,
      "loss/crossentropy": 2.2463923692703247,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4105375409126282,
      "step": 388
    },
    {
      "epoch": 0.024375,
      "grad_norm": 6.40625,
      "grad_norm_var": 0.21083577473958334,
      "learning_rate": 0.0001,
      "loss": 10.983,
      "loss/crossentropy": 2.6630618572235107,
      "loss/hidden": 4.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4139321595430374,
      "step": 390
    },
    {
      "epoch": 0.0245,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.24898681640625,
      "learning_rate": 0.0001,
      "loss": 10.6566,
      "loss/crossentropy": 2.309110641479492,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35926803946495056,
      "step": 392
    },
    {
      "epoch": 0.024625,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.21187744140625,
      "learning_rate": 0.0001,
      "loss": 10.6611,
      "loss/crossentropy": 2.554847478866577,
      "loss/hidden": 4.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4162745624780655,
      "step": 394
    },
    {
      "epoch": 0.02475,
      "grad_norm": 5.21875,
      "grad_norm_var": 0.21630452473958334,
      "learning_rate": 0.0001,
      "loss": 10.5844,
      "loss/crossentropy": 2.6489609479904175,
      "loss/hidden": 4.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.40658123791217804,
      "step": 396
    },
    {
      "epoch": 0.024875,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.21614176432291668,
      "learning_rate": 0.0001,
      "loss": 10.7177,
      "loss/crossentropy": 2.542907238006592,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3921196609735489,
      "step": 398
    },
    {
      "epoch": 0.025,
      "grad_norm": 5.34375,
      "grad_norm_var": 0.21314697265625,
      "learning_rate": 0.0001,
      "loss": 11.1447,
      "loss/crossentropy": 2.7548632621765137,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.42924974858760834,
      "step": 400
    },
    {
      "epoch": 0.025125,
      "grad_norm": 7.40625,
      "grad_norm_var": 0.46285400390625,
      "learning_rate": 0.0001,
      "loss": 10.7675,
      "loss/crossentropy": 2.46126389503479,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.39891795814037323,
      "step": 402
    },
    {
      "epoch": 0.02525,
      "grad_norm": 6.0,
      "grad_norm_var": 0.4099609375,
      "learning_rate": 0.0001,
      "loss": 10.6513,
      "loss/crossentropy": 2.4365785121917725,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.38683582842350006,
      "step": 404
    },
    {
      "epoch": 0.025375,
      "grad_norm": 5.1875,
      "grad_norm_var": 0.379931640625,
      "learning_rate": 0.0001,
      "loss": 10.8399,
      "loss/crossentropy": 2.379759669303894,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.39575886726379395,
      "step": 406
    },
    {
      "epoch": 0.0255,
      "grad_norm": 5.65625,
      "grad_norm_var": 0.367822265625,
      "learning_rate": 0.0001,
      "loss": 10.6569,
      "loss/crossentropy": 2.29716956615448,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4569971561431885,
      "step": 408
    },
    {
      "epoch": 0.025625,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.39303385416666664,
      "learning_rate": 0.0001,
      "loss": 10.9526,
      "loss/crossentropy": 2.5199685096740723,
      "loss/hidden": 4.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.46622008085250854,
      "step": 410
    },
    {
      "epoch": 0.02575,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.40784098307291666,
      "learning_rate": 0.0001,
      "loss": 10.6827,
      "loss/crossentropy": 2.633329153060913,
      "loss/hidden": 4.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3798275887966156,
      "step": 412
    },
    {
      "epoch": 0.025875,
      "grad_norm": 5.9375,
      "grad_norm_var": 0.42083333333333334,
      "learning_rate": 0.0001,
      "loss": 10.9265,
      "loss/crossentropy": 2.690458655357361,
      "loss/hidden": 4.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4021689295768738,
      "step": 414
    },
    {
      "epoch": 0.026,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.45126546223958336,
      "learning_rate": 0.0001,
      "loss": 10.9415,
      "loss/crossentropy": 2.5202553272247314,
      "loss/hidden": 4.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.41354137659072876,
      "step": 416
    },
    {
      "epoch": 0.026125,
      "grad_norm": 5.96875,
      "grad_norm_var": 0.19875895182291667,
      "learning_rate": 0.0001,
      "loss": 10.868,
      "loss/crossentropy": 2.6249037981033325,
      "loss/hidden": 4.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4118567407131195,
      "step": 418
    },
    {
      "epoch": 0.02625,
      "grad_norm": 4.625,
      "grad_norm_var": 0.20584309895833333,
      "learning_rate": 0.0001,
      "loss": 10.6141,
      "loss/crossentropy": 2.4828044176101685,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3660377264022827,
      "step": 420
    },
    {
      "epoch": 0.026375,
      "grad_norm": 5.1875,
      "grad_norm_var": 0.20572916666666666,
      "learning_rate": 0.0001,
      "loss": 10.8148,
      "loss/crossentropy": 2.5954415798187256,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36801303923130035,
      "step": 422
    },
    {
      "epoch": 0.0265,
      "grad_norm": 5.5,
      "grad_norm_var": 0.18694254557291667,
      "learning_rate": 0.0001,
      "loss": 10.6899,
      "loss/crossentropy": 2.2876476049423218,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37484128773212433,
      "step": 424
    },
    {
      "epoch": 0.026625,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.14928385416666667,
      "learning_rate": 0.0001,
      "loss": 10.92,
      "loss/crossentropy": 2.5665252208709717,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.42709940671920776,
      "step": 426
    },
    {
      "epoch": 0.02675,
      "grad_norm": 5.25,
      "grad_norm_var": 0.16708577473958333,
      "learning_rate": 0.0001,
      "loss": 10.9522,
      "loss/crossentropy": 2.5319453477859497,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4047371447086334,
      "step": 428
    },
    {
      "epoch": 0.026875,
      "grad_norm": 6.28125,
      "grad_norm_var": 0.18268229166666666,
      "learning_rate": 0.0001,
      "loss": 10.7146,
      "loss/crossentropy": 2.5017552375793457,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.40194234251976013,
      "step": 430
    },
    {
      "epoch": 0.027,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.20439046223958332,
      "learning_rate": 0.0001,
      "loss": 10.5358,
      "loss/crossentropy": 2.3956456184387207,
      "loss/hidden": 4.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3840651959180832,
      "step": 432
    },
    {
      "epoch": 0.027125,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.19501546223958333,
      "learning_rate": 0.0001,
      "loss": 10.8501,
      "loss/crossentropy": 2.5979639291763306,
      "loss/hidden": 4.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4386890381574631,
      "step": 434
    },
    {
      "epoch": 0.02725,
      "grad_norm": 5.5,
      "grad_norm_var": 0.16083577473958333,
      "learning_rate": 0.0001,
      "loss": 10.6397,
      "loss/crossentropy": 2.707968592643738,
      "loss/hidden": 4.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3836878836154938,
      "step": 436
    },
    {
      "epoch": 0.027375,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.18684895833333334,
      "learning_rate": 0.0001,
      "loss": 10.8105,
      "loss/crossentropy": 2.6276891231536865,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.40945254266262054,
      "step": 438
    },
    {
      "epoch": 0.0275,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.20623372395833334,
      "learning_rate": 0.0001,
      "loss": 10.1525,
      "loss/crossentropy": 2.269914984703064,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.36995893716812134,
      "step": 440
    },
    {
      "epoch": 0.027625,
      "grad_norm": 5.1875,
      "grad_norm_var": 0.20367431640625,
      "learning_rate": 0.0001,
      "loss": 10.59,
      "loss/crossentropy": 2.4260438680648804,
      "loss/hidden": 4.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.40428994596004486,
      "step": 442
    },
    {
      "epoch": 0.02775,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.16868489583333332,
      "learning_rate": 0.0001,
      "loss": 10.6862,
      "loss/crossentropy": 2.319399118423462,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3804202526807785,
      "step": 444
    },
    {
      "epoch": 0.027875,
      "grad_norm": 5.8125,
      "grad_norm_var": 0.11953125,
      "learning_rate": 0.0001,
      "loss": 10.7438,
      "loss/crossentropy": 2.556222915649414,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3961835205554962,
      "step": 446
    },
    {
      "epoch": 0.028,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.12519124348958333,
      "learning_rate": 0.0001,
      "loss": 10.7723,
      "loss/crossentropy": 2.5780078172683716,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4192471206188202,
      "step": 448
    },
    {
      "epoch": 0.028125,
      "grad_norm": 5.8125,
      "grad_norm_var": 0.124462890625,
      "learning_rate": 0.0001,
      "loss": 10.7281,
      "loss/crossentropy": 2.4442174434661865,
      "loss/hidden": 4.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.44460536539554596,
      "step": 450
    },
    {
      "epoch": 0.02825,
      "grad_norm": 5.0,
      "grad_norm_var": 0.12102864583333334,
      "learning_rate": 0.0001,
      "loss": 10.5439,
      "loss/crossentropy": 2.3095200061798096,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3880293220281601,
      "step": 452
    },
    {
      "epoch": 0.028375,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.11168212890625,
      "learning_rate": 0.0001,
      "loss": 10.4828,
      "loss/crossentropy": 2.263134002685547,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4143233299255371,
      "step": 454
    },
    {
      "epoch": 0.0285,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.10038655598958333,
      "learning_rate": 0.0001,
      "loss": 10.7777,
      "loss/crossentropy": 2.4948445558547974,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4150776267051697,
      "step": 456
    },
    {
      "epoch": 0.028625,
      "grad_norm": 4.5,
      "grad_norm_var": 0.14049072265625,
      "learning_rate": 0.0001,
      "loss": 10.2437,
      "loss/crossentropy": 2.6246066093444824,
      "loss/hidden": 4.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4077821969985962,
      "step": 458
    },
    {
      "epoch": 0.02875,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.19472249348958334,
      "learning_rate": 0.0001,
      "loss": 10.701,
      "loss/crossentropy": 2.5822086334228516,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.390767902135849,
      "step": 460
    },
    {
      "epoch": 0.028875,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.173046875,
      "learning_rate": 0.0001,
      "loss": 10.7852,
      "loss/crossentropy": 2.5109020471572876,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35967275500297546,
      "step": 462
    },
    {
      "epoch": 0.029,
      "grad_norm": 5.0,
      "grad_norm_var": 0.15071207682291668,
      "learning_rate": 0.0001,
      "loss": 10.6219,
      "loss/crossentropy": 2.407975435256958,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3790464997291565,
      "step": 464
    },
    {
      "epoch": 0.029125,
      "grad_norm": 5.53125,
      "grad_norm_var": 0.13730061848958333,
      "learning_rate": 0.0001,
      "loss": 10.3357,
      "loss/crossentropy": 2.564648985862732,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3769105225801468,
      "step": 466
    },
    {
      "epoch": 0.02925,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.1544921875,
      "learning_rate": 0.0001,
      "loss": 10.566,
      "loss/crossentropy": 2.4403003454208374,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3570362627506256,
      "step": 468
    },
    {
      "epoch": 0.029375,
      "grad_norm": 4.53125,
      "grad_norm_var": 0.18782145182291668,
      "learning_rate": 0.0001,
      "loss": 10.4887,
      "loss/crossentropy": 2.3666934967041016,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.40434208512306213,
      "step": 470
    },
    {
      "epoch": 0.0295,
      "grad_norm": 5.46875,
      "grad_norm_var": 0.189697265625,
      "learning_rate": 0.0001,
      "loss": 10.7792,
      "loss/crossentropy": 2.679360866546631,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.383465513586998,
      "step": 472
    },
    {
      "epoch": 0.029625,
      "grad_norm": 6.09375,
      "grad_norm_var": 1.400390625,
      "learning_rate": 0.0001,
      "loss": 10.7712,
      "loss/crossentropy": 2.700055718421936,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.412184476852417,
      "step": 474
    },
    {
      "epoch": 0.02975,
      "grad_norm": 5.21875,
      "grad_norm_var": 1.6235026041666667,
      "learning_rate": 0.0001,
      "loss": 10.6595,
      "loss/crossentropy": 2.456274390220642,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.40182630717754364,
      "step": 476
    },
    {
      "epoch": 0.029875,
      "grad_norm": 4.78125,
      "grad_norm_var": 1.6465983072916666,
      "learning_rate": 0.0001,
      "loss": 10.7663,
      "loss/crossentropy": 2.4097973108291626,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3738597333431244,
      "step": 478
    },
    {
      "epoch": 0.03,
      "grad_norm": 5.8125,
      "grad_norm_var": 1.5962076822916667,
      "learning_rate": 0.0001,
      "loss": 10.7901,
      "loss/crossentropy": 2.4475165605545044,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.40748435258865356,
      "step": 480
    },
    {
      "epoch": 0.030125,
      "grad_norm": 4.75,
      "grad_norm_var": 1.6552042643229166,
      "learning_rate": 0.0001,
      "loss": 10.1387,
      "loss/crossentropy": 2.28298556804657,
      "loss/hidden": 3.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36281222105026245,
      "step": 482
    },
    {
      "epoch": 0.03025,
      "grad_norm": 5.9375,
      "grad_norm_var": 1.6994425455729167,
      "learning_rate": 0.0001,
      "loss": 10.316,
      "loss/crossentropy": 2.3355804681777954,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34566931426525116,
      "step": 484
    },
    {
      "epoch": 0.030375,
      "grad_norm": 4.8125,
      "grad_norm_var": 1.6235026041666667,
      "learning_rate": 0.0001,
      "loss": 10.6935,
      "loss/crossentropy": 2.6970983743667603,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4392566382884979,
      "step": 486
    },
    {
      "epoch": 0.0305,
      "grad_norm": 7.625,
      "grad_norm_var": 1.9055826822916666,
      "learning_rate": 0.0001,
      "loss": 10.5326,
      "loss/crossentropy": 2.4185194969177246,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3976728916168213,
      "step": 488
    },
    {
      "epoch": 0.030625,
      "grad_norm": 5.09375,
      "grad_norm_var": 0.86724853515625,
      "learning_rate": 0.0001,
      "loss": 10.5936,
      "loss/crossentropy": 2.390311121940613,
      "loss/hidden": 4.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.379798486828804,
      "step": 490
    },
    {
      "epoch": 0.03075,
      "grad_norm": 4.71875,
      "grad_norm_var": 0.5812337239583333,
      "learning_rate": 0.0001,
      "loss": 10.4348,
      "loss/crossentropy": 2.5370208024978638,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3812776803970337,
      "step": 492
    },
    {
      "epoch": 0.030875,
      "grad_norm": 4.53125,
      "grad_norm_var": 0.59869384765625,
      "learning_rate": 0.0001,
      "loss": 10.2674,
      "loss/crossentropy": 2.400723934173584,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3432563245296478,
      "step": 494
    },
    {
      "epoch": 0.031,
      "grad_norm": 4.71875,
      "grad_norm_var": 0.575634765625,
      "learning_rate": 0.0001,
      "loss": 10.3094,
      "loss/crossentropy": 2.44759202003479,
      "loss/hidden": 3.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3646901249885559,
      "step": 496
    },
    {
      "epoch": 0.031125,
      "grad_norm": 5.71875,
      "grad_norm_var": 0.5779296875,
      "learning_rate": 0.0001,
      "loss": 10.6323,
      "loss/crossentropy": 2.4714183807373047,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4395069479942322,
      "step": 498
    },
    {
      "epoch": 0.03125,
      "grad_norm": 4.875,
      "grad_norm_var": 0.5239420572916667,
      "learning_rate": 0.0001,
      "loss": 10.5234,
      "loss/crossentropy": 2.425844192504883,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3750711977481842,
      "step": 500
    },
    {
      "epoch": 0.031375,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.5263631184895833,
      "learning_rate": 0.0001,
      "loss": 10.0027,
      "loss/crossentropy": 2.187627673149109,
      "loss/hidden": 3.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3448432832956314,
      "step": 502
    },
    {
      "epoch": 0.0315,
      "grad_norm": 4.75,
      "grad_norm_var": 0.08319905598958334,
      "learning_rate": 0.0001,
      "loss": 10.3973,
      "loss/crossentropy": 2.592836856842041,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3808598816394806,
      "step": 504
    },
    {
      "epoch": 0.031625,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.086181640625,
      "learning_rate": 0.0001,
      "loss": 10.3901,
      "loss/crossentropy": 2.621356964111328,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.37457969784736633,
      "step": 506
    },
    {
      "epoch": 0.03175,
      "grad_norm": 13.375,
      "grad_norm_var": 4.523758951822916,
      "learning_rate": 0.0001,
      "loss": 10.7639,
      "loss/crossentropy": 2.4040629863739014,
      "loss/hidden": 4.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.40050315856933594,
      "step": 508
    },
    {
      "epoch": 0.031875,
      "grad_norm": 6.40625,
      "grad_norm_var": 4.598368326822917,
      "learning_rate": 0.0001,
      "loss": 10.5925,
      "loss/crossentropy": 2.6625452041625977,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.42064009606838226,
      "step": 510
    },
    {
      "epoch": 0.032,
      "grad_norm": 4.6875,
      "grad_norm_var": 4.583463541666666,
      "learning_rate": 0.0001,
      "loss": 10.6113,
      "loss/crossentropy": 2.3583052158355713,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.40322598814964294,
      "step": 512
    },
    {
      "epoch": 0.032125,
      "grad_norm": 5.25,
      "grad_norm_var": 4.567867024739583,
      "learning_rate": 0.0001,
      "loss": 10.4471,
      "loss/crossentropy": 2.333785891532898,
      "loss/hidden": 4.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37443122267723083,
      "step": 514
    },
    {
      "epoch": 0.03225,
      "grad_norm": 4.65625,
      "grad_norm_var": 4.6419921875,
      "learning_rate": 0.0001,
      "loss": 10.1493,
      "loss/crossentropy": 2.500606060028076,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3583361357450485,
      "step": 516
    },
    {
      "epoch": 0.032375,
      "grad_norm": 4.78125,
      "grad_norm_var": 4.674247233072917,
      "learning_rate": 0.0001,
      "loss": 10.1221,
      "loss/crossentropy": 2.201894164085388,
      "loss/hidden": 4.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35936446487903595,
      "step": 518
    },
    {
      "epoch": 0.0325,
      "grad_norm": 4.625,
      "grad_norm_var": 4.658784993489584,
      "learning_rate": 0.0001,
      "loss": 10.7879,
      "loss/crossentropy": 2.422861099243164,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4262392073869705,
      "step": 520
    },
    {
      "epoch": 0.032625,
      "grad_norm": 6.15625,
      "grad_norm_var": 4.619755045572917,
      "learning_rate": 0.0001,
      "loss": 10.5335,
      "loss/crossentropy": 2.609155774116516,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.40598247945308685,
      "step": 522
    },
    {
      "epoch": 0.03275,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.5051920572916667,
      "learning_rate": 0.0001,
      "loss": 10.2853,
      "loss/crossentropy": 2.4510494470596313,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4115123152732849,
      "step": 524
    },
    {
      "epoch": 0.032875,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.26568603515625,
      "learning_rate": 0.0001,
      "loss": 10.7524,
      "loss/crossentropy": 2.604946732521057,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.41282832622528076,
      "step": 526
    },
    {
      "epoch": 0.033,
      "grad_norm": 10.4375,
      "grad_norm_var": 2.0192545572916667,
      "learning_rate": 0.0001,
      "loss": 10.4002,
      "loss/crossentropy": 2.611866593360901,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.37592028081417084,
      "step": 528
    },
    {
      "epoch": 0.033125,
      "grad_norm": 5.0,
      "grad_norm_var": 2.0321451822916665,
      "learning_rate": 0.0001,
      "loss": 10.4279,
      "loss/crossentropy": 2.599483370780945,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.37497493624687195,
      "step": 530
    },
    {
      "epoch": 0.03325,
      "grad_norm": 4.6875,
      "grad_norm_var": 2.026497395833333,
      "learning_rate": 0.0001,
      "loss": 10.1858,
      "loss/crossentropy": 2.2957273721694946,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.36572718620300293,
      "step": 532
    },
    {
      "epoch": 0.033375,
      "grad_norm": 4.8125,
      "grad_norm_var": 1.99713134765625,
      "learning_rate": 0.0001,
      "loss": 10.4544,
      "loss/crossentropy": 2.44324791431427,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4093717336654663,
      "step": 534
    },
    {
      "epoch": 0.0335,
      "grad_norm": 4.84375,
      "grad_norm_var": 1.9977701822916667,
      "learning_rate": 0.0001,
      "loss": 10.2236,
      "loss/crossentropy": 2.415123224258423,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.36705660820007324,
      "step": 536
    },
    {
      "epoch": 0.033625,
      "grad_norm": 4.875,
      "grad_norm_var": 1.9493326822916666,
      "learning_rate": 0.0001,
      "loss": 10.5376,
      "loss/crossentropy": 2.466187596321106,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.40770016610622406,
      "step": 538
    },
    {
      "epoch": 0.03375,
      "grad_norm": 6.03125,
      "grad_norm_var": 1.965478515625,
      "learning_rate": 0.0001,
      "loss": 10.4253,
      "loss/crossentropy": 2.379727602005005,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3828308582305908,
      "step": 540
    },
    {
      "epoch": 0.033875,
      "grad_norm": 5.5625,
      "grad_norm_var": 1.9148274739583333,
      "learning_rate": 0.0001,
      "loss": 10.4729,
      "loss/crossentropy": 2.502163052558899,
      "loss/hidden": 4.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.43099866807460785,
      "step": 542
    },
    {
      "epoch": 0.034,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.15963541666666667,
      "learning_rate": 0.0001,
      "loss": 10.353,
      "loss/crossentropy": 2.501845955848694,
      "loss/hidden": 3.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3675364851951599,
      "step": 544
    },
    {
      "epoch": 0.034125,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.18144124348958332,
      "learning_rate": 0.0001,
      "loss": 10.2907,
      "loss/crossentropy": 2.376683473587036,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.41435733437538147,
      "step": 546
    },
    {
      "epoch": 0.03425,
      "grad_norm": 5.34375,
      "grad_norm_var": 0.17939046223958333,
      "learning_rate": 0.0001,
      "loss": 10.2278,
      "loss/crossentropy": 2.230885148048401,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3870948702096939,
      "step": 548
    },
    {
      "epoch": 0.034375,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.18331705729166667,
      "learning_rate": 0.0001,
      "loss": 10.0963,
      "loss/crossentropy": 2.3854016065597534,
      "loss/hidden": 3.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3725956082344055,
      "step": 550
    },
    {
      "epoch": 0.0345,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.18017171223958334,
      "learning_rate": 0.0001,
      "loss": 10.4064,
      "loss/crossentropy": 2.30772066116333,
      "loss/hidden": 4.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.41719433665275574,
      "step": 552
    },
    {
      "epoch": 0.034625,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.19784749348958333,
      "learning_rate": 0.0001,
      "loss": 9.9904,
      "loss/crossentropy": 2.4518308639526367,
      "loss/hidden": 3.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.367490217089653,
      "step": 554
    },
    {
      "epoch": 0.03475,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.145166015625,
      "learning_rate": 0.0001,
      "loss": 10.186,
      "loss/crossentropy": 2.5720479488372803,
      "loss/hidden": 3.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36091138422489166,
      "step": 556
    },
    {
      "epoch": 0.034875,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.09309488932291667,
      "learning_rate": 0.0001,
      "loss": 10.0815,
      "loss/crossentropy": 2.4808801412582397,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3723009526729584,
      "step": 558
    },
    {
      "epoch": 0.035,
      "grad_norm": 4.71875,
      "grad_norm_var": 0.09099934895833334,
      "learning_rate": 0.0001,
      "loss": 10.0476,
      "loss/crossentropy": 2.4010642766952515,
      "loss/hidden": 3.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3671903610229492,
      "step": 560
    },
    {
      "epoch": 0.035125,
      "grad_norm": 5.375,
      "grad_norm_var": 0.08674723307291667,
      "learning_rate": 0.0001,
      "loss": 10.4371,
      "loss/crossentropy": 2.4921680688858032,
      "loss/hidden": 4.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4616352915763855,
      "step": 562
    },
    {
      "epoch": 0.03525,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.049540201822916664,
      "learning_rate": 0.0001,
      "loss": 10.2687,
      "loss/crossentropy": 2.5980935096740723,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4135672152042389,
      "step": 564
    },
    {
      "epoch": 0.035375,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.053446451822916664,
      "learning_rate": 0.0001,
      "loss": 10.2881,
      "loss/crossentropy": 2.515305280685425,
      "loss/hidden": 3.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3722418546676636,
      "step": 566
    },
    {
      "epoch": 0.0355,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.06464436848958334,
      "learning_rate": 0.0001,
      "loss": 10.2975,
      "loss/crossentropy": 2.559085965156555,
      "loss/hidden": 4.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.42906875908374786,
      "step": 568
    },
    {
      "epoch": 0.035625,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.08541666666666667,
      "learning_rate": 0.0001,
      "loss": 9.8115,
      "loss/crossentropy": 2.2619433403015137,
      "loss/hidden": 3.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3420299142599106,
      "step": 570
    },
    {
      "epoch": 0.03575,
      "grad_norm": 4.5,
      "grad_norm_var": 0.14739583333333334,
      "learning_rate": 0.0001,
      "loss": 10.4233,
      "loss/crossentropy": 2.5262789726257324,
      "loss/hidden": 3.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.39023733139038086,
      "step": 572
    },
    {
      "epoch": 0.035875,
      "grad_norm": 4.90625,
      "grad_norm_var": 0.30859375,
      "learning_rate": 0.0001,
      "loss": 10.3246,
      "loss/crossentropy": 2.567444682121277,
      "loss/hidden": 3.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3690713047981262,
      "step": 574
    },
    {
      "epoch": 0.036,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.30383707682291666,
      "learning_rate": 0.0001,
      "loss": 10.355,
      "loss/crossentropy": 2.6742849349975586,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.37552310526371,
      "step": 576
    },
    {
      "epoch": 0.036125,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.3316243489583333,
      "learning_rate": 0.0001,
      "loss": 10.1256,
      "loss/crossentropy": 2.3429067134857178,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.37690627574920654,
      "step": 578
    },
    {
      "epoch": 0.03625,
      "grad_norm": 5.3125,
      "grad_norm_var": 0.47980143229166666,
      "learning_rate": 0.0001,
      "loss": 10.6361,
      "loss/crossentropy": 2.4363961219787598,
      "loss/hidden": 4.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4327695965766907,
      "step": 580
    },
    {
      "epoch": 0.036375,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.49347330729166666,
      "learning_rate": 0.0001,
      "loss": 10.2303,
      "loss/crossentropy": 2.6203149557113647,
      "loss/hidden": 4.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3839530050754547,
      "step": 582
    },
    {
      "epoch": 0.0365,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.503125,
      "learning_rate": 0.0001,
      "loss": 10.4335,
      "loss/crossentropy": 2.705429792404175,
      "loss/hidden": 3.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3913826197385788,
      "step": 584
    },
    {
      "epoch": 0.036625,
      "grad_norm": 5.59375,
      "grad_norm_var": 0.46151936848958336,
      "learning_rate": 0.0001,
      "loss": 10.1133,
      "loss/crossentropy": 2.2338947057724,
      "loss/hidden": 3.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3503521531820297,
      "step": 586
    },
    {
      "epoch": 0.03675,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.4554036458333333,
      "learning_rate": 0.0001,
      "loss": 10.2664,
      "loss/crossentropy": 2.4711296558380127,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.39591944217681885,
      "step": 588
    },
    {
      "epoch": 0.036875,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.38765869140625,
      "learning_rate": 0.0001,
      "loss": 10.2556,
      "loss/crossentropy": 2.4357420206069946,
      "loss/hidden": 3.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.38228775560855865,
      "step": 590
    },
    {
      "epoch": 0.037,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.3698201497395833,
      "learning_rate": 0.0001,
      "loss": 10.1555,
      "loss/crossentropy": 2.263747811317444,
      "loss/hidden": 4.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.40818026661872864,
      "step": 592
    },
    {
      "epoch": 0.037125,
      "grad_norm": 4.5,
      "grad_norm_var": 0.3490193684895833,
      "learning_rate": 0.0001,
      "loss": 9.9666,
      "loss/crossentropy": 2.54870069026947,
      "loss/hidden": 3.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37873171269893646,
      "step": 594
    },
    {
      "epoch": 0.03725,
      "grad_norm": 5.96875,
      "grad_norm_var": 0.25271809895833336,
      "learning_rate": 0.0001,
      "loss": 10.1816,
      "loss/crossentropy": 2.5280078649520874,
      "loss/hidden": 3.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3799082934856415,
      "step": 596
    },
    {
      "epoch": 0.037375,
      "grad_norm": 4.53125,
      "grad_norm_var": 0.266259765625,
      "learning_rate": 0.0001,
      "loss": 9.871,
      "loss/crossentropy": 2.1612548232078552,
      "loss/hidden": 3.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3508923500776291,
      "step": 598
    },
    {
      "epoch": 0.0375,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.28664957682291664,
      "learning_rate": 0.0001,
      "loss": 10.0122,
      "loss/crossentropy": 2.33645498752594,
      "loss/hidden": 4.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34663376212120056,
      "step": 600
    },
    {
      "epoch": 0.037625,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.25558268229166664,
      "learning_rate": 0.0001,
      "loss": 9.8853,
      "loss/crossentropy": 2.263962745666504,
      "loss/hidden": 3.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3584403544664383,
      "step": 602
    },
    {
      "epoch": 0.03775,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.243603515625,
      "learning_rate": 0.0001,
      "loss": 9.9895,
      "loss/crossentropy": 2.4892383813858032,
      "loss/hidden": 3.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3693755269050598,
      "step": 604
    },
    {
      "epoch": 0.037875,
      "grad_norm": 4.5,
      "grad_norm_var": 0.218603515625,
      "learning_rate": 0.0001,
      "loss": 9.9086,
      "loss/crossentropy": 2.5046552419662476,
      "loss/hidden": 3.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3778345286846161,
      "step": 606
    },
    {
      "epoch": 0.038,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.21441650390625,
      "learning_rate": 0.0001,
      "loss": 9.9579,
      "loss/crossentropy": 2.383268356323242,
      "loss/hidden": 3.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35156671702861786,
      "step": 608
    },
    {
      "epoch": 0.038125,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.21565348307291668,
      "learning_rate": 0.0001,
      "loss": 10.1245,
      "loss/crossentropy": 2.6101828813552856,
      "loss/hidden": 3.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36821986734867096,
      "step": 610
    },
    {
      "epoch": 0.03825,
      "grad_norm": 4.5625,
      "grad_norm_var": 0.10784098307291666,
      "learning_rate": 0.0001,
      "loss": 9.6363,
      "loss/crossentropy": 2.154883623123169,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.351752445101738,
      "step": 612
    },
    {
      "epoch": 0.038375,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.10461832682291666,
      "learning_rate": 0.0001,
      "loss": 10.1564,
      "loss/crossentropy": 2.7461551427841187,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.40302354097366333,
      "step": 614
    },
    {
      "epoch": 0.0385,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.04967447916666667,
      "learning_rate": 0.0001,
      "loss": 9.964,
      "loss/crossentropy": 2.215000867843628,
      "loss/hidden": 4.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37297672033309937,
      "step": 616
    },
    {
      "epoch": 0.038625,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.0564453125,
      "learning_rate": 0.0001,
      "loss": 9.8702,
      "loss/crossentropy": 2.5331451892852783,
      "loss/hidden": 3.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3476633280515671,
      "step": 618
    },
    {
      "epoch": 0.03875,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.07550455729166666,
      "learning_rate": 0.0001,
      "loss": 10.4216,
      "loss/crossentropy": 2.4520362615585327,
      "loss/hidden": 3.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.38907913863658905,
      "step": 620
    },
    {
      "epoch": 0.038875,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.0876953125,
      "learning_rate": 0.0001,
      "loss": 9.9443,
      "loss/crossentropy": 2.1309529542922974,
      "loss/hidden": 3.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3472695052623749,
      "step": 622
    },
    {
      "epoch": 0.039,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.10517171223958334,
      "learning_rate": 0.0001,
      "loss": 10.2231,
      "loss/crossentropy": 2.5359339714050293,
      "loss/hidden": 3.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3966711014509201,
      "step": 624
    },
    {
      "epoch": 0.039125,
      "grad_norm": 5.34375,
      "grad_norm_var": 0.13763020833333334,
      "learning_rate": 0.0001,
      "loss": 10.0318,
      "loss/crossentropy": 2.4495298862457275,
      "loss/hidden": 3.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3523852229118347,
      "step": 626
    },
    {
      "epoch": 0.03925,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.12646077473958334,
      "learning_rate": 0.0001,
      "loss": 10.1339,
      "loss/crossentropy": 2.4048619270324707,
      "loss/hidden": 3.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37286487221717834,
      "step": 628
    },
    {
      "epoch": 0.039375,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.15050455729166667,
      "learning_rate": 0.0001,
      "loss": 9.5416,
      "loss/crossentropy": 2.2729824781417847,
      "loss/hidden": 3.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35299360752105713,
      "step": 630
    },
    {
      "epoch": 0.0395,
      "grad_norm": 4.625,
      "grad_norm_var": 0.14390869140625,
      "learning_rate": 0.0001,
      "loss": 9.6436,
      "loss/crossentropy": 2.464027762413025,
      "loss/hidden": 3.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3433645963668823,
      "step": 632
    },
    {
      "epoch": 0.039625,
      "grad_norm": 4.625,
      "grad_norm_var": 0.14296468098958334,
      "learning_rate": 0.0001,
      "loss": 10.0132,
      "loss/crossentropy": 2.260706663131714,
      "loss/hidden": 3.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.358672633767128,
      "step": 634
    },
    {
      "epoch": 0.03975,
      "grad_norm": 5.34375,
      "grad_norm_var": 0.16431884765625,
      "learning_rate": 0.0001,
      "loss": 10.0665,
      "loss/crossentropy": 2.443928599357605,
      "loss/hidden": 3.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34917180240154266,
      "step": 636
    },
    {
      "epoch": 0.039875,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.16360270182291667,
      "learning_rate": 0.0001,
      "loss": 9.8865,
      "loss/crossentropy": 2.355438470840454,
      "loss/hidden": 3.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3681969791650772,
      "step": 638
    },
    {
      "epoch": 0.04,
      "grad_norm": 5.15625,
      "grad_norm_var": 0.17375895182291667,
      "learning_rate": 0.0001,
      "loss": 9.988,
      "loss/crossentropy": 2.403064250946045,
      "loss/hidden": 3.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3809404671192169,
      "step": 640
    },
    {
      "epoch": 0.040125,
      "grad_norm": 5.25,
      "grad_norm_var": 0.16539306640625,
      "learning_rate": 0.0001,
      "loss": 9.8894,
      "loss/crossentropy": 2.277324080467224,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33590181171894073,
      "step": 642
    },
    {
      "epoch": 0.04025,
      "grad_norm": 4.75,
      "grad_norm_var": 0.16705729166666666,
      "learning_rate": 0.0001,
      "loss": 10.0104,
      "loss/crossentropy": 2.6433370113372803,
      "loss/hidden": 3.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3841419368982315,
      "step": 644
    },
    {
      "epoch": 0.040375,
      "grad_norm": 4.375,
      "grad_norm_var": 0.148828125,
      "learning_rate": 0.0001,
      "loss": 9.9156,
      "loss/crossentropy": 2.5485310554504395,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34872615337371826,
      "step": 646
    },
    {
      "epoch": 0.0405,
      "grad_norm": 4.0,
      "grad_norm_var": 0.17229410807291667,
      "learning_rate": 0.0001,
      "loss": 9.6353,
      "loss/crossentropy": 2.5063722133636475,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36940453946590424,
      "step": 648
    },
    {
      "epoch": 0.040625,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.18136393229166667,
      "learning_rate": 0.0001,
      "loss": 9.9078,
      "loss/crossentropy": 2.39488685131073,
      "loss/hidden": 3.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3586680442094803,
      "step": 650
    },
    {
      "epoch": 0.04075,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.13019205729166666,
      "learning_rate": 0.0001,
      "loss": 9.9067,
      "loss/crossentropy": 2.377121686935425,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36309733986854553,
      "step": 652
    },
    {
      "epoch": 0.040875,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.12916666666666668,
      "learning_rate": 0.0001,
      "loss": 10.099,
      "loss/crossentropy": 2.5704420804977417,
      "loss/hidden": 3.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3873720318078995,
      "step": 654
    },
    {
      "epoch": 0.041,
      "grad_norm": 5.90625,
      "grad_norm_var": 0.21584879557291667,
      "learning_rate": 0.0001,
      "loss": 9.9181,
      "loss/crossentropy": 2.2711371183395386,
      "loss/hidden": 4.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3648662865161896,
      "step": 656
    },
    {
      "epoch": 0.041125,
      "grad_norm": 5.25,
      "grad_norm_var": 0.21679280598958334,
      "learning_rate": 0.0001,
      "loss": 10.0834,
      "loss/crossentropy": 2.5198888778686523,
      "loss/hidden": 3.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3765381723642349,
      "step": 658
    },
    {
      "epoch": 0.04125,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.21443684895833334,
      "learning_rate": 0.0001,
      "loss": 9.7288,
      "loss/crossentropy": 2.2896225452423096,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35969309508800507,
      "step": 660
    },
    {
      "epoch": 0.041375,
      "grad_norm": 4.5625,
      "grad_norm_var": 0.21106770833333333,
      "learning_rate": 0.0001,
      "loss": 10.0562,
      "loss/crossentropy": 2.4178755283355713,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3961552679538727,
      "step": 662
    },
    {
      "epoch": 0.0415,
      "grad_norm": 4.71875,
      "grad_norm_var": 0.19529622395833332,
      "learning_rate": 0.0001,
      "loss": 9.9744,
      "loss/crossentropy": 2.547677516937256,
      "loss/hidden": 3.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3570811301469803,
      "step": 664
    },
    {
      "epoch": 0.041625,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.17502848307291666,
      "learning_rate": 0.0001,
      "loss": 9.8543,
      "loss/crossentropy": 2.4284908771514893,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3434506356716156,
      "step": 666
    },
    {
      "epoch": 0.04175,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.19075520833333334,
      "learning_rate": 0.0001,
      "loss": 9.9655,
      "loss/crossentropy": 2.108651876449585,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36953288316726685,
      "step": 668
    },
    {
      "epoch": 0.041875,
      "grad_norm": 4.71875,
      "grad_norm_var": 0.17646077473958333,
      "learning_rate": 0.0001,
      "loss": 10.0564,
      "loss/crossentropy": 2.3314043283462524,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3440769463777542,
      "step": 670
    },
    {
      "epoch": 0.042,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.06848551432291666,
      "learning_rate": 0.0001,
      "loss": 9.8599,
      "loss/crossentropy": 2.3711284399032593,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34241366386413574,
      "step": 672
    },
    {
      "epoch": 0.042125,
      "grad_norm": 5.0,
      "grad_norm_var": 0.05006103515625,
      "learning_rate": 0.0001,
      "loss": 9.9082,
      "loss/crossentropy": 2.3005160093307495,
      "loss/hidden": 3.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3360006958246231,
      "step": 674
    },
    {
      "epoch": 0.04225,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.068359375,
      "learning_rate": 0.0001,
      "loss": 10.0805,
      "loss/crossentropy": 2.590296149253845,
      "loss/hidden": 3.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3790188133716583,
      "step": 676
    },
    {
      "epoch": 0.042375,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.080322265625,
      "learning_rate": 0.0001,
      "loss": 9.8713,
      "loss/crossentropy": 2.582974672317505,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3644176125526428,
      "step": 678
    },
    {
      "epoch": 0.0425,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.09000244140625,
      "learning_rate": 0.0001,
      "loss": 10.0148,
      "loss/crossentropy": 2.6205986738204956,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3867751955986023,
      "step": 680
    },
    {
      "epoch": 0.042625,
      "grad_norm": 4.25,
      "grad_norm_var": 0.08826497395833334,
      "learning_rate": 0.0001,
      "loss": 9.6616,
      "loss/crossentropy": 2.3413681983947754,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.35291582345962524,
      "step": 682
    },
    {
      "epoch": 0.04275,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.09547119140625,
      "learning_rate": 0.0001,
      "loss": 9.7887,
      "loss/crossentropy": 2.524027109146118,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3748561441898346,
      "step": 684
    },
    {
      "epoch": 0.042875,
      "grad_norm": 4.25,
      "grad_norm_var": 0.09693603515625,
      "learning_rate": 0.0001,
      "loss": 9.7663,
      "loss/crossentropy": 2.586169123649597,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3734195679426193,
      "step": 686
    },
    {
      "epoch": 0.043,
      "grad_norm": 4.25,
      "grad_norm_var": 0.098291015625,
      "learning_rate": 0.0001,
      "loss": 10.1415,
      "loss/crossentropy": 2.575216293334961,
      "loss/hidden": 3.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37598639726638794,
      "step": 688
    },
    {
      "epoch": 0.043125,
      "grad_norm": 4.4375,
      "grad_norm_var": 0.1171875,
      "learning_rate": 0.0001,
      "loss": 10.0767,
      "loss/crossentropy": 2.782447099685669,
      "loss/hidden": 3.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.39427442848682404,
      "step": 690
    },
    {
      "epoch": 0.04325,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.10546468098958334,
      "learning_rate": 0.0001,
      "loss": 10.1002,
      "loss/crossentropy": 2.4408079385757446,
      "loss/hidden": 3.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.39183132350444794,
      "step": 692
    },
    {
      "epoch": 0.043375,
      "grad_norm": 5.09375,
      "grad_norm_var": 0.11373291015625,
      "learning_rate": 0.0001,
      "loss": 9.9914,
      "loss/crossentropy": 2.428073763847351,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3673141598701477,
      "step": 694
    },
    {
      "epoch": 0.0435,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.11808268229166667,
      "learning_rate": 0.0001,
      "loss": 9.8208,
      "loss/crossentropy": 2.6366835832595825,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.36033181846141815,
      "step": 696
    },
    {
      "epoch": 0.043625,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.14921468098958332,
      "learning_rate": 0.0001,
      "loss": 10.0662,
      "loss/crossentropy": 2.119105100631714,
      "loss/hidden": 3.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3732317090034485,
      "step": 698
    },
    {
      "epoch": 0.04375,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.14996337890625,
      "learning_rate": 0.0001,
      "loss": 10.0521,
      "loss/crossentropy": 2.4997419118881226,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3387012630701065,
      "step": 700
    },
    {
      "epoch": 0.043875,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.1813873291015625,
      "learning_rate": 0.0001,
      "loss": 9.7343,
      "loss/crossentropy": 2.2400662899017334,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3351885676383972,
      "step": 702
    },
    {
      "epoch": 0.044,
      "grad_norm": 5.21875,
      "grad_norm_var": 0.21665751139322917,
      "learning_rate": 0.0001,
      "loss": 9.8692,
      "loss/crossentropy": 2.2805423736572266,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33280137181282043,
      "step": 704
    },
    {
      "epoch": 0.044125,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.24158426920572917,
      "learning_rate": 0.0001,
      "loss": 10.2821,
      "loss/crossentropy": 2.5463110208511353,
      "loss/hidden": 4.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4047670066356659,
      "step": 706
    },
    {
      "epoch": 0.04425,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.25898335774739584,
      "learning_rate": 0.0001,
      "loss": 9.893,
      "loss/crossentropy": 2.5133782625198364,
      "loss/hidden": 3.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3492252826690674,
      "step": 708
    },
    {
      "epoch": 0.044375,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.2576080322265625,
      "learning_rate": 0.0001,
      "loss": 9.7662,
      "loss/crossentropy": 2.58932888507843,
      "loss/hidden": 3.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.36606909334659576,
      "step": 710
    },
    {
      "epoch": 0.0445,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.24614156087239583,
      "learning_rate": 0.0001,
      "loss": 9.8397,
      "loss/crossentropy": 2.5551047325134277,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.37199999392032623,
      "step": 712
    },
    {
      "epoch": 0.044625,
      "grad_norm": 4.875,
      "grad_norm_var": 0.21269429524739583,
      "learning_rate": 0.0001,
      "loss": 9.6663,
      "loss/crossentropy": 2.2038984298706055,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.355471596121788,
      "step": 714
    },
    {
      "epoch": 0.04475,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.22046610514322917,
      "learning_rate": 0.0001,
      "loss": 9.8526,
      "loss/crossentropy": 2.4986603260040283,
      "loss/hidden": 3.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3514595031738281,
      "step": 716
    },
    {
      "epoch": 0.044875,
      "grad_norm": 4.5,
      "grad_norm_var": 0.17919514973958334,
      "learning_rate": 0.0001,
      "loss": 9.9912,
      "loss/crossentropy": 2.67462694644928,
      "loss/hidden": 3.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.36870990693569183,
      "step": 718
    },
    {
      "epoch": 0.045,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.14490559895833333,
      "learning_rate": 0.0001,
      "loss": 10.125,
      "loss/crossentropy": 2.4971606731414795,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.39218752086162567,
      "step": 720
    },
    {
      "epoch": 0.045125,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.060791015625,
      "learning_rate": 0.0001,
      "loss": 9.7016,
      "loss/crossentropy": 2.4049805402755737,
      "loss/hidden": 3.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32926052808761597,
      "step": 722
    },
    {
      "epoch": 0.04525,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.055859375,
      "learning_rate": 0.0001,
      "loss": 9.8177,
      "loss/crossentropy": 2.590659022331238,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3945636451244354,
      "step": 724
    },
    {
      "epoch": 0.045375,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.07823893229166666,
      "learning_rate": 0.0001,
      "loss": 9.6899,
      "loss/crossentropy": 2.2857325077056885,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35235145688056946,
      "step": 726
    },
    {
      "epoch": 0.0455,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.08201497395833333,
      "learning_rate": 0.0001,
      "loss": 9.6263,
      "loss/crossentropy": 2.201639175415039,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33390986919403076,
      "step": 728
    },
    {
      "epoch": 0.045625,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.10592447916666667,
      "learning_rate": 0.0001,
      "loss": 9.9654,
      "loss/crossentropy": 2.546342372894287,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3447662442922592,
      "step": 730
    },
    {
      "epoch": 0.04575,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.11259358723958333,
      "learning_rate": 0.0001,
      "loss": 9.6529,
      "loss/crossentropy": 2.465666890144348,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3506108671426773,
      "step": 732
    },
    {
      "epoch": 0.045875,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.11555989583333333,
      "learning_rate": 0.0001,
      "loss": 9.7691,
      "loss/crossentropy": 2.4628361463546753,
      "loss/hidden": 3.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3611077666282654,
      "step": 734
    },
    {
      "epoch": 0.046,
      "grad_norm": 4.53125,
      "grad_norm_var": 0.10852864583333334,
      "learning_rate": 0.0001,
      "loss": 9.7908,
      "loss/crossentropy": 2.450587034225464,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36645807325839996,
      "step": 736
    },
    {
      "epoch": 0.046125,
      "grad_norm": 4.75,
      "grad_norm_var": 0.10998942057291666,
      "learning_rate": 0.0001,
      "loss": 10.0238,
      "loss/crossentropy": 2.5827871561050415,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3806481957435608,
      "step": 738
    },
    {
      "epoch": 0.04625,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.11862691243489583,
      "learning_rate": 0.0001,
      "loss": 9.453,
      "loss/crossentropy": 2.408301830291748,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3236120641231537,
      "step": 740
    },
    {
      "epoch": 0.046375,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.0968658447265625,
      "learning_rate": 0.0001,
      "loss": 9.7187,
      "loss/crossentropy": 2.4682952165603638,
      "loss/hidden": 3.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.40484650433063507,
      "step": 742
    },
    {
      "epoch": 0.0465,
      "grad_norm": 4.5,
      "grad_norm_var": 0.1087799072265625,
      "learning_rate": 0.0001,
      "loss": 9.8899,
      "loss/crossentropy": 2.7526875734329224,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3805859088897705,
      "step": 744
    },
    {
      "epoch": 0.046625,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.08279520670572917,
      "learning_rate": 0.0001,
      "loss": 9.8541,
      "loss/crossentropy": 2.268938183784485,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.3416333645582199,
      "step": 746
    },
    {
      "epoch": 0.04675,
      "grad_norm": 4.5,
      "grad_norm_var": 0.07593485514322916,
      "learning_rate": 0.0001,
      "loss": 9.4353,
      "loss/crossentropy": 2.4165321588516235,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33534686267375946,
      "step": 748
    },
    {
      "epoch": 0.046875,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.09172261555989583,
      "learning_rate": 0.0001,
      "loss": 9.4508,
      "loss/crossentropy": 2.4512590169906616,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3545406609773636,
      "step": 750
    },
    {
      "epoch": 0.047,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.09014383951822917,
      "learning_rate": 0.0001,
      "loss": 10.0917,
      "loss/crossentropy": 2.545518636703491,
      "loss/hidden": 3.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.49751946330070496,
      "step": 752
    },
    {
      "epoch": 0.047125,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.0890533447265625,
      "learning_rate": 0.0001,
      "loss": 9.4346,
      "loss/crossentropy": 2.2614606618881226,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34531380236148834,
      "step": 754
    },
    {
      "epoch": 0.04725,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.07870686848958333,
      "learning_rate": 0.0001,
      "loss": 9.3389,
      "loss/crossentropy": 2.3133562803268433,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3800860345363617,
      "step": 756
    },
    {
      "epoch": 0.047375,
      "grad_norm": 4.75,
      "grad_norm_var": 0.09312744140625,
      "learning_rate": 0.0001,
      "loss": 9.9658,
      "loss/crossentropy": 2.5053844451904297,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.348347008228302,
      "step": 758
    },
    {
      "epoch": 0.0475,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.06365559895833334,
      "learning_rate": 0.0001,
      "loss": 9.5957,
      "loss/crossentropy": 2.1510268449783325,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3271169662475586,
      "step": 760
    },
    {
      "epoch": 0.047625,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.0678131103515625,
      "learning_rate": 0.0001,
      "loss": 9.5272,
      "loss/crossentropy": 2.1917725801467896,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.32911764085292816,
      "step": 762
    },
    {
      "epoch": 0.04775,
      "grad_norm": 4.625,
      "grad_norm_var": 0.07316792805989583,
      "learning_rate": 0.0001,
      "loss": 9.6196,
      "loss/crossentropy": 2.262703061103821,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3407554179430008,
      "step": 764
    },
    {
      "epoch": 0.047875,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.0635894775390625,
      "learning_rate": 0.0001,
      "loss": 9.5615,
      "loss/crossentropy": 2.2358585596084595,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34859590232372284,
      "step": 766
    },
    {
      "epoch": 0.048,
      "grad_norm": 4.5625,
      "grad_norm_var": 0.0727691650390625,
      "learning_rate": 0.0001,
      "loss": 9.7362,
      "loss/crossentropy": 2.273680090904236,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3434666693210602,
      "step": 768
    },
    {
      "epoch": 0.048125,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.06664937337239583,
      "learning_rate": 0.0001,
      "loss": 9.4517,
      "loss/crossentropy": 2.2003235816955566,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34724757075309753,
      "step": 770
    },
    {
      "epoch": 0.04825,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.0718170166015625,
      "learning_rate": 0.0001,
      "loss": 10.0496,
      "loss/crossentropy": 2.356285572052002,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34804899990558624,
      "step": 772
    },
    {
      "epoch": 0.048375,
      "grad_norm": 3.75,
      "grad_norm_var": 0.0806793212890625,
      "learning_rate": 0.0001,
      "loss": 9.4018,
      "loss/crossentropy": 2.2518192529678345,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3232182711362839,
      "step": 774
    },
    {
      "epoch": 0.0485,
      "grad_norm": 4.75,
      "grad_norm_var": 0.0930572509765625,
      "learning_rate": 0.0001,
      "loss": 9.6718,
      "loss/crossentropy": 2.596095561981201,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3486844599246979,
      "step": 776
    },
    {
      "epoch": 0.048625,
      "grad_norm": 4.125,
      "grad_norm_var": 0.0822265625,
      "learning_rate": 0.0001,
      "loss": 9.6132,
      "loss/crossentropy": 2.3995965719223022,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3591943085193634,
      "step": 778
    },
    {
      "epoch": 0.04875,
      "grad_norm": 4.375,
      "grad_norm_var": 0.07615559895833333,
      "learning_rate": 0.0001,
      "loss": 9.664,
      "loss/crossentropy": 2.212980270385742,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35707785189151764,
      "step": 780
    },
    {
      "epoch": 0.048875,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.0861480712890625,
      "learning_rate": 0.0001,
      "loss": 9.7829,
      "loss/crossentropy": 2.3209805488586426,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33315178751945496,
      "step": 782
    },
    {
      "epoch": 0.049,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.0819976806640625,
      "learning_rate": 0.0001,
      "loss": 9.6294,
      "loss/crossentropy": 2.4062753915786743,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3330836743116379,
      "step": 784
    },
    {
      "epoch": 0.049125,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.06301167805989584,
      "learning_rate": 0.0001,
      "loss": 9.6967,
      "loss/crossentropy": 2.3731807470321655,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37791262567043304,
      "step": 786
    },
    {
      "epoch": 0.04925,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.07166239420572916,
      "learning_rate": 0.0001,
      "loss": 9.6106,
      "loss/crossentropy": 2.1310253143310547,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32675565779209137,
      "step": 788
    },
    {
      "epoch": 0.049375,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.06562093098958334,
      "learning_rate": 0.0001,
      "loss": 9.5732,
      "loss/crossentropy": 2.2886255979537964,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37167444825172424,
      "step": 790
    },
    {
      "epoch": 0.0495,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.05289306640625,
      "learning_rate": 0.0001,
      "loss": 9.5136,
      "loss/crossentropy": 2.322494864463806,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3283519744873047,
      "step": 792
    },
    {
      "epoch": 0.049625,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.047196451822916666,
      "learning_rate": 0.0001,
      "loss": 9.7672,
      "loss/crossentropy": 2.7288074493408203,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.370631605386734,
      "step": 794
    },
    {
      "epoch": 0.04975,
      "grad_norm": 4.5,
      "grad_norm_var": 0.04845377604166667,
      "learning_rate": 0.0001,
      "loss": 9.666,
      "loss/crossentropy": 2.1383297443389893,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32776103913784027,
      "step": 796
    },
    {
      "epoch": 0.049875,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.0453033447265625,
      "learning_rate": 0.0001,
      "loss": 9.623,
      "loss/crossentropy": 2.4972459077835083,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.36165888607501984,
      "step": 798
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.05042317708333333,
      "learning_rate": 0.0001,
      "loss": 9.2915,
      "loss/crossentropy": 2.19729745388031,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.318468302488327,
      "step": 800
    },
    {
      "epoch": 0.050125,
      "grad_norm": 4.125,
      "grad_norm_var": 0.059342447916666666,
      "learning_rate": 0.0001,
      "loss": 9.3799,
      "loss/crossentropy": 2.194010615348816,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31498509645462036,
      "step": 802
    },
    {
      "epoch": 0.05025,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.04267578125,
      "learning_rate": 0.0001,
      "loss": 9.5517,
      "loss/crossentropy": 2.269457697868347,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3178607076406479,
      "step": 804
    },
    {
      "epoch": 0.050375,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.0394927978515625,
      "learning_rate": 0.0001,
      "loss": 9.2452,
      "loss/crossentropy": 2.2216137647628784,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3251790404319763,
      "step": 806
    },
    {
      "epoch": 0.0505,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.04243876139322917,
      "learning_rate": 0.0001,
      "loss": 9.7497,
      "loss/crossentropy": 2.6958311796188354,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3631015717983246,
      "step": 808
    },
    {
      "epoch": 0.050625,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.0543121337890625,
      "learning_rate": 0.0001,
      "loss": 9.7743,
      "loss/crossentropy": 2.6329739093780518,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3427456319332123,
      "step": 810
    },
    {
      "epoch": 0.05075,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.0827789306640625,
      "learning_rate": 0.0001,
      "loss": 9.861,
      "loss/crossentropy": 2.41109561920166,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.38177673518657684,
      "step": 812
    },
    {
      "epoch": 0.050875,
      "grad_norm": 4.125,
      "grad_norm_var": 0.09693603515625,
      "learning_rate": 0.0001,
      "loss": 9.3459,
      "loss/crossentropy": 2.413679838180542,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3323095142841339,
      "step": 814
    },
    {
      "epoch": 0.051,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.10078837076822916,
      "learning_rate": 0.0001,
      "loss": 9.2878,
      "loss/crossentropy": 2.4613407850265503,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36210502684116364,
      "step": 816
    },
    {
      "epoch": 0.051125,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.09621480305989584,
      "learning_rate": 0.0001,
      "loss": 9.5978,
      "loss/crossentropy": 2.3388036489486694,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33505263924598694,
      "step": 818
    },
    {
      "epoch": 0.05125,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.10100911458333334,
      "learning_rate": 0.0001,
      "loss": 9.5206,
      "loss/crossentropy": 2.504610538482666,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35333533585071564,
      "step": 820
    },
    {
      "epoch": 0.051375,
      "grad_norm": 4.53125,
      "grad_norm_var": 0.10614827473958334,
      "learning_rate": 0.0001,
      "loss": 9.707,
      "loss/crossentropy": 2.3531359434127808,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3614940941333771,
      "step": 822
    },
    {
      "epoch": 0.0515,
      "grad_norm": 3.890625,
      "grad_norm_var": 0.11204325358072917,
      "learning_rate": 0.0001,
      "loss": 9.3598,
      "loss/crossentropy": 2.0972710251808167,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31728605926036835,
      "step": 824
    },
    {
      "epoch": 0.051625,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.09622395833333333,
      "learning_rate": 0.0001,
      "loss": 9.3816,
      "loss/crossentropy": 2.275819420814514,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34381118416786194,
      "step": 826
    },
    {
      "epoch": 0.05175,
      "grad_norm": 4.125,
      "grad_norm_var": 0.04998372395833333,
      "learning_rate": 0.0001,
      "loss": 9.6247,
      "loss/crossentropy": 2.45046067237854,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3419671058654785,
      "step": 828
    },
    {
      "epoch": 0.051875,
      "grad_norm": 4.53125,
      "grad_norm_var": 0.05650126139322917,
      "learning_rate": 0.0001,
      "loss": 9.8951,
      "loss/crossentropy": 2.7096316814422607,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34755463898181915,
      "step": 830
    },
    {
      "epoch": 0.052,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.05390523274739583,
      "learning_rate": 0.0001,
      "loss": 9.5586,
      "loss/crossentropy": 2.4081461429595947,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.35109463334083557,
      "step": 832
    },
    {
      "epoch": 0.052125,
      "grad_norm": 4.25,
      "grad_norm_var": 0.0544830322265625,
      "learning_rate": 0.0001,
      "loss": 9.338,
      "loss/crossentropy": 2.0195173621177673,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3229655623435974,
      "step": 834
    },
    {
      "epoch": 0.05225,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.05168863932291667,
      "learning_rate": 0.0001,
      "loss": 9.4718,
      "loss/crossentropy": 2.262600541114807,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33351391553878784,
      "step": 836
    },
    {
      "epoch": 0.052375,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.05157877604166667,
      "learning_rate": 0.0001,
      "loss": 9.5338,
      "loss/crossentropy": 2.387451410293579,
      "loss/hidden": 3.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3783055394887924,
      "step": 838
    },
    {
      "epoch": 0.0525,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.04944661458333333,
      "learning_rate": 0.0001,
      "loss": 9.5232,
      "loss/crossentropy": 2.5872695446014404,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34008149802684784,
      "step": 840
    },
    {
      "epoch": 0.052625,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.048990885416666664,
      "learning_rate": 0.0001,
      "loss": 9.4675,
      "loss/crossentropy": 2.7655253410339355,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.340924471616745,
      "step": 842
    },
    {
      "epoch": 0.05275,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.050633748372395836,
      "learning_rate": 0.0001,
      "loss": 9.2679,
      "loss/crossentropy": 2.4758448600769043,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32951878011226654,
      "step": 844
    },
    {
      "epoch": 0.052875,
      "grad_norm": 4.375,
      "grad_norm_var": 0.06552632649739583,
      "learning_rate": 0.0001,
      "loss": 9.9271,
      "loss/crossentropy": 2.6429070234298706,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3814462423324585,
      "step": 846
    },
    {
      "epoch": 0.053,
      "grad_norm": 4.625,
      "grad_norm_var": 0.08034566243489584,
      "learning_rate": 0.0001,
      "loss": 10.0684,
      "loss/crossentropy": 2.209423542022705,
      "loss/hidden": 3.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3319186717271805,
      "step": 848
    },
    {
      "epoch": 0.053125,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.0769683837890625,
      "learning_rate": 0.0001,
      "loss": 9.5685,
      "loss/crossentropy": 2.2579764127731323,
      "loss/hidden": 3.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3442992717027664,
      "step": 850
    },
    {
      "epoch": 0.05325,
      "grad_norm": 4.84375,
      "grad_norm_var": 0.1148834228515625,
      "learning_rate": 0.0001,
      "loss": 9.4361,
      "loss/crossentropy": 2.39439857006073,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3444969654083252,
      "step": 852
    },
    {
      "epoch": 0.053375,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.10398661295572917,
      "learning_rate": 0.0001,
      "loss": 9.5651,
      "loss/crossentropy": 2.504552960395813,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34091413021087646,
      "step": 854
    },
    {
      "epoch": 0.0535,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.09475911458333333,
      "learning_rate": 0.0001,
      "loss": 9.7258,
      "loss/crossentropy": 2.4847280979156494,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3863519877195358,
      "step": 856
    },
    {
      "epoch": 0.053625,
      "grad_norm": 4.125,
      "grad_norm_var": 0.08271382649739584,
      "learning_rate": 0.0001,
      "loss": 9.5068,
      "loss/crossentropy": 2.5517282485961914,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33669134974479675,
      "step": 858
    },
    {
      "epoch": 0.05375,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.07314046223958333,
      "learning_rate": 0.0001,
      "loss": 9.5156,
      "loss/crossentropy": 2.450470209121704,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35644595324993134,
      "step": 860
    },
    {
      "epoch": 0.053875,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.0788970947265625,
      "learning_rate": 0.0001,
      "loss": 9.7869,
      "loss/crossentropy": 2.687352776527405,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33138976991176605,
      "step": 862
    },
    {
      "epoch": 0.054,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.1000152587890625,
      "learning_rate": 0.0001,
      "loss": 9.412,
      "loss/crossentropy": 2.5792051553726196,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3428095132112503,
      "step": 864
    },
    {
      "epoch": 0.054125,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.10471903483072917,
      "learning_rate": 0.0001,
      "loss": 9.4376,
      "loss/crossentropy": 2.189521312713623,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3646356761455536,
      "step": 866
    },
    {
      "epoch": 0.05425,
      "grad_norm": 6.4375,
      "grad_norm_var": 0.37280171712239585,
      "learning_rate": 0.0001,
      "loss": 9.9946,
      "loss/crossentropy": 2.4185925722122192,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.359613835811615,
      "step": 868
    },
    {
      "epoch": 0.054375,
      "grad_norm": 5.09375,
      "grad_norm_var": 0.4150299072265625,
      "learning_rate": 0.0001,
      "loss": 9.6361,
      "loss/crossentropy": 2.419649362564087,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33111467957496643,
      "step": 870
    },
    {
      "epoch": 0.0545,
      "grad_norm": 5.09375,
      "grad_norm_var": 0.4413970947265625,
      "learning_rate": 0.0001,
      "loss": 9.6636,
      "loss/crossentropy": 2.4185843467712402,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35009828209877014,
      "step": 872
    },
    {
      "epoch": 0.054625,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.44112040201822916,
      "learning_rate": 0.0001,
      "loss": 9.6933,
      "loss/crossentropy": 2.2782691717147827,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.388755202293396,
      "step": 874
    },
    {
      "epoch": 0.05475,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.459912109375,
      "learning_rate": 0.0001,
      "loss": 9.7969,
      "loss/crossentropy": 2.194816470146179,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32018932700157166,
      "step": 876
    },
    {
      "epoch": 0.054875,
      "grad_norm": 4.5625,
      "grad_norm_var": 0.44416402180989584,
      "learning_rate": 0.0001,
      "loss": 9.6102,
      "loss/crossentropy": 2.50557017326355,
      "loss/hidden": 3.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3518366515636444,
      "step": 878
    },
    {
      "epoch": 0.055,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.42001546223958336,
      "learning_rate": 0.0001,
      "loss": 9.7176,
      "loss/crossentropy": 2.4951841831207275,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3479674905538559,
      "step": 880
    },
    {
      "epoch": 0.055125,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.4462636311848958,
      "learning_rate": 0.0001,
      "loss": 9.2982,
      "loss/crossentropy": 2.2794214487075806,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.33856503665447235,
      "step": 882
    },
    {
      "epoch": 0.05525,
      "grad_norm": 4.4375,
      "grad_norm_var": 0.20742899576822918,
      "learning_rate": 0.0001,
      "loss": 9.5027,
      "loss/crossentropy": 2.420092821121216,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32554225623607635,
      "step": 884
    },
    {
      "epoch": 0.055375,
      "grad_norm": 4.5625,
      "grad_norm_var": 0.1740386962890625,
      "learning_rate": 0.0001,
      "loss": 9.514,
      "loss/crossentropy": 2.4305249452590942,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3317463994026184,
      "step": 886
    },
    {
      "epoch": 0.0555,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.1664215087890625,
      "learning_rate": 0.0001,
      "loss": 9.7395,
      "loss/crossentropy": 2.3821409940719604,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.36465059220790863,
      "step": 888
    },
    {
      "epoch": 0.055625,
      "grad_norm": 4.4375,
      "grad_norm_var": 0.14842020670572917,
      "learning_rate": 0.0001,
      "loss": 9.2789,
      "loss/crossentropy": 2.298262596130371,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31890998780727386,
      "step": 890
    },
    {
      "epoch": 0.05575,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.12892252604166668,
      "learning_rate": 0.0001,
      "loss": 9.7294,
      "loss/crossentropy": 2.264374613761902,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31738966703414917,
      "step": 892
    },
    {
      "epoch": 0.055875,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.10719401041666667,
      "learning_rate": 0.0001,
      "loss": 9.669,
      "loss/crossentropy": 2.557625889778137,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37109945714473724,
      "step": 894
    },
    {
      "epoch": 0.056,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.0967437744140625,
      "learning_rate": 0.0001,
      "loss": 9.3578,
      "loss/crossentropy": 2.513554573059082,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3437999337911606,
      "step": 896
    },
    {
      "epoch": 0.056125,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.10321858723958334,
      "learning_rate": 0.0001,
      "loss": 9.6894,
      "loss/crossentropy": 2.6883383989334106,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34091816842556,
      "step": 898
    },
    {
      "epoch": 0.05625,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.10778706868489583,
      "learning_rate": 0.0001,
      "loss": 9.5283,
      "loss/crossentropy": 2.5178507566452026,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31220842897892,
      "step": 900
    },
    {
      "epoch": 0.056375,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.11022847493489583,
      "learning_rate": 0.0001,
      "loss": 9.4134,
      "loss/crossentropy": 2.286848306655884,
      "loss/hidden": 3.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.36784152686595917,
      "step": 902
    },
    {
      "epoch": 0.0565,
      "grad_norm": 3.75,
      "grad_norm_var": 0.08430887858072916,
      "learning_rate": 0.0001,
      "loss": 9.5666,
      "loss/crossentropy": 2.330216407775879,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3340802788734436,
      "step": 904
    },
    {
      "epoch": 0.056625,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.07683919270833334,
      "learning_rate": 0.0001,
      "loss": 9.4613,
      "loss/crossentropy": 2.5783122777938843,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3707699775695801,
      "step": 906
    },
    {
      "epoch": 0.05675,
      "grad_norm": 4.0,
      "grad_norm_var": 0.07731119791666667,
      "learning_rate": 0.0001,
      "loss": 9.6405,
      "loss/crossentropy": 2.39057457447052,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31178198754787445,
      "step": 908
    },
    {
      "epoch": 0.056875,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.075927734375,
      "learning_rate": 0.0001,
      "loss": 9.3792,
      "loss/crossentropy": 2.2321670055389404,
      "loss/hidden": 3.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.39315053820610046,
      "step": 910
    },
    {
      "epoch": 0.057,
      "grad_norm": 4.125,
      "grad_norm_var": 0.06603190104166666,
      "learning_rate": 0.0001,
      "loss": 9.4016,
      "loss/crossentropy": 2.457381010055542,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3697053790092468,
      "step": 912
    },
    {
      "epoch": 0.057125,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.05308837890625,
      "learning_rate": 0.0001,
      "loss": 9.705,
      "loss/crossentropy": 2.3566343784332275,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31618085503578186,
      "step": 914
    },
    {
      "epoch": 0.05725,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.05917561848958333,
      "learning_rate": 0.0001,
      "loss": 9.2448,
      "loss/crossentropy": 2.349318027496338,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3112690597772598,
      "step": 916
    },
    {
      "epoch": 0.057375,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.09866129557291667,
      "learning_rate": 0.0001,
      "loss": 9.7381,
      "loss/crossentropy": 2.605436682701111,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.38693949580192566,
      "step": 918
    },
    {
      "epoch": 0.0575,
      "grad_norm": 4.25,
      "grad_norm_var": 0.08850504557291666,
      "learning_rate": 0.0001,
      "loss": 9.36,
      "loss/crossentropy": 2.3533878326416016,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32768990099430084,
      "step": 920
    },
    {
      "epoch": 0.057625,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.13023173014322917,
      "learning_rate": 0.0001,
      "loss": 9.4501,
      "loss/crossentropy": 2.4686715602874756,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.314393013715744,
      "step": 922
    },
    {
      "epoch": 0.05775,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.16578776041666668,
      "learning_rate": 0.0001,
      "loss": 9.0475,
      "loss/crossentropy": 2.204137921333313,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30986711382865906,
      "step": 924
    },
    {
      "epoch": 0.057875,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.1955230712890625,
      "learning_rate": 0.0001,
      "loss": 9.2625,
      "loss/crossentropy": 2.505138397216797,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3187219649553299,
      "step": 926
    },
    {
      "epoch": 0.058,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.19621988932291667,
      "learning_rate": 0.0001,
      "loss": 9.2882,
      "loss/crossentropy": 2.4183324575424194,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3302215486764908,
      "step": 928
    },
    {
      "epoch": 0.058125,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.179736328125,
      "learning_rate": 0.0001,
      "loss": 9.5348,
      "loss/crossentropy": 2.4528021812438965,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34695957601070404,
      "step": 930
    },
    {
      "epoch": 0.05825,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.18042704264322917,
      "learning_rate": 0.0001,
      "loss": 9.3228,
      "loss/crossentropy": 2.2103404998779297,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3665204644203186,
      "step": 932
    },
    {
      "epoch": 0.058375,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.10943094889322917,
      "learning_rate": 0.0001,
      "loss": 9.3404,
      "loss/crossentropy": 2.180467367172241,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.299451008439064,
      "step": 934
    },
    {
      "epoch": 0.0585,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.11096598307291666,
      "learning_rate": 0.0001,
      "loss": 9.3411,
      "loss/crossentropy": 2.7028924226760864,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35058994591236115,
      "step": 936
    },
    {
      "epoch": 0.058625,
      "grad_norm": 4.0,
      "grad_norm_var": 0.04487202962239583,
      "learning_rate": 0.0001,
      "loss": 9.3285,
      "loss/crossentropy": 2.4909303188323975,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33308878540992737,
      "step": 938
    },
    {
      "epoch": 0.05875,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.03717041015625,
      "learning_rate": 0.0001,
      "loss": 9.4385,
      "loss/crossentropy": 2.3014419078826904,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3322508633136749,
      "step": 940
    },
    {
      "epoch": 0.058875,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.0290435791015625,
      "learning_rate": 0.0001,
      "loss": 9.5862,
      "loss/crossentropy": 2.5005375146865845,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34335020184516907,
      "step": 942
    },
    {
      "epoch": 0.059,
      "grad_norm": 5.0,
      "grad_norm_var": 0.10372721354166667,
      "learning_rate": 0.0001,
      "loss": 9.4993,
      "loss/crossentropy": 2.428452491760254,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3558335155248642,
      "step": 944
    },
    {
      "epoch": 0.059125,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.11492513020833334,
      "learning_rate": 0.0001,
      "loss": 9.3561,
      "loss/crossentropy": 2.450140953063965,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.32736936211586,
      "step": 946
    },
    {
      "epoch": 0.05925,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.12048238118489583,
      "learning_rate": 0.0001,
      "loss": 9.4383,
      "loss/crossentropy": 2.4876564741134644,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31698183715343475,
      "step": 948
    },
    {
      "epoch": 0.059375,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.12451883951822916,
      "learning_rate": 0.0001,
      "loss": 9.6831,
      "loss/crossentropy": 2.384592890739441,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32197698950767517,
      "step": 950
    },
    {
      "epoch": 0.0595,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.12683919270833333,
      "learning_rate": 0.0001,
      "loss": 9.2944,
      "loss/crossentropy": 2.35392427444458,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.36352527141571045,
      "step": 952
    },
    {
      "epoch": 0.059625,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.11980794270833334,
      "learning_rate": 0.0001,
      "loss": 9.0958,
      "loss/crossentropy": 2.4466415643692017,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30798208713531494,
      "step": 954
    },
    {
      "epoch": 0.05975,
      "grad_norm": 4.375,
      "grad_norm_var": 0.11995442708333333,
      "learning_rate": 0.0001,
      "loss": 9.4957,
      "loss/crossentropy": 2.5927644968032837,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33347761631011963,
      "step": 956
    },
    {
      "epoch": 0.059875,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.12353413899739583,
      "learning_rate": 0.0001,
      "loss": 9.3342,
      "loss/crossentropy": 2.4658687114715576,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.3318018615245819,
      "step": 958
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.06822001139322917,
      "learning_rate": 0.0001,
      "loss": 9.4473,
      "loss/crossentropy": 2.4019787311553955,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3761335462331772,
      "step": 960
    },
    {
      "epoch": 0.060125,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.06902567545572917,
      "learning_rate": 0.0001,
      "loss": 9.4095,
      "loss/crossentropy": 2.6830371618270874,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32209448516368866,
      "step": 962
    },
    {
      "epoch": 0.06025,
      "grad_norm": 3.875,
      "grad_norm_var": 0.059716796875,
      "learning_rate": 0.0001,
      "loss": 9.3998,
      "loss/crossentropy": 2.283499240875244,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3431689292192459,
      "step": 964
    },
    {
      "epoch": 0.060375,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.0599761962890625,
      "learning_rate": 0.0001,
      "loss": 9.12,
      "loss/crossentropy": 2.146597146987915,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32681937515735626,
      "step": 966
    },
    {
      "epoch": 0.0605,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.048127237955729166,
      "learning_rate": 0.0001,
      "loss": 9.2878,
      "loss/crossentropy": 2.3824340105056763,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32292675971984863,
      "step": 968
    },
    {
      "epoch": 0.060625,
      "grad_norm": 3.875,
      "grad_norm_var": 0.060465494791666664,
      "learning_rate": 0.0001,
      "loss": 9.1892,
      "loss/crossentropy": 2.3321211338043213,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3173847645521164,
      "step": 970
    },
    {
      "epoch": 0.06075,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.05028889973958333,
      "learning_rate": 0.0001,
      "loss": 9.5526,
      "loss/crossentropy": 2.5641666650772095,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35992586612701416,
      "step": 972
    },
    {
      "epoch": 0.060875,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.04504801432291667,
      "learning_rate": 0.0001,
      "loss": 9.3705,
      "loss/crossentropy": 2.34674608707428,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32495957612991333,
      "step": 974
    },
    {
      "epoch": 0.061,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.065625,
      "learning_rate": 0.0001,
      "loss": 9.3391,
      "loss/crossentropy": 2.447916865348816,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3161363750696182,
      "step": 976
    },
    {
      "epoch": 0.061125,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.0483062744140625,
      "learning_rate": 0.0001,
      "loss": 9.3675,
      "loss/crossentropy": 2.361741304397583,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30326806008815765,
      "step": 978
    },
    {
      "epoch": 0.06125,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.05650126139322917,
      "learning_rate": 0.0001,
      "loss": 9.3554,
      "loss/crossentropy": 2.4683319330215454,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34657470881938934,
      "step": 980
    },
    {
      "epoch": 0.061375,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.05673421223958333,
      "learning_rate": 0.0001,
      "loss": 9.229,
      "loss/crossentropy": 2.26959490776062,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3553328216075897,
      "step": 982
    },
    {
      "epoch": 0.0615,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.0560455322265625,
      "learning_rate": 0.0001,
      "loss": 9.2883,
      "loss/crossentropy": 2.5307698249816895,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31306394934654236,
      "step": 984
    },
    {
      "epoch": 0.061625,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.16921284993489583,
      "learning_rate": 0.0001,
      "loss": 9.4596,
      "loss/crossentropy": 2.325950264930725,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3328956216573715,
      "step": 986
    },
    {
      "epoch": 0.06175,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.18103739420572917,
      "learning_rate": 0.0001,
      "loss": 9.2764,
      "loss/crossentropy": 2.3399884700775146,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3336493968963623,
      "step": 988
    },
    {
      "epoch": 0.061875,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.18277079264322918,
      "learning_rate": 0.0001,
      "loss": 9.2997,
      "loss/crossentropy": 2.4344476461410522,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31361398100852966,
      "step": 990
    },
    {
      "epoch": 0.062,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.17678629557291667,
      "learning_rate": 0.0001,
      "loss": 9.4531,
      "loss/crossentropy": 2.532125949859619,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31050997972488403,
      "step": 992
    },
    {
      "epoch": 0.062125,
      "grad_norm": 5.625,
      "grad_norm_var": 0.3181711832682292,
      "learning_rate": 0.0001,
      "loss": 9.3085,
      "loss/crossentropy": 2.205925226211548,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3132568746805191,
      "step": 994
    },
    {
      "epoch": 0.06225,
      "grad_norm": 4.5,
      "grad_norm_var": 0.29087626139322914,
      "learning_rate": 0.0001,
      "loss": 9.4214,
      "loss/crossentropy": 2.3645405769348145,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33257976174354553,
      "step": 996
    },
    {
      "epoch": 0.062375,
      "grad_norm": 4.125,
      "grad_norm_var": 0.2752349853515625,
      "learning_rate": 0.0001,
      "loss": 9.248,
      "loss/crossentropy": 2.6228253841400146,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3128903806209564,
      "step": 998
    },
    {
      "epoch": 0.0625,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.2778472900390625,
      "learning_rate": 0.0001,
      "loss": 9.3876,
      "loss/crossentropy": 2.4406707286834717,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3451492637395859,
      "step": 1000
    },
    {
      "epoch": 0.062625,
      "grad_norm": 3.625,
      "grad_norm_var": 0.22431233723958333,
      "learning_rate": 0.0001,
      "loss": 9.3272,
      "loss/crossentropy": 2.1737005710601807,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2996635288000107,
      "step": 1002
    },
    {
      "epoch": 0.06275,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.22522684733072917,
      "learning_rate": 0.0001,
      "loss": 9.1276,
      "loss/crossentropy": 2.3624621629714966,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32320792973041534,
      "step": 1004
    },
    {
      "epoch": 0.062875,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.22323811848958333,
      "learning_rate": 0.0001,
      "loss": 9.1599,
      "loss/crossentropy": 2.163053512573242,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3028685748577118,
      "step": 1006
    },
    {
      "epoch": 0.063,
      "grad_norm": 3.75,
      "grad_norm_var": 0.21956278483072916,
      "learning_rate": 0.0001,
      "loss": 9.0966,
      "loss/crossentropy": 2.3403860330581665,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31008927524089813,
      "step": 1008
    },
    {
      "epoch": 0.063125,
      "grad_norm": 4.25,
      "grad_norm_var": 0.052098592122395836,
      "learning_rate": 0.0001,
      "loss": 9.3055,
      "loss/crossentropy": 2.5604758262634277,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3352798819541931,
      "step": 1010
    },
    {
      "epoch": 0.06325,
      "grad_norm": 4.0,
      "grad_norm_var": 0.0339263916015625,
      "learning_rate": 0.0001,
      "loss": 9.2584,
      "loss/crossentropy": 2.5583336353302,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.323485866189003,
      "step": 1012
    },
    {
      "epoch": 0.063375,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.042626953125,
      "learning_rate": 0.0001,
      "loss": 9.2338,
      "loss/crossentropy": 2.4750031232833862,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32088278234004974,
      "step": 1014
    },
    {
      "epoch": 0.0635,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.048005167643229166,
      "learning_rate": 0.0001,
      "loss": 9.4657,
      "loss/crossentropy": 2.3103621006011963,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3347797989845276,
      "step": 1016
    },
    {
      "epoch": 0.063625,
      "grad_norm": 3.890625,
      "grad_norm_var": 0.04117431640625,
      "learning_rate": 0.0001,
      "loss": 9.2284,
      "loss/crossentropy": 2.281406044960022,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33119070529937744,
      "step": 1018
    },
    {
      "epoch": 0.06375,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.043822224934895834,
      "learning_rate": 0.0001,
      "loss": 9.1061,
      "loss/crossentropy": 2.3903090953826904,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30517514050006866,
      "step": 1020
    },
    {
      "epoch": 0.063875,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.04397786458333333,
      "learning_rate": 0.0001,
      "loss": 9.3342,
      "loss/crossentropy": 2.4621089696884155,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3505241721868515,
      "step": 1022
    },
    {
      "epoch": 0.064,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.051813761393229164,
      "learning_rate": 0.0001,
      "loss": 9.1248,
      "loss/crossentropy": 2.3870365619659424,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3047706037759781,
      "step": 1024
    },
    {
      "epoch": 0.064125,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.053564453125,
      "learning_rate": 0.0001,
      "loss": 9.1846,
      "loss/crossentropy": 2.7421722412109375,
      "loss/hidden": 3.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3265855461359024,
      "step": 1026
    },
    {
      "epoch": 0.06425,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.0537261962890625,
      "learning_rate": 0.0001,
      "loss": 9.2907,
      "loss/crossentropy": 2.296812057495117,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2955050766468048,
      "step": 1028
    },
    {
      "epoch": 0.064375,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.0503570556640625,
      "learning_rate": 0.0001,
      "loss": 9.3552,
      "loss/crossentropy": 2.6835397481918335,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33152663707733154,
      "step": 1030
    },
    {
      "epoch": 0.0645,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.0430084228515625,
      "learning_rate": 0.0001,
      "loss": 9.3363,
      "loss/crossentropy": 2.644715666770935,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3512026369571686,
      "step": 1032
    },
    {
      "epoch": 0.064625,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.0596343994140625,
      "learning_rate": 0.0001,
      "loss": 9.4068,
      "loss/crossentropy": 2.424636483192444,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3079882860183716,
      "step": 1034
    },
    {
      "epoch": 0.06475,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.05446675618489583,
      "learning_rate": 0.0001,
      "loss": 9.4486,
      "loss/crossentropy": 2.347719192504883,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3452465981245041,
      "step": 1036
    },
    {
      "epoch": 0.064875,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.07506103515625,
      "learning_rate": 0.0001,
      "loss": 8.9964,
      "loss/crossentropy": 2.0868254899978638,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3242860585451126,
      "step": 1038
    },
    {
      "epoch": 0.065,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.21399637858072917,
      "learning_rate": 0.0001,
      "loss": 9.4657,
      "loss/crossentropy": 2.4020437002182007,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3079642355442047,
      "step": 1040
    },
    {
      "epoch": 0.065125,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.19934488932291666,
      "learning_rate": 0.0001,
      "loss": 9.4337,
      "loss/crossentropy": 2.4271044731140137,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3291940689086914,
      "step": 1042
    },
    {
      "epoch": 0.06525,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.19329020182291667,
      "learning_rate": 0.0001,
      "loss": 9.196,
      "loss/crossentropy": 2.3336949348449707,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3126966655254364,
      "step": 1044
    },
    {
      "epoch": 0.065375,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.19695638020833334,
      "learning_rate": 0.0001,
      "loss": 9.4016,
      "loss/crossentropy": 2.5471415519714355,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33399492502212524,
      "step": 1046
    },
    {
      "epoch": 0.0655,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.19744364420572916,
      "learning_rate": 0.0001,
      "loss": 9.0525,
      "loss/crossentropy": 2.028559982776642,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3023695796728134,
      "step": 1048
    },
    {
      "epoch": 0.065625,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.1896392822265625,
      "learning_rate": 0.0001,
      "loss": 9.2038,
      "loss/crossentropy": 2.2506083250045776,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3274885416030884,
      "step": 1050
    },
    {
      "epoch": 0.06575,
      "grad_norm": 4.0,
      "grad_norm_var": 0.18593343098958334,
      "learning_rate": 0.0001,
      "loss": 9.3255,
      "loss/crossentropy": 2.6331071853637695,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30817919969558716,
      "step": 1052
    },
    {
      "epoch": 0.065875,
      "grad_norm": 3.875,
      "grad_norm_var": 0.15797526041666668,
      "learning_rate": 0.0001,
      "loss": 9.2451,
      "loss/crossentropy": 2.354863405227661,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33920133113861084,
      "step": 1054
    },
    {
      "epoch": 0.066,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.015315755208333334,
      "learning_rate": 0.0001,
      "loss": 9.3564,
      "loss/crossentropy": 2.6202335357666016,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3073268234729767,
      "step": 1056
    },
    {
      "epoch": 0.066125,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.0164703369140625,
      "learning_rate": 0.0001,
      "loss": 9.1658,
      "loss/crossentropy": 2.302557349205017,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31188826262950897,
      "step": 1058
    },
    {
      "epoch": 0.06625,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.027293904622395834,
      "learning_rate": 0.0001,
      "loss": 9.131,
      "loss/crossentropy": 2.514571189880371,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3184218853712082,
      "step": 1060
    },
    {
      "epoch": 0.066375,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.025162760416666666,
      "learning_rate": 0.0001,
      "loss": 9.2056,
      "loss/crossentropy": 2.264451503753662,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34064817428588867,
      "step": 1062
    },
    {
      "epoch": 0.0665,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.018180338541666667,
      "learning_rate": 0.0001,
      "loss": 9.0521,
      "loss/crossentropy": 2.342800498008728,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33910292387008667,
      "step": 1064
    },
    {
      "epoch": 0.066625,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.021320597330729166,
      "learning_rate": 0.0001,
      "loss": 9.3295,
      "loss/crossentropy": 2.5191909074783325,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34528471529483795,
      "step": 1066
    },
    {
      "epoch": 0.06675,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.020930989583333334,
      "learning_rate": 0.0001,
      "loss": 9.2792,
      "loss/crossentropy": 2.6589291095733643,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3547402173280716,
      "step": 1068
    },
    {
      "epoch": 0.066875,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.023167928059895832,
      "learning_rate": 0.0001,
      "loss": 9.0386,
      "loss/crossentropy": 2.1663339138031006,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3398684561252594,
      "step": 1070
    },
    {
      "epoch": 0.067,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.06620992024739583,
      "learning_rate": 0.0001,
      "loss": 9.538,
      "loss/crossentropy": 2.518619418144226,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33177968859672546,
      "step": 1072
    },
    {
      "epoch": 0.067125,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.06520894368489584,
      "learning_rate": 0.0001,
      "loss": 9.4663,
      "loss/crossentropy": 2.564071536064148,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3523600995540619,
      "step": 1074
    },
    {
      "epoch": 0.06725,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.056868489583333334,
      "learning_rate": 0.0001,
      "loss": 9.1435,
      "loss/crossentropy": 2.314103364944458,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3031466454267502,
      "step": 1076
    },
    {
      "epoch": 0.067375,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.0743072509765625,
      "learning_rate": 0.0001,
      "loss": 9.0273,
      "loss/crossentropy": 2.397694706916809,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.293083518743515,
      "step": 1078
    },
    {
      "epoch": 0.0675,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.11435139973958333,
      "learning_rate": 0.0001,
      "loss": 9.6091,
      "loss/crossentropy": 2.3738266229629517,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35242393612861633,
      "step": 1080
    },
    {
      "epoch": 0.067625,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.1121490478515625,
      "learning_rate": 0.0001,
      "loss": 9.3609,
      "loss/crossentropy": 2.5533446073532104,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3422684669494629,
      "step": 1082
    },
    {
      "epoch": 0.06775,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.10871988932291667,
      "learning_rate": 0.0001,
      "loss": 9.3206,
      "loss/crossentropy": 2.405779242515564,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.310599148273468,
      "step": 1084
    },
    {
      "epoch": 0.067875,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.10204976399739583,
      "learning_rate": 0.0001,
      "loss": 9.0713,
      "loss/crossentropy": 2.2090498208999634,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3123241662979126,
      "step": 1086
    },
    {
      "epoch": 0.068,
      "grad_norm": 3.75,
      "grad_norm_var": 0.0724761962890625,
      "learning_rate": 0.0001,
      "loss": 9.0476,
      "loss/crossentropy": 2.280885696411133,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2895790636539459,
      "step": 1088
    },
    {
      "epoch": 0.068125,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.0732330322265625,
      "learning_rate": 0.0001,
      "loss": 9.2207,
      "loss/crossentropy": 2.337521195411682,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3371659815311432,
      "step": 1090
    },
    {
      "epoch": 0.06825,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.08389383951822917,
      "learning_rate": 0.0001,
      "loss": 8.9717,
      "loss/crossentropy": 2.358444333076477,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34108731150627136,
      "step": 1092
    },
    {
      "epoch": 0.068375,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.07141520182291666,
      "learning_rate": 0.0001,
      "loss": 9.0686,
      "loss/crossentropy": 2.2623904943466187,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3080063462257385,
      "step": 1094
    },
    {
      "epoch": 0.0685,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.029084269205729166,
      "learning_rate": 0.0001,
      "loss": 9.4291,
      "loss/crossentropy": 2.2225699424743652,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28325292468070984,
      "step": 1096
    },
    {
      "epoch": 0.068625,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.02789306640625,
      "learning_rate": 0.0001,
      "loss": 9.258,
      "loss/crossentropy": 2.362979292869568,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3146945536136627,
      "step": 1098
    },
    {
      "epoch": 0.06875,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.035008748372395836,
      "learning_rate": 0.0001,
      "loss": 9.0957,
      "loss/crossentropy": 2.3709558248519897,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2997266799211502,
      "step": 1100
    },
    {
      "epoch": 0.068875,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.049637858072916666,
      "learning_rate": 0.0001,
      "loss": 8.8482,
      "loss/crossentropy": 2.1995412707328796,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31232061982154846,
      "step": 1102
    },
    {
      "epoch": 0.069,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.13362630208333334,
      "learning_rate": 0.0001,
      "loss": 9.3721,
      "loss/crossentropy": 2.179778814315796,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29335537552833557,
      "step": 1104
    },
    {
      "epoch": 0.069125,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.35261128743489584,
      "learning_rate": 0.0001,
      "loss": 9.3248,
      "loss/crossentropy": 2.369896650314331,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3417474627494812,
      "step": 1106
    },
    {
      "epoch": 0.06925,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.32355143229166666,
      "learning_rate": 0.0001,
      "loss": 9.422,
      "loss/crossentropy": 2.6357239484786987,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33385856449604034,
      "step": 1108
    },
    {
      "epoch": 0.069375,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.33131103515625,
      "learning_rate": 0.0001,
      "loss": 9.3892,
      "loss/crossentropy": 2.6354408264160156,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33535902202129364,
      "step": 1110
    },
    {
      "epoch": 0.0695,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.3421712239583333,
      "learning_rate": 0.0001,
      "loss": 9.3288,
      "loss/crossentropy": 2.2603734731674194,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31547120213508606,
      "step": 1112
    },
    {
      "epoch": 0.069625,
      "grad_norm": 3.625,
      "grad_norm_var": 0.3455556233723958,
      "learning_rate": 0.0001,
      "loss": 9.0927,
      "loss/crossentropy": 2.2856796979904175,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31341737508773804,
      "step": 1114
    },
    {
      "epoch": 0.06975,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.3824208577473958,
      "learning_rate": 0.0001,
      "loss": 9.065,
      "loss/crossentropy": 2.3744817972183228,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3295013904571533,
      "step": 1116
    },
    {
      "epoch": 0.069875,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.33152567545572914,
      "learning_rate": 0.0001,
      "loss": 9.286,
      "loss/crossentropy": 2.4832775592803955,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3211631774902344,
      "step": 1118
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.2992177327473958,
      "learning_rate": 0.0001,
      "loss": 9.2446,
      "loss/crossentropy": 2.6656835079193115,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33588290214538574,
      "step": 1120
    },
    {
      "epoch": 0.070125,
      "grad_norm": 4.125,
      "grad_norm_var": 0.09185282389322917,
      "learning_rate": 0.0001,
      "loss": 9.1868,
      "loss/crossentropy": 2.418588876724243,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36348558962345123,
      "step": 1122
    },
    {
      "epoch": 0.07025,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.08717041015625,
      "learning_rate": 0.0001,
      "loss": 9.1917,
      "loss/crossentropy": 2.309618353843689,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2983853369951248,
      "step": 1124
    },
    {
      "epoch": 0.070375,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.0684478759765625,
      "learning_rate": 0.0001,
      "loss": 9.0934,
      "loss/crossentropy": 2.466736316680908,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31100137531757355,
      "step": 1126
    },
    {
      "epoch": 0.0705,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.10739644368489583,
      "learning_rate": 0.0001,
      "loss": 9.3913,
      "loss/crossentropy": 2.4813402891159058,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32681819796562195,
      "step": 1128
    },
    {
      "epoch": 0.070625,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.1125152587890625,
      "learning_rate": 0.0001,
      "loss": 9.2876,
      "loss/crossentropy": 2.6551177501678467,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30686071515083313,
      "step": 1130
    },
    {
      "epoch": 0.07075,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.10204671223958334,
      "learning_rate": 0.0001,
      "loss": 9.164,
      "loss/crossentropy": 2.266343593597412,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29779092967510223,
      "step": 1132
    },
    {
      "epoch": 0.070875,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.11245829264322917,
      "learning_rate": 0.0001,
      "loss": 9.2955,
      "loss/crossentropy": 2.3365002870559692,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3126705288887024,
      "step": 1134
    },
    {
      "epoch": 0.071,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.1045318603515625,
      "learning_rate": 0.0001,
      "loss": 9.0178,
      "loss/crossentropy": 2.469061851501465,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32917141914367676,
      "step": 1136
    },
    {
      "epoch": 0.071125,
      "grad_norm": 3.5,
      "grad_norm_var": 0.12392171223958333,
      "learning_rate": 0.0001,
      "loss": 8.9858,
      "loss/crossentropy": 2.5383065938949585,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31508152186870575,
      "step": 1138
    },
    {
      "epoch": 0.07125,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.1242828369140625,
      "learning_rate": 0.0001,
      "loss": 9.3816,
      "loss/crossentropy": 2.7282421588897705,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.329195499420166,
      "step": 1140
    },
    {
      "epoch": 0.071375,
      "grad_norm": 4.125,
      "grad_norm_var": 0.1225982666015625,
      "learning_rate": 0.0001,
      "loss": 9.5541,
      "loss/crossentropy": 2.4712259769439697,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3016209304332733,
      "step": 1142
    },
    {
      "epoch": 0.0715,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.057291666666666664,
      "learning_rate": 0.0001,
      "loss": 9.1036,
      "loss/crossentropy": 2.4540599584579468,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31999677419662476,
      "step": 1144
    },
    {
      "epoch": 0.071625,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.053465779622395834,
      "learning_rate": 0.0001,
      "loss": 9.1462,
      "loss/crossentropy": 2.808298349380493,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3199266195297241,
      "step": 1146
    },
    {
      "epoch": 0.07175,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.06948954264322917,
      "learning_rate": 0.0001,
      "loss": 9.3125,
      "loss/crossentropy": 2.5488197803497314,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34709227085113525,
      "step": 1148
    },
    {
      "epoch": 0.071875,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.08771158854166666,
      "learning_rate": 0.0001,
      "loss": 8.9519,
      "loss/crossentropy": 2.3145110607147217,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.3027106672525406,
      "step": 1150
    },
    {
      "epoch": 0.072,
      "grad_norm": 5.375,
      "grad_norm_var": 0.23205973307291666,
      "learning_rate": 0.0001,
      "loss": 9.251,
      "loss/crossentropy": 2.2240471839904785,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.336179718375206,
      "step": 1152
    },
    {
      "epoch": 0.072125,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.21687723795572916,
      "learning_rate": 0.0001,
      "loss": 9.1314,
      "loss/crossentropy": 2.105097532272339,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3255419135093689,
      "step": 1154
    },
    {
      "epoch": 0.07225,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.21018778483072917,
      "learning_rate": 0.0001,
      "loss": 9.0524,
      "loss/crossentropy": 2.4139981269836426,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3454781472682953,
      "step": 1156
    },
    {
      "epoch": 0.072375,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.21177469889322917,
      "learning_rate": 0.0001,
      "loss": 9.1533,
      "loss/crossentropy": 2.3245939016342163,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28686030209064484,
      "step": 1158
    },
    {
      "epoch": 0.0725,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.22030843098958333,
      "learning_rate": 0.0001,
      "loss": 9.2865,
      "loss/crossentropy": 2.5649216175079346,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3485357314348221,
      "step": 1160
    },
    {
      "epoch": 0.072625,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.21592508951822917,
      "learning_rate": 0.0001,
      "loss": 9.4127,
      "loss/crossentropy": 2.467991352081299,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3160312622785568,
      "step": 1162
    },
    {
      "epoch": 0.07275,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.20200907389322917,
      "learning_rate": 0.0001,
      "loss": 9.208,
      "loss/crossentropy": 2.4666264057159424,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32405731081962585,
      "step": 1164
    },
    {
      "epoch": 0.072875,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.17566630045572917,
      "learning_rate": 0.0001,
      "loss": 8.9344,
      "loss/crossentropy": 2.497612714767456,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2962990552186966,
      "step": 1166
    },
    {
      "epoch": 0.073,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.07573140462239583,
      "learning_rate": 0.0001,
      "loss": 9.2981,
      "loss/crossentropy": 2.3695040941238403,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.321966215968132,
      "step": 1168
    },
    {
      "epoch": 0.073125,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.07278645833333333,
      "learning_rate": 0.0001,
      "loss": 9.348,
      "loss/crossentropy": 2.399674415588379,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3187423199415207,
      "step": 1170
    },
    {
      "epoch": 0.07325,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.07532552083333334,
      "learning_rate": 0.0001,
      "loss": 9.2577,
      "loss/crossentropy": 2.395334005355835,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3417189121246338,
      "step": 1172
    },
    {
      "epoch": 0.073375,
      "grad_norm": 3.5,
      "grad_norm_var": 0.08810933430989583,
      "learning_rate": 0.0001,
      "loss": 8.7726,
      "loss/crossentropy": 2.0574229955673218,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30047091841697693,
      "step": 1174
    },
    {
      "epoch": 0.0735,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.08876953125,
      "learning_rate": 0.0001,
      "loss": 9.1649,
      "loss/crossentropy": 2.3426761627197266,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31436459720134735,
      "step": 1176
    },
    {
      "epoch": 0.073625,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.0902984619140625,
      "learning_rate": 0.0001,
      "loss": 9.3917,
      "loss/crossentropy": 2.4197838306427,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30905722081661224,
      "step": 1178
    },
    {
      "epoch": 0.07375,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.12220052083333334,
      "learning_rate": 0.0001,
      "loss": 9.1579,
      "loss/crossentropy": 2.3440288305282593,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3073788434267044,
      "step": 1180
    },
    {
      "epoch": 0.073875,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.10395406087239584,
      "learning_rate": 0.0001,
      "loss": 9.3372,
      "loss/crossentropy": 2.3033924102783203,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34168997406959534,
      "step": 1182
    },
    {
      "epoch": 0.074,
      "grad_norm": 4.25,
      "grad_norm_var": 0.0841705322265625,
      "learning_rate": 0.0001,
      "loss": 9.4208,
      "loss/crossentropy": 2.6207507848739624,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34534966945648193,
      "step": 1184
    },
    {
      "epoch": 0.074125,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.08531494140625,
      "learning_rate": 0.0001,
      "loss": 9.286,
      "loss/crossentropy": 2.4476726055145264,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.3093183934688568,
      "step": 1186
    },
    {
      "epoch": 0.07425,
      "grad_norm": 5.28125,
      "grad_norm_var": 0.19589742024739584,
      "learning_rate": 0.0001,
      "loss": 9.0637,
      "loss/crossentropy": 2.2181872725486755,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32876770198345184,
      "step": 1188
    },
    {
      "epoch": 0.074375,
      "grad_norm": 8.75,
      "grad_norm_var": 1.5139719645182292,
      "learning_rate": 0.0001,
      "loss": 9.1797,
      "loss/crossentropy": 2.1833176612854004,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.36219629645347595,
      "step": 1190
    },
    {
      "epoch": 0.0745,
      "grad_norm": 3.578125,
      "grad_norm_var": 1.5350494384765625,
      "learning_rate": 0.0001,
      "loss": 9.0629,
      "loss/crossentropy": 2.405817151069641,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31212493777275085,
      "step": 1192
    },
    {
      "epoch": 0.074625,
      "grad_norm": 4.28125,
      "grad_norm_var": 1.5252675374348958,
      "learning_rate": 0.0001,
      "loss": 9.0899,
      "loss/crossentropy": 2.432392120361328,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.323747381567955,
      "step": 1194
    },
    {
      "epoch": 0.07475,
      "grad_norm": 4.1875,
      "grad_norm_var": 1.516307576497396,
      "learning_rate": 0.0001,
      "loss": 9.4802,
      "loss/crossentropy": 2.60243022441864,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3159172534942627,
      "step": 1196
    },
    {
      "epoch": 0.074875,
      "grad_norm": 4.0625,
      "grad_norm_var": 1.518024698893229,
      "learning_rate": 0.0001,
      "loss": 9.1813,
      "loss/crossentropy": 2.2708317041397095,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3217354714870453,
      "step": 1198
    },
    {
      "epoch": 0.075,
      "grad_norm": 3.53125,
      "grad_norm_var": 1.5860260009765625,
      "learning_rate": 0.0001,
      "loss": 8.8086,
      "loss/crossentropy": 2.2433842420578003,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2955727279186249,
      "step": 1200
    },
    {
      "epoch": 0.075125,
      "grad_norm": 4.0625,
      "grad_norm_var": 1.5884429931640625,
      "learning_rate": 0.0001,
      "loss": 8.9904,
      "loss/crossentropy": 2.544836163520813,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3101474642753601,
      "step": 1202
    },
    {
      "epoch": 0.07525,
      "grad_norm": 3.984375,
      "grad_norm_var": 1.5440388997395833,
      "learning_rate": 0.0001,
      "loss": 9.4,
      "loss/crossentropy": 2.546027898788452,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3451322615146637,
      "step": 1204
    },
    {
      "epoch": 0.075375,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.1521484375,
      "learning_rate": 0.0001,
      "loss": 9.0253,
      "loss/crossentropy": 2.4012279510498047,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.290866881608963,
      "step": 1206
    },
    {
      "epoch": 0.0755,
      "grad_norm": 5.15625,
      "grad_norm_var": 18.180106608072915,
      "learning_rate": 0.0001,
      "loss": 10.0656,
      "loss/crossentropy": 2.4804184436798096,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31466802954673767,
      "step": 1208
    },
    {
      "epoch": 0.075625,
      "grad_norm": 3.421875,
      "grad_norm_var": 18.290657552083335,
      "learning_rate": 0.0001,
      "loss": 8.942,
      "loss/crossentropy": 2.104141592979431,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3016415685415268,
      "step": 1210
    },
    {
      "epoch": 0.07575,
      "grad_norm": 3.53125,
      "grad_norm_var": 18.478189086914064,
      "learning_rate": 0.0001,
      "loss": 8.7778,
      "loss/crossentropy": 2.216665744781494,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30427753925323486,
      "step": 1212
    },
    {
      "epoch": 0.075875,
      "grad_norm": 3.59375,
      "grad_norm_var": 18.572997029622396,
      "learning_rate": 0.0001,
      "loss": 8.9408,
      "loss/crossentropy": 2.410394072532654,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3141447752714157,
      "step": 1214
    },
    {
      "epoch": 0.076,
      "grad_norm": 3.71875,
      "grad_norm_var": 18.539623006184897,
      "learning_rate": 0.0001,
      "loss": 9.0702,
      "loss/crossentropy": 2.2947787642478943,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3040497452020645,
      "step": 1216
    },
    {
      "epoch": 0.076125,
      "grad_norm": 3.96875,
      "grad_norm_var": 18.52271728515625,
      "learning_rate": 0.0001,
      "loss": 9.5222,
      "loss/crossentropy": 2.658992886543274,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33450958132743835,
      "step": 1218
    },
    {
      "epoch": 0.07625,
      "grad_norm": 3.59375,
      "grad_norm_var": 18.640262858072916,
      "learning_rate": 0.0001,
      "loss": 9.1006,
      "loss/crossentropy": 2.382628321647644,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3292655050754547,
      "step": 1220
    },
    {
      "epoch": 0.076375,
      "grad_norm": 3.859375,
      "grad_norm_var": 18.59713134765625,
      "learning_rate": 0.0001,
      "loss": 8.8435,
      "loss/crossentropy": 1.980876863002777,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2758803069591522,
      "step": 1222
    },
    {
      "epoch": 0.0765,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.031038411458333335,
      "learning_rate": 0.0001,
      "loss": 8.8474,
      "loss/crossentropy": 2.0616570711135864,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28200867772102356,
      "step": 1224
    },
    {
      "epoch": 0.076625,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.021564737955729166,
      "learning_rate": 0.0001,
      "loss": 9.1792,
      "loss/crossentropy": 2.3715614080429077,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31676220893859863,
      "step": 1226
    },
    {
      "epoch": 0.07675,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.021971638997395834,
      "learning_rate": 0.0001,
      "loss": 9.0379,
      "loss/crossentropy": 2.5357784032821655,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31404489278793335,
      "step": 1228
    },
    {
      "epoch": 0.076875,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.022419230143229166,
      "learning_rate": 0.0001,
      "loss": 8.6486,
      "loss/crossentropy": 2.225548505783081,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.286647230386734,
      "step": 1230
    },
    {
      "epoch": 0.077,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.025797526041666668,
      "learning_rate": 0.0001,
      "loss": 8.9957,
      "loss/crossentropy": 2.3057247400283813,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3172541856765747,
      "step": 1232
    },
    {
      "epoch": 0.077125,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.023388671875,
      "learning_rate": 0.0001,
      "loss": 9.0791,
      "loss/crossentropy": 2.290403127670288,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31419865787029266,
      "step": 1234
    },
    {
      "epoch": 0.07725,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.021305338541666666,
      "learning_rate": 0.0001,
      "loss": 8.9479,
      "loss/crossentropy": 2.1275144815444946,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31394386291503906,
      "step": 1236
    },
    {
      "epoch": 0.077375,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.05321858723958333,
      "learning_rate": 0.0001,
      "loss": 8.9015,
      "loss/crossentropy": 2.2454686164855957,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.2934340536594391,
      "step": 1238
    },
    {
      "epoch": 0.0775,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.0609527587890625,
      "learning_rate": 0.0001,
      "loss": 8.856,
      "loss/crossentropy": 2.2809821367263794,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29852208495140076,
      "step": 1240
    },
    {
      "epoch": 0.077625,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.062841796875,
      "learning_rate": 0.0001,
      "loss": 9.0546,
      "loss/crossentropy": 2.2770636081695557,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.31510084867477417,
      "step": 1242
    },
    {
      "epoch": 0.07775,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.06161702473958333,
      "learning_rate": 0.0001,
      "loss": 9.0968,
      "loss/crossentropy": 2.2599165439605713,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3091094493865967,
      "step": 1244
    },
    {
      "epoch": 0.077875,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.05953369140625,
      "learning_rate": 0.0001,
      "loss": 8.9473,
      "loss/crossentropy": 2.0840908885002136,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29790809750556946,
      "step": 1246
    },
    {
      "epoch": 0.078,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.10155843098958334,
      "learning_rate": 0.0001,
      "loss": 9.3225,
      "loss/crossentropy": 2.345468759536743,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34454044699668884,
      "step": 1248
    },
    {
      "epoch": 0.078125,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.10816141764322916,
      "learning_rate": 0.0001,
      "loss": 9.1545,
      "loss/crossentropy": 2.413212776184082,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.31984058022499084,
      "step": 1250
    },
    {
      "epoch": 0.07825,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.110205078125,
      "learning_rate": 0.0001,
      "loss": 8.9687,
      "loss/crossentropy": 2.4369957447052,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3076692074537277,
      "step": 1252
    },
    {
      "epoch": 0.078375,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.12951558430989582,
      "learning_rate": 0.0001,
      "loss": 8.9991,
      "loss/crossentropy": 2.415233612060547,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29537807404994965,
      "step": 1254
    },
    {
      "epoch": 0.0785,
      "grad_norm": 7.8125,
      "grad_norm_var": 1.1356770833333334,
      "learning_rate": 0.0001,
      "loss": 9.5869,
      "loss/crossentropy": 2.3058598041534424,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3160950839519501,
      "step": 1256
    },
    {
      "epoch": 0.078625,
      "grad_norm": 3.484375,
      "grad_norm_var": 1.149267578125,
      "learning_rate": 0.0001,
      "loss": 9.2005,
      "loss/crossentropy": 2.412594437599182,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31167350709438324,
      "step": 1258
    },
    {
      "epoch": 0.07875,
      "grad_norm": 3.34375,
      "grad_norm_var": 1.1874989827473958,
      "learning_rate": 0.0001,
      "loss": 8.9355,
      "loss/crossentropy": 2.365793824195862,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30335795879364014,
      "step": 1260
    },
    {
      "epoch": 0.078875,
      "grad_norm": 6.6875,
      "grad_norm_var": 1.6226236979166666,
      "learning_rate": 0.0001,
      "loss": 9.1613,
      "loss/crossentropy": 2.261883854866028,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3325384855270386,
      "step": 1262
    },
    {
      "epoch": 0.079,
      "grad_norm": 3.828125,
      "grad_norm_var": 1.6119099934895833,
      "learning_rate": 0.0001,
      "loss": 8.9772,
      "loss/crossentropy": 2.37065851688385,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.3135601878166199,
      "step": 1264
    },
    {
      "epoch": 0.079125,
      "grad_norm": 5.0625,
      "grad_norm_var": 1.6016103108723958,
      "learning_rate": 0.0001,
      "loss": 8.8108,
      "loss/crossentropy": 2.330946683883667,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28366419672966003,
      "step": 1266
    },
    {
      "epoch": 0.07925,
      "grad_norm": 4.125,
      "grad_norm_var": 1.5486399332682292,
      "learning_rate": 0.0001,
      "loss": 9.0762,
      "loss/crossentropy": 2.5277793407440186,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.317441463470459,
      "step": 1268
    },
    {
      "epoch": 0.079375,
      "grad_norm": 4.09375,
      "grad_norm_var": 1.5559234619140625,
      "learning_rate": 0.0001,
      "loss": 8.8627,
      "loss/crossentropy": 2.0369693636894226,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2870900481939316,
      "step": 1270
    },
    {
      "epoch": 0.0795,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.6730794270833333,
      "learning_rate": 0.0001,
      "loss": 9.2479,
      "loss/crossentropy": 2.266517758369446,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3010869026184082,
      "step": 1272
    },
    {
      "epoch": 0.079625,
      "grad_norm": 4.84375,
      "grad_norm_var": 0.8135162353515625,
      "learning_rate": 0.0001,
      "loss": 9.2829,
      "loss/crossentropy": 2.4318493604660034,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3534676879644394,
      "step": 1274
    },
    {
      "epoch": 0.07975,
      "grad_norm": 3.75,
      "grad_norm_var": 0.7549112955729167,
      "learning_rate": 0.0001,
      "loss": 9.2051,
      "loss/crossentropy": 2.665824294090271,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3084219694137573,
      "step": 1276
    },
    {
      "epoch": 0.079875,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.3110015869140625,
      "learning_rate": 0.0001,
      "loss": 9.3341,
      "loss/crossentropy": 2.585180401802063,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3485944867134094,
      "step": 1278
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.890625,
      "grad_norm_var": 0.30613606770833335,
      "learning_rate": 0.0001,
      "loss": 9.0663,
      "loss/crossentropy": 2.235915422439575,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3006708025932312,
      "step": 1280
    },
    {
      "epoch": 0.080125,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.28245442708333335,
      "learning_rate": 0.0001,
      "loss": 8.9244,
      "loss/crossentropy": 2.196950912475586,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30859434604644775,
      "step": 1282
    },
    {
      "epoch": 0.08025,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.27616780598958335,
      "learning_rate": 0.0001,
      "loss": 8.9921,
      "loss/crossentropy": 2.3487383127212524,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31605543196201324,
      "step": 1284
    },
    {
      "epoch": 0.080375,
      "grad_norm": 3.625,
      "grad_norm_var": 0.27758687337239585,
      "learning_rate": 0.0001,
      "loss": 9.0989,
      "loss/crossentropy": 2.2177536487579346,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2946600914001465,
      "step": 1286
    },
    {
      "epoch": 0.0805,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.28926493326822916,
      "learning_rate": 0.0001,
      "loss": 8.8901,
      "loss/crossentropy": 2.1754029989242554,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3095686435699463,
      "step": 1288
    },
    {
      "epoch": 0.080625,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.04488932291666667,
      "learning_rate": 0.0001,
      "loss": 9.0607,
      "loss/crossentropy": 2.392609477043152,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2938263714313507,
      "step": 1290
    },
    {
      "epoch": 0.08075,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.3003326416015625,
      "learning_rate": 0.0001,
      "loss": 9.5169,
      "loss/crossentropy": 2.4202769994735718,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3104136437177658,
      "step": 1292
    },
    {
      "epoch": 0.080875,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.29915262858072916,
      "learning_rate": 0.0001,
      "loss": 8.8761,
      "loss/crossentropy": 2.2731767892837524,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30449719727039337,
      "step": 1294
    },
    {
      "epoch": 0.081,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.30543619791666665,
      "learning_rate": 0.0001,
      "loss": 9.0399,
      "loss/crossentropy": 2.470086932182312,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28193579614162445,
      "step": 1296
    },
    {
      "epoch": 0.081125,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.2979644775390625,
      "learning_rate": 0.0001,
      "loss": 9.0157,
      "loss/crossentropy": 2.167941153049469,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29203882813453674,
      "step": 1298
    },
    {
      "epoch": 0.08125,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.2990193684895833,
      "learning_rate": 0.0001,
      "loss": 9.1285,
      "loss/crossentropy": 2.2209893465042114,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.309230774641037,
      "step": 1300
    },
    {
      "epoch": 0.081375,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.2967274983723958,
      "learning_rate": 0.0001,
      "loss": 9.0471,
      "loss/crossentropy": 2.2622058391571045,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32858118414878845,
      "step": 1302
    },
    {
      "epoch": 0.0815,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.2907786051432292,
      "learning_rate": 0.0001,
      "loss": 9.001,
      "loss/crossentropy": 2.550824522972107,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30813509225845337,
      "step": 1304
    },
    {
      "epoch": 0.081625,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.28088785807291666,
      "learning_rate": 0.0001,
      "loss": 9.1413,
      "loss/crossentropy": 2.234109878540039,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3101739436388016,
      "step": 1306
    },
    {
      "epoch": 0.08175,
      "grad_norm": 3.625,
      "grad_norm_var": 0.0467681884765625,
      "learning_rate": 0.0001,
      "loss": 9.1138,
      "loss/crossentropy": 2.6315842866897583,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3196646571159363,
      "step": 1308
    },
    {
      "epoch": 0.081875,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.052586873372395836,
      "learning_rate": 0.0001,
      "loss": 8.8418,
      "loss/crossentropy": 2.262266516685486,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29676589369773865,
      "step": 1310
    },
    {
      "epoch": 0.082,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.049702962239583336,
      "learning_rate": 0.0001,
      "loss": 9.0204,
      "loss/crossentropy": 2.2959643602371216,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3009609580039978,
      "step": 1312
    },
    {
      "epoch": 0.082125,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.03916727701822917,
      "learning_rate": 0.0001,
      "loss": 9.0814,
      "loss/crossentropy": 2.8231089115142822,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.320039302110672,
      "step": 1314
    },
    {
      "epoch": 0.08225,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.043843587239583336,
      "learning_rate": 0.0001,
      "loss": 9.0418,
      "loss/crossentropy": 2.6723110675811768,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3218715190887451,
      "step": 1316
    },
    {
      "epoch": 0.082375,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.04127197265625,
      "learning_rate": 0.0001,
      "loss": 9.1254,
      "loss/crossentropy": 2.817944288253784,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3088568150997162,
      "step": 1318
    },
    {
      "epoch": 0.0825,
      "grad_norm": 3.25,
      "grad_norm_var": 0.0599029541015625,
      "learning_rate": 0.0001,
      "loss": 8.9,
      "loss/crossentropy": 2.3980846405029297,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2999623566865921,
      "step": 1320
    },
    {
      "epoch": 0.082625,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.0474273681640625,
      "learning_rate": 0.0001,
      "loss": 9.3528,
      "loss/crossentropy": 2.595438838005066,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3496478945016861,
      "step": 1322
    },
    {
      "epoch": 0.08275,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.0486724853515625,
      "learning_rate": 0.0001,
      "loss": 8.8593,
      "loss/crossentropy": 2.2254860401153564,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2829415947198868,
      "step": 1324
    },
    {
      "epoch": 0.082875,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.049723307291666664,
      "learning_rate": 0.0001,
      "loss": 8.9027,
      "loss/crossentropy": 2.44465708732605,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32694484293460846,
      "step": 1326
    },
    {
      "epoch": 0.083,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.053544108072916666,
      "learning_rate": 0.0001,
      "loss": 9.1538,
      "loss/crossentropy": 2.313889980316162,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33095018565654755,
      "step": 1328
    },
    {
      "epoch": 0.083125,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.049332682291666666,
      "learning_rate": 0.0001,
      "loss": 9.1456,
      "loss/crossentropy": 2.4496175050735474,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30967962741851807,
      "step": 1330
    },
    {
      "epoch": 0.08325,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.04842020670572917,
      "learning_rate": 0.0001,
      "loss": 9.0947,
      "loss/crossentropy": 2.386078953742981,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3234080672264099,
      "step": 1332
    },
    {
      "epoch": 0.083375,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.04586181640625,
      "learning_rate": 0.0001,
      "loss": 8.7408,
      "loss/crossentropy": 2.339785575866699,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32101643085479736,
      "step": 1334
    },
    {
      "epoch": 0.0835,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.029230753580729168,
      "learning_rate": 0.0001,
      "loss": 8.8596,
      "loss/crossentropy": 2.6105300188064575,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31350916624069214,
      "step": 1336
    },
    {
      "epoch": 0.083625,
      "grad_norm": 3.75,
      "grad_norm_var": 0.028864542643229168,
      "learning_rate": 0.0001,
      "loss": 8.63,
      "loss/crossentropy": 2.0749881863594055,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28848570585250854,
      "step": 1338
    },
    {
      "epoch": 0.08375,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.027977498372395833,
      "learning_rate": 0.0001,
      "loss": 9.1618,
      "loss/crossentropy": 2.243058681488037,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2843780219554901,
      "step": 1340
    },
    {
      "epoch": 0.083875,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.042536417643229164,
      "learning_rate": 0.0001,
      "loss": 8.6702,
      "loss/crossentropy": 2.2894665002822876,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3040817379951477,
      "step": 1342
    },
    {
      "epoch": 0.084,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.056151326497395834,
      "learning_rate": 0.0001,
      "loss": 9.1365,
      "loss/crossentropy": 2.210882782936096,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32323381304740906,
      "step": 1344
    },
    {
      "epoch": 0.084125,
      "grad_norm": 4.125,
      "grad_norm_var": 0.08358968098958333,
      "learning_rate": 0.0001,
      "loss": 9.1776,
      "loss/crossentropy": 2.342850089073181,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2916054427623749,
      "step": 1346
    },
    {
      "epoch": 0.08425,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.08816731770833333,
      "learning_rate": 0.0001,
      "loss": 9.2657,
      "loss/crossentropy": 2.44538152217865,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3160920739173889,
      "step": 1348
    },
    {
      "epoch": 0.084375,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.08382059733072916,
      "learning_rate": 0.0001,
      "loss": 9.0063,
      "loss/crossentropy": 2.5489304065704346,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3081457316875458,
      "step": 1350
    },
    {
      "epoch": 0.0845,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.0790191650390625,
      "learning_rate": 0.0001,
      "loss": 8.9541,
      "loss/crossentropy": 2.180498778820038,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3018496334552765,
      "step": 1352
    },
    {
      "epoch": 0.084625,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.080224609375,
      "learning_rate": 0.0001,
      "loss": 9.082,
      "loss/crossentropy": 2.384360671043396,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28553615510463715,
      "step": 1354
    },
    {
      "epoch": 0.08475,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.0791656494140625,
      "learning_rate": 0.0001,
      "loss": 9.0263,
      "loss/crossentropy": 2.6955255270004272,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3320935517549515,
      "step": 1356
    },
    {
      "epoch": 0.084875,
      "grad_norm": 3.375,
      "grad_norm_var": 0.05998942057291667,
      "learning_rate": 0.0001,
      "loss": 8.5942,
      "loss/crossentropy": 2.084562659263611,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2838726341724396,
      "step": 1358
    },
    {
      "epoch": 0.085,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.046647135416666666,
      "learning_rate": 0.0001,
      "loss": 8.8832,
      "loss/crossentropy": 2.3465107679367065,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3064923733472824,
      "step": 1360
    },
    {
      "epoch": 0.085125,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.025153605143229167,
      "learning_rate": 0.0001,
      "loss": 9.089,
      "loss/crossentropy": 2.3062328100204468,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3037351071834564,
      "step": 1362
    },
    {
      "epoch": 0.08525,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.031148274739583332,
      "learning_rate": 0.0001,
      "loss": 8.9159,
      "loss/crossentropy": 2.109978973865509,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3013267517089844,
      "step": 1364
    },
    {
      "epoch": 0.085375,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.05119527180989583,
      "learning_rate": 0.0001,
      "loss": 8.9955,
      "loss/crossentropy": 2.1400793194770813,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2959713786840439,
      "step": 1366
    },
    {
      "epoch": 0.0855,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.051985677083333334,
      "learning_rate": 0.0001,
      "loss": 9.0828,
      "loss/crossentropy": 2.583168387413025,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3330073952674866,
      "step": 1368
    },
    {
      "epoch": 0.085625,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.07195638020833334,
      "learning_rate": 0.0001,
      "loss": 8.9546,
      "loss/crossentropy": 2.3753483295440674,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2922537922859192,
      "step": 1370
    },
    {
      "epoch": 0.08575,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.07174072265625,
      "learning_rate": 0.0001,
      "loss": 8.9679,
      "loss/crossentropy": 2.4578174352645874,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.313604399561882,
      "step": 1372
    },
    {
      "epoch": 0.085875,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.13062744140625,
      "learning_rate": 0.0001,
      "loss": 8.83,
      "loss/crossentropy": 2.1847041845321655,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29400117695331573,
      "step": 1374
    },
    {
      "epoch": 0.086,
      "grad_norm": 3.25,
      "grad_norm_var": 0.1586822509765625,
      "learning_rate": 0.0001,
      "loss": 8.8043,
      "loss/crossentropy": 2.2943379878997803,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31389278173446655,
      "step": 1376
    },
    {
      "epoch": 0.086125,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.16523030598958333,
      "learning_rate": 0.0001,
      "loss": 9.0582,
      "loss/crossentropy": 2.594352960586548,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32820238173007965,
      "step": 1378
    },
    {
      "epoch": 0.08625,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.15104878743489583,
      "learning_rate": 0.0001,
      "loss": 9.3228,
      "loss/crossentropy": 2.571452260017395,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3398682475090027,
      "step": 1380
    },
    {
      "epoch": 0.086375,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.13977457682291666,
      "learning_rate": 0.0001,
      "loss": 8.9274,
      "loss/crossentropy": 2.431585431098938,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2900923192501068,
      "step": 1382
    },
    {
      "epoch": 0.0865,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.14218343098958333,
      "learning_rate": 0.0001,
      "loss": 8.9046,
      "loss/crossentropy": 2.4001163244247437,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3200056552886963,
      "step": 1384
    },
    {
      "epoch": 0.086625,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.12639058430989583,
      "learning_rate": 0.0001,
      "loss": 8.7451,
      "loss/crossentropy": 2.212107300758362,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29481518268585205,
      "step": 1386
    },
    {
      "epoch": 0.08675,
      "grad_norm": 4.53125,
      "grad_norm_var": 0.17360738118489583,
      "learning_rate": 0.0001,
      "loss": 8.9308,
      "loss/crossentropy": 2.1325159072875977,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.3161931484937668,
      "step": 1388
    },
    {
      "epoch": 0.086875,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.08817952473958333,
      "learning_rate": 0.0001,
      "loss": 8.9893,
      "loss/crossentropy": 2.7963234186172485,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3157733827829361,
      "step": 1390
    },
    {
      "epoch": 0.087,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.07779541015625,
      "learning_rate": 0.0001,
      "loss": 8.7993,
      "loss/crossentropy": 2.404562830924988,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.3078538328409195,
      "step": 1392
    },
    {
      "epoch": 0.087125,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.0818359375,
      "learning_rate": 0.0001,
      "loss": 8.9106,
      "loss/crossentropy": 2.411270022392273,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3172430843114853,
      "step": 1394
    },
    {
      "epoch": 0.08725,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.1228515625,
      "learning_rate": 0.0001,
      "loss": 9.1999,
      "loss/crossentropy": 2.290405511856079,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2864595949649811,
      "step": 1396
    },
    {
      "epoch": 0.087375,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.12275288899739584,
      "learning_rate": 0.0001,
      "loss": 9.0627,
      "loss/crossentropy": 2.3292382955551147,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28290052711963654,
      "step": 1398
    },
    {
      "epoch": 0.0875,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.12724202473958332,
      "learning_rate": 0.0001,
      "loss": 8.6953,
      "loss/crossentropy": 2.0091291666030884,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2793958783149719,
      "step": 1400
    },
    {
      "epoch": 0.087625,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.13843994140625,
      "learning_rate": 0.0001,
      "loss": 8.9071,
      "loss/crossentropy": 2.6832462549209595,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3183281272649765,
      "step": 1402
    },
    {
      "epoch": 0.08775,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.10543212890625,
      "learning_rate": 0.0001,
      "loss": 8.9968,
      "loss/crossentropy": 2.267482042312622,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3442094475030899,
      "step": 1404
    },
    {
      "epoch": 0.087875,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.10003255208333334,
      "learning_rate": 0.0001,
      "loss": 8.8766,
      "loss/crossentropy": 2.3723970651626587,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.293814942240715,
      "step": 1406
    },
    {
      "epoch": 0.088,
      "grad_norm": 3.75,
      "grad_norm_var": 0.10246988932291666,
      "learning_rate": 0.0001,
      "loss": 8.8107,
      "loss/crossentropy": 2.3082317113876343,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3221370577812195,
      "step": 1408
    },
    {
      "epoch": 0.088125,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.09614969889322916,
      "learning_rate": 0.0001,
      "loss": 8.956,
      "loss/crossentropy": 2.4758397340774536,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33573949337005615,
      "step": 1410
    },
    {
      "epoch": 0.08825,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.05336812337239583,
      "learning_rate": 0.0001,
      "loss": 8.5994,
      "loss/crossentropy": 2.408522605895996,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29929833114147186,
      "step": 1412
    },
    {
      "epoch": 0.088375,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.05576883951822917,
      "learning_rate": 0.0001,
      "loss": 9.2281,
      "loss/crossentropy": 2.563318610191345,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32796354591846466,
      "step": 1414
    },
    {
      "epoch": 0.0885,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.05320536295572917,
      "learning_rate": 0.0001,
      "loss": 9.0656,
      "loss/crossentropy": 2.5199949741363525,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29131297767162323,
      "step": 1416
    },
    {
      "epoch": 0.088625,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.031525675455729166,
      "learning_rate": 0.0001,
      "loss": 8.8611,
      "loss/crossentropy": 2.536887049674988,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3120550215244293,
      "step": 1418
    },
    {
      "epoch": 0.08875,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.0244293212890625,
      "learning_rate": 0.0001,
      "loss": 8.9123,
      "loss/crossentropy": 2.215959906578064,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2943772077560425,
      "step": 1420
    },
    {
      "epoch": 0.088875,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.023173014322916668,
      "learning_rate": 0.0001,
      "loss": 8.9674,
      "loss/crossentropy": 2.1649523973464966,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3028850704431534,
      "step": 1422
    },
    {
      "epoch": 0.089,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.07156575520833333,
      "learning_rate": 0.0001,
      "loss": 8.9571,
      "loss/crossentropy": 2.379367709159851,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32595328986644745,
      "step": 1424
    },
    {
      "epoch": 0.089125,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.07255859375,
      "learning_rate": 0.0001,
      "loss": 9.0234,
      "loss/crossentropy": 2.441414713859558,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3373495191335678,
      "step": 1426
    },
    {
      "epoch": 0.08925,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.07247721354166667,
      "learning_rate": 0.0001,
      "loss": 9.2807,
      "loss/crossentropy": 2.720638632774353,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3340994864702225,
      "step": 1428
    },
    {
      "epoch": 0.089375,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.07625325520833333,
      "learning_rate": 0.0001,
      "loss": 8.9398,
      "loss/crossentropy": 2.171198010444641,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3092898577451706,
      "step": 1430
    },
    {
      "epoch": 0.0895,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.07291259765625,
      "learning_rate": 0.0001,
      "loss": 9.0595,
      "loss/crossentropy": 2.5796386003494263,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33887575566768646,
      "step": 1432
    },
    {
      "epoch": 0.089625,
      "grad_norm": 3.5,
      "grad_norm_var": 0.07304280598958333,
      "learning_rate": 0.0001,
      "loss": 8.7837,
      "loss/crossentropy": 2.264691114425659,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2661140263080597,
      "step": 1434
    },
    {
      "epoch": 0.08975,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.08142903645833334,
      "learning_rate": 0.0001,
      "loss": 8.9487,
      "loss/crossentropy": 2.474991798400879,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.308430016040802,
      "step": 1436
    },
    {
      "epoch": 0.089875,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.07261962890625,
      "learning_rate": 0.0001,
      "loss": 8.9615,
      "loss/crossentropy": 2.464845299720764,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29659199714660645,
      "step": 1438
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.034989420572916666,
      "learning_rate": 0.0001,
      "loss": 8.7208,
      "loss/crossentropy": 2.349491000175476,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31345631182193756,
      "step": 1440
    },
    {
      "epoch": 0.090125,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.063623046875,
      "learning_rate": 0.0001,
      "loss": 9.1662,
      "loss/crossentropy": 2.5956228971481323,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30429892241954803,
      "step": 1442
    },
    {
      "epoch": 0.09025,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.06392822265625,
      "learning_rate": 0.0001,
      "loss": 8.7371,
      "loss/crossentropy": 2.3084046840667725,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2794123440980911,
      "step": 1444
    },
    {
      "epoch": 0.090375,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.08909098307291667,
      "learning_rate": 0.0001,
      "loss": 8.6431,
      "loss/crossentropy": 2.0833881497383118,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2675230801105499,
      "step": 1446
    },
    {
      "epoch": 0.0905,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.08801676432291666,
      "learning_rate": 0.0001,
      "loss": 9.0263,
      "loss/crossentropy": 2.3375617265701294,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3266754746437073,
      "step": 1448
    },
    {
      "epoch": 0.090625,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.2819295247395833,
      "learning_rate": 0.0001,
      "loss": 9.0776,
      "loss/crossentropy": 2.259764075279236,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29133765399456024,
      "step": 1450
    },
    {
      "epoch": 0.09075,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.3140777587890625,
      "learning_rate": 0.0001,
      "loss": 8.755,
      "loss/crossentropy": 2.4632983207702637,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30049507319927216,
      "step": 1452
    },
    {
      "epoch": 0.090875,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.3232086181640625,
      "learning_rate": 0.0001,
      "loss": 8.8504,
      "loss/crossentropy": 2.3947253227233887,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2989191859960556,
      "step": 1454
    },
    {
      "epoch": 0.091,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.3135579427083333,
      "learning_rate": 0.0001,
      "loss": 8.7741,
      "loss/crossentropy": 2.366453766822815,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2914280444383621,
      "step": 1456
    },
    {
      "epoch": 0.091125,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.32301432291666665,
      "learning_rate": 0.0001,
      "loss": 8.6575,
      "loss/crossentropy": 2.1803172826766968,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3163032829761505,
      "step": 1458
    },
    {
      "epoch": 0.09125,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.32535400390625,
      "learning_rate": 0.0001,
      "loss": 9.0737,
      "loss/crossentropy": 2.459627389907837,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31055358052253723,
      "step": 1460
    },
    {
      "epoch": 0.091375,
      "grad_norm": 3.5,
      "grad_norm_var": 0.31604410807291666,
      "learning_rate": 0.0001,
      "loss": 8.8823,
      "loss/crossentropy": 2.204772710800171,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27741169929504395,
      "step": 1462
    },
    {
      "epoch": 0.0915,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.33539937337239584,
      "learning_rate": 0.0001,
      "loss": 8.8218,
      "loss/crossentropy": 2.3198187351226807,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3104029595851898,
      "step": 1464
    },
    {
      "epoch": 0.091625,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.08391520182291666,
      "learning_rate": 0.0001,
      "loss": 8.7448,
      "loss/crossentropy": 2.183798313140869,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31394851207733154,
      "step": 1466
    },
    {
      "epoch": 0.09175,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.07111714680989584,
      "learning_rate": 0.0001,
      "loss": 9.1398,
      "loss/crossentropy": 2.5468273162841797,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3174278736114502,
      "step": 1468
    },
    {
      "epoch": 0.091875,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.07214253743489583,
      "learning_rate": 0.0001,
      "loss": 8.887,
      "loss/crossentropy": 2.617543339729309,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28839461505413055,
      "step": 1470
    },
    {
      "epoch": 0.092,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.05963134765625,
      "learning_rate": 0.0001,
      "loss": 8.6417,
      "loss/crossentropy": 2.598427653312683,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.32050472497940063,
      "step": 1472
    },
    {
      "epoch": 0.092125,
      "grad_norm": 3.625,
      "grad_norm_var": 0.047883097330729166,
      "learning_rate": 0.0001,
      "loss": 9.0224,
      "loss/crossentropy": 2.545255661010742,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30465172231197357,
      "step": 1474
    },
    {
      "epoch": 0.09225,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.049267578125,
      "learning_rate": 0.0001,
      "loss": 8.8417,
      "loss/crossentropy": 2.4060131311416626,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.286019504070282,
      "step": 1476
    },
    {
      "epoch": 0.092375,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.022591145833333333,
      "learning_rate": 0.0001,
      "loss": 8.7607,
      "loss/crossentropy": 2.196686089038849,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2895347326993942,
      "step": 1478
    },
    {
      "epoch": 0.0925,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.03193257649739583,
      "learning_rate": 0.0001,
      "loss": 8.9549,
      "loss/crossentropy": 2.2161173820495605,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3376694321632385,
      "step": 1480
    },
    {
      "epoch": 0.092625,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.031916300455729164,
      "learning_rate": 0.0001,
      "loss": 8.9692,
      "loss/crossentropy": 2.4159319400787354,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.33057647943496704,
      "step": 1482
    },
    {
      "epoch": 0.09275,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.036844889322916664,
      "learning_rate": 0.0001,
      "loss": 8.7113,
      "loss/crossentropy": 2.301741361618042,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31546755135059357,
      "step": 1484
    },
    {
      "epoch": 0.092875,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.0347076416015625,
      "learning_rate": 0.0001,
      "loss": 8.9267,
      "loss/crossentropy": 2.2651939392089844,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30455446243286133,
      "step": 1486
    },
    {
      "epoch": 0.093,
      "grad_norm": 3.75,
      "grad_norm_var": 0.0397613525390625,
      "learning_rate": 0.0001,
      "loss": 9.0545,
      "loss/crossentropy": 2.5079206228256226,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3329392969608307,
      "step": 1488
    },
    {
      "epoch": 0.093125,
      "grad_norm": 3.625,
      "grad_norm_var": 0.04644775390625,
      "learning_rate": 0.0001,
      "loss": 9.1031,
      "loss/crossentropy": 2.3883864879608154,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31360116600990295,
      "step": 1490
    },
    {
      "epoch": 0.09325,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.04755859375,
      "learning_rate": 0.0001,
      "loss": 9.1668,
      "loss/crossentropy": 2.251497983932495,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32022619247436523,
      "step": 1492
    },
    {
      "epoch": 0.093375,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.0482818603515625,
      "learning_rate": 0.0001,
      "loss": 8.7119,
      "loss/crossentropy": 2.223703145980835,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2985079288482666,
      "step": 1494
    },
    {
      "epoch": 0.0935,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.04791259765625,
      "learning_rate": 0.0001,
      "loss": 8.7767,
      "loss/crossentropy": 2.3311924934387207,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29468269646167755,
      "step": 1496
    },
    {
      "epoch": 0.093625,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.05221354166666667,
      "learning_rate": 0.0001,
      "loss": 8.7455,
      "loss/crossentropy": 2.2993088960647583,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31247611343860626,
      "step": 1498
    },
    {
      "epoch": 0.09375,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.053376261393229166,
      "learning_rate": 0.0001,
      "loss": 8.7313,
      "loss/crossentropy": 2.2700235843658447,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2984912842512131,
      "step": 1500
    },
    {
      "epoch": 0.093875,
      "grad_norm": 4.84375,
      "grad_norm_var": 0.15165608723958332,
      "learning_rate": 0.0001,
      "loss": 8.8359,
      "loss/crossentropy": 2.365916609764099,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28694379329681396,
      "step": 1502
    },
    {
      "epoch": 0.094,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.15507710774739583,
      "learning_rate": 0.0001,
      "loss": 8.9381,
      "loss/crossentropy": 2.357543706893921,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3162877708673477,
      "step": 1504
    },
    {
      "epoch": 0.094125,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.16050516764322917,
      "learning_rate": 0.0001,
      "loss": 8.6509,
      "loss/crossentropy": 2.235751748085022,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31035009026527405,
      "step": 1506
    },
    {
      "epoch": 0.09425,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.15790913899739584,
      "learning_rate": 0.0001,
      "loss": 8.9785,
      "loss/crossentropy": 2.421581745147705,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.30988195538520813,
      "step": 1508
    },
    {
      "epoch": 0.094375,
      "grad_norm": 3.625,
      "grad_norm_var": 0.1599761962890625,
      "learning_rate": 0.0001,
      "loss": 8.9374,
      "loss/crossentropy": 2.314875602722168,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2935473322868347,
      "step": 1510
    },
    {
      "epoch": 0.0945,
      "grad_norm": 4.0,
      "grad_norm_var": 0.14195556640625,
      "learning_rate": 0.0001,
      "loss": 9.2329,
      "loss/crossentropy": 2.3859556913375854,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34312979876995087,
      "step": 1512
    },
    {
      "epoch": 0.094625,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.135791015625,
      "learning_rate": 0.0001,
      "loss": 8.8305,
      "loss/crossentropy": 2.4759390354156494,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30718210339546204,
      "step": 1514
    },
    {
      "epoch": 0.09475,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.13124593098958334,
      "learning_rate": 0.0001,
      "loss": 8.6304,
      "loss/crossentropy": 2.4228183031082153,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2753960192203522,
      "step": 1516
    },
    {
      "epoch": 0.094875,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.04909566243489583,
      "learning_rate": 0.0001,
      "loss": 8.9843,
      "loss/crossentropy": 2.4210203886032104,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30042560398578644,
      "step": 1518
    },
    {
      "epoch": 0.095,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.04656575520833333,
      "learning_rate": 0.0001,
      "loss": 9.012,
      "loss/crossentropy": 2.45758593082428,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29631373286247253,
      "step": 1520
    },
    {
      "epoch": 0.095125,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.049576822916666666,
      "learning_rate": 0.0001,
      "loss": 8.5905,
      "loss/crossentropy": 2.4333043098449707,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2933865636587143,
      "step": 1522
    },
    {
      "epoch": 0.09525,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.04767252604166667,
      "learning_rate": 0.0001,
      "loss": 9.0024,
      "loss/crossentropy": 2.32417368888855,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3141182065010071,
      "step": 1524
    },
    {
      "epoch": 0.095375,
      "grad_norm": 3.625,
      "grad_norm_var": 0.0506988525390625,
      "learning_rate": 0.0001,
      "loss": 9.1668,
      "loss/crossentropy": 2.473471999168396,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.3085293173789978,
      "step": 1526
    },
    {
      "epoch": 0.0955,
      "grad_norm": 3.625,
      "grad_norm_var": 0.0439605712890625,
      "learning_rate": 0.0001,
      "loss": 8.8465,
      "loss/crossentropy": 2.4285165071487427,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2852857708930969,
      "step": 1528
    },
    {
      "epoch": 0.095625,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.0430328369140625,
      "learning_rate": 0.0001,
      "loss": 8.6667,
      "loss/crossentropy": 2.263743579387665,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2716449797153473,
      "step": 1530
    },
    {
      "epoch": 0.09575,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.045979817708333336,
      "learning_rate": 0.0001,
      "loss": 8.8735,
      "loss/crossentropy": 2.331640362739563,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28873661160469055,
      "step": 1532
    },
    {
      "epoch": 0.095875,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.04674072265625,
      "learning_rate": 0.0001,
      "loss": 8.8375,
      "loss/crossentropy": 2.4132364988327026,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.285625159740448,
      "step": 1534
    },
    {
      "epoch": 0.096,
      "grad_norm": 3.375,
      "grad_norm_var": 0.039728800455729164,
      "learning_rate": 0.0001,
      "loss": 8.7776,
      "loss/crossentropy": 2.4001948833465576,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31654833257198334,
      "step": 1536
    },
    {
      "epoch": 0.096125,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.03581441243489583,
      "learning_rate": 0.0001,
      "loss": 8.8068,
      "loss/crossentropy": 2.258412718772888,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2980117201805115,
      "step": 1538
    },
    {
      "epoch": 0.09625,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.032958984375,
      "learning_rate": 0.0001,
      "loss": 8.3933,
      "loss/crossentropy": 2.3027628660202026,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28253039717674255,
      "step": 1540
    },
    {
      "epoch": 0.096375,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.024409993489583334,
      "learning_rate": 0.0001,
      "loss": 8.6451,
      "loss/crossentropy": 2.3603252172470093,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2751441150903702,
      "step": 1542
    },
    {
      "epoch": 0.0965,
      "grad_norm": 3.5,
      "grad_norm_var": 0.029710896809895835,
      "learning_rate": 0.0001,
      "loss": 8.6759,
      "loss/crossentropy": 2.5256091356277466,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26941487193107605,
      "step": 1544
    },
    {
      "epoch": 0.096625,
      "grad_norm": 4.0,
      "grad_norm_var": 0.04315999348958333,
      "learning_rate": 0.0001,
      "loss": 9.1672,
      "loss/crossentropy": 2.4796286821365356,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3184451460838318,
      "step": 1546
    },
    {
      "epoch": 0.09675,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.04156901041666667,
      "learning_rate": 0.0001,
      "loss": 8.8819,
      "loss/crossentropy": 2.4188071489334106,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31058116257190704,
      "step": 1548
    },
    {
      "epoch": 0.096875,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.045441691080729166,
      "learning_rate": 0.0001,
      "loss": 8.7315,
      "loss/crossentropy": 2.318482995033264,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2847931683063507,
      "step": 1550
    },
    {
      "epoch": 0.097,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.05179036458333333,
      "learning_rate": 0.0001,
      "loss": 8.8762,
      "loss/crossentropy": 2.24004590511322,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28266097605228424,
      "step": 1552
    },
    {
      "epoch": 0.097125,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.05720926920572917,
      "learning_rate": 0.0001,
      "loss": 8.6779,
      "loss/crossentropy": 2.10389643907547,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2705800235271454,
      "step": 1554
    },
    {
      "epoch": 0.09725,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.06609598795572917,
      "learning_rate": 0.0001,
      "loss": 8.7698,
      "loss/crossentropy": 2.2352887392044067,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30223119258880615,
      "step": 1556
    },
    {
      "epoch": 0.097375,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.09449869791666667,
      "learning_rate": 0.0001,
      "loss": 9.038,
      "loss/crossentropy": 2.4962942600250244,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3383851647377014,
      "step": 1558
    },
    {
      "epoch": 0.0975,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.07860921223958334,
      "learning_rate": 0.0001,
      "loss": 8.6868,
      "loss/crossentropy": 2.388336658477783,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2802818864583969,
      "step": 1560
    },
    {
      "epoch": 0.097625,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.06916910807291667,
      "learning_rate": 0.0001,
      "loss": 8.8473,
      "loss/crossentropy": 2.4475581645965576,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2849755436182022,
      "step": 1562
    },
    {
      "epoch": 0.09775,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.0787506103515625,
      "learning_rate": 0.0001,
      "loss": 8.5789,
      "loss/crossentropy": 2.5317403078079224,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29401715099811554,
      "step": 1564
    },
    {
      "epoch": 0.097875,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.08131103515625,
      "learning_rate": 0.0001,
      "loss": 8.9867,
      "loss/crossentropy": 2.547517776489258,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3130339980125427,
      "step": 1566
    },
    {
      "epoch": 0.098,
      "grad_norm": 3.625,
      "grad_norm_var": 0.07197265625,
      "learning_rate": 0.0001,
      "loss": 8.6146,
      "loss/crossentropy": 2.1298526525497437,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2899221330881119,
      "step": 1568
    },
    {
      "epoch": 0.098125,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.06285400390625,
      "learning_rate": 0.0001,
      "loss": 8.9054,
      "loss/crossentropy": 2.4564274549484253,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.313205823302269,
      "step": 1570
    },
    {
      "epoch": 0.09825,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.05227864583333333,
      "learning_rate": 0.0001,
      "loss": 9.0662,
      "loss/crossentropy": 2.246076822280884,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2935841381549835,
      "step": 1572
    },
    {
      "epoch": 0.098375,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.027961222330729167,
      "learning_rate": 0.0001,
      "loss": 8.9055,
      "loss/crossentropy": 2.38775098323822,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32380862534046173,
      "step": 1574
    },
    {
      "epoch": 0.0985,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.035700480143229164,
      "learning_rate": 0.0001,
      "loss": 8.7802,
      "loss/crossentropy": 2.3213651180267334,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2993357926607132,
      "step": 1576
    },
    {
      "epoch": 0.098625,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.04185282389322917,
      "learning_rate": 0.0001,
      "loss": 8.5289,
      "loss/crossentropy": 2.0965049266815186,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.279249906539917,
      "step": 1578
    },
    {
      "epoch": 0.09875,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.03489481608072917,
      "learning_rate": 0.0001,
      "loss": 8.6456,
      "loss/crossentropy": 2.1175107955932617,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.273018017411232,
      "step": 1580
    },
    {
      "epoch": 0.098875,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.032796223958333336,
      "learning_rate": 0.0001,
      "loss": 8.9137,
      "loss/crossentropy": 2.547134518623352,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3091147541999817,
      "step": 1582
    },
    {
      "epoch": 0.099,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.033589680989583336,
      "learning_rate": 0.0001,
      "loss": 8.678,
      "loss/crossentropy": 2.406341552734375,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2856515645980835,
      "step": 1584
    },
    {
      "epoch": 0.099125,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.06271870930989583,
      "learning_rate": 0.0001,
      "loss": 8.8898,
      "loss/crossentropy": 2.435731291770935,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29519233107566833,
      "step": 1586
    },
    {
      "epoch": 0.09925,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.0727447509765625,
      "learning_rate": 0.0001,
      "loss": 8.6688,
      "loss/crossentropy": 2.3164761066436768,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3253418505191803,
      "step": 1588
    },
    {
      "epoch": 0.099375,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.070654296875,
      "learning_rate": 0.0001,
      "loss": 8.6513,
      "loss/crossentropy": 2.2719457149505615,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30052798986434937,
      "step": 1590
    },
    {
      "epoch": 0.0995,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.07297770182291667,
      "learning_rate": 0.0001,
      "loss": 9.1721,
      "loss/crossentropy": 2.5084248781204224,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33814041316509247,
      "step": 1592
    },
    {
      "epoch": 0.099625,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.06483968098958333,
      "learning_rate": 0.0001,
      "loss": 8.9066,
      "loss/crossentropy": 2.382421851158142,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3085876405239105,
      "step": 1594
    },
    {
      "epoch": 0.09975,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.07033589680989584,
      "learning_rate": 0.0001,
      "loss": 8.7353,
      "loss/crossentropy": 2.3208523988723755,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3062067925930023,
      "step": 1596
    },
    {
      "epoch": 0.099875,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.06741434733072917,
      "learning_rate": 0.0001,
      "loss": 8.7032,
      "loss/crossentropy": 2.4263393878936768,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31763342022895813,
      "step": 1598
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.07450764973958333,
      "learning_rate": 0.0001,
      "loss": 8.6868,
      "loss/crossentropy": 2.247215509414673,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28044338524341583,
      "step": 1600
    },
    {
      "epoch": 0.100125,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.04682515462239583,
      "learning_rate": 0.0001,
      "loss": 8.7077,
      "loss/crossentropy": 2.3089388608932495,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28411509096622467,
      "step": 1602
    },
    {
      "epoch": 0.10025,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.046296183268229166,
      "learning_rate": 0.0001,
      "loss": 9.043,
      "loss/crossentropy": 2.711973190307617,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.310742050409317,
      "step": 1604
    },
    {
      "epoch": 0.100375,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.05012919108072917,
      "learning_rate": 0.0001,
      "loss": 8.7587,
      "loss/crossentropy": 2.206353545188904,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30005398392677307,
      "step": 1606
    },
    {
      "epoch": 0.1005,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.042740885416666666,
      "learning_rate": 0.0001,
      "loss": 8.7516,
      "loss/crossentropy": 2.3755295276641846,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28789104521274567,
      "step": 1608
    },
    {
      "epoch": 0.100625,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.04962565104166667,
      "learning_rate": 0.0001,
      "loss": 8.9675,
      "loss/crossentropy": 2.5117024183273315,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2872663736343384,
      "step": 1610
    },
    {
      "epoch": 0.10075,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.05524088541666667,
      "learning_rate": 0.0001,
      "loss": 8.8949,
      "loss/crossentropy": 2.1095504760742188,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26681819558143616,
      "step": 1612
    },
    {
      "epoch": 0.100875,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.05439351399739583,
      "learning_rate": 0.0001,
      "loss": 9.0907,
      "loss/crossentropy": 2.536198377609253,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3001484125852585,
      "step": 1614
    },
    {
      "epoch": 0.101,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.044331868489583336,
      "learning_rate": 0.0001,
      "loss": 8.6285,
      "loss/crossentropy": 2.444958448410034,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2898731231689453,
      "step": 1616
    },
    {
      "epoch": 0.101125,
      "grad_norm": 3.5,
      "grad_norm_var": 0.04670308430989583,
      "learning_rate": 0.0001,
      "loss": 8.5124,
      "loss/crossentropy": 2.492483615875244,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29097048938274384,
      "step": 1618
    },
    {
      "epoch": 0.10125,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.039159138997395836,
      "learning_rate": 0.0001,
      "loss": 8.5946,
      "loss/crossentropy": 2.3776297569274902,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2919171154499054,
      "step": 1620
    },
    {
      "epoch": 0.101375,
      "grad_norm": 3.625,
      "grad_norm_var": 0.039704386393229166,
      "learning_rate": 0.0001,
      "loss": 8.8745,
      "loss/crossentropy": 2.458945870399475,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31617042422294617,
      "step": 1622
    },
    {
      "epoch": 0.1015,
      "grad_norm": 4.5,
      "grad_norm_var": 0.09348551432291667,
      "learning_rate": 0.0001,
      "loss": 8.7595,
      "loss/crossentropy": 2.2380698919296265,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32717761397361755,
      "step": 1624
    },
    {
      "epoch": 0.101625,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.0921051025390625,
      "learning_rate": 0.0001,
      "loss": 8.8646,
      "loss/crossentropy": 2.504348874092102,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29782192409038544,
      "step": 1626
    },
    {
      "epoch": 0.10175,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.09677734375,
      "learning_rate": 0.0001,
      "loss": 8.5019,
      "loss/crossentropy": 2.281771183013916,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2809130549430847,
      "step": 1628
    },
    {
      "epoch": 0.101875,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.09638671875,
      "learning_rate": 0.0001,
      "loss": 8.7456,
      "loss/crossentropy": 2.131038784980774,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2949763238430023,
      "step": 1630
    },
    {
      "epoch": 0.102,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.11483968098958333,
      "learning_rate": 0.0001,
      "loss": 8.5063,
      "loss/crossentropy": 2.3742181062698364,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30859068036079407,
      "step": 1632
    },
    {
      "epoch": 0.102125,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.1124176025390625,
      "learning_rate": 0.0001,
      "loss": 8.5566,
      "loss/crossentropy": 2.250689148902893,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2848288118839264,
      "step": 1634
    },
    {
      "epoch": 0.10225,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.10181884765625,
      "learning_rate": 0.0001,
      "loss": 8.7109,
      "loss/crossentropy": 2.4584755897521973,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29475922882556915,
      "step": 1636
    },
    {
      "epoch": 0.102375,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.10305074055989584,
      "learning_rate": 0.0001,
      "loss": 8.5859,
      "loss/crossentropy": 2.243297576904297,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2687932550907135,
      "step": 1638
    },
    {
      "epoch": 0.1025,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.05028889973958333,
      "learning_rate": 0.0001,
      "loss": 8.807,
      "loss/crossentropy": 2.3591182231903076,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2878338694572449,
      "step": 1640
    },
    {
      "epoch": 0.102625,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.0458892822265625,
      "learning_rate": 0.0001,
      "loss": 8.7064,
      "loss/crossentropy": 2.53536856174469,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28173747658729553,
      "step": 1642
    },
    {
      "epoch": 0.10275,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.043879191080729164,
      "learning_rate": 0.0001,
      "loss": 8.5829,
      "loss/crossentropy": 2.5345053672790527,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30797943472862244,
      "step": 1644
    },
    {
      "epoch": 0.102875,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.04512430826822917,
      "learning_rate": 0.0001,
      "loss": 8.5724,
      "loss/crossentropy": 2.3095182180404663,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2998042106628418,
      "step": 1646
    },
    {
      "epoch": 0.103,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.0231842041015625,
      "learning_rate": 0.0001,
      "loss": 8.6461,
      "loss/crossentropy": 2.2530897855758667,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30125299096107483,
      "step": 1648
    },
    {
      "epoch": 0.103125,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.021875,
      "learning_rate": 0.0001,
      "loss": 8.878,
      "loss/crossentropy": 2.557194471359253,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28575199842453003,
      "step": 1650
    },
    {
      "epoch": 0.10325,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.0226226806640625,
      "learning_rate": 0.0001,
      "loss": 8.5783,
      "loss/crossentropy": 2.4618316888809204,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.305898517370224,
      "step": 1652
    },
    {
      "epoch": 0.103375,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.02310791015625,
      "learning_rate": 0.0001,
      "loss": 8.5743,
      "loss/crossentropy": 2.524722933769226,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29061686992645264,
      "step": 1654
    },
    {
      "epoch": 0.1035,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.022142537434895835,
      "learning_rate": 0.0001,
      "loss": 8.4769,
      "loss/crossentropy": 2.602474570274353,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2977643758058548,
      "step": 1656
    },
    {
      "epoch": 0.103625,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.022086588541666667,
      "learning_rate": 0.0001,
      "loss": 8.7637,
      "loss/crossentropy": 2.364400863647461,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31225910782814026,
      "step": 1658
    },
    {
      "epoch": 0.10375,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.02642822265625,
      "learning_rate": 0.0001,
      "loss": 8.6777,
      "loss/crossentropy": 2.4924440383911133,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3066846579313278,
      "step": 1660
    },
    {
      "epoch": 0.103875,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.02388916015625,
      "learning_rate": 0.0001,
      "loss": 8.4898,
      "loss/crossentropy": 2.183597683906555,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.2970152199268341,
      "step": 1662
    },
    {
      "epoch": 0.104,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.02330322265625,
      "learning_rate": 0.0001,
      "loss": 8.6848,
      "loss/crossentropy": 2.5557087659835815,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29651692509651184,
      "step": 1664
    },
    {
      "epoch": 0.104125,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.0264312744140625,
      "learning_rate": 0.0001,
      "loss": 8.6747,
      "loss/crossentropy": 2.3465185165405273,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30662697553634644,
      "step": 1666
    },
    {
      "epoch": 0.10425,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.0306793212890625,
      "learning_rate": 0.0001,
      "loss": 8.6526,
      "loss/crossentropy": 2.4796379804611206,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3008027672767639,
      "step": 1668
    },
    {
      "epoch": 0.104375,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.04387613932291667,
      "learning_rate": 0.0001,
      "loss": 8.9315,
      "loss/crossentropy": 2.4333351850509644,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.29662713408470154,
      "step": 1670
    },
    {
      "epoch": 0.1045,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.08879801432291666,
      "learning_rate": 0.0001,
      "loss": 8.6483,
      "loss/crossentropy": 2.0529088377952576,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.283397376537323,
      "step": 1672
    },
    {
      "epoch": 0.104625,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.089306640625,
      "learning_rate": 0.0001,
      "loss": 8.8812,
      "loss/crossentropy": 2.5718494653701782,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32283854484558105,
      "step": 1674
    },
    {
      "epoch": 0.10475,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.07821858723958333,
      "learning_rate": 0.0001,
      "loss": 8.6264,
      "loss/crossentropy": 2.301028847694397,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3003203123807907,
      "step": 1676
    },
    {
      "epoch": 0.104875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.08322652180989583,
      "learning_rate": 0.0001,
      "loss": 8.5515,
      "loss/crossentropy": 2.2602317333221436,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26862217485904694,
      "step": 1678
    },
    {
      "epoch": 0.105,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.08742574055989584,
      "learning_rate": 0.0001,
      "loss": 8.5586,
      "loss/crossentropy": 2.6255671977996826,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3011835664510727,
      "step": 1680
    },
    {
      "epoch": 0.105125,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.09278055826822916,
      "learning_rate": 0.0001,
      "loss": 8.6635,
      "loss/crossentropy": 2.5335636138916016,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28424978256225586,
      "step": 1682
    },
    {
      "epoch": 0.10525,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.08586324055989583,
      "learning_rate": 0.0001,
      "loss": 8.6685,
      "loss/crossentropy": 2.275408983230591,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2945568561553955,
      "step": 1684
    },
    {
      "epoch": 0.105375,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.07172749837239584,
      "learning_rate": 0.0001,
      "loss": 8.6884,
      "loss/crossentropy": 2.459862232208252,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2846823185682297,
      "step": 1686
    },
    {
      "epoch": 0.1055,
      "grad_norm": 3.984375,
      "grad_norm_var": 0.046418253580729166,
      "learning_rate": 0.0001,
      "loss": 8.5572,
      "loss/crossentropy": 2.2836594581604004,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2825407385826111,
      "step": 1688
    },
    {
      "epoch": 0.105625,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.04759012858072917,
      "learning_rate": 0.0001,
      "loss": 8.8016,
      "loss/crossentropy": 2.0917385816574097,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.290659636259079,
      "step": 1690
    },
    {
      "epoch": 0.10575,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.05226949055989583,
      "learning_rate": 0.0001,
      "loss": 8.6239,
      "loss/crossentropy": 2.3286694288253784,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29725848138332367,
      "step": 1692
    },
    {
      "epoch": 0.105875,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.047093709309895836,
      "learning_rate": 0.0001,
      "loss": 8.6667,
      "loss/crossentropy": 2.1655561327934265,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2947119176387787,
      "step": 1694
    },
    {
      "epoch": 0.106,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.04413655598958333,
      "learning_rate": 0.0001,
      "loss": 8.9215,
      "loss/crossentropy": 2.4700855016708374,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2996203601360321,
      "step": 1696
    },
    {
      "epoch": 0.106125,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.0376129150390625,
      "learning_rate": 0.0001,
      "loss": 8.6172,
      "loss/crossentropy": 2.4698420763015747,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2655749022960663,
      "step": 1698
    },
    {
      "epoch": 0.10625,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.03808186848958333,
      "learning_rate": 0.0001,
      "loss": 8.5207,
      "loss/crossentropy": 2.3951499462127686,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3072836995124817,
      "step": 1700
    },
    {
      "epoch": 0.106375,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.038182576497395836,
      "learning_rate": 0.0001,
      "loss": 8.6023,
      "loss/crossentropy": 2.334869146347046,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2989247292280197,
      "step": 1702
    },
    {
      "epoch": 0.1065,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.11238606770833333,
      "learning_rate": 0.0001,
      "loss": 8.6929,
      "loss/crossentropy": 2.1444605588912964,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31034591794013977,
      "step": 1704
    },
    {
      "epoch": 0.106625,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.11077473958333334,
      "learning_rate": 0.0001,
      "loss": 8.6212,
      "loss/crossentropy": 2.298153877258301,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27205270528793335,
      "step": 1706
    },
    {
      "epoch": 0.10675,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.10321858723958334,
      "learning_rate": 0.0001,
      "loss": 8.6963,
      "loss/crossentropy": 2.4254097938537598,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32095080614089966,
      "step": 1708
    },
    {
      "epoch": 0.106875,
      "grad_norm": 3.5,
      "grad_norm_var": 0.10187174479166666,
      "learning_rate": 0.0001,
      "loss": 8.4695,
      "loss/crossentropy": 2.1711431741714478,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2679228186607361,
      "step": 1710
    },
    {
      "epoch": 0.107,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.10679423014322917,
      "learning_rate": 0.0001,
      "loss": 8.3566,
      "loss/crossentropy": 2.1170949935913086,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3108642250299454,
      "step": 1712
    },
    {
      "epoch": 0.107125,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.11456705729166666,
      "learning_rate": 0.0001,
      "loss": 8.644,
      "loss/crossentropy": 2.5449509620666504,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3044998347759247,
      "step": 1714
    },
    {
      "epoch": 0.10725,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.13430582682291667,
      "learning_rate": 0.0001,
      "loss": 8.8835,
      "loss/crossentropy": 2.4760228395462036,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32176442444324493,
      "step": 1716
    },
    {
      "epoch": 0.107375,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.13414306640625,
      "learning_rate": 0.0001,
      "loss": 8.6377,
      "loss/crossentropy": 2.3086230754852295,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3137579560279846,
      "step": 1718
    },
    {
      "epoch": 0.1075,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.04918212890625,
      "learning_rate": 0.0001,
      "loss": 8.9384,
      "loss/crossentropy": 2.650801420211792,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31000974774360657,
      "step": 1720
    },
    {
      "epoch": 0.107625,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.054248046875,
      "learning_rate": 0.0001,
      "loss": 9.2105,
      "loss/crossentropy": 2.595288038253784,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3103038817644119,
      "step": 1722
    },
    {
      "epoch": 0.10775,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.057038370768229166,
      "learning_rate": 0.0001,
      "loss": 8.8991,
      "loss/crossentropy": 2.5326555967330933,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3022647351026535,
      "step": 1724
    },
    {
      "epoch": 0.107875,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.059403483072916666,
      "learning_rate": 0.0001,
      "loss": 8.8281,
      "loss/crossentropy": 2.4913820028305054,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2860126197338104,
      "step": 1726
    },
    {
      "epoch": 0.108,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.06424153645833333,
      "learning_rate": 0.0001,
      "loss": 8.7805,
      "loss/crossentropy": 2.1372629404067993,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28189751505851746,
      "step": 1728
    },
    {
      "epoch": 0.108125,
      "grad_norm": 3.625,
      "grad_norm_var": 0.0627593994140625,
      "learning_rate": 0.0001,
      "loss": 8.8053,
      "loss/crossentropy": 2.432206392288208,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35032832622528076,
      "step": 1730
    },
    {
      "epoch": 0.10825,
      "grad_norm": 3.5,
      "grad_norm_var": 0.0415191650390625,
      "learning_rate": 0.0001,
      "loss": 8.6348,
      "loss/crossentropy": 2.4481922388076782,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28543633222579956,
      "step": 1732
    },
    {
      "epoch": 0.108375,
      "grad_norm": 3.375,
      "grad_norm_var": 0.04326171875,
      "learning_rate": 0.0001,
      "loss": 8.691,
      "loss/crossentropy": 2.38582444190979,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3336361348628998,
      "step": 1734
    },
    {
      "epoch": 0.1085,
      "grad_norm": 3.5,
      "grad_norm_var": 0.05136311848958333,
      "learning_rate": 0.0001,
      "loss": 8.5918,
      "loss/crossentropy": 2.606018543243408,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30366943776607513,
      "step": 1736
    },
    {
      "epoch": 0.108625,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.03434956868489583,
      "learning_rate": 0.0001,
      "loss": 8.7135,
      "loss/crossentropy": 2.3895175457000732,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3109103590250015,
      "step": 1738
    },
    {
      "epoch": 0.10875,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.037328084309895836,
      "learning_rate": 0.0001,
      "loss": 8.4959,
      "loss/crossentropy": 2.0861340761184692,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28380608558654785,
      "step": 1740
    },
    {
      "epoch": 0.108875,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.03951416015625,
      "learning_rate": 0.0001,
      "loss": 8.7312,
      "loss/crossentropy": 2.449671506881714,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28429578244686127,
      "step": 1742
    },
    {
      "epoch": 0.109,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.037385050455729166,
      "learning_rate": 0.0001,
      "loss": 8.4461,
      "loss/crossentropy": 2.4647138118743896,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2784615755081177,
      "step": 1744
    },
    {
      "epoch": 0.109125,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.033177693684895836,
      "learning_rate": 0.0001,
      "loss": 8.7449,
      "loss/crossentropy": 2.3156272172927856,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2726980447769165,
      "step": 1746
    },
    {
      "epoch": 0.10925,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.03411458333333333,
      "learning_rate": 0.0001,
      "loss": 8.613,
      "loss/crossentropy": 1.9271941781044006,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2630353271961212,
      "step": 1748
    },
    {
      "epoch": 0.109375,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.03327534993489583,
      "learning_rate": 0.0001,
      "loss": 8.501,
      "loss/crossentropy": 2.2124346494674683,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29161450266838074,
      "step": 1750
    },
    {
      "epoch": 0.1095,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.0279296875,
      "learning_rate": 0.0001,
      "loss": 8.8103,
      "loss/crossentropy": 2.3019338846206665,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29614363610744476,
      "step": 1752
    },
    {
      "epoch": 0.109625,
      "grad_norm": 3.875,
      "grad_norm_var": 0.0394927978515625,
      "learning_rate": 0.0001,
      "loss": 8.6762,
      "loss/crossentropy": 2.299665927886963,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2929713726043701,
      "step": 1754
    },
    {
      "epoch": 0.10975,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.05947163899739583,
      "learning_rate": 0.0001,
      "loss": 8.7112,
      "loss/crossentropy": 2.4006038904190063,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2871282994747162,
      "step": 1756
    },
    {
      "epoch": 0.109875,
      "grad_norm": 3.5,
      "grad_norm_var": 0.04921875,
      "learning_rate": 0.0001,
      "loss": 8.6092,
      "loss/crossentropy": 2.2746243476867676,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3178953379392624,
      "step": 1758
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.05380859375,
      "learning_rate": 0.0001,
      "loss": 8.4347,
      "loss/crossentropy": 2.152518630027771,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.308669313788414,
      "step": 1760
    },
    {
      "epoch": 0.110125,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.05754801432291667,
      "learning_rate": 0.0001,
      "loss": 8.515,
      "loss/crossentropy": 2.313698410987854,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.312808558344841,
      "step": 1762
    },
    {
      "epoch": 0.11025,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.05791015625,
      "learning_rate": 0.0001,
      "loss": 8.4938,
      "loss/crossentropy": 2.2726303339004517,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2869200110435486,
      "step": 1764
    },
    {
      "epoch": 0.110375,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.05747782389322917,
      "learning_rate": 0.0001,
      "loss": 8.547,
      "loss/crossentropy": 2.309714913368225,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2861059010028839,
      "step": 1766
    },
    {
      "epoch": 0.1105,
      "grad_norm": 3.5,
      "grad_norm_var": 0.056493123372395836,
      "learning_rate": 0.0001,
      "loss": 8.7686,
      "loss/crossentropy": 2.429977536201477,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30839361250400543,
      "step": 1768
    },
    {
      "epoch": 0.110625,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.049437459309895834,
      "learning_rate": 0.0001,
      "loss": 8.486,
      "loss/crossentropy": 2.1271519660949707,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26674604415893555,
      "step": 1770
    },
    {
      "epoch": 0.11075,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.02265625,
      "learning_rate": 0.0001,
      "loss": 8.6498,
      "loss/crossentropy": 2.4554080963134766,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2772922068834305,
      "step": 1772
    },
    {
      "epoch": 0.110875,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.021906534830729168,
      "learning_rate": 0.0001,
      "loss": 8.4247,
      "loss/crossentropy": 2.179062843322754,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2816423773765564,
      "step": 1774
    },
    {
      "epoch": 0.111,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.0189117431640625,
      "learning_rate": 0.0001,
      "loss": 8.6942,
      "loss/crossentropy": 2.2097833156585693,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30545778572559357,
      "step": 1776
    },
    {
      "epoch": 0.111125,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.0134429931640625,
      "learning_rate": 0.0001,
      "loss": 8.5308,
      "loss/crossentropy": 2.35193407535553,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27761800587177277,
      "step": 1778
    },
    {
      "epoch": 0.11125,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.0426666259765625,
      "learning_rate": 0.0001,
      "loss": 8.7591,
      "loss/crossentropy": 2.8923500776290894,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31674572825431824,
      "step": 1780
    },
    {
      "epoch": 0.111375,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.04739176432291667,
      "learning_rate": 0.0001,
      "loss": 8.7339,
      "loss/crossentropy": 2.4018853902816772,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3184930384159088,
      "step": 1782
    },
    {
      "epoch": 0.1115,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0567047119140625,
      "learning_rate": 0.0001,
      "loss": 8.5982,
      "loss/crossentropy": 2.486867070198059,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28121723234653473,
      "step": 1784
    },
    {
      "epoch": 0.111625,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.05657145182291667,
      "learning_rate": 0.0001,
      "loss": 8.9316,
      "loss/crossentropy": 2.6467264890670776,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33492469787597656,
      "step": 1786
    },
    {
      "epoch": 0.11175,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.05624593098958333,
      "learning_rate": 0.0001,
      "loss": 8.7063,
      "loss/crossentropy": 2.251604914665222,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30116818845272064,
      "step": 1788
    },
    {
      "epoch": 0.111875,
      "grad_norm": 3.5,
      "grad_norm_var": 0.056966145833333336,
      "learning_rate": 0.0001,
      "loss": 8.4636,
      "loss/crossentropy": 2.1624085903167725,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2598511800169945,
      "step": 1790
    },
    {
      "epoch": 0.112,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.056818644205729164,
      "learning_rate": 0.0001,
      "loss": 8.4571,
      "loss/crossentropy": 2.0495232343673706,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24547497928142548,
      "step": 1792
    },
    {
      "epoch": 0.112125,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.059794108072916664,
      "learning_rate": 0.0001,
      "loss": 8.8322,
      "loss/crossentropy": 2.664864659309387,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30460360646247864,
      "step": 1794
    },
    {
      "epoch": 0.11225,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.0298492431640625,
      "learning_rate": 0.0001,
      "loss": 8.646,
      "loss/crossentropy": 2.494004487991333,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2763901799917221,
      "step": 1796
    },
    {
      "epoch": 0.112375,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.032515462239583334,
      "learning_rate": 0.0001,
      "loss": 8.3741,
      "loss/crossentropy": 2.1645578145980835,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2648225873708725,
      "step": 1798
    },
    {
      "epoch": 0.1125,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.024413045247395834,
      "learning_rate": 0.0001,
      "loss": 8.4112,
      "loss/crossentropy": 2.09485399723053,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2805396020412445,
      "step": 1800
    },
    {
      "epoch": 0.112625,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.022313435872395832,
      "learning_rate": 0.0001,
      "loss": 8.6201,
      "loss/crossentropy": 2.369633436203003,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2918958216905594,
      "step": 1802
    },
    {
      "epoch": 0.11275,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.026656087239583334,
      "learning_rate": 0.0001,
      "loss": 8.4743,
      "loss/crossentropy": 2.522893786430359,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2649436295032501,
      "step": 1804
    },
    {
      "epoch": 0.112875,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.03322652180989583,
      "learning_rate": 0.0001,
      "loss": 8.6938,
      "loss/crossentropy": 2.4980560541152954,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3046301603317261,
      "step": 1806
    },
    {
      "epoch": 0.113,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.07986551920572917,
      "learning_rate": 0.0001,
      "loss": 8.6725,
      "loss/crossentropy": 2.320141911506653,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3137675076723099,
      "step": 1808
    },
    {
      "epoch": 0.113125,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.08251546223958334,
      "learning_rate": 0.0001,
      "loss": 8.7972,
      "loss/crossentropy": 2.2626017332077026,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2625807821750641,
      "step": 1810
    },
    {
      "epoch": 0.11325,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.08018290201822917,
      "learning_rate": 0.0001,
      "loss": 8.6687,
      "loss/crossentropy": 2.136113405227661,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.30796822905540466,
      "step": 1812
    },
    {
      "epoch": 0.113375,
      "grad_norm": 5.5625,
      "grad_norm_var": 0.3128326416015625,
      "learning_rate": 0.0001,
      "loss": 9.0458,
      "loss/crossentropy": 2.75032639503479,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31279677152633667,
      "step": 1814
    },
    {
      "epoch": 0.1135,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.3737457275390625,
      "learning_rate": 0.0001,
      "loss": 9.1144,
      "loss/crossentropy": 2.538609027862549,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32450392842292786,
      "step": 1816
    },
    {
      "epoch": 0.113625,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.44909566243489585,
      "learning_rate": 0.0001,
      "loss": 8.8125,
      "loss/crossentropy": 2.322131633758545,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3943719118833542,
      "step": 1818
    },
    {
      "epoch": 0.11375,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.445068359375,
      "learning_rate": 0.0001,
      "loss": 8.4801,
      "loss/crossentropy": 2.363473057746887,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30813442170619965,
      "step": 1820
    },
    {
      "epoch": 0.113875,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.4840169270833333,
      "learning_rate": 0.0001,
      "loss": 8.5864,
      "loss/crossentropy": 2.3755160570144653,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2846773564815521,
      "step": 1822
    },
    {
      "epoch": 0.114,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.5322580973307292,
      "learning_rate": 0.0001,
      "loss": 8.4673,
      "loss/crossentropy": 2.3385982513427734,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2795634865760803,
      "step": 1824
    },
    {
      "epoch": 0.114125,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.5356730143229167,
      "learning_rate": 0.0001,
      "loss": 8.5786,
      "loss/crossentropy": 2.5109734535217285,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28478285670280457,
      "step": 1826
    },
    {
      "epoch": 0.11425,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.5471995035807292,
      "learning_rate": 0.0001,
      "loss": 8.6909,
      "loss/crossentropy": 2.5854321718215942,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31594397127628326,
      "step": 1828
    },
    {
      "epoch": 0.114375,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.3377349853515625,
      "learning_rate": 0.0001,
      "loss": 8.5017,
      "loss/crossentropy": 2.3423889875411987,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3003038465976715,
      "step": 1830
    },
    {
      "epoch": 0.1145,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.2010406494140625,
      "learning_rate": 0.0001,
      "loss": 8.8625,
      "loss/crossentropy": 2.612884998321533,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28992408514022827,
      "step": 1832
    },
    {
      "epoch": 0.114625,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.026301066080729168,
      "learning_rate": 0.0001,
      "loss": 8.6717,
      "loss/crossentropy": 2.2408013343811035,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27288930118083954,
      "step": 1834
    },
    {
      "epoch": 0.11475,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.023957316080729166,
      "learning_rate": 0.0001,
      "loss": 8.7519,
      "loss/crossentropy": 2.5239880084991455,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.3304894417524338,
      "step": 1836
    },
    {
      "epoch": 0.114875,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.017365519205729166,
      "learning_rate": 0.0001,
      "loss": 8.5288,
      "loss/crossentropy": 2.295746088027954,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28775452077388763,
      "step": 1838
    },
    {
      "epoch": 0.115,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.020198567708333334,
      "learning_rate": 0.0001,
      "loss": 8.5755,
      "loss/crossentropy": 2.367674708366394,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2802489101886749,
      "step": 1840
    },
    {
      "epoch": 0.115125,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.022777303059895834,
      "learning_rate": 0.0001,
      "loss": 8.6102,
      "loss/crossentropy": 2.387988567352295,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2998049259185791,
      "step": 1842
    },
    {
      "epoch": 0.11525,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.0284576416015625,
      "learning_rate": 0.0001,
      "loss": 8.4168,
      "loss/crossentropy": 2.1790847778320312,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2700785994529724,
      "step": 1844
    },
    {
      "epoch": 0.115375,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.024803670247395833,
      "learning_rate": 0.0001,
      "loss": 8.7029,
      "loss/crossentropy": 2.5277167558670044,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3007604479789734,
      "step": 1846
    },
    {
      "epoch": 0.1155,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.021043904622395835,
      "learning_rate": 0.0001,
      "loss": 8.7105,
      "loss/crossentropy": 2.417070746421814,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30565008521080017,
      "step": 1848
    },
    {
      "epoch": 0.115625,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.03267313639322917,
      "learning_rate": 0.0001,
      "loss": 8.7572,
      "loss/crossentropy": 2.581299304962158,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2796669900417328,
      "step": 1850
    },
    {
      "epoch": 0.11575,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.03391825358072917,
      "learning_rate": 0.0001,
      "loss": 8.7661,
      "loss/crossentropy": 2.385110855102539,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2876836359500885,
      "step": 1852
    },
    {
      "epoch": 0.115875,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.036637369791666666,
      "learning_rate": 0.0001,
      "loss": 9.1625,
      "loss/crossentropy": 2.503122568130493,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3233593702316284,
      "step": 1854
    },
    {
      "epoch": 0.116,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.03401590983072917,
      "learning_rate": 0.0001,
      "loss": 8.964,
      "loss/crossentropy": 2.4058728218078613,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.349610835313797,
      "step": 1856
    },
    {
      "epoch": 0.116125,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.032796223958333336,
      "learning_rate": 0.0001,
      "loss": 8.6335,
      "loss/crossentropy": 2.472745180130005,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28807832300662994,
      "step": 1858
    },
    {
      "epoch": 0.11625,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.026276652018229166,
      "learning_rate": 0.0001,
      "loss": 8.6263,
      "loss/crossentropy": 2.377658724784851,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2969461679458618,
      "step": 1860
    },
    {
      "epoch": 0.116375,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.030744425455729165,
      "learning_rate": 0.0001,
      "loss": 8.523,
      "loss/crossentropy": 2.261406660079956,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2751418948173523,
      "step": 1862
    },
    {
      "epoch": 0.1165,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.033722941080729166,
      "learning_rate": 0.0001,
      "loss": 8.552,
      "loss/crossentropy": 2.3539315462112427,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2792647182941437,
      "step": 1864
    },
    {
      "epoch": 0.116625,
      "grad_norm": 3.375,
      "grad_norm_var": 0.026949055989583335,
      "learning_rate": 0.0001,
      "loss": 8.5773,
      "loss/crossentropy": 2.5640159845352173,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2862507700920105,
      "step": 1866
    },
    {
      "epoch": 0.11675,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.032013956705729166,
      "learning_rate": 0.0001,
      "loss": 8.489,
      "loss/crossentropy": 2.419552803039551,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28335337340831757,
      "step": 1868
    },
    {
      "epoch": 0.116875,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.029059855143229167,
      "learning_rate": 0.0001,
      "loss": 8.2858,
      "loss/crossentropy": 2.206141471862793,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2972014546394348,
      "step": 1870
    },
    {
      "epoch": 0.117,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.03101806640625,
      "learning_rate": 0.0001,
      "loss": 8.4301,
      "loss/crossentropy": 2.2040516138076782,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28033290803432465,
      "step": 1872
    },
    {
      "epoch": 0.117125,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.0343902587890625,
      "learning_rate": 0.0001,
      "loss": 8.6147,
      "loss/crossentropy": 2.4695621728897095,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28286705911159515,
      "step": 1874
    },
    {
      "epoch": 0.11725,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.03194986979166667,
      "learning_rate": 0.0001,
      "loss": 8.6246,
      "loss/crossentropy": 2.3480403423309326,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29076308012008667,
      "step": 1876
    },
    {
      "epoch": 0.117375,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.033991495768229164,
      "learning_rate": 0.0001,
      "loss": 8.6359,
      "loss/crossentropy": 2.3183737993240356,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29951538145542145,
      "step": 1878
    },
    {
      "epoch": 0.1175,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.03533528645833333,
      "learning_rate": 0.0001,
      "loss": 8.7296,
      "loss/crossentropy": 2.259859085083008,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28555014729499817,
      "step": 1880
    },
    {
      "epoch": 0.117625,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.03573811848958333,
      "learning_rate": 0.0001,
      "loss": 8.5874,
      "loss/crossentropy": 2.5705759525299072,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2966092526912689,
      "step": 1882
    },
    {
      "epoch": 0.11775,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.034619140625,
      "learning_rate": 0.0001,
      "loss": 8.6653,
      "loss/crossentropy": 2.324189782142639,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28070059418678284,
      "step": 1884
    },
    {
      "epoch": 0.117875,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.06123046875,
      "learning_rate": 0.0001,
      "loss": 8.9445,
      "loss/crossentropy": 2.6003164052963257,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.42599718272686005,
      "step": 1886
    },
    {
      "epoch": 0.118,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.06826070149739584,
      "learning_rate": 0.0001,
      "loss": 8.4642,
      "loss/crossentropy": 2.1944313049316406,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27223484218120575,
      "step": 1888
    },
    {
      "epoch": 0.118125,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.0644683837890625,
      "learning_rate": 0.0001,
      "loss": 8.6562,
      "loss/crossentropy": 2.445297122001648,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29588577151298523,
      "step": 1890
    },
    {
      "epoch": 0.11825,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.08600260416666666,
      "learning_rate": 0.0001,
      "loss": 8.6856,
      "loss/crossentropy": 2.2999027371406555,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2753405198454857,
      "step": 1892
    },
    {
      "epoch": 0.118375,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.07831929524739584,
      "learning_rate": 0.0001,
      "loss": 8.5229,
      "loss/crossentropy": 2.399373769760132,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2927252948284149,
      "step": 1894
    },
    {
      "epoch": 0.1185,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.07942606608072916,
      "learning_rate": 0.0001,
      "loss": 8.5229,
      "loss/crossentropy": 2.4299787282943726,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30517131090164185,
      "step": 1896
    },
    {
      "epoch": 0.118625,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.07559305826822917,
      "learning_rate": 0.0001,
      "loss": 8.4977,
      "loss/crossentropy": 1.9518161416053772,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27373121678829193,
      "step": 1898
    },
    {
      "epoch": 0.11875,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.07967020670572916,
      "learning_rate": 0.0001,
      "loss": 8.4314,
      "loss/crossentropy": 2.2160075902938843,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2800438925623894,
      "step": 1900
    },
    {
      "epoch": 0.118875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.052912394205729164,
      "learning_rate": 0.0001,
      "loss": 8.4264,
      "loss/crossentropy": 2.2488516569137573,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2859164774417877,
      "step": 1902
    },
    {
      "epoch": 0.119,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.04648030598958333,
      "learning_rate": 0.0001,
      "loss": 8.7733,
      "loss/crossentropy": 2.298749089241028,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3013346642255783,
      "step": 1904
    },
    {
      "epoch": 0.119125,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.04391276041666667,
      "learning_rate": 0.0001,
      "loss": 8.607,
      "loss/crossentropy": 2.5380003452301025,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2967790812253952,
      "step": 1906
    },
    {
      "epoch": 0.11925,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.03439127604166667,
      "learning_rate": 0.0001,
      "loss": 8.673,
      "loss/crossentropy": 2.4969903230667114,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34014879167079926,
      "step": 1908
    },
    {
      "epoch": 0.119375,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.04801025390625,
      "learning_rate": 0.0001,
      "loss": 8.9499,
      "loss/crossentropy": 2.326760768890381,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3319539427757263,
      "step": 1910
    },
    {
      "epoch": 0.1195,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.04390869140625,
      "learning_rate": 0.0001,
      "loss": 8.983,
      "loss/crossentropy": 2.3548574447631836,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3132203370332718,
      "step": 1912
    },
    {
      "epoch": 0.119625,
      "grad_norm": 3.25,
      "grad_norm_var": 0.04912109375,
      "learning_rate": 0.0001,
      "loss": 8.4837,
      "loss/crossentropy": 2.301589846611023,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28266826272010803,
      "step": 1914
    },
    {
      "epoch": 0.11975,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.0535797119140625,
      "learning_rate": 0.0001,
      "loss": 9.0105,
      "loss/crossentropy": 2.2812716960906982,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3110269755125046,
      "step": 1916
    },
    {
      "epoch": 0.119875,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.05188700358072917,
      "learning_rate": 0.0001,
      "loss": 8.7659,
      "loss/crossentropy": 2.4299668073654175,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2899664491415024,
      "step": 1918
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.059403483072916666,
      "learning_rate": 0.0001,
      "loss": 8.6172,
      "loss/crossentropy": 2.2184523940086365,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2705395221710205,
      "step": 1920
    },
    {
      "epoch": 0.120125,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.061742146809895836,
      "learning_rate": 0.0001,
      "loss": 8.6808,
      "loss/crossentropy": 2.361995577812195,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2976345121860504,
      "step": 1922
    },
    {
      "epoch": 0.12025,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.06204427083333333,
      "learning_rate": 0.0001,
      "loss": 8.572,
      "loss/crossentropy": 2.0673895478248596,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2614962309598923,
      "step": 1924
    },
    {
      "epoch": 0.120375,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.050324503580729166,
      "learning_rate": 0.0001,
      "loss": 8.3519,
      "loss/crossentropy": 2.333189368247986,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2846105396747589,
      "step": 1926
    },
    {
      "epoch": 0.1205,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.07100321451822916,
      "learning_rate": 0.0001,
      "loss": 8.5546,
      "loss/crossentropy": 2.3604001998901367,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2743445485830307,
      "step": 1928
    },
    {
      "epoch": 0.120625,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.07200113932291667,
      "learning_rate": 0.0001,
      "loss": 8.4642,
      "loss/crossentropy": 2.3226892948150635,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2899642139673233,
      "step": 1930
    },
    {
      "epoch": 0.12075,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.06077372233072917,
      "learning_rate": 0.0001,
      "loss": 8.4469,
      "loss/crossentropy": 2.2486273050308228,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29645949602127075,
      "step": 1932
    },
    {
      "epoch": 0.120875,
      "grad_norm": 3.375,
      "grad_norm_var": 0.04622294108072917,
      "learning_rate": 0.0001,
      "loss": 8.4223,
      "loss/crossentropy": 2.590661644935608,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2843063771724701,
      "step": 1934
    },
    {
      "epoch": 0.121,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.05113525390625,
      "learning_rate": 0.0001,
      "loss": 8.5287,
      "loss/crossentropy": 2.392248034477234,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28749269247055054,
      "step": 1936
    },
    {
      "epoch": 0.121125,
      "grad_norm": 3.5,
      "grad_norm_var": 0.05465087890625,
      "learning_rate": 0.0001,
      "loss": 8.4881,
      "loss/crossentropy": 2.3735626935958862,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3381284326314926,
      "step": 1938
    },
    {
      "epoch": 0.12125,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.07750244140625,
      "learning_rate": 0.0001,
      "loss": 8.7097,
      "loss/crossentropy": 2.5563061237335205,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3243313729763031,
      "step": 1940
    },
    {
      "epoch": 0.121375,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.0794342041015625,
      "learning_rate": 0.0001,
      "loss": 8.6438,
      "loss/crossentropy": 2.2933984994888306,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29726622998714447,
      "step": 1942
    },
    {
      "epoch": 0.1215,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.06724344889322917,
      "learning_rate": 0.0001,
      "loss": 8.4159,
      "loss/crossentropy": 2.420395255088806,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2696368545293808,
      "step": 1944
    },
    {
      "epoch": 0.121625,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.06702067057291666,
      "learning_rate": 0.0001,
      "loss": 8.5616,
      "loss/crossentropy": 2.1465864777565002,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2801681458950043,
      "step": 1946
    },
    {
      "epoch": 0.12175,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.11573893229166667,
      "learning_rate": 0.0001,
      "loss": 8.8623,
      "loss/crossentropy": 2.454163372516632,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27878041565418243,
      "step": 1948
    },
    {
      "epoch": 0.121875,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.12135009765625,
      "learning_rate": 0.0001,
      "loss": 8.2899,
      "loss/crossentropy": 2.143743395805359,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2612776756286621,
      "step": 1950
    },
    {
      "epoch": 0.122,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.13105367024739584,
      "learning_rate": 0.0001,
      "loss": 9.0178,
      "loss/crossentropy": 2.4097328186035156,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3114086985588074,
      "step": 1952
    },
    {
      "epoch": 0.122125,
      "grad_norm": 5.15625,
      "grad_norm_var": 0.2849355061848958,
      "learning_rate": 0.0001,
      "loss": 8.7298,
      "loss/crossentropy": 2.3883849382400513,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3800114840269089,
      "step": 1954
    },
    {
      "epoch": 0.12225,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.31787007649739585,
      "learning_rate": 0.0001,
      "loss": 8.4569,
      "loss/crossentropy": 2.2481584548950195,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2927142381668091,
      "step": 1956
    },
    {
      "epoch": 0.122375,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.3129058837890625,
      "learning_rate": 0.0001,
      "loss": 8.5422,
      "loss/crossentropy": 2.096981406211853,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27731966972351074,
      "step": 1958
    },
    {
      "epoch": 0.1225,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.2894205729166667,
      "learning_rate": 0.0001,
      "loss": 8.5498,
      "loss/crossentropy": 2.531270146369934,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.265569344162941,
      "step": 1960
    },
    {
      "epoch": 0.122625,
      "grad_norm": 3.25,
      "grad_norm_var": 0.28873291015625,
      "learning_rate": 0.0001,
      "loss": 8.521,
      "loss/crossentropy": 2.6065129041671753,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2991243004798889,
      "step": 1962
    },
    {
      "epoch": 0.12275,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.2656158447265625,
      "learning_rate": 0.0001,
      "loss": 8.5729,
      "loss/crossentropy": 2.261076807975769,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28016628324985504,
      "step": 1964
    },
    {
      "epoch": 0.122875,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.2662750244140625,
      "learning_rate": 0.0001,
      "loss": 8.7329,
      "loss/crossentropy": 2.4433281421661377,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2746448367834091,
      "step": 1966
    },
    {
      "epoch": 0.123,
      "grad_norm": 3.625,
      "grad_norm_var": 0.3149810791015625,
      "learning_rate": 0.0001,
      "loss": 8.7222,
      "loss/crossentropy": 2.2890138626098633,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29224395751953125,
      "step": 1968
    },
    {
      "epoch": 0.123125,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.15416259765625,
      "learning_rate": 0.0001,
      "loss": 8.3613,
      "loss/crossentropy": 2.1031445264816284,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2901540696620941,
      "step": 1970
    },
    {
      "epoch": 0.12325,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.11484273274739583,
      "learning_rate": 0.0001,
      "loss": 8.4639,
      "loss/crossentropy": 2.240355134010315,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27891701459884644,
      "step": 1972
    },
    {
      "epoch": 0.123375,
      "grad_norm": 3.25,
      "grad_norm_var": 0.11433919270833333,
      "learning_rate": 0.0001,
      "loss": 8.6588,
      "loss/crossentropy": 2.526862621307373,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31067635118961334,
      "step": 1974
    },
    {
      "epoch": 0.1235,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.12138570149739583,
      "learning_rate": 0.0001,
      "loss": 8.4162,
      "loss/crossentropy": 2.389139413833618,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3020573705434799,
      "step": 1976
    },
    {
      "epoch": 0.123625,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.12506103515625,
      "learning_rate": 0.0001,
      "loss": 8.4219,
      "loss/crossentropy": 2.438482403755188,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26280972361564636,
      "step": 1978
    },
    {
      "epoch": 0.12375,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.12905985514322918,
      "learning_rate": 0.0001,
      "loss": 8.7076,
      "loss/crossentropy": 2.342813014984131,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2951369285583496,
      "step": 1980
    },
    {
      "epoch": 0.123875,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.13946024576822916,
      "learning_rate": 0.0001,
      "loss": 8.4449,
      "loss/crossentropy": 2.1303473114967346,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26047107577323914,
      "step": 1982
    },
    {
      "epoch": 0.124,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.030985514322916668,
      "learning_rate": 0.0001,
      "loss": 8.5657,
      "loss/crossentropy": 2.470989942550659,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.289617583155632,
      "step": 1984
    },
    {
      "epoch": 0.124125,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.03736572265625,
      "learning_rate": 0.0001,
      "loss": 8.541,
      "loss/crossentropy": 2.4312928915023804,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2940659523010254,
      "step": 1986
    },
    {
      "epoch": 0.12425,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0355865478515625,
      "learning_rate": 0.0001,
      "loss": 8.5967,
      "loss/crossentropy": 2.408700704574585,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29635827243328094,
      "step": 1988
    },
    {
      "epoch": 0.124375,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0367095947265625,
      "learning_rate": 0.0001,
      "loss": 8.5236,
      "loss/crossentropy": 2.222353756427765,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2752675265073776,
      "step": 1990
    },
    {
      "epoch": 0.1245,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.03466796875,
      "learning_rate": 0.0001,
      "loss": 8.7415,
      "loss/crossentropy": 2.5249141454696655,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31805843114852905,
      "step": 1992
    },
    {
      "epoch": 0.124625,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.0289947509765625,
      "learning_rate": 0.0001,
      "loss": 8.3748,
      "loss/crossentropy": 1.9848942756652832,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2688567340373993,
      "step": 1994
    },
    {
      "epoch": 0.12475,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.02486572265625,
      "learning_rate": 0.0001,
      "loss": 8.8413,
      "loss/crossentropy": 2.657674193382263,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27856191992759705,
      "step": 1996
    },
    {
      "epoch": 0.124875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.023688761393229167,
      "learning_rate": 0.0001,
      "loss": 8.3386,
      "loss/crossentropy": 2.289615035057068,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27829277515411377,
      "step": 1998
    },
    {
      "epoch": 0.125,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.0205230712890625,
      "learning_rate": 0.0001,
      "loss": 8.5863,
      "loss/crossentropy": 2.5303882360458374,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2958512306213379,
      "step": 2000
    },
    {
      "epoch": 0.125125,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.025028483072916666,
      "learning_rate": 0.0001,
      "loss": 8.3451,
      "loss/crossentropy": 2.200709104537964,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26912133395671844,
      "step": 2002
    },
    {
      "epoch": 0.12525,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.0232330322265625,
      "learning_rate": 0.0001,
      "loss": 8.3675,
      "loss/crossentropy": 2.523932099342346,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.292253702878952,
      "step": 2004
    },
    {
      "epoch": 0.125375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.029662068684895834,
      "learning_rate": 0.0001,
      "loss": 8.4154,
      "loss/crossentropy": 2.3884671926498413,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28686901926994324,
      "step": 2006
    },
    {
      "epoch": 0.1255,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.032633463541666664,
      "learning_rate": 0.0001,
      "loss": 8.4873,
      "loss/crossentropy": 2.492961883544922,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2938031554222107,
      "step": 2008
    },
    {
      "epoch": 0.125625,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.04558919270833333,
      "learning_rate": 0.0001,
      "loss": 8.4653,
      "loss/crossentropy": 2.1341389417648315,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2501054108142853,
      "step": 2010
    },
    {
      "epoch": 0.12575,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.043919881184895836,
      "learning_rate": 0.0001,
      "loss": 8.6647,
      "loss/crossentropy": 2.3359371423721313,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2804300785064697,
      "step": 2012
    },
    {
      "epoch": 0.125875,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.04475809733072917,
      "learning_rate": 0.0001,
      "loss": 8.6907,
      "loss/crossentropy": 2.5302098989486694,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28145162761211395,
      "step": 2014
    },
    {
      "epoch": 0.126,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.04456278483072917,
      "learning_rate": 0.0001,
      "loss": 8.6119,
      "loss/crossentropy": 2.437941551208496,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26573941111564636,
      "step": 2016
    },
    {
      "epoch": 0.126125,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.035676066080729166,
      "learning_rate": 0.0001,
      "loss": 8.6258,
      "loss/crossentropy": 2.6573965549468994,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29143331944942474,
      "step": 2018
    },
    {
      "epoch": 0.12625,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.03544921875,
      "learning_rate": 0.0001,
      "loss": 8.4249,
      "loss/crossentropy": 2.4629688262939453,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28354427218437195,
      "step": 2020
    },
    {
      "epoch": 0.126375,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.0703277587890625,
      "learning_rate": 0.0001,
      "loss": 8.8307,
      "loss/crossentropy": 2.252517580986023,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3386313170194626,
      "step": 2022
    },
    {
      "epoch": 0.1265,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.06189676920572917,
      "learning_rate": 0.0001,
      "loss": 8.2863,
      "loss/crossentropy": 2.348217487335205,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24487578123807907,
      "step": 2024
    },
    {
      "epoch": 0.126625,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.057779947916666664,
      "learning_rate": 0.0001,
      "loss": 8.3008,
      "loss/crossentropy": 2.2095032930374146,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2705332636833191,
      "step": 2026
    },
    {
      "epoch": 0.12675,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.06265869140625,
      "learning_rate": 0.0001,
      "loss": 8.4107,
      "loss/crossentropy": 2.167417824268341,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27016985416412354,
      "step": 2028
    },
    {
      "epoch": 0.126875,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.06298726399739583,
      "learning_rate": 0.0001,
      "loss": 8.4653,
      "loss/crossentropy": 2.316556692123413,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2680739611387253,
      "step": 2030
    },
    {
      "epoch": 0.127,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.06646728515625,
      "learning_rate": 0.0001,
      "loss": 8.4679,
      "loss/crossentropy": 2.220218300819397,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2792097181081772,
      "step": 2032
    },
    {
      "epoch": 0.127125,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.06718343098958333,
      "learning_rate": 0.0001,
      "loss": 8.4241,
      "loss/crossentropy": 2.2215596437454224,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2561402767896652,
      "step": 2034
    },
    {
      "epoch": 0.12725,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0806060791015625,
      "learning_rate": 0.0001,
      "loss": 8.1138,
      "loss/crossentropy": 2.2149853706359863,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26566116511821747,
      "step": 2036
    },
    {
      "epoch": 0.127375,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.020148722330729167,
      "learning_rate": 0.0001,
      "loss": 8.4906,
      "loss/crossentropy": 2.054360866546631,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31411731243133545,
      "step": 2038
    },
    {
      "epoch": 0.1275,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.04202473958333333,
      "learning_rate": 0.0001,
      "loss": 8.3689,
      "loss/crossentropy": 2.3898195028305054,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25973349064588547,
      "step": 2040
    },
    {
      "epoch": 0.127625,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.04273173014322917,
      "learning_rate": 0.0001,
      "loss": 8.4614,
      "loss/crossentropy": 2.2964980602264404,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2612931877374649,
      "step": 2042
    },
    {
      "epoch": 0.12775,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.0513092041015625,
      "learning_rate": 0.0001,
      "loss": 8.434,
      "loss/crossentropy": 2.58343243598938,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26787108182907104,
      "step": 2044
    },
    {
      "epoch": 0.127875,
      "grad_norm": 3.25,
      "grad_norm_var": 0.046708170572916666,
      "learning_rate": 0.0001,
      "loss": 8.4918,
      "loss/crossentropy": 2.24523389339447,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2874600887298584,
      "step": 2046
    },
    {
      "epoch": 0.128,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.04885660807291667,
      "learning_rate": 0.0001,
      "loss": 8.6684,
      "loss/crossentropy": 2.2914642095565796,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3138655722141266,
      "step": 2048
    },
    {
      "epoch": 0.128125,
      "grad_norm": 3.25,
      "grad_norm_var": 0.0490386962890625,
      "learning_rate": 0.0001,
      "loss": 8.5455,
      "loss/crossentropy": 2.5149351358413696,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29720842838287354,
      "step": 2050
    },
    {
      "epoch": 0.12825,
      "grad_norm": 3.25,
      "grad_norm_var": 0.04035542805989583,
      "learning_rate": 0.0001,
      "loss": 8.3206,
      "loss/crossentropy": 2.1453710794448853,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23647580295801163,
      "step": 2052
    },
    {
      "epoch": 0.128375,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.053831990559895834,
      "learning_rate": 0.0001,
      "loss": 8.2585,
      "loss/crossentropy": 2.246112108230591,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26230376958847046,
      "step": 2054
    },
    {
      "epoch": 0.1285,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.028238932291666668,
      "learning_rate": 0.0001,
      "loss": 8.3248,
      "loss/crossentropy": 2.412488341331482,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26848049461841583,
      "step": 2056
    },
    {
      "epoch": 0.128625,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.027228800455729167,
      "learning_rate": 0.0001,
      "loss": 8.6028,
      "loss/crossentropy": 2.4104580879211426,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27841897308826447,
      "step": 2058
    },
    {
      "epoch": 0.12875,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.025007120768229165,
      "learning_rate": 0.0001,
      "loss": 8.6475,
      "loss/crossentropy": 2.443092107772827,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27504517138004303,
      "step": 2060
    },
    {
      "epoch": 0.128875,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.025812784830729168,
      "learning_rate": 0.0001,
      "loss": 8.5933,
      "loss/crossentropy": 2.401219129562378,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29284021258354187,
      "step": 2062
    },
    {
      "epoch": 0.129,
      "grad_norm": 3.125,
      "grad_norm_var": 0.031208292643229166,
      "learning_rate": 0.0001,
      "loss": 8.4635,
      "loss/crossentropy": 2.2347441911697388,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27816687524318695,
      "step": 2064
    },
    {
      "epoch": 0.129125,
      "grad_norm": 3.375,
      "grad_norm_var": 0.03675028483072917,
      "learning_rate": 0.0001,
      "loss": 8.4876,
      "loss/crossentropy": 2.444359302520752,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28021493554115295,
      "step": 2066
    },
    {
      "epoch": 0.12925,
      "grad_norm": 3.25,
      "grad_norm_var": 0.03655192057291667,
      "learning_rate": 0.0001,
      "loss": 8.4261,
      "loss/crossentropy": 2.32525098323822,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2960277646780014,
      "step": 2068
    },
    {
      "epoch": 0.129375,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.023323567708333333,
      "learning_rate": 0.0001,
      "loss": 8.4241,
      "loss/crossentropy": 2.489911675453186,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2791932672262192,
      "step": 2070
    },
    {
      "epoch": 0.1295,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.026981608072916666,
      "learning_rate": 0.0001,
      "loss": 8.5868,
      "loss/crossentropy": 2.3564376831054688,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2700600177049637,
      "step": 2072
    },
    {
      "epoch": 0.129625,
      "grad_norm": 3.125,
      "grad_norm_var": 0.026009114583333333,
      "learning_rate": 0.0001,
      "loss": 8.4257,
      "loss/crossentropy": 2.5643441677093506,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26559390127658844,
      "step": 2074
    },
    {
      "epoch": 0.12975,
      "grad_norm": 3.375,
      "grad_norm_var": 0.02750244140625,
      "learning_rate": 0.0001,
      "loss": 8.5631,
      "loss/crossentropy": 2.390055775642395,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2720278650522232,
      "step": 2076
    },
    {
      "epoch": 0.129875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.026610310872395834,
      "learning_rate": 0.0001,
      "loss": 8.1939,
      "loss/crossentropy": 2.241236686706543,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2665587216615677,
      "step": 2078
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.021516927083333335,
      "learning_rate": 0.0001,
      "loss": 8.3988,
      "loss/crossentropy": 2.282191276550293,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26526105403900146,
      "step": 2080
    },
    {
      "epoch": 0.130125,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.021773274739583334,
      "learning_rate": 0.0001,
      "loss": 8.5927,
      "loss/crossentropy": 2.325153946876526,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2865811884403229,
      "step": 2082
    },
    {
      "epoch": 0.13025,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.021870930989583332,
      "learning_rate": 0.0001,
      "loss": 8.3854,
      "loss/crossentropy": 2.3805923461914062,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26753927767276764,
      "step": 2084
    },
    {
      "epoch": 0.130375,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.030301920572916665,
      "learning_rate": 0.0001,
      "loss": 8.4407,
      "loss/crossentropy": 2.314916491508484,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27673472464084625,
      "step": 2086
    },
    {
      "epoch": 0.1305,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.025699869791666666,
      "learning_rate": 0.0001,
      "loss": 8.4033,
      "loss/crossentropy": 2.416364073753357,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27838364243507385,
      "step": 2088
    },
    {
      "epoch": 0.130625,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.027074178059895832,
      "learning_rate": 0.0001,
      "loss": 8.3806,
      "loss/crossentropy": 2.4156532287597656,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2752366364002228,
      "step": 2090
    },
    {
      "epoch": 0.13075,
      "grad_norm": 3.375,
      "grad_norm_var": 0.025288899739583332,
      "learning_rate": 0.0001,
      "loss": 8.6506,
      "loss/crossentropy": 2.5105860233306885,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28529515862464905,
      "step": 2092
    },
    {
      "epoch": 0.130875,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.020458984375,
      "learning_rate": 0.0001,
      "loss": 8.613,
      "loss/crossentropy": 2.4152865409851074,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.304058313369751,
      "step": 2094
    },
    {
      "epoch": 0.131,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.0170318603515625,
      "learning_rate": 0.0001,
      "loss": 8.5973,
      "loss/crossentropy": 2.3700071573257446,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2684682756662369,
      "step": 2096
    },
    {
      "epoch": 0.131125,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.015120442708333333,
      "learning_rate": 0.0001,
      "loss": 8.4983,
      "loss/crossentropy": 2.305688500404358,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28055354952812195,
      "step": 2098
    },
    {
      "epoch": 0.13125,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.018830362955729166,
      "learning_rate": 0.0001,
      "loss": 8.3541,
      "loss/crossentropy": 2.0869110226631165,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2802015244960785,
      "step": 2100
    },
    {
      "epoch": 0.131375,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.015999348958333333,
      "learning_rate": 0.0001,
      "loss": 8.2526,
      "loss/crossentropy": 2.242175340652466,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2823330760002136,
      "step": 2102
    },
    {
      "epoch": 0.1315,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.020384724934895834,
      "learning_rate": 0.0001,
      "loss": 8.2892,
      "loss/crossentropy": 2.3229693174362183,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2636559307575226,
      "step": 2104
    },
    {
      "epoch": 0.131625,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.019831339518229168,
      "learning_rate": 0.0001,
      "loss": 8.4317,
      "loss/crossentropy": 2.5321102142333984,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2901579737663269,
      "step": 2106
    },
    {
      "epoch": 0.13175,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.01666259765625,
      "learning_rate": 0.0001,
      "loss": 8.4445,
      "loss/crossentropy": 2.397943615913391,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2635400742292404,
      "step": 2108
    },
    {
      "epoch": 0.131875,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.021654256184895835,
      "learning_rate": 0.0001,
      "loss": 8.4828,
      "loss/crossentropy": 2.489462733268738,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2792319655418396,
      "step": 2110
    },
    {
      "epoch": 0.132,
      "grad_norm": 3.375,
      "grad_norm_var": 0.022289021809895834,
      "learning_rate": 0.0001,
      "loss": 8.5521,
      "loss/crossentropy": 2.3110828399658203,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30214357376098633,
      "step": 2112
    },
    {
      "epoch": 0.132125,
      "grad_norm": 3.375,
      "grad_norm_var": 0.022037760416666666,
      "learning_rate": 0.0001,
      "loss": 8.5841,
      "loss/crossentropy": 2.563341736793518,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2941661477088928,
      "step": 2114
    },
    {
      "epoch": 0.13225,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.022459920247395834,
      "learning_rate": 0.0001,
      "loss": 8.3364,
      "loss/crossentropy": 2.4198527336120605,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2666160762310028,
      "step": 2116
    },
    {
      "epoch": 0.132375,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.020563761393229168,
      "learning_rate": 0.0001,
      "loss": 8.2778,
      "loss/crossentropy": 2.285884737968445,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27266763150691986,
      "step": 2118
    },
    {
      "epoch": 0.1325,
      "grad_norm": 3.25,
      "grad_norm_var": 0.016988118489583332,
      "learning_rate": 0.0001,
      "loss": 8.5911,
      "loss/crossentropy": 2.3701746463775635,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29898887872695923,
      "step": 2120
    },
    {
      "epoch": 0.132625,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.015062459309895833,
      "learning_rate": 0.0001,
      "loss": 8.658,
      "loss/crossentropy": 2.4369832277297974,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27174198627471924,
      "step": 2122
    },
    {
      "epoch": 0.13275,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.022785441080729166,
      "learning_rate": 0.0001,
      "loss": 8.5709,
      "loss/crossentropy": 2.3035892248153687,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2923412248492241,
      "step": 2124
    },
    {
      "epoch": 0.132875,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.02310791015625,
      "learning_rate": 0.0001,
      "loss": 8.1847,
      "loss/crossentropy": 2.384789824485779,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27344001829624176,
      "step": 2126
    },
    {
      "epoch": 0.133,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.024242146809895834,
      "learning_rate": 0.0001,
      "loss": 8.306,
      "loss/crossentropy": 2.2693413496017456,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2933850884437561,
      "step": 2128
    },
    {
      "epoch": 0.133125,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.023193359375,
      "learning_rate": 0.0001,
      "loss": 8.5839,
      "loss/crossentropy": 2.287759780883789,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2801215946674347,
      "step": 2130
    },
    {
      "epoch": 0.13325,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.021825154622395832,
      "learning_rate": 0.0001,
      "loss": 8.7328,
      "loss/crossentropy": 2.274720072746277,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31832873821258545,
      "step": 2132
    },
    {
      "epoch": 0.133375,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.02047119140625,
      "learning_rate": 0.0001,
      "loss": 8.4415,
      "loss/crossentropy": 2.5326437950134277,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2927217036485672,
      "step": 2134
    },
    {
      "epoch": 0.1335,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.025422159830729166,
      "learning_rate": 0.0001,
      "loss": 8.4062,
      "loss/crossentropy": 2.4775502681732178,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28668080270290375,
      "step": 2136
    },
    {
      "epoch": 0.133625,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.03284505208333333,
      "learning_rate": 0.0001,
      "loss": 8.4527,
      "loss/crossentropy": 2.2728978395462036,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2754566967487335,
      "step": 2138
    },
    {
      "epoch": 0.13375,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.024095662434895835,
      "learning_rate": 0.0001,
      "loss": 8.6044,
      "loss/crossentropy": 2.3857744932174683,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2717433273792267,
      "step": 2140
    },
    {
      "epoch": 0.133875,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.022175089518229166,
      "learning_rate": 0.0001,
      "loss": 8.5458,
      "loss/crossentropy": 2.1756142377853394,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27554982900619507,
      "step": 2142
    },
    {
      "epoch": 0.134,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.021971638997395834,
      "learning_rate": 0.0001,
      "loss": 8.3312,
      "loss/crossentropy": 2.3074915409088135,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2622702121734619,
      "step": 2144
    },
    {
      "epoch": 0.134125,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0297271728515625,
      "learning_rate": 0.0001,
      "loss": 8.2721,
      "loss/crossentropy": 2.320749521255493,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28162428736686707,
      "step": 2146
    },
    {
      "epoch": 0.13425,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.031061808268229168,
      "learning_rate": 0.0001,
      "loss": 8.3269,
      "loss/crossentropy": 2.009217321872711,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2450430542230606,
      "step": 2148
    },
    {
      "epoch": 0.134375,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.031037394205729166,
      "learning_rate": 0.0001,
      "loss": 8.4999,
      "loss/crossentropy": 2.278393268585205,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2750803083181381,
      "step": 2150
    },
    {
      "epoch": 0.1345,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.02255859375,
      "learning_rate": 0.0001,
      "loss": 8.4054,
      "loss/crossentropy": 2.2876728773117065,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.281391441822052,
      "step": 2152
    },
    {
      "epoch": 0.134625,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.016682942708333332,
      "learning_rate": 0.0001,
      "loss": 8.2786,
      "loss/crossentropy": 2.163739323616028,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2533603757619858,
      "step": 2154
    },
    {
      "epoch": 0.13475,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.0157867431640625,
      "learning_rate": 0.0001,
      "loss": 8.3023,
      "loss/crossentropy": 2.3555957078933716,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3196130394935608,
      "step": 2156
    },
    {
      "epoch": 0.134875,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.0141754150390625,
      "learning_rate": 0.0001,
      "loss": 8.4222,
      "loss/crossentropy": 2.389632821083069,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2907683253288269,
      "step": 2158
    },
    {
      "epoch": 0.135,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.015576171875,
      "learning_rate": 0.0001,
      "loss": 8.2051,
      "loss/crossentropy": 2.140980839729309,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.274806946516037,
      "step": 2160
    },
    {
      "epoch": 0.135125,
      "grad_norm": 3.375,
      "grad_norm_var": 0.016227213541666667,
      "learning_rate": 0.0001,
      "loss": 8.4341,
      "loss/crossentropy": 2.298740863800049,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30332574248313904,
      "step": 2162
    },
    {
      "epoch": 0.13525,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.0182281494140625,
      "learning_rate": 0.0001,
      "loss": 8.267,
      "loss/crossentropy": 2.3586976528167725,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2925044894218445,
      "step": 2164
    },
    {
      "epoch": 0.135375,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.014676920572916667,
      "learning_rate": 0.0001,
      "loss": 8.4944,
      "loss/crossentropy": 2.4937496185302734,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28084906935691833,
      "step": 2166
    },
    {
      "epoch": 0.1355,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.014778645833333333,
      "learning_rate": 0.0001,
      "loss": 8.3792,
      "loss/crossentropy": 2.2324042320251465,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26973237097263336,
      "step": 2168
    },
    {
      "epoch": 0.135625,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.01695556640625,
      "learning_rate": 0.0001,
      "loss": 8.3303,
      "loss/crossentropy": 2.3384079933166504,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2514626085758209,
      "step": 2170
    },
    {
      "epoch": 0.13575,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.01636962890625,
      "learning_rate": 0.0001,
      "loss": 8.2997,
      "loss/crossentropy": 2.2900805473327637,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.287667915225029,
      "step": 2172
    },
    {
      "epoch": 0.135875,
      "grad_norm": 4.4375,
      "grad_norm_var": 0.113818359375,
      "learning_rate": 0.0001,
      "loss": 8.6838,
      "loss/crossentropy": 2.3386855125427246,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28304457664489746,
      "step": 2174
    },
    {
      "epoch": 0.136,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.10152587890625,
      "learning_rate": 0.0001,
      "loss": 8.6361,
      "loss/crossentropy": 2.4590978622436523,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3032967746257782,
      "step": 2176
    },
    {
      "epoch": 0.136125,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.10586649576822917,
      "learning_rate": 0.0001,
      "loss": 8.524,
      "loss/crossentropy": 2.4377013444900513,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2948048859834671,
      "step": 2178
    },
    {
      "epoch": 0.13625,
      "grad_norm": 3.5,
      "grad_norm_var": 0.11148173014322917,
      "learning_rate": 0.0001,
      "loss": 8.427,
      "loss/crossentropy": 2.3763121366500854,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2737642973661423,
      "step": 2180
    },
    {
      "epoch": 0.136375,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.10756734212239584,
      "learning_rate": 0.0001,
      "loss": 8.7061,
      "loss/crossentropy": 2.3559194803237915,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32232511043548584,
      "step": 2182
    },
    {
      "epoch": 0.1365,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.10926106770833334,
      "learning_rate": 0.0001,
      "loss": 8.3743,
      "loss/crossentropy": 2.3787566423416138,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.266545370221138,
      "step": 2184
    },
    {
      "epoch": 0.136625,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.1169830322265625,
      "learning_rate": 0.0001,
      "loss": 8.5617,
      "loss/crossentropy": 2.4981011152267456,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30071987211704254,
      "step": 2186
    },
    {
      "epoch": 0.13675,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.91328125,
      "learning_rate": 0.0001,
      "loss": 8.6439,
      "loss/crossentropy": 2.4121392965316772,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28945305943489075,
      "step": 2188
    },
    {
      "epoch": 0.136875,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.8569498697916667,
      "learning_rate": 0.0001,
      "loss": 8.6653,
      "loss/crossentropy": 2.5263431072235107,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3138289451599121,
      "step": 2190
    },
    {
      "epoch": 0.137,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.8448404947916667,
      "learning_rate": 0.0001,
      "loss": 8.6425,
      "loss/crossentropy": 2.3461450338363647,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2797774076461792,
      "step": 2192
    },
    {
      "epoch": 0.137125,
      "grad_norm": 3.125,
      "grad_norm_var": 0.8635813395182291,
      "learning_rate": 0.0001,
      "loss": 8.7482,
      "loss/crossentropy": 2.562302827835083,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2883787453174591,
      "step": 2194
    },
    {
      "epoch": 0.13725,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.8723917643229167,
      "learning_rate": 0.0001,
      "loss": 8.5541,
      "loss/crossentropy": 2.392000913619995,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28321924805641174,
      "step": 2196
    },
    {
      "epoch": 0.137375,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.8815592447916667,
      "learning_rate": 0.0001,
      "loss": 8.2531,
      "loss/crossentropy": 2.250584840774536,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2665387690067291,
      "step": 2198
    },
    {
      "epoch": 0.1375,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.8637003580729167,
      "learning_rate": 0.0001,
      "loss": 8.2037,
      "loss/crossentropy": 2.2912397384643555,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2549472153186798,
      "step": 2200
    },
    {
      "epoch": 0.137625,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.8500803629557292,
      "learning_rate": 0.0001,
      "loss": 8.3596,
      "loss/crossentropy": 2.470545172691345,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29853616654872894,
      "step": 2202
    },
    {
      "epoch": 0.13775,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.0280670166015625,
      "learning_rate": 0.0001,
      "loss": 8.4787,
      "loss/crossentropy": 2.1322121024131775,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2622481659054756,
      "step": 2204
    },
    {
      "epoch": 0.137875,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.026740519205729167,
      "learning_rate": 0.0001,
      "loss": 8.466,
      "loss/crossentropy": 2.340916156768799,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2863175719976425,
      "step": 2206
    },
    {
      "epoch": 0.138,
      "grad_norm": 3.125,
      "grad_norm_var": 0.03297119140625,
      "learning_rate": 0.0001,
      "loss": 8.4187,
      "loss/crossentropy": 2.397621750831604,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2743557095527649,
      "step": 2208
    },
    {
      "epoch": 0.138125,
      "grad_norm": 3.0,
      "grad_norm_var": 0.03684794108072917,
      "learning_rate": 0.0001,
      "loss": 8.3557,
      "loss/crossentropy": 2.2214730978012085,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3140524923801422,
      "step": 2210
    },
    {
      "epoch": 0.13825,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.029759724934895832,
      "learning_rate": 0.0001,
      "loss": 8.4706,
      "loss/crossentropy": 2.3356775045394897,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28506164252758026,
      "step": 2212
    },
    {
      "epoch": 0.138375,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.030061848958333335,
      "learning_rate": 0.0001,
      "loss": 8.5412,
      "loss/crossentropy": 2.2626901865005493,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2693404108285904,
      "step": 2214
    },
    {
      "epoch": 0.1385,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0215728759765625,
      "learning_rate": 0.0001,
      "loss": 8.3191,
      "loss/crossentropy": 2.1286741495132446,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2530980408191681,
      "step": 2216
    },
    {
      "epoch": 0.138625,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.021565755208333332,
      "learning_rate": 0.0001,
      "loss": 8.6178,
      "loss/crossentropy": 2.3509132862091064,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2691505402326584,
      "step": 2218
    },
    {
      "epoch": 0.13875,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.0286529541015625,
      "learning_rate": 0.0001,
      "loss": 8.6084,
      "loss/crossentropy": 2.3187073469161987,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2853757441043854,
      "step": 2220
    },
    {
      "epoch": 0.138875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.030882771809895834,
      "learning_rate": 0.0001,
      "loss": 8.5621,
      "loss/crossentropy": 2.4514535665512085,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2782391607761383,
      "step": 2222
    },
    {
      "epoch": 0.139,
      "grad_norm": 3.25,
      "grad_norm_var": 0.0228912353515625,
      "learning_rate": 0.0001,
      "loss": 8.3712,
      "loss/crossentropy": 2.509943962097168,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2838071286678314,
      "step": 2224
    },
    {
      "epoch": 0.139125,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.01640625,
      "learning_rate": 0.0001,
      "loss": 8.5852,
      "loss/crossentropy": 2.2804245948791504,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28991344571113586,
      "step": 2226
    },
    {
      "epoch": 0.13925,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.0291412353515625,
      "learning_rate": 0.0001,
      "loss": 8.7108,
      "loss/crossentropy": 2.453079104423523,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2956879884004593,
      "step": 2228
    },
    {
      "epoch": 0.139375,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.02652587890625,
      "learning_rate": 0.0001,
      "loss": 8.6285,
      "loss/crossentropy": 2.4368172883987427,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3047195374965668,
      "step": 2230
    },
    {
      "epoch": 0.1395,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.0262359619140625,
      "learning_rate": 0.0001,
      "loss": 8.4539,
      "loss/crossentropy": 2.306997299194336,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.251560240983963,
      "step": 2232
    },
    {
      "epoch": 0.139625,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.042041015625,
      "learning_rate": 0.0001,
      "loss": 8.424,
      "loss/crossentropy": 2.139360785484314,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28243619203567505,
      "step": 2234
    },
    {
      "epoch": 0.13975,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.03759358723958333,
      "learning_rate": 0.0001,
      "loss": 8.2889,
      "loss/crossentropy": 2.2428722381591797,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2649083435535431,
      "step": 2236
    },
    {
      "epoch": 0.139875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.03997395833333333,
      "learning_rate": 0.0001,
      "loss": 8.3299,
      "loss/crossentropy": 2.3508530855178833,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2734558805823326,
      "step": 2238
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.042267862955729166,
      "learning_rate": 0.0001,
      "loss": 8.1833,
      "loss/crossentropy": 2.3940563201904297,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26705045998096466,
      "step": 2240
    },
    {
      "epoch": 0.140125,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.0432037353515625,
      "learning_rate": 0.0001,
      "loss": 8.4273,
      "loss/crossentropy": 2.294648766517639,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2624429166316986,
      "step": 2242
    },
    {
      "epoch": 0.14025,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.023824055989583332,
      "learning_rate": 0.0001,
      "loss": 8.4463,
      "loss/crossentropy": 2.303459644317627,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28779207170009613,
      "step": 2244
    },
    {
      "epoch": 0.140375,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.022484334309895833,
      "learning_rate": 0.0001,
      "loss": 8.5258,
      "loss/crossentropy": 2.452125668525696,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.281644269824028,
      "step": 2246
    },
    {
      "epoch": 0.1405,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.028857421875,
      "learning_rate": 0.0001,
      "loss": 8.4929,
      "loss/crossentropy": 2.3145229816436768,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2791597843170166,
      "step": 2248
    },
    {
      "epoch": 0.140625,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.10737202962239584,
      "learning_rate": 0.0001,
      "loss": 8.3374,
      "loss/crossentropy": 2.219459652900696,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2960502803325653,
      "step": 2250
    },
    {
      "epoch": 0.14075,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.10914306640625,
      "learning_rate": 0.0001,
      "loss": 8.4506,
      "loss/crossentropy": 2.0157440304756165,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2858085185289383,
      "step": 2252
    },
    {
      "epoch": 0.140875,
      "grad_norm": 3.375,
      "grad_norm_var": 0.10522359212239583,
      "learning_rate": 0.0001,
      "loss": 8.6443,
      "loss/crossentropy": 2.3050343990325928,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2768677771091461,
      "step": 2254
    },
    {
      "epoch": 0.141,
      "grad_norm": 2.875,
      "grad_norm_var": 0.12316792805989583,
      "learning_rate": 0.0001,
      "loss": 8.1788,
      "loss/crossentropy": 2.2533038854599,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24813885986804962,
      "step": 2256
    },
    {
      "epoch": 0.141125,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.12766927083333332,
      "learning_rate": 0.0001,
      "loss": 8.3708,
      "loss/crossentropy": 2.4170485734939575,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2693845331668854,
      "step": 2258
    },
    {
      "epoch": 0.14125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.13147684733072917,
      "learning_rate": 0.0001,
      "loss": 8.4648,
      "loss/crossentropy": 2.294472575187683,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2734464854001999,
      "step": 2260
    },
    {
      "epoch": 0.141375,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.12929585774739583,
      "learning_rate": 0.0001,
      "loss": 8.1808,
      "loss/crossentropy": 2.1154235005378723,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28365112841129303,
      "step": 2262
    },
    {
      "epoch": 0.1415,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.1328125,
      "learning_rate": 0.0001,
      "loss": 8.1941,
      "loss/crossentropy": 2.1333194971084595,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32095377147197723,
      "step": 2264
    },
    {
      "epoch": 0.141625,
      "grad_norm": 3.375,
      "grad_norm_var": 0.02467041015625,
      "learning_rate": 0.0001,
      "loss": 8.4459,
      "loss/crossentropy": 2.3149880170822144,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2762584388256073,
      "step": 2266
    },
    {
      "epoch": 0.14175,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.028120930989583334,
      "learning_rate": 0.0001,
      "loss": 8.422,
      "loss/crossentropy": 2.6591659784317017,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29070281982421875,
      "step": 2268
    },
    {
      "epoch": 0.141875,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.026102701822916668,
      "learning_rate": 0.0001,
      "loss": 8.2709,
      "loss/crossentropy": 2.3531733751296997,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24519621580839157,
      "step": 2270
    },
    {
      "epoch": 0.142,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.05454813639322917,
      "learning_rate": 0.0001,
      "loss": 8.2338,
      "loss/crossentropy": 2.1661760807037354,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.24747133255004883,
      "step": 2272
    },
    {
      "epoch": 0.142125,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.0540191650390625,
      "learning_rate": 0.0001,
      "loss": 8.5048,
      "loss/crossentropy": 2.2301371097564697,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.269399493932724,
      "step": 2274
    },
    {
      "epoch": 0.14225,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.06352437337239583,
      "learning_rate": 0.0001,
      "loss": 8.5953,
      "loss/crossentropy": 2.65217924118042,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.288607120513916,
      "step": 2276
    },
    {
      "epoch": 0.142375,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.07203369140625,
      "learning_rate": 0.0001,
      "loss": 8.0698,
      "loss/crossentropy": 2.4561513662338257,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2938566952943802,
      "step": 2278
    },
    {
      "epoch": 0.1425,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.0697174072265625,
      "learning_rate": 0.0001,
      "loss": 8.3514,
      "loss/crossentropy": 2.517719268798828,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2574344277381897,
      "step": 2280
    },
    {
      "epoch": 0.142625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.07379150390625,
      "learning_rate": 0.0001,
      "loss": 8.404,
      "loss/crossentropy": 2.507733106613159,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28523363173007965,
      "step": 2282
    },
    {
      "epoch": 0.14275,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.0678863525390625,
      "learning_rate": 0.0001,
      "loss": 8.3211,
      "loss/crossentropy": 2.248465895652771,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27300480008125305,
      "step": 2284
    },
    {
      "epoch": 0.142875,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.06708577473958334,
      "learning_rate": 0.0001,
      "loss": 8.4819,
      "loss/crossentropy": 2.175841212272644,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2846294641494751,
      "step": 2286
    },
    {
      "epoch": 0.143,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.043257649739583334,
      "learning_rate": 0.0001,
      "loss": 8.5189,
      "loss/crossentropy": 2.53265118598938,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2701347917318344,
      "step": 2288
    },
    {
      "epoch": 0.143125,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.0451812744140625,
      "learning_rate": 0.0001,
      "loss": 8.1393,
      "loss/crossentropy": 2.2115447521209717,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26285167038440704,
      "step": 2290
    },
    {
      "epoch": 0.14325,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.038895670572916666,
      "learning_rate": 0.0001,
      "loss": 8.4895,
      "loss/crossentropy": 2.540266752243042,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29030686616897583,
      "step": 2292
    },
    {
      "epoch": 0.143375,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0341705322265625,
      "learning_rate": 0.0001,
      "loss": 8.4026,
      "loss/crossentropy": 2.361076593399048,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26986297965049744,
      "step": 2294
    },
    {
      "epoch": 0.1435,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.022297159830729166,
      "learning_rate": 0.0001,
      "loss": 8.4674,
      "loss/crossentropy": 2.3896981477737427,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2720335051417351,
      "step": 2296
    },
    {
      "epoch": 0.143625,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.022001139322916665,
      "learning_rate": 0.0001,
      "loss": 8.1891,
      "loss/crossentropy": 2.1911017894744873,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26920412480831146,
      "step": 2298
    },
    {
      "epoch": 0.14375,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.026090494791666665,
      "learning_rate": 0.0001,
      "loss": 8.3786,
      "loss/crossentropy": 2.282583713531494,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27442607283592224,
      "step": 2300
    },
    {
      "epoch": 0.143875,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.015534464518229167,
      "learning_rate": 0.0001,
      "loss": 8.3697,
      "loss/crossentropy": 2.3890000581741333,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29275405406951904,
      "step": 2302
    },
    {
      "epoch": 0.144,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.025178019205729166,
      "learning_rate": 0.0001,
      "loss": 8.6341,
      "loss/crossentropy": 2.5382707118988037,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2767443507909775,
      "step": 2304
    },
    {
      "epoch": 0.144125,
      "grad_norm": 3.0,
      "grad_norm_var": 0.027099609375,
      "learning_rate": 0.0001,
      "loss": 8.427,
      "loss/crossentropy": 2.423385739326477,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2653146833181381,
      "step": 2306
    },
    {
      "epoch": 0.14425,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.023274739583333332,
      "learning_rate": 0.0001,
      "loss": 8.3893,
      "loss/crossentropy": 2.351103663444519,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2693053185939789,
      "step": 2308
    },
    {
      "epoch": 0.144375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.032957967122395834,
      "learning_rate": 0.0001,
      "loss": 8.1106,
      "loss/crossentropy": 2.161897659301758,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2585082948207855,
      "step": 2310
    },
    {
      "epoch": 0.1445,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.034468587239583334,
      "learning_rate": 0.0001,
      "loss": 8.5501,
      "loss/crossentropy": 2.5974907875061035,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2823385000228882,
      "step": 2312
    },
    {
      "epoch": 0.144625,
      "grad_norm": 3.125,
      "grad_norm_var": 0.031636555989583336,
      "learning_rate": 0.0001,
      "loss": 8.1398,
      "loss/crossentropy": 2.2245877981185913,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2538044899702072,
      "step": 2314
    },
    {
      "epoch": 0.14475,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.028251139322916667,
      "learning_rate": 0.0001,
      "loss": 8.334,
      "loss/crossentropy": 2.378359794616699,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27289170026779175,
      "step": 2316
    },
    {
      "epoch": 0.144875,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.031180826822916667,
      "learning_rate": 0.0001,
      "loss": 8.32,
      "loss/crossentropy": 2.2858855724334717,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2700234651565552,
      "step": 2318
    },
    {
      "epoch": 0.145,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.016901652018229168,
      "learning_rate": 0.0001,
      "loss": 8.3103,
      "loss/crossentropy": 2.4376027584075928,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26375965774059296,
      "step": 2320
    },
    {
      "epoch": 0.145125,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.019580078125,
      "learning_rate": 0.0001,
      "loss": 8.2817,
      "loss/crossentropy": 2.491786479949951,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27208443731069565,
      "step": 2322
    },
    {
      "epoch": 0.14525,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.022907511393229166,
      "learning_rate": 0.0001,
      "loss": 8.3947,
      "loss/crossentropy": 2.1058656573295593,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2547650635242462,
      "step": 2324
    },
    {
      "epoch": 0.145375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.017171223958333332,
      "learning_rate": 0.0001,
      "loss": 8.2597,
      "loss/crossentropy": 2.208884119987488,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27819526195526123,
      "step": 2326
    },
    {
      "epoch": 0.1455,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.04153645833333333,
      "learning_rate": 0.0001,
      "loss": 8.6312,
      "loss/crossentropy": 2.467799663543701,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26558516919612885,
      "step": 2328
    },
    {
      "epoch": 0.145625,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.04265034993489583,
      "learning_rate": 0.0001,
      "loss": 8.4207,
      "loss/crossentropy": 2.418417453765869,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2655976563692093,
      "step": 2330
    },
    {
      "epoch": 0.14575,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.040848795572916666,
      "learning_rate": 0.0001,
      "loss": 8.3613,
      "loss/crossentropy": 2.321434497833252,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30776557326316833,
      "step": 2332
    },
    {
      "epoch": 0.145875,
      "grad_norm": 3.25,
      "grad_norm_var": 0.04389546712239583,
      "learning_rate": 0.0001,
      "loss": 8.5335,
      "loss/crossentropy": 2.321682333946228,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2719985991716385,
      "step": 2334
    },
    {
      "epoch": 0.146,
      "grad_norm": 2.875,
      "grad_norm_var": 0.04781901041666667,
      "learning_rate": 0.0001,
      "loss": 8.1955,
      "loss/crossentropy": 2.179586887359619,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24687421321868896,
      "step": 2336
    },
    {
      "epoch": 0.146125,
      "grad_norm": 3.125,
      "grad_norm_var": 0.043863932291666664,
      "learning_rate": 0.0001,
      "loss": 8.3332,
      "loss/crossentropy": 2.24389386177063,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29478612542152405,
      "step": 2338
    },
    {
      "epoch": 0.14625,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.04262593587239583,
      "learning_rate": 0.0001,
      "loss": 8.5372,
      "loss/crossentropy": 2.5267962217330933,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2840902507305145,
      "step": 2340
    },
    {
      "epoch": 0.146375,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.041792805989583334,
      "learning_rate": 0.0001,
      "loss": 8.3559,
      "loss/crossentropy": 2.2484867572784424,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26582688093185425,
      "step": 2342
    },
    {
      "epoch": 0.1465,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.021675618489583333,
      "learning_rate": 0.0001,
      "loss": 8.3478,
      "loss/crossentropy": 2.3685790300369263,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27287431061267853,
      "step": 2344
    },
    {
      "epoch": 0.146625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.0241363525390625,
      "learning_rate": 0.0001,
      "loss": 8.625,
      "loss/crossentropy": 2.430737853050232,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2730434536933899,
      "step": 2346
    },
    {
      "epoch": 0.14675,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.07626546223958333,
      "learning_rate": 0.0001,
      "loss": 8.3045,
      "loss/crossentropy": 2.4417322874069214,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26828059554100037,
      "step": 2348
    },
    {
      "epoch": 0.146875,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.11562398274739584,
      "learning_rate": 0.0001,
      "loss": 8.4202,
      "loss/crossentropy": 2.2339513301849365,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2739114910364151,
      "step": 2350
    },
    {
      "epoch": 0.147,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.10396219889322916,
      "learning_rate": 0.0001,
      "loss": 8.5676,
      "loss/crossentropy": 2.539394974708557,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2761157304048538,
      "step": 2352
    },
    {
      "epoch": 0.147125,
      "grad_norm": 3.25,
      "grad_norm_var": 0.10067952473958333,
      "learning_rate": 0.0001,
      "loss": 8.2937,
      "loss/crossentropy": 2.450527548789978,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26511844992637634,
      "step": 2354
    },
    {
      "epoch": 0.14725,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.10345052083333334,
      "learning_rate": 0.0001,
      "loss": 8.1971,
      "loss/crossentropy": 2.2373549938201904,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26237648725509644,
      "step": 2356
    },
    {
      "epoch": 0.147375,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.09674072265625,
      "learning_rate": 0.0001,
      "loss": 8.4327,
      "loss/crossentropy": 2.2837640047073364,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2683512270450592,
      "step": 2358
    },
    {
      "epoch": 0.1475,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.10239156087239583,
      "learning_rate": 0.0001,
      "loss": 8.3287,
      "loss/crossentropy": 2.238037943840027,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2713322341442108,
      "step": 2360
    },
    {
      "epoch": 0.147625,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.104736328125,
      "learning_rate": 0.0001,
      "loss": 8.4571,
      "loss/crossentropy": 2.5709011554718018,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27457040548324585,
      "step": 2362
    },
    {
      "epoch": 0.14775,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.0671783447265625,
      "learning_rate": 0.0001,
      "loss": 8.4263,
      "loss/crossentropy": 2.3125263452529907,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.28667566180229187,
      "step": 2364
    },
    {
      "epoch": 0.147875,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.025983683268229165,
      "learning_rate": 0.0001,
      "loss": 8.2756,
      "loss/crossentropy": 2.230543076992035,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2760595977306366,
      "step": 2366
    },
    {
      "epoch": 0.148,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.021598307291666667,
      "learning_rate": 0.0001,
      "loss": 8.3417,
      "loss/crossentropy": 2.6067885160446167,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2718808054924011,
      "step": 2368
    },
    {
      "epoch": 0.148125,
      "grad_norm": 3.5,
      "grad_norm_var": 0.0322418212890625,
      "learning_rate": 0.0001,
      "loss": 8.4566,
      "loss/crossentropy": 2.4617605209350586,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2566886991262436,
      "step": 2370
    },
    {
      "epoch": 0.14825,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.03632405598958333,
      "learning_rate": 0.0001,
      "loss": 8.3095,
      "loss/crossentropy": 2.545408248901367,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28086233139038086,
      "step": 2372
    },
    {
      "epoch": 0.148375,
      "grad_norm": 3.125,
      "grad_norm_var": 0.025862630208333334,
      "learning_rate": 0.0001,
      "loss": 8.4444,
      "loss/crossentropy": 2.310088276863098,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28762035071849823,
      "step": 2374
    },
    {
      "epoch": 0.1485,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.0256500244140625,
      "learning_rate": 0.0001,
      "loss": 8.4027,
      "loss/crossentropy": 2.306009292602539,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.251963771879673,
      "step": 2376
    },
    {
      "epoch": 0.148625,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.023368326822916667,
      "learning_rate": 0.0001,
      "loss": 8.2834,
      "loss/crossentropy": 2.531379818916321,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2890370786190033,
      "step": 2378
    },
    {
      "epoch": 0.14875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.022652180989583333,
      "learning_rate": 0.0001,
      "loss": 8.5298,
      "loss/crossentropy": 2.4868820905685425,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28367380797863007,
      "step": 2380
    },
    {
      "epoch": 0.148875,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.022391764322916667,
      "learning_rate": 0.0001,
      "loss": 8.2447,
      "loss/crossentropy": 2.4238349199295044,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2638505697250366,
      "step": 2382
    },
    {
      "epoch": 0.149,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.023078409830729167,
      "learning_rate": 0.0001,
      "loss": 8.1903,
      "loss/crossentropy": 2.428895592689514,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2814117968082428,
      "step": 2384
    },
    {
      "epoch": 0.149125,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.07431233723958333,
      "learning_rate": 0.0001,
      "loss": 8.3687,
      "loss/crossentropy": 2.4161367416381836,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29132652282714844,
      "step": 2386
    },
    {
      "epoch": 0.14925,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.06982014973958334,
      "learning_rate": 0.0001,
      "loss": 8.3171,
      "loss/crossentropy": 2.121293306350708,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2542402744293213,
      "step": 2388
    },
    {
      "epoch": 0.149375,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.0720123291015625,
      "learning_rate": 0.0001,
      "loss": 8.0846,
      "loss/crossentropy": 2.355462431907654,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.262673944234848,
      "step": 2390
    },
    {
      "epoch": 0.1495,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.12470703125,
      "learning_rate": 0.0001,
      "loss": 8.5856,
      "loss/crossentropy": 2.4837170839309692,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27958710491657257,
      "step": 2392
    },
    {
      "epoch": 0.149625,
      "grad_norm": 6.90625,
      "grad_norm_var": 0.9296295166015625,
      "learning_rate": 0.0001,
      "loss": 8.3578,
      "loss/crossentropy": 2.365368127822876,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2629378139972687,
      "step": 2394
    },
    {
      "epoch": 0.14975,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.9130360921223958,
      "learning_rate": 0.0001,
      "loss": 8.2264,
      "loss/crossentropy": 2.2927812337875366,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2774803042411804,
      "step": 2396
    },
    {
      "epoch": 0.149875,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.9198527018229167,
      "learning_rate": 0.0001,
      "loss": 8.3089,
      "loss/crossentropy": 2.3293185234069824,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25967323780059814,
      "step": 2398
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.9080891927083333,
      "learning_rate": 0.0001,
      "loss": 8.4132,
      "loss/crossentropy": 2.153883457183838,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26730459928512573,
      "step": 2400
    },
    {
      "epoch": 0.150125,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.8680084228515625,
      "learning_rate": 0.0001,
      "loss": 8.216,
      "loss/crossentropy": 2.3419724702835083,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2801203727722168,
      "step": 2402
    },
    {
      "epoch": 0.15025,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.8511301676432291,
      "learning_rate": 0.0001,
      "loss": 8.5621,
      "loss/crossentropy": 2.2398444414138794,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2656910568475723,
      "step": 2404
    },
    {
      "epoch": 0.150375,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.8526926676432292,
      "learning_rate": 0.0001,
      "loss": 8.5041,
      "loss/crossentropy": 2.604948043823242,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26598772406578064,
      "step": 2406
    },
    {
      "epoch": 0.1505,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.8330393473307292,
      "learning_rate": 0.0001,
      "loss": 8.5201,
      "loss/crossentropy": 2.3795058727264404,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2822035402059555,
      "step": 2408
    },
    {
      "epoch": 0.150625,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.05833231608072917,
      "learning_rate": 0.0001,
      "loss": 8.2627,
      "loss/crossentropy": 2.440226197242737,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2705456465482712,
      "step": 2410
    },
    {
      "epoch": 0.15075,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.05461324055989583,
      "learning_rate": 0.0001,
      "loss": 8.4428,
      "loss/crossentropy": 2.473353385925293,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27890461683273315,
      "step": 2412
    },
    {
      "epoch": 0.150875,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.05740559895833333,
      "learning_rate": 0.0001,
      "loss": 8.049,
      "loss/crossentropy": 2.4567281007766724,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28310708701610565,
      "step": 2414
    },
    {
      "epoch": 0.151,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.05642903645833333,
      "learning_rate": 0.0001,
      "loss": 8.706,
      "loss/crossentropy": 2.2676972150802612,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2879829406738281,
      "step": 2416
    },
    {
      "epoch": 0.151125,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.045084635416666664,
      "learning_rate": 0.0001,
      "loss": 8.6477,
      "loss/crossentropy": 2.4988842010498047,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2907903641462326,
      "step": 2418
    },
    {
      "epoch": 0.15125,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0454498291015625,
      "learning_rate": 0.0001,
      "loss": 8.3035,
      "loss/crossentropy": 2.390307307243347,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2815091013908386,
      "step": 2420
    },
    {
      "epoch": 0.151375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.050080362955729166,
      "learning_rate": 0.0001,
      "loss": 8.1178,
      "loss/crossentropy": 2.188577175140381,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2619321793317795,
      "step": 2422
    },
    {
      "epoch": 0.1515,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.04468994140625,
      "learning_rate": 0.0001,
      "loss": 8.7316,
      "loss/crossentropy": 2.1936429142951965,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2852545231580734,
      "step": 2424
    },
    {
      "epoch": 0.151625,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.04058837890625,
      "learning_rate": 0.0001,
      "loss": 8.3339,
      "loss/crossentropy": 2.1987831592559814,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2727145105600357,
      "step": 2426
    },
    {
      "epoch": 0.15175,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.043505859375,
      "learning_rate": 0.0001,
      "loss": 8.2834,
      "loss/crossentropy": 2.6830883026123047,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2955752909183502,
      "step": 2428
    },
    {
      "epoch": 0.151875,
      "grad_norm": 3.125,
      "grad_norm_var": 0.0397857666015625,
      "learning_rate": 0.0001,
      "loss": 8.2492,
      "loss/crossentropy": 2.3668758869171143,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2798495292663574,
      "step": 2430
    },
    {
      "epoch": 0.152,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.032502237955729166,
      "learning_rate": 0.0001,
      "loss": 8.219,
      "loss/crossentropy": 2.3704047203063965,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.259890541434288,
      "step": 2432
    },
    {
      "epoch": 0.152125,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.047337849934895836,
      "learning_rate": 0.0001,
      "loss": 8.4497,
      "loss/crossentropy": 2.1782950162887573,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2903287261724472,
      "step": 2434
    },
    {
      "epoch": 0.15225,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.04848531087239583,
      "learning_rate": 0.0001,
      "loss": 8.4486,
      "loss/crossentropy": 2.4774245023727417,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27125996351242065,
      "step": 2436
    },
    {
      "epoch": 0.152375,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.04543863932291667,
      "learning_rate": 0.0001,
      "loss": 8.3811,
      "loss/crossentropy": 2.3557363748550415,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30695493519306183,
      "step": 2438
    },
    {
      "epoch": 0.1525,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.034235636393229164,
      "learning_rate": 0.0001,
      "loss": 8.0553,
      "loss/crossentropy": 2.362632989883423,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26735785603523254,
      "step": 2440
    },
    {
      "epoch": 0.152625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.03411051432291667,
      "learning_rate": 0.0001,
      "loss": 8.179,
      "loss/crossentropy": 2.4381628036499023,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577895522117615,
      "step": 2442
    },
    {
      "epoch": 0.15275,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.0404449462890625,
      "learning_rate": 0.0001,
      "loss": 8.3991,
      "loss/crossentropy": 2.350975751876831,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27325308322906494,
      "step": 2444
    },
    {
      "epoch": 0.152875,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.03941650390625,
      "learning_rate": 0.0001,
      "loss": 8.536,
      "loss/crossentropy": 2.4157899618148804,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27011483907699585,
      "step": 2446
    },
    {
      "epoch": 0.153,
      "grad_norm": 4.5,
      "grad_norm_var": 4.062442016601563,
      "learning_rate": 0.0001,
      "loss": 8.919,
      "loss/crossentropy": 2.437688112258911,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31261374056339264,
      "step": 2448
    },
    {
      "epoch": 0.153125,
      "grad_norm": 3.234375,
      "grad_norm_var": 4.074149576822917,
      "learning_rate": 0.0001,
      "loss": 8.5219,
      "loss/crossentropy": 2.4884743690490723,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.281438983976841,
      "step": 2450
    },
    {
      "epoch": 0.15325,
      "grad_norm": 3.0,
      "grad_norm_var": 4.093941243489583,
      "learning_rate": 0.0001,
      "loss": 8.2878,
      "loss/crossentropy": 2.3718087673187256,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2740315645933151,
      "step": 2452
    },
    {
      "epoch": 0.153375,
      "grad_norm": 3.0625,
      "grad_norm_var": 4.100650024414063,
      "learning_rate": 0.0001,
      "loss": 8.5518,
      "loss/crossentropy": 2.2542319297790527,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.267962783575058,
      "step": 2454
    },
    {
      "epoch": 0.1535,
      "grad_norm": 3.171875,
      "grad_norm_var": 4.085700480143229,
      "learning_rate": 0.0001,
      "loss": 8.3585,
      "loss/crossentropy": 2.4759573936462402,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2723170071840286,
      "step": 2456
    },
    {
      "epoch": 0.153625,
      "grad_norm": 3.1875,
      "grad_norm_var": 4.062303670247396,
      "learning_rate": 0.0001,
      "loss": 8.17,
      "loss/crossentropy": 2.260656952857971,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25791803002357483,
      "step": 2458
    },
    {
      "epoch": 0.15375,
      "grad_norm": 3.296875,
      "grad_norm_var": 4.06168212890625,
      "learning_rate": 0.0001,
      "loss": 8.2435,
      "loss/crossentropy": 2.2933273315429688,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2662912607192993,
      "step": 2460
    },
    {
      "epoch": 0.153875,
      "grad_norm": 3.125,
      "grad_norm_var": 4.067943318684896,
      "learning_rate": 0.0001,
      "loss": 8.049,
      "loss/crossentropy": 2.1535520553588867,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2517680525779724,
      "step": 2462
    },
    {
      "epoch": 0.154,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.0138580322265625,
      "learning_rate": 0.0001,
      "loss": 8.0467,
      "loss/crossentropy": 2.0775814056396484,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25869153439998627,
      "step": 2464
    },
    {
      "epoch": 0.154125,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.012906901041666667,
      "learning_rate": 0.0001,
      "loss": 8.1568,
      "loss/crossentropy": 2.466973304748535,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27992746233940125,
      "step": 2466
    },
    {
      "epoch": 0.15425,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.01207275390625,
      "learning_rate": 0.0001,
      "loss": 8.0886,
      "loss/crossentropy": 2.3320833444595337,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27216966450214386,
      "step": 2468
    },
    {
      "epoch": 0.154375,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.0121490478515625,
      "learning_rate": 0.0001,
      "loss": 8.109,
      "loss/crossentropy": 2.2403723001480103,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24139465391635895,
      "step": 2470
    },
    {
      "epoch": 0.1545,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.010472615559895834,
      "learning_rate": 0.0001,
      "loss": 8.56,
      "loss/crossentropy": 2.1147449016571045,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2546851634979248,
      "step": 2472
    },
    {
      "epoch": 0.154625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.009496053059895834,
      "learning_rate": 0.0001,
      "loss": 8.2829,
      "loss/crossentropy": 2.128211796283722,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2636387571692467,
      "step": 2474
    },
    {
      "epoch": 0.15475,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.008250935872395834,
      "learning_rate": 0.0001,
      "loss": 8.4869,
      "loss/crossentropy": 2.5061731338500977,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27180950343608856,
      "step": 2476
    },
    {
      "epoch": 0.154875,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.009325154622395833,
      "learning_rate": 0.0001,
      "loss": 8.2537,
      "loss/crossentropy": 1.90971839427948,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2415306195616722,
      "step": 2478
    },
    {
      "epoch": 0.155,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.01353759765625,
      "learning_rate": 0.0001,
      "loss": 7.9013,
      "loss/crossentropy": 2.1773123145103455,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2478671371936798,
      "step": 2480
    },
    {
      "epoch": 0.155125,
      "grad_norm": 6.90625,
      "grad_norm_var": 0.901953125,
      "learning_rate": 0.0001,
      "loss": 8.4798,
      "loss/crossentropy": 2.3107967376708984,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2525716871023178,
      "step": 2482
    },
    {
      "epoch": 0.15525,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.8995513916015625,
      "learning_rate": 0.0001,
      "loss": 8.4744,
      "loss/crossentropy": 2.247706890106201,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3075176626443863,
      "step": 2484
    },
    {
      "epoch": 0.155375,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.89342041015625,
      "learning_rate": 0.0001,
      "loss": 8.1333,
      "loss/crossentropy": 2.3638851642608643,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.272746741771698,
      "step": 2486
    },
    {
      "epoch": 0.1555,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.8865071614583333,
      "learning_rate": 0.0001,
      "loss": 8.2671,
      "loss/crossentropy": 2.267830967903137,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28789058327674866,
      "step": 2488
    },
    {
      "epoch": 0.155625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.8851552327473958,
      "learning_rate": 0.0001,
      "loss": 8.1937,
      "loss/crossentropy": 2.165649652481079,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26410168409347534,
      "step": 2490
    },
    {
      "epoch": 0.15575,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.8902496337890625,
      "learning_rate": 0.0001,
      "loss": 8.348,
      "loss/crossentropy": 2.2928093671798706,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2730616182088852,
      "step": 2492
    },
    {
      "epoch": 0.155875,
      "grad_norm": 3.6875,
      "grad_norm_var": 1.3131256103515625,
      "learning_rate": 0.0001,
      "loss": 9.0116,
      "loss/crossentropy": 2.288671135902405,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25715528428554535,
      "step": 2494
    },
    {
      "epoch": 0.156,
      "grad_norm": 3.515625,
      "grad_norm_var": 1.245361328125,
      "learning_rate": 0.0001,
      "loss": 8.2275,
      "loss/crossentropy": 2.04764986038208,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2550469785928726,
      "step": 2496
    },
    {
      "epoch": 0.156125,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.5328196207682292,
      "learning_rate": 0.0001,
      "loss": 8.3368,
      "loss/crossentropy": 2.1027456521987915,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27562327682971954,
      "step": 2498
    },
    {
      "epoch": 0.15625,
      "grad_norm": 3.375,
      "grad_norm_var": 0.5341054280598958,
      "learning_rate": 0.0001,
      "loss": 8.3857,
      "loss/crossentropy": 2.3927990198135376,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2799486666917801,
      "step": 2500
    },
    {
      "epoch": 0.156375,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.5267567952473958,
      "learning_rate": 0.0001,
      "loss": 8.3894,
      "loss/crossentropy": 2.379324197769165,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27068574726581573,
      "step": 2502
    },
    {
      "epoch": 0.1565,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.5542805989583334,
      "learning_rate": 0.0001,
      "loss": 8.6141,
      "loss/crossentropy": 2.1458650827407837,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3379057049751282,
      "step": 2504
    },
    {
      "epoch": 0.156625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.5693359375,
      "learning_rate": 0.0001,
      "loss": 8.3573,
      "loss/crossentropy": 2.2261852025985718,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27541545033454895,
      "step": 2506
    },
    {
      "epoch": 0.15675,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.56923828125,
      "learning_rate": 0.0001,
      "loss": 8.2813,
      "loss/crossentropy": 2.300438404083252,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26637162268161774,
      "step": 2508
    },
    {
      "epoch": 0.156875,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.05836181640625,
      "learning_rate": 0.0001,
      "loss": 8.1558,
      "loss/crossentropy": 2.4900972843170166,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26418106257915497,
      "step": 2510
    },
    {
      "epoch": 0.157,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.0244781494140625,
      "learning_rate": 0.0001,
      "loss": 8.3795,
      "loss/crossentropy": 2.510451316833496,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2828855812549591,
      "step": 2512
    },
    {
      "epoch": 0.157125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.023856608072916667,
      "learning_rate": 0.0001,
      "loss": 8.2548,
      "loss/crossentropy": 2.3360713720321655,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2564430236816406,
      "step": 2514
    },
    {
      "epoch": 0.15725,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.018147786458333332,
      "learning_rate": 0.0001,
      "loss": 8.4346,
      "loss/crossentropy": 2.3846248388290405,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28445227444171906,
      "step": 2516
    },
    {
      "epoch": 0.157375,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.019938151041666668,
      "learning_rate": 0.0001,
      "loss": 8.2736,
      "loss/crossentropy": 2.2677204608917236,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2820749282836914,
      "step": 2518
    },
    {
      "epoch": 0.1575,
      "grad_norm": 3.0,
      "grad_norm_var": 0.023974609375,
      "learning_rate": 0.0001,
      "loss": 8.2038,
      "loss/crossentropy": 2.469799518585205,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25989628583192825,
      "step": 2520
    },
    {
      "epoch": 0.157625,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.024702962239583334,
      "learning_rate": 0.0001,
      "loss": 8.3751,
      "loss/crossentropy": 2.4882609844207764,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2699503153562546,
      "step": 2522
    },
    {
      "epoch": 0.15775,
      "grad_norm": 3.25,
      "grad_norm_var": 0.026123046875,
      "learning_rate": 0.0001,
      "loss": 8.4694,
      "loss/crossentropy": 2.5819085836410522,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27766086161136627,
      "step": 2524
    },
    {
      "epoch": 0.157875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.025072224934895835,
      "learning_rate": 0.0001,
      "loss": 8.1619,
      "loss/crossentropy": 2.2840874791145325,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29234474897384644,
      "step": 2526
    },
    {
      "epoch": 0.158,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.026513671875,
      "learning_rate": 0.0001,
      "loss": 8.4086,
      "loss/crossentropy": 2.4526052474975586,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28289155662059784,
      "step": 2528
    },
    {
      "epoch": 0.158125,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.026513671875,
      "learning_rate": 0.0001,
      "loss": 8.7414,
      "loss/crossentropy": 2.654939293861389,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2989393472671509,
      "step": 2530
    },
    {
      "epoch": 0.15825,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.030028279622395834,
      "learning_rate": 0.0001,
      "loss": 8.2029,
      "loss/crossentropy": 2.375227451324463,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.29081976413726807,
      "step": 2532
    },
    {
      "epoch": 0.158375,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.024201456705729166,
      "learning_rate": 0.0001,
      "loss": 8.2599,
      "loss/crossentropy": 2.2531535625457764,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26515205204486847,
      "step": 2534
    },
    {
      "epoch": 0.1585,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.0256744384765625,
      "learning_rate": 0.0001,
      "loss": 8.6216,
      "loss/crossentropy": 2.3937805891036987,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29868148267269135,
      "step": 2536
    },
    {
      "epoch": 0.158625,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.03931884765625,
      "learning_rate": 0.0001,
      "loss": 8.7359,
      "loss/crossentropy": 2.475276470184326,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28303323686122894,
      "step": 2538
    },
    {
      "epoch": 0.15875,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.040526326497395834,
      "learning_rate": 0.0001,
      "loss": 8.1197,
      "loss/crossentropy": 2.0302132964134216,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2279423400759697,
      "step": 2540
    },
    {
      "epoch": 0.158875,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.036774698893229166,
      "learning_rate": 0.0001,
      "loss": 8.4462,
      "loss/crossentropy": 2.604537010192871,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2865126132965088,
      "step": 2542
    },
    {
      "epoch": 0.159,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.03657124837239583,
      "learning_rate": 0.0001,
      "loss": 8.4149,
      "loss/crossentropy": 2.3719130754470825,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2572627142071724,
      "step": 2544
    },
    {
      "epoch": 0.159125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.033772786458333336,
      "learning_rate": 0.0001,
      "loss": 8.226,
      "loss/crossentropy": 2.290672540664673,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3219170421361923,
      "step": 2546
    },
    {
      "epoch": 0.15925,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.031636555989583336,
      "learning_rate": 0.0001,
      "loss": 8.2854,
      "loss/crossentropy": 2.145516276359558,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2706049084663391,
      "step": 2548
    },
    {
      "epoch": 0.159375,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.03004150390625,
      "learning_rate": 0.0001,
      "loss": 8.2928,
      "loss/crossentropy": 2.5301170349121094,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2519679069519043,
      "step": 2550
    },
    {
      "epoch": 0.1595,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0247955322265625,
      "learning_rate": 0.0001,
      "loss": 8.3513,
      "loss/crossentropy": 2.4736965894699097,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27385158836841583,
      "step": 2552
    },
    {
      "epoch": 0.159625,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.010282389322916667,
      "learning_rate": 0.0001,
      "loss": 8.4279,
      "loss/crossentropy": 2.6575098037719727,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28586356341838837,
      "step": 2554
    },
    {
      "epoch": 0.15975,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.010188802083333334,
      "learning_rate": 0.0001,
      "loss": 8.3428,
      "loss/crossentropy": 2.436043381690979,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2793993800878525,
      "step": 2556
    },
    {
      "epoch": 0.159875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.01025390625,
      "learning_rate": 0.0001,
      "loss": 8.2126,
      "loss/crossentropy": 2.388734817504883,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24712733924388885,
      "step": 2558
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.012140909830729166,
      "learning_rate": 0.0001,
      "loss": 8.341,
      "loss/crossentropy": 2.488566756248474,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28663991391658783,
      "step": 2560
    },
    {
      "epoch": 0.160125,
      "grad_norm": 3.0,
      "grad_norm_var": 0.012626139322916667,
      "learning_rate": 0.0001,
      "loss": 8.1953,
      "loss/crossentropy": 2.360735058784485,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2733890935778618,
      "step": 2562
    },
    {
      "epoch": 0.16025,
      "grad_norm": 3.125,
      "grad_norm_var": 0.012262980143229166,
      "learning_rate": 0.0001,
      "loss": 8.2249,
      "loss/crossentropy": 2.49215030670166,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29839469492435455,
      "step": 2564
    },
    {
      "epoch": 0.160375,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.00963134765625,
      "learning_rate": 0.0001,
      "loss": 8.2714,
      "loss/crossentropy": 2.4546769857406616,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2619743049144745,
      "step": 2566
    },
    {
      "epoch": 0.1605,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.013232421875,
      "learning_rate": 0.0001,
      "loss": 8.3612,
      "loss/crossentropy": 2.429980993270874,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2659847140312195,
      "step": 2568
    },
    {
      "epoch": 0.160625,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.013704427083333333,
      "learning_rate": 0.0001,
      "loss": 8.1659,
      "loss/crossentropy": 2.3688398003578186,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23781683295965195,
      "step": 2570
    },
    {
      "epoch": 0.16075,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.026318359375,
      "learning_rate": 0.0001,
      "loss": 8.346,
      "loss/crossentropy": 2.4594470262527466,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2740607261657715,
      "step": 2572
    },
    {
      "epoch": 0.160875,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.027985636393229166,
      "learning_rate": 0.0001,
      "loss": 8.268,
      "loss/crossentropy": 2.194278836250305,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26395024359226227,
      "step": 2574
    },
    {
      "epoch": 0.161,
      "grad_norm": 2.875,
      "grad_norm_var": 0.029378255208333332,
      "learning_rate": 0.0001,
      "loss": 8.1956,
      "loss/crossentropy": 2.1503721475601196,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24605603516101837,
      "step": 2576
    },
    {
      "epoch": 0.161125,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.046971638997395836,
      "learning_rate": 0.0001,
      "loss": 8.2973,
      "loss/crossentropy": 2.331193447113037,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2738886624574661,
      "step": 2578
    },
    {
      "epoch": 0.16125,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.046971638997395836,
      "learning_rate": 0.0001,
      "loss": 8.3282,
      "loss/crossentropy": 2.3280651569366455,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.280707448720932,
      "step": 2580
    },
    {
      "epoch": 0.161375,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.04517822265625,
      "learning_rate": 0.0001,
      "loss": 8.2786,
      "loss/crossentropy": 2.2947434186935425,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28385594487190247,
      "step": 2582
    },
    {
      "epoch": 0.1615,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.03827718098958333,
      "learning_rate": 0.0001,
      "loss": 8.3341,
      "loss/crossentropy": 2.4629331827163696,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2666812241077423,
      "step": 2584
    },
    {
      "epoch": 0.161625,
      "grad_norm": 3.25,
      "grad_norm_var": 0.0423248291015625,
      "learning_rate": 0.0001,
      "loss": 8.6395,
      "loss/crossentropy": 2.167258083820343,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31057223677635193,
      "step": 2586
    },
    {
      "epoch": 0.16175,
      "grad_norm": 4.5,
      "grad_norm_var": 0.1481109619140625,
      "learning_rate": 0.0001,
      "loss": 8.2884,
      "loss/crossentropy": 2.116983652114868,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2682839557528496,
      "step": 2588
    },
    {
      "epoch": 0.161875,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.15274149576822918,
      "learning_rate": 0.0001,
      "loss": 8.7022,
      "loss/crossentropy": 2.733883261680603,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3234509229660034,
      "step": 2590
    },
    {
      "epoch": 0.162,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.14871317545572918,
      "learning_rate": 0.0001,
      "loss": 8.1477,
      "loss/crossentropy": 2.146886646747589,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26147788763046265,
      "step": 2592
    },
    {
      "epoch": 0.162125,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.14615885416666666,
      "learning_rate": 0.0001,
      "loss": 8.1554,
      "loss/crossentropy": 2.311735153198242,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26781047880649567,
      "step": 2594
    },
    {
      "epoch": 0.16225,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.14546610514322916,
      "learning_rate": 0.0001,
      "loss": 8.177,
      "loss/crossentropy": 2.4164129495620728,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26862579584121704,
      "step": 2596
    },
    {
      "epoch": 0.162375,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.14485270182291668,
      "learning_rate": 0.0001,
      "loss": 8.2389,
      "loss/crossentropy": 2.1019481420516968,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26436343789100647,
      "step": 2598
    },
    {
      "epoch": 0.1625,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.14814046223958333,
      "learning_rate": 0.0001,
      "loss": 8.481,
      "loss/crossentropy": 2.262871265411377,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2700708210468292,
      "step": 2600
    },
    {
      "epoch": 0.162625,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.14741923014322916,
      "learning_rate": 0.0001,
      "loss": 8.2838,
      "loss/crossentropy": 2.635279059410095,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29194803535938263,
      "step": 2602
    },
    {
      "epoch": 0.16275,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.030952962239583333,
      "learning_rate": 0.0001,
      "loss": 8.2658,
      "loss/crossentropy": 2.4246195554733276,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2945238947868347,
      "step": 2604
    },
    {
      "epoch": 0.162875,
      "grad_norm": 3.25,
      "grad_norm_var": 0.0225738525390625,
      "learning_rate": 0.0001,
      "loss": 8.2605,
      "loss/crossentropy": 2.0880810022354126,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.263704776763916,
      "step": 2606
    },
    {
      "epoch": 0.163,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.024706013997395835,
      "learning_rate": 0.0001,
      "loss": 8.1831,
      "loss/crossentropy": 2.080967903137207,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24847671389579773,
      "step": 2608
    },
    {
      "epoch": 0.163125,
      "grad_norm": 3.125,
      "grad_norm_var": 0.019270833333333334,
      "learning_rate": 0.0001,
      "loss": 8.416,
      "loss/crossentropy": 2.363895058631897,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28405146300792694,
      "step": 2610
    },
    {
      "epoch": 0.16325,
      "grad_norm": 3.0,
      "grad_norm_var": 0.0218658447265625,
      "learning_rate": 0.0001,
      "loss": 8.3748,
      "loss/crossentropy": 2.4413585662841797,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28752467036247253,
      "step": 2612
    },
    {
      "epoch": 0.163375,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.022728474934895833,
      "learning_rate": 0.0001,
      "loss": 8.2726,
      "loss/crossentropy": 2.3740620613098145,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2649526298046112,
      "step": 2614
    },
    {
      "epoch": 0.1635,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.027534993489583333,
      "learning_rate": 0.0001,
      "loss": 8.3047,
      "loss/crossentropy": 2.2964380979537964,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2646304666996002,
      "step": 2616
    },
    {
      "epoch": 0.163625,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.038736979166666664,
      "learning_rate": 0.0001,
      "loss": 8.2126,
      "loss/crossentropy": 2.1447632908821106,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24735675752162933,
      "step": 2618
    },
    {
      "epoch": 0.16375,
      "grad_norm": 3.625,
      "grad_norm_var": 0.0572418212890625,
      "learning_rate": 0.0001,
      "loss": 8.5174,
      "loss/crossentropy": 2.433838725090027,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2876787632703781,
      "step": 2620
    },
    {
      "epoch": 0.163875,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.059521484375,
      "learning_rate": 0.0001,
      "loss": 8.0701,
      "loss/crossentropy": 2.204833507537842,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2602345570921898,
      "step": 2622
    },
    {
      "epoch": 0.164,
      "grad_norm": 3.375,
      "grad_norm_var": 0.0607086181640625,
      "learning_rate": 0.0001,
      "loss": 8.3564,
      "loss/crossentropy": 2.4403984546661377,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28500233590602875,
      "step": 2624
    },
    {
      "epoch": 0.164125,
      "grad_norm": 3.25,
      "grad_norm_var": 0.06425374348958333,
      "learning_rate": 0.0001,
      "loss": 8.4073,
      "loss/crossentropy": 2.461033344268799,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2762896418571472,
      "step": 2626
    },
    {
      "epoch": 0.16425,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.0610748291015625,
      "learning_rate": 0.0001,
      "loss": 8.2333,
      "loss/crossentropy": 2.3412665128707886,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2702695280313492,
      "step": 2628
    },
    {
      "epoch": 0.164375,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.0517974853515625,
      "learning_rate": 0.0001,
      "loss": 8.471,
      "loss/crossentropy": 2.395104169845581,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.266902893781662,
      "step": 2630
    },
    {
      "epoch": 0.1645,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.0504058837890625,
      "learning_rate": 0.0001,
      "loss": 8.4257,
      "loss/crossentropy": 2.5319817066192627,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28416794538497925,
      "step": 2632
    },
    {
      "epoch": 0.164625,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.048291015625,
      "learning_rate": 0.0001,
      "loss": 8.0315,
      "loss/crossentropy": 2.1557105779647827,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2669526934623718,
      "step": 2634
    },
    {
      "epoch": 0.16475,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.04273681640625,
      "learning_rate": 0.0001,
      "loss": 8.3233,
      "loss/crossentropy": 2.5935251712799072,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24305777996778488,
      "step": 2636
    },
    {
      "epoch": 0.164875,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.033910115559895836,
      "learning_rate": 0.0001,
      "loss": 8.4456,
      "loss/crossentropy": 2.489887237548828,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26338575780391693,
      "step": 2638
    },
    {
      "epoch": 0.165,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.03730061848958333,
      "learning_rate": 0.0001,
      "loss": 8.0705,
      "loss/crossentropy": 2.252521276473999,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24118152260780334,
      "step": 2640
    },
    {
      "epoch": 0.165125,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.03505757649739583,
      "learning_rate": 0.0001,
      "loss": 8.007,
      "loss/crossentropy": 2.2367311120033264,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25346408784389496,
      "step": 2642
    },
    {
      "epoch": 0.16525,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.03387044270833333,
      "learning_rate": 0.0001,
      "loss": 8.2971,
      "loss/crossentropy": 2.2261271476745605,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2599840611219406,
      "step": 2644
    },
    {
      "epoch": 0.165375,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.0338775634765625,
      "learning_rate": 0.0001,
      "loss": 8.2174,
      "loss/crossentropy": 2.3545104265213013,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.268455445766449,
      "step": 2646
    },
    {
      "epoch": 0.1655,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.037816365559895836,
      "learning_rate": 0.0001,
      "loss": 8.1461,
      "loss/crossentropy": 2.2744003534317017,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23194655776023865,
      "step": 2648
    },
    {
      "epoch": 0.165625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.0201812744140625,
      "learning_rate": 0.0001,
      "loss": 8.4255,
      "loss/crossentropy": 2.292569160461426,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25596070289611816,
      "step": 2650
    },
    {
      "epoch": 0.16575,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.024983723958333332,
      "learning_rate": 0.0001,
      "loss": 8.1794,
      "loss/crossentropy": 2.06977915763855,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22923216223716736,
      "step": 2652
    },
    {
      "epoch": 0.165875,
      "grad_norm": 3.25,
      "grad_norm_var": 0.025641886393229167,
      "learning_rate": 0.0001,
      "loss": 8.4059,
      "loss/crossentropy": 2.262938976287842,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2663477659225464,
      "step": 2654
    },
    {
      "epoch": 0.166,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.0209625244140625,
      "learning_rate": 0.0001,
      "loss": 8.337,
      "loss/crossentropy": 1.9289529919624329,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2564796954393387,
      "step": 2656
    },
    {
      "epoch": 0.166125,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0193359375,
      "learning_rate": 0.0001,
      "loss": 8.2522,
      "loss/crossentropy": 2.4027702808380127,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.282346248626709,
      "step": 2658
    },
    {
      "epoch": 0.16625,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0200103759765625,
      "learning_rate": 0.0001,
      "loss": 8.1585,
      "loss/crossentropy": 2.121252119541168,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26361793279647827,
      "step": 2660
    },
    {
      "epoch": 0.166375,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.02109375,
      "learning_rate": 0.0001,
      "loss": 8.1217,
      "loss/crossentropy": 2.355001926422119,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25889521837234497,
      "step": 2662
    },
    {
      "epoch": 0.1665,
      "grad_norm": 3.125,
      "grad_norm_var": 0.01630859375,
      "learning_rate": 0.0001,
      "loss": 8.2613,
      "loss/crossentropy": 2.3688048124313354,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27535010874271393,
      "step": 2664
    },
    {
      "epoch": 0.166625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.014225260416666666,
      "learning_rate": 0.0001,
      "loss": 8.0862,
      "loss/crossentropy": 2.3740497827529907,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2727824002504349,
      "step": 2666
    },
    {
      "epoch": 0.16675,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.015738932291666667,
      "learning_rate": 0.0001,
      "loss": 8.3176,
      "loss/crossentropy": 2.3888481855392456,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2630738615989685,
      "step": 2668
    },
    {
      "epoch": 0.166875,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.016942342122395832,
      "learning_rate": 0.0001,
      "loss": 8.156,
      "loss/crossentropy": 2.0409966707229614,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2550422251224518,
      "step": 2670
    },
    {
      "epoch": 0.167,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.017236328125,
      "learning_rate": 0.0001,
      "loss": 8.4412,
      "loss/crossentropy": 2.5270535945892334,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29448163509368896,
      "step": 2672
    },
    {
      "epoch": 0.167125,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.028661092122395832,
      "learning_rate": 0.0001,
      "loss": 8.0915,
      "loss/crossentropy": 2.235354781150818,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26712487637996674,
      "step": 2674
    },
    {
      "epoch": 0.16725,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0249664306640625,
      "learning_rate": 0.0001,
      "loss": 7.9645,
      "loss/crossentropy": 2.1596986055374146,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2632744610309601,
      "step": 2676
    },
    {
      "epoch": 0.167375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0266510009765625,
      "learning_rate": 0.0001,
      "loss": 8.1883,
      "loss/crossentropy": 2.2907787561416626,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2716197818517685,
      "step": 2678
    },
    {
      "epoch": 0.1675,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0345367431640625,
      "learning_rate": 0.0001,
      "loss": 8.1149,
      "loss/crossentropy": 2.200819969177246,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28321780264377594,
      "step": 2680
    },
    {
      "epoch": 0.167625,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.03452860514322917,
      "learning_rate": 0.0001,
      "loss": 8.3545,
      "loss/crossentropy": 2.5655312538146973,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26827070116996765,
      "step": 2682
    },
    {
      "epoch": 0.16775,
      "grad_norm": 2.875,
      "grad_norm_var": 0.02847900390625,
      "learning_rate": 0.0001,
      "loss": 7.964,
      "loss/crossentropy": 2.368655800819397,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25074201822280884,
      "step": 2684
    },
    {
      "epoch": 0.167875,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.030647786458333333,
      "learning_rate": 0.0001,
      "loss": 8.2303,
      "loss/crossentropy": 2.522045135498047,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.289681613445282,
      "step": 2686
    },
    {
      "epoch": 0.168,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0275299072265625,
      "learning_rate": 0.0001,
      "loss": 8.212,
      "loss/crossentropy": 2.3031221628189087,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2869686484336853,
      "step": 2688
    },
    {
      "epoch": 0.168125,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.014427693684895833,
      "learning_rate": 0.0001,
      "loss": 8.1903,
      "loss/crossentropy": 2.2180505990982056,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2845149040222168,
      "step": 2690
    },
    {
      "epoch": 0.16825,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.014420572916666667,
      "learning_rate": 0.0001,
      "loss": 8.1318,
      "loss/crossentropy": 2.1774216294288635,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27391664683818817,
      "step": 2692
    },
    {
      "epoch": 0.168375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.016747029622395833,
      "learning_rate": 0.0001,
      "loss": 8.1924,
      "loss/crossentropy": 2.3473572731018066,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25838781893253326,
      "step": 2694
    },
    {
      "epoch": 0.1685,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.028385416666666666,
      "learning_rate": 0.0001,
      "loss": 8.1097,
      "loss/crossentropy": 2.3881657123565674,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2789221554994583,
      "step": 2696
    },
    {
      "epoch": 0.168625,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.061421712239583336,
      "learning_rate": 0.0001,
      "loss": 8.1672,
      "loss/crossentropy": 2.1731218099594116,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24963228404521942,
      "step": 2698
    },
    {
      "epoch": 0.16875,
      "grad_norm": 3.125,
      "grad_norm_var": 0.051423136393229166,
      "learning_rate": 0.0001,
      "loss": 8.3729,
      "loss/crossentropy": 2.2801939249038696,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26613737642765045,
      "step": 2700
    },
    {
      "epoch": 0.168875,
      "grad_norm": 3.25,
      "grad_norm_var": 0.045653279622395834,
      "learning_rate": 0.0001,
      "loss": 8.3193,
      "loss/crossentropy": 2.245741128921509,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27671462297439575,
      "step": 2702
    },
    {
      "epoch": 0.169,
      "grad_norm": 3.125,
      "grad_norm_var": 0.043680826822916664,
      "learning_rate": 0.0001,
      "loss": 8.3377,
      "loss/crossentropy": 2.2457879781723022,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26047301292419434,
      "step": 2704
    },
    {
      "epoch": 0.169125,
      "grad_norm": 3.125,
      "grad_norm_var": 0.04413960774739583,
      "learning_rate": 0.0001,
      "loss": 8.177,
      "loss/crossentropy": 2.5720086097717285,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2824274003505707,
      "step": 2706
    },
    {
      "epoch": 0.16925,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.04474995930989583,
      "learning_rate": 0.0001,
      "loss": 8.2283,
      "loss/crossentropy": 2.1722124814987183,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28728562593460083,
      "step": 2708
    },
    {
      "epoch": 0.169375,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.04452718098958333,
      "learning_rate": 0.0001,
      "loss": 8.3363,
      "loss/crossentropy": 2.4735668897628784,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.279041588306427,
      "step": 2710
    },
    {
      "epoch": 0.1695,
      "grad_norm": 3.125,
      "grad_norm_var": 0.03596903483072917,
      "learning_rate": 0.0001,
      "loss": 8.3597,
      "loss/crossentropy": 2.4349948167800903,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.3199606239795685,
      "step": 2712
    },
    {
      "epoch": 0.169625,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.015458170572916667,
      "learning_rate": 0.0001,
      "loss": 8.3392,
      "loss/crossentropy": 2.2743479013442993,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25963588804006577,
      "step": 2714
    },
    {
      "epoch": 0.16975,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.017975870768229166,
      "learning_rate": 0.0001,
      "loss": 8.1114,
      "loss/crossentropy": 2.3894020318984985,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26319143176078796,
      "step": 2716
    },
    {
      "epoch": 0.169875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.022412109375,
      "learning_rate": 0.0001,
      "loss": 8.119,
      "loss/crossentropy": 2.4183582067489624,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2642783522605896,
      "step": 2718
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.025560506184895835,
      "learning_rate": 0.0001,
      "loss": 8.1457,
      "loss/crossentropy": 2.218894124031067,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2494705617427826,
      "step": 2720
    },
    {
      "epoch": 0.170125,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.029157511393229165,
      "learning_rate": 0.0001,
      "loss": 8.4283,
      "loss/crossentropy": 2.3041937351226807,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27814508974552155,
      "step": 2722
    },
    {
      "epoch": 0.17025,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.03127848307291667,
      "learning_rate": 0.0001,
      "loss": 8.2177,
      "loss/crossentropy": 2.212631940841675,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25353027880191803,
      "step": 2724
    },
    {
      "epoch": 0.170375,
      "grad_norm": 3.375,
      "grad_norm_var": 0.024665323893229167,
      "learning_rate": 0.0001,
      "loss": 8.2822,
      "loss/crossentropy": 2.395217537879944,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2819966673851013,
      "step": 2726
    },
    {
      "epoch": 0.1705,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.027074178059895832,
      "learning_rate": 0.0001,
      "loss": 8.6286,
      "loss/crossentropy": 2.7145198583602905,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26581692695617676,
      "step": 2728
    },
    {
      "epoch": 0.170625,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.026227823893229165,
      "learning_rate": 0.0001,
      "loss": 8.3205,
      "loss/crossentropy": 2.30352520942688,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2516012564301491,
      "step": 2730
    },
    {
      "epoch": 0.17075,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.0263336181640625,
      "learning_rate": 0.0001,
      "loss": 8.1426,
      "loss/crossentropy": 2.5575900077819824,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25674693286418915,
      "step": 2732
    },
    {
      "epoch": 0.170875,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.02105712890625,
      "learning_rate": 0.0001,
      "loss": 8.2278,
      "loss/crossentropy": 2.5535298585891724,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2858099341392517,
      "step": 2734
    },
    {
      "epoch": 0.171,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.018220011393229166,
      "learning_rate": 0.0001,
      "loss": 7.9985,
      "loss/crossentropy": 2.249255061149597,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24624134600162506,
      "step": 2736
    },
    {
      "epoch": 0.171125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.019391886393229165,
      "learning_rate": 0.0001,
      "loss": 8.2368,
      "loss/crossentropy": 2.3054301738739014,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.255063071846962,
      "step": 2738
    },
    {
      "epoch": 0.17125,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.017801920572916668,
      "learning_rate": 0.0001,
      "loss": 8.3647,
      "loss/crossentropy": 2.4051593542099,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.3074689656496048,
      "step": 2740
    },
    {
      "epoch": 0.171375,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.017365519205729166,
      "learning_rate": 0.0001,
      "loss": 8.1814,
      "loss/crossentropy": 2.451170325279236,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2629931569099426,
      "step": 2742
    },
    {
      "epoch": 0.1715,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.014802042643229167,
      "learning_rate": 0.0001,
      "loss": 8.2261,
      "loss/crossentropy": 2.5258573293685913,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28129981458187103,
      "step": 2744
    },
    {
      "epoch": 0.171625,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.014232381184895834,
      "learning_rate": 0.0001,
      "loss": 8.2026,
      "loss/crossentropy": 2.59726619720459,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27656108140945435,
      "step": 2746
    },
    {
      "epoch": 0.17175,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.012984212239583333,
      "learning_rate": 0.0001,
      "loss": 8.3833,
      "loss/crossentropy": 2.590458631515503,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2706581801176071,
      "step": 2748
    },
    {
      "epoch": 0.171875,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.014058430989583334,
      "learning_rate": 0.0001,
      "loss": 8.0601,
      "loss/crossentropy": 2.3810765743255615,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24706510454416275,
      "step": 2750
    },
    {
      "epoch": 0.172,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.015360514322916666,
      "learning_rate": 0.0001,
      "loss": 8.0355,
      "loss/crossentropy": 2.258496880531311,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26913100481033325,
      "step": 2752
    },
    {
      "epoch": 0.172125,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.0178131103515625,
      "learning_rate": 0.0001,
      "loss": 8.2945,
      "loss/crossentropy": 2.477080225944519,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26651376485824585,
      "step": 2754
    },
    {
      "epoch": 0.17225,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0175933837890625,
      "learning_rate": 0.0001,
      "loss": 8.1,
      "loss/crossentropy": 2.3166109323501587,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24783167243003845,
      "step": 2756
    },
    {
      "epoch": 0.172375,
      "grad_norm": 2.875,
      "grad_norm_var": 0.014012654622395834,
      "learning_rate": 0.0001,
      "loss": 8.1753,
      "loss/crossentropy": 2.3947906494140625,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2784908413887024,
      "step": 2758
    },
    {
      "epoch": 0.1725,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0149078369140625,
      "learning_rate": 0.0001,
      "loss": 8.298,
      "loss/crossentropy": 2.308673143386841,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2578892260789871,
      "step": 2760
    },
    {
      "epoch": 0.172625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.015816243489583333,
      "learning_rate": 0.0001,
      "loss": 8.277,
      "loss/crossentropy": 2.410847306251526,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2580881118774414,
      "step": 2762
    },
    {
      "epoch": 0.17275,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.0188385009765625,
      "learning_rate": 0.0001,
      "loss": 8.3098,
      "loss/crossentropy": 2.4470525979995728,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.25711022317409515,
      "step": 2764
    },
    {
      "epoch": 0.172875,
      "grad_norm": 3.125,
      "grad_norm_var": 0.018603515625,
      "learning_rate": 0.0001,
      "loss": 8.384,
      "loss/crossentropy": 2.5611066818237305,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2998035103082657,
      "step": 2766
    },
    {
      "epoch": 0.173,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.016258748372395833,
      "learning_rate": 0.0001,
      "loss": 8.3617,
      "loss/crossentropy": 2.5504335165023804,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27010831236839294,
      "step": 2768
    },
    {
      "epoch": 0.173125,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.020897420247395833,
      "learning_rate": 0.0001,
      "loss": 8.0711,
      "loss/crossentropy": 2.2784290313720703,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25674042105674744,
      "step": 2770
    },
    {
      "epoch": 0.17325,
      "grad_norm": 3.25,
      "grad_norm_var": 0.022782389322916666,
      "learning_rate": 0.0001,
      "loss": 8.2164,
      "loss/crossentropy": 2.421698570251465,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2708132416009903,
      "step": 2772
    },
    {
      "epoch": 0.173375,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.05318603515625,
      "learning_rate": 0.0001,
      "loss": 8.2761,
      "loss/crossentropy": 2.1522774696350098,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24617627263069153,
      "step": 2774
    },
    {
      "epoch": 0.1735,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0539459228515625,
      "learning_rate": 0.0001,
      "loss": 8.3435,
      "loss/crossentropy": 2.5082781314849854,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27957382798194885,
      "step": 2776
    },
    {
      "epoch": 0.173625,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.05487874348958333,
      "learning_rate": 0.0001,
      "loss": 8.0423,
      "loss/crossentropy": 2.2934749126434326,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2753216177225113,
      "step": 2778
    },
    {
      "epoch": 0.17375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.05186258951822917,
      "learning_rate": 0.0001,
      "loss": 8.3362,
      "loss/crossentropy": 2.4466487169265747,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2686302661895752,
      "step": 2780
    },
    {
      "epoch": 0.173875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.05314839680989583,
      "learning_rate": 0.0001,
      "loss": 8.2283,
      "loss/crossentropy": 2.2464054822921753,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27123279869556427,
      "step": 2782
    },
    {
      "epoch": 0.174,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.0550933837890625,
      "learning_rate": 0.0001,
      "loss": 8.2158,
      "loss/crossentropy": 2.3913623094558716,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27313700318336487,
      "step": 2784
    },
    {
      "epoch": 0.174125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.0407623291015625,
      "learning_rate": 0.0001,
      "loss": 8.2836,
      "loss/crossentropy": 2.512578248977661,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2598787695169449,
      "step": 2786
    },
    {
      "epoch": 0.17425,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.04078369140625,
      "learning_rate": 0.0001,
      "loss": 8.0561,
      "loss/crossentropy": 2.5069663524627686,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.273094579577446,
      "step": 2788
    },
    {
      "epoch": 0.174375,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.012300618489583333,
      "learning_rate": 0.0001,
      "loss": 8.1484,
      "loss/crossentropy": 2.0232608318328857,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2657552883028984,
      "step": 2790
    },
    {
      "epoch": 0.1745,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.017220052083333333,
      "learning_rate": 0.0001,
      "loss": 8.4669,
      "loss/crossentropy": 2.387427568435669,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2625594586133957,
      "step": 2792
    },
    {
      "epoch": 0.174625,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.016405232747395835,
      "learning_rate": 0.0001,
      "loss": 8.3922,
      "loss/crossentropy": 2.3673804998397827,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28117281198501587,
      "step": 2794
    },
    {
      "epoch": 0.17475,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.03388264973958333,
      "learning_rate": 0.0001,
      "loss": 8.2787,
      "loss/crossentropy": 2.4962185621261597,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.286916047334671,
      "step": 2796
    },
    {
      "epoch": 0.174875,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.03957926432291667,
      "learning_rate": 0.0001,
      "loss": 8.2466,
      "loss/crossentropy": 2.418305993080139,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2539825364947319,
      "step": 2798
    },
    {
      "epoch": 0.175,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.038304646809895836,
      "learning_rate": 0.0001,
      "loss": 8.1027,
      "loss/crossentropy": 2.1551238298416138,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2831410765647888,
      "step": 2800
    },
    {
      "epoch": 0.175125,
      "grad_norm": 3.125,
      "grad_norm_var": 0.03675130208333333,
      "learning_rate": 0.0001,
      "loss": 8.3028,
      "loss/crossentropy": 2.063372015953064,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2392185851931572,
      "step": 2802
    },
    {
      "epoch": 0.17525,
      "grad_norm": 3.25,
      "grad_norm_var": 0.03528645833333333,
      "learning_rate": 0.0001,
      "loss": 8.3566,
      "loss/crossentropy": 2.4662251472473145,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2643844783306122,
      "step": 2804
    },
    {
      "epoch": 0.175375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.03893229166666667,
      "learning_rate": 0.0001,
      "loss": 8.2343,
      "loss/crossentropy": 2.275088667869568,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25276893377304077,
      "step": 2806
    },
    {
      "epoch": 0.1755,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.030692545572916667,
      "learning_rate": 0.0001,
      "loss": 8.2212,
      "loss/crossentropy": 2.20920592546463,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25742238759994507,
      "step": 2808
    },
    {
      "epoch": 0.175625,
      "grad_norm": 3.125,
      "grad_norm_var": 0.028450520833333333,
      "learning_rate": 0.0001,
      "loss": 8.4952,
      "loss/crossentropy": 2.378191828727722,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3033263385295868,
      "step": 2810
    },
    {
      "epoch": 0.17575,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0159332275390625,
      "learning_rate": 0.0001,
      "loss": 8.3287,
      "loss/crossentropy": 2.3606228828430176,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26286470890045166,
      "step": 2812
    },
    {
      "epoch": 0.175875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0115631103515625,
      "learning_rate": 0.0001,
      "loss": 8.0903,
      "loss/crossentropy": 2.5904735326766968,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.28542497754096985,
      "step": 2814
    },
    {
      "epoch": 0.176,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.010970052083333333,
      "learning_rate": 0.0001,
      "loss": 8.2841,
      "loss/crossentropy": 2.1312711238861084,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2546592205762863,
      "step": 2816
    },
    {
      "epoch": 0.176125,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.011747233072916667,
      "learning_rate": 0.0001,
      "loss": 8.3833,
      "loss/crossentropy": 2.4488954544067383,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27959881722927094,
      "step": 2818
    },
    {
      "epoch": 0.17625,
      "grad_norm": 3.125,
      "grad_norm_var": 0.010041300455729167,
      "learning_rate": 0.0001,
      "loss": 8.364,
      "loss/crossentropy": 2.4785863161087036,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26612453162670135,
      "step": 2820
    },
    {
      "epoch": 0.176375,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.008503214518229166,
      "learning_rate": 0.0001,
      "loss": 8.1876,
      "loss/crossentropy": 2.344822645187378,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24801667034626007,
      "step": 2822
    },
    {
      "epoch": 0.1765,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.009000651041666667,
      "learning_rate": 0.0001,
      "loss": 8.2002,
      "loss/crossentropy": 2.2322527170181274,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23924288898706436,
      "step": 2824
    },
    {
      "epoch": 0.176625,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.011747233072916667,
      "learning_rate": 0.0001,
      "loss": 8.2038,
      "loss/crossentropy": 2.2701025009155273,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24792873859405518,
      "step": 2826
    },
    {
      "epoch": 0.17675,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.017313639322916668,
      "learning_rate": 0.0001,
      "loss": 8.0395,
      "loss/crossentropy": 2.2964216470718384,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24705877900123596,
      "step": 2828
    },
    {
      "epoch": 0.176875,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.017378743489583334,
      "learning_rate": 0.0001,
      "loss": 8.4679,
      "loss/crossentropy": 2.418280839920044,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3100636601448059,
      "step": 2830
    },
    {
      "epoch": 0.177,
      "grad_norm": 3.375,
      "grad_norm_var": 0.026488240559895834,
      "learning_rate": 0.0001,
      "loss": 8.1278,
      "loss/crossentropy": 2.4353508949279785,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2712879627943039,
      "step": 2832
    },
    {
      "epoch": 0.177125,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.023363240559895835,
      "learning_rate": 0.0001,
      "loss": 8.4328,
      "loss/crossentropy": 2.277379631996155,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2677570581436157,
      "step": 2834
    },
    {
      "epoch": 0.17725,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.024348958333333334,
      "learning_rate": 0.0001,
      "loss": 7.8742,
      "loss/crossentropy": 2.3050626516342163,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25615155696868896,
      "step": 2836
    },
    {
      "epoch": 0.177375,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.031102498372395832,
      "learning_rate": 0.0001,
      "loss": 8.1044,
      "loss/crossentropy": 2.2054827213287354,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26621413230895996,
      "step": 2838
    },
    {
      "epoch": 0.1775,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.04169820149739583,
      "learning_rate": 0.0001,
      "loss": 8.0213,
      "loss/crossentropy": 2.344091534614563,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26311126351356506,
      "step": 2840
    },
    {
      "epoch": 0.177625,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.039525349934895836,
      "learning_rate": 0.0001,
      "loss": 8.2404,
      "loss/crossentropy": 2.3576395511627197,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26957815885543823,
      "step": 2842
    },
    {
      "epoch": 0.17775,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.03683268229166667,
      "learning_rate": 0.0001,
      "loss": 8.1148,
      "loss/crossentropy": 2.0740586519241333,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2444992959499359,
      "step": 2844
    },
    {
      "epoch": 0.177875,
      "grad_norm": 2.875,
      "grad_norm_var": 0.03797098795572917,
      "learning_rate": 0.0001,
      "loss": 8.0264,
      "loss/crossentropy": 2.196990489959717,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2584913969039917,
      "step": 2846
    },
    {
      "epoch": 0.178,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.029931640625,
      "learning_rate": 0.0001,
      "loss": 8.0912,
      "loss/crossentropy": 2.465600848197937,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31103046238422394,
      "step": 2848
    },
    {
      "epoch": 0.178125,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.03961588541666667,
      "learning_rate": 0.0001,
      "loss": 8.6973,
      "loss/crossentropy": 2.542473077774048,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2756101042032242,
      "step": 2850
    },
    {
      "epoch": 0.17825,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.038248697916666664,
      "learning_rate": 0.0001,
      "loss": 8.0748,
      "loss/crossentropy": 2.357996344566345,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2627618610858917,
      "step": 2852
    },
    {
      "epoch": 0.178375,
      "grad_norm": 3.125,
      "grad_norm_var": 0.0279449462890625,
      "learning_rate": 0.0001,
      "loss": 8.2433,
      "loss/crossentropy": 2.387884736061096,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2805600166320801,
      "step": 2854
    },
    {
      "epoch": 0.1785,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.02301025390625,
      "learning_rate": 0.0001,
      "loss": 8.2198,
      "loss/crossentropy": 2.2316168546676636,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2630866765975952,
      "step": 2856
    },
    {
      "epoch": 0.178625,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.024898274739583334,
      "learning_rate": 0.0001,
      "loss": 8.1996,
      "loss/crossentropy": 2.388888955116272,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2638123258948326,
      "step": 2858
    },
    {
      "epoch": 0.17875,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.025519816080729167,
      "learning_rate": 0.0001,
      "loss": 8.2193,
      "loss/crossentropy": 2.575498104095459,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2572275549173355,
      "step": 2860
    },
    {
      "epoch": 0.178875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.024837239583333334,
      "learning_rate": 0.0001,
      "loss": 8.3578,
      "loss/crossentropy": 2.524762511253357,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3061821162700653,
      "step": 2862
    },
    {
      "epoch": 0.179,
      "grad_norm": 3.125,
      "grad_norm_var": 0.025716145833333332,
      "learning_rate": 0.0001,
      "loss": 8.2261,
      "loss/crossentropy": 2.2874268293380737,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26778069138526917,
      "step": 2864
    },
    {
      "epoch": 0.179125,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.022591145833333333,
      "learning_rate": 0.0001,
      "loss": 8.3879,
      "loss/crossentropy": 2.28354811668396,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26096734404563904,
      "step": 2866
    },
    {
      "epoch": 0.17925,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.025211588541666666,
      "learning_rate": 0.0001,
      "loss": 8.2155,
      "loss/crossentropy": 2.1607202291488647,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26596730947494507,
      "step": 2868
    },
    {
      "epoch": 0.179375,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.0307769775390625,
      "learning_rate": 0.0001,
      "loss": 8.2848,
      "loss/crossentropy": 2.4421184062957764,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25268222391605377,
      "step": 2870
    },
    {
      "epoch": 0.1795,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.03218994140625,
      "learning_rate": 0.0001,
      "loss": 8.184,
      "loss/crossentropy": 2.24539315700531,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2509969249367714,
      "step": 2872
    },
    {
      "epoch": 0.179625,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.031126912434895834,
      "learning_rate": 0.0001,
      "loss": 8.0381,
      "loss/crossentropy": 2.1964842081069946,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.261972077190876,
      "step": 2874
    },
    {
      "epoch": 0.17975,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.026756795247395833,
      "learning_rate": 0.0001,
      "loss": 8.2261,
      "loss/crossentropy": 2.2588162422180176,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28808237612247467,
      "step": 2876
    },
    {
      "epoch": 0.179875,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.03379618326822917,
      "learning_rate": 0.0001,
      "loss": 8.163,
      "loss/crossentropy": 2.177803933620453,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27027180790901184,
      "step": 2878
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.030500284830729165,
      "learning_rate": 0.0001,
      "loss": 8.236,
      "loss/crossentropy": 2.0715816020965576,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25250908732414246,
      "step": 2880
    },
    {
      "epoch": 0.180125,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.031086222330729166,
      "learning_rate": 0.0001,
      "loss": 8.1597,
      "loss/crossentropy": 2.3349109888076782,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2642297148704529,
      "step": 2882
    },
    {
      "epoch": 0.18025,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.02681884765625,
      "learning_rate": 0.0001,
      "loss": 8.0044,
      "loss/crossentropy": 2.1576240062713623,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25084151327610016,
      "step": 2884
    },
    {
      "epoch": 0.180375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.01011962890625,
      "learning_rate": 0.0001,
      "loss": 8.0148,
      "loss/crossentropy": 2.1341161131858826,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23193783313035965,
      "step": 2886
    },
    {
      "epoch": 0.1805,
      "grad_norm": 3.0,
      "grad_norm_var": 0.010856119791666667,
      "learning_rate": 0.0001,
      "loss": 8.1343,
      "loss/crossentropy": 2.2248082160949707,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26918257772922516,
      "step": 2888
    },
    {
      "epoch": 0.180625,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.010334269205729166,
      "learning_rate": 0.0001,
      "loss": 8.187,
      "loss/crossentropy": 2.5334991216659546,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29171979427337646,
      "step": 2890
    },
    {
      "epoch": 0.18075,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.010367838541666667,
      "learning_rate": 0.0001,
      "loss": 8.2264,
      "loss/crossentropy": 2.3791427612304688,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27077220380306244,
      "step": 2892
    },
    {
      "epoch": 0.180875,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.0108306884765625,
      "learning_rate": 0.0001,
      "loss": 8.0115,
      "loss/crossentropy": 2.189573884010315,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.268039345741272,
      "step": 2894
    },
    {
      "epoch": 0.181,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.01060791015625,
      "learning_rate": 0.0001,
      "loss": 8.3331,
      "loss/crossentropy": 2.399560272693634,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24194006621837616,
      "step": 2896
    },
    {
      "epoch": 0.181125,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.010184733072916667,
      "learning_rate": 0.0001,
      "loss": 8.1515,
      "loss/crossentropy": 2.140601396560669,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24887196719646454,
      "step": 2898
    },
    {
      "epoch": 0.18125,
      "grad_norm": 2.75,
      "grad_norm_var": 0.014872233072916666,
      "learning_rate": 0.0001,
      "loss": 7.7282,
      "loss/crossentropy": 2.0853304862976074,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2543262392282486,
      "step": 2900
    },
    {
      "epoch": 0.181375,
      "grad_norm": 3.75,
      "grad_norm_var": 1.08092041015625,
      "learning_rate": 0.0001,
      "loss": 8.8119,
      "loss/crossentropy": 2.390069603919983,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3597041964530945,
      "step": 2902
    },
    {
      "epoch": 0.1815,
      "grad_norm": 3.421875,
      "grad_norm_var": 1.06201171875,
      "learning_rate": 0.0001,
      "loss": 8.1467,
      "loss/crossentropy": 2.2973451614379883,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30557607114315033,
      "step": 2904
    },
    {
      "epoch": 0.181625,
      "grad_norm": 3.171875,
      "grad_norm_var": 1.0474680582682292,
      "learning_rate": 0.0001,
      "loss": 8.1066,
      "loss/crossentropy": 2.217726707458496,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2568957358598709,
      "step": 2906
    },
    {
      "epoch": 0.18175,
      "grad_norm": 3.484375,
      "grad_norm_var": 1.03580322265625,
      "learning_rate": 0.0001,
      "loss": 8.2859,
      "loss/crossentropy": 2.403484344482422,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2820377051830292,
      "step": 2908
    },
    {
      "epoch": 0.181875,
      "grad_norm": 2.96875,
      "grad_norm_var": 1.0566721598307292,
      "learning_rate": 0.0001,
      "loss": 8.1078,
      "loss/crossentropy": 2.49627947807312,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2758508771657944,
      "step": 2910
    },
    {
      "epoch": 0.182,
      "grad_norm": 2.921875,
      "grad_norm_var": 1.066657511393229,
      "learning_rate": 0.0001,
      "loss": 8.08,
      "loss/crossentropy": 2.4209847450256348,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.276279091835022,
      "step": 2912
    },
    {
      "epoch": 0.182125,
      "grad_norm": 3.03125,
      "grad_norm_var": 1.0872233072916666,
      "learning_rate": 0.0001,
      "loss": 8.0057,
      "loss/crossentropy": 2.4141104221343994,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25281232595443726,
      "step": 2914
    },
    {
      "epoch": 0.18225,
      "grad_norm": 3.71875,
      "grad_norm_var": 1.044189453125,
      "learning_rate": 0.0001,
      "loss": 8.4177,
      "loss/crossentropy": 2.1968607902526855,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2601237893104553,
      "step": 2916
    },
    {
      "epoch": 0.182375,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.12899983723958333,
      "learning_rate": 0.0001,
      "loss": 8.6519,
      "loss/crossentropy": 2.355108380317688,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2877423167228699,
      "step": 2918
    },
    {
      "epoch": 0.1825,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.13144429524739584,
      "learning_rate": 0.0001,
      "loss": 7.8936,
      "loss/crossentropy": 2.0170373916625977,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23654960840940475,
      "step": 2920
    },
    {
      "epoch": 0.182625,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.13209228515625,
      "learning_rate": 0.0001,
      "loss": 8.0005,
      "loss/crossentropy": 2.3714324235916138,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24751296639442444,
      "step": 2922
    },
    {
      "epoch": 0.18275,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.12609049479166667,
      "learning_rate": 0.0001,
      "loss": 8.1466,
      "loss/crossentropy": 2.2555553913116455,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24768846482038498,
      "step": 2924
    },
    {
      "epoch": 0.182875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.12849019368489584,
      "learning_rate": 0.0001,
      "loss": 8.0836,
      "loss/crossentropy": 1.9109330773353577,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25811461359262466,
      "step": 2926
    },
    {
      "epoch": 0.183,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.13059488932291666,
      "learning_rate": 0.0001,
      "loss": 8.2019,
      "loss/crossentropy": 2.4296613931655884,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2532989978790283,
      "step": 2928
    },
    {
      "epoch": 0.183125,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.12439778645833334,
      "learning_rate": 0.0001,
      "loss": 8.5959,
      "loss/crossentropy": 2.5520033836364746,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2584295719861984,
      "step": 2930
    },
    {
      "epoch": 0.18325,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.10261128743489584,
      "learning_rate": 0.0001,
      "loss": 8.167,
      "loss/crossentropy": 2.2617307901382446,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25226905941963196,
      "step": 2932
    },
    {
      "epoch": 0.183375,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.05717671712239583,
      "learning_rate": 0.0001,
      "loss": 8.476,
      "loss/crossentropy": 2.2038698196411133,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27726230025291443,
      "step": 2934
    },
    {
      "epoch": 0.1835,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.05496419270833333,
      "learning_rate": 0.0001,
      "loss": 8.2697,
      "loss/crossentropy": 2.011132597923279,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24731668829917908,
      "step": 2936
    },
    {
      "epoch": 0.183625,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.05384114583333333,
      "learning_rate": 0.0001,
      "loss": 8.2291,
      "loss/crossentropy": 2.241647481918335,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24874335527420044,
      "step": 2938
    },
    {
      "epoch": 0.18375,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.0597076416015625,
      "learning_rate": 0.0001,
      "loss": 8.1807,
      "loss/crossentropy": 2.0755521059036255,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26138997077941895,
      "step": 2940
    },
    {
      "epoch": 0.183875,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.05976155598958333,
      "learning_rate": 0.0001,
      "loss": 8.4186,
      "loss/crossentropy": 2.4679603576660156,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27902379631996155,
      "step": 2942
    },
    {
      "epoch": 0.184,
      "grad_norm": 3.0,
      "grad_norm_var": 0.05484619140625,
      "learning_rate": 0.0001,
      "loss": 8.1271,
      "loss/crossentropy": 2.0534247159957886,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26021403074264526,
      "step": 2944
    },
    {
      "epoch": 0.184125,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.05119527180989583,
      "learning_rate": 0.0001,
      "loss": 8.2078,
      "loss/crossentropy": 2.2699111700057983,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26569822430610657,
      "step": 2946
    },
    {
      "epoch": 0.18425,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.06213785807291667,
      "learning_rate": 0.0001,
      "loss": 8.0974,
      "loss/crossentropy": 2.420296549797058,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2546275109052658,
      "step": 2948
    },
    {
      "epoch": 0.184375,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.04946187337239583,
      "learning_rate": 0.0001,
      "loss": 8.4089,
      "loss/crossentropy": 2.5957722663879395,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27632173895835876,
      "step": 2950
    },
    {
      "epoch": 0.1845,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.05413004557291667,
      "learning_rate": 0.0001,
      "loss": 8.3382,
      "loss/crossentropy": 2.484778642654419,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27322784066200256,
      "step": 2952
    },
    {
      "epoch": 0.184625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.056473795572916666,
      "learning_rate": 0.0001,
      "loss": 8.0627,
      "loss/crossentropy": 2.148501753807068,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2559093087911606,
      "step": 2954
    },
    {
      "epoch": 0.18475,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.040771484375,
      "learning_rate": 0.0001,
      "loss": 8.3083,
      "loss/crossentropy": 2.314954161643982,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28318941593170166,
      "step": 2956
    },
    {
      "epoch": 0.184875,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.03795166015625,
      "learning_rate": 0.0001,
      "loss": 8.1172,
      "loss/crossentropy": 2.366102695465088,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2760534882545471,
      "step": 2958
    },
    {
      "epoch": 0.185,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.03756510416666667,
      "learning_rate": 0.0001,
      "loss": 8.2888,
      "loss/crossentropy": 2.487810730934143,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2672920525074005,
      "step": 2960
    },
    {
      "epoch": 0.185125,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.036554972330729164,
      "learning_rate": 0.0001,
      "loss": 8.1165,
      "loss/crossentropy": 2.235316514968872,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25732211768627167,
      "step": 2962
    },
    {
      "epoch": 0.18525,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.033600870768229166,
      "learning_rate": 0.0001,
      "loss": 8.2153,
      "loss/crossentropy": 2.688939690589905,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31740468740463257,
      "step": 2964
    },
    {
      "epoch": 0.185375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.030248006184895832,
      "learning_rate": 0.0001,
      "loss": 8.0094,
      "loss/crossentropy": 2.5690836906433105,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2810027152299881,
      "step": 2966
    },
    {
      "epoch": 0.1855,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.013817342122395833,
      "learning_rate": 0.0001,
      "loss": 7.8082,
      "loss/crossentropy": 2.1851229667663574,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2638121098279953,
      "step": 2968
    },
    {
      "epoch": 0.185625,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.044266764322916666,
      "learning_rate": 0.0001,
      "loss": 8.3646,
      "loss/crossentropy": 2.1047242879867554,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3048202395439148,
      "step": 2970
    },
    {
      "epoch": 0.18575,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.0408843994140625,
      "learning_rate": 0.0001,
      "loss": 8.2758,
      "loss/crossentropy": 2.1301698684692383,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24628406763076782,
      "step": 2972
    },
    {
      "epoch": 0.185875,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.038361612955729166,
      "learning_rate": 0.0001,
      "loss": 8.2939,
      "loss/crossentropy": 2.433535099029541,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29371021687984467,
      "step": 2974
    },
    {
      "epoch": 0.186,
      "grad_norm": 3.0,
      "grad_norm_var": 0.0372955322265625,
      "learning_rate": 0.0001,
      "loss": 8.1541,
      "loss/crossentropy": 2.1997573375701904,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2511989399790764,
      "step": 2976
    },
    {
      "epoch": 0.186125,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.03798726399739583,
      "learning_rate": 0.0001,
      "loss": 8.4344,
      "loss/crossentropy": 2.4531192779541016,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2771553546190262,
      "step": 2978
    },
    {
      "epoch": 0.18625,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.03854166666666667,
      "learning_rate": 0.0001,
      "loss": 8.0181,
      "loss/crossentropy": 2.2669776678085327,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25914834439754486,
      "step": 2980
    },
    {
      "epoch": 0.186375,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.048563639322916664,
      "learning_rate": 0.0001,
      "loss": 8.2711,
      "loss/crossentropy": 2.322340726852417,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28330640494823456,
      "step": 2982
    },
    {
      "epoch": 0.1865,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.049540201822916664,
      "learning_rate": 0.0001,
      "loss": 8.1752,
      "loss/crossentropy": 2.351397395133972,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24569445848464966,
      "step": 2984
    },
    {
      "epoch": 0.186625,
      "grad_norm": 2.875,
      "grad_norm_var": 0.02564697265625,
      "learning_rate": 0.0001,
      "loss": 8.1168,
      "loss/crossentropy": 2.547055959701538,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27938394248485565,
      "step": 2986
    },
    {
      "epoch": 0.18675,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.026070149739583333,
      "learning_rate": 0.0001,
      "loss": 8.5189,
      "loss/crossentropy": 2.5092413425445557,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2599862962961197,
      "step": 2988
    },
    {
      "epoch": 0.186875,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.029427083333333333,
      "learning_rate": 0.0001,
      "loss": 8.078,
      "loss/crossentropy": 2.412800908088684,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2972192317247391,
      "step": 2990
    },
    {
      "epoch": 0.187,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.03290608723958333,
      "learning_rate": 0.0001,
      "loss": 8.4171,
      "loss/crossentropy": 2.5122843980789185,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2523321807384491,
      "step": 2992
    },
    {
      "epoch": 0.187125,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.04843343098958333,
      "learning_rate": 0.0001,
      "loss": 8.2715,
      "loss/crossentropy": 2.3395785093307495,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2835071235895157,
      "step": 2994
    },
    {
      "epoch": 0.18725,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.06779683430989583,
      "learning_rate": 0.0001,
      "loss": 8.4595,
      "loss/crossentropy": 2.5921707153320312,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32498699426651,
      "step": 2996
    },
    {
      "epoch": 0.187375,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.06386617024739584,
      "learning_rate": 0.0001,
      "loss": 8.0491,
      "loss/crossentropy": 2.3352322578430176,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577902227640152,
      "step": 2998
    },
    {
      "epoch": 0.1875,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.05859375,
      "learning_rate": 0.0001,
      "loss": 8.2248,
      "loss/crossentropy": 2.3004229068756104,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25653262436389923,
      "step": 3000
    },
    {
      "epoch": 0.187625,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0658203125,
      "learning_rate": 0.0001,
      "loss": 7.8124,
      "loss/crossentropy": 2.2351561784744263,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25118912756443024,
      "step": 3002
    },
    {
      "epoch": 0.18775,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.06357320149739583,
      "learning_rate": 0.0001,
      "loss": 8.0213,
      "loss/crossentropy": 2.2484039068222046,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26490475982427597,
      "step": 3004
    },
    {
      "epoch": 0.187875,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.06610921223958334,
      "learning_rate": 0.0001,
      "loss": 8.1035,
      "loss/crossentropy": 2.3076168298721313,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2600875496864319,
      "step": 3006
    },
    {
      "epoch": 0.188,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.06648661295572916,
      "learning_rate": 0.0001,
      "loss": 8.2658,
      "loss/crossentropy": 2.5785369873046875,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2783546894788742,
      "step": 3008
    },
    {
      "epoch": 0.188125,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.05540262858072917,
      "learning_rate": 0.0001,
      "loss": 8.3027,
      "loss/crossentropy": 2.3401262760162354,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2552775740623474,
      "step": 3010
    },
    {
      "epoch": 0.18825,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.029296875,
      "learning_rate": 0.0001,
      "loss": 8.182,
      "loss/crossentropy": 2.122409999370575,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25811081379652023,
      "step": 3012
    },
    {
      "epoch": 0.188375,
      "grad_norm": 3.25,
      "grad_norm_var": 0.023368326822916667,
      "learning_rate": 0.0001,
      "loss": 8.0199,
      "loss/crossentropy": 2.427290201187134,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26948370039463043,
      "step": 3014
    },
    {
      "epoch": 0.1885,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.0194732666015625,
      "learning_rate": 0.0001,
      "loss": 8.3842,
      "loss/crossentropy": 2.355746865272522,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2620701193809509,
      "step": 3016
    },
    {
      "epoch": 0.188625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.0181793212890625,
      "learning_rate": 0.0001,
      "loss": 7.9699,
      "loss/crossentropy": 2.35839581489563,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26620611548423767,
      "step": 3018
    },
    {
      "epoch": 0.18875,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.019917805989583332,
      "learning_rate": 0.0001,
      "loss": 8.1946,
      "loss/crossentropy": 2.2129684686660767,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2607392221689224,
      "step": 3020
    },
    {
      "epoch": 0.188875,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.019091796875,
      "learning_rate": 0.0001,
      "loss": 8.2211,
      "loss/crossentropy": 2.1944016218185425,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24655280262231827,
      "step": 3022
    },
    {
      "epoch": 0.189,
      "grad_norm": 2.875,
      "grad_norm_var": 0.0239166259765625,
      "learning_rate": 0.0001,
      "loss": 8.0436,
      "loss/crossentropy": 2.1268292665481567,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2602980434894562,
      "step": 3024
    },
    {
      "epoch": 0.189125,
      "grad_norm": 2.875,
      "grad_norm_var": 0.021512858072916665,
      "learning_rate": 0.0001,
      "loss": 8.108,
      "loss/crossentropy": 2.4339241981506348,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26776036620140076,
      "step": 3026
    },
    {
      "epoch": 0.18925,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.022337849934895834,
      "learning_rate": 0.0001,
      "loss": 8.1682,
      "loss/crossentropy": 2.456682324409485,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27592889964580536,
      "step": 3028
    },
    {
      "epoch": 0.189375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.013630167643229166,
      "learning_rate": 0.0001,
      "loss": 7.9461,
      "loss/crossentropy": 2.3544520139694214,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25780095160007477,
      "step": 3030
    },
    {
      "epoch": 0.1895,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.014557902018229167,
      "learning_rate": 0.0001,
      "loss": 8.1715,
      "loss/crossentropy": 2.363596200942993,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29543258249759674,
      "step": 3032
    },
    {
      "epoch": 0.189625,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.03345947265625,
      "learning_rate": 0.0001,
      "loss": 8.2126,
      "loss/crossentropy": 2.4506388902664185,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2730669379234314,
      "step": 3034
    },
    {
      "epoch": 0.18975,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.06018778483072917,
      "learning_rate": 0.0001,
      "loss": 8.2254,
      "loss/crossentropy": 2.3496711254119873,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2570537030696869,
      "step": 3036
    },
    {
      "epoch": 0.189875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.061258951822916664,
      "learning_rate": 0.0001,
      "loss": 8.2739,
      "loss/crossentropy": 2.3058911561965942,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2748931795358658,
      "step": 3038
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.05432942708333333,
      "learning_rate": 0.0001,
      "loss": 8.2554,
      "loss/crossentropy": 2.1980836391448975,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26495523750782013,
      "step": 3040
    },
    {
      "epoch": 0.190125,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.064501953125,
      "learning_rate": 0.0001,
      "loss": 8.255,
      "loss/crossentropy": 2.0824698209762573,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24418041110038757,
      "step": 3042
    },
    {
      "epoch": 0.19025,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.07330729166666666,
      "learning_rate": 0.0001,
      "loss": 8.3164,
      "loss/crossentropy": 2.5387042760849,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2929651141166687,
      "step": 3044
    },
    {
      "epoch": 0.190375,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.08557535807291666,
      "learning_rate": 0.0001,
      "loss": 7.973,
      "loss/crossentropy": 2.1048532724380493,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23939846456050873,
      "step": 3046
    },
    {
      "epoch": 0.1905,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.08424072265625,
      "learning_rate": 0.0001,
      "loss": 8.0964,
      "loss/crossentropy": 2.418026924133301,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27147340774536133,
      "step": 3048
    },
    {
      "epoch": 0.190625,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.07753499348958333,
      "learning_rate": 0.0001,
      "loss": 8.2169,
      "loss/crossentropy": 2.720233917236328,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26460620760917664,
      "step": 3050
    },
    {
      "epoch": 0.19075,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.053511555989583334,
      "learning_rate": 0.0001,
      "loss": 8.2677,
      "loss/crossentropy": 2.3085511922836304,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2717476040124893,
      "step": 3052
    },
    {
      "epoch": 0.190875,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.05455729166666667,
      "learning_rate": 0.0001,
      "loss": 8.2355,
      "loss/crossentropy": 2.387621521949768,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27137576043605804,
      "step": 3054
    },
    {
      "epoch": 0.191,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.052708943684895836,
      "learning_rate": 0.0001,
      "loss": 8.2354,
      "loss/crossentropy": 2.2664815187454224,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27788451313972473,
      "step": 3056
    },
    {
      "epoch": 0.191125,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.04145406087239583,
      "learning_rate": 0.0001,
      "loss": 8.1699,
      "loss/crossentropy": 2.19650661945343,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2952868938446045,
      "step": 3058
    },
    {
      "epoch": 0.19125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.023433430989583334,
      "learning_rate": 0.0001,
      "loss": 8.1568,
      "loss/crossentropy": 2.2924450635910034,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26796723902225494,
      "step": 3060
    },
    {
      "epoch": 0.191375,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.011197916666666667,
      "learning_rate": 0.0001,
      "loss": 8.1256,
      "loss/crossentropy": 2.516156315803528,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.265813946723938,
      "step": 3062
    },
    {
      "epoch": 0.1915,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.010570271809895834,
      "learning_rate": 0.0001,
      "loss": 8.2824,
      "loss/crossentropy": 2.3948129415512085,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28667983412742615,
      "step": 3064
    },
    {
      "epoch": 0.191625,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.010130818684895833,
      "learning_rate": 0.0001,
      "loss": 8.5698,
      "loss/crossentropy": 2.627001643180847,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.302081897854805,
      "step": 3066
    },
    {
      "epoch": 0.19175,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.012906901041666667,
      "learning_rate": 0.0001,
      "loss": 8.2584,
      "loss/crossentropy": 2.6413527727127075,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27230359613895416,
      "step": 3068
    },
    {
      "epoch": 0.191875,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.011091105143229167,
      "learning_rate": 0.0001,
      "loss": 8.2915,
      "loss/crossentropy": 2.3797744512557983,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25851966440677643,
      "step": 3070
    },
    {
      "epoch": 0.192,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.013426717122395833,
      "learning_rate": 0.0001,
      "loss": 8.3002,
      "loss/crossentropy": 2.2201138734817505,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2628394812345505,
      "step": 3072
    },
    {
      "epoch": 0.192125,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.012555948893229167,
      "learning_rate": 0.0001,
      "loss": 8.1419,
      "loss/crossentropy": 2.0795114636421204,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2654409408569336,
      "step": 3074
    },
    {
      "epoch": 0.19225,
      "grad_norm": 2.75,
      "grad_norm_var": 0.0164703369140625,
      "learning_rate": 0.0001,
      "loss": 7.996,
      "loss/crossentropy": 2.2035024166107178,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2541028633713722,
      "step": 3076
    },
    {
      "epoch": 0.192375,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.02164306640625,
      "learning_rate": 0.0001,
      "loss": 8.1765,
      "loss/crossentropy": 2.4021114110946655,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2582816928625107,
      "step": 3078
    },
    {
      "epoch": 0.1925,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.022679646809895832,
      "learning_rate": 0.0001,
      "loss": 7.9373,
      "loss/crossentropy": 2.2895009517669678,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.256507083773613,
      "step": 3080
    },
    {
      "epoch": 0.192625,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.0277252197265625,
      "learning_rate": 0.0001,
      "loss": 7.8838,
      "loss/crossentropy": 2.027153968811035,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23617319762706757,
      "step": 3082
    },
    {
      "epoch": 0.19275,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.0377105712890625,
      "learning_rate": 0.0001,
      "loss": 8.3783,
      "loss/crossentropy": 2.6372686624526978,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2389061003923416,
      "step": 3084
    },
    {
      "epoch": 0.192875,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.037369791666666666,
      "learning_rate": 0.0001,
      "loss": 8.3173,
      "loss/crossentropy": 2.4116551876068115,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27836497128009796,
      "step": 3086
    },
    {
      "epoch": 0.193,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.04472554524739583,
      "learning_rate": 0.0001,
      "loss": 8.0528,
      "loss/crossentropy": 2.435407042503357,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25427422672510147,
      "step": 3088
    },
    {
      "epoch": 0.193125,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.042769368489583334,
      "learning_rate": 0.0001,
      "loss": 8.2524,
      "loss/crossentropy": 2.6872342824935913,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2897500991821289,
      "step": 3090
    },
    {
      "epoch": 0.19325,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.04388020833333333,
      "learning_rate": 0.0001,
      "loss": 8.1072,
      "loss/crossentropy": 2.4015711545944214,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2563893646001816,
      "step": 3092
    },
    {
      "epoch": 0.193375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.04967041015625,
      "learning_rate": 0.0001,
      "loss": 7.8814,
      "loss/crossentropy": 2.3149009943008423,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.254148505628109,
      "step": 3094
    },
    {
      "epoch": 0.1935,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.06373291015625,
      "learning_rate": 0.0001,
      "loss": 7.6511,
      "loss/crossentropy": 1.942514955997467,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2268311232328415,
      "step": 3096
    },
    {
      "epoch": 0.193625,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.05998942057291667,
      "learning_rate": 0.0001,
      "loss": 8.1055,
      "loss/crossentropy": 2.512845039367676,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28133875131607056,
      "step": 3098
    },
    {
      "epoch": 0.19375,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.047591145833333334,
      "learning_rate": 0.0001,
      "loss": 8.0487,
      "loss/crossentropy": 2.191560924053192,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24201743304729462,
      "step": 3100
    },
    {
      "epoch": 0.193875,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.14207356770833332,
      "learning_rate": 0.0001,
      "loss": 8.2637,
      "loss/crossentropy": 2.3829805850982666,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2581256628036499,
      "step": 3102
    },
    {
      "epoch": 0.194,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.13280843098958334,
      "learning_rate": 0.0001,
      "loss": 8.2235,
      "loss/crossentropy": 2.425102114677429,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2605956494808197,
      "step": 3104
    },
    {
      "epoch": 0.194125,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.1308502197265625,
      "learning_rate": 0.0001,
      "loss": 8.2458,
      "loss/crossentropy": 2.274181604385376,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2674994617700577,
      "step": 3106
    },
    {
      "epoch": 0.19425,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.12086181640625,
      "learning_rate": 0.0001,
      "loss": 8.123,
      "loss/crossentropy": 2.2365976572036743,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25523822009563446,
      "step": 3108
    },
    {
      "epoch": 0.194375,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.11941731770833333,
      "learning_rate": 0.0001,
      "loss": 8.0437,
      "loss/crossentropy": 2.065447449684143,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2694360166788101,
      "step": 3110
    },
    {
      "epoch": 0.1945,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.11741536458333333,
      "learning_rate": 0.0001,
      "loss": 8.3343,
      "loss/crossentropy": 2.4269362688064575,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25637270510196686,
      "step": 3112
    },
    {
      "epoch": 0.194625,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.11825764973958333,
      "learning_rate": 0.0001,
      "loss": 8.2654,
      "loss/crossentropy": 2.4185571670532227,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26571086049079895,
      "step": 3114
    },
    {
      "epoch": 0.19475,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.10660807291666667,
      "learning_rate": 0.0001,
      "loss": 7.9204,
      "loss/crossentropy": 2.3637081384658813,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25697462260723114,
      "step": 3116
    },
    {
      "epoch": 0.194875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.03491923014322917,
      "learning_rate": 0.0001,
      "loss": 8.1335,
      "loss/crossentropy": 2.3663218021392822,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2510784715414047,
      "step": 3118
    },
    {
      "epoch": 0.195,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.03645731608072917,
      "learning_rate": 0.0001,
      "loss": 8.0906,
      "loss/crossentropy": 2.4295765161514282,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2629868686199188,
      "step": 3120
    },
    {
      "epoch": 0.195125,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.03824462890625,
      "learning_rate": 0.0001,
      "loss": 8.1089,
      "loss/crossentropy": 2.334370255470276,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25758758932352066,
      "step": 3122
    },
    {
      "epoch": 0.19525,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.042313639322916666,
      "learning_rate": 0.0001,
      "loss": 8.0055,
      "loss/crossentropy": 2.156652331352234,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24994631111621857,
      "step": 3124
    },
    {
      "epoch": 0.195375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.0381744384765625,
      "learning_rate": 0.0001,
      "loss": 8.1386,
      "loss/crossentropy": 2.3902939558029175,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2595854699611664,
      "step": 3126
    },
    {
      "epoch": 0.1955,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.01337890625,
      "learning_rate": 0.0001,
      "loss": 8.0796,
      "loss/crossentropy": 2.371825695037842,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26566849648952484,
      "step": 3128
    },
    {
      "epoch": 0.195625,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.017235310872395833,
      "learning_rate": 0.0001,
      "loss": 8.0604,
      "loss/crossentropy": 2.0502688884735107,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24038948118686676,
      "step": 3130
    },
    {
      "epoch": 0.19575,
      "grad_norm": 3.125,
      "grad_norm_var": 0.01881103515625,
      "learning_rate": 0.0001,
      "loss": 8.1111,
      "loss/crossentropy": 2.6462838649749756,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27009811997413635,
      "step": 3132
    },
    {
      "epoch": 0.195875,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.02281494140625,
      "learning_rate": 0.0001,
      "loss": 8.3116,
      "loss/crossentropy": 2.3181967735290527,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2602214217185974,
      "step": 3134
    },
    {
      "epoch": 0.196,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.022526041666666666,
      "learning_rate": 0.0001,
      "loss": 8.3065,
      "loss/crossentropy": 2.4056873321533203,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26275748014450073,
      "step": 3136
    },
    {
      "epoch": 0.196125,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.02760009765625,
      "learning_rate": 0.0001,
      "loss": 8.1514,
      "loss/crossentropy": 2.278952717781067,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2747359275817871,
      "step": 3138
    },
    {
      "epoch": 0.19625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.0237213134765625,
      "learning_rate": 0.0001,
      "loss": 8.1014,
      "loss/crossentropy": 2.417848587036133,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26167601346969604,
      "step": 3140
    },
    {
      "epoch": 0.196375,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0255279541015625,
      "learning_rate": 0.0001,
      "loss": 8.2388,
      "loss/crossentropy": 2.444987416267395,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25386446714401245,
      "step": 3142
    },
    {
      "epoch": 0.1965,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.022705078125,
      "learning_rate": 0.0001,
      "loss": 8.2145,
      "loss/crossentropy": 2.581206440925598,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2710491418838501,
      "step": 3144
    },
    {
      "epoch": 0.196625,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0254058837890625,
      "learning_rate": 0.0001,
      "loss": 8.0613,
      "loss/crossentropy": 2.3687140941619873,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26861967146396637,
      "step": 3146
    },
    {
      "epoch": 0.19675,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.07899983723958333,
      "learning_rate": 0.0001,
      "loss": 8.3689,
      "loss/crossentropy": 2.3609704971313477,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26762421429157257,
      "step": 3148
    },
    {
      "epoch": 0.196875,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.08605855305989583,
      "learning_rate": 0.0001,
      "loss": 7.9722,
      "loss/crossentropy": 2.097190797328949,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24098625779151917,
      "step": 3150
    },
    {
      "epoch": 0.197,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0851226806640625,
      "learning_rate": 0.0001,
      "loss": 8.2039,
      "loss/crossentropy": 2.257096529006958,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2598903179168701,
      "step": 3152
    },
    {
      "epoch": 0.197125,
      "grad_norm": 2.875,
      "grad_norm_var": 0.08181050618489584,
      "learning_rate": 0.0001,
      "loss": 8.1718,
      "loss/crossentropy": 2.4441792964935303,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2703270763158798,
      "step": 3154
    },
    {
      "epoch": 0.19725,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0839996337890625,
      "learning_rate": 0.0001,
      "loss": 8.1738,
      "loss/crossentropy": 2.337058424949646,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25680898129940033,
      "step": 3156
    },
    {
      "epoch": 0.197375,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.08325093587239583,
      "learning_rate": 0.0001,
      "loss": 8.1708,
      "loss/crossentropy": 2.3203121423721313,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25183166563510895,
      "step": 3158
    },
    {
      "epoch": 0.1975,
      "grad_norm": 2.875,
      "grad_norm_var": 0.08502604166666666,
      "learning_rate": 0.0001,
      "loss": 7.9677,
      "loss/crossentropy": 2.3680754899978638,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2431572675704956,
      "step": 3160
    },
    {
      "epoch": 0.197625,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.08133036295572917,
      "learning_rate": 0.0001,
      "loss": 8.203,
      "loss/crossentropy": 2.241086721420288,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27713850140571594,
      "step": 3162
    },
    {
      "epoch": 0.19775,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.025260416666666667,
      "learning_rate": 0.0001,
      "loss": 8.3118,
      "loss/crossentropy": 2.5448096990585327,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2678837478160858,
      "step": 3164
    },
    {
      "epoch": 0.197875,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.022956339518229167,
      "learning_rate": 0.0001,
      "loss": 8.0958,
      "loss/crossentropy": 2.4013454914093018,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2578812763094902,
      "step": 3166
    },
    {
      "epoch": 0.198,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0243560791015625,
      "learning_rate": 0.0001,
      "loss": 8.3649,
      "loss/crossentropy": 2.399568200111389,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3332839608192444,
      "step": 3168
    },
    {
      "epoch": 0.198125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.023726399739583334,
      "learning_rate": 0.0001,
      "loss": 7.9721,
      "loss/crossentropy": 2.496425151824951,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28880220651626587,
      "step": 3170
    },
    {
      "epoch": 0.19825,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.020992024739583334,
      "learning_rate": 0.0001,
      "loss": 8.2263,
      "loss/crossentropy": 2.2559762001037598,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.263287752866745,
      "step": 3172
    },
    {
      "epoch": 0.198375,
      "grad_norm": 3.0,
      "grad_norm_var": 0.018294270833333334,
      "learning_rate": 0.0001,
      "loss": 8.2044,
      "loss/crossentropy": 2.4847277402877808,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26287899166345596,
      "step": 3174
    },
    {
      "epoch": 0.1985,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.01822509765625,
      "learning_rate": 0.0001,
      "loss": 8.0561,
      "loss/crossentropy": 2.5184192657470703,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.274020254611969,
      "step": 3176
    },
    {
      "epoch": 0.198625,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.01279296875,
      "learning_rate": 0.0001,
      "loss": 8.0441,
      "loss/crossentropy": 2.276871681213379,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23629513382911682,
      "step": 3178
    },
    {
      "epoch": 0.19875,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.016014607747395833,
      "learning_rate": 0.0001,
      "loss": 8.1896,
      "loss/crossentropy": 2.236708164215088,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2376183420419693,
      "step": 3180
    },
    {
      "epoch": 0.198875,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0204010009765625,
      "learning_rate": 0.0001,
      "loss": 7.8184,
      "loss/crossentropy": 2.289997696876526,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26156531274318695,
      "step": 3182
    },
    {
      "epoch": 0.199,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.0199859619140625,
      "learning_rate": 0.0001,
      "loss": 8.3089,
      "loss/crossentropy": 2.327690005302429,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2894662618637085,
      "step": 3184
    },
    {
      "epoch": 0.199125,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.02037353515625,
      "learning_rate": 0.0001,
      "loss": 8.0743,
      "loss/crossentropy": 2.418406367301941,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25407615303993225,
      "step": 3186
    },
    {
      "epoch": 0.19925,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.0223785400390625,
      "learning_rate": 0.0001,
      "loss": 8.0573,
      "loss/crossentropy": 2.243067741394043,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2523237615823746,
      "step": 3188
    },
    {
      "epoch": 0.199375,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.027242024739583332,
      "learning_rate": 0.0001,
      "loss": 7.8769,
      "loss/crossentropy": 2.4334983825683594,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23196329176425934,
      "step": 3190
    },
    {
      "epoch": 0.1995,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.035868326822916664,
      "learning_rate": 0.0001,
      "loss": 7.9538,
      "loss/crossentropy": 2.311228036880493,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2579493597149849,
      "step": 3192
    },
    {
      "epoch": 0.199625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.03538309733072917,
      "learning_rate": 0.0001,
      "loss": 8.2196,
      "loss/crossentropy": 2.431540369987488,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25777457654476166,
      "step": 3194
    },
    {
      "epoch": 0.19975,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.03191731770833333,
      "learning_rate": 0.0001,
      "loss": 8.139,
      "loss/crossentropy": 2.1621546745300293,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2560386508703232,
      "step": 3196
    },
    {
      "epoch": 0.199875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.025712076822916666,
      "learning_rate": 0.0001,
      "loss": 7.97,
      "loss/crossentropy": 2.1923757791519165,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2589757889509201,
      "step": 3198
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.875,
      "grad_norm_var": 0.0247467041015625,
      "learning_rate": 0.0001,
      "loss": 8.0392,
      "loss/crossentropy": 2.3970407247543335,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2541755437850952,
      "step": 3200
    },
    {
      "epoch": 0.200125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.020406087239583332,
      "learning_rate": 0.0001,
      "loss": 8.0207,
      "loss/crossentropy": 2.2216036319732666,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26332978904247284,
      "step": 3202
    },
    {
      "epoch": 0.20025,
      "grad_norm": 2.875,
      "grad_norm_var": 0.02056884765625,
      "learning_rate": 0.0001,
      "loss": 8.2514,
      "loss/crossentropy": 2.2952345609664917,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24460511654615402,
      "step": 3204
    },
    {
      "epoch": 0.200375,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.027497355143229166,
      "learning_rate": 0.0001,
      "loss": 8.3172,
      "loss/crossentropy": 2.3329302072525024,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3068646192550659,
      "step": 3206
    },
    {
      "epoch": 0.2005,
      "grad_norm": 3.0,
      "grad_norm_var": 0.018464152018229166,
      "learning_rate": 0.0001,
      "loss": 8.0853,
      "loss/crossentropy": 2.4682726860046387,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2747759073972702,
      "step": 3208
    },
    {
      "epoch": 0.200625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.015555826822916667,
      "learning_rate": 0.0001,
      "loss": 8.084,
      "loss/crossentropy": 2.385040760040283,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2688244730234146,
      "step": 3210
    },
    {
      "epoch": 0.20075,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.01578369140625,
      "learning_rate": 0.0001,
      "loss": 8.2028,
      "loss/crossentropy": 2.3609360456466675,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2741740494966507,
      "step": 3212
    },
    {
      "epoch": 0.200875,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.015946451822916666,
      "learning_rate": 0.0001,
      "loss": 8.1162,
      "loss/crossentropy": 2.268782615661621,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25281913578510284,
      "step": 3214
    },
    {
      "epoch": 0.201,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.0151519775390625,
      "learning_rate": 0.0001,
      "loss": 7.9198,
      "loss/crossentropy": 2.2365881204605103,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24488338828086853,
      "step": 3216
    },
    {
      "epoch": 0.201125,
      "grad_norm": 3.125,
      "grad_norm_var": 0.014134724934895834,
      "learning_rate": 0.0001,
      "loss": 8.0622,
      "loss/crossentropy": 2.333191156387329,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2846767157316208,
      "step": 3218
    },
    {
      "epoch": 0.20125,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.014925130208333333,
      "learning_rate": 0.0001,
      "loss": 7.765,
      "loss/crossentropy": 2.2031763792037964,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2630941718816757,
      "step": 3220
    },
    {
      "epoch": 0.201375,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.007515462239583334,
      "learning_rate": 0.0001,
      "loss": 7.8986,
      "loss/crossentropy": 2.228626847267151,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24427320063114166,
      "step": 3222
    },
    {
      "epoch": 0.2015,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.007710774739583333,
      "learning_rate": 0.0001,
      "loss": 7.8828,
      "loss/crossentropy": 2.3146544694900513,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26063594222068787,
      "step": 3224
    },
    {
      "epoch": 0.201625,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.0090484619140625,
      "learning_rate": 0.0001,
      "loss": 8.0466,
      "loss/crossentropy": 2.5943726301193237,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2648574709892273,
      "step": 3226
    },
    {
      "epoch": 0.20175,
      "grad_norm": 2.75,
      "grad_norm_var": 0.0123687744140625,
      "learning_rate": 0.0001,
      "loss": 8.1293,
      "loss/crossentropy": 2.481694221496582,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26219360530376434,
      "step": 3228
    },
    {
      "epoch": 0.201875,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.010578409830729166,
      "learning_rate": 0.0001,
      "loss": 8.0384,
      "loss/crossentropy": 2.2695223093032837,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27425651252269745,
      "step": 3230
    },
    {
      "epoch": 0.202,
      "grad_norm": 2.75,
      "grad_norm_var": 0.013736979166666666,
      "learning_rate": 0.0001,
      "loss": 8.0473,
      "loss/crossentropy": 2.2828463315963745,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25569504499435425,
      "step": 3232
    },
    {
      "epoch": 0.202125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.012450154622395833,
      "learning_rate": 0.0001,
      "loss": 8.0475,
      "loss/crossentropy": 2.402729630470276,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26215188205242157,
      "step": 3234
    },
    {
      "epoch": 0.20225,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.0115142822265625,
      "learning_rate": 0.0001,
      "loss": 8.1686,
      "loss/crossentropy": 2.3639482259750366,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2587997019290924,
      "step": 3236
    },
    {
      "epoch": 0.202375,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.012044270833333334,
      "learning_rate": 0.0001,
      "loss": 8.0236,
      "loss/crossentropy": 2.2139264345169067,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25370609760284424,
      "step": 3238
    },
    {
      "epoch": 0.2025,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.01025390625,
      "learning_rate": 0.0001,
      "loss": 7.8858,
      "loss/crossentropy": 2.37356698513031,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2569102644920349,
      "step": 3240
    },
    {
      "epoch": 0.202625,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.015013631184895833,
      "learning_rate": 0.0001,
      "loss": 8.0907,
      "loss/crossentropy": 2.1355791091918945,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2584020048379898,
      "step": 3242
    },
    {
      "epoch": 0.20275,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.013963826497395833,
      "learning_rate": 0.0001,
      "loss": 7.9375,
      "loss/crossentropy": 2.1258978247642517,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2648678421974182,
      "step": 3244
    },
    {
      "epoch": 0.202875,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.014383951822916666,
      "learning_rate": 0.0001,
      "loss": 8.0241,
      "loss/crossentropy": 2.2715872526168823,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2862909138202667,
      "step": 3246
    },
    {
      "epoch": 0.203,
      "grad_norm": 3.0,
      "grad_norm_var": 0.018473307291666668,
      "learning_rate": 0.0001,
      "loss": 8.1095,
      "loss/crossentropy": 2.333642363548279,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2708228975534439,
      "step": 3248
    },
    {
      "epoch": 0.203125,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0251953125,
      "learning_rate": 0.0001,
      "loss": 8.3236,
      "loss/crossentropy": 2.464186906814575,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2748962640762329,
      "step": 3250
    },
    {
      "epoch": 0.20325,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0252838134765625,
      "learning_rate": 0.0001,
      "loss": 8.289,
      "loss/crossentropy": 2.0890082120895386,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24715138971805573,
      "step": 3252
    },
    {
      "epoch": 0.203375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0266998291015625,
      "learning_rate": 0.0001,
      "loss": 7.9402,
      "loss/crossentropy": 2.181369960308075,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26574352383613586,
      "step": 3254
    },
    {
      "epoch": 0.2035,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.02701416015625,
      "learning_rate": 0.0001,
      "loss": 7.8531,
      "loss/crossentropy": 2.281398892402649,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2439633458852768,
      "step": 3256
    },
    {
      "epoch": 0.203625,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.0259918212890625,
      "learning_rate": 0.0001,
      "loss": 7.9964,
      "loss/crossentropy": 2.1536207795143127,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24516429007053375,
      "step": 3258
    },
    {
      "epoch": 0.20375,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.026155598958333335,
      "learning_rate": 0.0001,
      "loss": 8.0773,
      "loss/crossentropy": 2.070763051509857,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2518838942050934,
      "step": 3260
    },
    {
      "epoch": 0.203875,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.05364176432291667,
      "learning_rate": 0.0001,
      "loss": 8.0644,
      "loss/crossentropy": 2.411260724067688,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2600061446428299,
      "step": 3262
    },
    {
      "epoch": 0.204,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.05373942057291667,
      "learning_rate": 0.0001,
      "loss": 8.1634,
      "loss/crossentropy": 2.3903297185897827,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.248751699924469,
      "step": 3264
    },
    {
      "epoch": 0.204125,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.052179972330729164,
      "learning_rate": 0.0001,
      "loss": 8.2074,
      "loss/crossentropy": 2.1826690435409546,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2685079574584961,
      "step": 3266
    },
    {
      "epoch": 0.20425,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.05537007649739583,
      "learning_rate": 0.0001,
      "loss": 8.2012,
      "loss/crossentropy": 2.207249701023102,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2473110854625702,
      "step": 3268
    },
    {
      "epoch": 0.204375,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.0469146728515625,
      "learning_rate": 0.0001,
      "loss": 7.9611,
      "loss/crossentropy": 2.4302347898483276,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24606862664222717,
      "step": 3270
    },
    {
      "epoch": 0.2045,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.043309529622395836,
      "learning_rate": 0.0001,
      "loss": 8.1377,
      "loss/crossentropy": 2.538500189781189,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27223630249500275,
      "step": 3272
    },
    {
      "epoch": 0.204625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.049559529622395834,
      "learning_rate": 0.0001,
      "loss": 7.8854,
      "loss/crossentropy": 2.048095464706421,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24504344165325165,
      "step": 3274
    },
    {
      "epoch": 0.20475,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.053076171875,
      "learning_rate": 0.0001,
      "loss": 7.9718,
      "loss/crossentropy": 2.0703362226486206,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2712066099047661,
      "step": 3276
    },
    {
      "epoch": 0.204875,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.05878804524739583,
      "learning_rate": 0.0001,
      "loss": 8.423,
      "loss/crossentropy": 2.4606130123138428,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31335532665252686,
      "step": 3278
    },
    {
      "epoch": 0.205,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.05712890625,
      "learning_rate": 0.0001,
      "loss": 8.1598,
      "loss/crossentropy": 2.6250627040863037,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27594996988773346,
      "step": 3280
    },
    {
      "epoch": 0.205125,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.056818644205729164,
      "learning_rate": 0.0001,
      "loss": 8.2019,
      "loss/crossentropy": 2.4209065437316895,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25507232546806335,
      "step": 3282
    },
    {
      "epoch": 0.20525,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.05328369140625,
      "learning_rate": 0.0001,
      "loss": 8.1579,
      "loss/crossentropy": 2.3270163536071777,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24912425875663757,
      "step": 3284
    },
    {
      "epoch": 0.205375,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.0549957275390625,
      "learning_rate": 0.0001,
      "loss": 7.9852,
      "loss/crossentropy": 2.4678841829299927,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23587578535079956,
      "step": 3286
    },
    {
      "epoch": 0.2055,
      "grad_norm": 3.0,
      "grad_norm_var": 0.051167805989583336,
      "learning_rate": 0.0001,
      "loss": 8.105,
      "loss/crossentropy": 2.420538544654846,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2402632236480713,
      "step": 3288
    },
    {
      "epoch": 0.205625,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.05025634765625,
      "learning_rate": 0.0001,
      "loss": 8.0947,
      "loss/crossentropy": 2.5115219354629517,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25969623029232025,
      "step": 3290
    },
    {
      "epoch": 0.20575,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.04841206868489583,
      "learning_rate": 0.0001,
      "loss": 8.242,
      "loss/crossentropy": 2.2653130292892456,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2700078934431076,
      "step": 3292
    },
    {
      "epoch": 0.205875,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.0318756103515625,
      "learning_rate": 0.0001,
      "loss": 8.3417,
      "loss/crossentropy": 2.481539011001587,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2482079267501831,
      "step": 3294
    },
    {
      "epoch": 0.206,
      "grad_norm": 2.875,
      "grad_norm_var": 0.056550089518229166,
      "learning_rate": 0.0001,
      "loss": 8.1301,
      "loss/crossentropy": 2.377937436103821,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.252384252846241,
      "step": 3296
    },
    {
      "epoch": 0.206125,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.054488118489583334,
      "learning_rate": 0.0001,
      "loss": 8.2856,
      "loss/crossentropy": 2.3734689950942993,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25039682537317276,
      "step": 3298
    },
    {
      "epoch": 0.20625,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.05681966145833333,
      "learning_rate": 0.0001,
      "loss": 7.9778,
      "loss/crossentropy": 2.237556576728821,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23857159167528152,
      "step": 3300
    },
    {
      "epoch": 0.206375,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.0544342041015625,
      "learning_rate": 0.0001,
      "loss": 7.984,
      "loss/crossentropy": 2.286033868789673,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2503318265080452,
      "step": 3302
    },
    {
      "epoch": 0.2065,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.06236063639322917,
      "learning_rate": 0.0001,
      "loss": 8.1663,
      "loss/crossentropy": 2.111438810825348,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26578497141599655,
      "step": 3304
    },
    {
      "epoch": 0.206625,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.06298421223958334,
      "learning_rate": 0.0001,
      "loss": 8.047,
      "loss/crossentropy": 2.0786361694335938,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2384149432182312,
      "step": 3306
    },
    {
      "epoch": 0.20675,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.0692047119140625,
      "learning_rate": 0.0001,
      "loss": 7.8227,
      "loss/crossentropy": 2.0808927416801453,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2648046165704727,
      "step": 3308
    },
    {
      "epoch": 0.206875,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.05110575358072917,
      "learning_rate": 0.0001,
      "loss": 8.0012,
      "loss/crossentropy": 2.1514230966567993,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24816033244132996,
      "step": 3310
    },
    {
      "epoch": 0.207,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.023502604166666666,
      "learning_rate": 0.0001,
      "loss": 7.9675,
      "loss/crossentropy": 2.114220142364502,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22722011804580688,
      "step": 3312
    },
    {
      "epoch": 0.207125,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.026220703125,
      "learning_rate": 0.0001,
      "loss": 7.8712,
      "loss/crossentropy": 2.1372103095054626,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2645547240972519,
      "step": 3314
    },
    {
      "epoch": 0.20725,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0248931884765625,
      "learning_rate": 0.0001,
      "loss": 8.0588,
      "loss/crossentropy": 2.372753381729126,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25332552194595337,
      "step": 3316
    },
    {
      "epoch": 0.207375,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.027049763997395834,
      "learning_rate": 0.0001,
      "loss": 8.1708,
      "loss/crossentropy": 2.311069369316101,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2605705112218857,
      "step": 3318
    },
    {
      "epoch": 0.2075,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.017943318684895834,
      "learning_rate": 0.0001,
      "loss": 8.1425,
      "loss/crossentropy": 2.4386746883392334,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2544742077589035,
      "step": 3320
    },
    {
      "epoch": 0.207625,
      "grad_norm": 3.25,
      "grad_norm_var": 0.020750935872395834,
      "learning_rate": 0.0001,
      "loss": 7.968,
      "loss/crossentropy": 2.1591333150863647,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24341313540935516,
      "step": 3322
    },
    {
      "epoch": 0.20775,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.018583170572916665,
      "learning_rate": 0.0001,
      "loss": 8.2134,
      "loss/crossentropy": 2.328689455986023,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29594168066978455,
      "step": 3324
    },
    {
      "epoch": 0.207875,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.023661295572916668,
      "learning_rate": 0.0001,
      "loss": 7.9217,
      "loss/crossentropy": 2.1437469720840454,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24640139937400818,
      "step": 3326
    },
    {
      "epoch": 0.208,
      "grad_norm": 3.125,
      "grad_norm_var": 0.0243560791015625,
      "learning_rate": 0.0001,
      "loss": 8.0628,
      "loss/crossentropy": 2.4024256467819214,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2733878195285797,
      "step": 3328
    },
    {
      "epoch": 0.208125,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.025386555989583334,
      "learning_rate": 0.0001,
      "loss": 7.8516,
      "loss/crossentropy": 2.1901514530181885,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23804646730422974,
      "step": 3330
    },
    {
      "epoch": 0.20825,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.024828084309895835,
      "learning_rate": 0.0001,
      "loss": 8.109,
      "loss/crossentropy": 2.291813850402832,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2448124885559082,
      "step": 3332
    },
    {
      "epoch": 0.208375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.025406901041666666,
      "learning_rate": 0.0001,
      "loss": 7.9948,
      "loss/crossentropy": 2.341397523880005,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27015161514282227,
      "step": 3334
    },
    {
      "epoch": 0.2085,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.022761027018229168,
      "learning_rate": 0.0001,
      "loss": 8.1965,
      "loss/crossentropy": 2.3533178567886353,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25063496828079224,
      "step": 3336
    },
    {
      "epoch": 0.208625,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.03072509765625,
      "learning_rate": 0.0001,
      "loss": 8.1318,
      "loss/crossentropy": 2.0992120504379272,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2553541362285614,
      "step": 3338
    },
    {
      "epoch": 0.20875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.033665974934895836,
      "learning_rate": 0.0001,
      "loss": 8.0182,
      "loss/crossentropy": 2.382994294166565,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28810542821884155,
      "step": 3340
    },
    {
      "epoch": 0.208875,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.027562459309895832,
      "learning_rate": 0.0001,
      "loss": 7.9908,
      "loss/crossentropy": 2.1971789598464966,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2596438080072403,
      "step": 3342
    },
    {
      "epoch": 0.209,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.030029296875,
      "learning_rate": 0.0001,
      "loss": 7.7718,
      "loss/crossentropy": 2.0156781673431396,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23752722889184952,
      "step": 3344
    },
    {
      "epoch": 0.209125,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.026123046875,
      "learning_rate": 0.0001,
      "loss": 7.9132,
      "loss/crossentropy": 2.2873259782791138,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26303017139434814,
      "step": 3346
    },
    {
      "epoch": 0.20925,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.026854451497395834,
      "learning_rate": 0.0001,
      "loss": 8.1614,
      "loss/crossentropy": 2.208059072494507,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25297391414642334,
      "step": 3348
    },
    {
      "epoch": 0.209375,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.026432291666666666,
      "learning_rate": 0.0001,
      "loss": 8.2134,
      "loss/crossentropy": 2.664340019226074,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2778072953224182,
      "step": 3350
    },
    {
      "epoch": 0.2095,
      "grad_norm": 3.125,
      "grad_norm_var": 0.025951131184895834,
      "learning_rate": 0.0001,
      "loss": 7.9863,
      "loss/crossentropy": 2.352488398551941,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.280301034450531,
      "step": 3352
    },
    {
      "epoch": 0.209625,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.013109334309895833,
      "learning_rate": 0.0001,
      "loss": 7.9529,
      "loss/crossentropy": 2.3037261962890625,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2568385750055313,
      "step": 3354
    },
    {
      "epoch": 0.20975,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.009175618489583334,
      "learning_rate": 0.0001,
      "loss": 8.0492,
      "loss/crossentropy": 2.264007806777954,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2372257262468338,
      "step": 3356
    },
    {
      "epoch": 0.209875,
      "grad_norm": 2.875,
      "grad_norm_var": 0.043187459309895836,
      "learning_rate": 0.0001,
      "loss": 8.1985,
      "loss/crossentropy": 2.265676975250244,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30991341173648834,
      "step": 3358
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.04296875,
      "learning_rate": 0.0001,
      "loss": 8.0834,
      "loss/crossentropy": 2.170192003250122,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2553609609603882,
      "step": 3360
    },
    {
      "epoch": 0.210125,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.04361572265625,
      "learning_rate": 0.0001,
      "loss": 8.091,
      "loss/crossentropy": 2.4134016036987305,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2930755317211151,
      "step": 3362
    },
    {
      "epoch": 0.21025,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.07550455729166666,
      "learning_rate": 0.0001,
      "loss": 8.1486,
      "loss/crossentropy": 2.3027660846710205,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2863481193780899,
      "step": 3364
    },
    {
      "epoch": 0.210375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.07553609212239583,
      "learning_rate": 0.0001,
      "loss": 7.9561,
      "loss/crossentropy": 2.3249882459640503,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25326602160930634,
      "step": 3366
    },
    {
      "epoch": 0.2105,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.07991129557291667,
      "learning_rate": 0.0001,
      "loss": 8.1748,
      "loss/crossentropy": 2.429360032081604,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2706481069326401,
      "step": 3368
    },
    {
      "epoch": 0.210625,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.08212890625,
      "learning_rate": 0.0001,
      "loss": 8.0211,
      "loss/crossentropy": 2.304826259613037,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2733375281095505,
      "step": 3370
    },
    {
      "epoch": 0.21075,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.10440165201822917,
      "learning_rate": 0.0001,
      "loss": 8.5313,
      "loss/crossentropy": 2.6415737867355347,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28427866101264954,
      "step": 3372
    },
    {
      "epoch": 0.210875,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.08263346354166666,
      "learning_rate": 0.0001,
      "loss": 8.1368,
      "loss/crossentropy": 2.3548909425735474,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25943076610565186,
      "step": 3374
    },
    {
      "epoch": 0.211,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.086669921875,
      "learning_rate": 0.0001,
      "loss": 8.057,
      "loss/crossentropy": 2.2008095383644104,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2705947160720825,
      "step": 3376
    },
    {
      "epoch": 0.211125,
      "grad_norm": 3.375,
      "grad_norm_var": 0.08528238932291667,
      "learning_rate": 0.0001,
      "loss": 8.1684,
      "loss/crossentropy": 2.1185187101364136,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23934519290924072,
      "step": 3378
    },
    {
      "epoch": 0.21125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.06855061848958334,
      "learning_rate": 0.0001,
      "loss": 7.9323,
      "loss/crossentropy": 2.183789014816284,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23662084341049194,
      "step": 3380
    },
    {
      "epoch": 0.211375,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.07534077962239584,
      "learning_rate": 0.0001,
      "loss": 8.3151,
      "loss/crossentropy": 2.4148218631744385,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2555703818798065,
      "step": 3382
    },
    {
      "epoch": 0.2115,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.06721089680989584,
      "learning_rate": 0.0001,
      "loss": 8.1862,
      "loss/crossentropy": 2.5065032243728638,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28839460015296936,
      "step": 3384
    },
    {
      "epoch": 0.211625,
      "grad_norm": 3.125,
      "grad_norm_var": 0.06750895182291666,
      "learning_rate": 0.0001,
      "loss": 8.0797,
      "loss/crossentropy": 2.2872482538223267,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2494898959994316,
      "step": 3386
    },
    {
      "epoch": 0.21175,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.04421284993489583,
      "learning_rate": 0.0001,
      "loss": 8.0956,
      "loss/crossentropy": 2.249394178390503,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23356334120035172,
      "step": 3388
    },
    {
      "epoch": 0.211875,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.04309488932291667,
      "learning_rate": 0.0001,
      "loss": 8.1253,
      "loss/crossentropy": 2.4072612524032593,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2705316096544266,
      "step": 3390
    },
    {
      "epoch": 0.212,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.04153645833333333,
      "learning_rate": 0.0001,
      "loss": 8.1955,
      "loss/crossentropy": 2.291887044906616,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2566347047686577,
      "step": 3392
    },
    {
      "epoch": 0.212125,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.03092041015625,
      "learning_rate": 0.0001,
      "loss": 8.1182,
      "loss/crossentropy": 2.4818975925445557,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27201250195503235,
      "step": 3394
    },
    {
      "epoch": 0.21225,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.029426066080729167,
      "learning_rate": 0.0001,
      "loss": 8.1119,
      "loss/crossentropy": 2.3387409448623657,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26730673760175705,
      "step": 3396
    },
    {
      "epoch": 0.212375,
      "grad_norm": 3.125,
      "grad_norm_var": 0.014013671875,
      "learning_rate": 0.0001,
      "loss": 8.0371,
      "loss/crossentropy": 2.4898757934570312,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2796122133731842,
      "step": 3398
    },
    {
      "epoch": 0.2125,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.0157623291015625,
      "learning_rate": 0.0001,
      "loss": 7.9214,
      "loss/crossentropy": 2.3467652797698975,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25767359137535095,
      "step": 3400
    },
    {
      "epoch": 0.212625,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.014891560872395833,
      "learning_rate": 0.0001,
      "loss": 8.2623,
      "loss/crossentropy": 2.23625385761261,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2665071487426758,
      "step": 3402
    },
    {
      "epoch": 0.21275,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.010221354166666667,
      "learning_rate": 0.0001,
      "loss": 8.0001,
      "loss/crossentropy": 2.247014105319977,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24841443449258804,
      "step": 3404
    },
    {
      "epoch": 0.212875,
      "grad_norm": 2.875,
      "grad_norm_var": 0.012886555989583333,
      "learning_rate": 0.0001,
      "loss": 8.0313,
      "loss/crossentropy": 2.3653587102890015,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27540309727191925,
      "step": 3406
    },
    {
      "epoch": 0.213,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0152740478515625,
      "learning_rate": 0.0001,
      "loss": 8.2313,
      "loss/crossentropy": 2.2608449459075928,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2475418895483017,
      "step": 3408
    },
    {
      "epoch": 0.213125,
      "grad_norm": 2.875,
      "grad_norm_var": 0.0187896728515625,
      "learning_rate": 0.0001,
      "loss": 8.2868,
      "loss/crossentropy": 1.9663435816764832,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27278994023799896,
      "step": 3410
    },
    {
      "epoch": 0.21325,
      "grad_norm": 3.0,
      "grad_norm_var": 0.018550618489583334,
      "learning_rate": 0.0001,
      "loss": 8.1122,
      "loss/crossentropy": 2.391019344329834,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25076402723789215,
      "step": 3412
    },
    {
      "epoch": 0.213375,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.017210896809895834,
      "learning_rate": 0.0001,
      "loss": 7.9714,
      "loss/crossentropy": 2.4968901872634888,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.28580130636692047,
      "step": 3414
    },
    {
      "epoch": 0.2135,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.019234212239583333,
      "learning_rate": 0.0001,
      "loss": 7.8824,
      "loss/crossentropy": 2.0557892322540283,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24151277542114258,
      "step": 3416
    },
    {
      "epoch": 0.213625,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.019627888997395832,
      "learning_rate": 0.0001,
      "loss": 8.0965,
      "loss/crossentropy": 2.443650245666504,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25222641229629517,
      "step": 3418
    },
    {
      "epoch": 0.21375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.022419230143229166,
      "learning_rate": 0.0001,
      "loss": 8.2063,
      "loss/crossentropy": 2.750308632850647,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2700583189725876,
      "step": 3420
    },
    {
      "epoch": 0.213875,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.01842041015625,
      "learning_rate": 0.0001,
      "loss": 8.051,
      "loss/crossentropy": 2.1019209027290344,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24724262952804565,
      "step": 3422
    },
    {
      "epoch": 0.214,
      "grad_norm": 2.875,
      "grad_norm_var": 0.015360514322916666,
      "learning_rate": 0.0001,
      "loss": 7.9942,
      "loss/crossentropy": 2.328813672065735,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2349339872598648,
      "step": 3424
    },
    {
      "epoch": 0.214125,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.013932291666666667,
      "learning_rate": 0.0001,
      "loss": 7.8529,
      "loss/crossentropy": 2.2752292156219482,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25418810546398163,
      "step": 3426
    },
    {
      "epoch": 0.21425,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.0168365478515625,
      "learning_rate": 0.0001,
      "loss": 7.9415,
      "loss/crossentropy": 2.260936737060547,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25729209184646606,
      "step": 3428
    },
    {
      "epoch": 0.214375,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.0165191650390625,
      "learning_rate": 0.0001,
      "loss": 8.1508,
      "loss/crossentropy": 2.213426113128662,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2391301691532135,
      "step": 3430
    },
    {
      "epoch": 0.2145,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.013020833333333334,
      "learning_rate": 0.0001,
      "loss": 8.0022,
      "loss/crossentropy": 2.320794105529785,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24946201592683792,
      "step": 3432
    },
    {
      "epoch": 0.214625,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.0132476806640625,
      "learning_rate": 0.0001,
      "loss": 8.0841,
      "loss/crossentropy": 2.2941734790802,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24938707053661346,
      "step": 3434
    },
    {
      "epoch": 0.21475,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.011551920572916667,
      "learning_rate": 0.0001,
      "loss": 8.1231,
      "loss/crossentropy": 2.1613428592681885,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.231092631816864,
      "step": 3436
    },
    {
      "epoch": 0.214875,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.015067545572916667,
      "learning_rate": 0.0001,
      "loss": 7.8562,
      "loss/crossentropy": 2.3163094520568848,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24684642255306244,
      "step": 3438
    },
    {
      "epoch": 0.215,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.014615885416666667,
      "learning_rate": 0.0001,
      "loss": 8.1419,
      "loss/crossentropy": 2.346468925476074,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2459520548582077,
      "step": 3440
    },
    {
      "epoch": 0.215125,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.031473795572916664,
      "learning_rate": 0.0001,
      "loss": 7.9344,
      "loss/crossentropy": 2.299746036529541,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2519551143050194,
      "step": 3442
    },
    {
      "epoch": 0.21525,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.03622639973958333,
      "learning_rate": 0.0001,
      "loss": 8.0242,
      "loss/crossentropy": 2.2825082540512085,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24382151663303375,
      "step": 3444
    },
    {
      "epoch": 0.215375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.036799112955729164,
      "learning_rate": 0.0001,
      "loss": 8.1511,
      "loss/crossentropy": 2.724141240119934,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26099613308906555,
      "step": 3446
    },
    {
      "epoch": 0.2155,
      "grad_norm": 2.75,
      "grad_norm_var": 0.041356404622395836,
      "learning_rate": 0.0001,
      "loss": 8.01,
      "loss/crossentropy": 2.4468116760253906,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2531883865594864,
      "step": 3448
    },
    {
      "epoch": 0.215625,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.04243062337239583,
      "learning_rate": 0.0001,
      "loss": 8.3209,
      "loss/crossentropy": 2.35987651348114,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2925818860530853,
      "step": 3450
    },
    {
      "epoch": 0.21575,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.04248758951822917,
      "learning_rate": 0.0001,
      "loss": 8.2423,
      "loss/crossentropy": 2.2506964802742004,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2657378166913986,
      "step": 3452
    },
    {
      "epoch": 0.215875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.0366363525390625,
      "learning_rate": 0.0001,
      "loss": 7.8316,
      "loss/crossentropy": 2.4656643867492676,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2636348456144333,
      "step": 3454
    },
    {
      "epoch": 0.216,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.03827718098958333,
      "learning_rate": 0.0001,
      "loss": 7.9689,
      "loss/crossentropy": 2.1773873567581177,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2358511984348297,
      "step": 3456
    },
    {
      "epoch": 0.216125,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.019514973958333334,
      "learning_rate": 0.0001,
      "loss": 8.2903,
      "loss/crossentropy": 2.4382131099700928,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26277345418930054,
      "step": 3458
    },
    {
      "epoch": 0.21625,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.028514607747395834,
      "learning_rate": 0.0001,
      "loss": 7.986,
      "loss/crossentropy": 2.137218475341797,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2463318258523941,
      "step": 3460
    },
    {
      "epoch": 0.216375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.03186442057291667,
      "learning_rate": 0.0001,
      "loss": 8.0746,
      "loss/crossentropy": 2.5652899742126465,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24091246724128723,
      "step": 3462
    },
    {
      "epoch": 0.2165,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.0273101806640625,
      "learning_rate": 0.0001,
      "loss": 8.2663,
      "loss/crossentropy": 2.269050359725952,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24550612270832062,
      "step": 3464
    },
    {
      "epoch": 0.216625,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0274078369140625,
      "learning_rate": 0.0001,
      "loss": 8.1145,
      "loss/crossentropy": 2.1748660802841187,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2580345571041107,
      "step": 3466
    },
    {
      "epoch": 0.21675,
      "grad_norm": 2.75,
      "grad_norm_var": 0.03177083333333333,
      "learning_rate": 0.0001,
      "loss": 7.7683,
      "loss/crossentropy": 2.464895486831665,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26822274923324585,
      "step": 3468
    },
    {
      "epoch": 0.216875,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.03211161295572917,
      "learning_rate": 0.0001,
      "loss": 8.0132,
      "loss/crossentropy": 2.516330361366272,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27802979946136475,
      "step": 3470
    },
    {
      "epoch": 0.217,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.0298980712890625,
      "learning_rate": 0.0001,
      "loss": 8.0509,
      "loss/crossentropy": 2.593145251274109,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26215869188308716,
      "step": 3472
    },
    {
      "epoch": 0.217125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.029781087239583334,
      "learning_rate": 0.0001,
      "loss": 7.9716,
      "loss/crossentropy": 2.226263165473938,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26481927931308746,
      "step": 3474
    },
    {
      "epoch": 0.21725,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.013939412434895833,
      "learning_rate": 0.0001,
      "loss": 7.9203,
      "loss/crossentropy": 2.1908382177352905,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24750825762748718,
      "step": 3476
    },
    {
      "epoch": 0.217375,
      "grad_norm": 2.75,
      "grad_norm_var": 0.018876139322916666,
      "learning_rate": 0.0001,
      "loss": 8.1505,
      "loss/crossentropy": 2.1081652641296387,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24459867179393768,
      "step": 3478
    },
    {
      "epoch": 0.2175,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.019136555989583335,
      "learning_rate": 0.0001,
      "loss": 7.9132,
      "loss/crossentropy": 2.07977694272995,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2468918189406395,
      "step": 3480
    },
    {
      "epoch": 0.217625,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.018778483072916668,
      "learning_rate": 0.0001,
      "loss": 8.036,
      "loss/crossentropy": 2.2569565773010254,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2362232357263565,
      "step": 3482
    },
    {
      "epoch": 0.21775,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.016999308268229166,
      "learning_rate": 0.0001,
      "loss": 8.0578,
      "loss/crossentropy": 2.3093096017837524,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2618033364415169,
      "step": 3484
    },
    {
      "epoch": 0.217875,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.018245442708333334,
      "learning_rate": 0.0001,
      "loss": 7.9073,
      "loss/crossentropy": 2.1073737144470215,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23664266616106033,
      "step": 3486
    },
    {
      "epoch": 0.218,
      "grad_norm": 11.875,
      "grad_norm_var": 7.317122395833334,
      "learning_rate": 0.0001,
      "loss": 8.6386,
      "loss/crossentropy": 2.440091371536255,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2737603783607483,
      "step": 3488
    },
    {
      "epoch": 0.218125,
      "grad_norm": 3.125,
      "grad_norm_var": 7.408426920572917,
      "learning_rate": 0.0001,
      "loss": 8.3179,
      "loss/crossentropy": 2.4426426887512207,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2780514657497406,
      "step": 3490
    },
    {
      "epoch": 0.21825,
      "grad_norm": 3.046875,
      "grad_norm_var": 7.375365193684896,
      "learning_rate": 0.0001,
      "loss": 8.0277,
      "loss/crossentropy": 2.196107029914856,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25197281688451767,
      "step": 3492
    },
    {
      "epoch": 0.218375,
      "grad_norm": 3.140625,
      "grad_norm_var": 7.33541259765625,
      "learning_rate": 0.0001,
      "loss": 8.0933,
      "loss/crossentropy": 2.404140591621399,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24803149700164795,
      "step": 3494
    },
    {
      "epoch": 0.2185,
      "grad_norm": 2.890625,
      "grad_norm_var": 7.330557250976563,
      "learning_rate": 0.0001,
      "loss": 7.9468,
      "loss/crossentropy": 2.261552095413208,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2754479944705963,
      "step": 3496
    },
    {
      "epoch": 0.218625,
      "grad_norm": 3.21875,
      "grad_norm_var": 7.257470703125,
      "learning_rate": 0.0001,
      "loss": 8.0821,
      "loss/crossentropy": 2.354046583175659,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2597518563270569,
      "step": 3498
    },
    {
      "epoch": 0.21875,
      "grad_norm": 6.40625,
      "grad_norm_var": 7.410123697916666,
      "learning_rate": 0.0001,
      "loss": 8.6704,
      "loss/crossentropy": 2.2524830102920532,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26117394119501114,
      "step": 3500
    },
    {
      "epoch": 0.218875,
      "grad_norm": 3.203125,
      "grad_norm_var": 7.230793253580729,
      "learning_rate": 0.0001,
      "loss": 8.2819,
      "loss/crossentropy": 2.433029532432556,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26937395334243774,
      "step": 3502
    },
    {
      "epoch": 0.219,
      "grad_norm": 3.125,
      "grad_norm_var": 1.079613240559896,
      "learning_rate": 0.0001,
      "loss": 8.0829,
      "loss/crossentropy": 2.180580735206604,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24801570177078247,
      "step": 3504
    },
    {
      "epoch": 0.219125,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.7117472330729167,
      "learning_rate": 0.0001,
      "loss": 8.0049,
      "loss/crossentropy": 2.497164011001587,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2396157830953598,
      "step": 3506
    },
    {
      "epoch": 0.21925,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.70777587890625,
      "learning_rate": 0.0001,
      "loss": 8.0631,
      "loss/crossentropy": 2.0866791009902954,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2625848799943924,
      "step": 3508
    },
    {
      "epoch": 0.219375,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.70172119140625,
      "learning_rate": 0.0001,
      "loss": 8.0452,
      "loss/crossentropy": 2.189347505569458,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23898432403802872,
      "step": 3510
    },
    {
      "epoch": 0.2195,
      "grad_norm": 2.875,
      "grad_norm_var": 0.7069986979166667,
      "learning_rate": 0.0001,
      "loss": 8.1909,
      "loss/crossentropy": 2.3433092832565308,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2604905217885971,
      "step": 3512
    },
    {
      "epoch": 0.219625,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.7274241129557292,
      "learning_rate": 0.0001,
      "loss": 7.9611,
      "loss/crossentropy": 2.4440083503723145,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2595008611679077,
      "step": 3514
    },
    {
      "epoch": 0.21975,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.04013264973958333,
      "learning_rate": 0.0001,
      "loss": 8.2323,
      "loss/crossentropy": 2.4784871339797974,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2541923224925995,
      "step": 3516
    },
    {
      "epoch": 0.219875,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0164947509765625,
      "learning_rate": 0.0001,
      "loss": 7.9576,
      "loss/crossentropy": 2.083495259284973,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24065294116735458,
      "step": 3518
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.0,
      "grad_norm_var": 0.015965779622395832,
      "learning_rate": 0.0001,
      "loss": 7.9361,
      "loss/crossentropy": 2.15146005153656,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24030451476573944,
      "step": 3520
    },
    {
      "epoch": 0.220125,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.014582316080729166,
      "learning_rate": 0.0001,
      "loss": 8.107,
      "loss/crossentropy": 2.2797966599464417,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2358318492770195,
      "step": 3522
    },
    {
      "epoch": 0.22025,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.019071451822916665,
      "learning_rate": 0.0001,
      "loss": 8.0834,
      "loss/crossentropy": 2.270912528038025,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2688527777791023,
      "step": 3524
    },
    {
      "epoch": 0.220375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.021044921875,
      "learning_rate": 0.0001,
      "loss": 7.9002,
      "loss/crossentropy": 2.1109871864318848,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24296989291906357,
      "step": 3526
    },
    {
      "epoch": 0.2205,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.0573883056640625,
      "learning_rate": 0.0001,
      "loss": 8.0665,
      "loss/crossentropy": 2.3173556327819824,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2529396265745163,
      "step": 3528
    },
    {
      "epoch": 0.220625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.05663655598958333,
      "learning_rate": 0.0001,
      "loss": 8.0593,
      "loss/crossentropy": 2.168402671813965,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26267802715301514,
      "step": 3530
    },
    {
      "epoch": 0.22075,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0636871337890625,
      "learning_rate": 0.0001,
      "loss": 8.2203,
      "loss/crossentropy": 2.3692712783813477,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2798602133989334,
      "step": 3532
    },
    {
      "epoch": 0.220875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.07527567545572916,
      "learning_rate": 0.0001,
      "loss": 7.9934,
      "loss/crossentropy": 2.441710114479065,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.264100581407547,
      "step": 3534
    },
    {
      "epoch": 0.221,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.07697652180989584,
      "learning_rate": 0.0001,
      "loss": 7.914,
      "loss/crossentropy": 2.2376210689544678,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2386428266763687,
      "step": 3536
    },
    {
      "epoch": 0.221125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.08683268229166667,
      "learning_rate": 0.0001,
      "loss": 7.8692,
      "loss/crossentropy": 1.9457404017448425,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23729050904512405,
      "step": 3538
    },
    {
      "epoch": 0.22125,
      "grad_norm": 2.875,
      "grad_norm_var": 0.07551167805989584,
      "learning_rate": 0.0001,
      "loss": 7.9995,
      "loss/crossentropy": 2.2962979078292847,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2636758089065552,
      "step": 3540
    },
    {
      "epoch": 0.221375,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.07558492024739584,
      "learning_rate": 0.0001,
      "loss": 7.9346,
      "loss/crossentropy": 2.275332808494568,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2384483963251114,
      "step": 3542
    },
    {
      "epoch": 0.2215,
      "grad_norm": 2.875,
      "grad_norm_var": 0.027839152018229167,
      "learning_rate": 0.0001,
      "loss": 7.6944,
      "loss/crossentropy": 2.0947870016098022,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22623080015182495,
      "step": 3544
    },
    {
      "epoch": 0.221625,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.025633748372395834,
      "learning_rate": 0.0001,
      "loss": 7.7702,
      "loss/crossentropy": 2.4045172929763794,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2514096647500992,
      "step": 3546
    },
    {
      "epoch": 0.22175,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.0135894775390625,
      "learning_rate": 0.0001,
      "loss": 7.8777,
      "loss/crossentropy": 2.2690885066986084,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23157186806201935,
      "step": 3548
    },
    {
      "epoch": 0.221875,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.02906494140625,
      "learning_rate": 0.0001,
      "loss": 8.1106,
      "loss/crossentropy": 2.4599485397338867,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28053322434425354,
      "step": 3550
    },
    {
      "epoch": 0.222,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.028880818684895834,
      "learning_rate": 0.0001,
      "loss": 7.9334,
      "loss/crossentropy": 2.15872859954834,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24894960224628448,
      "step": 3552
    },
    {
      "epoch": 0.222125,
      "grad_norm": 2.875,
      "grad_norm_var": 0.024486287434895834,
      "learning_rate": 0.0001,
      "loss": 7.8626,
      "loss/crossentropy": 2.3765709400177,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25589361786842346,
      "step": 3554
    },
    {
      "epoch": 0.22225,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0244293212890625,
      "learning_rate": 0.0001,
      "loss": 7.9958,
      "loss/crossentropy": 2.0382995009422302,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23948778212070465,
      "step": 3556
    },
    {
      "epoch": 0.222375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.022981770833333335,
      "learning_rate": 0.0001,
      "loss": 7.9355,
      "loss/crossentropy": 2.2267855405807495,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23568203300237656,
      "step": 3558
    },
    {
      "epoch": 0.2225,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.025846354166666665,
      "learning_rate": 0.0001,
      "loss": 8.0736,
      "loss/crossentropy": 2.304799437522888,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23179854452610016,
      "step": 3560
    },
    {
      "epoch": 0.222625,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.028206380208333333,
      "learning_rate": 0.0001,
      "loss": 8.1224,
      "loss/crossentropy": 2.3973569869995117,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.258654460310936,
      "step": 3562
    },
    {
      "epoch": 0.22275,
      "grad_norm": 2.875,
      "grad_norm_var": 0.027132161458333335,
      "learning_rate": 0.0001,
      "loss": 7.8143,
      "loss/crossentropy": 2.097848653793335,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23939958959817886,
      "step": 3564
    },
    {
      "epoch": 0.222875,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.018822224934895833,
      "learning_rate": 0.0001,
      "loss": 7.9652,
      "loss/crossentropy": 2.5855683088302612,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2576940581202507,
      "step": 3566
    },
    {
      "epoch": 0.223,
      "grad_norm": 3.0,
      "grad_norm_var": 0.01822509765625,
      "learning_rate": 0.0001,
      "loss": 8.0738,
      "loss/crossentropy": 2.328821897506714,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25657960772514343,
      "step": 3568
    },
    {
      "epoch": 0.223125,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.022997029622395835,
      "learning_rate": 0.0001,
      "loss": 8.0868,
      "loss/crossentropy": 2.537997841835022,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26182398200035095,
      "step": 3570
    },
    {
      "epoch": 0.22325,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.027057902018229166,
      "learning_rate": 0.0001,
      "loss": 7.8351,
      "loss/crossentropy": 2.1498693227767944,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25888827443122864,
      "step": 3572
    },
    {
      "epoch": 0.223375,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.03264058430989583,
      "learning_rate": 0.0001,
      "loss": 7.9163,
      "loss/crossentropy": 2.3035428524017334,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2618688642978668,
      "step": 3574
    },
    {
      "epoch": 0.2235,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.03328348795572917,
      "learning_rate": 0.0001,
      "loss": 8.1395,
      "loss/crossentropy": 2.457966685295105,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2607010751962662,
      "step": 3576
    },
    {
      "epoch": 0.223625,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.04112040201822917,
      "learning_rate": 0.0001,
      "loss": 8.1893,
      "loss/crossentropy": 2.220232129096985,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2506686598062515,
      "step": 3578
    },
    {
      "epoch": 0.22375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0400787353515625,
      "learning_rate": 0.0001,
      "loss": 8.0102,
      "loss/crossentropy": 2.3712148666381836,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2428571730852127,
      "step": 3580
    },
    {
      "epoch": 0.223875,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.04485270182291667,
      "learning_rate": 0.0001,
      "loss": 7.8827,
      "loss/crossentropy": 2.2805765867233276,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23625147342681885,
      "step": 3582
    },
    {
      "epoch": 0.224,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.048371378580729166,
      "learning_rate": 0.0001,
      "loss": 8.0278,
      "loss/crossentropy": 2.3268240690231323,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2626963108778,
      "step": 3584
    },
    {
      "epoch": 0.224125,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.04468485514322917,
      "learning_rate": 0.0001,
      "loss": 7.8847,
      "loss/crossentropy": 2.4000160694122314,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2558213621377945,
      "step": 3586
    },
    {
      "epoch": 0.22425,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0423492431640625,
      "learning_rate": 0.0001,
      "loss": 7.9188,
      "loss/crossentropy": 2.296359062194824,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24004730582237244,
      "step": 3588
    },
    {
      "epoch": 0.224375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.03669331868489583,
      "learning_rate": 0.0001,
      "loss": 7.9116,
      "loss/crossentropy": 2.4102399349212646,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24954771995544434,
      "step": 3590
    },
    {
      "epoch": 0.2245,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.035660807291666666,
      "learning_rate": 0.0001,
      "loss": 7.9391,
      "loss/crossentropy": 2.33876371383667,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2509802132844925,
      "step": 3592
    },
    {
      "epoch": 0.224625,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.0248046875,
      "learning_rate": 0.0001,
      "loss": 7.8352,
      "loss/crossentropy": 2.33649480342865,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2264355644583702,
      "step": 3594
    },
    {
      "epoch": 0.22475,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.027718098958333333,
      "learning_rate": 0.0001,
      "loss": 8.0294,
      "loss/crossentropy": 2.255256175994873,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24728095531463623,
      "step": 3596
    },
    {
      "epoch": 0.224875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.03717447916666667,
      "learning_rate": 0.0001,
      "loss": 8.3306,
      "loss/crossentropy": 2.1616681814193726,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3028740808367729,
      "step": 3598
    },
    {
      "epoch": 0.225,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.033665974934895836,
      "learning_rate": 0.0001,
      "loss": 8.1381,
      "loss/crossentropy": 2.1879382133483887,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24906174838542938,
      "step": 3600
    },
    {
      "epoch": 0.225125,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.0383209228515625,
      "learning_rate": 0.0001,
      "loss": 8.2209,
      "loss/crossentropy": 2.551230788230896,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26665643602609634,
      "step": 3602
    },
    {
      "epoch": 0.22525,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.04551493326822917,
      "learning_rate": 0.0001,
      "loss": 8.3031,
      "loss/crossentropy": 2.5071710348129272,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.342557817697525,
      "step": 3604
    },
    {
      "epoch": 0.225375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.047098795572916664,
      "learning_rate": 0.0001,
      "loss": 8.1181,
      "loss/crossentropy": 2.30819833278656,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26556289196014404,
      "step": 3606
    },
    {
      "epoch": 0.2255,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.0525054931640625,
      "learning_rate": 0.0001,
      "loss": 7.7835,
      "loss/crossentropy": 2.093214511871338,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2401185780763626,
      "step": 3608
    },
    {
      "epoch": 0.225625,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.047265625,
      "learning_rate": 0.0001,
      "loss": 8.0272,
      "loss/crossentropy": 2.3199344873428345,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2687990739941597,
      "step": 3610
    },
    {
      "epoch": 0.22575,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.05095113118489583,
      "learning_rate": 0.0001,
      "loss": 8.0956,
      "loss/crossentropy": 2.178806185722351,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22464393079280853,
      "step": 3612
    },
    {
      "epoch": 0.225875,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.0380035400390625,
      "learning_rate": 0.0001,
      "loss": 8.2848,
      "loss/crossentropy": 2.8881205320358276,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2964523136615753,
      "step": 3614
    },
    {
      "epoch": 0.226,
      "grad_norm": 3.5,
      "grad_norm_var": 0.0517486572265625,
      "learning_rate": 0.0001,
      "loss": 8.1152,
      "loss/crossentropy": 2.3062459230422974,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2544550150632858,
      "step": 3616
    },
    {
      "epoch": 0.226125,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.050812784830729166,
      "learning_rate": 0.0001,
      "loss": 7.9502,
      "loss/crossentropy": 2.1567277312278748,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25140413641929626,
      "step": 3618
    },
    {
      "epoch": 0.22625,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.04439697265625,
      "learning_rate": 0.0001,
      "loss": 7.8556,
      "loss/crossentropy": 2.313141703605652,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24740488827228546,
      "step": 3620
    },
    {
      "epoch": 0.226375,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.04332275390625,
      "learning_rate": 0.0001,
      "loss": 8.0423,
      "loss/crossentropy": 2.328591823577881,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26608438789844513,
      "step": 3622
    },
    {
      "epoch": 0.2265,
      "grad_norm": 3.125,
      "grad_norm_var": 0.0403472900390625,
      "learning_rate": 0.0001,
      "loss": 8.0185,
      "loss/crossentropy": 2.4062294960021973,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25196973979473114,
      "step": 3624
    },
    {
      "epoch": 0.226625,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.03852437337239583,
      "learning_rate": 0.0001,
      "loss": 8.2194,
      "loss/crossentropy": 2.3326817750930786,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25500936061143875,
      "step": 3626
    },
    {
      "epoch": 0.22675,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.039876302083333336,
      "learning_rate": 0.0001,
      "loss": 8.0569,
      "loss/crossentropy": 2.482856869697571,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25555209815502167,
      "step": 3628
    },
    {
      "epoch": 0.226875,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.10530598958333333,
      "learning_rate": 0.0001,
      "loss": 8.2217,
      "loss/crossentropy": 2.392806649208069,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2713817358016968,
      "step": 3630
    },
    {
      "epoch": 0.227,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.0933746337890625,
      "learning_rate": 0.0001,
      "loss": 8.2214,
      "loss/crossentropy": 2.4297484159469604,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26915179938077927,
      "step": 3632
    },
    {
      "epoch": 0.227125,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.09046223958333334,
      "learning_rate": 0.0001,
      "loss": 7.892,
      "loss/crossentropy": 2.0668236017227173,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24264214932918549,
      "step": 3634
    },
    {
      "epoch": 0.22725,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.0952056884765625,
      "learning_rate": 0.0001,
      "loss": 7.6419,
      "loss/crossentropy": 2.2886130809783936,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2411990761756897,
      "step": 3636
    },
    {
      "epoch": 0.227375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.1007476806640625,
      "learning_rate": 0.0001,
      "loss": 7.8926,
      "loss/crossentropy": 2.4050437211990356,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.248046413064003,
      "step": 3638
    },
    {
      "epoch": 0.2275,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.0963775634765625,
      "learning_rate": 0.0001,
      "loss": 7.9465,
      "loss/crossentropy": 2.237168073654175,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2606538310647011,
      "step": 3640
    },
    {
      "epoch": 0.227625,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.09270426432291666,
      "learning_rate": 0.0001,
      "loss": 8.0894,
      "loss/crossentropy": 2.1759636998176575,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25069190561771393,
      "step": 3642
    },
    {
      "epoch": 0.22775,
      "grad_norm": 2.75,
      "grad_norm_var": 0.09306640625,
      "learning_rate": 0.0001,
      "loss": 7.8278,
      "loss/crossentropy": 2.33109974861145,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24534446746110916,
      "step": 3644
    },
    {
      "epoch": 0.227875,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.010319010416666666,
      "learning_rate": 0.0001,
      "loss": 7.9532,
      "loss/crossentropy": 2.209414005279541,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23883101344108582,
      "step": 3646
    },
    {
      "epoch": 0.228,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.009993489583333333,
      "learning_rate": 0.0001,
      "loss": 8.1503,
      "loss/crossentropy": 2.3681305646896362,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2580679953098297,
      "step": 3648
    },
    {
      "epoch": 0.228125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.011913045247395834,
      "learning_rate": 0.0001,
      "loss": 7.9858,
      "loss/crossentropy": 2.2001166343688965,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2430475950241089,
      "step": 3650
    },
    {
      "epoch": 0.22825,
      "grad_norm": 3.0,
      "grad_norm_var": 0.011800130208333334,
      "learning_rate": 0.0001,
      "loss": 7.9813,
      "loss/crossentropy": 2.2274385690689087,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23911988735198975,
      "step": 3652
    },
    {
      "epoch": 0.228375,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.010380045572916666,
      "learning_rate": 0.0001,
      "loss": 8.0302,
      "loss/crossentropy": 2.230368971824646,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24802518635988235,
      "step": 3654
    },
    {
      "epoch": 0.2285,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.012105305989583334,
      "learning_rate": 0.0001,
      "loss": 7.7304,
      "loss/crossentropy": 2.195298194885254,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23306956887245178,
      "step": 3656
    },
    {
      "epoch": 0.228625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.014061482747395833,
      "learning_rate": 0.0001,
      "loss": 8.0813,
      "loss/crossentropy": 2.1692891120910645,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24116355180740356,
      "step": 3658
    },
    {
      "epoch": 0.22875,
      "grad_norm": 3.125,
      "grad_norm_var": 0.017292277018229166,
      "learning_rate": 0.0001,
      "loss": 8.1278,
      "loss/crossentropy": 2.3059465885162354,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24064010381698608,
      "step": 3660
    },
    {
      "epoch": 0.228875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.018192545572916666,
      "learning_rate": 0.0001,
      "loss": 7.9778,
      "loss/crossentropy": 2.399103045463562,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23807506263256073,
      "step": 3662
    },
    {
      "epoch": 0.229,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.01832275390625,
      "learning_rate": 0.0001,
      "loss": 8.1474,
      "loss/crossentropy": 2.3898919820785522,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25592923909425735,
      "step": 3664
    },
    {
      "epoch": 0.229125,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.0172515869140625,
      "learning_rate": 0.0001,
      "loss": 7.8636,
      "loss/crossentropy": 2.329254150390625,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2536974400281906,
      "step": 3666
    },
    {
      "epoch": 0.22925,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.018648274739583335,
      "learning_rate": 0.0001,
      "loss": 7.8664,
      "loss/crossentropy": 2.1764838695526123,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2520892173051834,
      "step": 3668
    },
    {
      "epoch": 0.229375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.027025349934895835,
      "learning_rate": 0.0001,
      "loss": 7.9033,
      "loss/crossentropy": 2.326913833618164,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22852397710084915,
      "step": 3670
    },
    {
      "epoch": 0.2295,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.025251261393229165,
      "learning_rate": 0.0001,
      "loss": 8.1325,
      "loss/crossentropy": 2.5875282287597656,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25728514790534973,
      "step": 3672
    },
    {
      "epoch": 0.229625,
      "grad_norm": 3.125,
      "grad_norm_var": 0.025536092122395833,
      "learning_rate": 0.0001,
      "loss": 8.1942,
      "loss/crossentropy": 2.4060288667678833,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2609986811876297,
      "step": 3674
    },
    {
      "epoch": 0.22975,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.021361287434895834,
      "learning_rate": 0.0001,
      "loss": 7.9882,
      "loss/crossentropy": 2.400329113006592,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2339789718389511,
      "step": 3676
    },
    {
      "epoch": 0.229875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.021223958333333334,
      "learning_rate": 0.0001,
      "loss": 7.7641,
      "loss/crossentropy": 2.1139498949050903,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24976061284542084,
      "step": 3678
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.875,
      "grad_norm_var": 0.021142578125,
      "learning_rate": 0.0001,
      "loss": 8.0759,
      "loss/crossentropy": 2.3943647146224976,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2582573890686035,
      "step": 3680
    },
    {
      "epoch": 0.230125,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.02203369140625,
      "learning_rate": 0.0001,
      "loss": 8.1859,
      "loss/crossentropy": 2.6016229391098022,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2739368677139282,
      "step": 3682
    },
    {
      "epoch": 0.23025,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.020796712239583334,
      "learning_rate": 0.0001,
      "loss": 7.8159,
      "loss/crossentropy": 2.18959903717041,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24328485131263733,
      "step": 3684
    },
    {
      "epoch": 0.230375,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.017704264322916666,
      "learning_rate": 0.0001,
      "loss": 8.11,
      "loss/crossentropy": 2.5320764780044556,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24227013438940048,
      "step": 3686
    },
    {
      "epoch": 0.2305,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.018512980143229166,
      "learning_rate": 0.0001,
      "loss": 7.8237,
      "loss/crossentropy": 2.3462241888046265,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25317418575286865,
      "step": 3688
    },
    {
      "epoch": 0.230625,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.016243489583333333,
      "learning_rate": 0.0001,
      "loss": 7.8874,
      "loss/crossentropy": 2.1772103309631348,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2475140392780304,
      "step": 3690
    },
    {
      "epoch": 0.23075,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.0204254150390625,
      "learning_rate": 0.0001,
      "loss": 8.0884,
      "loss/crossentropy": 2.16398286819458,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26599203050136566,
      "step": 3692
    },
    {
      "epoch": 0.230875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.018648274739583335,
      "learning_rate": 0.0001,
      "loss": 7.8644,
      "loss/crossentropy": 2.2632850408554077,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24153126776218414,
      "step": 3694
    },
    {
      "epoch": 0.231,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.019066365559895833,
      "learning_rate": 0.0001,
      "loss": 8.0305,
      "loss/crossentropy": 2.3470261096954346,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24013527482748032,
      "step": 3696
    },
    {
      "epoch": 0.231125,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.018748982747395834,
      "learning_rate": 0.0001,
      "loss": 7.8235,
      "loss/crossentropy": 2.21561336517334,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2327084168791771,
      "step": 3698
    },
    {
      "epoch": 0.23125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.0171783447265625,
      "learning_rate": 0.0001,
      "loss": 7.9991,
      "loss/crossentropy": 2.2310367822647095,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.242506742477417,
      "step": 3700
    },
    {
      "epoch": 0.231375,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.016852823893229167,
      "learning_rate": 0.0001,
      "loss": 8.1388,
      "loss/crossentropy": 2.515184164047241,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2872355580329895,
      "step": 3702
    },
    {
      "epoch": 0.2315,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.019782511393229167,
      "learning_rate": 0.0001,
      "loss": 7.9631,
      "loss/crossentropy": 2.2909129858016968,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23802363872528076,
      "step": 3704
    },
    {
      "epoch": 0.231625,
      "grad_norm": 2.875,
      "grad_norm_var": 0.017671712239583335,
      "learning_rate": 0.0001,
      "loss": 7.8775,
      "loss/crossentropy": 2.387066602706909,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24512099474668503,
      "step": 3706
    },
    {
      "epoch": 0.23175,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.014404296875,
      "learning_rate": 0.0001,
      "loss": 7.8625,
      "loss/crossentropy": 2.254941940307617,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2513599842786789,
      "step": 3708
    },
    {
      "epoch": 0.231875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.013765462239583333,
      "learning_rate": 0.0001,
      "loss": 7.8971,
      "loss/crossentropy": 2.142080545425415,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2329133376479149,
      "step": 3710
    },
    {
      "epoch": 0.232,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.017878214518229168,
      "learning_rate": 0.0001,
      "loss": 7.7952,
      "loss/crossentropy": 2.3408135175704956,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.245710588991642,
      "step": 3712
    },
    {
      "epoch": 0.232125,
      "grad_norm": 2.75,
      "grad_norm_var": 0.016499837239583332,
      "learning_rate": 0.0001,
      "loss": 7.9523,
      "loss/crossentropy": 2.4113335609436035,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23740407824516296,
      "step": 3714
    },
    {
      "epoch": 0.23225,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.020637003580729167,
      "learning_rate": 0.0001,
      "loss": 8.2332,
      "loss/crossentropy": 2.397470474243164,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3087628036737442,
      "step": 3716
    },
    {
      "epoch": 0.232375,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.017769368489583333,
      "learning_rate": 0.0001,
      "loss": 8.0103,
      "loss/crossentropy": 2.3515301942825317,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24831266701221466,
      "step": 3718
    },
    {
      "epoch": 0.2325,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.014957682291666666,
      "learning_rate": 0.0001,
      "loss": 7.916,
      "loss/crossentropy": 2.222606897354126,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24274057149887085,
      "step": 3720
    },
    {
      "epoch": 0.232625,
      "grad_norm": 3.125,
      "grad_norm_var": 0.019331868489583334,
      "learning_rate": 0.0001,
      "loss": 8.1821,
      "loss/crossentropy": 2.3737378120422363,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24392034113407135,
      "step": 3722
    },
    {
      "epoch": 0.23275,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.026953125,
      "learning_rate": 0.0001,
      "loss": 8.0112,
      "loss/crossentropy": 2.5040173530578613,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26996733248233795,
      "step": 3724
    },
    {
      "epoch": 0.232875,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.028645833333333332,
      "learning_rate": 0.0001,
      "loss": 7.9624,
      "loss/crossentropy": 2.274856448173523,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26013311743736267,
      "step": 3726
    },
    {
      "epoch": 0.233,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.028172810872395832,
      "learning_rate": 0.0001,
      "loss": 7.9561,
      "loss/crossentropy": 2.2882769107818604,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23719671368598938,
      "step": 3728
    },
    {
      "epoch": 0.233125,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0279449462890625,
      "learning_rate": 0.0001,
      "loss": 7.9788,
      "loss/crossentropy": 2.222030520439148,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2667320519685745,
      "step": 3730
    },
    {
      "epoch": 0.23325,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.0249664306640625,
      "learning_rate": 0.0001,
      "loss": 7.8122,
      "loss/crossentropy": 2.127245843410492,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2510572522878647,
      "step": 3732
    },
    {
      "epoch": 0.233375,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.025081380208333334,
      "learning_rate": 0.0001,
      "loss": 7.8065,
      "loss/crossentropy": 2.412429094314575,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2435067892074585,
      "step": 3734
    },
    {
      "epoch": 0.2335,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.025406901041666666,
      "learning_rate": 0.0001,
      "loss": 7.9871,
      "loss/crossentropy": 2.1098079085350037,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28457003831863403,
      "step": 3736
    },
    {
      "epoch": 0.233625,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.027164713541666666,
      "learning_rate": 0.0001,
      "loss": 7.9466,
      "loss/crossentropy": 2.1928519010543823,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25453677773475647,
      "step": 3738
    },
    {
      "epoch": 0.23375,
      "grad_norm": 2.75,
      "grad_norm_var": 0.0246978759765625,
      "learning_rate": 0.0001,
      "loss": 8.0324,
      "loss/crossentropy": 2.5346169471740723,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2512079030275345,
      "step": 3740
    },
    {
      "epoch": 0.233875,
      "grad_norm": 2.75,
      "grad_norm_var": 0.025716145833333332,
      "learning_rate": 0.0001,
      "loss": 8.0987,
      "loss/crossentropy": 2.3410524129867554,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2596224248409271,
      "step": 3742
    },
    {
      "epoch": 0.234,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.022261555989583334,
      "learning_rate": 0.0001,
      "loss": 7.7984,
      "loss/crossentropy": 2.353347420692444,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26650838553905487,
      "step": 3744
    },
    {
      "epoch": 0.234125,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.025519816080729167,
      "learning_rate": 0.0001,
      "loss": 8.1373,
      "loss/crossentropy": 2.4095019102096558,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26190927624702454,
      "step": 3746
    },
    {
      "epoch": 0.23425,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.028937784830729167,
      "learning_rate": 0.0001,
      "loss": 7.6916,
      "loss/crossentropy": 2.0359702110290527,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2307998687028885,
      "step": 3748
    },
    {
      "epoch": 0.234375,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.028999837239583333,
      "learning_rate": 0.0001,
      "loss": 7.792,
      "loss/crossentropy": 2.168085813522339,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23495958745479584,
      "step": 3750
    },
    {
      "epoch": 0.2345,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.04117431640625,
      "learning_rate": 0.0001,
      "loss": 7.9602,
      "loss/crossentropy": 2.026396870613098,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2430543154478073,
      "step": 3752
    },
    {
      "epoch": 0.234625,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.037694295247395836,
      "learning_rate": 0.0001,
      "loss": 7.9993,
      "loss/crossentropy": 2.4510369300842285,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27556227147579193,
      "step": 3754
    },
    {
      "epoch": 0.23475,
      "grad_norm": 2.875,
      "grad_norm_var": 0.03394266764322917,
      "learning_rate": 0.0001,
      "loss": 7.9829,
      "loss/crossentropy": 2.0846810340881348,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.235876202583313,
      "step": 3756
    },
    {
      "epoch": 0.234875,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.031266276041666666,
      "learning_rate": 0.0001,
      "loss": 7.8668,
      "loss/crossentropy": 2.279644012451172,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.250064454972744,
      "step": 3758
    },
    {
      "epoch": 0.235,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0311431884765625,
      "learning_rate": 0.0001,
      "loss": 7.9483,
      "loss/crossentropy": 2.1563061475753784,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.258032388985157,
      "step": 3760
    },
    {
      "epoch": 0.235125,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.031538899739583334,
      "learning_rate": 0.0001,
      "loss": 7.8565,
      "loss/crossentropy": 2.071030616760254,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23593812435865402,
      "step": 3762
    },
    {
      "epoch": 0.23525,
      "grad_norm": 3.0,
      "grad_norm_var": 0.027887980143229168,
      "learning_rate": 0.0001,
      "loss": 8.0189,
      "loss/crossentropy": 2.3263286352157593,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25163403153419495,
      "step": 3764
    },
    {
      "epoch": 0.235375,
      "grad_norm": 2.75,
      "grad_norm_var": 0.02740478515625,
      "learning_rate": 0.0001,
      "loss": 7.7014,
      "loss/crossentropy": 2.456760048866272,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23420259356498718,
      "step": 3766
    },
    {
      "epoch": 0.2355,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.012044270833333334,
      "learning_rate": 0.0001,
      "loss": 8.0371,
      "loss/crossentropy": 2.369943618774414,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2603626102209091,
      "step": 3768
    },
    {
      "epoch": 0.235625,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.010106404622395834,
      "learning_rate": 0.0001,
      "loss": 8.1286,
      "loss/crossentropy": 2.2771997451782227,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2527083158493042,
      "step": 3770
    },
    {
      "epoch": 0.23575,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0128326416015625,
      "learning_rate": 0.0001,
      "loss": 8.0419,
      "loss/crossentropy": 2.3018823862075806,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2760903537273407,
      "step": 3772
    },
    {
      "epoch": 0.235875,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.0157135009765625,
      "learning_rate": 0.0001,
      "loss": 7.7634,
      "loss/crossentropy": 2.147810459136963,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2414494976401329,
      "step": 3774
    },
    {
      "epoch": 0.236,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.024267578125,
      "learning_rate": 0.0001,
      "loss": 8.0522,
      "loss/crossentropy": 2.5797489881515503,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25508859008550644,
      "step": 3776
    },
    {
      "epoch": 0.236125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.02109375,
      "learning_rate": 0.0001,
      "loss": 8.0457,
      "loss/crossentropy": 2.334934711456299,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24477149546146393,
      "step": 3778
    },
    {
      "epoch": 0.23625,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.0207672119140625,
      "learning_rate": 0.0001,
      "loss": 7.7548,
      "loss/crossentropy": 2.496270179748535,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25811365991830826,
      "step": 3780
    },
    {
      "epoch": 0.236375,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.019074503580729166,
      "learning_rate": 0.0001,
      "loss": 8.0027,
      "loss/crossentropy": 2.565447449684143,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2610893249511719,
      "step": 3782
    },
    {
      "epoch": 0.2365,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.022044881184895834,
      "learning_rate": 0.0001,
      "loss": 8.0034,
      "loss/crossentropy": 2.288913130760193,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24560889601707458,
      "step": 3784
    },
    {
      "epoch": 0.236625,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.0223297119140625,
      "learning_rate": 0.0001,
      "loss": 7.9241,
      "loss/crossentropy": 2.4364962577819824,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26674768328666687,
      "step": 3786
    },
    {
      "epoch": 0.23675,
      "grad_norm": 2.875,
      "grad_norm_var": 0.018504842122395834,
      "learning_rate": 0.0001,
      "loss": 8.1114,
      "loss/crossentropy": 2.3721729516983032,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2508590742945671,
      "step": 3788
    },
    {
      "epoch": 0.236875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.014989217122395834,
      "learning_rate": 0.0001,
      "loss": 8.1629,
      "loss/crossentropy": 2.441157817840576,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2336357906460762,
      "step": 3790
    },
    {
      "epoch": 0.237,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.0092437744140625,
      "learning_rate": 0.0001,
      "loss": 8.0601,
      "loss/crossentropy": 2.3760870695114136,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24517250061035156,
      "step": 3792
    },
    {
      "epoch": 0.237125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.009635416666666667,
      "learning_rate": 0.0001,
      "loss": 7.7626,
      "loss/crossentropy": 2.254652261734009,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23266702890396118,
      "step": 3794
    },
    {
      "epoch": 0.23725,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.010985310872395833,
      "learning_rate": 0.0001,
      "loss": 7.9964,
      "loss/crossentropy": 2.3335236310958862,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24718395620584488,
      "step": 3796
    },
    {
      "epoch": 0.237375,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.010505167643229167,
      "learning_rate": 0.0001,
      "loss": 7.9836,
      "loss/crossentropy": 2.146742820739746,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23980651795864105,
      "step": 3798
    },
    {
      "epoch": 0.2375,
      "grad_norm": 2.75,
      "grad_norm_var": 0.0105133056640625,
      "learning_rate": 0.0001,
      "loss": 8.0158,
      "loss/crossentropy": 2.413538336753845,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2546129822731018,
      "step": 3800
    },
    {
      "epoch": 0.237625,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.010221354166666667,
      "learning_rate": 0.0001,
      "loss": 7.8914,
      "loss/crossentropy": 2.3957451581954956,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2576509118080139,
      "step": 3802
    },
    {
      "epoch": 0.23775,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.0312652587890625,
      "learning_rate": 0.0001,
      "loss": 7.8871,
      "loss/crossentropy": 2.288939356803894,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2728182524442673,
      "step": 3804
    },
    {
      "epoch": 0.237875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.029573567708333335,
      "learning_rate": 0.0001,
      "loss": 7.9958,
      "loss/crossentropy": 2.3543388843536377,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25791068375110626,
      "step": 3806
    },
    {
      "epoch": 0.238,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.0307769775390625,
      "learning_rate": 0.0001,
      "loss": 8.0146,
      "loss/crossentropy": 2.452141761779785,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23337870091199875,
      "step": 3808
    },
    {
      "epoch": 0.238125,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.03359375,
      "learning_rate": 0.0001,
      "loss": 7.8997,
      "loss/crossentropy": 2.3330483436584473,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25078994035720825,
      "step": 3810
    },
    {
      "epoch": 0.23825,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.03251851399739583,
      "learning_rate": 0.0001,
      "loss": 7.8959,
      "loss/crossentropy": 2.0975863933563232,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2229529693722725,
      "step": 3812
    },
    {
      "epoch": 0.238375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.03323567708333333,
      "learning_rate": 0.0001,
      "loss": 7.816,
      "loss/crossentropy": 2.0993716716766357,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24615749716758728,
      "step": 3814
    },
    {
      "epoch": 0.2385,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.037984212239583336,
      "learning_rate": 0.0001,
      "loss": 8.0614,
      "loss/crossentropy": 2.336126208305359,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24437396228313446,
      "step": 3816
    },
    {
      "epoch": 0.238625,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.039948527018229166,
      "learning_rate": 0.0001,
      "loss": 7.9033,
      "loss/crossentropy": 2.3778291940689087,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2515903264284134,
      "step": 3818
    },
    {
      "epoch": 0.23875,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.019136555989583335,
      "learning_rate": 0.0001,
      "loss": 7.8767,
      "loss/crossentropy": 2.2030457258224487,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2293495386838913,
      "step": 3820
    },
    {
      "epoch": 0.238875,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.02066650390625,
      "learning_rate": 0.0001,
      "loss": 7.8254,
      "loss/crossentropy": 2.393824577331543,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23858655989170074,
      "step": 3822
    },
    {
      "epoch": 0.239,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.019579060872395835,
      "learning_rate": 0.0001,
      "loss": 7.7794,
      "loss/crossentropy": 2.202533006668091,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2381155639886856,
      "step": 3824
    },
    {
      "epoch": 0.239125,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.017513020833333334,
      "learning_rate": 0.0001,
      "loss": 7.8826,
      "loss/crossentropy": 2.2683571577072144,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24590277671813965,
      "step": 3826
    },
    {
      "epoch": 0.23925,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.0197662353515625,
      "learning_rate": 0.0001,
      "loss": 7.9919,
      "loss/crossentropy": 2.3534783124923706,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2405027374625206,
      "step": 3828
    },
    {
      "epoch": 0.239375,
      "grad_norm": 2.875,
      "grad_norm_var": 0.020406087239583332,
      "learning_rate": 0.0001,
      "loss": 8.1266,
      "loss/crossentropy": 2.3716864585876465,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2505777180194855,
      "step": 3830
    },
    {
      "epoch": 0.2395,
      "grad_norm": 3.0,
      "grad_norm_var": 0.015751139322916666,
      "learning_rate": 0.0001,
      "loss": 7.947,
      "loss/crossentropy": 2.482056736946106,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2586553245782852,
      "step": 3832
    },
    {
      "epoch": 0.239625,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.016730753580729167,
      "learning_rate": 0.0001,
      "loss": 8.0148,
      "loss/crossentropy": 2.323951005935669,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24310573935508728,
      "step": 3834
    },
    {
      "epoch": 0.23975,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.027425130208333332,
      "learning_rate": 0.0001,
      "loss": 8.0583,
      "loss/crossentropy": 2.2353726625442505,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2633824050426483,
      "step": 3836
    },
    {
      "epoch": 0.239875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.02568359375,
      "learning_rate": 0.0001,
      "loss": 7.9074,
      "loss/crossentropy": 2.1682406663894653,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25316306948661804,
      "step": 3838
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.0255767822265625,
      "learning_rate": 0.0001,
      "loss": 7.76,
      "loss/crossentropy": 2.3561817407608032,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24703025817871094,
      "step": 3840
    },
    {
      "epoch": 0.240125,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.023346964518229166,
      "learning_rate": 0.0001,
      "loss": 7.8848,
      "loss/crossentropy": 2.1207789182662964,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24431215226650238,
      "step": 3842
    },
    {
      "epoch": 0.24025,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0224761962890625,
      "learning_rate": 0.0001,
      "loss": 7.8809,
      "loss/crossentropy": 2.177114486694336,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24755840003490448,
      "step": 3844
    },
    {
      "epoch": 0.240375,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.02340087890625,
      "learning_rate": 0.0001,
      "loss": 7.8049,
      "loss/crossentropy": 2.241698145866394,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23916028439998627,
      "step": 3846
    },
    {
      "epoch": 0.2405,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.023209635416666666,
      "learning_rate": 0.0001,
      "loss": 8.1238,
      "loss/crossentropy": 2.3270636796951294,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2830345705151558,
      "step": 3848
    },
    {
      "epoch": 0.240625,
      "grad_norm": 2.75,
      "grad_norm_var": 0.02125244140625,
      "learning_rate": 0.0001,
      "loss": 7.9985,
      "loss/crossentropy": 2.306910753250122,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24260255694389343,
      "step": 3850
    },
    {
      "epoch": 0.24075,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.0091461181640625,
      "learning_rate": 0.0001,
      "loss": 7.898,
      "loss/crossentropy": 2.0596543550491333,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23719244450330734,
      "step": 3852
    },
    {
      "epoch": 0.240875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.009300740559895833,
      "learning_rate": 0.0001,
      "loss": 7.8158,
      "loss/crossentropy": 2.3392993211746216,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25461700558662415,
      "step": 3854
    },
    {
      "epoch": 0.241,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.011649576822916667,
      "learning_rate": 0.0001,
      "loss": 7.9635,
      "loss/crossentropy": 2.7126669883728027,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2701471447944641,
      "step": 3856
    },
    {
      "epoch": 0.241125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.01881103515625,
      "learning_rate": 0.0001,
      "loss": 7.8456,
      "loss/crossentropy": 2.2381919622421265,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2312241867184639,
      "step": 3858
    },
    {
      "epoch": 0.24125,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.019188435872395833,
      "learning_rate": 0.0001,
      "loss": 7.8947,
      "loss/crossentropy": 2.3995821475982666,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24393048137426376,
      "step": 3860
    },
    {
      "epoch": 0.241375,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0181060791015625,
      "learning_rate": 0.0001,
      "loss": 7.9092,
      "loss/crossentropy": 2.254945397377014,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24428366869688034,
      "step": 3862
    },
    {
      "epoch": 0.2415,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0165924072265625,
      "learning_rate": 0.0001,
      "loss": 7.8811,
      "loss/crossentropy": 2.392805576324463,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24890445917844772,
      "step": 3864
    },
    {
      "epoch": 0.241625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.016923014322916666,
      "learning_rate": 0.0001,
      "loss": 8.0593,
      "loss/crossentropy": 2.224582314491272,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2585388273000717,
      "step": 3866
    },
    {
      "epoch": 0.24175,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.015851847330729165,
      "learning_rate": 0.0001,
      "loss": 8.0158,
      "loss/crossentropy": 2.367936611175537,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23479987680912018,
      "step": 3868
    },
    {
      "epoch": 0.241875,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.0171295166015625,
      "learning_rate": 0.0001,
      "loss": 7.9695,
      "loss/crossentropy": 2.394118547439575,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2584435045719147,
      "step": 3870
    },
    {
      "epoch": 0.242,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.0255859375,
      "learning_rate": 0.0001,
      "loss": 8.2134,
      "loss/crossentropy": 2.4198135137557983,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2768760621547699,
      "step": 3872
    },
    {
      "epoch": 0.242125,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.019270833333333334,
      "learning_rate": 0.0001,
      "loss": 7.9406,
      "loss/crossentropy": 2.373674988746643,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24084321409463882,
      "step": 3874
    },
    {
      "epoch": 0.24225,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.017186482747395832,
      "learning_rate": 0.0001,
      "loss": 8.0494,
      "loss/crossentropy": 2.1835745573043823,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23795650899410248,
      "step": 3876
    },
    {
      "epoch": 0.242375,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.020699055989583333,
      "learning_rate": 0.0001,
      "loss": 8.1841,
      "loss/crossentropy": 2.590933918952942,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2828524559736252,
      "step": 3878
    },
    {
      "epoch": 0.2425,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.019820149739583334,
      "learning_rate": 0.0001,
      "loss": 7.9971,
      "loss/crossentropy": 2.4417784214019775,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2358105331659317,
      "step": 3880
    },
    {
      "epoch": 0.242625,
      "grad_norm": 2.875,
      "grad_norm_var": 0.0228515625,
      "learning_rate": 0.0001,
      "loss": 7.927,
      "loss/crossentropy": 2.514025568962097,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25648288428783417,
      "step": 3882
    },
    {
      "epoch": 0.24275,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.022574869791666667,
      "learning_rate": 0.0001,
      "loss": 8.0021,
      "loss/crossentropy": 2.2680565118789673,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24664485454559326,
      "step": 3884
    },
    {
      "epoch": 0.242875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0239898681640625,
      "learning_rate": 0.0001,
      "loss": 7.648,
      "loss/crossentropy": 2.0859988927841187,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2396468073129654,
      "step": 3886
    },
    {
      "epoch": 0.243,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.016022745768229166,
      "learning_rate": 0.0001,
      "loss": 7.9453,
      "loss/crossentropy": 2.346192240715027,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2454293891787529,
      "step": 3888
    },
    {
      "epoch": 0.243125,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.016630045572916665,
      "learning_rate": 0.0001,
      "loss": 7.8395,
      "loss/crossentropy": 2.2563360929489136,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25612016022205353,
      "step": 3890
    },
    {
      "epoch": 0.24325,
      "grad_norm": 3.0,
      "grad_norm_var": 0.017838541666666666,
      "learning_rate": 0.0001,
      "loss": 7.9441,
      "loss/crossentropy": 2.5668708086013794,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27752047777175903,
      "step": 3892
    },
    {
      "epoch": 0.243375,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.013785807291666667,
      "learning_rate": 0.0001,
      "loss": 7.7886,
      "loss/crossentropy": 2.1933363676071167,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23820041120052338,
      "step": 3894
    },
    {
      "epoch": 0.2435,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.010480753580729167,
      "learning_rate": 0.0001,
      "loss": 7.9344,
      "loss/crossentropy": 2.3005311489105225,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24230662733316422,
      "step": 3896
    },
    {
      "epoch": 0.243625,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.009012858072916666,
      "learning_rate": 0.0001,
      "loss": 7.9342,
      "loss/crossentropy": 2.390279769897461,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24232257902622223,
      "step": 3898
    },
    {
      "epoch": 0.24375,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.007624308268229167,
      "learning_rate": 0.0001,
      "loss": 7.9865,
      "loss/crossentropy": 2.3709793090820312,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27256976068019867,
      "step": 3900
    },
    {
      "epoch": 0.243875,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.008885701497395834,
      "learning_rate": 0.0001,
      "loss": 7.7007,
      "loss/crossentropy": 2.0079593658447266,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.223800927400589,
      "step": 3902
    },
    {
      "epoch": 0.244,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.010774739583333333,
      "learning_rate": 0.0001,
      "loss": 8.0776,
      "loss/crossentropy": 2.421340227127075,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25970883667469025,
      "step": 3904
    },
    {
      "epoch": 0.244125,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.011644490559895833,
      "learning_rate": 0.0001,
      "loss": 7.944,
      "loss/crossentropy": 2.234217405319214,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24383071064949036,
      "step": 3906
    },
    {
      "epoch": 0.24425,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.010749308268229167,
      "learning_rate": 0.0001,
      "loss": 8.063,
      "loss/crossentropy": 2.5897743701934814,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25560788810253143,
      "step": 3908
    },
    {
      "epoch": 0.244375,
      "grad_norm": 3.25,
      "grad_norm_var": 0.09846598307291667,
      "learning_rate": 0.0001,
      "loss": 7.9418,
      "loss/crossentropy": 2.1307941675186157,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26282523572444916,
      "step": 3910
    },
    {
      "epoch": 0.2445,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0960357666015625,
      "learning_rate": 0.0001,
      "loss": 8.0311,
      "loss/crossentropy": 2.1970854997634888,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24500936269760132,
      "step": 3912
    },
    {
      "epoch": 0.244625,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.09399312337239583,
      "learning_rate": 0.0001,
      "loss": 8.0802,
      "loss/crossentropy": 2.384564757347107,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26147788763046265,
      "step": 3914
    },
    {
      "epoch": 0.24475,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.09719645182291667,
      "learning_rate": 0.0001,
      "loss": 7.9915,
      "loss/crossentropy": 2.3258496522903442,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24284511804580688,
      "step": 3916
    },
    {
      "epoch": 0.244875,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.09752197265625,
      "learning_rate": 0.0001,
      "loss": 7.7315,
      "loss/crossentropy": 2.225629687309265,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25035693496465683,
      "step": 3918
    },
    {
      "epoch": 0.245,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.09841206868489584,
      "learning_rate": 0.0001,
      "loss": 7.9674,
      "loss/crossentropy": 2.0987013578414917,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23937055468559265,
      "step": 3920
    },
    {
      "epoch": 0.245125,
      "grad_norm": 2.875,
      "grad_norm_var": 0.09804280598958333,
      "learning_rate": 0.0001,
      "loss": 8.0213,
      "loss/crossentropy": 2.294238328933716,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25349240005016327,
      "step": 3922
    },
    {
      "epoch": 0.24525,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.10007222493489583,
      "learning_rate": 0.0001,
      "loss": 8.0705,
      "loss/crossentropy": 2.1828103065490723,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25784528255462646,
      "step": 3924
    },
    {
      "epoch": 0.245375,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0164703369140625,
      "learning_rate": 0.0001,
      "loss": 7.986,
      "loss/crossentropy": 2.023577570915222,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24002478271722794,
      "step": 3926
    },
    {
      "epoch": 0.2455,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.01533203125,
      "learning_rate": 0.0001,
      "loss": 7.9938,
      "loss/crossentropy": 2.319468140602112,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2421136051416397,
      "step": 3928
    },
    {
      "epoch": 0.245625,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.020406087239583332,
      "learning_rate": 0.0001,
      "loss": 7.8347,
      "loss/crossentropy": 2.2601557970046997,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2663475573062897,
      "step": 3930
    },
    {
      "epoch": 0.24575,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.025178019205729166,
      "learning_rate": 0.0001,
      "loss": 8.3085,
      "loss/crossentropy": 2.735992908477783,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2462017834186554,
      "step": 3932
    },
    {
      "epoch": 0.245875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.019774373372395834,
      "learning_rate": 0.0001,
      "loss": 7.9586,
      "loss/crossentropy": 2.361487627029419,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24462847411632538,
      "step": 3934
    },
    {
      "epoch": 0.246,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.031050618489583334,
      "learning_rate": 0.0001,
      "loss": 7.8382,
      "loss/crossentropy": 2.1037662029266357,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24985255300998688,
      "step": 3936
    },
    {
      "epoch": 0.246125,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.03432515462239583,
      "learning_rate": 0.0001,
      "loss": 7.9081,
      "loss/crossentropy": 2.383851647377014,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23125454783439636,
      "step": 3938
    },
    {
      "epoch": 0.24625,
      "grad_norm": 3.0,
      "grad_norm_var": 0.03535054524739583,
      "learning_rate": 0.0001,
      "loss": 8.0179,
      "loss/crossentropy": 2.383346676826477,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2499464601278305,
      "step": 3940
    },
    {
      "epoch": 0.246375,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0344146728515625,
      "learning_rate": 0.0001,
      "loss": 7.9388,
      "loss/crossentropy": 2.221991539001465,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25429509580135345,
      "step": 3942
    },
    {
      "epoch": 0.2465,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.035074869791666664,
      "learning_rate": 0.0001,
      "loss": 7.7599,
      "loss/crossentropy": 2.186113476753235,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22729599475860596,
      "step": 3944
    },
    {
      "epoch": 0.246625,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.030223592122395834,
      "learning_rate": 0.0001,
      "loss": 7.8738,
      "loss/crossentropy": 2.5532344579696655,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2494053915143013,
      "step": 3946
    },
    {
      "epoch": 0.24675,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.02056884765625,
      "learning_rate": 0.0001,
      "loss": 7.9992,
      "loss/crossentropy": 2.3294448852539062,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24838833510875702,
      "step": 3948
    },
    {
      "epoch": 0.246875,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.02877197265625,
      "learning_rate": 0.0001,
      "loss": 7.8963,
      "loss/crossentropy": 2.1606216430664062,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25755712389945984,
      "step": 3950
    },
    {
      "epoch": 0.247,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.0237457275390625,
      "learning_rate": 0.0001,
      "loss": 7.9671,
      "loss/crossentropy": 2.2953662872314453,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2478877156972885,
      "step": 3952
    },
    {
      "epoch": 0.247125,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.022272745768229168,
      "learning_rate": 0.0001,
      "loss": 8.0112,
      "loss/crossentropy": 2.187902808189392,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2752064913511276,
      "step": 3954
    },
    {
      "epoch": 0.24725,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.021805826822916666,
      "learning_rate": 0.0001,
      "loss": 7.9066,
      "loss/crossentropy": 2.289653182029724,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24460161477327347,
      "step": 3956
    },
    {
      "epoch": 0.247375,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.021711222330729165,
      "learning_rate": 0.0001,
      "loss": 7.7137,
      "loss/crossentropy": 1.9959831833839417,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22675126791000366,
      "step": 3958
    },
    {
      "epoch": 0.2475,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.023502604166666666,
      "learning_rate": 0.0001,
      "loss": 8.0294,
      "loss/crossentropy": 2.286497712135315,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2442842796444893,
      "step": 3960
    },
    {
      "epoch": 0.247625,
      "grad_norm": 2.75,
      "grad_norm_var": 0.024137369791666665,
      "learning_rate": 0.0001,
      "loss": 7.9915,
      "loss/crossentropy": 2.2502633333206177,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2236596718430519,
      "step": 3962
    },
    {
      "epoch": 0.24775,
      "grad_norm": 2.75,
      "grad_norm_var": 0.025169881184895833,
      "learning_rate": 0.0001,
      "loss": 7.9153,
      "loss/crossentropy": 2.2781342267990112,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24574154615402222,
      "step": 3964
    },
    {
      "epoch": 0.247875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.013765462239583333,
      "learning_rate": 0.0001,
      "loss": 7.8426,
      "loss/crossentropy": 2.119445323944092,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23813114315271378,
      "step": 3966
    },
    {
      "epoch": 0.248,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.013841756184895833,
      "learning_rate": 0.0001,
      "loss": 8.0836,
      "loss/crossentropy": 2.188897430896759,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2473863735795021,
      "step": 3968
    },
    {
      "epoch": 0.248125,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0142486572265625,
      "learning_rate": 0.0001,
      "loss": 7.9057,
      "loss/crossentropy": 2.279172897338867,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26379649341106415,
      "step": 3970
    },
    {
      "epoch": 0.24825,
      "grad_norm": 2.875,
      "grad_norm_var": 0.012116495768229167,
      "learning_rate": 0.0001,
      "loss": 7.7416,
      "loss/crossentropy": 2.3670825958251953,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22166435420513153,
      "step": 3972
    },
    {
      "epoch": 0.248375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.014484659830729166,
      "learning_rate": 0.0001,
      "loss": 7.9191,
      "loss/crossentropy": 2.4747731685638428,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24381603300571442,
      "step": 3974
    },
    {
      "epoch": 0.2485,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.0111968994140625,
      "learning_rate": 0.0001,
      "loss": 7.9802,
      "loss/crossentropy": 2.2822595834732056,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24216417968273163,
      "step": 3976
    },
    {
      "epoch": 0.248625,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.013016764322916667,
      "learning_rate": 0.0001,
      "loss": 7.855,
      "loss/crossentropy": 2.4248218536376953,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2518390789628029,
      "step": 3978
    },
    {
      "epoch": 0.24875,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.012300618489583333,
      "learning_rate": 0.0001,
      "loss": 7.9805,
      "loss/crossentropy": 2.379852533340454,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2360517606139183,
      "step": 3980
    },
    {
      "epoch": 0.248875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.010431925455729166,
      "learning_rate": 0.0001,
      "loss": 7.9083,
      "loss/crossentropy": 2.3196099996566772,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23856279253959656,
      "step": 3982
    },
    {
      "epoch": 0.249,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.011432902018229166,
      "learning_rate": 0.0001,
      "loss": 7.898,
      "loss/crossentropy": 2.286087989807129,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24119911342859268,
      "step": 3984
    },
    {
      "epoch": 0.249125,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.010904947916666666,
      "learning_rate": 0.0001,
      "loss": 7.9097,
      "loss/crossentropy": 2.2220507860183716,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2348850816488266,
      "step": 3986
    },
    {
      "epoch": 0.24925,
      "grad_norm": 2.875,
      "grad_norm_var": 0.010933430989583333,
      "learning_rate": 0.0001,
      "loss": 8.1498,
      "loss/crossentropy": 2.376457691192627,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2478000372648239,
      "step": 3988
    },
    {
      "epoch": 0.249375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.008552042643229167,
      "learning_rate": 0.0001,
      "loss": 7.9849,
      "loss/crossentropy": 2.367288827896118,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25519511103630066,
      "step": 3990
    },
    {
      "epoch": 0.2495,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.012495930989583333,
      "learning_rate": 0.0001,
      "loss": 8.0479,
      "loss/crossentropy": 2.317150592803955,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25810791552066803,
      "step": 3992
    },
    {
      "epoch": 0.249625,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.01011962890625,
      "learning_rate": 0.0001,
      "loss": 7.8396,
      "loss/crossentropy": 2.1635915637016296,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2583113983273506,
      "step": 3994
    },
    {
      "epoch": 0.24975,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.013451131184895833,
      "learning_rate": 0.0001,
      "loss": 7.8905,
      "loss/crossentropy": 2.036882519721985,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23229141533374786,
      "step": 3996
    },
    {
      "epoch": 0.249875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.01529541015625,
      "learning_rate": 0.0001,
      "loss": 7.9271,
      "loss/crossentropy": 2.4220268726348877,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2348419427871704,
      "step": 3998
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.75,
      "grad_norm_var": 0.013655598958333333,
      "learning_rate": 0.0001,
      "loss": 7.6323,
      "loss/crossentropy": 2.0106801986694336,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2393062487244606,
      "step": 4000
    }
  ],
  "logging_steps": 2,
  "max_steps": 16000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 4000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4.16590621310976e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}