{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.5,
  "eval_steps": 2000,
  "global_step": 8000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.000125,
      "grad_norm": 384.0,
      "learning_rate": 1.18e-05,
      "loss": 99.3112,
      "loss/crossentropy": 9.301286220550537,
      "loss/hidden": 16.5625,
      "loss/jsd": 0.0,
      "loss/logits": 7.171189308166504,
      "step": 2
    },
    {
      "epoch": 0.00025,
      "grad_norm": 388.0,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 98.5376,
      "loss/crossentropy": 9.283345699310303,
      "loss/hidden": 16.5625,
      "loss/jsd": 0.0,
      "loss/logits": 7.322719573974609,
      "step": 4
    },
    {
      "epoch": 0.000375,
      "grad_norm": 380.0,
      "learning_rate": 1.54e-05,
      "loss": 98.4698,
      "loss/crossentropy": 9.26666784286499,
      "loss/hidden": 16.625,
      "loss/jsd": 0.0,
      "loss/logits": 7.094146490097046,
      "step": 6
    },
    {
      "epoch": 0.0005,
      "grad_norm": 187.0,
      "learning_rate": 1.72e-05,
      "loss": 95.8811,
      "loss/crossentropy": 9.060422420501709,
      "loss/hidden": 16.5,
      "loss/jsd": 0.0,
      "loss/logits": 6.9519524574279785,
      "step": 8
    },
    {
      "epoch": 0.000625,
      "grad_norm": 158.0,
      "learning_rate": 1.9e-05,
      "loss": 91.1537,
      "loss/crossentropy": 8.855913162231445,
      "loss/hidden": 16.375,
      "loss/jsd": 0.0,
      "loss/logits": 6.698125123977661,
      "step": 10
    },
    {
      "epoch": 0.00075,
      "grad_norm": 135.0,
      "learning_rate": 2.0800000000000004e-05,
      "loss": 89.0469,
      "loss/crossentropy": 8.479426860809326,
      "loss/hidden": 16.3125,
      "loss/jsd": 0.0,
      "loss/logits": 6.1546266078948975,
      "step": 12
    },
    {
      "epoch": 0.000875,
      "grad_norm": 119.0,
      "learning_rate": 2.2600000000000004e-05,
      "loss": 87.3701,
      "loss/crossentropy": 8.417439937591553,
      "loss/hidden": 16.25,
      "loss/jsd": 0.0,
      "loss/logits": 6.330978155136108,
      "step": 14
    },
    {
      "epoch": 0.001,
      "grad_norm": 98.0,
      "grad_norm_var": 15809.7625,
      "learning_rate": 2.4400000000000004e-05,
      "loss": 81.7839,
      "loss/crossentropy": 7.888103723526001,
      "loss/hidden": 15.8125,
      "loss/jsd": 0.0,
      "loss/logits": 5.809406042098999,
      "step": 16
    },
    {
      "epoch": 0.001125,
      "grad_norm": 278.0,
      "grad_norm_var": 12072.916666666666,
      "learning_rate": 2.6200000000000003e-05,
      "loss": 83.0321,
      "loss/crossentropy": 7.949460506439209,
      "loss/hidden": 15.34375,
      "loss/jsd": 0.0,
      "loss/logits": 6.00595760345459,
      "step": 18
    },
    {
      "epoch": 0.00125,
      "grad_norm": 67.5,
      "grad_norm_var": 8976.948958333332,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 79.5947,
      "loss/crossentropy": 7.64544939994812,
      "loss/hidden": 15.25,
      "loss/jsd": 0.0,
      "loss/logits": 5.5388875007629395,
      "step": 20
    },
    {
      "epoch": 0.001375,
      "grad_norm": 38.5,
      "grad_norm_var": 4950.315625,
      "learning_rate": 2.9800000000000006e-05,
      "loss": 74.6424,
      "loss/crossentropy": 7.209100246429443,
      "loss/hidden": 15.15625,
      "loss/jsd": 0.0,
      "loss/logits": 5.076019763946533,
      "step": 22
    },
    {
      "epoch": 0.0015,
      "grad_norm": 54.5,
      "grad_norm_var": 4140.295833333334,
      "learning_rate": 3.16e-05,
      "loss": 71.7249,
      "loss/crossentropy": 7.1052405834198,
      "loss/hidden": 15.0,
      "loss/jsd": 0.0,
      "loss/logits": 5.032779216766357,
      "step": 24
    },
    {
      "epoch": 0.001625,
      "grad_norm": 90.5,
      "grad_norm_var": 3923.795833333333,
      "learning_rate": 3.3400000000000005e-05,
      "loss": 69.0909,
      "loss/crossentropy": 6.593599557876587,
      "loss/hidden": 14.9375,
      "loss/jsd": 0.0,
      "loss/logits": 4.861028671264648,
      "step": 26
    },
    {
      "epoch": 0.00175,
      "grad_norm": 49.0,
      "grad_norm_var": 4052.4239583333333,
      "learning_rate": 3.520000000000001e-05,
      "loss": 64.7694,
      "loss/crossentropy": 6.363184213638306,
      "loss/hidden": 14.59375,
      "loss/jsd": 0.0,
      "loss/logits": 4.430697441101074,
      "step": 28
    },
    {
      "epoch": 0.001875,
      "grad_norm": 47.0,
      "grad_norm_var": 4244.118489583333,
      "learning_rate": 3.7e-05,
      "loss": 59.3223,
      "loss/crossentropy": 5.989596843719482,
      "loss/hidden": 13.84375,
      "loss/jsd": 0.0,
      "loss/logits": 4.165619850158691,
      "step": 30
    },
    {
      "epoch": 0.002,
      "grad_norm": 71.0,
      "grad_norm_var": 4305.730989583333,
      "learning_rate": 3.88e-05,
      "loss": 55.1302,
      "loss/crossentropy": 5.726909637451172,
      "loss/hidden": 13.53125,
      "loss/jsd": 0.0,
      "loss/logits": 3.7759565114974976,
      "step": 32
    },
    {
      "epoch": 0.002125,
      "grad_norm": 60.0,
      "grad_norm_var": 934.0955729166667,
      "learning_rate": 4.0600000000000004e-05,
      "loss": 50.1945,
      "loss/crossentropy": 5.208499431610107,
      "loss/hidden": 13.125,
      "loss/jsd": 0.0,
      "loss/logits": 3.081121802330017,
      "step": 34
    },
    {
      "epoch": 0.00225,
      "grad_norm": 46.75,
      "grad_norm_var": 266.72083333333336,
      "learning_rate": 4.240000000000001e-05,
      "loss": 46.3994,
      "loss/crossentropy": 4.913021564483643,
      "loss/hidden": 12.375,
      "loss/jsd": 0.0,
      "loss/logits": 2.866178512573242,
      "step": 36
    },
    {
      "epoch": 0.002375,
      "grad_norm": 51.75,
      "grad_norm_var": 237.22395833333334,
      "learning_rate": 4.420000000000001e-05,
      "loss": 42.1907,
      "loss/crossentropy": 4.504716157913208,
      "loss/hidden": 12.0625,
      "loss/jsd": 0.0,
      "loss/logits": 2.6037776470184326,
      "step": 38
    },
    {
      "epoch": 0.0025,
      "grad_norm": 50.0,
      "grad_norm_var": 236.25390625,
      "learning_rate": 4.600000000000001e-05,
      "loss": 39.115,
      "loss/crossentropy": 4.373331546783447,
      "loss/hidden": 11.375,
      "loss/jsd": 0.0,
      "loss/logits": 2.2266069650650024,
      "step": 40
    },
    {
      "epoch": 0.002625,
      "grad_norm": 33.0,
      "grad_norm_var": 164.56640625,
      "learning_rate": 4.78e-05,
      "loss": 36.1801,
      "loss/crossentropy": 4.276909589767456,
      "loss/hidden": 11.0625,
      "loss/jsd": 0.0,
      "loss/logits": 2.2537089586257935,
      "step": 42
    },
    {
      "epoch": 0.00275,
      "grad_norm": 41.0,
      "grad_norm_var": 170.54765625,
      "learning_rate": 4.96e-05,
      "loss": 33.7672,
      "loss/crossentropy": 3.979385256767273,
      "loss/hidden": 10.59375,
      "loss/jsd": 0.0,
      "loss/logits": 1.776978850364685,
      "step": 44
    },
    {
      "epoch": 0.002875,
      "grad_norm": 31.5,
      "grad_norm_var": 205.69140625,
      "learning_rate": 5.14e-05,
      "loss": 31.4663,
      "loss/crossentropy": 3.5722849369049072,
      "loss/hidden": 10.15625,
      "loss/jsd": 0.0,
      "loss/logits": 1.7410615682601929,
      "step": 46
    },
    {
      "epoch": 0.003,
      "grad_norm": 21.375,
      "grad_norm_var": 211.38020833333334,
      "learning_rate": 5.3200000000000006e-05,
      "loss": 29.7082,
      "loss/crossentropy": 3.679291844367981,
      "loss/hidden": 9.625,
      "loss/jsd": 0.0,
      "loss/logits": 1.594287633895874,
      "step": 48
    },
    {
      "epoch": 0.003125,
      "grad_norm": 23.125,
      "grad_norm_var": 105.7416015625,
      "learning_rate": 5.500000000000001e-05,
      "loss": 28.489,
      "loss/crossentropy": 3.9182190895080566,
      "loss/hidden": 9.40625,
      "loss/jsd": 0.0,
      "loss/logits": 1.5025497078895569,
      "step": 50
    },
    {
      "epoch": 0.00325,
      "grad_norm": 29.875,
      "grad_norm_var": 105.0306640625,
      "learning_rate": 5.680000000000001e-05,
      "loss": 27.5703,
      "loss/crossentropy": 3.526407241821289,
      "loss/hidden": 9.25,
      "loss/jsd": 0.0,
      "loss/logits": 1.494104266166687,
      "step": 52
    },
    {
      "epoch": 0.003375,
      "grad_norm": 19.625,
      "grad_norm_var": 99.2416015625,
      "learning_rate": 5.860000000000001e-05,
      "loss": 26.1189,
      "loss/crossentropy": 3.4616609811782837,
      "loss/hidden": 9.0,
      "loss/jsd": 0.0,
      "loss/logits": 1.3545405268669128,
      "step": 54
    },
    {
      "epoch": 0.0035,
      "grad_norm": 22.5,
      "grad_norm_var": 54.81920572916667,
      "learning_rate": 6.040000000000001e-05,
      "loss": 24.328,
      "loss/crossentropy": 3.308198928833008,
      "loss/hidden": 8.75,
      "loss/jsd": 0.0,
      "loss/logits": 1.2083913683891296,
      "step": 56
    },
    {
      "epoch": 0.003625,
      "grad_norm": 14.0625,
      "grad_norm_var": 59.79152018229167,
      "learning_rate": 6.220000000000001e-05,
      "loss": 24.2188,
      "loss/crossentropy": 3.5452929735183716,
      "loss/hidden": 8.4375,
      "loss/jsd": 0.0,
      "loss/logits": 1.2204867601394653,
      "step": 58
    },
    {
      "epoch": 0.00375,
      "grad_norm": 15.75,
      "grad_norm_var": 52.173177083333336,
      "learning_rate": 6.400000000000001e-05,
      "loss": 22.8282,
      "loss/crossentropy": 3.1143264770507812,
      "loss/hidden": 8.40625,
      "loss/jsd": 0.0,
      "loss/logits": 1.1705525517463684,
      "step": 60
    },
    {
      "epoch": 0.003875,
      "grad_norm": 20.125,
      "grad_norm_var": 38.25930989583333,
      "learning_rate": 6.58e-05,
      "loss": 22.306,
      "loss/crossentropy": 3.136604428291321,
      "loss/hidden": 7.96875,
      "loss/jsd": 0.0,
      "loss/logits": 1.1404522061347961,
      "step": 62
    },
    {
      "epoch": 0.004,
      "grad_norm": 16.5,
      "grad_norm_var": 40.18274739583333,
      "learning_rate": 6.76e-05,
      "loss": 21.058,
      "loss/crossentropy": 2.9673322439193726,
      "loss/hidden": 7.703125,
      "loss/jsd": 0.0,
      "loss/logits": 1.0015667080879211,
      "step": 64
    },
    {
      "epoch": 0.004125,
      "grad_norm": 11.6875,
      "grad_norm_var": 39.946614583333336,
      "learning_rate": 6.94e-05,
      "loss": 21.0828,
      "loss/crossentropy": 3.2232860326766968,
      "loss/hidden": 7.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.964312881231308,
      "step": 66
    },
    {
      "epoch": 0.00425,
      "grad_norm": 15.4375,
      "grad_norm_var": 32.87902018229167,
      "learning_rate": 7.120000000000001e-05,
      "loss": 20.2688,
      "loss/crossentropy": 3.371062755584717,
      "loss/hidden": 7.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.971402496099472,
      "step": 68
    },
    {
      "epoch": 0.004375,
      "grad_norm": 11.8125,
      "grad_norm_var": 37.155322265625,
      "learning_rate": 7.3e-05,
      "loss": 19.6652,
      "loss/crossentropy": 2.8037211894989014,
      "loss/hidden": 7.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.952717661857605,
      "step": 70
    },
    {
      "epoch": 0.0045,
      "grad_norm": 116.5,
      "grad_norm_var": 640.5003743489583,
      "learning_rate": 7.48e-05,
      "loss": 19.6559,
      "loss/crossentropy": 2.9093810319900513,
      "loss/hidden": 7.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.9704654216766357,
      "step": 72
    },
    {
      "epoch": 0.004625,
      "grad_norm": 9.4375,
      "grad_norm_var": 651.0841145833333,
      "learning_rate": 7.66e-05,
      "loss": 18.7849,
      "loss/crossentropy": 2.824882984161377,
      "loss/hidden": 7.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.8673952519893646,
      "step": 74
    },
    {
      "epoch": 0.00475,
      "grad_norm": 21.875,
      "grad_norm_var": 649.4197916666667,
      "learning_rate": 7.840000000000001e-05,
      "loss": 18.5261,
      "loss/crossentropy": 2.8125277757644653,
      "loss/hidden": 7.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.8680737912654877,
      "step": 76
    },
    {
      "epoch": 0.004875,
      "grad_norm": 12.1875,
      "grad_norm_var": 658.5675618489583,
      "learning_rate": 8.020000000000001e-05,
      "loss": 18.4968,
      "loss/crossentropy": 2.8050509691238403,
      "loss/hidden": 6.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.8595540523529053,
      "step": 78
    },
    {
      "epoch": 0.005,
      "grad_norm": 11.5,
      "grad_norm_var": 669.7122233072917,
      "learning_rate": 8.200000000000001e-05,
      "loss": 18.0691,
      "loss/crossentropy": 3.2670862674713135,
      "loss/hidden": 6.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.8241342604160309,
      "step": 80
    },
    {
      "epoch": 0.005125,
      "grad_norm": 12.625,
      "grad_norm_var": 669.6054524739583,
      "learning_rate": 8.38e-05,
      "loss": 17.4693,
      "loss/crossentropy": 2.700217127799988,
      "loss/hidden": 6.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.8141748309135437,
      "step": 82
    },
    {
      "epoch": 0.00525,
      "grad_norm": 11.4375,
      "grad_norm_var": 679.333056640625,
      "learning_rate": 8.560000000000001e-05,
      "loss": 16.8553,
      "loss/crossentropy": 2.619894862174988,
      "loss/hidden": 6.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.755303144454956,
      "step": 84
    },
    {
      "epoch": 0.005375,
      "grad_norm": 10.8125,
      "grad_norm_var": 680.3473307291666,
      "learning_rate": 8.740000000000001e-05,
      "loss": 16.8983,
      "loss/crossentropy": 2.8718719482421875,
      "loss/hidden": 6.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.8335458338260651,
      "step": 86
    },
    {
      "epoch": 0.0055,
      "grad_norm": 13.8125,
      "grad_norm_var": 8.321858723958334,
      "learning_rate": 8.92e-05,
      "loss": 16.8672,
      "loss/crossentropy": 2.806625247001648,
      "loss/hidden": 6.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.7781052589416504,
      "step": 88
    },
    {
      "epoch": 0.005625,
      "grad_norm": 12.1875,
      "grad_norm_var": 7.507014973958333,
      "learning_rate": 9.1e-05,
      "loss": 16.4737,
      "loss/crossentropy": 3.016478180885315,
      "loss/hidden": 6.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.7285971939563751,
      "step": 90
    },
    {
      "epoch": 0.00575,
      "grad_norm": 13.25,
      "grad_norm_var": 1.43046875,
      "learning_rate": 9.28e-05,
      "loss": 16.47,
      "loss/crossentropy": 2.5847216844558716,
      "loss/hidden": 6.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.6861400604248047,
      "step": 92
    },
    {
      "epoch": 0.005875,
      "grad_norm": 9.875,
      "grad_norm_var": 1.4640462239583334,
      "learning_rate": 9.46e-05,
      "loss": 16.3726,
      "loss/crossentropy": 2.6700236797332764,
      "loss/hidden": 6.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.7058612108230591,
      "step": 94
    },
    {
      "epoch": 0.006,
      "grad_norm": 11.6875,
      "grad_norm_var": 1.329541015625,
      "learning_rate": 9.64e-05,
      "loss": 16.0121,
      "loss/crossentropy": 2.8999104499816895,
      "loss/hidden": 6.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.7061053812503815,
      "step": 96
    },
    {
      "epoch": 0.006125,
      "grad_norm": 12.25,
      "grad_norm_var": 1.3148274739583334,
      "learning_rate": 9.82e-05,
      "loss": 15.9048,
      "loss/crossentropy": 2.9132989645004272,
      "loss/hidden": 6.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.7202947437763214,
      "step": 98
    },
    {
      "epoch": 0.00625,
      "grad_norm": 10.1875,
      "grad_norm_var": 1.2620930989583334,
      "learning_rate": 0.0001,
      "loss": 15.4134,
      "loss/crossentropy": 2.6530884504318237,
      "loss/hidden": 5.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6581160724163055,
      "step": 100
    },
    {
      "epoch": 0.006375,
      "grad_norm": 12.8125,
      "grad_norm_var": 2.23736572265625,
      "learning_rate": 0.0001,
      "loss": 15.5444,
      "loss/crossentropy": 2.285265564918518,
      "loss/hidden": 6.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6365102231502533,
      "step": 102
    },
    {
      "epoch": 0.0065,
      "grad_norm": 12.25,
      "grad_norm_var": 1.9623006184895833,
      "learning_rate": 0.0001,
      "loss": 15.3962,
      "loss/crossentropy": 2.9150387048721313,
      "loss/hidden": 5.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6743068099021912,
      "step": 104
    },
    {
      "epoch": 0.006625,
      "grad_norm": 11.375,
      "grad_norm_var": 1.9106730143229167,
      "learning_rate": 0.0001,
      "loss": 15.0494,
      "loss/crossentropy": 2.461984634399414,
      "loss/hidden": 5.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5759885013103485,
      "step": 106
    },
    {
      "epoch": 0.00675,
      "grad_norm": 9.4375,
      "grad_norm_var": 1.83931884765625,
      "learning_rate": 0.0001,
      "loss": 15.2,
      "loss/crossentropy": 2.545448660850525,
      "loss/hidden": 5.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.6016611158847809,
      "step": 108
    },
    {
      "epoch": 0.006875,
      "grad_norm": 9.5,
      "grad_norm_var": 2.117997233072917,
      "learning_rate": 0.0001,
      "loss": 14.7974,
      "loss/crossentropy": 2.70013689994812,
      "loss/hidden": 5.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.6241994798183441,
      "step": 110
    },
    {
      "epoch": 0.007,
      "grad_norm": 11.6875,
      "grad_norm_var": 2.129715983072917,
      "learning_rate": 0.0001,
      "loss": 14.9825,
      "loss/crossentropy": 2.7020071744918823,
      "loss/hidden": 5.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6234863996505737,
      "step": 112
    },
    {
      "epoch": 0.007125,
      "grad_norm": 10.0,
      "grad_norm_var": 2.9886067708333335,
      "learning_rate": 0.0001,
      "loss": 14.717,
      "loss/crossentropy": 2.513030529022217,
      "loss/hidden": 5.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6006259322166443,
      "step": 114
    },
    {
      "epoch": 0.00725,
      "grad_norm": 9.8125,
      "grad_norm_var": 2.908317057291667,
      "learning_rate": 0.0001,
      "loss": 14.5928,
      "loss/crossentropy": 2.696964979171753,
      "loss/hidden": 5.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.6187423169612885,
      "step": 116
    },
    {
      "epoch": 0.007375,
      "grad_norm": 8.0,
      "grad_norm_var": 2.4882771809895834,
      "learning_rate": 0.0001,
      "loss": 14.4255,
      "loss/crossentropy": 2.6013330221176147,
      "loss/hidden": 5.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.6197507381439209,
      "step": 118
    },
    {
      "epoch": 0.0075,
      "grad_norm": 9.5625,
      "grad_norm_var": 2.2302042643229165,
      "learning_rate": 0.0001,
      "loss": 14.3271,
      "loss/crossentropy": 2.411963939666748,
      "loss/hidden": 5.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.625188797712326,
      "step": 120
    },
    {
      "epoch": 0.007625,
      "grad_norm": 7.84375,
      "grad_norm_var": 2.220686848958333,
      "learning_rate": 0.0001,
      "loss": 14.2801,
      "loss/crossentropy": 2.6053736209869385,
      "loss/hidden": 5.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.6165933012962341,
      "step": 122
    },
    {
      "epoch": 0.00775,
      "grad_norm": 8.9375,
      "grad_norm_var": 1.343603515625,
      "learning_rate": 0.0001,
      "loss": 14.212,
      "loss/crossentropy": 2.693827986717224,
      "loss/hidden": 5.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.593802809715271,
      "step": 124
    },
    {
      "epoch": 0.007875,
      "grad_norm": 8.9375,
      "grad_norm_var": 1.392822265625,
      "learning_rate": 0.0001,
      "loss": 14.083,
      "loss/crossentropy": 2.649814248085022,
      "loss/hidden": 5.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5663131475448608,
      "step": 126
    },
    {
      "epoch": 0.008,
      "grad_norm": 7.90625,
      "grad_norm_var": 0.8796183268229166,
      "learning_rate": 0.0001,
      "loss": 13.7585,
      "loss/crossentropy": 2.813218355178833,
      "loss/hidden": 5.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.619841456413269,
      "step": 128
    },
    {
      "epoch": 0.008125,
      "grad_norm": 9.4375,
      "grad_norm_var": 0.5834635416666667,
      "learning_rate": 0.0001,
      "loss": 13.7834,
      "loss/crossentropy": 2.496381640434265,
      "loss/hidden": 5.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.534807562828064,
      "step": 130
    },
    {
      "epoch": 0.00825,
      "grad_norm": 7.15625,
      "grad_norm_var": 0.73668212890625,
      "learning_rate": 0.0001,
      "loss": 13.8102,
      "loss/crossentropy": 2.587761878967285,
      "loss/hidden": 5.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5979687869548798,
      "step": 132
    },
    {
      "epoch": 0.008375,
      "grad_norm": 11.0625,
      "grad_norm_var": 0.9780232747395833,
      "learning_rate": 0.0001,
      "loss": 13.7661,
      "loss/crossentropy": 3.0042346715927124,
      "loss/hidden": 5.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.568140983581543,
      "step": 134
    },
    {
      "epoch": 0.0085,
      "grad_norm": 9.5625,
      "grad_norm_var": 0.8787394205729167,
      "learning_rate": 0.0001,
      "loss": 13.7338,
      "loss/crossentropy": 2.4913647174835205,
      "loss/hidden": 5.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5167834609746933,
      "step": 136
    },
    {
      "epoch": 0.008625,
      "grad_norm": 7.4375,
      "grad_norm_var": 1.00718994140625,
      "learning_rate": 0.0001,
      "loss": 13.6016,
      "loss/crossentropy": 2.468238115310669,
      "loss/hidden": 5.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5614461004734039,
      "step": 138
    },
    {
      "epoch": 0.00875,
      "grad_norm": 8.8125,
      "grad_norm_var": 1.0800740559895834,
      "learning_rate": 0.0001,
      "loss": 13.5316,
      "loss/crossentropy": 2.4444445371627808,
      "loss/hidden": 5.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5187713205814362,
      "step": 140
    },
    {
      "epoch": 0.008875,
      "grad_norm": 6.96875,
      "grad_norm_var": 1.2684895833333334,
      "learning_rate": 0.0001,
      "loss": 13.0968,
      "loss/crossentropy": 2.6214382648468018,
      "loss/hidden": 5.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5483916699886322,
      "step": 142
    },
    {
      "epoch": 0.009,
      "grad_norm": 8.375,
      "grad_norm_var": 1.2163045247395834,
      "learning_rate": 0.0001,
      "loss": 13.202,
      "loss/crossentropy": 2.7945733070373535,
      "loss/hidden": 5.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5334698259830475,
      "step": 144
    },
    {
      "epoch": 0.009125,
      "grad_norm": 8.375,
      "grad_norm_var": 1.11070556640625,
      "learning_rate": 0.0001,
      "loss": 13.4962,
      "loss/crossentropy": 2.6263811588287354,
      "loss/hidden": 5.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5304541736841202,
      "step": 146
    },
    {
      "epoch": 0.00925,
      "grad_norm": 6.46875,
      "grad_norm_var": 1.1537394205729166,
      "learning_rate": 0.0001,
      "loss": 13.0194,
      "loss/crossentropy": 2.446092367172241,
      "loss/hidden": 5.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4983871430158615,
      "step": 148
    },
    {
      "epoch": 0.009375,
      "grad_norm": 8.875,
      "grad_norm_var": 0.7020182291666667,
      "learning_rate": 0.0001,
      "loss": 13.4196,
      "loss/crossentropy": 2.954146981239319,
      "loss/hidden": 5.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5594009757041931,
      "step": 150
    },
    {
      "epoch": 0.0095,
      "grad_norm": 7.9375,
      "grad_norm_var": 0.563916015625,
      "learning_rate": 0.0001,
      "loss": 13.1519,
      "loss/crossentropy": 2.7116650342941284,
      "loss/hidden": 5.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.5489330589771271,
      "step": 152
    },
    {
      "epoch": 0.009625,
      "grad_norm": 6.875,
      "grad_norm_var": 0.66314697265625,
      "learning_rate": 0.0001,
      "loss": 12.9977,
      "loss/crossentropy": 2.6282447576522827,
      "loss/hidden": 5.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4889778196811676,
      "step": 154
    },
    {
      "epoch": 0.00975,
      "grad_norm": 6.5625,
      "grad_norm_var": 0.7279256184895834,
      "learning_rate": 0.0001,
      "loss": 12.9168,
      "loss/crossentropy": 2.5541906356811523,
      "loss/hidden": 5.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.5468989908695221,
      "step": 156
    },
    {
      "epoch": 0.009875,
      "grad_norm": 8.25,
      "grad_norm_var": 0.7774739583333333,
      "learning_rate": 0.0001,
      "loss": 12.8049,
      "loss/crossentropy": 2.3998714685440063,
      "loss/hidden": 5.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4967530369758606,
      "step": 158
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.125,
      "grad_norm_var": 0.6618448893229166,
      "learning_rate": 0.0001,
      "loss": 12.8303,
      "loss/crossentropy": 2.5461435317993164,
      "loss/hidden": 5.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5074218511581421,
      "step": 160
    },
    {
      "epoch": 0.010125,
      "grad_norm": 7.8125,
      "grad_norm_var": 0.6085245768229167,
      "learning_rate": 0.0001,
      "loss": 12.7334,
      "loss/crossentropy": 2.2296184301376343,
      "loss/hidden": 5.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4967309385538101,
      "step": 162
    },
    {
      "epoch": 0.01025,
      "grad_norm": 7.28125,
      "grad_norm_var": 0.48121337890625,
      "learning_rate": 0.0001,
      "loss": 12.8275,
      "loss/crossentropy": 2.348438858985901,
      "loss/hidden": 5.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.47058284282684326,
      "step": 164
    },
    {
      "epoch": 0.010375,
      "grad_norm": 7.0,
      "grad_norm_var": 0.39407552083333336,
      "learning_rate": 0.0001,
      "loss": 12.6261,
      "loss/crossentropy": 2.4020251035690308,
      "loss/hidden": 4.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4758017808198929,
      "step": 166
    },
    {
      "epoch": 0.0105,
      "grad_norm": 5.65625,
      "grad_norm_var": 0.6719685872395833,
      "learning_rate": 0.0001,
      "loss": 12.7439,
      "loss/crossentropy": 2.4506293535232544,
      "loss/hidden": 4.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5312856733798981,
      "step": 168
    },
    {
      "epoch": 0.010625,
      "grad_norm": 7.40625,
      "grad_norm_var": 0.6060506184895833,
      "learning_rate": 0.0001,
      "loss": 12.582,
      "loss/crossentropy": 2.5331802368164062,
      "loss/hidden": 4.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5095243901014328,
      "step": 170
    },
    {
      "epoch": 0.01075,
      "grad_norm": 8.625,
      "grad_norm_var": 0.6595662434895834,
      "learning_rate": 0.0001,
      "loss": 12.4879,
      "loss/crossentropy": 2.65364670753479,
      "loss/hidden": 5.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.543939620256424,
      "step": 172
    },
    {
      "epoch": 0.010875,
      "grad_norm": 6.21875,
      "grad_norm_var": 0.6911417643229166,
      "learning_rate": 0.0001,
      "loss": 12.2931,
      "loss/crossentropy": 2.2634752988815308,
      "loss/hidden": 4.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.45544371008872986,
      "step": 174
    },
    {
      "epoch": 0.011,
      "grad_norm": 7.21875,
      "grad_norm_var": 0.6577473958333333,
      "learning_rate": 0.0001,
      "loss": 12.3996,
      "loss/crossentropy": 2.3653087615966797,
      "loss/hidden": 4.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4665989428758621,
      "step": 176
    },
    {
      "epoch": 0.011125,
      "grad_norm": 7.8125,
      "grad_norm_var": 0.6873006184895833,
      "learning_rate": 0.0001,
      "loss": 12.335,
      "loss/crossentropy": 2.274166226387024,
      "loss/hidden": 4.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.48722338676452637,
      "step": 178
    },
    {
      "epoch": 0.01125,
      "grad_norm": 8.875,
      "grad_norm_var": 0.8094685872395834,
      "learning_rate": 0.0001,
      "loss": 12.4249,
      "loss/crossentropy": 2.464481830596924,
      "loss/hidden": 4.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.5341024994850159,
      "step": 180
    },
    {
      "epoch": 0.011375,
      "grad_norm": 6.84375,
      "grad_norm_var": 0.8151692708333333,
      "learning_rate": 0.0001,
      "loss": 12.12,
      "loss/crossentropy": 2.5521204471588135,
      "loss/hidden": 5.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.5266247987747192,
      "step": 182
    },
    {
      "epoch": 0.0115,
      "grad_norm": 6.375,
      "grad_norm_var": 0.6587076822916667,
      "learning_rate": 0.0001,
      "loss": 12.0581,
      "loss/crossentropy": 2.380069375038147,
      "loss/hidden": 4.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4448339492082596,
      "step": 184
    },
    {
      "epoch": 0.011625,
      "grad_norm": 7.46875,
      "grad_norm_var": 0.6198527018229166,
      "learning_rate": 0.0001,
      "loss": 12.2557,
      "loss/crossentropy": 2.6351869106292725,
      "loss/hidden": 4.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.51109179854393,
      "step": 186
    },
    {
      "epoch": 0.01175,
      "grad_norm": 6.625,
      "grad_norm_var": 0.461572265625,
      "learning_rate": 0.0001,
      "loss": 12.3102,
      "loss/crossentropy": 2.606539011001587,
      "loss/hidden": 4.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4482808858156204,
      "step": 188
    },
    {
      "epoch": 0.011875,
      "grad_norm": 7.3125,
      "grad_norm_var": 0.40491129557291666,
      "learning_rate": 0.0001,
      "loss": 11.8983,
      "loss/crossentropy": 2.5177031755447388,
      "loss/hidden": 4.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4657522886991501,
      "step": 190
    },
    {
      "epoch": 0.012,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.5950358072916667,
      "learning_rate": 0.0001,
      "loss": 11.8962,
      "loss/crossentropy": 2.5478276014328003,
      "loss/hidden": 4.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4511236548423767,
      "step": 192
    },
    {
      "epoch": 0.012125,
      "grad_norm": 7.25,
      "grad_norm_var": 0.5598592122395833,
      "learning_rate": 0.0001,
      "loss": 11.9408,
      "loss/crossentropy": 2.08566415309906,
      "loss/hidden": 4.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4315005987882614,
      "step": 194
    },
    {
      "epoch": 0.01225,
      "grad_norm": 7.03125,
      "grad_norm_var": 0.40950113932291665,
      "learning_rate": 0.0001,
      "loss": 12.0969,
      "loss/crossentropy": 2.634473204612732,
      "loss/hidden": 4.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4682666063308716,
      "step": 196
    },
    {
      "epoch": 0.012375,
      "grad_norm": 7.25,
      "grad_norm_var": 0.4279296875,
      "learning_rate": 0.0001,
      "loss": 12.0544,
      "loss/crossentropy": 2.6797198057174683,
      "loss/hidden": 4.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4552183598279953,
      "step": 198
    },
    {
      "epoch": 0.0125,
      "grad_norm": 6.75,
      "grad_norm_var": 0.4488118489583333,
      "learning_rate": 0.0001,
      "loss": 11.9949,
      "loss/crossentropy": 2.9568880796432495,
      "loss/hidden": 4.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5152240097522736,
      "step": 200
    },
    {
      "epoch": 0.012625,
      "grad_norm": 6.1875,
      "grad_norm_var": 0.4198527018229167,
      "learning_rate": 0.0001,
      "loss": 11.876,
      "loss/crossentropy": 2.4664944410324097,
      "loss/hidden": 4.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4684390127658844,
      "step": 202
    },
    {
      "epoch": 0.01275,
      "grad_norm": 6.5625,
      "grad_norm_var": 0.41952718098958336,
      "learning_rate": 0.0001,
      "loss": 11.9644,
      "loss/crossentropy": 2.580668091773987,
      "loss/hidden": 4.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4738956689834595,
      "step": 204
    },
    {
      "epoch": 0.012875,
      "grad_norm": 6.3125,
      "grad_norm_var": 0.39635009765625,
      "learning_rate": 0.0001,
      "loss": 12.0377,
      "loss/crossentropy": 2.367862343788147,
      "loss/hidden": 4.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.45996397733688354,
      "step": 206
    },
    {
      "epoch": 0.013,
      "grad_norm": 6.09375,
      "grad_norm_var": 0.27681884765625,
      "learning_rate": 0.0001,
      "loss": 11.9037,
      "loss/crossentropy": 2.5246529579162598,
      "loss/hidden": 4.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.46563032269477844,
      "step": 208
    },
    {
      "epoch": 0.013125,
      "grad_norm": 6.46875,
      "grad_norm_var": 0.24596354166666667,
      "learning_rate": 0.0001,
      "loss": 11.7128,
      "loss/crossentropy": 2.20585036277771,
      "loss/hidden": 4.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.41547301411628723,
      "step": 210
    },
    {
      "epoch": 0.01325,
      "grad_norm": 5.9375,
      "grad_norm_var": 0.2263671875,
      "learning_rate": 0.0001,
      "loss": 11.7218,
      "loss/crossentropy": 2.3064881563186646,
      "loss/hidden": 4.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4325401932001114,
      "step": 212
    },
    {
      "epoch": 0.013375,
      "grad_norm": 7.03125,
      "grad_norm_var": 0.16054280598958334,
      "learning_rate": 0.0001,
      "loss": 11.5407,
      "loss/crossentropy": 2.3898541927337646,
      "loss/hidden": 4.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.43332116305828094,
      "step": 214
    },
    {
      "epoch": 0.0135,
      "grad_norm": 6.5625,
      "grad_norm_var": 0.150244140625,
      "learning_rate": 0.0001,
      "loss": 11.8046,
      "loss/crossentropy": 2.456748604774475,
      "loss/hidden": 4.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4493984282016754,
      "step": 216
    },
    {
      "epoch": 0.013625,
      "grad_norm": 6.25,
      "grad_norm_var": 0.18606770833333333,
      "learning_rate": 0.0001,
      "loss": 11.8232,
      "loss/crossentropy": 2.7504690885543823,
      "loss/hidden": 4.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.44959259033203125,
      "step": 218
    },
    {
      "epoch": 0.01375,
      "grad_norm": 6.65625,
      "grad_norm_var": 0.18313802083333333,
      "learning_rate": 0.0001,
      "loss": 11.7742,
      "loss/crossentropy": 2.272356390953064,
      "loss/hidden": 4.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4380947947502136,
      "step": 220
    },
    {
      "epoch": 0.013875,
      "grad_norm": 5.71875,
      "grad_norm_var": 0.20331624348958333,
      "learning_rate": 0.0001,
      "loss": 11.7707,
      "loss/crossentropy": 2.539223790168762,
      "loss/hidden": 4.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.41349247097969055,
      "step": 222
    },
    {
      "epoch": 0.014,
      "grad_norm": 6.3125,
      "grad_norm_var": 0.21122639973958332,
      "learning_rate": 0.0001,
      "loss": 11.6392,
      "loss/crossentropy": 2.6272025108337402,
      "loss/hidden": 4.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4406648874282837,
      "step": 224
    },
    {
      "epoch": 0.014125,
      "grad_norm": 5.65625,
      "grad_norm_var": 0.23255208333333333,
      "learning_rate": 0.0001,
      "loss": 11.3455,
      "loss/crossentropy": 2.1202113032341003,
      "loss/hidden": 4.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.42472922801971436,
      "step": 226
    },
    {
      "epoch": 0.01425,
      "grad_norm": 6.5625,
      "grad_norm_var": 0.23212483723958333,
      "learning_rate": 0.0001,
      "loss": 11.5275,
      "loss/crossentropy": 2.420728087425232,
      "loss/hidden": 4.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4595801681280136,
      "step": 228
    },
    {
      "epoch": 0.014375,
      "grad_norm": 5.65625,
      "grad_norm_var": 0.22057291666666667,
      "learning_rate": 0.0001,
      "loss": 11.849,
      "loss/crossentropy": 2.58668851852417,
      "loss/hidden": 4.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.44095560908317566,
      "step": 230
    },
    {
      "epoch": 0.0145,
      "grad_norm": 5.28125,
      "grad_norm_var": 0.210546875,
      "learning_rate": 0.0001,
      "loss": 11.4306,
      "loss/crossentropy": 2.3560508489608765,
      "loss/hidden": 4.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4567548930644989,
      "step": 232
    },
    {
      "epoch": 0.014625,
      "grad_norm": 5.78125,
      "grad_norm_var": 0.19872639973958334,
      "learning_rate": 0.0001,
      "loss": 11.41,
      "loss/crossentropy": 2.362083673477173,
      "loss/hidden": 4.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4453700929880142,
      "step": 234
    },
    {
      "epoch": 0.01475,
      "grad_norm": 6.625,
      "grad_norm_var": 0.18801676432291667,
      "learning_rate": 0.0001,
      "loss": 11.3155,
      "loss/crossentropy": 2.6302807331085205,
      "loss/hidden": 4.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.45155879855155945,
      "step": 236
    },
    {
      "epoch": 0.014875,
      "grad_norm": 6.28125,
      "grad_norm_var": 0.16236979166666668,
      "learning_rate": 0.0001,
      "loss": 11.5746,
      "loss/crossentropy": 2.504029393196106,
      "loss/hidden": 4.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.423601895570755,
      "step": 238
    },
    {
      "epoch": 0.015,
      "grad_norm": 5.84375,
      "grad_norm_var": 0.14752604166666666,
      "learning_rate": 0.0001,
      "loss": 11.3137,
      "loss/crossentropy": 2.496834635734558,
      "loss/hidden": 4.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.44761495292186737,
      "step": 240
    },
    {
      "epoch": 0.015125,
      "grad_norm": 5.75,
      "grad_norm_var": 0.14377848307291666,
      "learning_rate": 0.0001,
      "loss": 11.215,
      "loss/crossentropy": 2.5440114736557007,
      "loss/hidden": 4.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.4467613846063614,
      "step": 242
    },
    {
      "epoch": 0.01525,
      "grad_norm": 6.8125,
      "grad_norm_var": 0.16174723307291666,
      "learning_rate": 0.0001,
      "loss": 11.4828,
      "loss/crossentropy": 2.3933448791503906,
      "loss/hidden": 4.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4251607805490494,
      "step": 244
    },
    {
      "epoch": 0.015375,
      "grad_norm": 5.28125,
      "grad_norm_var": 0.19026285807291668,
      "learning_rate": 0.0001,
      "loss": 11.2663,
      "loss/crossentropy": 2.709121346473694,
      "loss/hidden": 4.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4511110782623291,
      "step": 246
    },
    {
      "epoch": 0.0155,
      "grad_norm": 6.375,
      "grad_norm_var": 0.18007405598958334,
      "learning_rate": 0.0001,
      "loss": 11.2542,
      "loss/crossentropy": 2.65135395526886,
      "loss/hidden": 4.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.42732760310173035,
      "step": 248
    },
    {
      "epoch": 0.015625,
      "grad_norm": 5.5,
      "grad_norm_var": 0.25390218098958334,
      "learning_rate": 0.0001,
      "loss": 11.0863,
      "loss/crossentropy": 2.531478524208069,
      "loss/hidden": 4.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.39773157238960266,
      "step": 250
    },
    {
      "epoch": 0.01575,
      "grad_norm": 5.75,
      "grad_norm_var": 0.23079427083333334,
      "learning_rate": 0.0001,
      "loss": 11.3519,
      "loss/crossentropy": 2.1759145259857178,
      "loss/hidden": 4.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.40788644552230835,
      "step": 252
    },
    {
      "epoch": 0.015875,
      "grad_norm": 6.28125,
      "grad_norm_var": 0.246337890625,
      "learning_rate": 0.0001,
      "loss": 10.9975,
      "loss/crossentropy": 2.486463189125061,
      "loss/hidden": 4.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4049537926912308,
      "step": 254
    },
    {
      "epoch": 0.016,
      "grad_norm": 4.90625,
      "grad_norm_var": 0.32945556640625,
      "learning_rate": 0.0001,
      "loss": 10.9813,
      "loss/crossentropy": 2.3456650972366333,
      "loss/hidden": 4.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.3914157599210739,
      "step": 256
    },
    {
      "epoch": 0.016125,
      "grad_norm": 5.8125,
      "grad_norm_var": 0.35302327473958334,
      "learning_rate": 0.0001,
      "loss": 11.124,
      "loss/crossentropy": 2.7621407508850098,
      "loss/hidden": 4.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4217756986618042,
      "step": 258
    },
    {
      "epoch": 0.01625,
      "grad_norm": 5.09375,
      "grad_norm_var": 0.30201416015625,
      "learning_rate": 0.0001,
      "loss": 11.0913,
      "loss/crossentropy": 2.520516872406006,
      "loss/hidden": 4.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.42682692408561707,
      "step": 260
    },
    {
      "epoch": 0.016375,
      "grad_norm": 5.875,
      "grad_norm_var": 0.289697265625,
      "learning_rate": 0.0001,
      "loss": 11.0406,
      "loss/crossentropy": 2.668264865875244,
      "loss/hidden": 4.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.44012486934661865,
      "step": 262
    },
    {
      "epoch": 0.0165,
      "grad_norm": 5.71875,
      "grad_norm_var": 0.221337890625,
      "learning_rate": 0.0001,
      "loss": 11.1313,
      "loss/crossentropy": 2.6228344440460205,
      "loss/hidden": 4.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.47360049188137054,
      "step": 264
    },
    {
      "epoch": 0.016625,
      "grad_norm": 5.1875,
      "grad_norm_var": 0.2591796875,
      "learning_rate": 0.0001,
      "loss": 10.8727,
      "loss/crossentropy": 2.07044917345047,
      "loss/hidden": 4.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3736244738101959,
      "step": 266
    },
    {
      "epoch": 0.01675,
      "grad_norm": 5.59375,
      "grad_norm_var": 0.24763997395833334,
      "learning_rate": 0.0001,
      "loss": 10.9825,
      "loss/crossentropy": 2.195676624774933,
      "loss/hidden": 4.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.41074641048908234,
      "step": 268
    },
    {
      "epoch": 0.016875,
      "grad_norm": 5.15625,
      "grad_norm_var": 0.16717122395833334,
      "learning_rate": 0.0001,
      "loss": 10.9858,
      "loss/crossentropy": 2.6045761108398438,
      "loss/hidden": 4.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.43537537753582,
      "step": 270
    },
    {
      "epoch": 0.017,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.17616780598958334,
      "learning_rate": 0.0001,
      "loss": 11.1417,
      "loss/crossentropy": 2.343075156211853,
      "loss/hidden": 4.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3932172954082489,
      "step": 272
    },
    {
      "epoch": 0.017125,
      "grad_norm": 5.96875,
      "grad_norm_var": 0.18162434895833332,
      "learning_rate": 0.0001,
      "loss": 10.9988,
      "loss/crossentropy": 2.4649263620376587,
      "loss/hidden": 4.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3909170925617218,
      "step": 274
    },
    {
      "epoch": 0.01725,
      "grad_norm": 4.5,
      "grad_norm_var": 0.23905843098958332,
      "learning_rate": 0.0001,
      "loss": 10.9516,
      "loss/crossentropy": 2.3632274866104126,
      "loss/hidden": 4.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.39788326621055603,
      "step": 276
    },
    {
      "epoch": 0.017375,
      "grad_norm": 5.78125,
      "grad_norm_var": 0.24231363932291666,
      "learning_rate": 0.0001,
      "loss": 10.9188,
      "loss/crossentropy": 2.5861356258392334,
      "loss/hidden": 4.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.41938433051109314,
      "step": 278
    },
    {
      "epoch": 0.0175,
      "grad_norm": 5.21875,
      "grad_norm_var": 0.23834635416666666,
      "learning_rate": 0.0001,
      "loss": 10.92,
      "loss/crossentropy": 2.5754419565200806,
      "loss/hidden": 4.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4088515043258667,
      "step": 280
    },
    {
      "epoch": 0.017625,
      "grad_norm": 5.53125,
      "grad_norm_var": 0.21184895833333334,
      "learning_rate": 0.0001,
      "loss": 10.7969,
      "loss/crossentropy": 2.241589307785034,
      "loss/hidden": 4.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.38494938611984253,
      "step": 282
    },
    {
      "epoch": 0.01775,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.3136678059895833,
      "learning_rate": 0.0001,
      "loss": 10.9124,
      "loss/crossentropy": 2.332160472869873,
      "loss/hidden": 4.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4286513030529022,
      "step": 284
    },
    {
      "epoch": 0.017875,
      "grad_norm": 5.84375,
      "grad_norm_var": 0.2992472330729167,
      "learning_rate": 0.0001,
      "loss": 10.8958,
      "loss/crossentropy": 2.452752709388733,
      "loss/hidden": 4.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37612101435661316,
      "step": 286
    },
    {
      "epoch": 0.018,
      "grad_norm": 4.84375,
      "grad_norm_var": 0.249072265625,
      "learning_rate": 0.0001,
      "loss": 10.7195,
      "loss/crossentropy": 2.2290940284729004,
      "loss/hidden": 4.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37554706633090973,
      "step": 288
    },
    {
      "epoch": 0.018125,
      "grad_norm": 5.875,
      "grad_norm_var": 0.24680989583333332,
      "learning_rate": 0.0001,
      "loss": 10.7342,
      "loss/crossentropy": 2.4139484167099,
      "loss/hidden": 4.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.40335869789123535,
      "step": 290
    },
    {
      "epoch": 0.01825,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.21402587890625,
      "learning_rate": 0.0001,
      "loss": 10.6719,
      "loss/crossentropy": 2.56483793258667,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.41296976804733276,
      "step": 292
    },
    {
      "epoch": 0.018375,
      "grad_norm": 6.375,
      "grad_norm_var": 0.24823811848958333,
      "learning_rate": 0.0001,
      "loss": 10.9241,
      "loss/crossentropy": 2.3277297019958496,
      "loss/hidden": 4.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3984246253967285,
      "step": 294
    },
    {
      "epoch": 0.0185,
      "grad_norm": 4.71875,
      "grad_norm_var": 0.28815104166666666,
      "learning_rate": 0.0001,
      "loss": 10.7746,
      "loss/crossentropy": 2.3450149297714233,
      "loss/hidden": 4.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3996598720550537,
      "step": 296
    },
    {
      "epoch": 0.018625,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.352734375,
      "learning_rate": 0.0001,
      "loss": 10.5621,
      "loss/crossentropy": 2.317037582397461,
      "loss/hidden": 4.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.40160971879959106,
      "step": 298
    },
    {
      "epoch": 0.01875,
      "grad_norm": 5.3125,
      "grad_norm_var": 0.23987223307291666,
      "learning_rate": 0.0001,
      "loss": 10.9369,
      "loss/crossentropy": 2.5068975687026978,
      "loss/hidden": 4.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.410100519657135,
      "step": 300
    },
    {
      "epoch": 0.018875,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.22589518229166666,
      "learning_rate": 0.0001,
      "loss": 10.7482,
      "loss/crossentropy": 2.351959705352783,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.39118409156799316,
      "step": 302
    },
    {
      "epoch": 0.019,
      "grad_norm": 5.59375,
      "grad_norm_var": 0.21608072916666668,
      "learning_rate": 0.0001,
      "loss": 10.7665,
      "loss/crossentropy": 2.3877638578414917,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.39836424589157104,
      "step": 304
    },
    {
      "epoch": 0.019125,
      "grad_norm": 5.53125,
      "grad_norm_var": 0.19894205729166667,
      "learning_rate": 0.0001,
      "loss": 10.7703,
      "loss/crossentropy": 2.600021004676819,
      "loss/hidden": 4.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.41590385138988495,
      "step": 306
    },
    {
      "epoch": 0.01925,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.18485921223958332,
      "learning_rate": 0.0001,
      "loss": 10.6674,
      "loss/crossentropy": 2.4758663177490234,
      "loss/hidden": 4.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.39325758814811707,
      "step": 308
    },
    {
      "epoch": 0.019375,
      "grad_norm": 5.25,
      "grad_norm_var": 0.10755208333333334,
      "learning_rate": 0.0001,
      "loss": 10.5967,
      "loss/crossentropy": 2.3135849237442017,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.3709346354007721,
      "step": 310
    },
    {
      "epoch": 0.0195,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.20885416666666667,
      "learning_rate": 0.0001,
      "loss": 10.7752,
      "loss/crossentropy": 2.4139580726623535,
      "loss/hidden": 4.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.4005644619464874,
      "step": 312
    },
    {
      "epoch": 0.019625,
      "grad_norm": 6.03125,
      "grad_norm_var": 0.21534830729166668,
      "learning_rate": 0.0001,
      "loss": 10.779,
      "loss/crossentropy": 2.5271564722061157,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37980175018310547,
      "step": 314
    },
    {
      "epoch": 0.01975,
      "grad_norm": 4.53125,
      "grad_norm_var": 0.25982666015625,
      "learning_rate": 0.0001,
      "loss": 10.5117,
      "loss/crossentropy": 2.5739694833755493,
      "loss/hidden": 4.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.40202172100543976,
      "step": 316
    },
    {
      "epoch": 0.019875,
      "grad_norm": 6.625,
      "grad_norm_var": 0.36412353515625,
      "learning_rate": 0.0001,
      "loss": 10.5532,
      "loss/crossentropy": 2.245994448661804,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.36041176319122314,
      "step": 318
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.392041015625,
      "learning_rate": 0.0001,
      "loss": 10.5765,
      "loss/crossentropy": 2.5354862213134766,
      "loss/hidden": 4.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3732207715511322,
      "step": 320
    },
    {
      "epoch": 0.020125,
      "grad_norm": 5.8125,
      "grad_norm_var": 0.463134765625,
      "learning_rate": 0.0001,
      "loss": 10.4762,
      "loss/crossentropy": 2.3753507137298584,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3840855211019516,
      "step": 322
    },
    {
      "epoch": 0.02025,
      "grad_norm": 4.90625,
      "grad_norm_var": 0.4641927083333333,
      "learning_rate": 0.0001,
      "loss": 10.2923,
      "loss/crossentropy": 2.4433764219284058,
      "loss/hidden": 4.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.38050127029418945,
      "step": 324
    },
    {
      "epoch": 0.020375,
      "grad_norm": 5.21875,
      "grad_norm_var": 0.5068644205729167,
      "learning_rate": 0.0001,
      "loss": 10.6858,
      "loss/crossentropy": 2.484220504760742,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.4011761546134949,
      "step": 326
    },
    {
      "epoch": 0.0205,
      "grad_norm": 5.3125,
      "grad_norm_var": 0.3748697916666667,
      "learning_rate": 0.0001,
      "loss": 10.7329,
      "loss/crossentropy": 2.6139092445373535,
      "loss/hidden": 4.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4130321443080902,
      "step": 328
    },
    {
      "epoch": 0.020625,
      "grad_norm": 5.0,
      "grad_norm_var": 0.31311442057291666,
      "learning_rate": 0.0001,
      "loss": 10.606,
      "loss/crossentropy": 2.4625054597854614,
      "loss/hidden": 4.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3967062383890152,
      "step": 330
    },
    {
      "epoch": 0.02075,
      "grad_norm": 5.0625,
      "grad_norm_var": 0.2874837239583333,
      "learning_rate": 0.0001,
      "loss": 10.5546,
      "loss/crossentropy": 2.3454889059066772,
      "loss/hidden": 4.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3706536889076233,
      "step": 332
    },
    {
      "epoch": 0.020875,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.18229166666666666,
      "learning_rate": 0.0001,
      "loss": 10.5487,
      "loss/crossentropy": 2.4348955154418945,
      "loss/hidden": 4.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37259407341480255,
      "step": 334
    },
    {
      "epoch": 0.021,
      "grad_norm": 4.25,
      "grad_norm_var": 0.21061197916666666,
      "learning_rate": 0.0001,
      "loss": 10.3802,
      "loss/crossentropy": 2.3722680807113647,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.37501636147499084,
      "step": 336
    },
    {
      "epoch": 0.021125,
      "grad_norm": 5.6875,
      "grad_norm_var": 0.17509358723958332,
      "learning_rate": 0.0001,
      "loss": 10.6118,
      "loss/crossentropy": 2.367267608642578,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.37614843249320984,
      "step": 338
    },
    {
      "epoch": 0.02125,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.18136393229166667,
      "learning_rate": 0.0001,
      "loss": 10.409,
      "loss/crossentropy": 2.5342684984207153,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4095509201288223,
      "step": 340
    },
    {
      "epoch": 0.021375,
      "grad_norm": 4.25,
      "grad_norm_var": 0.200634765625,
      "learning_rate": 0.0001,
      "loss": 10.347,
      "loss/crossentropy": 2.366121530532837,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.38898931443691254,
      "step": 342
    },
    {
      "epoch": 0.0215,
      "grad_norm": 5.96875,
      "grad_norm_var": 0.391650390625,
      "learning_rate": 0.0001,
      "loss": 10.4284,
      "loss/crossentropy": 2.435874819755554,
      "loss/hidden": 4.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.4087076783180237,
      "step": 344
    },
    {
      "epoch": 0.021625,
      "grad_norm": 5.46875,
      "grad_norm_var": 0.39010416666666664,
      "learning_rate": 0.0001,
      "loss": 10.4112,
      "loss/crossentropy": 2.4133975505828857,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3934263288974762,
      "step": 346
    },
    {
      "epoch": 0.02175,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.40168863932291665,
      "learning_rate": 0.0001,
      "loss": 10.59,
      "loss/crossentropy": 2.3464980125427246,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36868566274642944,
      "step": 348
    },
    {
      "epoch": 0.021875,
      "grad_norm": 5.15625,
      "grad_norm_var": 0.3732421875,
      "learning_rate": 0.0001,
      "loss": 10.5281,
      "loss/crossentropy": 2.492926597595215,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.37226299941539764,
      "step": 350
    },
    {
      "epoch": 0.022,
      "grad_norm": 4.25,
      "grad_norm_var": 0.37948811848958336,
      "learning_rate": 0.0001,
      "loss": 10.2246,
      "loss/crossentropy": 2.3636070489883423,
      "loss/hidden": 4.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3681965172290802,
      "step": 352
    },
    {
      "epoch": 0.022125,
      "grad_norm": 4.625,
      "grad_norm_var": 0.3692708333333333,
      "learning_rate": 0.0001,
      "loss": 10.5053,
      "loss/crossentropy": 2.288292169570923,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.3958088457584381,
      "step": 354
    },
    {
      "epoch": 0.02225,
      "grad_norm": 5.15625,
      "grad_norm_var": 0.38084309895833335,
      "learning_rate": 0.0001,
      "loss": 10.3737,
      "loss/crossentropy": 2.451295018196106,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.39023011922836304,
      "step": 356
    },
    {
      "epoch": 0.022375,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.3459269205729167,
      "learning_rate": 0.0001,
      "loss": 10.3773,
      "loss/crossentropy": 2.3242127895355225,
      "loss/hidden": 4.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.39542824029922485,
      "step": 358
    },
    {
      "epoch": 0.0225,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.132666015625,
      "learning_rate": 0.0001,
      "loss": 10.531,
      "loss/crossentropy": 2.5108137130737305,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3721470236778259,
      "step": 360
    },
    {
      "epoch": 0.022625,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.101416015625,
      "learning_rate": 0.0001,
      "loss": 10.4355,
      "loss/crossentropy": 2.282769203186035,
      "loss/hidden": 4.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.353266179561615,
      "step": 362
    },
    {
      "epoch": 0.02275,
      "grad_norm": 5.40625,
      "grad_norm_var": 0.13072916666666667,
      "learning_rate": 0.0001,
      "loss": 10.3682,
      "loss/crossentropy": 2.3975025415420532,
      "loss/hidden": 4.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3848300874233246,
      "step": 364
    },
    {
      "epoch": 0.022875,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.13717447916666667,
      "learning_rate": 0.0001,
      "loss": 10.3197,
      "loss/crossentropy": 2.5082876682281494,
      "loss/hidden": 4.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.38546115159988403,
      "step": 366
    },
    {
      "epoch": 0.023,
      "grad_norm": 5.75,
      "grad_norm_var": 0.23873697916666667,
      "learning_rate": 0.0001,
      "loss": 10.0812,
      "loss/crossentropy": 2.3333388566970825,
      "loss/hidden": 4.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35471296310424805,
      "step": 368
    },
    {
      "epoch": 0.023125,
      "grad_norm": 7.78125,
      "grad_norm_var": 0.6998697916666666,
      "learning_rate": 0.0001,
      "loss": 10.6427,
      "loss/crossentropy": 2.568707585334778,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3596802055835724,
      "step": 370
    },
    {
      "epoch": 0.02325,
      "grad_norm": 5.3125,
      "grad_norm_var": 0.73492431640625,
      "learning_rate": 0.0001,
      "loss": 10.3651,
      "loss/crossentropy": 2.393819808959961,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3487332612276077,
      "step": 372
    },
    {
      "epoch": 0.023375,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.7124348958333333,
      "learning_rate": 0.0001,
      "loss": 10.2767,
      "loss/crossentropy": 2.472244381904602,
      "loss/hidden": 4.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.40489913523197174,
      "step": 374
    },
    {
      "epoch": 0.0235,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.7247029622395833,
      "learning_rate": 0.0001,
      "loss": 10.1461,
      "loss/crossentropy": 2.2458752393722534,
      "loss/hidden": 4.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3645085096359253,
      "step": 376
    },
    {
      "epoch": 0.023625,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.77890625,
      "learning_rate": 0.0001,
      "loss": 10.2872,
      "loss/crossentropy": 2.1981548070907593,
      "loss/hidden": 4.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.38387705385684967,
      "step": 378
    },
    {
      "epoch": 0.02375,
      "grad_norm": 4.84375,
      "grad_norm_var": 0.7771443684895833,
      "learning_rate": 0.0001,
      "loss": 10.1281,
      "loss/crossentropy": 2.4362692832946777,
      "loss/hidden": 4.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3760421574115753,
      "step": 380
    },
    {
      "epoch": 0.023875,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.7679972330729167,
      "learning_rate": 0.0001,
      "loss": 10.2042,
      "loss/crossentropy": 2.4601200819015503,
      "loss/hidden": 4.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3811968266963959,
      "step": 382
    },
    {
      "epoch": 0.024,
      "grad_norm": 4.875,
      "grad_norm_var": 0.684228515625,
      "learning_rate": 0.0001,
      "loss": 10.2408,
      "loss/crossentropy": 2.6233471632003784,
      "loss/hidden": 4.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36839838325977325,
      "step": 384
    },
    {
      "epoch": 0.024125,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.165478515625,
      "learning_rate": 0.0001,
      "loss": 10.1497,
      "loss/crossentropy": 2.522361993789673,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3934475779533386,
      "step": 386
    },
    {
      "epoch": 0.02425,
      "grad_norm": 4.5,
      "grad_norm_var": 0.14563395182291666,
      "learning_rate": 0.0001,
      "loss": 10.1857,
      "loss/crossentropy": 2.573809266090393,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.375105544924736,
      "step": 388
    },
    {
      "epoch": 0.024375,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.13203125,
      "learning_rate": 0.0001,
      "loss": 10.0545,
      "loss/crossentropy": 2.458760142326355,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.348113551735878,
      "step": 390
    },
    {
      "epoch": 0.0245,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.13248291015625,
      "learning_rate": 0.0001,
      "loss": 10.1765,
      "loss/crossentropy": 2.8183611631393433,
      "loss/hidden": 4.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.39342811703681946,
      "step": 392
    },
    {
      "epoch": 0.024625,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.11769205729166667,
      "learning_rate": 0.0001,
      "loss": 10.0009,
      "loss/crossentropy": 2.2332464456558228,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3468857705593109,
      "step": 394
    },
    {
      "epoch": 0.02475,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.14143473307291668,
      "learning_rate": 0.0001,
      "loss": 9.9097,
      "loss/crossentropy": 2.3098992109298706,
      "loss/hidden": 4.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3603272885084152,
      "step": 396
    },
    {
      "epoch": 0.024875,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.15129801432291667,
      "learning_rate": 0.0001,
      "loss": 10.1234,
      "loss/crossentropy": 2.1571128964424133,
      "loss/hidden": 4.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3672170788049698,
      "step": 398
    },
    {
      "epoch": 0.025,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.11464436848958333,
      "learning_rate": 0.0001,
      "loss": 10.1366,
      "loss/crossentropy": 2.3940361738204956,
      "loss/hidden": 3.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3588118702173233,
      "step": 400
    },
    {
      "epoch": 0.025125,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.1046875,
      "learning_rate": 0.0001,
      "loss": 10.248,
      "loss/crossentropy": 2.4594138860702515,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3485400527715683,
      "step": 402
    },
    {
      "epoch": 0.02525,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.10377197265625,
      "learning_rate": 0.0001,
      "loss": 10.0681,
      "loss/crossentropy": 2.524109125137329,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3557968735694885,
      "step": 404
    },
    {
      "epoch": 0.025375,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.10859375,
      "learning_rate": 0.0001,
      "loss": 10.0777,
      "loss/crossentropy": 2.3012895584106445,
      "loss/hidden": 4.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34439629316329956,
      "step": 406
    },
    {
      "epoch": 0.0255,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.11404622395833333,
      "learning_rate": 0.0001,
      "loss": 9.8043,
      "loss/crossentropy": 2.4211593866348267,
      "loss/hidden": 3.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3732890635728836,
      "step": 408
    },
    {
      "epoch": 0.025625,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.11438395182291666,
      "learning_rate": 0.0001,
      "loss": 9.9315,
      "loss/crossentropy": 2.582412362098694,
      "loss/hidden": 3.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36784547567367554,
      "step": 410
    },
    {
      "epoch": 0.02575,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.07857666015625,
      "learning_rate": 0.0001,
      "loss": 9.9946,
      "loss/crossentropy": 2.525751233100891,
      "loss/hidden": 3.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3565828502178192,
      "step": 412
    },
    {
      "epoch": 0.025875,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.092578125,
      "learning_rate": 0.0001,
      "loss": 10.2235,
      "loss/crossentropy": 2.670364737510681,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4017476439476013,
      "step": 414
    },
    {
      "epoch": 0.026,
      "grad_norm": 4.4375,
      "grad_norm_var": 0.08396809895833333,
      "learning_rate": 0.0001,
      "loss": 9.8333,
      "loss/crossentropy": 2.3298041820526123,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3325035125017166,
      "step": 416
    },
    {
      "epoch": 0.026125,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.08318684895833334,
      "learning_rate": 0.0001,
      "loss": 10.0788,
      "loss/crossentropy": 2.240808844566345,
      "loss/hidden": 3.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33864179253578186,
      "step": 418
    },
    {
      "epoch": 0.02625,
      "grad_norm": 4.4375,
      "grad_norm_var": 0.06643473307291667,
      "learning_rate": 0.0001,
      "loss": 9.933,
      "loss/crossentropy": 2.397716999053955,
      "loss/hidden": 3.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3628341108560562,
      "step": 420
    },
    {
      "epoch": 0.026375,
      "grad_norm": 4.375,
      "grad_norm_var": 0.06901041666666667,
      "learning_rate": 0.0001,
      "loss": 10.0998,
      "loss/crossentropy": 2.4601176977157593,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3522925227880478,
      "step": 422
    },
    {
      "epoch": 0.0265,
      "grad_norm": 5.5,
      "grad_norm_var": 0.15636393229166667,
      "learning_rate": 0.0001,
      "loss": 10.1351,
      "loss/crossentropy": 2.4023250341415405,
      "loss/hidden": 4.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37351013720035553,
      "step": 424
    },
    {
      "epoch": 0.026625,
      "grad_norm": 4.71875,
      "grad_norm_var": 0.16990559895833332,
      "learning_rate": 0.0001,
      "loss": 10.0776,
      "loss/crossentropy": 2.271855592727661,
      "loss/hidden": 4.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3706711381673813,
      "step": 426
    },
    {
      "epoch": 0.02675,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.17908426920572917,
      "learning_rate": 0.0001,
      "loss": 9.7587,
      "loss/crossentropy": 2.0610432028770447,
      "loss/hidden": 4.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3243980407714844,
      "step": 428
    },
    {
      "epoch": 0.026875,
      "grad_norm": 5.21875,
      "grad_norm_var": 0.20093485514322917,
      "learning_rate": 0.0001,
      "loss": 9.8788,
      "loss/crossentropy": 2.4309468269348145,
      "loss/hidden": 4.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.4062986671924591,
      "step": 430
    },
    {
      "epoch": 0.027,
      "grad_norm": 4.65625,
      "grad_norm_var": 0.20027567545572916,
      "learning_rate": 0.0001,
      "loss": 10.0082,
      "loss/crossentropy": 2.4598418474197388,
      "loss/hidden": 3.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.4272041916847229,
      "step": 432
    },
    {
      "epoch": 0.027125,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.21314188639322917,
      "learning_rate": 0.0001,
      "loss": 9.9003,
      "loss/crossentropy": 2.539934992790222,
      "loss/hidden": 3.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35184885561466217,
      "step": 434
    },
    {
      "epoch": 0.02725,
      "grad_norm": 4.625,
      "grad_norm_var": 0.20462137858072918,
      "learning_rate": 0.0001,
      "loss": 9.9416,
      "loss/crossentropy": 2.269451856613159,
      "loss/hidden": 3.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35347896814346313,
      "step": 436
    },
    {
      "epoch": 0.027375,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.1935455322265625,
      "learning_rate": 0.0001,
      "loss": 9.9578,
      "loss/crossentropy": 2.281239867210388,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3409070521593094,
      "step": 438
    },
    {
      "epoch": 0.0275,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.1381988525390625,
      "learning_rate": 0.0001,
      "loss": 9.8183,
      "loss/crossentropy": 2.2763094305992126,
      "loss/hidden": 3.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3811110109090805,
      "step": 440
    },
    {
      "epoch": 0.027625,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.1252593994140625,
      "learning_rate": 0.0001,
      "loss": 9.833,
      "loss/crossentropy": 2.5895315408706665,
      "loss/hidden": 4.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.36611178517341614,
      "step": 442
    },
    {
      "epoch": 0.02775,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.10857747395833334,
      "learning_rate": 0.0001,
      "loss": 9.7918,
      "loss/crossentropy": 2.1158281564712524,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3374405652284622,
      "step": 444
    },
    {
      "epoch": 0.027875,
      "grad_norm": 5.96875,
      "grad_norm_var": 0.20597330729166666,
      "learning_rate": 0.0001,
      "loss": 9.9942,
      "loss/crossentropy": 2.446805953979492,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37695541977882385,
      "step": 446
    },
    {
      "epoch": 0.028,
      "grad_norm": 5.3125,
      "grad_norm_var": 0.24869791666666666,
      "learning_rate": 0.0001,
      "loss": 10.0719,
      "loss/crossentropy": 2.5359551906585693,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3757418543100357,
      "step": 448
    },
    {
      "epoch": 0.028125,
      "grad_norm": 4.125,
      "grad_norm_var": 0.24947916666666667,
      "learning_rate": 0.0001,
      "loss": 9.8412,
      "loss/crossentropy": 2.656207323074341,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.42010098695755005,
      "step": 450
    },
    {
      "epoch": 0.02825,
      "grad_norm": 5.125,
      "grad_norm_var": 0.26568603515625,
      "learning_rate": 0.0001,
      "loss": 9.8241,
      "loss/crossentropy": 2.4152743816375732,
      "loss/hidden": 3.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3626774847507477,
      "step": 452
    },
    {
      "epoch": 0.028375,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.26858317057291664,
      "learning_rate": 0.0001,
      "loss": 10.136,
      "loss/crossentropy": 2.4247626066207886,
      "loss/hidden": 4.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.36247318983078003,
      "step": 454
    },
    {
      "epoch": 0.0285,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.2647939046223958,
      "learning_rate": 0.0001,
      "loss": 9.8054,
      "loss/crossentropy": 2.523893713951111,
      "loss/hidden": 3.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3691753149032593,
      "step": 456
    },
    {
      "epoch": 0.028625,
      "grad_norm": 5.875,
      "grad_norm_var": 0.6781646728515625,
      "learning_rate": 0.0001,
      "loss": 10.0115,
      "loss/crossentropy": 2.2744319438934326,
      "loss/hidden": 3.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3499785512685776,
      "step": 458
    },
    {
      "epoch": 0.02875,
      "grad_norm": 4.96875,
      "grad_norm_var": 0.7750885009765625,
      "learning_rate": 0.0001,
      "loss": 9.8553,
      "loss/crossentropy": 2.383001685142517,
      "loss/hidden": 3.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34379810094833374,
      "step": 460
    },
    {
      "epoch": 0.028875,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.7739084879557292,
      "learning_rate": 0.0001,
      "loss": 9.9509,
      "loss/crossentropy": 2.269408345222473,
      "loss/hidden": 4.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.39304040372371674,
      "step": 462
    },
    {
      "epoch": 0.029,
      "grad_norm": 4.625,
      "grad_norm_var": 0.833544921875,
      "learning_rate": 0.0001,
      "loss": 9.8895,
      "loss/crossentropy": 2.305214285850525,
      "loss/hidden": 3.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32623225450515747,
      "step": 464
    },
    {
      "epoch": 0.029125,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.8327799479166667,
      "learning_rate": 0.0001,
      "loss": 9.9362,
      "loss/crossentropy": 2.5358622074127197,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35859355330467224,
      "step": 466
    },
    {
      "epoch": 0.02925,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.8972981770833334,
      "learning_rate": 0.0001,
      "loss": 9.9957,
      "loss/crossentropy": 2.490285634994507,
      "loss/hidden": 4.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35838285088539124,
      "step": 468
    },
    {
      "epoch": 0.029375,
      "grad_norm": 4.84375,
      "grad_norm_var": 0.8911417643229167,
      "learning_rate": 0.0001,
      "loss": 9.9963,
      "loss/crossentropy": 2.388529062271118,
      "loss/hidden": 3.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3805827349424362,
      "step": 470
    },
    {
      "epoch": 0.0295,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.8791575113932292,
      "learning_rate": 0.0001,
      "loss": 9.9093,
      "loss/crossentropy": 2.464060425758362,
      "loss/hidden": 3.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35019560158252716,
      "step": 472
    },
    {
      "epoch": 0.029625,
      "grad_norm": 5.46875,
      "grad_norm_var": 0.37202046712239584,
      "learning_rate": 0.0001,
      "loss": 9.8783,
      "loss/crossentropy": 2.3649709224700928,
      "loss/hidden": 3.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3797526955604553,
      "step": 474
    },
    {
      "epoch": 0.02975,
      "grad_norm": 4.25,
      "grad_norm_var": 0.29755757649739584,
      "learning_rate": 0.0001,
      "loss": 9.8323,
      "loss/crossentropy": 2.4717437028884888,
      "loss/hidden": 3.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35063043236732483,
      "step": 476
    },
    {
      "epoch": 0.029875,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.16384175618489583,
      "learning_rate": 0.0001,
      "loss": 9.9292,
      "loss/crossentropy": 2.5398319959640503,
      "loss/hidden": 4.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37523798644542694,
      "step": 478
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.14685872395833333,
      "learning_rate": 0.0001,
      "loss": 9.7299,
      "loss/crossentropy": 2.080340564250946,
      "loss/hidden": 3.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33192941546440125,
      "step": 480
    },
    {
      "epoch": 0.030125,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.14511311848958333,
      "learning_rate": 0.0001,
      "loss": 9.6576,
      "loss/crossentropy": 2.2822307348251343,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.336023285984993,
      "step": 482
    },
    {
      "epoch": 0.03025,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.1125,
      "learning_rate": 0.0001,
      "loss": 9.5694,
      "loss/crossentropy": 2.286174952983856,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3336353003978729,
      "step": 484
    },
    {
      "epoch": 0.030375,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.13880208333333333,
      "learning_rate": 0.0001,
      "loss": 9.7847,
      "loss/crossentropy": 2.2369834184646606,
      "loss/hidden": 3.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32461969554424286,
      "step": 486
    },
    {
      "epoch": 0.0305,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.16288960774739583,
      "learning_rate": 0.0001,
      "loss": 9.7289,
      "loss/crossentropy": 2.3086917400360107,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.321616530418396,
      "step": 488
    },
    {
      "epoch": 0.030625,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.09160054524739583,
      "learning_rate": 0.0001,
      "loss": 9.8277,
      "loss/crossentropy": 2.3445401191711426,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3501063734292984,
      "step": 490
    },
    {
      "epoch": 0.03075,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.0995513916015625,
      "learning_rate": 0.0001,
      "loss": 9.611,
      "loss/crossentropy": 1.9773722887039185,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30824264883995056,
      "step": 492
    },
    {
      "epoch": 0.030875,
      "grad_norm": 4.25,
      "grad_norm_var": 0.09944559733072916,
      "learning_rate": 0.0001,
      "loss": 9.5735,
      "loss/crossentropy": 2.428261160850525,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.35596518218517303,
      "step": 494
    },
    {
      "epoch": 0.031,
      "grad_norm": 4.125,
      "grad_norm_var": 0.09492085774739584,
      "learning_rate": 0.0001,
      "loss": 9.7677,
      "loss/crossentropy": 2.262718915939331,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33079805970191956,
      "step": 496
    },
    {
      "epoch": 0.031125,
      "grad_norm": 4.5,
      "grad_norm_var": 0.10596415201822916,
      "learning_rate": 0.0001,
      "loss": 9.7701,
      "loss/crossentropy": 2.3702725172042847,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3400324583053589,
      "step": 498
    },
    {
      "epoch": 0.03125,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.13961588541666667,
      "learning_rate": 0.0001,
      "loss": 9.5602,
      "loss/crossentropy": 2.295218586921692,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3482416272163391,
      "step": 500
    },
    {
      "epoch": 0.031375,
      "grad_norm": 5.34375,
      "grad_norm_var": 0.15602213541666668,
      "learning_rate": 0.0001,
      "loss": 10.0544,
      "loss/crossentropy": 2.445479154586792,
      "loss/hidden": 3.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.37152746319770813,
      "step": 502
    },
    {
      "epoch": 0.0315,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.1950836181640625,
      "learning_rate": 0.0001,
      "loss": 9.5511,
      "loss/crossentropy": 2.223459005355835,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32452794909477234,
      "step": 504
    },
    {
      "epoch": 0.031625,
      "grad_norm": 4.5625,
      "grad_norm_var": 0.19709370930989584,
      "learning_rate": 0.0001,
      "loss": 9.8003,
      "loss/crossentropy": 2.6400363445281982,
      "loss/hidden": 3.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3358649015426636,
      "step": 506
    },
    {
      "epoch": 0.03175,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.20300191243489582,
      "learning_rate": 0.0001,
      "loss": 9.7514,
      "loss/crossentropy": 2.548031210899353,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3170333355665207,
      "step": 508
    },
    {
      "epoch": 0.031875,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.21568094889322917,
      "learning_rate": 0.0001,
      "loss": 9.8207,
      "loss/crossentropy": 2.2956899404525757,
      "loss/hidden": 3.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3392469882965088,
      "step": 510
    },
    {
      "epoch": 0.032,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.22424723307291666,
      "learning_rate": 0.0001,
      "loss": 9.6765,
      "loss/crossentropy": 2.353795349597931,
      "loss/hidden": 3.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33590464293956757,
      "step": 512
    },
    {
      "epoch": 0.032125,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.23311258951822916,
      "learning_rate": 0.0001,
      "loss": 9.5705,
      "loss/crossentropy": 2.3682990074157715,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3214150220155716,
      "step": 514
    },
    {
      "epoch": 0.03225,
      "grad_norm": 4.375,
      "grad_norm_var": 0.19153238932291666,
      "learning_rate": 0.0001,
      "loss": 9.5203,
      "loss/crossentropy": 2.2625592947006226,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35527725517749786,
      "step": 516
    },
    {
      "epoch": 0.032375,
      "grad_norm": 4.78125,
      "grad_norm_var": 0.16765950520833334,
      "learning_rate": 0.0001,
      "loss": 9.7962,
      "loss/crossentropy": 2.4448131322860718,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33070215582847595,
      "step": 518
    },
    {
      "epoch": 0.0325,
      "grad_norm": 3.875,
      "grad_norm_var": 0.143310546875,
      "learning_rate": 0.0001,
      "loss": 9.6837,
      "loss/crossentropy": 2.3028098344802856,
      "loss/hidden": 3.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34870584309101105,
      "step": 520
    },
    {
      "epoch": 0.032625,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.16155497233072916,
      "learning_rate": 0.0001,
      "loss": 9.5805,
      "loss/crossentropy": 2.181080639362335,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.332154244184494,
      "step": 522
    },
    {
      "epoch": 0.03275,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.1529937744140625,
      "learning_rate": 0.0001,
      "loss": 9.5179,
      "loss/crossentropy": 2.337011694908142,
      "loss/hidden": 3.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3419201970100403,
      "step": 524
    },
    {
      "epoch": 0.032875,
      "grad_norm": 4.5,
      "grad_norm_var": 0.3694976806640625,
      "learning_rate": 0.0001,
      "loss": 9.6365,
      "loss/crossentropy": 2.354939341545105,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35222889482975006,
      "step": 526
    },
    {
      "epoch": 0.033,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.41142476399739586,
      "learning_rate": 0.0001,
      "loss": 9.4276,
      "loss/crossentropy": 2.2241241931915283,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32786163687705994,
      "step": 528
    },
    {
      "epoch": 0.033125,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.3993886311848958,
      "learning_rate": 0.0001,
      "loss": 9.5245,
      "loss/crossentropy": 2.4617063999176025,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.36403751373291016,
      "step": 530
    },
    {
      "epoch": 0.03325,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.4066396077473958,
      "learning_rate": 0.0001,
      "loss": 9.5201,
      "loss/crossentropy": 2.2278032302856445,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3158974349498749,
      "step": 532
    },
    {
      "epoch": 0.033375,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.3785634358723958,
      "learning_rate": 0.0001,
      "loss": 9.6706,
      "loss/crossentropy": 2.464658737182617,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3708791136741638,
      "step": 534
    },
    {
      "epoch": 0.0335,
      "grad_norm": 4.25,
      "grad_norm_var": 0.34780985514322915,
      "learning_rate": 0.0001,
      "loss": 9.4853,
      "loss/crossentropy": 2.659584403038025,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.3422502875328064,
      "step": 536
    },
    {
      "epoch": 0.033625,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.3409830729166667,
      "learning_rate": 0.0001,
      "loss": 9.5004,
      "loss/crossentropy": 2.3510810136795044,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3363768756389618,
      "step": 538
    },
    {
      "epoch": 0.03375,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.3513336181640625,
      "learning_rate": 0.0001,
      "loss": 9.6363,
      "loss/crossentropy": 2.4384061098098755,
      "loss/hidden": 3.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3327721059322357,
      "step": 540
    },
    {
      "epoch": 0.033875,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.08550516764322917,
      "learning_rate": 0.0001,
      "loss": 9.628,
      "loss/crossentropy": 2.435794949531555,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.3326384872198105,
      "step": 542
    },
    {
      "epoch": 0.034,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.06864827473958333,
      "learning_rate": 0.0001,
      "loss": 9.6422,
      "loss/crossentropy": 2.430909752845764,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33669474720954895,
      "step": 544
    },
    {
      "epoch": 0.034125,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.06433817545572916,
      "learning_rate": 0.0001,
      "loss": 9.4545,
      "loss/crossentropy": 2.4339792728424072,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33400970697402954,
      "step": 546
    },
    {
      "epoch": 0.03425,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.060334269205729166,
      "learning_rate": 0.0001,
      "loss": 9.6066,
      "loss/crossentropy": 2.601755380630493,
      "loss/hidden": 3.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3572891056537628,
      "step": 548
    },
    {
      "epoch": 0.034375,
      "grad_norm": 4.75,
      "grad_norm_var": 0.06419169108072917,
      "learning_rate": 0.0001,
      "loss": 9.5364,
      "loss/crossentropy": 2.263180732727051,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33265452086925507,
      "step": 550
    },
    {
      "epoch": 0.0345,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.05921122233072917,
      "learning_rate": 0.0001,
      "loss": 9.4317,
      "loss/crossentropy": 2.6668169498443604,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3484792411327362,
      "step": 552
    },
    {
      "epoch": 0.034625,
      "grad_norm": 4.0,
      "grad_norm_var": 0.05729878743489583,
      "learning_rate": 0.0001,
      "loss": 9.5416,
      "loss/crossentropy": 2.488753318786621,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3451061546802521,
      "step": 554
    },
    {
      "epoch": 0.03475,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.06444905598958334,
      "learning_rate": 0.0001,
      "loss": 9.3819,
      "loss/crossentropy": 2.5572561025619507,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3529306650161743,
      "step": 556
    },
    {
      "epoch": 0.034875,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.06443684895833333,
      "learning_rate": 0.0001,
      "loss": 9.6456,
      "loss/crossentropy": 2.3274362087249756,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3618105351924896,
      "step": 558
    },
    {
      "epoch": 0.035,
      "grad_norm": 4.34375,
      "grad_norm_var": 0.059370930989583334,
      "learning_rate": 0.0001,
      "loss": 9.4529,
      "loss/crossentropy": 2.5755836963653564,
      "loss/hidden": 3.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3374823033809662,
      "step": 560
    },
    {
      "epoch": 0.035125,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.0757232666015625,
      "learning_rate": 0.0001,
      "loss": 9.5006,
      "loss/crossentropy": 2.291811466217041,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.33205731213092804,
      "step": 562
    },
    {
      "epoch": 0.03525,
      "grad_norm": 4.125,
      "grad_norm_var": 0.07857666015625,
      "learning_rate": 0.0001,
      "loss": 9.4801,
      "loss/crossentropy": 2.378532886505127,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31333786249160767,
      "step": 564
    },
    {
      "epoch": 0.035375,
      "grad_norm": 4.46875,
      "grad_norm_var": 0.07685546875,
      "learning_rate": 0.0001,
      "loss": 9.425,
      "loss/crossentropy": 2.368729591369629,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29723505675792694,
      "step": 566
    },
    {
      "epoch": 0.0355,
      "grad_norm": 3.890625,
      "grad_norm_var": 0.0939605712890625,
      "learning_rate": 0.0001,
      "loss": 9.3256,
      "loss/crossentropy": 2.359733462333679,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3121738135814667,
      "step": 568
    },
    {
      "epoch": 0.035625,
      "grad_norm": 4.9375,
      "grad_norm_var": 0.1553131103515625,
      "learning_rate": 0.0001,
      "loss": 9.4416,
      "loss/crossentropy": 2.315782904624939,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3432431221008301,
      "step": 570
    },
    {
      "epoch": 0.03575,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.19507548014322917,
      "learning_rate": 0.0001,
      "loss": 9.5614,
      "loss/crossentropy": 2.3565382957458496,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32801851630210876,
      "step": 572
    },
    {
      "epoch": 0.035875,
      "grad_norm": 4.25,
      "grad_norm_var": 0.19041239420572917,
      "learning_rate": 0.0001,
      "loss": 9.3502,
      "loss/crossentropy": 2.354498505592346,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.34335146844387054,
      "step": 574
    },
    {
      "epoch": 0.036,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.1861968994140625,
      "learning_rate": 0.0001,
      "loss": 9.4591,
      "loss/crossentropy": 2.2208141088485718,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32215404510498047,
      "step": 576
    },
    {
      "epoch": 0.036125,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.17675374348958334,
      "learning_rate": 0.0001,
      "loss": 9.5684,
      "loss/crossentropy": 2.1560009717941284,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3317830264568329,
      "step": 578
    },
    {
      "epoch": 0.03625,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.1708648681640625,
      "learning_rate": 0.0001,
      "loss": 9.384,
      "loss/crossentropy": 2.254258155822754,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34166762232780457,
      "step": 580
    },
    {
      "epoch": 0.036375,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.14008687337239584,
      "learning_rate": 0.0001,
      "loss": 9.4391,
      "loss/crossentropy": 2.193941831588745,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3121718168258667,
      "step": 582
    },
    {
      "epoch": 0.0365,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.13092041015625,
      "learning_rate": 0.0001,
      "loss": 9.5948,
      "loss/crossentropy": 2.610209345817566,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.35641224682331085,
      "step": 584
    },
    {
      "epoch": 0.036625,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.04394124348958333,
      "learning_rate": 0.0001,
      "loss": 9.334,
      "loss/crossentropy": 2.173751473426819,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3093992620706558,
      "step": 586
    },
    {
      "epoch": 0.03675,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.021141560872395833,
      "learning_rate": 0.0001,
      "loss": 9.3647,
      "loss/crossentropy": 2.6784013509750366,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3435199409723282,
      "step": 588
    },
    {
      "epoch": 0.036875,
      "grad_norm": 4.375,
      "grad_norm_var": 0.028416951497395832,
      "learning_rate": 0.0001,
      "loss": 9.6858,
      "loss/crossentropy": 2.5606144666671753,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3252936899662018,
      "step": 590
    },
    {
      "epoch": 0.037,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.07421773274739583,
      "learning_rate": 0.0001,
      "loss": 9.1905,
      "loss/crossentropy": 2.5036474466323853,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3341420292854309,
      "step": 592
    },
    {
      "epoch": 0.037125,
      "grad_norm": 4.0,
      "grad_norm_var": 0.07280171712239583,
      "learning_rate": 0.0001,
      "loss": 9.2089,
      "loss/crossentropy": 2.138327479362488,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3032035082578659,
      "step": 594
    },
    {
      "epoch": 0.03725,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.11728515625,
      "learning_rate": 0.0001,
      "loss": 9.1876,
      "loss/crossentropy": 2.0817145109176636,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28961437940597534,
      "step": 596
    },
    {
      "epoch": 0.037375,
      "grad_norm": 4.40625,
      "grad_norm_var": 0.127685546875,
      "learning_rate": 0.0001,
      "loss": 9.5,
      "loss/crossentropy": 2.231162667274475,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32542233169078827,
      "step": 598
    },
    {
      "epoch": 0.0375,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.12625325520833333,
      "learning_rate": 0.0001,
      "loss": 9.4883,
      "loss/crossentropy": 2.279044270515442,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30954092741012573,
      "step": 600
    },
    {
      "epoch": 0.037625,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.12911783854166667,
      "learning_rate": 0.0001,
      "loss": 9.5667,
      "loss/crossentropy": 2.124338150024414,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3287663906812668,
      "step": 602
    },
    {
      "epoch": 0.03775,
      "grad_norm": 4.4375,
      "grad_norm_var": 0.1248443603515625,
      "learning_rate": 0.0001,
      "loss": 9.5844,
      "loss/crossentropy": 2.5788776874542236,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34556926786899567,
      "step": 604
    },
    {
      "epoch": 0.037875,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.15191650390625,
      "learning_rate": 0.0001,
      "loss": 9.4029,
      "loss/crossentropy": 2.511660575866699,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31718502938747406,
      "step": 606
    },
    {
      "epoch": 0.038,
      "grad_norm": 4.6875,
      "grad_norm_var": 0.13528238932291667,
      "learning_rate": 0.0001,
      "loss": 9.4312,
      "loss/crossentropy": 2.558152675628662,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3450692296028137,
      "step": 608
    },
    {
      "epoch": 0.038125,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.13547261555989584,
      "learning_rate": 0.0001,
      "loss": 9.2833,
      "loss/crossentropy": 2.2010965943336487,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33724747598171234,
      "step": 610
    },
    {
      "epoch": 0.03825,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.098974609375,
      "learning_rate": 0.0001,
      "loss": 9.4903,
      "loss/crossentropy": 2.499935030937195,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3286616951227188,
      "step": 612
    },
    {
      "epoch": 0.038375,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.08684488932291666,
      "learning_rate": 0.0001,
      "loss": 9.3714,
      "loss/crossentropy": 2.29742568731308,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3321594297885895,
      "step": 614
    },
    {
      "epoch": 0.0385,
      "grad_norm": 4.4375,
      "grad_norm_var": 0.10472005208333333,
      "learning_rate": 0.0001,
      "loss": 9.2124,
      "loss/crossentropy": 2.2705591917037964,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33022937178611755,
      "step": 616
    },
    {
      "epoch": 0.038625,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.105615234375,
      "learning_rate": 0.0001,
      "loss": 9.3996,
      "loss/crossentropy": 2.5177834033966064,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33882059156894684,
      "step": 618
    },
    {
      "epoch": 0.03875,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.09058329264322916,
      "learning_rate": 0.0001,
      "loss": 9.3251,
      "loss/crossentropy": 2.3914138078689575,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.300808310508728,
      "step": 620
    },
    {
      "epoch": 0.038875,
      "grad_norm": 4.84375,
      "grad_norm_var": 0.107177734375,
      "learning_rate": 0.0001,
      "loss": 9.4366,
      "loss/crossentropy": 2.4114054441452026,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3568413257598877,
      "step": 622
    },
    {
      "epoch": 0.039,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.08601786295572916,
      "learning_rate": 0.0001,
      "loss": 9.1418,
      "loss/crossentropy": 2.3419090509414673,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31717973947525024,
      "step": 624
    },
    {
      "epoch": 0.039125,
      "grad_norm": 4.25,
      "grad_norm_var": 0.09462890625,
      "learning_rate": 0.0001,
      "loss": 9.4373,
      "loss/crossentropy": 2.64203143119812,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33858008682727814,
      "step": 626
    },
    {
      "epoch": 0.03925,
      "grad_norm": 3.625,
      "grad_norm_var": 0.10220947265625,
      "learning_rate": 0.0001,
      "loss": 9.3278,
      "loss/crossentropy": 2.0542389154434204,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30543386936187744,
      "step": 628
    },
    {
      "epoch": 0.039375,
      "grad_norm": 3.875,
      "grad_norm_var": 0.13300679524739584,
      "learning_rate": 0.0001,
      "loss": 9.2397,
      "loss/crossentropy": 2.4575854539871216,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3102063983678818,
      "step": 630
    },
    {
      "epoch": 0.0395,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.1220611572265625,
      "learning_rate": 0.0001,
      "loss": 9.3452,
      "loss/crossentropy": 2.3602949380874634,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.323737695813179,
      "step": 632
    },
    {
      "epoch": 0.039625,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.12845052083333333,
      "learning_rate": 0.0001,
      "loss": 9.2681,
      "loss/crossentropy": 2.507497191429138,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3275406062602997,
      "step": 634
    },
    {
      "epoch": 0.03975,
      "grad_norm": 4.25,
      "grad_norm_var": 0.13587137858072917,
      "learning_rate": 0.0001,
      "loss": 9.36,
      "loss/crossentropy": 2.2765142917633057,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31396952271461487,
      "step": 636
    },
    {
      "epoch": 0.039875,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.10793863932291667,
      "learning_rate": 0.0001,
      "loss": 9.2294,
      "loss/crossentropy": 2.341191053390503,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32686179876327515,
      "step": 638
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.8125,
      "grad_norm_var": 0.1619781494140625,
      "learning_rate": 0.0001,
      "loss": 9.2556,
      "loss/crossentropy": 2.252098858356476,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3205975890159607,
      "step": 640
    },
    {
      "epoch": 0.040125,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.20991109212239584,
      "learning_rate": 0.0001,
      "loss": 9.3137,
      "loss/crossentropy": 2.2994823455810547,
      "loss/hidden": 3.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34002968668937683,
      "step": 642
    },
    {
      "epoch": 0.04025,
      "grad_norm": 4.375,
      "grad_norm_var": 0.21840718587239583,
      "learning_rate": 0.0001,
      "loss": 9.1512,
      "loss/crossentropy": 2.5480741262435913,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33601297438144684,
      "step": 644
    },
    {
      "epoch": 0.040375,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.23454488118489583,
      "learning_rate": 0.0001,
      "loss": 9.3808,
      "loss/crossentropy": 2.524424910545349,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3395262509584427,
      "step": 646
    },
    {
      "epoch": 0.0405,
      "grad_norm": 3.75,
      "grad_norm_var": 0.23319905598958332,
      "learning_rate": 0.0001,
      "loss": 9.1816,
      "loss/crossentropy": 2.2198326587677,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33485807478427887,
      "step": 648
    },
    {
      "epoch": 0.040625,
      "grad_norm": 4.125,
      "grad_norm_var": 0.23205973307291666,
      "learning_rate": 0.0001,
      "loss": 9.252,
      "loss/crossentropy": 2.5186063051223755,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.33504799008369446,
      "step": 650
    },
    {
      "epoch": 0.04075,
      "grad_norm": 3.5,
      "grad_norm_var": 0.23567606608072916,
      "learning_rate": 0.0001,
      "loss": 9.299,
      "loss/crossentropy": 2.3492661714553833,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31913943588733673,
      "step": 652
    },
    {
      "epoch": 0.040875,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.23007405598958333,
      "learning_rate": 0.0001,
      "loss": 9.2997,
      "loss/crossentropy": 2.600319981575012,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32478684186935425,
      "step": 654
    },
    {
      "epoch": 0.041,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.17136942545572917,
      "learning_rate": 0.0001,
      "loss": 9.1048,
      "loss/crossentropy": 2.335653781890869,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3278462737798691,
      "step": 656
    },
    {
      "epoch": 0.041125,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.12332356770833333,
      "learning_rate": 0.0001,
      "loss": 9.2115,
      "loss/crossentropy": 2.223168969154358,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3341253995895386,
      "step": 658
    },
    {
      "epoch": 0.04125,
      "grad_norm": 5.3125,
      "grad_norm_var": 0.252490234375,
      "learning_rate": 0.0001,
      "loss": 9.1622,
      "loss/crossentropy": 2.424691677093506,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3088841736316681,
      "step": 660
    },
    {
      "epoch": 0.041375,
      "grad_norm": 4.625,
      "grad_norm_var": 0.2993072509765625,
      "learning_rate": 0.0001,
      "loss": 9.1041,
      "loss/crossentropy": 2.07004451751709,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2844501733779907,
      "step": 662
    },
    {
      "epoch": 0.0415,
      "grad_norm": 5.03125,
      "grad_norm_var": 0.3312459309895833,
      "learning_rate": 0.0001,
      "loss": 9.3562,
      "loss/crossentropy": 2.32711398601532,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3303475081920624,
      "step": 664
    },
    {
      "epoch": 0.041625,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.48313700358072914,
      "learning_rate": 0.0001,
      "loss": 9.2399,
      "loss/crossentropy": 2.3355051279067993,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.34253838658332825,
      "step": 666
    },
    {
      "epoch": 0.04175,
      "grad_norm": 4.0,
      "grad_norm_var": 0.504443359375,
      "learning_rate": 0.0001,
      "loss": 9.3712,
      "loss/crossentropy": 2.423375368118286,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31640373170375824,
      "step": 668
    },
    {
      "epoch": 0.041875,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.49081624348958336,
      "learning_rate": 0.0001,
      "loss": 9.1568,
      "loss/crossentropy": 2.4355897903442383,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3098563849925995,
      "step": 670
    },
    {
      "epoch": 0.042,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.5179433186848958,
      "learning_rate": 0.0001,
      "loss": 9.0687,
      "loss/crossentropy": 2.151113748550415,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28571945428848267,
      "step": 672
    },
    {
      "epoch": 0.042125,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.45859375,
      "learning_rate": 0.0001,
      "loss": 9.126,
      "loss/crossentropy": 2.1033096313476562,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30395573377609253,
      "step": 674
    },
    {
      "epoch": 0.04225,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.41311848958333336,
      "learning_rate": 0.0001,
      "loss": 9.2339,
      "loss/crossentropy": 2.384363532066345,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3477473706007004,
      "step": 676
    },
    {
      "epoch": 0.042375,
      "grad_norm": 4.0,
      "grad_norm_var": 0.35420633951822916,
      "learning_rate": 0.0001,
      "loss": 9.2017,
      "loss/crossentropy": 2.3887627124786377,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3319309651851654,
      "step": 678
    },
    {
      "epoch": 0.0425,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.28951416015625,
      "learning_rate": 0.0001,
      "loss": 9.0506,
      "loss/crossentropy": 2.3131089210510254,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31970134377479553,
      "step": 680
    },
    {
      "epoch": 0.042625,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.0540191650390625,
      "learning_rate": 0.0001,
      "loss": 9.3033,
      "loss/crossentropy": 2.2213594913482666,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2932916283607483,
      "step": 682
    },
    {
      "epoch": 0.04275,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.04342041015625,
      "learning_rate": 0.0001,
      "loss": 9.1272,
      "loss/crossentropy": 2.343689441680908,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31054770946502686,
      "step": 684
    },
    {
      "epoch": 0.042875,
      "grad_norm": 4.125,
      "grad_norm_var": 0.07541910807291667,
      "learning_rate": 0.0001,
      "loss": 9.0333,
      "loss/crossentropy": 2.426623225212097,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30797363817691803,
      "step": 686
    },
    {
      "epoch": 0.043,
      "grad_norm": 3.75,
      "grad_norm_var": 0.07333577473958333,
      "learning_rate": 0.0001,
      "loss": 9.1961,
      "loss/crossentropy": 2.1243041157722473,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27504249662160873,
      "step": 688
    },
    {
      "epoch": 0.043125,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.07789306640625,
      "learning_rate": 0.0001,
      "loss": 9.3228,
      "loss/crossentropy": 2.2858647108078003,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3059113025665283,
      "step": 690
    },
    {
      "epoch": 0.04325,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.07827046712239584,
      "learning_rate": 0.0001,
      "loss": 9.2223,
      "loss/crossentropy": 2.6258697509765625,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32897868752479553,
      "step": 692
    },
    {
      "epoch": 0.043375,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.0829986572265625,
      "learning_rate": 0.0001,
      "loss": 9.0107,
      "loss/crossentropy": 2.3375871181488037,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30802060663700104,
      "step": 694
    },
    {
      "epoch": 0.0435,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.08065999348958333,
      "learning_rate": 0.0001,
      "loss": 9.1397,
      "loss/crossentropy": 2.27328884601593,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32508768141269684,
      "step": 696
    },
    {
      "epoch": 0.043625,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.07095947265625,
      "learning_rate": 0.0001,
      "loss": 9.0871,
      "loss/crossentropy": 2.3383896350860596,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3195807486772537,
      "step": 698
    },
    {
      "epoch": 0.04375,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.07858784993489583,
      "learning_rate": 0.0001,
      "loss": 9.0647,
      "loss/crossentropy": 1.985029935836792,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2951173782348633,
      "step": 700
    },
    {
      "epoch": 0.043875,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.04241129557291667,
      "learning_rate": 0.0001,
      "loss": 9.2963,
      "loss/crossentropy": 2.236124038696289,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3033126890659332,
      "step": 702
    },
    {
      "epoch": 0.044,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.03899332682291667,
      "learning_rate": 0.0001,
      "loss": 9.4002,
      "loss/crossentropy": 2.3327068090438843,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.35688331723213196,
      "step": 704
    },
    {
      "epoch": 0.044125,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.04415690104166667,
      "learning_rate": 0.0001,
      "loss": 9.1288,
      "loss/crossentropy": 2.185292422771454,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2997971922159195,
      "step": 706
    },
    {
      "epoch": 0.04425,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.048193359375,
      "learning_rate": 0.0001,
      "loss": 9.1816,
      "loss/crossentropy": 2.592350959777832,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3380052447319031,
      "step": 708
    },
    {
      "epoch": 0.044375,
      "grad_norm": 3.625,
      "grad_norm_var": 0.050837198893229164,
      "learning_rate": 0.0001,
      "loss": 9.2751,
      "loss/crossentropy": 2.3508870601654053,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30894704163074493,
      "step": 710
    },
    {
      "epoch": 0.0445,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.05436909993489583,
      "learning_rate": 0.0001,
      "loss": 9.2454,
      "loss/crossentropy": 2.4968451261520386,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3285796344280243,
      "step": 712
    },
    {
      "epoch": 0.044625,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.10283203125,
      "learning_rate": 0.0001,
      "loss": 9.3351,
      "loss/crossentropy": 2.4106976985931396,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32071977853775024,
      "step": 714
    },
    {
      "epoch": 0.04475,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.09908447265625,
      "learning_rate": 0.0001,
      "loss": 9.0656,
      "loss/crossentropy": 2.2552783489227295,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30507735908031464,
      "step": 716
    },
    {
      "epoch": 0.044875,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.09814046223958334,
      "learning_rate": 0.0001,
      "loss": 9.0835,
      "loss/crossentropy": 2.4068862199783325,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31281837821006775,
      "step": 718
    },
    {
      "epoch": 0.045,
      "grad_norm": 3.75,
      "grad_norm_var": 0.17351888020833334,
      "learning_rate": 0.0001,
      "loss": 9.2535,
      "loss/crossentropy": 2.2698957920074463,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3157753646373749,
      "step": 720
    },
    {
      "epoch": 0.045125,
      "grad_norm": 4.25,
      "grad_norm_var": 0.25741780598958336,
      "learning_rate": 0.0001,
      "loss": 9.2178,
      "loss/crossentropy": 2.5466257333755493,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3196914494037628,
      "step": 722
    },
    {
      "epoch": 0.04525,
      "grad_norm": 3.75,
      "grad_norm_var": 0.2650553385416667,
      "learning_rate": 0.0001,
      "loss": 9.0596,
      "loss/crossentropy": 2.259085774421692,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30355823040008545,
      "step": 724
    },
    {
      "epoch": 0.045375,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.2575836181640625,
      "learning_rate": 0.0001,
      "loss": 9.3315,
      "loss/crossentropy": 2.420317769050598,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3066561073064804,
      "step": 726
    },
    {
      "epoch": 0.0455,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.24367574055989583,
      "learning_rate": 0.0001,
      "loss": 9.074,
      "loss/crossentropy": 2.244703531265259,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30555886030197144,
      "step": 728
    },
    {
      "epoch": 0.045625,
      "grad_norm": 3.875,
      "grad_norm_var": 0.21819254557291667,
      "learning_rate": 0.0001,
      "loss": 9.1535,
      "loss/crossentropy": 2.3010120391845703,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30051296949386597,
      "step": 730
    },
    {
      "epoch": 0.04575,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.2000885009765625,
      "learning_rate": 0.0001,
      "loss": 9.2806,
      "loss/crossentropy": 2.0744789838790894,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3020750731229782,
      "step": 732
    },
    {
      "epoch": 0.045875,
      "grad_norm": 4.875,
      "grad_norm_var": 0.2525390625,
      "learning_rate": 0.0001,
      "loss": 9.1755,
      "loss/crossentropy": 2.4247848987579346,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30639201402664185,
      "step": 734
    },
    {
      "epoch": 0.046,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.21112874348958333,
      "learning_rate": 0.0001,
      "loss": 9.2127,
      "loss/crossentropy": 2.228127598762512,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2969563454389572,
      "step": 736
    },
    {
      "epoch": 0.046125,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.12919514973958332,
      "learning_rate": 0.0001,
      "loss": 8.998,
      "loss/crossentropy": 2.3098256587982178,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30860866606235504,
      "step": 738
    },
    {
      "epoch": 0.04625,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.14089253743489583,
      "learning_rate": 0.0001,
      "loss": 8.9791,
      "loss/crossentropy": 2.135189712047577,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3053634464740753,
      "step": 740
    },
    {
      "epoch": 0.046375,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.14488016764322917,
      "learning_rate": 0.0001,
      "loss": 9.0268,
      "loss/crossentropy": 2.4625048637390137,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3120746314525604,
      "step": 742
    },
    {
      "epoch": 0.0465,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.142333984375,
      "learning_rate": 0.0001,
      "loss": 9.1708,
      "loss/crossentropy": 2.1217297315597534,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2820632755756378,
      "step": 744
    },
    {
      "epoch": 0.046625,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.16352437337239584,
      "learning_rate": 0.0001,
      "loss": 8.8857,
      "loss/crossentropy": 2.454026937484741,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28094005584716797,
      "step": 746
    },
    {
      "epoch": 0.04675,
      "grad_norm": 4.5,
      "grad_norm_var": 0.19820556640625,
      "learning_rate": 0.0001,
      "loss": 9.1644,
      "loss/crossentropy": 2.413946032524109,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3286159932613373,
      "step": 748
    },
    {
      "epoch": 0.046875,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.12294514973958333,
      "learning_rate": 0.0001,
      "loss": 8.881,
      "loss/crossentropy": 2.2393068075180054,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30563026666641235,
      "step": 750
    },
    {
      "epoch": 0.047,
      "grad_norm": 3.25,
      "grad_norm_var": 0.11814676920572917,
      "learning_rate": 0.0001,
      "loss": 8.8969,
      "loss/crossentropy": 2.2508221864700317,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2862202823162079,
      "step": 752
    },
    {
      "epoch": 0.047125,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.13244527180989582,
      "learning_rate": 0.0001,
      "loss": 9.265,
      "loss/crossentropy": 2.1571661233901978,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3307356685400009,
      "step": 754
    },
    {
      "epoch": 0.04725,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.13481343587239583,
      "learning_rate": 0.0001,
      "loss": 8.9922,
      "loss/crossentropy": 2.393697500228882,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3230316936969757,
      "step": 756
    },
    {
      "epoch": 0.047375,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.13456624348958332,
      "learning_rate": 0.0001,
      "loss": 8.9217,
      "loss/crossentropy": 2.249446392059326,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2918042242527008,
      "step": 758
    },
    {
      "epoch": 0.0475,
      "grad_norm": 3.75,
      "grad_norm_var": 0.13603413899739583,
      "learning_rate": 0.0001,
      "loss": 9.0298,
      "loss/crossentropy": 2.4479427337646484,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3056575655937195,
      "step": 760
    },
    {
      "epoch": 0.047625,
      "grad_norm": 3.75,
      "grad_norm_var": 0.12724609375,
      "learning_rate": 0.0001,
      "loss": 9.2332,
      "loss/crossentropy": 2.1675299406051636,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.303151935338974,
      "step": 762
    },
    {
      "epoch": 0.04775,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.08153889973958334,
      "learning_rate": 0.0001,
      "loss": 9.0754,
      "loss/crossentropy": 2.5868079662323,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2945869415998459,
      "step": 764
    },
    {
      "epoch": 0.047875,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.07388916015625,
      "learning_rate": 0.0001,
      "loss": 9.141,
      "loss/crossentropy": 2.535553216934204,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32601119577884674,
      "step": 766
    },
    {
      "epoch": 0.048,
      "grad_norm": 4.0625,
      "grad_norm_var": 0.05016276041666667,
      "learning_rate": 0.0001,
      "loss": 9.2516,
      "loss/crossentropy": 2.5762476921081543,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.34192636609077454,
      "step": 768
    },
    {
      "epoch": 0.048125,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.0440582275390625,
      "learning_rate": 0.0001,
      "loss": 9.0968,
      "loss/crossentropy": 2.402553081512451,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3043902814388275,
      "step": 770
    },
    {
      "epoch": 0.04825,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.042801920572916666,
      "learning_rate": 0.0001,
      "loss": 9.0553,
      "loss/crossentropy": 2.4971920251846313,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30807921290397644,
      "step": 772
    },
    {
      "epoch": 0.048375,
      "grad_norm": 3.625,
      "grad_norm_var": 0.043843587239583336,
      "learning_rate": 0.0001,
      "loss": 9.1797,
      "loss/crossentropy": 2.2825552225112915,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31863027811050415,
      "step": 774
    },
    {
      "epoch": 0.0485,
      "grad_norm": 3.625,
      "grad_norm_var": 0.04838765462239583,
      "learning_rate": 0.0001,
      "loss": 8.9698,
      "loss/crossentropy": 2.516672134399414,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31801968812942505,
      "step": 776
    },
    {
      "epoch": 0.048625,
      "grad_norm": 4.125,
      "grad_norm_var": 0.06825764973958333,
      "learning_rate": 0.0001,
      "loss": 8.9749,
      "loss/crossentropy": 2.495086908340454,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31983429193496704,
      "step": 778
    },
    {
      "epoch": 0.04875,
      "grad_norm": 4.28125,
      "grad_norm_var": 0.12460530598958333,
      "learning_rate": 0.0001,
      "loss": 9.1932,
      "loss/crossentropy": 2.3892232179641724,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3304327577352524,
      "step": 780
    },
    {
      "epoch": 0.048875,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.17346598307291666,
      "learning_rate": 0.0001,
      "loss": 9.0205,
      "loss/crossentropy": 2.4275970458984375,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29281261563301086,
      "step": 782
    },
    {
      "epoch": 0.049,
      "grad_norm": 3.90625,
      "grad_norm_var": 0.16988525390625,
      "learning_rate": 0.0001,
      "loss": 9.0345,
      "loss/crossentropy": 2.147684335708618,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30130012333393097,
      "step": 784
    },
    {
      "epoch": 0.049125,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.1740234375,
      "learning_rate": 0.0001,
      "loss": 9.1809,
      "loss/crossentropy": 2.387849450111389,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32018375396728516,
      "step": 786
    },
    {
      "epoch": 0.04925,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.16553446451822917,
      "learning_rate": 0.0001,
      "loss": 8.9704,
      "loss/crossentropy": 2.1901475191116333,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2830745130777359,
      "step": 788
    },
    {
      "epoch": 0.049375,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.17476806640625,
      "learning_rate": 0.0001,
      "loss": 9.0056,
      "loss/crossentropy": 2.476477026939392,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30152270197868347,
      "step": 790
    },
    {
      "epoch": 0.0495,
      "grad_norm": 3.75,
      "grad_norm_var": 0.16788736979166666,
      "learning_rate": 0.0001,
      "loss": 9.2374,
      "loss/crossentropy": 2.4895143508911133,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32273176312446594,
      "step": 792
    },
    {
      "epoch": 0.049625,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.16460673014322916,
      "learning_rate": 0.0001,
      "loss": 8.8151,
      "loss/crossentropy": 2.1444047689437866,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2969019412994385,
      "step": 794
    },
    {
      "epoch": 0.04975,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.06581624348958333,
      "learning_rate": 0.0001,
      "loss": 9.0359,
      "loss/crossentropy": 2.314146399497986,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.297823429107666,
      "step": 796
    },
    {
      "epoch": 0.049875,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.046223958333333336,
      "learning_rate": 0.0001,
      "loss": 8.9617,
      "loss/crossentropy": 2.1535879373550415,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29098525643348694,
      "step": 798
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.04029032389322917,
      "learning_rate": 0.0001,
      "loss": 8.9443,
      "loss/crossentropy": 2.5792254209518433,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30909422039985657,
      "step": 800
    },
    {
      "epoch": 0.050125,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.041258748372395834,
      "learning_rate": 0.0001,
      "loss": 8.9077,
      "loss/crossentropy": 2.387328624725342,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35100018978118896,
      "step": 802
    },
    {
      "epoch": 0.05025,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.0410308837890625,
      "learning_rate": 0.0001,
      "loss": 8.9889,
      "loss/crossentropy": 2.5987643003463745,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2944849133491516,
      "step": 804
    },
    {
      "epoch": 0.050375,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.03965555826822917,
      "learning_rate": 0.0001,
      "loss": 8.688,
      "loss/crossentropy": 2.291478753089905,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3056093603372574,
      "step": 806
    },
    {
      "epoch": 0.0505,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.030744425455729165,
      "learning_rate": 0.0001,
      "loss": 8.8988,
      "loss/crossentropy": 2.281537890434265,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31349045038223267,
      "step": 808
    },
    {
      "epoch": 0.050625,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.026634724934895833,
      "learning_rate": 0.0001,
      "loss": 9.0642,
      "loss/crossentropy": 2.16494482755661,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.307197168469429,
      "step": 810
    },
    {
      "epoch": 0.05075,
      "grad_norm": 3.75,
      "grad_norm_var": 0.019953409830729168,
      "learning_rate": 0.0001,
      "loss": 8.9202,
      "loss/crossentropy": 2.296713352203369,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.30054841935634613,
      "step": 812
    },
    {
      "epoch": 0.050875,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.021012369791666666,
      "learning_rate": 0.0001,
      "loss": 8.8666,
      "loss/crossentropy": 2.0488401055336,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2681543007493019,
      "step": 814
    },
    {
      "epoch": 0.051,
      "grad_norm": 3.75,
      "grad_norm_var": 0.02427978515625,
      "learning_rate": 0.0001,
      "loss": 8.9113,
      "loss/crossentropy": 2.1317135095596313,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2823093831539154,
      "step": 816
    },
    {
      "epoch": 0.051125,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.03144124348958333,
      "learning_rate": 0.0001,
      "loss": 8.9404,
      "loss/crossentropy": 2.3469539880752563,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30824559926986694,
      "step": 818
    },
    {
      "epoch": 0.05125,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.05701395670572917,
      "learning_rate": 0.0001,
      "loss": 9.108,
      "loss/crossentropy": 2.4571563005447388,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31656327843666077,
      "step": 820
    },
    {
      "epoch": 0.051375,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.053141276041666664,
      "learning_rate": 0.0001,
      "loss": 9.0717,
      "loss/crossentropy": 2.3994951248168945,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3029633164405823,
      "step": 822
    },
    {
      "epoch": 0.0515,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.051985677083333334,
      "learning_rate": 0.0001,
      "loss": 8.9063,
      "loss/crossentropy": 2.2581586837768555,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30481448769569397,
      "step": 824
    },
    {
      "epoch": 0.051625,
      "grad_norm": 3.125,
      "grad_norm_var": 0.07155659993489584,
      "learning_rate": 0.0001,
      "loss": 8.8898,
      "loss/crossentropy": 2.071722984313965,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2941209524869919,
      "step": 826
    },
    {
      "epoch": 0.05175,
      "grad_norm": 3.625,
      "grad_norm_var": 0.0892578125,
      "learning_rate": 0.0001,
      "loss": 9.0358,
      "loss/crossentropy": 2.5443246364593506,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29996325075626373,
      "step": 828
    },
    {
      "epoch": 0.051875,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.09868062337239583,
      "learning_rate": 0.0001,
      "loss": 8.9568,
      "loss/crossentropy": 2.384023070335388,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.31264999508857727,
      "step": 830
    },
    {
      "epoch": 0.052,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.0974609375,
      "learning_rate": 0.0001,
      "loss": 8.9013,
      "loss/crossentropy": 2.4286372661590576,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32337459921836853,
      "step": 832
    },
    {
      "epoch": 0.052125,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.08315327962239584,
      "learning_rate": 0.0001,
      "loss": 8.7277,
      "loss/crossentropy": 2.1722983717918396,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3173587769269943,
      "step": 834
    },
    {
      "epoch": 0.05225,
      "grad_norm": 4.03125,
      "grad_norm_var": 0.07082417805989584,
      "learning_rate": 0.0001,
      "loss": 9.0322,
      "loss/crossentropy": 2.6337625980377197,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30448000133037567,
      "step": 836
    },
    {
      "epoch": 0.052375,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.0727203369140625,
      "learning_rate": 0.0001,
      "loss": 8.9959,
      "loss/crossentropy": 2.303470253944397,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.318126916885376,
      "step": 838
    },
    {
      "epoch": 0.0525,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.0729888916015625,
      "learning_rate": 0.0001,
      "loss": 8.7451,
      "loss/crossentropy": 2.295042037963867,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30773746967315674,
      "step": 840
    },
    {
      "epoch": 0.052625,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.0851226806640625,
      "learning_rate": 0.0001,
      "loss": 8.6922,
      "loss/crossentropy": 2.060616612434387,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29626762866973877,
      "step": 842
    },
    {
      "epoch": 0.05275,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.070556640625,
      "learning_rate": 0.0001,
      "loss": 8.9668,
      "loss/crossentropy": 2.2909332513809204,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2921592891216278,
      "step": 844
    },
    {
      "epoch": 0.052875,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.092822265625,
      "learning_rate": 0.0001,
      "loss": 9.1657,
      "loss/crossentropy": 2.5100677013397217,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3154117166996002,
      "step": 846
    },
    {
      "epoch": 0.053,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.09158528645833333,
      "learning_rate": 0.0001,
      "loss": 9.1623,
      "loss/crossentropy": 2.3510499000549316,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28174377977848053,
      "step": 848
    },
    {
      "epoch": 0.053125,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.08963216145833333,
      "learning_rate": 0.0001,
      "loss": 8.8411,
      "loss/crossentropy": 2.361242413520813,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2962343841791153,
      "step": 850
    },
    {
      "epoch": 0.05325,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.08534749348958333,
      "learning_rate": 0.0001,
      "loss": 8.8426,
      "loss/crossentropy": 1.9918023943901062,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26788248866796494,
      "step": 852
    },
    {
      "epoch": 0.053375,
      "grad_norm": 3.25,
      "grad_norm_var": 0.0908111572265625,
      "learning_rate": 0.0001,
      "loss": 8.9666,
      "loss/crossentropy": 2.6088958978652954,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3181132972240448,
      "step": 854
    },
    {
      "epoch": 0.0535,
      "grad_norm": 3.8125,
      "grad_norm_var": 0.09516499837239584,
      "learning_rate": 0.0001,
      "loss": 8.8605,
      "loss/crossentropy": 2.1732386350631714,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3017688989639282,
      "step": 856
    },
    {
      "epoch": 0.053625,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.080029296875,
      "learning_rate": 0.0001,
      "loss": 9.0765,
      "loss/crossentropy": 2.3053905963897705,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28416720032691956,
      "step": 858
    },
    {
      "epoch": 0.05375,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.08489481608072917,
      "learning_rate": 0.0001,
      "loss": 8.9506,
      "loss/crossentropy": 2.3922606706619263,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3041910231113434,
      "step": 860
    },
    {
      "epoch": 0.053875,
      "grad_norm": 3.625,
      "grad_norm_var": 0.059326171875,
      "learning_rate": 0.0001,
      "loss": 8.9744,
      "loss/crossentropy": 2.2312803864479065,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28423628211021423,
      "step": 862
    },
    {
      "epoch": 0.054,
      "grad_norm": 3.5625,
      "grad_norm_var": 0.053938802083333334,
      "learning_rate": 0.0001,
      "loss": 8.8504,
      "loss/crossentropy": 2.4400585889816284,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32312142848968506,
      "step": 864
    },
    {
      "epoch": 0.054125,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.06122639973958333,
      "learning_rate": 0.0001,
      "loss": 8.7439,
      "loss/crossentropy": 2.16322124004364,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3096587359905243,
      "step": 866
    },
    {
      "epoch": 0.05425,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.05967508951822917,
      "learning_rate": 0.0001,
      "loss": 8.7824,
      "loss/crossentropy": 2.2714940309524536,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31225262582302094,
      "step": 868
    },
    {
      "epoch": 0.054375,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.061335245768229164,
      "learning_rate": 0.0001,
      "loss": 8.9188,
      "loss/crossentropy": 2.3233022689819336,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29183535277843475,
      "step": 870
    },
    {
      "epoch": 0.0545,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.060628255208333336,
      "learning_rate": 0.0001,
      "loss": 8.8018,
      "loss/crossentropy": 2.1473275423049927,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.302778959274292,
      "step": 872
    },
    {
      "epoch": 0.054625,
      "grad_norm": 3.5,
      "grad_norm_var": 0.04723307291666667,
      "learning_rate": 0.0001,
      "loss": 8.7291,
      "loss/crossentropy": 2.10613477230072,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2919985055923462,
      "step": 874
    },
    {
      "epoch": 0.05475,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.04791259765625,
      "learning_rate": 0.0001,
      "loss": 8.8805,
      "loss/crossentropy": 2.391135811805725,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.303908035159111,
      "step": 876
    },
    {
      "epoch": 0.054875,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.07213134765625,
      "learning_rate": 0.0001,
      "loss": 8.9757,
      "loss/crossentropy": 2.191763758659363,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29602205753326416,
      "step": 878
    },
    {
      "epoch": 0.055,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0880859375,
      "learning_rate": 0.0001,
      "loss": 8.9226,
      "loss/crossentropy": 2.3897584676742554,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2984778434038162,
      "step": 880
    },
    {
      "epoch": 0.055125,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.10453999837239583,
      "learning_rate": 0.0001,
      "loss": 8.6909,
      "loss/crossentropy": 2.2274895906448364,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3162970691919327,
      "step": 882
    },
    {
      "epoch": 0.05525,
      "grad_norm": 3.5,
      "grad_norm_var": 0.10286051432291667,
      "learning_rate": 0.0001,
      "loss": 8.7805,
      "loss/crossentropy": 2.238261342048645,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3091089427471161,
      "step": 884
    },
    {
      "epoch": 0.055375,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.09251200358072917,
      "learning_rate": 0.0001,
      "loss": 8.8335,
      "loss/crossentropy": 2.398587703704834,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.30020007491111755,
      "step": 886
    },
    {
      "epoch": 0.0555,
      "grad_norm": 3.125,
      "grad_norm_var": 0.11856180826822917,
      "learning_rate": 0.0001,
      "loss": 8.6695,
      "loss/crossentropy": 2.362698554992676,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3049694448709488,
      "step": 888
    },
    {
      "epoch": 0.055625,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.13857014973958334,
      "learning_rate": 0.0001,
      "loss": 8.8959,
      "loss/crossentropy": 2.483735680580139,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3071689158678055,
      "step": 890
    },
    {
      "epoch": 0.05575,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.1455230712890625,
      "learning_rate": 0.0001,
      "loss": 9.1407,
      "loss/crossentropy": 2.6666314601898193,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3311910331249237,
      "step": 892
    },
    {
      "epoch": 0.055875,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.1199615478515625,
      "learning_rate": 0.0001,
      "loss": 8.8907,
      "loss/crossentropy": 2.3543641567230225,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30659469962120056,
      "step": 894
    },
    {
      "epoch": 0.056,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.11165364583333333,
      "learning_rate": 0.0001,
      "loss": 8.542,
      "loss/crossentropy": 2.442333459854126,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2963842451572418,
      "step": 896
    },
    {
      "epoch": 0.056125,
      "grad_norm": 3.25,
      "grad_norm_var": 0.09463602701822917,
      "learning_rate": 0.0001,
      "loss": 8.8421,
      "loss/crossentropy": 2.5169384479522705,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31081072986125946,
      "step": 898
    },
    {
      "epoch": 0.05625,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.09204813639322916,
      "learning_rate": 0.0001,
      "loss": 8.8349,
      "loss/crossentropy": 2.378996729850769,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2988849878311157,
      "step": 900
    },
    {
      "epoch": 0.056375,
      "grad_norm": 4.0,
      "grad_norm_var": 0.10779520670572916,
      "learning_rate": 0.0001,
      "loss": 8.6611,
      "loss/crossentropy": 2.0278642177581787,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26663029193878174,
      "step": 902
    },
    {
      "epoch": 0.0565,
      "grad_norm": 3.625,
      "grad_norm_var": 0.08515218098958334,
      "learning_rate": 0.0001,
      "loss": 8.8614,
      "loss/crossentropy": 2.3273751735687256,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2889983803033829,
      "step": 904
    },
    {
      "epoch": 0.056625,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.07197265625,
      "learning_rate": 0.0001,
      "loss": 8.8386,
      "loss/crossentropy": 2.0480875372886658,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30192601680755615,
      "step": 906
    },
    {
      "epoch": 0.05675,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.05976155598958333,
      "learning_rate": 0.0001,
      "loss": 9.0464,
      "loss/crossentropy": 2.5360888242721558,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.28871724009513855,
      "step": 908
    },
    {
      "epoch": 0.056875,
      "grad_norm": 3.25,
      "grad_norm_var": 0.060846964518229164,
      "learning_rate": 0.0001,
      "loss": 8.9657,
      "loss/crossentropy": 2.59428608417511,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3197096735239029,
      "step": 910
    },
    {
      "epoch": 0.057,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.062027994791666666,
      "learning_rate": 0.0001,
      "loss": 8.8488,
      "loss/crossentropy": 2.4978867769241333,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.38725124299526215,
      "step": 912
    },
    {
      "epoch": 0.057125,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.060347493489583334,
      "learning_rate": 0.0001,
      "loss": 9.0475,
      "loss/crossentropy": 2.269066333770752,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2860633432865143,
      "step": 914
    },
    {
      "epoch": 0.05725,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.07659505208333334,
      "learning_rate": 0.0001,
      "loss": 8.6945,
      "loss/crossentropy": 2.3426260948181152,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2847317010164261,
      "step": 916
    },
    {
      "epoch": 0.057375,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.055562337239583336,
      "learning_rate": 0.0001,
      "loss": 8.7413,
      "loss/crossentropy": 2.3890886306762695,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2951260507106781,
      "step": 918
    },
    {
      "epoch": 0.0575,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.05225321451822917,
      "learning_rate": 0.0001,
      "loss": 8.726,
      "loss/crossentropy": 2.324913740158081,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2819140702486038,
      "step": 920
    },
    {
      "epoch": 0.057625,
      "grad_norm": 4.375,
      "grad_norm_var": 0.10100809733072917,
      "learning_rate": 0.0001,
      "loss": 8.8514,
      "loss/crossentropy": 2.4282515048980713,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3256274312734604,
      "step": 922
    },
    {
      "epoch": 0.05775,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.10305582682291667,
      "learning_rate": 0.0001,
      "loss": 8.6487,
      "loss/crossentropy": 2.476005434989929,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3199878931045532,
      "step": 924
    },
    {
      "epoch": 0.057875,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.13284098307291667,
      "learning_rate": 0.0001,
      "loss": 8.8988,
      "loss/crossentropy": 2.469366192817688,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2891136407852173,
      "step": 926
    },
    {
      "epoch": 0.058,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.14055989583333334,
      "learning_rate": 0.0001,
      "loss": 8.7523,
      "loss/crossentropy": 2.348281979560852,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27692942321300507,
      "step": 928
    },
    {
      "epoch": 0.058125,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.14073893229166667,
      "learning_rate": 0.0001,
      "loss": 8.5853,
      "loss/crossentropy": 2.1680904626846313,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29489417374134064,
      "step": 930
    },
    {
      "epoch": 0.05825,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.116650390625,
      "learning_rate": 0.0001,
      "loss": 8.7008,
      "loss/crossentropy": 2.139521837234497,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.263563334941864,
      "step": 932
    },
    {
      "epoch": 0.058375,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.13267822265625,
      "learning_rate": 0.0001,
      "loss": 8.8043,
      "loss/crossentropy": 2.522794246673584,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3044002056121826,
      "step": 934
    },
    {
      "epoch": 0.0585,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.12968343098958332,
      "learning_rate": 0.0001,
      "loss": 8.9035,
      "loss/crossentropy": 2.4657033681869507,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30104976892471313,
      "step": 936
    },
    {
      "epoch": 0.058625,
      "grad_norm": 5.53125,
      "grad_norm_var": 0.3282389322916667,
      "learning_rate": 0.0001,
      "loss": 8.9486,
      "loss/crossentropy": 2.3463146686553955,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.303235799074173,
      "step": 938
    },
    {
      "epoch": 0.05875,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.3243479410807292,
      "learning_rate": 0.0001,
      "loss": 8.9808,
      "loss/crossentropy": 2.2249823808670044,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29463791847229004,
      "step": 940
    },
    {
      "epoch": 0.058875,
      "grad_norm": 3.25,
      "grad_norm_var": 0.30130106608072915,
      "learning_rate": 0.0001,
      "loss": 8.67,
      "loss/crossentropy": 2.334540367126465,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30720797181129456,
      "step": 942
    },
    {
      "epoch": 0.059,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.2997029622395833,
      "learning_rate": 0.0001,
      "loss": 8.7021,
      "loss/crossentropy": 2.498934745788574,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2946365475654602,
      "step": 944
    },
    {
      "epoch": 0.059125,
      "grad_norm": 3.71875,
      "grad_norm_var": 0.2964508056640625,
      "learning_rate": 0.0001,
      "loss": 8.7885,
      "loss/crossentropy": 2.0534738898277283,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27286672592163086,
      "step": 946
    },
    {
      "epoch": 0.05925,
      "grad_norm": 3.125,
      "grad_norm_var": 0.3176066080729167,
      "learning_rate": 0.0001,
      "loss": 8.8829,
      "loss/crossentropy": 2.362457275390625,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2855580151081085,
      "step": 948
    },
    {
      "epoch": 0.059375,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.30732320149739584,
      "learning_rate": 0.0001,
      "loss": 8.7018,
      "loss/crossentropy": 2.1891767382621765,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31324711441993713,
      "step": 950
    },
    {
      "epoch": 0.0595,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.31344401041666664,
      "learning_rate": 0.0001,
      "loss": 8.8816,
      "loss/crossentropy": 2.3532931804656982,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30756065249443054,
      "step": 952
    },
    {
      "epoch": 0.059625,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.06813863118489584,
      "learning_rate": 0.0001,
      "loss": 8.7884,
      "loss/crossentropy": 2.365698456764221,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3289715647697449,
      "step": 954
    },
    {
      "epoch": 0.05975,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.0709381103515625,
      "learning_rate": 0.0001,
      "loss": 8.9138,
      "loss/crossentropy": 2.614629626274109,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30402082204818726,
      "step": 956
    },
    {
      "epoch": 0.059875,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.07691650390625,
      "learning_rate": 0.0001,
      "loss": 8.663,
      "loss/crossentropy": 2.109455645084381,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2772120535373688,
      "step": 958
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.0668121337890625,
      "learning_rate": 0.0001,
      "loss": 8.8741,
      "loss/crossentropy": 2.380413055419922,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3016493618488312,
      "step": 960
    },
    {
      "epoch": 0.060125,
      "grad_norm": 3.5,
      "grad_norm_var": 0.06373291015625,
      "learning_rate": 0.0001,
      "loss": 8.9362,
      "loss/crossentropy": 2.506435751914978,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.335014671087265,
      "step": 962
    },
    {
      "epoch": 0.06025,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.0563140869140625,
      "learning_rate": 0.0001,
      "loss": 8.6434,
      "loss/crossentropy": 1.9750906229019165,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2565095126628876,
      "step": 964
    },
    {
      "epoch": 0.060375,
      "grad_norm": 3.75,
      "grad_norm_var": 0.05491434733072917,
      "learning_rate": 0.0001,
      "loss": 8.7565,
      "loss/crossentropy": 2.2668718099594116,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2805168777704239,
      "step": 966
    },
    {
      "epoch": 0.0605,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.044266764322916666,
      "learning_rate": 0.0001,
      "loss": 8.718,
      "loss/crossentropy": 2.2082256078720093,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2930946350097656,
      "step": 968
    },
    {
      "epoch": 0.060625,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.0510894775390625,
      "learning_rate": 0.0001,
      "loss": 8.8922,
      "loss/crossentropy": 2.4699355363845825,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31211861968040466,
      "step": 970
    },
    {
      "epoch": 0.06075,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.07473856608072917,
      "learning_rate": 0.0001,
      "loss": 8.6174,
      "loss/crossentropy": 2.160146117210388,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28759919106960297,
      "step": 972
    },
    {
      "epoch": 0.060875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.07998758951822917,
      "learning_rate": 0.0001,
      "loss": 8.9576,
      "loss/crossentropy": 2.245842933654785,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28311386704444885,
      "step": 974
    },
    {
      "epoch": 0.061,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.07842508951822917,
      "learning_rate": 0.0001,
      "loss": 8.7692,
      "loss/crossentropy": 2.3998042345046997,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29600852727890015,
      "step": 976
    },
    {
      "epoch": 0.061125,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.07856343587239584,
      "learning_rate": 0.0001,
      "loss": 8.7165,
      "loss/crossentropy": 2.4230899810791016,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2921423017978668,
      "step": 978
    },
    {
      "epoch": 0.06125,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.08714090983072917,
      "learning_rate": 0.0001,
      "loss": 8.5009,
      "loss/crossentropy": 2.105591118335724,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2892334759235382,
      "step": 980
    },
    {
      "epoch": 0.061375,
      "grad_norm": 3.671875,
      "grad_norm_var": 0.08603515625,
      "learning_rate": 0.0001,
      "loss": 8.8291,
      "loss/crossentropy": 2.342753052711487,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2922486811876297,
      "step": 982
    },
    {
      "epoch": 0.0615,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.09026285807291666,
      "learning_rate": 0.0001,
      "loss": 8.7629,
      "loss/crossentropy": 2.5545257329940796,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29155534505844116,
      "step": 984
    },
    {
      "epoch": 0.061625,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.08010152180989584,
      "learning_rate": 0.0001,
      "loss": 8.635,
      "loss/crossentropy": 2.390330672264099,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28914259374141693,
      "step": 986
    },
    {
      "epoch": 0.06175,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.039484659830729164,
      "learning_rate": 0.0001,
      "loss": 8.6355,
      "loss/crossentropy": 2.031624495983124,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29533734917640686,
      "step": 988
    },
    {
      "epoch": 0.061875,
      "grad_norm": 3.625,
      "grad_norm_var": 0.04781494140625,
      "learning_rate": 0.0001,
      "loss": 8.8029,
      "loss/crossentropy": 2.1612058877944946,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2922551929950714,
      "step": 990
    },
    {
      "epoch": 0.062,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.06575520833333333,
      "learning_rate": 0.0001,
      "loss": 8.8484,
      "loss/crossentropy": 2.2686573266983032,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28837865591049194,
      "step": 992
    },
    {
      "epoch": 0.062125,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.08382161458333333,
      "learning_rate": 0.0001,
      "loss": 8.9572,
      "loss/crossentropy": 2.4839664697647095,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30035223066806793,
      "step": 994
    },
    {
      "epoch": 0.06225,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.0792388916015625,
      "learning_rate": 0.0001,
      "loss": 8.7334,
      "loss/crossentropy": 2.434647560119629,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30409903824329376,
      "step": 996
    },
    {
      "epoch": 0.062375,
      "grad_norm": 4.09375,
      "grad_norm_var": 0.10009663899739583,
      "learning_rate": 0.0001,
      "loss": 8.7896,
      "loss/crossentropy": 2.349792718887329,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.273041769862175,
      "step": 998
    },
    {
      "epoch": 0.0625,
      "grad_norm": 2.875,
      "grad_norm_var": 0.1135162353515625,
      "learning_rate": 0.0001,
      "loss": 8.7517,
      "loss/crossentropy": 2.424883484840393,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28756730258464813,
      "step": 1000
    },
    {
      "epoch": 0.062625,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.1218414306640625,
      "learning_rate": 0.0001,
      "loss": 8.5904,
      "loss/crossentropy": 2.4634835720062256,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28353893756866455,
      "step": 1002
    },
    {
      "epoch": 0.06275,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.10761311848958334,
      "learning_rate": 0.0001,
      "loss": 8.6432,
      "loss/crossentropy": 2.3544020652770996,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.291437104344368,
      "step": 1004
    },
    {
      "epoch": 0.062875,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.11253255208333333,
      "learning_rate": 0.0001,
      "loss": 8.6969,
      "loss/crossentropy": 2.3183122873306274,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.291623592376709,
      "step": 1006
    },
    {
      "epoch": 0.063,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.10125325520833334,
      "learning_rate": 0.0001,
      "loss": 8.7425,
      "loss/crossentropy": 2.5724557638168335,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3042745739221573,
      "step": 1008
    },
    {
      "epoch": 0.063125,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.08701171875,
      "learning_rate": 0.0001,
      "loss": 8.7429,
      "loss/crossentropy": 2.393343210220337,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28968481719493866,
      "step": 1010
    },
    {
      "epoch": 0.06325,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.0902740478515625,
      "learning_rate": 0.0001,
      "loss": 8.7322,
      "loss/crossentropy": 2.4881935119628906,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3185275048017502,
      "step": 1012
    },
    {
      "epoch": 0.063375,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.05918680826822917,
      "learning_rate": 0.0001,
      "loss": 8.6637,
      "loss/crossentropy": 2.1747263073921204,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27498696744441986,
      "step": 1014
    },
    {
      "epoch": 0.0635,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.09000651041666667,
      "learning_rate": 0.0001,
      "loss": 8.6898,
      "loss/crossentropy": 2.5582990646362305,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3123309761285782,
      "step": 1016
    },
    {
      "epoch": 0.063625,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.10186258951822917,
      "learning_rate": 0.0001,
      "loss": 8.4983,
      "loss/crossentropy": 2.2065166234970093,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2910768985748291,
      "step": 1018
    },
    {
      "epoch": 0.06375,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.10444234212239584,
      "learning_rate": 0.0001,
      "loss": 8.5609,
      "loss/crossentropy": 2.3102041482925415,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2962404191493988,
      "step": 1020
    },
    {
      "epoch": 0.063875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.10598042805989584,
      "learning_rate": 0.0001,
      "loss": 8.619,
      "loss/crossentropy": 2.330891489982605,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.301542192697525,
      "step": 1022
    },
    {
      "epoch": 0.064,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.10001627604166667,
      "learning_rate": 0.0001,
      "loss": 8.4584,
      "loss/crossentropy": 2.4117361307144165,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2964586764574051,
      "step": 1024
    },
    {
      "epoch": 0.064125,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.0966796875,
      "learning_rate": 0.0001,
      "loss": 8.5442,
      "loss/crossentropy": 2.069741904735565,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2646178603172302,
      "step": 1026
    },
    {
      "epoch": 0.06425,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.09484049479166666,
      "learning_rate": 0.0001,
      "loss": 8.7027,
      "loss/crossentropy": 2.4950772523880005,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30084407329559326,
      "step": 1028
    },
    {
      "epoch": 0.064375,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.096923828125,
      "learning_rate": 0.0001,
      "loss": 8.6711,
      "loss/crossentropy": 2.3811144828796387,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2816159278154373,
      "step": 1030
    },
    {
      "epoch": 0.0645,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.03141988118489583,
      "learning_rate": 0.0001,
      "loss": 8.5786,
      "loss/crossentropy": 2.146743893623352,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2715151458978653,
      "step": 1032
    },
    {
      "epoch": 0.064625,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.0274566650390625,
      "learning_rate": 0.0001,
      "loss": 8.6314,
      "loss/crossentropy": 2.453763008117676,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28644131124019623,
      "step": 1034
    },
    {
      "epoch": 0.06475,
      "grad_norm": 3.375,
      "grad_norm_var": 0.024583943684895835,
      "learning_rate": 0.0001,
      "loss": 8.4581,
      "loss/crossentropy": 2.189074158668518,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28300249576568604,
      "step": 1036
    },
    {
      "epoch": 0.064875,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.038102213541666666,
      "learning_rate": 0.0001,
      "loss": 8.5097,
      "loss/crossentropy": 2.2738513946533203,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27797406911849976,
      "step": 1038
    },
    {
      "epoch": 0.065,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.0379547119140625,
      "learning_rate": 0.0001,
      "loss": 8.7724,
      "loss/crossentropy": 2.5585055351257324,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3508901298046112,
      "step": 1040
    },
    {
      "epoch": 0.065125,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.04047749837239583,
      "learning_rate": 0.0001,
      "loss": 8.8154,
      "loss/crossentropy": 2.3115618228912354,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2781260311603546,
      "step": 1042
    },
    {
      "epoch": 0.06525,
      "grad_norm": 3.25,
      "grad_norm_var": 0.0395660400390625,
      "learning_rate": 0.0001,
      "loss": 8.5646,
      "loss/crossentropy": 2.2015340328216553,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29191769659519196,
      "step": 1044
    },
    {
      "epoch": 0.065375,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.04152730305989583,
      "learning_rate": 0.0001,
      "loss": 8.7064,
      "loss/crossentropy": 2.4439064264297485,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31912754476070404,
      "step": 1046
    },
    {
      "epoch": 0.0655,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.0404937744140625,
      "learning_rate": 0.0001,
      "loss": 8.7495,
      "loss/crossentropy": 2.611847996711731,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31853775680065155,
      "step": 1048
    },
    {
      "epoch": 0.065625,
      "grad_norm": 3.75,
      "grad_norm_var": 0.04395243326822917,
      "learning_rate": 0.0001,
      "loss": 8.5285,
      "loss/crossentropy": 2.058500051498413,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2707058787345886,
      "step": 1050
    },
    {
      "epoch": 0.06575,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.043355305989583336,
      "learning_rate": 0.0001,
      "loss": 8.6134,
      "loss/crossentropy": 2.3460679054260254,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29806579649448395,
      "step": 1052
    },
    {
      "epoch": 0.065875,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.028531901041666665,
      "learning_rate": 0.0001,
      "loss": 8.7906,
      "loss/crossentropy": 2.575559377670288,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29479941725730896,
      "step": 1054
    },
    {
      "epoch": 0.066,
      "grad_norm": 3.5,
      "grad_norm_var": 0.03673502604166667,
      "learning_rate": 0.0001,
      "loss": 8.573,
      "loss/crossentropy": 2.4485961198806763,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3214751183986664,
      "step": 1056
    },
    {
      "epoch": 0.066125,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.0400390625,
      "learning_rate": 0.0001,
      "loss": 8.5355,
      "loss/crossentropy": 2.397768259048462,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31295061111450195,
      "step": 1058
    },
    {
      "epoch": 0.06625,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.040848795572916666,
      "learning_rate": 0.0001,
      "loss": 8.4975,
      "loss/crossentropy": 2.390447735786438,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29537099599838257,
      "step": 1060
    },
    {
      "epoch": 0.066375,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.04865620930989583,
      "learning_rate": 0.0001,
      "loss": 8.553,
      "loss/crossentropy": 2.417343854904175,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28230586647987366,
      "step": 1062
    },
    {
      "epoch": 0.0665,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.046507771809895834,
      "learning_rate": 0.0001,
      "loss": 8.5829,
      "loss/crossentropy": 2.6324515342712402,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3016352653503418,
      "step": 1064
    },
    {
      "epoch": 0.066625,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.03913472493489583,
      "learning_rate": 0.0001,
      "loss": 8.5346,
      "loss/crossentropy": 2.323632597923279,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2779388278722763,
      "step": 1066
    },
    {
      "epoch": 0.06675,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.03640950520833333,
      "learning_rate": 0.0001,
      "loss": 8.3832,
      "loss/crossentropy": 2.393522083759308,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29860424995422363,
      "step": 1068
    },
    {
      "epoch": 0.066875,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.039839680989583334,
      "learning_rate": 0.0001,
      "loss": 8.6174,
      "loss/crossentropy": 2.263484001159668,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2802084982395172,
      "step": 1070
    },
    {
      "epoch": 0.067,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.03242085774739583,
      "learning_rate": 0.0001,
      "loss": 8.4765,
      "loss/crossentropy": 2.1152660846710205,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2554662525653839,
      "step": 1072
    },
    {
      "epoch": 0.067125,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.03629150390625,
      "learning_rate": 0.0001,
      "loss": 8.5434,
      "loss/crossentropy": 2.4824490547180176,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28639310598373413,
      "step": 1074
    },
    {
      "epoch": 0.06725,
      "grad_norm": 3.0,
      "grad_norm_var": 0.033014933268229164,
      "learning_rate": 0.0001,
      "loss": 8.6253,
      "loss/crossentropy": 2.5830127000808716,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3099432587623596,
      "step": 1076
    },
    {
      "epoch": 0.067375,
      "grad_norm": 3.96875,
      "grad_norm_var": 0.0666168212890625,
      "learning_rate": 0.0001,
      "loss": 8.7433,
      "loss/crossentropy": 2.580743908882141,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2936056852340698,
      "step": 1078
    },
    {
      "epoch": 0.0675,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.07141011555989583,
      "learning_rate": 0.0001,
      "loss": 8.6721,
      "loss/crossentropy": 2.350903868675232,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2968801259994507,
      "step": 1080
    },
    {
      "epoch": 0.067625,
      "grad_norm": 3.5,
      "grad_norm_var": 0.07302144368489584,
      "learning_rate": 0.0001,
      "loss": 8.4574,
      "loss/crossentropy": 2.257428526878357,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2766515016555786,
      "step": 1082
    },
    {
      "epoch": 0.06775,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.06972249348958333,
      "learning_rate": 0.0001,
      "loss": 8.6877,
      "loss/crossentropy": 2.2526296377182007,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28292417526245117,
      "step": 1084
    },
    {
      "epoch": 0.067875,
      "grad_norm": 3.5,
      "grad_norm_var": 0.06391499837239584,
      "learning_rate": 0.0001,
      "loss": 8.7502,
      "loss/crossentropy": 2.3044220209121704,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2810298800468445,
      "step": 1086
    },
    {
      "epoch": 0.068,
      "grad_norm": 3.125,
      "grad_norm_var": 0.06946614583333334,
      "learning_rate": 0.0001,
      "loss": 8.585,
      "loss/crossentropy": 2.2871402502059937,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27473995089530945,
      "step": 1088
    },
    {
      "epoch": 0.068125,
      "grad_norm": 3.890625,
      "grad_norm_var": 0.08155008951822916,
      "learning_rate": 0.0001,
      "loss": 8.7181,
      "loss/crossentropy": 2.49469530582428,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2961750328540802,
      "step": 1090
    },
    {
      "epoch": 0.06825,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.07158915201822917,
      "learning_rate": 0.0001,
      "loss": 8.6174,
      "loss/crossentropy": 1.980285882949829,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27205583453178406,
      "step": 1092
    },
    {
      "epoch": 0.068375,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.06383056640625,
      "learning_rate": 0.0001,
      "loss": 8.383,
      "loss/crossentropy": 2.4063356518745422,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2908872812986374,
      "step": 1094
    },
    {
      "epoch": 0.0685,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.05968424479166667,
      "learning_rate": 0.0001,
      "loss": 8.6962,
      "loss/crossentropy": 2.3776599168777466,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2903301566839218,
      "step": 1096
    },
    {
      "epoch": 0.068625,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.05542704264322917,
      "learning_rate": 0.0001,
      "loss": 8.4252,
      "loss/crossentropy": 2.25793194770813,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2622709423303604,
      "step": 1098
    },
    {
      "epoch": 0.06875,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.068017578125,
      "learning_rate": 0.0001,
      "loss": 8.4571,
      "loss/crossentropy": 2.0190887451171875,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25865359604358673,
      "step": 1100
    },
    {
      "epoch": 0.068875,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.15084228515625,
      "learning_rate": 0.0001,
      "loss": 8.7145,
      "loss/crossentropy": 2.419832944869995,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.36829979717731476,
      "step": 1102
    },
    {
      "epoch": 0.069,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.18118489583333333,
      "learning_rate": 0.0001,
      "loss": 8.8892,
      "loss/crossentropy": 2.3291234970092773,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27904945611953735,
      "step": 1104
    },
    {
      "epoch": 0.069125,
      "grad_norm": 3.75,
      "grad_norm_var": 0.18000386555989584,
      "learning_rate": 0.0001,
      "loss": 8.7385,
      "loss/crossentropy": 2.3887641429901123,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3103363811969757,
      "step": 1106
    },
    {
      "epoch": 0.06925,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.1803863525390625,
      "learning_rate": 0.0001,
      "loss": 8.4626,
      "loss/crossentropy": 2.2511096000671387,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2744671106338501,
      "step": 1108
    },
    {
      "epoch": 0.069375,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.16078999837239583,
      "learning_rate": 0.0001,
      "loss": 8.6296,
      "loss/crossentropy": 2.251457929611206,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2970822751522064,
      "step": 1110
    },
    {
      "epoch": 0.0695,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.18325907389322918,
      "learning_rate": 0.0001,
      "loss": 8.4855,
      "loss/crossentropy": 2.3782349824905396,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30054476857185364,
      "step": 1112
    },
    {
      "epoch": 0.069625,
      "grad_norm": 3.375,
      "grad_norm_var": 0.18281962076822916,
      "learning_rate": 0.0001,
      "loss": 8.6186,
      "loss/crossentropy": 2.605000376701355,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.298698827624321,
      "step": 1114
    },
    {
      "epoch": 0.06975,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.15660807291666667,
      "learning_rate": 0.0001,
      "loss": 8.5642,
      "loss/crossentropy": 2.2239125967025757,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.284654900431633,
      "step": 1116
    },
    {
      "epoch": 0.069875,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.09190165201822917,
      "learning_rate": 0.0001,
      "loss": 8.6873,
      "loss/crossentropy": 2.3841261863708496,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2972448319196701,
      "step": 1118
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.04534098307291667,
      "learning_rate": 0.0001,
      "loss": 8.4881,
      "loss/crossentropy": 2.251163959503174,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2940330058336258,
      "step": 1120
    },
    {
      "epoch": 0.070125,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.041552734375,
      "learning_rate": 0.0001,
      "loss": 8.6624,
      "loss/crossentropy": 2.390018582344055,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31052152812480927,
      "step": 1122
    },
    {
      "epoch": 0.07025,
      "grad_norm": 2.875,
      "grad_norm_var": 0.06489156087239584,
      "learning_rate": 0.0001,
      "loss": 8.5129,
      "loss/crossentropy": 2.2108170986175537,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2933100759983063,
      "step": 1124
    },
    {
      "epoch": 0.070375,
      "grad_norm": 3.25,
      "grad_norm_var": 0.06334635416666666,
      "learning_rate": 0.0001,
      "loss": 8.4376,
      "loss/crossentropy": 2.2771471738815308,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28437741100788116,
      "step": 1126
    },
    {
      "epoch": 0.0705,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.05369364420572917,
      "learning_rate": 0.0001,
      "loss": 8.4285,
      "loss/crossentropy": 2.2954673767089844,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2847554385662079,
      "step": 1128
    },
    {
      "epoch": 0.070625,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.0545318603515625,
      "learning_rate": 0.0001,
      "loss": 8.4656,
      "loss/crossentropy": 2.271798253059387,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2639819011092186,
      "step": 1130
    },
    {
      "epoch": 0.07075,
      "grad_norm": 3.78125,
      "grad_norm_var": 0.0674957275390625,
      "learning_rate": 0.0001,
      "loss": 8.6624,
      "loss/crossentropy": 2.5219074487686157,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30493326485157013,
      "step": 1132
    },
    {
      "epoch": 0.070875,
      "grad_norm": 2.75,
      "grad_norm_var": 0.09687093098958334,
      "learning_rate": 0.0001,
      "loss": 8.3251,
      "loss/crossentropy": 2.419742465019226,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29505568742752075,
      "step": 1134
    },
    {
      "epoch": 0.071,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.1082916259765625,
      "learning_rate": 0.0001,
      "loss": 8.6851,
      "loss/crossentropy": 2.460718870162964,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2991577684879303,
      "step": 1136
    },
    {
      "epoch": 0.071125,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.08157145182291667,
      "learning_rate": 0.0001,
      "loss": 8.5178,
      "loss/crossentropy": 2.173828959465027,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27509088814258575,
      "step": 1138
    },
    {
      "epoch": 0.07125,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.07099202473958334,
      "learning_rate": 0.0001,
      "loss": 8.2813,
      "loss/crossentropy": 2.0987906455993652,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26560700684785843,
      "step": 1140
    },
    {
      "epoch": 0.071375,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.0721588134765625,
      "learning_rate": 0.0001,
      "loss": 8.5089,
      "loss/crossentropy": 2.3777287006378174,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27554096281528473,
      "step": 1142
    },
    {
      "epoch": 0.0715,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.07099507649739584,
      "learning_rate": 0.0001,
      "loss": 8.3986,
      "loss/crossentropy": 2.294643998146057,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28792035579681396,
      "step": 1144
    },
    {
      "epoch": 0.071625,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.07714436848958334,
      "learning_rate": 0.0001,
      "loss": 8.5452,
      "loss/crossentropy": 2.3531687259674072,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2780257761478424,
      "step": 1146
    },
    {
      "epoch": 0.07175,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.06738993326822916,
      "learning_rate": 0.0001,
      "loss": 8.5518,
      "loss/crossentropy": 2.0771710872650146,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26807837188243866,
      "step": 1148
    },
    {
      "epoch": 0.071875,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.04797770182291667,
      "learning_rate": 0.0001,
      "loss": 8.5416,
      "loss/crossentropy": 2.18049418926239,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2739409804344177,
      "step": 1150
    },
    {
      "epoch": 0.072,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.03434956868489583,
      "learning_rate": 0.0001,
      "loss": 8.4693,
      "loss/crossentropy": 2.666857123374939,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30170081555843353,
      "step": 1152
    },
    {
      "epoch": 0.072125,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.06629130045572916,
      "learning_rate": 0.0001,
      "loss": 8.6786,
      "loss/crossentropy": 2.5841041803359985,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30311837792396545,
      "step": 1154
    },
    {
      "epoch": 0.07225,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0630767822265625,
      "learning_rate": 0.0001,
      "loss": 8.5017,
      "loss/crossentropy": 2.2012165784835815,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2716425508260727,
      "step": 1156
    },
    {
      "epoch": 0.072375,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.06253255208333333,
      "learning_rate": 0.0001,
      "loss": 8.5665,
      "loss/crossentropy": 2.2168599367141724,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30834463238716125,
      "step": 1158
    },
    {
      "epoch": 0.0725,
      "grad_norm": 4.15625,
      "grad_norm_var": 0.1092193603515625,
      "learning_rate": 0.0001,
      "loss": 8.4126,
      "loss/crossentropy": 2.1044594049453735,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2663833498954773,
      "step": 1160
    },
    {
      "epoch": 0.072625,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.11414388020833334,
      "learning_rate": 0.0001,
      "loss": 8.3621,
      "loss/crossentropy": 2.109754800796509,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27043384313583374,
      "step": 1162
    },
    {
      "epoch": 0.07275,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.1210845947265625,
      "learning_rate": 0.0001,
      "loss": 8.4745,
      "loss/crossentropy": 2.384516477584839,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27273619174957275,
      "step": 1164
    },
    {
      "epoch": 0.072875,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.1336090087890625,
      "learning_rate": 0.0001,
      "loss": 8.4642,
      "loss/crossentropy": 2.214682459831238,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27829450368881226,
      "step": 1166
    },
    {
      "epoch": 0.073,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.12939046223958334,
      "learning_rate": 0.0001,
      "loss": 8.5784,
      "loss/crossentropy": 2.276426315307617,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29027001559734344,
      "step": 1168
    },
    {
      "epoch": 0.073125,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.109130859375,
      "learning_rate": 0.0001,
      "loss": 8.353,
      "loss/crossentropy": 2.1743494272232056,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26005150377750397,
      "step": 1170
    },
    {
      "epoch": 0.07325,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.11611226399739584,
      "learning_rate": 0.0001,
      "loss": 8.4193,
      "loss/crossentropy": 2.279123902320862,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2806738466024399,
      "step": 1172
    },
    {
      "epoch": 0.073375,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.11841532389322916,
      "learning_rate": 0.0001,
      "loss": 8.5702,
      "loss/crossentropy": 2.050893008708954,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.253355473279953,
      "step": 1174
    },
    {
      "epoch": 0.0735,
      "grad_norm": 3.375,
      "grad_norm_var": 0.07099202473958334,
      "learning_rate": 0.0001,
      "loss": 8.7427,
      "loss/crossentropy": 2.5286508798599243,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31759728491306305,
      "step": 1176
    },
    {
      "epoch": 0.073625,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.0608795166015625,
      "learning_rate": 0.0001,
      "loss": 8.6737,
      "loss/crossentropy": 2.445157289505005,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29573802649974823,
      "step": 1178
    },
    {
      "epoch": 0.07375,
      "grad_norm": 3.46875,
      "grad_norm_var": 0.05756734212239583,
      "learning_rate": 0.0001,
      "loss": 8.5287,
      "loss/crossentropy": 2.3890769481658936,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2753005623817444,
      "step": 1180
    },
    {
      "epoch": 0.073875,
      "grad_norm": 3.375,
      "grad_norm_var": 0.052099609375,
      "learning_rate": 0.0001,
      "loss": 8.5552,
      "loss/crossentropy": 2.2562392950057983,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27074071764945984,
      "step": 1182
    },
    {
      "epoch": 0.074,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.0451568603515625,
      "learning_rate": 0.0001,
      "loss": 8.4914,
      "loss/crossentropy": 1.960713267326355,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.264203280210495,
      "step": 1184
    },
    {
      "epoch": 0.074125,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.036279296875,
      "learning_rate": 0.0001,
      "loss": 8.4506,
      "loss/crossentropy": 2.357021927833557,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28563813865184784,
      "step": 1186
    },
    {
      "epoch": 0.07425,
      "grad_norm": 3.125,
      "grad_norm_var": 0.03333333333333333,
      "learning_rate": 0.0001,
      "loss": 8.3867,
      "loss/crossentropy": 2.1780192852020264,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26176655292510986,
      "step": 1188
    },
    {
      "epoch": 0.074375,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.034228515625,
      "learning_rate": 0.0001,
      "loss": 8.4641,
      "loss/crossentropy": 2.075110673904419,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29416830837726593,
      "step": 1190
    },
    {
      "epoch": 0.0745,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0424468994140625,
      "learning_rate": 0.0001,
      "loss": 8.3866,
      "loss/crossentropy": 2.152463436126709,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2740413099527359,
      "step": 1192
    },
    {
      "epoch": 0.074625,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.039449055989583336,
      "learning_rate": 0.0001,
      "loss": 8.4003,
      "loss/crossentropy": 2.381898283958435,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29159918427467346,
      "step": 1194
    },
    {
      "epoch": 0.07475,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.04258524576822917,
      "learning_rate": 0.0001,
      "loss": 8.5591,
      "loss/crossentropy": 2.6784266233444214,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30832037329673767,
      "step": 1196
    },
    {
      "epoch": 0.074875,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.0288238525390625,
      "learning_rate": 0.0001,
      "loss": 8.477,
      "loss/crossentropy": 2.1786980628967285,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28018996119499207,
      "step": 1198
    },
    {
      "epoch": 0.075,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.0292877197265625,
      "learning_rate": 0.0001,
      "loss": 8.6585,
      "loss/crossentropy": 2.248537063598633,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28961239755153656,
      "step": 1200
    },
    {
      "epoch": 0.075125,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.029621378580729166,
      "learning_rate": 0.0001,
      "loss": 8.4601,
      "loss/crossentropy": 2.343456268310547,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2769605219364166,
      "step": 1202
    },
    {
      "epoch": 0.07525,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.0279449462890625,
      "learning_rate": 0.0001,
      "loss": 8.5551,
      "loss/crossentropy": 2.3451120853424072,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31704986095428467,
      "step": 1204
    },
    {
      "epoch": 0.075375,
      "grad_norm": 4.125,
      "grad_norm_var": 0.07421875,
      "learning_rate": 0.0001,
      "loss": 8.2784,
      "loss/crossentropy": 2.2383298873901367,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2643394321203232,
      "step": 1206
    },
    {
      "epoch": 0.0755,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.10383707682291667,
      "learning_rate": 0.0001,
      "loss": 8.6391,
      "loss/crossentropy": 2.0706650018692017,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2589013874530792,
      "step": 1208
    },
    {
      "epoch": 0.075625,
      "grad_norm": 3.375,
      "grad_norm_var": 0.10327046712239583,
      "learning_rate": 0.0001,
      "loss": 8.6296,
      "loss/crossentropy": 2.264005422592163,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28355173766613007,
      "step": 1210
    },
    {
      "epoch": 0.07575,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.09348042805989583,
      "learning_rate": 0.0001,
      "loss": 8.3618,
      "loss/crossentropy": 2.4925496578216553,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2993692457675934,
      "step": 1212
    },
    {
      "epoch": 0.075875,
      "grad_norm": 3.375,
      "grad_norm_var": 0.09510091145833334,
      "learning_rate": 0.0001,
      "loss": 8.5563,
      "loss/crossentropy": 2.339760661125183,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27024510502815247,
      "step": 1214
    },
    {
      "epoch": 0.076,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.10005594889322916,
      "learning_rate": 0.0001,
      "loss": 8.5717,
      "loss/crossentropy": 2.357187867164612,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3173932731151581,
      "step": 1216
    },
    {
      "epoch": 0.076125,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.10143229166666666,
      "learning_rate": 0.0001,
      "loss": 8.3378,
      "loss/crossentropy": 2.5177258253097534,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29622797667980194,
      "step": 1218
    },
    {
      "epoch": 0.07625,
      "grad_norm": 3.25,
      "grad_norm_var": 0.098779296875,
      "learning_rate": 0.0001,
      "loss": 8.4854,
      "loss/crossentropy": 2.0992863178253174,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2855496108531952,
      "step": 1220
    },
    {
      "epoch": 0.076375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0710601806640625,
      "learning_rate": 0.0001,
      "loss": 8.3916,
      "loss/crossentropy": 2.4129068851470947,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.280709832906723,
      "step": 1222
    },
    {
      "epoch": 0.0765,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.030301920572916665,
      "learning_rate": 0.0001,
      "loss": 8.3373,
      "loss/crossentropy": 2.0929447412490845,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25636833161115646,
      "step": 1224
    },
    {
      "epoch": 0.076625,
      "grad_norm": 3.0,
      "grad_norm_var": 0.027326456705729165,
      "learning_rate": 0.0001,
      "loss": 8.4648,
      "loss/crossentropy": 2.427080750465393,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2882840186357498,
      "step": 1226
    },
    {
      "epoch": 0.07675,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.026585896809895832,
      "learning_rate": 0.0001,
      "loss": 8.3397,
      "loss/crossentropy": 2.4737452268600464,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28378529846668243,
      "step": 1228
    },
    {
      "epoch": 0.076875,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.0234771728515625,
      "learning_rate": 0.0001,
      "loss": 8.6966,
      "loss/crossentropy": 2.6298500299453735,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.306839257478714,
      "step": 1230
    },
    {
      "epoch": 0.077,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.03771158854166667,
      "learning_rate": 0.0001,
      "loss": 8.4196,
      "loss/crossentropy": 2.3488998413085938,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27983449399471283,
      "step": 1232
    },
    {
      "epoch": 0.077125,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.06613667805989583,
      "learning_rate": 0.0001,
      "loss": 8.5206,
      "loss/crossentropy": 2.2696053981781006,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2854994237422943,
      "step": 1234
    },
    {
      "epoch": 0.07725,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.07351888020833333,
      "learning_rate": 0.0001,
      "loss": 8.2717,
      "loss/crossentropy": 2.174792766571045,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2614743113517761,
      "step": 1236
    },
    {
      "epoch": 0.077375,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.09851786295572916,
      "learning_rate": 0.0001,
      "loss": 8.6137,
      "loss/crossentropy": 2.2606674432754517,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28789395093917847,
      "step": 1238
    },
    {
      "epoch": 0.0775,
      "grad_norm": 3.921875,
      "grad_norm_var": 0.12114969889322917,
      "learning_rate": 0.0001,
      "loss": 8.4582,
      "loss/crossentropy": 2.104749917984009,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27152082324028015,
      "step": 1240
    },
    {
      "epoch": 0.077625,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.1411041259765625,
      "learning_rate": 0.0001,
      "loss": 8.3861,
      "loss/crossentropy": 2.198368549346924,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26415789127349854,
      "step": 1242
    },
    {
      "epoch": 0.07775,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.1497711181640625,
      "learning_rate": 0.0001,
      "loss": 8.5154,
      "loss/crossentropy": 2.4816545248031616,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30805790424346924,
      "step": 1244
    },
    {
      "epoch": 0.077875,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.1504547119140625,
      "learning_rate": 0.0001,
      "loss": 8.5166,
      "loss/crossentropy": 2.4640896320343018,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29878415167331696,
      "step": 1246
    },
    {
      "epoch": 0.078,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.15390218098958333,
      "learning_rate": 0.0001,
      "loss": 8.3599,
      "loss/crossentropy": 2.2658848762512207,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.264192171394825,
      "step": 1248
    },
    {
      "epoch": 0.078125,
      "grad_norm": 3.5,
      "grad_norm_var": 0.142724609375,
      "learning_rate": 0.0001,
      "loss": 8.3164,
      "loss/crossentropy": 2.1921703815460205,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2650914490222931,
      "step": 1250
    },
    {
      "epoch": 0.07825,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.1355865478515625,
      "learning_rate": 0.0001,
      "loss": 8.5194,
      "loss/crossentropy": 2.2807745933532715,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28195033967494965,
      "step": 1252
    },
    {
      "epoch": 0.078375,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.12167561848958333,
      "learning_rate": 0.0001,
      "loss": 8.4772,
      "loss/crossentropy": 2.145294189453125,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2704995721578598,
      "step": 1254
    },
    {
      "epoch": 0.0785,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.1064849853515625,
      "learning_rate": 0.0001,
      "loss": 8.2792,
      "loss/crossentropy": 2.3187735080718994,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28507962822914124,
      "step": 1256
    },
    {
      "epoch": 0.078625,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.08872782389322917,
      "learning_rate": 0.0001,
      "loss": 8.4454,
      "loss/crossentropy": 2.226912260055542,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2773582488298416,
      "step": 1258
    },
    {
      "epoch": 0.07875,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.08684488932291666,
      "learning_rate": 0.0001,
      "loss": 8.4253,
      "loss/crossentropy": 2.524247169494629,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28448525071144104,
      "step": 1260
    },
    {
      "epoch": 0.078875,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.08153889973958334,
      "learning_rate": 0.0001,
      "loss": 8.4428,
      "loss/crossentropy": 2.434785842895508,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2782677710056305,
      "step": 1262
    },
    {
      "epoch": 0.079,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.09170633951822917,
      "learning_rate": 0.0001,
      "loss": 8.3836,
      "loss/crossentropy": 2.0830533504486084,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27287817001342773,
      "step": 1264
    },
    {
      "epoch": 0.079125,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.09251200358072917,
      "learning_rate": 0.0001,
      "loss": 8.3748,
      "loss/crossentropy": 2.2747669219970703,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3025789111852646,
      "step": 1266
    },
    {
      "epoch": 0.07925,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.07610270182291666,
      "learning_rate": 0.0001,
      "loss": 8.4631,
      "loss/crossentropy": 2.2862067222595215,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2721339762210846,
      "step": 1268
    },
    {
      "epoch": 0.079375,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.07183837890625,
      "learning_rate": 0.0001,
      "loss": 8.4595,
      "loss/crossentropy": 2.3111391067504883,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2573637366294861,
      "step": 1270
    },
    {
      "epoch": 0.0795,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.06552632649739583,
      "learning_rate": 0.0001,
      "loss": 8.3966,
      "loss/crossentropy": 2.5623552799224854,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26713909208774567,
      "step": 1272
    },
    {
      "epoch": 0.079625,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.04524637858072917,
      "learning_rate": 0.0001,
      "loss": 8.2061,
      "loss/crossentropy": 2.1350300312042236,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26287516951560974,
      "step": 1274
    },
    {
      "epoch": 0.07975,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.042740885416666666,
      "learning_rate": 0.0001,
      "loss": 8.5091,
      "loss/crossentropy": 2.3671988248825073,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.274411678314209,
      "step": 1276
    },
    {
      "epoch": 0.079875,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.034989420572916666,
      "learning_rate": 0.0001,
      "loss": 8.4391,
      "loss/crossentropy": 2.280188202857971,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2855434864759445,
      "step": 1278
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.013997395833333334,
      "learning_rate": 0.0001,
      "loss": 8.561,
      "loss/crossentropy": 2.09197735786438,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2575538009405136,
      "step": 1280
    },
    {
      "epoch": 0.080125,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0140045166015625,
      "learning_rate": 0.0001,
      "loss": 8.374,
      "loss/crossentropy": 2.199427366256714,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2671803832054138,
      "step": 1282
    },
    {
      "epoch": 0.08025,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.016792805989583333,
      "learning_rate": 0.0001,
      "loss": 8.4494,
      "loss/crossentropy": 2.646793484687805,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26508933305740356,
      "step": 1284
    },
    {
      "epoch": 0.080375,
      "grad_norm": 3.125,
      "grad_norm_var": 0.017378743489583334,
      "learning_rate": 0.0001,
      "loss": 8.3257,
      "loss/crossentropy": 2.255902647972107,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26800450682640076,
      "step": 1286
    },
    {
      "epoch": 0.0805,
      "grad_norm": 3.703125,
      "grad_norm_var": 0.03821207682291667,
      "learning_rate": 0.0001,
      "loss": 8.6049,
      "loss/crossentropy": 2.4666751623153687,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2575417757034302,
      "step": 1288
    },
    {
      "epoch": 0.080625,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.038874308268229164,
      "learning_rate": 0.0001,
      "loss": 8.4277,
      "loss/crossentropy": 2.2299275398254395,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26189981400966644,
      "step": 1290
    },
    {
      "epoch": 0.08075,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.0371978759765625,
      "learning_rate": 0.0001,
      "loss": 8.3189,
      "loss/crossentropy": 2.3310989141464233,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26487114280462265,
      "step": 1292
    },
    {
      "epoch": 0.080875,
      "grad_norm": 3.6875,
      "grad_norm_var": 0.05325520833333333,
      "learning_rate": 0.0001,
      "loss": 8.4445,
      "loss/crossentropy": 2.2357208728790283,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27044905722141266,
      "step": 1294
    },
    {
      "epoch": 0.081,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0831451416015625,
      "learning_rate": 0.0001,
      "loss": 8.2945,
      "loss/crossentropy": 2.4127997159957886,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2716076225042343,
      "step": 1296
    },
    {
      "epoch": 0.081125,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0810546875,
      "learning_rate": 0.0001,
      "loss": 8.1039,
      "loss/crossentropy": 2.271215081214905,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26447129994630814,
      "step": 1298
    },
    {
      "epoch": 0.08125,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.08394266764322916,
      "learning_rate": 0.0001,
      "loss": 8.4898,
      "loss/crossentropy": 2.214189291000366,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26683974266052246,
      "step": 1300
    },
    {
      "epoch": 0.081375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.09244791666666667,
      "learning_rate": 0.0001,
      "loss": 8.4019,
      "loss/crossentropy": 2.1998738050460815,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2771088480949402,
      "step": 1302
    },
    {
      "epoch": 0.0815,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.08205464680989584,
      "learning_rate": 0.0001,
      "loss": 8.391,
      "loss/crossentropy": 2.10916006565094,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26495426893234253,
      "step": 1304
    },
    {
      "epoch": 0.081625,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.111962890625,
      "learning_rate": 0.0001,
      "loss": 8.4097,
      "loss/crossentropy": 2.428833842277527,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28503939509391785,
      "step": 1306
    },
    {
      "epoch": 0.08175,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.1131988525390625,
      "learning_rate": 0.0001,
      "loss": 8.441,
      "loss/crossentropy": 2.512449622154236,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.33712296187877655,
      "step": 1308
    },
    {
      "epoch": 0.081875,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.088330078125,
      "learning_rate": 0.0001,
      "loss": 8.3889,
      "loss/crossentropy": 2.438145875930786,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2805769294500351,
      "step": 1310
    },
    {
      "epoch": 0.082,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0719390869140625,
      "learning_rate": 0.0001,
      "loss": 8.2675,
      "loss/crossentropy": 2.35923433303833,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2907231003046036,
      "step": 1312
    },
    {
      "epoch": 0.082125,
      "grad_norm": 3.125,
      "grad_norm_var": 0.07124735514322916,
      "learning_rate": 0.0001,
      "loss": 8.3908,
      "loss/crossentropy": 2.288873791694641,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2815335690975189,
      "step": 1314
    },
    {
      "epoch": 0.08225,
      "grad_norm": 3.125,
      "grad_norm_var": 0.0664459228515625,
      "learning_rate": 0.0001,
      "loss": 8.4692,
      "loss/crossentropy": 2.4051743745803833,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.282541960477829,
      "step": 1316
    },
    {
      "epoch": 0.082375,
      "grad_norm": 3.734375,
      "grad_norm_var": 0.0790924072265625,
      "learning_rate": 0.0001,
      "loss": 8.2673,
      "loss/crossentropy": 2.115163564682007,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26003655791282654,
      "step": 1318
    },
    {
      "epoch": 0.0825,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.07752278645833334,
      "learning_rate": 0.0001,
      "loss": 8.3407,
      "loss/crossentropy": 2.294703960418701,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2557590380311012,
      "step": 1320
    },
    {
      "epoch": 0.082625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.041356404622395836,
      "learning_rate": 0.0001,
      "loss": 8.3636,
      "loss/crossentropy": 2.6248332262039185,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2877664119005203,
      "step": 1322
    },
    {
      "epoch": 0.08275,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.04487202962239583,
      "learning_rate": 0.0001,
      "loss": 8.392,
      "loss/crossentropy": 2.212457776069641,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2759707272052765,
      "step": 1324
    },
    {
      "epoch": 0.082875,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.0431304931640625,
      "learning_rate": 0.0001,
      "loss": 8.3794,
      "loss/crossentropy": 1.8898176550865173,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28947535157203674,
      "step": 1326
    },
    {
      "epoch": 0.083,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.04039713541666667,
      "learning_rate": 0.0001,
      "loss": 8.4226,
      "loss/crossentropy": 2.3176772594451904,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30063313245773315,
      "step": 1328
    },
    {
      "epoch": 0.083125,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.04169514973958333,
      "learning_rate": 0.0001,
      "loss": 8.033,
      "loss/crossentropy": 1.9844502806663513,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22963125258684158,
      "step": 1330
    },
    {
      "epoch": 0.08325,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.04394124348958333,
      "learning_rate": 0.0001,
      "loss": 8.3364,
      "loss/crossentropy": 2.0860679745674133,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28032663464546204,
      "step": 1332
    },
    {
      "epoch": 0.083375,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.028120930989583334,
      "learning_rate": 0.0001,
      "loss": 8.2641,
      "loss/crossentropy": 2.2230706214904785,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26876039803028107,
      "step": 1334
    },
    {
      "epoch": 0.0835,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.026904296875,
      "learning_rate": 0.0001,
      "loss": 8.4189,
      "loss/crossentropy": 2.307973623275757,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2883561700582504,
      "step": 1336
    },
    {
      "epoch": 0.083625,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.0290679931640625,
      "learning_rate": 0.0001,
      "loss": 8.292,
      "loss/crossentropy": 2.3308621644973755,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26050567626953125,
      "step": 1338
    },
    {
      "epoch": 0.08375,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.03827718098958333,
      "learning_rate": 0.0001,
      "loss": 8.2063,
      "loss/crossentropy": 2.1553597450256348,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27626167237758636,
      "step": 1340
    },
    {
      "epoch": 0.083875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.08676656087239583,
      "learning_rate": 0.0001,
      "loss": 8.5019,
      "loss/crossentropy": 2.21061909198761,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27770161628723145,
      "step": 1342
    },
    {
      "epoch": 0.084,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.1104400634765625,
      "learning_rate": 0.0001,
      "loss": 8.222,
      "loss/crossentropy": 2.2863982915878296,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2523474544286728,
      "step": 1344
    },
    {
      "epoch": 0.084125,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.11259358723958333,
      "learning_rate": 0.0001,
      "loss": 8.307,
      "loss/crossentropy": 2.4110026359558105,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26567649841308594,
      "step": 1346
    },
    {
      "epoch": 0.08425,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.10590718587239584,
      "learning_rate": 0.0001,
      "loss": 8.3584,
      "loss/crossentropy": 2.3141287565231323,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2731921225786209,
      "step": 1348
    },
    {
      "epoch": 0.084375,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.09840087890625,
      "learning_rate": 0.0001,
      "loss": 8.3221,
      "loss/crossentropy": 2.4939377307891846,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2732496112585068,
      "step": 1350
    },
    {
      "epoch": 0.0845,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.09888916015625,
      "learning_rate": 0.0001,
      "loss": 8.4167,
      "loss/crossentropy": 2.6840182542800903,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2915331721305847,
      "step": 1352
    },
    {
      "epoch": 0.084625,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.1009674072265625,
      "learning_rate": 0.0001,
      "loss": 8.361,
      "loss/crossentropy": 2.3241279125213623,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25332190841436386,
      "step": 1354
    },
    {
      "epoch": 0.08475,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.09444071451822916,
      "learning_rate": 0.0001,
      "loss": 8.128,
      "loss/crossentropy": 2.2505773305892944,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27977539598941803,
      "step": 1356
    },
    {
      "epoch": 0.084875,
      "grad_norm": 3.609375,
      "grad_norm_var": 0.04345296223958333,
      "learning_rate": 0.0001,
      "loss": 8.383,
      "loss/crossentropy": 2.4839106798171997,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2985747307538986,
      "step": 1358
    },
    {
      "epoch": 0.085,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.03417561848958333,
      "learning_rate": 0.0001,
      "loss": 8.3302,
      "loss/crossentropy": 2.1147927045822144,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26798177510499954,
      "step": 1360
    },
    {
      "epoch": 0.085125,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.03313395182291667,
      "learning_rate": 0.0001,
      "loss": 8.2878,
      "loss/crossentropy": 2.341870665550232,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29636865854263306,
      "step": 1362
    },
    {
      "epoch": 0.08525,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.033772786458333336,
      "learning_rate": 0.0001,
      "loss": 8.3404,
      "loss/crossentropy": 2.3820383548736572,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.308891698718071,
      "step": 1364
    },
    {
      "epoch": 0.085375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.03592122395833333,
      "learning_rate": 0.0001,
      "loss": 8.2509,
      "loss/crossentropy": 2.406251907348633,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2710695117712021,
      "step": 1366
    },
    {
      "epoch": 0.0855,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.04088541666666667,
      "learning_rate": 0.0001,
      "loss": 8.4671,
      "loss/crossentropy": 2.4824094772338867,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2687048017978668,
      "step": 1368
    },
    {
      "epoch": 0.085625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.0371490478515625,
      "learning_rate": 0.0001,
      "loss": 8.2799,
      "loss/crossentropy": 2.1223180890083313,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25326162576675415,
      "step": 1370
    },
    {
      "epoch": 0.08575,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.0335113525390625,
      "learning_rate": 0.0001,
      "loss": 8.2298,
      "loss/crossentropy": 2.3254255056381226,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28770148754119873,
      "step": 1372
    },
    {
      "epoch": 0.085875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.018928019205729167,
      "learning_rate": 0.0001,
      "loss": 8.405,
      "loss/crossentropy": 2.369110345840454,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2755488455295563,
      "step": 1374
    },
    {
      "epoch": 0.086,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.018919881184895834,
      "learning_rate": 0.0001,
      "loss": 8.1925,
      "loss/crossentropy": 2.5451020002365112,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27585017681121826,
      "step": 1376
    },
    {
      "epoch": 0.086125,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.018876139322916666,
      "learning_rate": 0.0001,
      "loss": 8.5378,
      "loss/crossentropy": 2.5744348764419556,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28956979513168335,
      "step": 1378
    },
    {
      "epoch": 0.08625,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.014729817708333334,
      "learning_rate": 0.0001,
      "loss": 8.3531,
      "loss/crossentropy": 2.0667566061019897,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2600719928741455,
      "step": 1380
    },
    {
      "epoch": 0.086375,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.017464192708333333,
      "learning_rate": 0.0001,
      "loss": 8.3839,
      "loss/crossentropy": 2.383557438850403,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.279419407248497,
      "step": 1382
    },
    {
      "epoch": 0.0865,
      "grad_norm": 3.125,
      "grad_norm_var": 0.015034993489583334,
      "learning_rate": 0.0001,
      "loss": 8.3527,
      "loss/crossentropy": 2.262708902359009,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26019924879074097,
      "step": 1384
    },
    {
      "epoch": 0.086625,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.01695556640625,
      "learning_rate": 0.0001,
      "loss": 8.4089,
      "loss/crossentropy": 2.422199249267578,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.257827490568161,
      "step": 1386
    },
    {
      "epoch": 0.08675,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.015653483072916665,
      "learning_rate": 0.0001,
      "loss": 8.2639,
      "loss/crossentropy": 2.341743230819702,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2593771815299988,
      "step": 1388
    },
    {
      "epoch": 0.086875,
      "grad_norm": 3.828125,
      "grad_norm_var": 0.042578125,
      "learning_rate": 0.0001,
      "loss": 8.2408,
      "loss/crossentropy": 2.2627909183502197,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.262659452855587,
      "step": 1390
    },
    {
      "epoch": 0.087,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.05591532389322917,
      "learning_rate": 0.0001,
      "loss": 8.202,
      "loss/crossentropy": 2.2393475770950317,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2788470536470413,
      "step": 1392
    },
    {
      "epoch": 0.087125,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.06106363932291667,
      "learning_rate": 0.0001,
      "loss": 8.468,
      "loss/crossentropy": 2.256345748901367,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2531740814447403,
      "step": 1394
    },
    {
      "epoch": 0.08725,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.06864827473958333,
      "learning_rate": 0.0001,
      "loss": 8.3001,
      "loss/crossentropy": 2.263739228248596,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26853087544441223,
      "step": 1396
    },
    {
      "epoch": 0.087375,
      "grad_norm": 3.125,
      "grad_norm_var": 0.067919921875,
      "learning_rate": 0.0001,
      "loss": 8.2254,
      "loss/crossentropy": 2.3907299041748047,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26690760254859924,
      "step": 1398
    },
    {
      "epoch": 0.0875,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.06586812337239584,
      "learning_rate": 0.0001,
      "loss": 8.4731,
      "loss/crossentropy": 2.3437803983688354,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.259974405169487,
      "step": 1400
    },
    {
      "epoch": 0.087625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.06672261555989584,
      "learning_rate": 0.0001,
      "loss": 8.4484,
      "loss/crossentropy": 2.3048956394195557,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2741893529891968,
      "step": 1402
    },
    {
      "epoch": 0.08775,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.06726888020833334,
      "learning_rate": 0.0001,
      "loss": 8.3698,
      "loss/crossentropy": 2.3523448705673218,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.280557781457901,
      "step": 1404
    },
    {
      "epoch": 0.087875,
      "grad_norm": 3.25,
      "grad_norm_var": 0.033524576822916666,
      "learning_rate": 0.0001,
      "loss": 8.3848,
      "loss/crossentropy": 2.3498148918151855,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3289744406938553,
      "step": 1406
    },
    {
      "epoch": 0.088,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.06220296223958333,
      "learning_rate": 0.0001,
      "loss": 8.2261,
      "loss/crossentropy": 2.071715295314789,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26693500578403473,
      "step": 1408
    },
    {
      "epoch": 0.088125,
      "grad_norm": 3.421875,
      "grad_norm_var": 0.0634429931640625,
      "learning_rate": 0.0001,
      "loss": 8.2024,
      "loss/crossentropy": 2.333922863006592,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27316156029701233,
      "step": 1410
    },
    {
      "epoch": 0.08825,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.05562744140625,
      "learning_rate": 0.0001,
      "loss": 8.0937,
      "loss/crossentropy": 2.1679932475090027,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25762278586626053,
      "step": 1412
    },
    {
      "epoch": 0.088375,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.0583648681640625,
      "learning_rate": 0.0001,
      "loss": 8.2188,
      "loss/crossentropy": 2.3344188928604126,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32225053012371063,
      "step": 1414
    },
    {
      "epoch": 0.0885,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.06533915201822917,
      "learning_rate": 0.0001,
      "loss": 8.2794,
      "loss/crossentropy": 2.181140899658203,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25673504173755646,
      "step": 1416
    },
    {
      "epoch": 0.088625,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.0631988525390625,
      "learning_rate": 0.0001,
      "loss": 8.4926,
      "loss/crossentropy": 2.5540969371795654,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28567659854888916,
      "step": 1418
    },
    {
      "epoch": 0.08875,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.13014322916666668,
      "learning_rate": 0.0001,
      "loss": 8.3927,
      "loss/crossentropy": 2.308061122894287,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26119405031204224,
      "step": 1420
    },
    {
      "epoch": 0.088875,
      "grad_norm": 4.125,
      "grad_norm_var": 0.22221577962239583,
      "learning_rate": 0.0001,
      "loss": 8.3563,
      "loss/crossentropy": 2.337175130844116,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28924381732940674,
      "step": 1422
    },
    {
      "epoch": 0.089,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.205322265625,
      "learning_rate": 0.0001,
      "loss": 8.2574,
      "loss/crossentropy": 2.383028507232666,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2829654812812805,
      "step": 1424
    },
    {
      "epoch": 0.089125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.22934468587239584,
      "learning_rate": 0.0001,
      "loss": 8.0822,
      "loss/crossentropy": 2.2887638807296753,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2677062898874283,
      "step": 1426
    },
    {
      "epoch": 0.08925,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.23911031087239584,
      "learning_rate": 0.0001,
      "loss": 8.2723,
      "loss/crossentropy": 2.2472543716430664,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2706802934408188,
      "step": 1428
    },
    {
      "epoch": 0.089375,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.23624674479166666,
      "learning_rate": 0.0001,
      "loss": 8.378,
      "loss/crossentropy": 2.517896294593811,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28536301851272583,
      "step": 1430
    },
    {
      "epoch": 0.0895,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.23261311848958333,
      "learning_rate": 0.0001,
      "loss": 8.1376,
      "loss/crossentropy": 2.118437886238098,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2512395307421684,
      "step": 1432
    },
    {
      "epoch": 0.089625,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.22909749348958333,
      "learning_rate": 0.0001,
      "loss": 8.2629,
      "loss/crossentropy": 2.177670121192932,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2840624302625656,
      "step": 1434
    },
    {
      "epoch": 0.08975,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.16071675618489584,
      "learning_rate": 0.0001,
      "loss": 8.3297,
      "loss/crossentropy": 2.422105073928833,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28876344859600067,
      "step": 1436
    },
    {
      "epoch": 0.089875,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.03298238118489583,
      "learning_rate": 0.0001,
      "loss": 8.3754,
      "loss/crossentropy": 2.469232678413391,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2923481911420822,
      "step": 1438
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0335845947265625,
      "learning_rate": 0.0001,
      "loss": 8.2403,
      "loss/crossentropy": 2.3302817344665527,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26953746378421783,
      "step": 1440
    },
    {
      "epoch": 0.090125,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.0303131103515625,
      "learning_rate": 0.0001,
      "loss": 8.2342,
      "loss/crossentropy": 2.1770907640457153,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26305052638053894,
      "step": 1442
    },
    {
      "epoch": 0.09025,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0291412353515625,
      "learning_rate": 0.0001,
      "loss": 8.2963,
      "loss/crossentropy": 2.244715094566345,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2524953857064247,
      "step": 1444
    },
    {
      "epoch": 0.090375,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.0806549072265625,
      "learning_rate": 0.0001,
      "loss": 8.2455,
      "loss/crossentropy": 2.1872771978378296,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28185485303401947,
      "step": 1446
    },
    {
      "epoch": 0.0905,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.09325764973958334,
      "learning_rate": 0.0001,
      "loss": 8.1763,
      "loss/crossentropy": 2.388404607772827,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25562550872564316,
      "step": 1448
    },
    {
      "epoch": 0.090625,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.11158854166666667,
      "learning_rate": 0.0001,
      "loss": 8.2801,
      "loss/crossentropy": 2.2114795446395874,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2575107663869858,
      "step": 1450
    },
    {
      "epoch": 0.09075,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.11750895182291667,
      "learning_rate": 0.0001,
      "loss": 8.4195,
      "loss/crossentropy": 2.268153190612793,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2590959519147873,
      "step": 1452
    },
    {
      "epoch": 0.090875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.10434468587239583,
      "learning_rate": 0.0001,
      "loss": 8.1186,
      "loss/crossentropy": 2.3246419429779053,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27099407464265823,
      "step": 1454
    },
    {
      "epoch": 0.091,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.10079752604166667,
      "learning_rate": 0.0001,
      "loss": 8.3338,
      "loss/crossentropy": 2.5052762031555176,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29280832409858704,
      "step": 1456
    },
    {
      "epoch": 0.091125,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.09954325358072917,
      "learning_rate": 0.0001,
      "loss": 8.3336,
      "loss/crossentropy": 1.9449425339698792,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.275674507021904,
      "step": 1458
    },
    {
      "epoch": 0.09125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.10442301432291666,
      "learning_rate": 0.0001,
      "loss": 8.3734,
      "loss/crossentropy": 2.3953585624694824,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28133782744407654,
      "step": 1460
    },
    {
      "epoch": 0.091375,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.0473785400390625,
      "learning_rate": 0.0001,
      "loss": 8.0915,
      "loss/crossentropy": 2.2441056966781616,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2531541734933853,
      "step": 1462
    },
    {
      "epoch": 0.0915,
      "grad_norm": 3.0,
      "grad_norm_var": 0.04156494140625,
      "learning_rate": 0.0001,
      "loss": 8.4787,
      "loss/crossentropy": 2.4373109340667725,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2879520505666733,
      "step": 1464
    },
    {
      "epoch": 0.091625,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.014850870768229166,
      "learning_rate": 0.0001,
      "loss": 8.101,
      "loss/crossentropy": 2.2889362573623657,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25555726885795593,
      "step": 1466
    },
    {
      "epoch": 0.09175,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.018778483072916668,
      "learning_rate": 0.0001,
      "loss": 8.1266,
      "loss/crossentropy": 2.2097198963165283,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27271226048469543,
      "step": 1468
    },
    {
      "epoch": 0.091875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.020963541666666665,
      "learning_rate": 0.0001,
      "loss": 8.2212,
      "loss/crossentropy": 2.181049108505249,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26682595908641815,
      "step": 1470
    },
    {
      "epoch": 0.092,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.022163899739583333,
      "learning_rate": 0.0001,
      "loss": 8.2866,
      "loss/crossentropy": 2.311566710472107,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.24793966859579086,
      "step": 1472
    },
    {
      "epoch": 0.092125,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.022704060872395834,
      "learning_rate": 0.0001,
      "loss": 8.178,
      "loss/crossentropy": 2.359419822692871,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26220113039016724,
      "step": 1474
    },
    {
      "epoch": 0.09225,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.022001139322916665,
      "learning_rate": 0.0001,
      "loss": 8.4216,
      "loss/crossentropy": 2.547469735145569,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2959955930709839,
      "step": 1476
    },
    {
      "epoch": 0.092375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.021100870768229165,
      "learning_rate": 0.0001,
      "loss": 8.2998,
      "loss/crossentropy": 2.4008055925369263,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2753802388906479,
      "step": 1478
    },
    {
      "epoch": 0.0925,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.028837076822916665,
      "learning_rate": 0.0001,
      "loss": 8.0442,
      "loss/crossentropy": 2.049844443798065,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25805267691612244,
      "step": 1480
    },
    {
      "epoch": 0.092625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.029100545247395835,
      "learning_rate": 0.0001,
      "loss": 8.3892,
      "loss/crossentropy": 2.3216545581817627,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27284783124923706,
      "step": 1482
    },
    {
      "epoch": 0.09275,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0282867431640625,
      "learning_rate": 0.0001,
      "loss": 8.2379,
      "loss/crossentropy": 2.3917791843414307,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26631103456020355,
      "step": 1484
    },
    {
      "epoch": 0.092875,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.028125,
      "learning_rate": 0.0001,
      "loss": 8.5063,
      "loss/crossentropy": 2.536360025405884,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2958754599094391,
      "step": 1486
    },
    {
      "epoch": 0.093,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.0410308837890625,
      "learning_rate": 0.0001,
      "loss": 8.3401,
      "loss/crossentropy": 2.387327551841736,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28280311822891235,
      "step": 1488
    },
    {
      "epoch": 0.093125,
      "grad_norm": 3.578125,
      "grad_norm_var": 0.05903218587239583,
      "learning_rate": 0.0001,
      "loss": 8.3749,
      "loss/crossentropy": 2.4892961978912354,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29599107801914215,
      "step": 1490
    },
    {
      "epoch": 0.09325,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.0744781494140625,
      "learning_rate": 0.0001,
      "loss": 8.2995,
      "loss/crossentropy": 2.233021378517151,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.269522100687027,
      "step": 1492
    },
    {
      "epoch": 0.093375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.08401285807291667,
      "learning_rate": 0.0001,
      "loss": 8.1287,
      "loss/crossentropy": 2.2778061628341675,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2637213170528412,
      "step": 1494
    },
    {
      "epoch": 0.0935,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.08079020182291667,
      "learning_rate": 0.0001,
      "loss": 8.5223,
      "loss/crossentropy": 2.364134907722473,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2790801376104355,
      "step": 1496
    },
    {
      "epoch": 0.093625,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.09123942057291666,
      "learning_rate": 0.0001,
      "loss": 8.1725,
      "loss/crossentropy": 2.0337949991226196,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.244078166782856,
      "step": 1498
    },
    {
      "epoch": 0.09375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.08502197265625,
      "learning_rate": 0.0001,
      "loss": 8.3314,
      "loss/crossentropy": 2.307387113571167,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2793863117694855,
      "step": 1500
    },
    {
      "epoch": 0.093875,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.09312744140625,
      "learning_rate": 0.0001,
      "loss": 7.9943,
      "loss/crossentropy": 2.4143176078796387,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26304905116558075,
      "step": 1502
    },
    {
      "epoch": 0.094,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.08209228515625,
      "learning_rate": 0.0001,
      "loss": 8.3215,
      "loss/crossentropy": 1.9640471935272217,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24391764402389526,
      "step": 1504
    },
    {
      "epoch": 0.094125,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0652252197265625,
      "learning_rate": 0.0001,
      "loss": 8.204,
      "loss/crossentropy": 2.405478358268738,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2646511495113373,
      "step": 1506
    },
    {
      "epoch": 0.09425,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.046126302083333334,
      "learning_rate": 0.0001,
      "loss": 8.1211,
      "loss/crossentropy": 2.0469033122062683,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2384241446852684,
      "step": 1508
    },
    {
      "epoch": 0.094375,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.0455230712890625,
      "learning_rate": 0.0001,
      "loss": 8.1709,
      "loss/crossentropy": 2.2403076887130737,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2608010023832321,
      "step": 1510
    },
    {
      "epoch": 0.0945,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.04589436848958333,
      "learning_rate": 0.0001,
      "loss": 8.1339,
      "loss/crossentropy": 2.1499756574630737,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.271525114774704,
      "step": 1512
    },
    {
      "epoch": 0.094625,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.04589436848958333,
      "learning_rate": 0.0001,
      "loss": 8.2903,
      "loss/crossentropy": 2.1646158695220947,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2660486549139023,
      "step": 1514
    },
    {
      "epoch": 0.09475,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.05085347493489583,
      "learning_rate": 0.0001,
      "loss": 7.9533,
      "loss/crossentropy": 2.1994398832321167,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2655777484178543,
      "step": 1516
    },
    {
      "epoch": 0.094875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.047484334309895834,
      "learning_rate": 0.0001,
      "loss": 8.1863,
      "loss/crossentropy": 2.0542885661125183,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2492573782801628,
      "step": 1518
    },
    {
      "epoch": 0.095,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.046507771809895834,
      "learning_rate": 0.0001,
      "loss": 8.0486,
      "loss/crossentropy": 2.382603883743286,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2706970274448395,
      "step": 1520
    },
    {
      "epoch": 0.095125,
      "grad_norm": 3.0,
      "grad_norm_var": 0.04146219889322917,
      "learning_rate": 0.0001,
      "loss": 8.288,
      "loss/crossentropy": 2.2416555881500244,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26504258811473846,
      "step": 1522
    },
    {
      "epoch": 0.09525,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.04072265625,
      "learning_rate": 0.0001,
      "loss": 8.3359,
      "loss/crossentropy": 2.483952045440674,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.288076788187027,
      "step": 1524
    },
    {
      "epoch": 0.095375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.03912353515625,
      "learning_rate": 0.0001,
      "loss": 8.3248,
      "loss/crossentropy": 2.6946524381637573,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2882222831249237,
      "step": 1526
    },
    {
      "epoch": 0.0955,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.01900634765625,
      "learning_rate": 0.0001,
      "loss": 8.2016,
      "loss/crossentropy": 1.9769355058670044,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2325659841299057,
      "step": 1528
    },
    {
      "epoch": 0.095625,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.01513671875,
      "learning_rate": 0.0001,
      "loss": 8.2965,
      "loss/crossentropy": 2.3487859964370728,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26721881330013275,
      "step": 1530
    },
    {
      "epoch": 0.09575,
      "grad_norm": 3.59375,
      "grad_norm_var": 0.039534505208333334,
      "learning_rate": 0.0001,
      "loss": 8.1814,
      "loss/crossentropy": 2.2702786922454834,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2642149329185486,
      "step": 1532
    },
    {
      "epoch": 0.095875,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.056962076822916666,
      "learning_rate": 0.0001,
      "loss": 8.2477,
      "loss/crossentropy": 2.1052145957946777,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2681325525045395,
      "step": 1534
    },
    {
      "epoch": 0.096,
      "grad_norm": 3.9375,
      "grad_norm_var": 0.10074869791666667,
      "learning_rate": 0.0001,
      "loss": 8.158,
      "loss/crossentropy": 2.356938362121582,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2789629250764847,
      "step": 1536
    },
    {
      "epoch": 0.096125,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.11516825358072917,
      "learning_rate": 0.0001,
      "loss": 8.2291,
      "loss/crossentropy": 2.1644341945648193,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2661993205547333,
      "step": 1538
    },
    {
      "epoch": 0.09625,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.12259012858072917,
      "learning_rate": 0.0001,
      "loss": 8.1661,
      "loss/crossentropy": 2.512505531311035,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.283734068274498,
      "step": 1540
    },
    {
      "epoch": 0.096375,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.12873942057291668,
      "learning_rate": 0.0001,
      "loss": 8.1602,
      "loss/crossentropy": 2.2558088302612305,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26760005950927734,
      "step": 1542
    },
    {
      "epoch": 0.0965,
      "grad_norm": 3.0,
      "grad_norm_var": 0.12698160807291667,
      "learning_rate": 0.0001,
      "loss": 8.1477,
      "loss/crossentropy": 2.2201952934265137,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26513203978538513,
      "step": 1544
    },
    {
      "epoch": 0.096625,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.13869527180989583,
      "learning_rate": 0.0001,
      "loss": 8.1612,
      "loss/crossentropy": 2.229737162590027,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2448047399520874,
      "step": 1546
    },
    {
      "epoch": 0.09675,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.12079671223958334,
      "learning_rate": 0.0001,
      "loss": 8.1329,
      "loss/crossentropy": 2.3728041648864746,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2712114453315735,
      "step": 1548
    },
    {
      "epoch": 0.096875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.10236002604166666,
      "learning_rate": 0.0001,
      "loss": 8.2579,
      "loss/crossentropy": 2.3911492824554443,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28612037003040314,
      "step": 1550
    },
    {
      "epoch": 0.097,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.054011027018229164,
      "learning_rate": 0.0001,
      "loss": 8.3094,
      "loss/crossentropy": 2.3950345516204834,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28530459105968475,
      "step": 1552
    },
    {
      "epoch": 0.097125,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.051656087239583336,
      "learning_rate": 0.0001,
      "loss": 8.228,
      "loss/crossentropy": 2.577568531036377,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26758988201618195,
      "step": 1554
    },
    {
      "epoch": 0.09725,
      "grad_norm": 2.875,
      "grad_norm_var": 0.0450592041015625,
      "learning_rate": 0.0001,
      "loss": 8.2982,
      "loss/crossentropy": 2.4208312034606934,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2721874862909317,
      "step": 1556
    },
    {
      "epoch": 0.097375,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.03430582682291667,
      "learning_rate": 0.0001,
      "loss": 8.1512,
      "loss/crossentropy": 2.311411142349243,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2621803656220436,
      "step": 1558
    },
    {
      "epoch": 0.0975,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.036295572916666664,
      "learning_rate": 0.0001,
      "loss": 8.278,
      "loss/crossentropy": 2.180152475833893,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.255389466881752,
      "step": 1560
    },
    {
      "epoch": 0.097625,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.027587890625,
      "learning_rate": 0.0001,
      "loss": 8.3438,
      "loss/crossentropy": 2.5294106006622314,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26509322226047516,
      "step": 1562
    },
    {
      "epoch": 0.09775,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.027099609375,
      "learning_rate": 0.0001,
      "loss": 8.2816,
      "loss/crossentropy": 2.1683244705200195,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2431202381849289,
      "step": 1564
    },
    {
      "epoch": 0.097875,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.029686482747395833,
      "learning_rate": 0.0001,
      "loss": 8.2192,
      "loss/crossentropy": 2.2188292741775513,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.29626937210559845,
      "step": 1566
    },
    {
      "epoch": 0.098,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.0247955322265625,
      "learning_rate": 0.0001,
      "loss": 8.2902,
      "loss/crossentropy": 2.364318370819092,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26975926756858826,
      "step": 1568
    },
    {
      "epoch": 0.098125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.02056884765625,
      "learning_rate": 0.0001,
      "loss": 8.3332,
      "loss/crossentropy": 2.54610013961792,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28531205654144287,
      "step": 1570
    },
    {
      "epoch": 0.09825,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.018659464518229165,
      "learning_rate": 0.0001,
      "loss": 8.2105,
      "loss/crossentropy": 2.206403374671936,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24771679937839508,
      "step": 1572
    },
    {
      "epoch": 0.098375,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.015913899739583334,
      "learning_rate": 0.0001,
      "loss": 8.3768,
      "loss/crossentropy": 2.3607594966888428,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28001710772514343,
      "step": 1574
    },
    {
      "epoch": 0.0985,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.021581013997395832,
      "learning_rate": 0.0001,
      "loss": 8.2712,
      "loss/crossentropy": 2.2735308408737183,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26137876510620117,
      "step": 1576
    },
    {
      "epoch": 0.098625,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.027912394205729166,
      "learning_rate": 0.0001,
      "loss": 8.2123,
      "loss/crossentropy": 2.3609447479248047,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26791180670261383,
      "step": 1578
    },
    {
      "epoch": 0.09875,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.028450520833333333,
      "learning_rate": 0.0001,
      "loss": 8.3814,
      "loss/crossentropy": 2.4629390239715576,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29713912308216095,
      "step": 1580
    },
    {
      "epoch": 0.098875,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.028902180989583335,
      "learning_rate": 0.0001,
      "loss": 8.3342,
      "loss/crossentropy": 2.4477301836013794,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2905379682779312,
      "step": 1582
    },
    {
      "epoch": 0.099,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0256500244140625,
      "learning_rate": 0.0001,
      "loss": 8.1553,
      "loss/crossentropy": 2.310616612434387,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28200674057006836,
      "step": 1584
    },
    {
      "epoch": 0.099125,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.02744140625,
      "learning_rate": 0.0001,
      "loss": 8.202,
      "loss/crossentropy": 2.056865870952606,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2651172876358032,
      "step": 1586
    },
    {
      "epoch": 0.09925,
      "grad_norm": 3.546875,
      "grad_norm_var": 0.04753316243489583,
      "learning_rate": 0.0001,
      "loss": 8.3285,
      "loss/crossentropy": 2.222190737724304,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2600644379854202,
      "step": 1588
    },
    {
      "epoch": 0.099375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.05275777180989583,
      "learning_rate": 0.0001,
      "loss": 8.3277,
      "loss/crossentropy": 2.499345541000366,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27901938557624817,
      "step": 1590
    },
    {
      "epoch": 0.0995,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.04485270182291667,
      "learning_rate": 0.0001,
      "loss": 8.306,
      "loss/crossentropy": 2.4675090312957764,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27757471799850464,
      "step": 1592
    },
    {
      "epoch": 0.099625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.03870035807291667,
      "learning_rate": 0.0001,
      "loss": 8.1512,
      "loss/crossentropy": 2.0948686599731445,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24000447988510132,
      "step": 1594
    },
    {
      "epoch": 0.09975,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.0365386962890625,
      "learning_rate": 0.0001,
      "loss": 8.2796,
      "loss/crossentropy": 2.2303179502487183,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.25618939101696014,
      "step": 1596
    },
    {
      "epoch": 0.099875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.03728841145833333,
      "learning_rate": 0.0001,
      "loss": 8.2309,
      "loss/crossentropy": 2.172394037246704,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26014433801174164,
      "step": 1598
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.0,
      "grad_norm_var": 0.0431640625,
      "learning_rate": 0.0001,
      "loss": 8.0142,
      "loss/crossentropy": 2.0257323384284973,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23609444499015808,
      "step": 1600
    },
    {
      "epoch": 0.100125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.044514973958333336,
      "learning_rate": 0.0001,
      "loss": 8.0713,
      "loss/crossentropy": 2.1410731077194214,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26623016595840454,
      "step": 1602
    },
    {
      "epoch": 0.10025,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.021491495768229167,
      "learning_rate": 0.0001,
      "loss": 8.0494,
      "loss/crossentropy": 2.3695082664489746,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2746554762125015,
      "step": 1604
    },
    {
      "epoch": 0.100375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.021637980143229166,
      "learning_rate": 0.0001,
      "loss": 8.1369,
      "loss/crossentropy": 2.2459890842437744,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25808124244213104,
      "step": 1606
    },
    {
      "epoch": 0.1005,
      "grad_norm": 3.25,
      "grad_norm_var": 0.023591105143229166,
      "learning_rate": 0.0001,
      "loss": 8.3249,
      "loss/crossentropy": 2.4524621963500977,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2866296321153641,
      "step": 1608
    },
    {
      "epoch": 0.100625,
      "grad_norm": 3.0,
      "grad_norm_var": 0.023128255208333334,
      "learning_rate": 0.0001,
      "loss": 8.2293,
      "loss/crossentropy": 2.3052438497543335,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27561667561531067,
      "step": 1610
    },
    {
      "epoch": 0.10075,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.021174112955729168,
      "learning_rate": 0.0001,
      "loss": 8.1306,
      "loss/crossentropy": 2.477377772331238,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26571913063526154,
      "step": 1612
    },
    {
      "epoch": 0.100875,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.1718414306640625,
      "learning_rate": 0.0001,
      "loss": 8.4299,
      "loss/crossentropy": 2.2197115421295166,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2796938568353653,
      "step": 1614
    },
    {
      "epoch": 0.101,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.17489827473958333,
      "learning_rate": 0.0001,
      "loss": 8.2917,
      "loss/crossentropy": 2.2831382751464844,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2742185890674591,
      "step": 1616
    },
    {
      "epoch": 0.101125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.17009989420572916,
      "learning_rate": 0.0001,
      "loss": 8.2352,
      "loss/crossentropy": 2.2610585689544678,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26356393098831177,
      "step": 1618
    },
    {
      "epoch": 0.10125,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.16988525390625,
      "learning_rate": 0.0001,
      "loss": 8.2457,
      "loss/crossentropy": 2.2453945875167847,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2588353157043457,
      "step": 1620
    },
    {
      "epoch": 0.101375,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.16035054524739584,
      "learning_rate": 0.0001,
      "loss": 8.2079,
      "loss/crossentropy": 2.2290210723876953,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27493180334568024,
      "step": 1622
    },
    {
      "epoch": 0.1015,
      "grad_norm": 3.0,
      "grad_norm_var": 0.15942281087239582,
      "learning_rate": 0.0001,
      "loss": 8.3946,
      "loss/crossentropy": 2.3389216661453247,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2627445012331009,
      "step": 1624
    },
    {
      "epoch": 0.101625,
      "grad_norm": 3.625,
      "grad_norm_var": 0.32203776041666665,
      "learning_rate": 0.0001,
      "loss": 8.2128,
      "loss/crossentropy": 2.193161904811859,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2609563320875168,
      "step": 1626
    },
    {
      "epoch": 0.10175,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.29754231770833334,
      "learning_rate": 0.0001,
      "loss": 8.2789,
      "loss/crossentropy": 2.4037156105041504,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2840966284275055,
      "step": 1628
    },
    {
      "epoch": 0.101875,
      "grad_norm": 14.4375,
      "grad_norm_var": 8.05601298014323,
      "learning_rate": 0.0001,
      "loss": 8.7256,
      "loss/crossentropy": 2.2983932495117188,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2895353436470032,
      "step": 1630
    },
    {
      "epoch": 0.102,
      "grad_norm": 3.359375,
      "grad_norm_var": 8.257710774739584,
      "learning_rate": 0.0001,
      "loss": 8.5242,
      "loss/crossentropy": 2.5548095703125,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29210618138313293,
      "step": 1632
    },
    {
      "epoch": 0.102125,
      "grad_norm": 3.015625,
      "grad_norm_var": 8.2908203125,
      "learning_rate": 0.0001,
      "loss": 8.2313,
      "loss/crossentropy": 2.1125290393829346,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26304440200328827,
      "step": 1634
    },
    {
      "epoch": 0.10225,
      "grad_norm": 3.0,
      "grad_norm_var": 8.321890258789063,
      "learning_rate": 0.0001,
      "loss": 8.3129,
      "loss/crossentropy": 2.4635796546936035,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.289856493473053,
      "step": 1636
    },
    {
      "epoch": 0.102375,
      "grad_norm": 3.359375,
      "grad_norm_var": 8.303043619791667,
      "learning_rate": 0.0001,
      "loss": 8.3342,
      "loss/crossentropy": 2.4671066999435425,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30989140272140503,
      "step": 1638
    },
    {
      "epoch": 0.1025,
      "grad_norm": 2.859375,
      "grad_norm_var": 8.330631510416667,
      "learning_rate": 0.0001,
      "loss": 8.3266,
      "loss/crossentropy": 2.2032480239868164,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28856223821640015,
      "step": 1640
    },
    {
      "epoch": 0.102625,
      "grad_norm": 2.875,
      "grad_norm_var": 8.449762980143229,
      "learning_rate": 0.0001,
      "loss": 8.0619,
      "loss/crossentropy": 2.384071946144104,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27716881036758423,
      "step": 1642
    },
    {
      "epoch": 0.10275,
      "grad_norm": 4.25,
      "grad_norm_var": 8.37940165201823,
      "learning_rate": 0.0001,
      "loss": 8.2985,
      "loss/crossentropy": 2.394433617591858,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.27403971552848816,
      "step": 1644
    },
    {
      "epoch": 0.102875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.6259073893229167,
      "learning_rate": 0.0001,
      "loss": 8.1275,
      "loss/crossentropy": 2.5770705938339233,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2827526032924652,
      "step": 1646
    },
    {
      "epoch": 0.103,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.11741434733072917,
      "learning_rate": 0.0001,
      "loss": 8.1994,
      "loss/crossentropy": 2.203721523284912,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2632629871368408,
      "step": 1648
    },
    {
      "epoch": 0.103125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.11988525390625,
      "learning_rate": 0.0001,
      "loss": 8.27,
      "loss/crossentropy": 2.190592408180237,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2594703510403633,
      "step": 1650
    },
    {
      "epoch": 0.10325,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.122119140625,
      "learning_rate": 0.0001,
      "loss": 8.3436,
      "loss/crossentropy": 2.3094884157180786,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2539513558149338,
      "step": 1652
    },
    {
      "epoch": 0.103375,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.12323811848958334,
      "learning_rate": 0.0001,
      "loss": 8.2993,
      "loss/crossentropy": 2.2542308568954468,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27265970408916473,
      "step": 1654
    },
    {
      "epoch": 0.1035,
      "grad_norm": 3.65625,
      "grad_norm_var": 0.14322916666666666,
      "learning_rate": 0.0001,
      "loss": 8.2358,
      "loss/crossentropy": 2.150593101978302,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26226024329662323,
      "step": 1656
    },
    {
      "epoch": 0.103625,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.15575764973958334,
      "learning_rate": 0.0001,
      "loss": 8.2424,
      "loss/crossentropy": 2.3359317779541016,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2621028572320938,
      "step": 1658
    },
    {
      "epoch": 0.10375,
      "grad_norm": 3.125,
      "grad_norm_var": 0.07243550618489583,
      "learning_rate": 0.0001,
      "loss": 8.209,
      "loss/crossentropy": 2.3354294300079346,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28642134368419647,
      "step": 1660
    },
    {
      "epoch": 0.103875,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.07413736979166667,
      "learning_rate": 0.0001,
      "loss": 8.0643,
      "loss/crossentropy": 2.2628813982009888,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2720167338848114,
      "step": 1662
    },
    {
      "epoch": 0.104,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.08414713541666667,
      "learning_rate": 0.0001,
      "loss": 8.2252,
      "loss/crossentropy": 2.405531644821167,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2855593413114548,
      "step": 1664
    },
    {
      "epoch": 0.104125,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.09845377604166666,
      "learning_rate": 0.0001,
      "loss": 8.2726,
      "loss/crossentropy": 2.348948836326599,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2590363919734955,
      "step": 1666
    },
    {
      "epoch": 0.10425,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.108740234375,
      "learning_rate": 0.0001,
      "loss": 8.0444,
      "loss/crossentropy": 2.275284171104431,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2520073354244232,
      "step": 1668
    },
    {
      "epoch": 0.104375,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.10839436848958334,
      "learning_rate": 0.0001,
      "loss": 7.9805,
      "loss/crossentropy": 2.160663425922394,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25372669100761414,
      "step": 1670
    },
    {
      "epoch": 0.1045,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.0904205322265625,
      "learning_rate": 0.0001,
      "loss": 8.2607,
      "loss/crossentropy": 2.2359933853149414,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2621243894100189,
      "step": 1672
    },
    {
      "epoch": 0.104625,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.06806233723958334,
      "learning_rate": 0.0001,
      "loss": 7.9523,
      "loss/crossentropy": 1.9437886476516724,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2611730396747589,
      "step": 1674
    },
    {
      "epoch": 0.10475,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.06712137858072917,
      "learning_rate": 0.0001,
      "loss": 8.0401,
      "loss/crossentropy": 2.288792371749878,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2550469785928726,
      "step": 1676
    },
    {
      "epoch": 0.104875,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.07136128743489584,
      "learning_rate": 0.0001,
      "loss": 8.2327,
      "loss/crossentropy": 2.1720248460769653,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24942373484373093,
      "step": 1678
    },
    {
      "epoch": 0.105,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.06942952473958333,
      "learning_rate": 0.0001,
      "loss": 8.2368,
      "loss/crossentropy": 2.2941821813583374,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2739366888999939,
      "step": 1680
    },
    {
      "epoch": 0.105125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.0464508056640625,
      "learning_rate": 0.0001,
      "loss": 8.234,
      "loss/crossentropy": 2.255189538002014,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2702263593673706,
      "step": 1682
    },
    {
      "epoch": 0.10525,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.0395660400390625,
      "learning_rate": 0.0001,
      "loss": 8.1081,
      "loss/crossentropy": 2.419864535331726,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26446475088596344,
      "step": 1684
    },
    {
      "epoch": 0.105375,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.041559855143229164,
      "learning_rate": 0.0001,
      "loss": 8.3004,
      "loss/crossentropy": 2.329113721847534,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2699923515319824,
      "step": 1686
    },
    {
      "epoch": 0.1055,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.02672119140625,
      "learning_rate": 0.0001,
      "loss": 8.0978,
      "loss/crossentropy": 2.290674090385437,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2571800425648689,
      "step": 1688
    },
    {
      "epoch": 0.105625,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.031787109375,
      "learning_rate": 0.0001,
      "loss": 7.992,
      "loss/crossentropy": 2.194283127784729,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2518819496035576,
      "step": 1690
    },
    {
      "epoch": 0.10575,
      "grad_norm": 3.625,
      "grad_norm_var": 0.06621805826822917,
      "learning_rate": 0.0001,
      "loss": 8.0845,
      "loss/crossentropy": 2.3665404319763184,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2546495646238327,
      "step": 1692
    },
    {
      "epoch": 0.105875,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.06741536458333333,
      "learning_rate": 0.0001,
      "loss": 8.2148,
      "loss/crossentropy": 2.6665724515914917,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26855309307575226,
      "step": 1694
    },
    {
      "epoch": 0.106,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.06809488932291667,
      "learning_rate": 0.0001,
      "loss": 8.0213,
      "loss/crossentropy": 2.0011618733406067,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2479224056005478,
      "step": 1696
    },
    {
      "epoch": 0.106125,
      "grad_norm": 3.0,
      "grad_norm_var": 0.06813151041666667,
      "learning_rate": 0.0001,
      "loss": 8.1117,
      "loss/crossentropy": 2.233310341835022,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26155102252960205,
      "step": 1698
    },
    {
      "epoch": 0.10625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.067138671875,
      "learning_rate": 0.0001,
      "loss": 8.1435,
      "loss/crossentropy": 2.023264706134796,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23082198202610016,
      "step": 1700
    },
    {
      "epoch": 0.106375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.06722005208333333,
      "learning_rate": 0.0001,
      "loss": 8.0233,
      "loss/crossentropy": 2.2503018379211426,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24713517725467682,
      "step": 1702
    },
    {
      "epoch": 0.1065,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.07294820149739584,
      "learning_rate": 0.0001,
      "loss": 7.9907,
      "loss/crossentropy": 2.557657241821289,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26641707122325897,
      "step": 1704
    },
    {
      "epoch": 0.106625,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.06492411295572917,
      "learning_rate": 0.0001,
      "loss": 7.9908,
      "loss/crossentropy": 2.2161107063293457,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2457757443189621,
      "step": 1706
    },
    {
      "epoch": 0.10675,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.041047159830729166,
      "learning_rate": 0.0001,
      "loss": 8.3599,
      "loss/crossentropy": 2.307586431503296,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.25822295993566513,
      "step": 1708
    },
    {
      "epoch": 0.106875,
      "grad_norm": 2.875,
      "grad_norm_var": 0.03759765625,
      "learning_rate": 0.0001,
      "loss": 8.1595,
      "loss/crossentropy": 2.215519666671753,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2511584535241127,
      "step": 1710
    },
    {
      "epoch": 0.107,
      "grad_norm": 3.125,
      "grad_norm_var": 0.03365478515625,
      "learning_rate": 0.0001,
      "loss": 8.3037,
      "loss/crossentropy": 2.292387008666992,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2549327313899994,
      "step": 1712
    },
    {
      "epoch": 0.107125,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.03853251139322917,
      "learning_rate": 0.0001,
      "loss": 8.1552,
      "loss/crossentropy": 2.573517322540283,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27707283198833466,
      "step": 1714
    },
    {
      "epoch": 0.10725,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.03942057291666667,
      "learning_rate": 0.0001,
      "loss": 8.1879,
      "loss/crossentropy": 2.4223859310150146,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26580674946308136,
      "step": 1716
    },
    {
      "epoch": 0.107375,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.03720296223958333,
      "learning_rate": 0.0001,
      "loss": 8.2149,
      "loss/crossentropy": 2.5507869720458984,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2808096259832382,
      "step": 1718
    },
    {
      "epoch": 0.1075,
      "grad_norm": 5.46875,
      "grad_norm_var": 0.42760009765625,
      "learning_rate": 0.0001,
      "loss": 8.2746,
      "loss/crossentropy": 2.4066158533096313,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27704988420009613,
      "step": 1720
    },
    {
      "epoch": 0.107625,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.42789306640625,
      "learning_rate": 0.0001,
      "loss": 8.1194,
      "loss/crossentropy": 2.3192564249038696,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2466306835412979,
      "step": 1722
    },
    {
      "epoch": 0.10775,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.4310943603515625,
      "learning_rate": 0.0001,
      "loss": 8.1758,
      "loss/crossentropy": 2.2524945735931396,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26875488460063934,
      "step": 1724
    },
    {
      "epoch": 0.107875,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.4318359375,
      "learning_rate": 0.0001,
      "loss": 8.27,
      "loss/crossentropy": 2.2209118604660034,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25894972681999207,
      "step": 1726
    },
    {
      "epoch": 0.108,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.43041890462239585,
      "learning_rate": 0.0001,
      "loss": 8.2942,
      "loss/crossentropy": 2.156678080558777,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.24751365184783936,
      "step": 1728
    },
    {
      "epoch": 0.108125,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.42939453125,
      "learning_rate": 0.0001,
      "loss": 7.9607,
      "loss/crossentropy": 2.1267510652542114,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24761785566806793,
      "step": 1730
    },
    {
      "epoch": 0.10825,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.4383941650390625,
      "learning_rate": 0.0001,
      "loss": 7.9771,
      "loss/crossentropy": 2.300544857978821,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23868989944458008,
      "step": 1732
    },
    {
      "epoch": 0.108375,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.45806884765625,
      "learning_rate": 0.0001,
      "loss": 8.1917,
      "loss/crossentropy": 2.360519051551819,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26660336554050446,
      "step": 1734
    },
    {
      "epoch": 0.1085,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.06379292805989584,
      "learning_rate": 0.0001,
      "loss": 8.1922,
      "loss/crossentropy": 2.1705552339553833,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2528446614742279,
      "step": 1736
    },
    {
      "epoch": 0.108625,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.034357706705729164,
      "learning_rate": 0.0001,
      "loss": 8.1198,
      "loss/crossentropy": 2.299151659011841,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25353947281837463,
      "step": 1738
    },
    {
      "epoch": 0.10875,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.045210774739583334,
      "learning_rate": 0.0001,
      "loss": 8.2351,
      "loss/crossentropy": 2.172037899494171,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2686986029148102,
      "step": 1740
    },
    {
      "epoch": 0.108875,
      "grad_norm": 3.3125,
      "grad_norm_var": 0.0550201416015625,
      "learning_rate": 0.0001,
      "loss": 8.0653,
      "loss/crossentropy": 2.3453006744384766,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2615263909101486,
      "step": 1742
    },
    {
      "epoch": 0.109,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.06112874348958333,
      "learning_rate": 0.0001,
      "loss": 8.0488,
      "loss/crossentropy": 2.4043914079666138,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2809004932641983,
      "step": 1744
    },
    {
      "epoch": 0.109125,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.06349995930989584,
      "learning_rate": 0.0001,
      "loss": 8.3458,
      "loss/crossentropy": 2.3624587059020996,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29849672317504883,
      "step": 1746
    },
    {
      "epoch": 0.10925,
      "grad_norm": 3.25,
      "grad_norm_var": 0.06689453125,
      "learning_rate": 0.0001,
      "loss": 8.2422,
      "loss/crossentropy": 2.299923300743103,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2804667204618454,
      "step": 1748
    },
    {
      "epoch": 0.109375,
      "grad_norm": 2.625,
      "grad_norm_var": 0.06067301432291667,
      "learning_rate": 0.0001,
      "loss": 8.0319,
      "loss/crossentropy": 2.017127275466919,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.236178919672966,
      "step": 1750
    },
    {
      "epoch": 0.1095,
      "grad_norm": 2.875,
      "grad_norm_var": 0.05732014973958333,
      "learning_rate": 0.0001,
      "loss": 8.2062,
      "loss/crossentropy": 2.665374517440796,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28587816655635834,
      "step": 1752
    },
    {
      "epoch": 0.109625,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.07112528483072916,
      "learning_rate": 0.0001,
      "loss": 8.129,
      "loss/crossentropy": 2.2756296396255493,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2523636817932129,
      "step": 1754
    },
    {
      "epoch": 0.10975,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.058259073893229166,
      "learning_rate": 0.0001,
      "loss": 7.9899,
      "loss/crossentropy": 2.066028356552124,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23234106600284576,
      "step": 1756
    },
    {
      "epoch": 0.109875,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.05266520182291667,
      "learning_rate": 0.0001,
      "loss": 8.1501,
      "loss/crossentropy": 2.307652711868286,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26358823478221893,
      "step": 1758
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0484375,
      "learning_rate": 0.0001,
      "loss": 8.0521,
      "loss/crossentropy": 2.00510311126709,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2376161813735962,
      "step": 1760
    },
    {
      "epoch": 0.110125,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.04407450358072917,
      "learning_rate": 0.0001,
      "loss": 8.1974,
      "loss/crossentropy": 2.4039831161499023,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27686847746372223,
      "step": 1762
    },
    {
      "epoch": 0.11025,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.03303934733072917,
      "learning_rate": 0.0001,
      "loss": 8.0579,
      "loss/crossentropy": 2.3060104846954346,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2945534288883209,
      "step": 1764
    },
    {
      "epoch": 0.110375,
      "grad_norm": 3.40625,
      "grad_norm_var": 0.050047810872395834,
      "learning_rate": 0.0001,
      "loss": 8.0388,
      "loss/crossentropy": 2.4445682764053345,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27699966728687286,
      "step": 1766
    },
    {
      "epoch": 0.1105,
      "grad_norm": 2.75,
      "grad_norm_var": 0.05078837076822917,
      "learning_rate": 0.0001,
      "loss": 8.2157,
      "loss/crossentropy": 2.4216455221176147,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28081244230270386,
      "step": 1768
    },
    {
      "epoch": 0.110625,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.035521443684895834,
      "learning_rate": 0.0001,
      "loss": 8.0611,
      "loss/crossentropy": 1.7756622433662415,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2289479374885559,
      "step": 1770
    },
    {
      "epoch": 0.11075,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.03371480305989583,
      "learning_rate": 0.0001,
      "loss": 7.9772,
      "loss/crossentropy": 2.1726499795913696,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2653361111879349,
      "step": 1772
    },
    {
      "epoch": 0.110875,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.034016927083333336,
      "learning_rate": 0.0001,
      "loss": 8.0615,
      "loss/crossentropy": 2.3147062063217163,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27281494438648224,
      "step": 1774
    },
    {
      "epoch": 0.111,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0338775634765625,
      "learning_rate": 0.0001,
      "loss": 8.1474,
      "loss/crossentropy": 2.1700609922409058,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25692617893218994,
      "step": 1776
    },
    {
      "epoch": 0.111125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.0308990478515625,
      "learning_rate": 0.0001,
      "loss": 8.0753,
      "loss/crossentropy": 2.114788770675659,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2623438090085983,
      "step": 1778
    },
    {
      "epoch": 0.11125,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.03291727701822917,
      "learning_rate": 0.0001,
      "loss": 8.232,
      "loss/crossentropy": 2.3088366985321045,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25789759308099747,
      "step": 1780
    },
    {
      "epoch": 0.111375,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0161773681640625,
      "learning_rate": 0.0001,
      "loss": 8.1283,
      "loss/crossentropy": 2.021032750606537,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26125916838645935,
      "step": 1782
    },
    {
      "epoch": 0.1115,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.016520182291666668,
      "learning_rate": 0.0001,
      "loss": 8.3159,
      "loss/crossentropy": 2.546655535697937,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26530279219150543,
      "step": 1784
    },
    {
      "epoch": 0.111625,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.018094889322916665,
      "learning_rate": 0.0001,
      "loss": 8.0182,
      "loss/crossentropy": 2.1505188941955566,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23876308649778366,
      "step": 1786
    },
    {
      "epoch": 0.11175,
      "grad_norm": 2.875,
      "grad_norm_var": 0.019880167643229165,
      "learning_rate": 0.0001,
      "loss": 8.0242,
      "loss/crossentropy": 2.1757689714431763,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2557087540626526,
      "step": 1788
    },
    {
      "epoch": 0.111875,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.01763916015625,
      "learning_rate": 0.0001,
      "loss": 8.0262,
      "loss/crossentropy": 2.28451144695282,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26241403818130493,
      "step": 1790
    },
    {
      "epoch": 0.112,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.016145833333333335,
      "learning_rate": 0.0001,
      "loss": 8.0235,
      "loss/crossentropy": 2.11034619808197,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2549893856048584,
      "step": 1792
    },
    {
      "epoch": 0.112125,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.014969889322916667,
      "learning_rate": 0.0001,
      "loss": 8.076,
      "loss/crossentropy": 2.0472227931022644,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2562412843108177,
      "step": 1794
    },
    {
      "epoch": 0.11225,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0120758056640625,
      "learning_rate": 0.0001,
      "loss": 7.928,
      "loss/crossentropy": 2.315675735473633,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2601415067911148,
      "step": 1796
    },
    {
      "epoch": 0.112375,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.022443644205729165,
      "learning_rate": 0.0001,
      "loss": 7.8579,
      "loss/crossentropy": 2.0402532815933228,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2341025322675705,
      "step": 1798
    },
    {
      "epoch": 0.1125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.02135009765625,
      "learning_rate": 0.0001,
      "loss": 8.2218,
      "loss/crossentropy": 2.562678098678589,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2757340967655182,
      "step": 1800
    },
    {
      "epoch": 0.112625,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.024657185872395834,
      "learning_rate": 0.0001,
      "loss": 8.1885,
      "loss/crossentropy": 2.0969003438949585,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2326880842447281,
      "step": 1802
    },
    {
      "epoch": 0.11275,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.030720011393229166,
      "learning_rate": 0.0001,
      "loss": 8.1163,
      "loss/crossentropy": 2.332270383834839,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25439298152923584,
      "step": 1804
    },
    {
      "epoch": 0.112875,
      "grad_norm": 3.125,
      "grad_norm_var": 0.03774312337239583,
      "learning_rate": 0.0001,
      "loss": 8.106,
      "loss/crossentropy": 2.162129521369934,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26606719195842743,
      "step": 1806
    },
    {
      "epoch": 0.113,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0377593994140625,
      "learning_rate": 0.0001,
      "loss": 8.1417,
      "loss/crossentropy": 2.2731558084487915,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2553500384092331,
      "step": 1808
    },
    {
      "epoch": 0.113125,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.0411529541015625,
      "learning_rate": 0.0001,
      "loss": 8.0807,
      "loss/crossentropy": 2.10029274225235,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23542343080043793,
      "step": 1810
    },
    {
      "epoch": 0.11325,
      "grad_norm": 2.875,
      "grad_norm_var": 0.04257405598958333,
      "learning_rate": 0.0001,
      "loss": 8.1634,
      "loss/crossentropy": 2.426058769226074,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2891880124807358,
      "step": 1812
    },
    {
      "epoch": 0.113375,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.033154296875,
      "learning_rate": 0.0001,
      "loss": 8.0769,
      "loss/crossentropy": 2.4051181077957153,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2494017630815506,
      "step": 1814
    },
    {
      "epoch": 0.1135,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.03585611979166667,
      "learning_rate": 0.0001,
      "loss": 8.0919,
      "loss/crossentropy": 2.0648642778396606,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23387089371681213,
      "step": 1816
    },
    {
      "epoch": 0.113625,
      "grad_norm": 3.25,
      "grad_norm_var": 0.0592681884765625,
      "learning_rate": 0.0001,
      "loss": 8.078,
      "loss/crossentropy": 1.989893615245819,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23796076327562332,
      "step": 1818
    },
    {
      "epoch": 0.11375,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0541656494140625,
      "learning_rate": 0.0001,
      "loss": 7.9998,
      "loss/crossentropy": 1.9235325455665588,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22104668617248535,
      "step": 1820
    },
    {
      "epoch": 0.113875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.05319010416666667,
      "learning_rate": 0.0001,
      "loss": 8.0283,
      "loss/crossentropy": 2.39365816116333,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25356078147888184,
      "step": 1822
    },
    {
      "epoch": 0.114,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.05628153483072917,
      "learning_rate": 0.0001,
      "loss": 8.0969,
      "loss/crossentropy": 2.2098069190979004,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2322394847869873,
      "step": 1824
    },
    {
      "epoch": 0.114125,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.05894266764322917,
      "learning_rate": 0.0001,
      "loss": 8.0474,
      "loss/crossentropy": 2.3926165103912354,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26291845738887787,
      "step": 1826
    },
    {
      "epoch": 0.11425,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.057494099934895834,
      "learning_rate": 0.0001,
      "loss": 8.0912,
      "loss/crossentropy": 2.271665573120117,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28214675188064575,
      "step": 1828
    },
    {
      "epoch": 0.114375,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.055826822916666664,
      "learning_rate": 0.0001,
      "loss": 8.2937,
      "loss/crossentropy": 2.3243162631988525,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25888554751873016,
      "step": 1830
    },
    {
      "epoch": 0.1145,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.05383707682291667,
      "learning_rate": 0.0001,
      "loss": 8.158,
      "loss/crossentropy": 2.4674028158187866,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2678636610507965,
      "step": 1832
    },
    {
      "epoch": 0.114625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.023795572916666667,
      "learning_rate": 0.0001,
      "loss": 8.2065,
      "loss/crossentropy": 2.2178725004196167,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2575995400547981,
      "step": 1834
    },
    {
      "epoch": 0.11475,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.023444620768229167,
      "learning_rate": 0.0001,
      "loss": 8.086,
      "loss/crossentropy": 2.173088550567627,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25725461542606354,
      "step": 1836
    },
    {
      "epoch": 0.114875,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.015576171875,
      "learning_rate": 0.0001,
      "loss": 8.013,
      "loss/crossentropy": 2.167203664779663,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2551988810300827,
      "step": 1838
    },
    {
      "epoch": 0.115,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.011714680989583334,
      "learning_rate": 0.0001,
      "loss": 8.0137,
      "loss/crossentropy": 2.324142336845398,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25543810427188873,
      "step": 1840
    },
    {
      "epoch": 0.115125,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.008675130208333333,
      "learning_rate": 0.0001,
      "loss": 7.8792,
      "loss/crossentropy": 2.3638752698898315,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26999443769454956,
      "step": 1842
    },
    {
      "epoch": 0.11525,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.014351399739583333,
      "learning_rate": 0.0001,
      "loss": 8.0577,
      "loss/crossentropy": 2.236335277557373,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24563505500555038,
      "step": 1844
    },
    {
      "epoch": 0.115375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.018550618489583334,
      "learning_rate": 0.0001,
      "loss": 8.0579,
      "loss/crossentropy": 2.3817098140716553,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25307345390319824,
      "step": 1846
    },
    {
      "epoch": 0.1155,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.016373697916666666,
      "learning_rate": 0.0001,
      "loss": 7.796,
      "loss/crossentropy": 2.2049105167388916,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2526453882455826,
      "step": 1848
    },
    {
      "epoch": 0.115625,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.019429524739583332,
      "learning_rate": 0.0001,
      "loss": 8.2624,
      "loss/crossentropy": 2.544666051864624,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27838000655174255,
      "step": 1850
    },
    {
      "epoch": 0.11575,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0191070556640625,
      "learning_rate": 0.0001,
      "loss": 8.0722,
      "loss/crossentropy": 2.4957003593444824,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25582027435302734,
      "step": 1852
    },
    {
      "epoch": 0.115875,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.030301920572916665,
      "learning_rate": 0.0001,
      "loss": 7.9738,
      "loss/crossentropy": 2.2852269411087036,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27101629972457886,
      "step": 1854
    },
    {
      "epoch": 0.116,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.030790201822916665,
      "learning_rate": 0.0001,
      "loss": 7.9897,
      "loss/crossentropy": 2.1064014434814453,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24057136476039886,
      "step": 1856
    },
    {
      "epoch": 0.116125,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.03762105305989583,
      "learning_rate": 0.0001,
      "loss": 8.1089,
      "loss/crossentropy": 2.352795124053955,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23926259577274323,
      "step": 1858
    },
    {
      "epoch": 0.11625,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.04638671875,
      "learning_rate": 0.0001,
      "loss": 7.8246,
      "loss/crossentropy": 2.085222840309143,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21554403752088547,
      "step": 1860
    },
    {
      "epoch": 0.116375,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.0461578369140625,
      "learning_rate": 0.0001,
      "loss": 7.9895,
      "loss/crossentropy": 1.9475982785224915,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2195342779159546,
      "step": 1862
    },
    {
      "epoch": 0.1165,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.04849853515625,
      "learning_rate": 0.0001,
      "loss": 7.9607,
      "loss/crossentropy": 2.4439034461975098,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27569329738616943,
      "step": 1864
    },
    {
      "epoch": 0.116625,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.06008199055989583,
      "learning_rate": 0.0001,
      "loss": 7.9813,
      "loss/crossentropy": 2.3087748289108276,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2708819806575775,
      "step": 1866
    },
    {
      "epoch": 0.11675,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.06638895670572917,
      "learning_rate": 0.0001,
      "loss": 8.0842,
      "loss/crossentropy": 2.2168221473693848,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2662223279476166,
      "step": 1868
    },
    {
      "epoch": 0.116875,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.06785380045572917,
      "learning_rate": 0.0001,
      "loss": 8.0107,
      "loss/crossentropy": 2.008695662021637,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24834764003753662,
      "step": 1870
    },
    {
      "epoch": 0.117,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.07073160807291666,
      "learning_rate": 0.0001,
      "loss": 8.1764,
      "loss/crossentropy": 2.2949352860450745,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23978671431541443,
      "step": 1872
    },
    {
      "epoch": 0.117125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.0585357666015625,
      "learning_rate": 0.0001,
      "loss": 7.9191,
      "loss/crossentropy": 2.1248743534088135,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24373694509267807,
      "step": 1874
    },
    {
      "epoch": 0.11725,
      "grad_norm": 5.25,
      "grad_norm_var": 0.4083984375,
      "learning_rate": 0.0001,
      "loss": 8.1591,
      "loss/crossentropy": 2.4608160257339478,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2699667811393738,
      "step": 1876
    },
    {
      "epoch": 0.117375,
      "grad_norm": 3.765625,
      "grad_norm_var": 0.43925679524739586,
      "learning_rate": 0.0001,
      "loss": 8.2212,
      "loss/crossentropy": 2.192078948020935,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26026079058647156,
      "step": 1878
    },
    {
      "epoch": 0.1175,
      "grad_norm": 3.25,
      "grad_norm_var": 0.4112701416015625,
      "learning_rate": 0.0001,
      "loss": 7.974,
      "loss/crossentropy": 2.079145610332489,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2560829073190689,
      "step": 1880
    },
    {
      "epoch": 0.117625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.4034657796223958,
      "learning_rate": 0.0001,
      "loss": 8.0137,
      "loss/crossentropy": 2.2801836133003235,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2451099008321762,
      "step": 1882
    },
    {
      "epoch": 0.11775,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.43884175618489585,
      "learning_rate": 0.0001,
      "loss": 8.0881,
      "loss/crossentropy": 2.373893141746521,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26466645300388336,
      "step": 1884
    },
    {
      "epoch": 0.117875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.413330078125,
      "learning_rate": 0.0001,
      "loss": 7.9685,
      "loss/crossentropy": 2.411695957183838,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2512810304760933,
      "step": 1886
    },
    {
      "epoch": 0.118,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.42668355305989586,
      "learning_rate": 0.0001,
      "loss": 8.0557,
      "loss/crossentropy": 2.049705147743225,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2417662888765335,
      "step": 1888
    },
    {
      "epoch": 0.118125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.44470113118489585,
      "learning_rate": 0.0001,
      "loss": 8.0032,
      "loss/crossentropy": 2.1323426961898804,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23288051038980484,
      "step": 1890
    },
    {
      "epoch": 0.11825,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.1299957275390625,
      "learning_rate": 0.0001,
      "loss": 8.1034,
      "loss/crossentropy": 2.246406674385071,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26154619455337524,
      "step": 1892
    },
    {
      "epoch": 0.118375,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.07519429524739583,
      "learning_rate": 0.0001,
      "loss": 8.2607,
      "loss/crossentropy": 2.3726965188980103,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2482641637325287,
      "step": 1894
    },
    {
      "epoch": 0.1185,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.06081441243489583,
      "learning_rate": 0.0001,
      "loss": 8.0314,
      "loss/crossentropy": 2.2549182176589966,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2727925777435303,
      "step": 1896
    },
    {
      "epoch": 0.118625,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.06313374837239584,
      "learning_rate": 0.0001,
      "loss": 8.2286,
      "loss/crossentropy": 2.471170663833618,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27910932898521423,
      "step": 1898
    },
    {
      "epoch": 0.11875,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.05249735514322917,
      "learning_rate": 0.0001,
      "loss": 8.0647,
      "loss/crossentropy": 2.6244795322418213,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28073398768901825,
      "step": 1900
    },
    {
      "epoch": 0.118875,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.049128214518229164,
      "learning_rate": 0.0001,
      "loss": 7.8933,
      "loss/crossentropy": 2.3852927684783936,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26651833206415176,
      "step": 1902
    },
    {
      "epoch": 0.119,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.035521443684895834,
      "learning_rate": 0.0001,
      "loss": 8.0328,
      "loss/crossentropy": 2.5933183431625366,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.271125927567482,
      "step": 1904
    },
    {
      "epoch": 0.119125,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.05452372233072917,
      "learning_rate": 0.0001,
      "loss": 8.0956,
      "loss/crossentropy": 2.2415446043014526,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.258744515478611,
      "step": 1906
    },
    {
      "epoch": 0.11925,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.06295166015625,
      "learning_rate": 0.0001,
      "loss": 7.882,
      "loss/crossentropy": 2.1915100812911987,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26428738236427307,
      "step": 1908
    },
    {
      "epoch": 0.119375,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.059300740559895836,
      "learning_rate": 0.0001,
      "loss": 7.8918,
      "loss/crossentropy": 2.024084210395813,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23683403432369232,
      "step": 1910
    },
    {
      "epoch": 0.1195,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.08255208333333333,
      "learning_rate": 0.0001,
      "loss": 8.1278,
      "loss/crossentropy": 2.103874683380127,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2549164593219757,
      "step": 1912
    },
    {
      "epoch": 0.119625,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0891021728515625,
      "learning_rate": 0.0001,
      "loss": 8.0439,
      "loss/crossentropy": 2.1909857988357544,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25458941608667374,
      "step": 1914
    },
    {
      "epoch": 0.11975,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.0890625,
      "learning_rate": 0.0001,
      "loss": 8.0189,
      "loss/crossentropy": 2.3163031339645386,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26227420568466187,
      "step": 1916
    },
    {
      "epoch": 0.119875,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.0921539306640625,
      "learning_rate": 0.0001,
      "loss": 8.1534,
      "loss/crossentropy": 2.4677486419677734,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2759769409894943,
      "step": 1918
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.09339192708333334,
      "learning_rate": 0.0001,
      "loss": 8.004,
      "loss/crossentropy": 2.3451250791549683,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24791867285966873,
      "step": 1920
    },
    {
      "epoch": 0.120125,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.06575113932291667,
      "learning_rate": 0.0001,
      "loss": 7.9536,
      "loss/crossentropy": 2.39498770236969,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26757124066352844,
      "step": 1922
    },
    {
      "epoch": 0.12025,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.059912109375,
      "learning_rate": 0.0001,
      "loss": 7.9078,
      "loss/crossentropy": 2.137160062789917,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23972496390342712,
      "step": 1924
    },
    {
      "epoch": 0.120375,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.06774800618489583,
      "learning_rate": 0.0001,
      "loss": 7.9543,
      "loss/crossentropy": 2.354183554649353,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2630910202860832,
      "step": 1926
    },
    {
      "epoch": 0.1205,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.04582926432291667,
      "learning_rate": 0.0001,
      "loss": 7.9081,
      "loss/crossentropy": 2.0638818740844727,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2652597352862358,
      "step": 1928
    },
    {
      "epoch": 0.120625,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.052534993489583334,
      "learning_rate": 0.0001,
      "loss": 8.0497,
      "loss/crossentropy": 2.588783383369446,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2830745279788971,
      "step": 1930
    },
    {
      "epoch": 0.12075,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.05359700520833333,
      "learning_rate": 0.0001,
      "loss": 8.0327,
      "loss/crossentropy": 2.223568558692932,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25885971635580063,
      "step": 1932
    },
    {
      "epoch": 0.120875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.049641927083333336,
      "learning_rate": 0.0001,
      "loss": 7.9963,
      "loss/crossentropy": 2.4340078830718994,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2645603120326996,
      "step": 1934
    },
    {
      "epoch": 0.121,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.048046875,
      "learning_rate": 0.0001,
      "loss": 7.7813,
      "loss/crossentropy": 1.9766615629196167,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22679174691438675,
      "step": 1936
    },
    {
      "epoch": 0.121125,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.043782552083333336,
      "learning_rate": 0.0001,
      "loss": 8.0526,
      "loss/crossentropy": 2.007621169090271,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.232595793902874,
      "step": 1938
    },
    {
      "epoch": 0.12125,
      "grad_norm": 2.875,
      "grad_norm_var": 0.03530171712239583,
      "learning_rate": 0.0001,
      "loss": 8.0147,
      "loss/crossentropy": 2.245633602142334,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2521408647298813,
      "step": 1940
    },
    {
      "epoch": 0.121375,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.05499674479166667,
      "learning_rate": 0.0001,
      "loss": 8.1478,
      "loss/crossentropy": 2.239235758781433,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.29093019664287567,
      "step": 1942
    },
    {
      "epoch": 0.1215,
      "grad_norm": 3.125,
      "grad_norm_var": 0.05185139973958333,
      "learning_rate": 0.0001,
      "loss": 8.0329,
      "loss/crossentropy": 2.219251275062561,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24115260690450668,
      "step": 1944
    },
    {
      "epoch": 0.121625,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.079296875,
      "learning_rate": 0.0001,
      "loss": 8.2787,
      "loss/crossentropy": 2.3880057334899902,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2628382295370102,
      "step": 1946
    },
    {
      "epoch": 0.12175,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.07984619140625,
      "learning_rate": 0.0001,
      "loss": 8.0593,
      "loss/crossentropy": 1.9636898040771484,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22413796931505203,
      "step": 1948
    },
    {
      "epoch": 0.121875,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.07724202473958333,
      "learning_rate": 0.0001,
      "loss": 8.2408,
      "loss/crossentropy": 2.4159456491470337,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2786535918712616,
      "step": 1950
    },
    {
      "epoch": 0.122,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.06634114583333334,
      "learning_rate": 0.0001,
      "loss": 8.0623,
      "loss/crossentropy": 2.125056028366089,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2584911435842514,
      "step": 1952
    },
    {
      "epoch": 0.122125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.07579752604166666,
      "learning_rate": 0.0001,
      "loss": 8.2316,
      "loss/crossentropy": 2.15469229221344,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24431538581848145,
      "step": 1954
    },
    {
      "epoch": 0.12225,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0720855712890625,
      "learning_rate": 0.0001,
      "loss": 7.9661,
      "loss/crossentropy": 2.124357581138611,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25534383952617645,
      "step": 1956
    },
    {
      "epoch": 0.122375,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.058756510416666664,
      "learning_rate": 0.0001,
      "loss": 8.016,
      "loss/crossentropy": 2.344644784927368,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26001378893852234,
      "step": 1958
    },
    {
      "epoch": 0.1225,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.059130859375,
      "learning_rate": 0.0001,
      "loss": 8.0888,
      "loss/crossentropy": 2.242557406425476,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25998418033123016,
      "step": 1960
    },
    {
      "epoch": 0.122625,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.027339680989583334,
      "learning_rate": 0.0001,
      "loss": 7.9998,
      "loss/crossentropy": 2.1519815921783447,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24088148772716522,
      "step": 1962
    },
    {
      "epoch": 0.12275,
      "grad_norm": 3.09375,
      "grad_norm_var": 0.0291015625,
      "learning_rate": 0.0001,
      "loss": 7.9661,
      "loss/crossentropy": 2.0413911938667297,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2583937346935272,
      "step": 1964
    },
    {
      "epoch": 0.122875,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.04091695149739583,
      "learning_rate": 0.0001,
      "loss": 8.0222,
      "loss/crossentropy": 2.404345154762268,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23985719680786133,
      "step": 1966
    },
    {
      "epoch": 0.123,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.044709269205729166,
      "learning_rate": 0.0001,
      "loss": 8.0141,
      "loss/crossentropy": 2.6169755458831787,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2697141170501709,
      "step": 1968
    },
    {
      "epoch": 0.123125,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.045832316080729164,
      "learning_rate": 0.0001,
      "loss": 8.0295,
      "loss/crossentropy": 2.2693088054656982,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2512510120868683,
      "step": 1970
    },
    {
      "epoch": 0.12325,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.050699869791666664,
      "learning_rate": 0.0001,
      "loss": 7.9091,
      "loss/crossentropy": 2.4330859184265137,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577967271208763,
      "step": 1972
    },
    {
      "epoch": 0.123375,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.052490234375,
      "learning_rate": 0.0001,
      "loss": 8.1396,
      "loss/crossentropy": 2.560065507888794,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2873089164495468,
      "step": 1974
    },
    {
      "epoch": 0.1235,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.060155232747395836,
      "learning_rate": 0.0001,
      "loss": 7.8746,
      "loss/crossentropy": 2.174700140953064,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2541915774345398,
      "step": 1976
    },
    {
      "epoch": 0.123625,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.05668843587239583,
      "learning_rate": 0.0001,
      "loss": 7.947,
      "loss/crossentropy": 2.164485454559326,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25544650852680206,
      "step": 1978
    },
    {
      "epoch": 0.12375,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.06304423014322917,
      "learning_rate": 0.0001,
      "loss": 8.1361,
      "loss/crossentropy": 2.110231041908264,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2481146827340126,
      "step": 1980
    },
    {
      "epoch": 0.123875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.047587076822916664,
      "learning_rate": 0.0001,
      "loss": 8.0873,
      "loss/crossentropy": 2.4308364391326904,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2560970336198807,
      "step": 1982
    },
    {
      "epoch": 0.124,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0412750244140625,
      "learning_rate": 0.0001,
      "loss": 8.0323,
      "loss/crossentropy": 2.481392025947571,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2720007449388504,
      "step": 1984
    },
    {
      "epoch": 0.124125,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.041975911458333334,
      "learning_rate": 0.0001,
      "loss": 7.857,
      "loss/crossentropy": 2.1386367082595825,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26166096329689026,
      "step": 1986
    },
    {
      "epoch": 0.12425,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.04220377604166667,
      "learning_rate": 0.0001,
      "loss": 8.0093,
      "loss/crossentropy": 2.333972215652466,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25886698067188263,
      "step": 1988
    },
    {
      "epoch": 0.124375,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.05032145182291667,
      "learning_rate": 0.0001,
      "loss": 8.0834,
      "loss/crossentropy": 2.41828191280365,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24262161552906036,
      "step": 1990
    },
    {
      "epoch": 0.1245,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.046052042643229166,
      "learning_rate": 0.0001,
      "loss": 8.0389,
      "loss/crossentropy": 2.1740458011627197,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23383785039186478,
      "step": 1992
    },
    {
      "epoch": 0.124625,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.049117024739583334,
      "learning_rate": 0.0001,
      "loss": 8.0157,
      "loss/crossentropy": 2.2331719398498535,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2640424221754074,
      "step": 1994
    },
    {
      "epoch": 0.12475,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.04023335774739583,
      "learning_rate": 0.0001,
      "loss": 7.9991,
      "loss/crossentropy": 2.1523889303207397,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2687607556581497,
      "step": 1996
    },
    {
      "epoch": 0.124875,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.040526326497395834,
      "learning_rate": 0.0001,
      "loss": 7.9342,
      "loss/crossentropy": 2.171301484107971,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24432216584682465,
      "step": 1998
    },
    {
      "epoch": 0.125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.04273681640625,
      "learning_rate": 0.0001,
      "loss": 8.1111,
      "loss/crossentropy": 2.2224671840667725,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23374950140714645,
      "step": 2000
    },
    {
      "epoch": 0.125125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.04103902180989583,
      "learning_rate": 0.0001,
      "loss": 8.0055,
      "loss/crossentropy": 2.1209537386894226,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2525208741426468,
      "step": 2002
    },
    {
      "epoch": 0.12525,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.04299723307291667,
      "learning_rate": 0.0001,
      "loss": 7.8668,
      "loss/crossentropy": 2.1079421639442444,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25046999752521515,
      "step": 2004
    },
    {
      "epoch": 0.125375,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.03804931640625,
      "learning_rate": 0.0001,
      "loss": 7.9843,
      "loss/crossentropy": 2.3907183408737183,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2595418617129326,
      "step": 2006
    },
    {
      "epoch": 0.1255,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.0336578369140625,
      "learning_rate": 0.0001,
      "loss": 7.9723,
      "loss/crossentropy": 2.081270694732666,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25873951613903046,
      "step": 2008
    },
    {
      "epoch": 0.125625,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.033675130208333334,
      "learning_rate": 0.0001,
      "loss": 8.0587,
      "loss/crossentropy": 2.204562723636627,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24240562319755554,
      "step": 2010
    },
    {
      "epoch": 0.12575,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.030549112955729166,
      "learning_rate": 0.0001,
      "loss": 8.0825,
      "loss/crossentropy": 2.234739661216736,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23210185766220093,
      "step": 2012
    },
    {
      "epoch": 0.125875,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.03386128743489583,
      "learning_rate": 0.0001,
      "loss": 7.9408,
      "loss/crossentropy": 2.155194342136383,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24713550508022308,
      "step": 2014
    },
    {
      "epoch": 0.126,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.03388671875,
      "learning_rate": 0.0001,
      "loss": 8.0006,
      "loss/crossentropy": 2.1440590620040894,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24631793051958084,
      "step": 2016
    },
    {
      "epoch": 0.126125,
      "grad_norm": 3.375,
      "grad_norm_var": 0.06747945149739583,
      "learning_rate": 0.0001,
      "loss": 8.2657,
      "loss/crossentropy": 2.2782651782035828,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25610214471817017,
      "step": 2018
    },
    {
      "epoch": 0.12625,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.0567535400390625,
      "learning_rate": 0.0001,
      "loss": 7.9078,
      "loss/crossentropy": 2.2536474466323853,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23063694685697556,
      "step": 2020
    },
    {
      "epoch": 0.126375,
      "grad_norm": 3.890625,
      "grad_norm_var": 0.1236724853515625,
      "learning_rate": 0.0001,
      "loss": 8.0493,
      "loss/crossentropy": 2.2990732192993164,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28477251529693604,
      "step": 2022
    },
    {
      "epoch": 0.1265,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.1252593994140625,
      "learning_rate": 0.0001,
      "loss": 8.0902,
      "loss/crossentropy": 2.3423362970352173,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27799367904663086,
      "step": 2024
    },
    {
      "epoch": 0.126625,
      "grad_norm": 3.359375,
      "grad_norm_var": 0.7259999593098958,
      "learning_rate": 0.0001,
      "loss": 8.3429,
      "loss/crossentropy": 2.1187247037887573,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25325731933116913,
      "step": 2026
    },
    {
      "epoch": 0.12675,
      "grad_norm": 3.328125,
      "grad_norm_var": 0.6796061197916666,
      "learning_rate": 0.0001,
      "loss": 8.2877,
      "loss/crossentropy": 2.6572694778442383,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28467129170894623,
      "step": 2028
    },
    {
      "epoch": 0.126875,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.6576171875,
      "learning_rate": 0.0001,
      "loss": 8.1366,
      "loss/crossentropy": 2.149785280227661,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.33148565888404846,
      "step": 2030
    },
    {
      "epoch": 0.127,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.6441243489583334,
      "learning_rate": 0.0001,
      "loss": 8.016,
      "loss/crossentropy": 1.9550745487213135,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21983042359352112,
      "step": 2032
    },
    {
      "epoch": 0.127125,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.70074462890625,
      "learning_rate": 0.0001,
      "loss": 7.9985,
      "loss/crossentropy": 2.4743508100509644,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2646654099225998,
      "step": 2034
    },
    {
      "epoch": 0.12725,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.679931640625,
      "learning_rate": 0.0001,
      "loss": 7.7714,
      "loss/crossentropy": 2.2703075408935547,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24541212618350983,
      "step": 2036
    },
    {
      "epoch": 0.127375,
      "grad_norm": 2.875,
      "grad_norm_var": 0.66455078125,
      "learning_rate": 0.0001,
      "loss": 8.2056,
      "loss/crossentropy": 2.400794506072998,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2792155146598816,
      "step": 2038
    },
    {
      "epoch": 0.1275,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.7059529622395834,
      "learning_rate": 0.0001,
      "loss": 7.9121,
      "loss/crossentropy": 2.221606969833374,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27579738199710846,
      "step": 2040
    },
    {
      "epoch": 0.127625,
      "grad_norm": 2.875,
      "grad_norm_var": 0.05742085774739583,
      "learning_rate": 0.0001,
      "loss": 8.0984,
      "loss/crossentropy": 2.1297446489334106,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2457616627216339,
      "step": 2042
    },
    {
      "epoch": 0.12775,
      "grad_norm": 6.28125,
      "grad_norm_var": 0.7566802978515625,
      "learning_rate": 0.0001,
      "loss": 8.1542,
      "loss/crossentropy": 2.068065047264099,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2585330307483673,
      "step": 2044
    },
    {
      "epoch": 0.127875,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.7755767822265625,
      "learning_rate": 0.0001,
      "loss": 8.2794,
      "loss/crossentropy": 2.285371780395508,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26811927556991577,
      "step": 2046
    },
    {
      "epoch": 0.128,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.7772420247395834,
      "learning_rate": 0.0001,
      "loss": 8.0508,
      "loss/crossentropy": 2.102661430835724,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24708286672830582,
      "step": 2048
    },
    {
      "epoch": 0.128125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.7524648030598958,
      "learning_rate": 0.0001,
      "loss": 7.87,
      "loss/crossentropy": 1.9193878173828125,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24057899415493011,
      "step": 2050
    },
    {
      "epoch": 0.12825,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.7676096598307292,
      "learning_rate": 0.0001,
      "loss": 7.9655,
      "loss/crossentropy": 2.2599531412124634,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2473764270544052,
      "step": 2052
    },
    {
      "epoch": 0.128375,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.7643717447916667,
      "learning_rate": 0.0001,
      "loss": 8.0443,
      "loss/crossentropy": 2.1840824484825134,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21873797476291656,
      "step": 2054
    },
    {
      "epoch": 0.1285,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.7554026285807292,
      "learning_rate": 0.0001,
      "loss": 7.8934,
      "loss/crossentropy": 2.5172749757766724,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2471792846918106,
      "step": 2056
    },
    {
      "epoch": 0.128625,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.7780436197916667,
      "learning_rate": 0.0001,
      "loss": 7.9608,
      "loss/crossentropy": 2.5356470346450806,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27692335844039917,
      "step": 2058
    },
    {
      "epoch": 0.12875,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.08212483723958333,
      "learning_rate": 0.0001,
      "loss": 8.1766,
      "loss/crossentropy": 2.3050994873046875,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27711644768714905,
      "step": 2060
    },
    {
      "epoch": 0.128875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.031245930989583334,
      "learning_rate": 0.0001,
      "loss": 8.0858,
      "loss/crossentropy": 2.037451386451721,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.234269917011261,
      "step": 2062
    },
    {
      "epoch": 0.129,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.035456339518229164,
      "learning_rate": 0.0001,
      "loss": 7.9019,
      "loss/crossentropy": 2.333581566810608,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2544917017221451,
      "step": 2064
    },
    {
      "epoch": 0.129125,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.031248982747395834,
      "learning_rate": 0.0001,
      "loss": 8.1845,
      "loss/crossentropy": 2.3705108165740967,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2595665156841278,
      "step": 2066
    },
    {
      "epoch": 0.12925,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.03257548014322917,
      "learning_rate": 0.0001,
      "loss": 8.0113,
      "loss/crossentropy": 2.2181931734085083,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2753777801990509,
      "step": 2068
    },
    {
      "epoch": 0.129375,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.028678385416666667,
      "learning_rate": 0.0001,
      "loss": 8.046,
      "loss/crossentropy": 2.4384394884109497,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.260432630777359,
      "step": 2070
    },
    {
      "epoch": 0.1295,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.022932942708333334,
      "learning_rate": 0.0001,
      "loss": 8.1072,
      "loss/crossentropy": 2.2950222492218018,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2557060271501541,
      "step": 2072
    },
    {
      "epoch": 0.129625,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0248443603515625,
      "learning_rate": 0.0001,
      "loss": 7.8764,
      "loss/crossentropy": 1.9588146209716797,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2530653849244118,
      "step": 2074
    },
    {
      "epoch": 0.12975,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.020759073893229167,
      "learning_rate": 0.0001,
      "loss": 8.1442,
      "loss/crossentropy": 2.174315929412842,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24201688915491104,
      "step": 2076
    },
    {
      "epoch": 0.129875,
      "grad_norm": 2.875,
      "grad_norm_var": 0.026642862955729166,
      "learning_rate": 0.0001,
      "loss": 7.8332,
      "loss/crossentropy": 1.8437206149101257,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2369949370622635,
      "step": 2078
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0224761962890625,
      "learning_rate": 0.0001,
      "loss": 8.1136,
      "loss/crossentropy": 2.4198756217956543,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2665669322013855,
      "step": 2080
    },
    {
      "epoch": 0.130125,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.030143229166666667,
      "learning_rate": 0.0001,
      "loss": 7.8881,
      "loss/crossentropy": 2.051876664161682,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23426489531993866,
      "step": 2082
    },
    {
      "epoch": 0.13025,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.031473795572916664,
      "learning_rate": 0.0001,
      "loss": 8.0093,
      "loss/crossentropy": 2.455062747001648,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2640880271792412,
      "step": 2084
    },
    {
      "epoch": 0.130375,
      "grad_norm": 2.875,
      "grad_norm_var": 0.03137613932291667,
      "learning_rate": 0.0001,
      "loss": 8.0219,
      "loss/crossentropy": 2.2999762296676636,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2465459704399109,
      "step": 2086
    },
    {
      "epoch": 0.1305,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.03183186848958333,
      "learning_rate": 0.0001,
      "loss": 8.0045,
      "loss/crossentropy": 2.2871525287628174,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24762800335884094,
      "step": 2088
    },
    {
      "epoch": 0.130625,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.03261617024739583,
      "learning_rate": 0.0001,
      "loss": 7.8668,
      "loss/crossentropy": 2.3214457035064697,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.25224703550338745,
      "step": 2090
    },
    {
      "epoch": 0.13075,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.042313639322916666,
      "learning_rate": 0.0001,
      "loss": 8.0465,
      "loss/crossentropy": 2.1685001850128174,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2591954469680786,
      "step": 2092
    },
    {
      "epoch": 0.130875,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.041136678059895834,
      "learning_rate": 0.0001,
      "loss": 8.0284,
      "loss/crossentropy": 2.5781397819519043,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.26295357197523117,
      "step": 2094
    },
    {
      "epoch": 0.131,
      "grad_norm": 2.5,
      "grad_norm_var": 0.045466105143229164,
      "learning_rate": 0.0001,
      "loss": 7.8661,
      "loss/crossentropy": 2.1926894187927246,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23267576098442078,
      "step": 2096
    },
    {
      "epoch": 0.131125,
      "grad_norm": 3.1875,
      "grad_norm_var": 0.04641520182291667,
      "learning_rate": 0.0001,
      "loss": 7.9553,
      "loss/crossentropy": 2.1911760568618774,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25542213022708893,
      "step": 2098
    },
    {
      "epoch": 0.13125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.04755452473958333,
      "learning_rate": 0.0001,
      "loss": 7.958,
      "loss/crossentropy": 2.2775418758392334,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24572113156318665,
      "step": 2100
    },
    {
      "epoch": 0.131375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.04748942057291667,
      "learning_rate": 0.0001,
      "loss": 8.0769,
      "loss/crossentropy": 2.3823719024658203,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2616809457540512,
      "step": 2102
    },
    {
      "epoch": 0.1315,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.047240193684895834,
      "learning_rate": 0.0001,
      "loss": 8.0382,
      "loss/crossentropy": 2.4556522369384766,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2946828603744507,
      "step": 2104
    },
    {
      "epoch": 0.131625,
      "grad_norm": 3.0,
      "grad_norm_var": 0.05573628743489583,
      "learning_rate": 0.0001,
      "loss": 8.0877,
      "loss/crossentropy": 2.195865511894226,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26489073038101196,
      "step": 2106
    },
    {
      "epoch": 0.13175,
      "grad_norm": 2.375,
      "grad_norm_var": 0.05614827473958333,
      "learning_rate": 0.0001,
      "loss": 7.9057,
      "loss/crossentropy": 2.373032331466675,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24483656883239746,
      "step": 2108
    },
    {
      "epoch": 0.131875,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.055497233072916666,
      "learning_rate": 0.0001,
      "loss": 8.0201,
      "loss/crossentropy": 2.4894858598709106,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2641270160675049,
      "step": 2110
    },
    {
      "epoch": 0.132,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.08896484375,
      "learning_rate": 0.0001,
      "loss": 7.9225,
      "loss/crossentropy": 2.312375068664551,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24002444744110107,
      "step": 2112
    },
    {
      "epoch": 0.132125,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0932037353515625,
      "learning_rate": 0.0001,
      "loss": 7.9214,
      "loss/crossentropy": 2.000899076461792,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23694107681512833,
      "step": 2114
    },
    {
      "epoch": 0.13225,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.09410807291666666,
      "learning_rate": 0.0001,
      "loss": 8.0863,
      "loss/crossentropy": 2.2505098581314087,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2779449298977852,
      "step": 2116
    },
    {
      "epoch": 0.132375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.0931549072265625,
      "learning_rate": 0.0001,
      "loss": 8.2278,
      "loss/crossentropy": 2.533925771713257,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27186477184295654,
      "step": 2118
    },
    {
      "epoch": 0.1325,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.16379292805989584,
      "learning_rate": 0.0001,
      "loss": 7.9833,
      "loss/crossentropy": 2.2135390043258667,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2325379028916359,
      "step": 2120
    },
    {
      "epoch": 0.132625,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.1632232666015625,
      "learning_rate": 0.0001,
      "loss": 8.0453,
      "loss/crossentropy": 2.428161382675171,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26223746687173843,
      "step": 2122
    },
    {
      "epoch": 0.13275,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.1512603759765625,
      "learning_rate": 0.0001,
      "loss": 7.9349,
      "loss/crossentropy": 2.6289626359939575,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.272312268614769,
      "step": 2124
    },
    {
      "epoch": 0.132875,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.15465087890625,
      "learning_rate": 0.0001,
      "loss": 8.0484,
      "loss/crossentropy": 2.081725239753723,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25036202371120453,
      "step": 2126
    },
    {
      "epoch": 0.133,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.12092692057291667,
      "learning_rate": 0.0001,
      "loss": 8.1453,
      "loss/crossentropy": 2.4221293926239014,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2642197906970978,
      "step": 2128
    },
    {
      "epoch": 0.133125,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.11172587076822917,
      "learning_rate": 0.0001,
      "loss": 8.0771,
      "loss/crossentropy": 2.385019063949585,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2672020420432091,
      "step": 2130
    },
    {
      "epoch": 0.13325,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.10976155598958333,
      "learning_rate": 0.0001,
      "loss": 7.9391,
      "loss/crossentropy": 2.356515049934387,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23601362109184265,
      "step": 2132
    },
    {
      "epoch": 0.133375,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.11910400390625,
      "learning_rate": 0.0001,
      "loss": 7.8618,
      "loss/crossentropy": 2.4709160327911377,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26310209929943085,
      "step": 2134
    },
    {
      "epoch": 0.1335,
      "grad_norm": 2.625,
      "grad_norm_var": 0.04101155598958333,
      "learning_rate": 0.0001,
      "loss": 7.9999,
      "loss/crossentropy": 2.4431287050247192,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25448351353406906,
      "step": 2136
    },
    {
      "epoch": 0.133625,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.0377838134765625,
      "learning_rate": 0.0001,
      "loss": 8.0923,
      "loss/crossentropy": 2.361445426940918,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24513405561447144,
      "step": 2138
    },
    {
      "epoch": 0.13375,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.03205464680989583,
      "learning_rate": 0.0001,
      "loss": 8.0121,
      "loss/crossentropy": 2.400641083717346,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2581202983856201,
      "step": 2140
    },
    {
      "epoch": 0.133875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0412506103515625,
      "learning_rate": 0.0001,
      "loss": 7.8979,
      "loss/crossentropy": 2.0805707573890686,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2818114757537842,
      "step": 2142
    },
    {
      "epoch": 0.134,
      "grad_norm": 3.375,
      "grad_norm_var": 0.05451558430989583,
      "learning_rate": 0.0001,
      "loss": 8.1184,
      "loss/crossentropy": 2.480680823326111,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29633618891239166,
      "step": 2144
    },
    {
      "epoch": 0.134125,
      "grad_norm": 2.625,
      "grad_norm_var": 0.0557037353515625,
      "learning_rate": 0.0001,
      "loss": 7.8102,
      "loss/crossentropy": 2.002712309360504,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23709578067064285,
      "step": 2146
    },
    {
      "epoch": 0.13425,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.05565999348958333,
      "learning_rate": 0.0001,
      "loss": 7.8972,
      "loss/crossentropy": 2.405007004737854,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2549060881137848,
      "step": 2148
    },
    {
      "epoch": 0.134375,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.05328369140625,
      "learning_rate": 0.0001,
      "loss": 7.9409,
      "loss/crossentropy": 2.137619376182556,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2625036686658859,
      "step": 2150
    },
    {
      "epoch": 0.1345,
      "grad_norm": 2.75,
      "grad_norm_var": 0.04928385416666667,
      "learning_rate": 0.0001,
      "loss": 7.983,
      "loss/crossentropy": 2.3216036558151245,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26807793229818344,
      "step": 2152
    },
    {
      "epoch": 0.134625,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.06470947265625,
      "learning_rate": 0.0001,
      "loss": 7.8514,
      "loss/crossentropy": 2.3814263343811035,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2562423348426819,
      "step": 2154
    },
    {
      "epoch": 0.13475,
      "grad_norm": 2.75,
      "grad_norm_var": 0.07095947265625,
      "learning_rate": 0.0001,
      "loss": 8.0623,
      "loss/crossentropy": 2.3068708181381226,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2527267262339592,
      "step": 2156
    },
    {
      "epoch": 0.134875,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.05712483723958333,
      "learning_rate": 0.0001,
      "loss": 8.1027,
      "loss/crossentropy": 2.242267608642578,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2507360577583313,
      "step": 2158
    },
    {
      "epoch": 0.135,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.04262593587239583,
      "learning_rate": 0.0001,
      "loss": 7.7535,
      "loss/crossentropy": 2.259010672569275,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2302761897444725,
      "step": 2160
    },
    {
      "epoch": 0.135125,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.04046223958333333,
      "learning_rate": 0.0001,
      "loss": 7.8616,
      "loss/crossentropy": 2.195171058177948,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23362931609153748,
      "step": 2162
    },
    {
      "epoch": 0.13525,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.03961588541666667,
      "learning_rate": 0.0001,
      "loss": 7.9037,
      "loss/crossentropy": 2.306097149848938,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27228541672229767,
      "step": 2164
    },
    {
      "epoch": 0.135375,
      "grad_norm": 2.75,
      "grad_norm_var": 0.039937337239583336,
      "learning_rate": 0.0001,
      "loss": 7.9223,
      "loss/crossentropy": 2.354483962059021,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25157542526721954,
      "step": 2166
    },
    {
      "epoch": 0.1355,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.04169514973958333,
      "learning_rate": 0.0001,
      "loss": 8.0153,
      "loss/crossentropy": 2.555723190307617,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2608166038990021,
      "step": 2168
    },
    {
      "epoch": 0.135625,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.026976521809895834,
      "learning_rate": 0.0001,
      "loss": 8.0232,
      "loss/crossentropy": 2.314175248146057,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2557505890727043,
      "step": 2170
    },
    {
      "epoch": 0.13575,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0195709228515625,
      "learning_rate": 0.0001,
      "loss": 7.9036,
      "loss/crossentropy": 2.252376437187195,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26094751060009,
      "step": 2172
    },
    {
      "epoch": 0.135875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.020182291666666668,
      "learning_rate": 0.0001,
      "loss": 7.7816,
      "loss/crossentropy": 2.0808385610580444,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25295551121234894,
      "step": 2174
    },
    {
      "epoch": 0.136,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.016145833333333335,
      "learning_rate": 0.0001,
      "loss": 7.9248,
      "loss/crossentropy": 2.2166486978530884,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2506643235683441,
      "step": 2176
    },
    {
      "epoch": 0.136125,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.0152496337890625,
      "learning_rate": 0.0001,
      "loss": 7.9413,
      "loss/crossentropy": 2.4114983081817627,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24629026651382446,
      "step": 2178
    },
    {
      "epoch": 0.13625,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.017508951822916667,
      "learning_rate": 0.0001,
      "loss": 7.9527,
      "loss/crossentropy": 1.9971612095832825,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23709237575531006,
      "step": 2180
    },
    {
      "epoch": 0.136375,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.0198638916015625,
      "learning_rate": 0.0001,
      "loss": 8.0183,
      "loss/crossentropy": 2.598210096359253,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2603771388530731,
      "step": 2182
    },
    {
      "epoch": 0.1365,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.018973795572916667,
      "learning_rate": 0.0001,
      "loss": 8.0132,
      "loss/crossentropy": 2.382105231285095,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24392583966255188,
      "step": 2184
    },
    {
      "epoch": 0.136625,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.022834269205729167,
      "learning_rate": 0.0001,
      "loss": 8.047,
      "loss/crossentropy": 2.4047285318374634,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27039480209350586,
      "step": 2186
    },
    {
      "epoch": 0.13675,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.032938639322916664,
      "learning_rate": 0.0001,
      "loss": 7.7846,
      "loss/crossentropy": 2.0133553743362427,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.242934912443161,
      "step": 2188
    },
    {
      "epoch": 0.136875,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.043701171875,
      "learning_rate": 0.0001,
      "loss": 8.1042,
      "loss/crossentropy": 2.4624531269073486,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26904913038015366,
      "step": 2190
    },
    {
      "epoch": 0.137,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.048216756184895834,
      "learning_rate": 0.0001,
      "loss": 7.9589,
      "loss/crossentropy": 2.3441646099090576,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2756097614765167,
      "step": 2192
    },
    {
      "epoch": 0.137125,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.0473297119140625,
      "learning_rate": 0.0001,
      "loss": 7.9626,
      "loss/crossentropy": 2.0180709958076477,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22330156713724136,
      "step": 2194
    },
    {
      "epoch": 0.13725,
      "grad_norm": 4.875,
      "grad_norm_var": 0.3212076822916667,
      "learning_rate": 0.0001,
      "loss": 8.1305,
      "loss/crossentropy": 2.247686982154846,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.257401205599308,
      "step": 2196
    },
    {
      "epoch": 0.137375,
      "grad_norm": 3.125,
      "grad_norm_var": 0.3214182535807292,
      "learning_rate": 0.0001,
      "loss": 7.8432,
      "loss/crossentropy": 2.387032985687256,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2718297243118286,
      "step": 2198
    },
    {
      "epoch": 0.1375,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.3174957275390625,
      "learning_rate": 0.0001,
      "loss": 7.9656,
      "loss/crossentropy": 2.1113094091415405,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2628230005502701,
      "step": 2200
    },
    {
      "epoch": 0.137625,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.3123931884765625,
      "learning_rate": 0.0001,
      "loss": 8.1272,
      "loss/crossentropy": 2.681854248046875,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30167150497436523,
      "step": 2202
    },
    {
      "epoch": 0.13775,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.28544514973958335,
      "learning_rate": 0.0001,
      "loss": 7.8842,
      "loss/crossentropy": 2.2539913654327393,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2667968273162842,
      "step": 2204
    },
    {
      "epoch": 0.137875,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.28813374837239586,
      "learning_rate": 0.0001,
      "loss": 7.994,
      "loss/crossentropy": 2.336976170539856,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2730831503868103,
      "step": 2206
    },
    {
      "epoch": 0.138,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.28128153483072915,
      "learning_rate": 0.0001,
      "loss": 7.8908,
      "loss/crossentropy": 2.137080729007721,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2353602722287178,
      "step": 2208
    },
    {
      "epoch": 0.138125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.28933919270833336,
      "learning_rate": 0.0001,
      "loss": 7.8058,
      "loss/crossentropy": 2.0887175798416138,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2580728679895401,
      "step": 2210
    },
    {
      "epoch": 0.13825,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.030269368489583334,
      "learning_rate": 0.0001,
      "loss": 8.0849,
      "loss/crossentropy": 1.7958271503448486,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24919769912958145,
      "step": 2212
    },
    {
      "epoch": 0.138375,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0386871337890625,
      "learning_rate": 0.0001,
      "loss": 7.8756,
      "loss/crossentropy": 2.135870099067688,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24682459235191345,
      "step": 2214
    },
    {
      "epoch": 0.1385,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.08369038899739584,
      "learning_rate": 0.0001,
      "loss": 8.0304,
      "loss/crossentropy": 2.346623420715332,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24961213767528534,
      "step": 2216
    },
    {
      "epoch": 0.138625,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.07737630208333333,
      "learning_rate": 0.0001,
      "loss": 8.0556,
      "loss/crossentropy": 2.195094585418701,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24484457075595856,
      "step": 2218
    },
    {
      "epoch": 0.13875,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.07613525390625,
      "learning_rate": 0.0001,
      "loss": 8.0197,
      "loss/crossentropy": 2.2862359285354614,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2567315921187401,
      "step": 2220
    },
    {
      "epoch": 0.138875,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.07868550618489584,
      "learning_rate": 0.0001,
      "loss": 7.9319,
      "loss/crossentropy": 2.331244111061096,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2514599338173866,
      "step": 2222
    },
    {
      "epoch": 0.139,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.08726806640625,
      "learning_rate": 0.0001,
      "loss": 7.8826,
      "loss/crossentropy": 1.9546465873718262,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23689769953489304,
      "step": 2224
    },
    {
      "epoch": 0.139125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.09897359212239583,
      "learning_rate": 0.0001,
      "loss": 7.859,
      "loss/crossentropy": 2.0505433082580566,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24545447528362274,
      "step": 2226
    },
    {
      "epoch": 0.13925,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.10256245930989584,
      "learning_rate": 0.0001,
      "loss": 7.9768,
      "loss/crossentropy": 2.3643672466278076,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2489551082253456,
      "step": 2228
    },
    {
      "epoch": 0.139375,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.09179280598958334,
      "learning_rate": 0.0001,
      "loss": 7.9637,
      "loss/crossentropy": 2.4726024866104126,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2436269074678421,
      "step": 2230
    },
    {
      "epoch": 0.1395,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.04537760416666667,
      "learning_rate": 0.0001,
      "loss": 8.1119,
      "loss/crossentropy": 2.409575581550598,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.258441299200058,
      "step": 2232
    },
    {
      "epoch": 0.139625,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.04572652180989583,
      "learning_rate": 0.0001,
      "loss": 7.8413,
      "loss/crossentropy": 2.37674617767334,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26087239384651184,
      "step": 2234
    },
    {
      "epoch": 0.13975,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.04651590983072917,
      "learning_rate": 0.0001,
      "loss": 7.9557,
      "loss/crossentropy": 2.270553708076477,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24740490317344666,
      "step": 2236
    },
    {
      "epoch": 0.139875,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.04517822265625,
      "learning_rate": 0.0001,
      "loss": 7.8289,
      "loss/crossentropy": 2.32234787940979,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2481185868382454,
      "step": 2238
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.03321024576822917,
      "learning_rate": 0.0001,
      "loss": 8.0077,
      "loss/crossentropy": 2.4945857524871826,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2944895774126053,
      "step": 2240
    },
    {
      "epoch": 0.140125,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.0188385009765625,
      "learning_rate": 0.0001,
      "loss": 7.8994,
      "loss/crossentropy": 2.3556969165802,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2561969757080078,
      "step": 2242
    },
    {
      "epoch": 0.14025,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.013765462239583333,
      "learning_rate": 0.0001,
      "loss": 7.9348,
      "loss/crossentropy": 2.219905376434326,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.273133248090744,
      "step": 2244
    },
    {
      "epoch": 0.140375,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.00855712890625,
      "learning_rate": 0.0001,
      "loss": 8.0431,
      "loss/crossentropy": 2.1384077668190002,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.237950399518013,
      "step": 2246
    },
    {
      "epoch": 0.1405,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.0127349853515625,
      "learning_rate": 0.0001,
      "loss": 7.83,
      "loss/crossentropy": 2.3398306369781494,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25574472546577454,
      "step": 2248
    },
    {
      "epoch": 0.140625,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.015608723958333333,
      "learning_rate": 0.0001,
      "loss": 8.033,
      "loss/crossentropy": 2.24453866481781,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23751161247491837,
      "step": 2250
    },
    {
      "epoch": 0.14075,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.014388020833333333,
      "learning_rate": 0.0001,
      "loss": 7.8561,
      "loss/crossentropy": 1.9904406070709229,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24353782087564468,
      "step": 2252
    },
    {
      "epoch": 0.140875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.017252604166666668,
      "learning_rate": 0.0001,
      "loss": 7.866,
      "loss/crossentropy": 2.367901563644409,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24962928891181946,
      "step": 2254
    },
    {
      "epoch": 0.141,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.0227447509765625,
      "learning_rate": 0.0001,
      "loss": 8.0945,
      "loss/crossentropy": 2.3909614086151123,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2490956410765648,
      "step": 2256
    },
    {
      "epoch": 0.141125,
      "grad_norm": 2.75,
      "grad_norm_var": 0.0219635009765625,
      "learning_rate": 0.0001,
      "loss": 8.0642,
      "loss/crossentropy": 2.158316493034363,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2531931698322296,
      "step": 2258
    },
    {
      "epoch": 0.14125,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.0224761962890625,
      "learning_rate": 0.0001,
      "loss": 7.8171,
      "loss/crossentropy": 2.163187623023987,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24659747630357742,
      "step": 2260
    },
    {
      "epoch": 0.141375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.02261962890625,
      "learning_rate": 0.0001,
      "loss": 7.8513,
      "loss/crossentropy": 2.2378615140914917,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.232786126434803,
      "step": 2262
    },
    {
      "epoch": 0.1415,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0192047119140625,
      "learning_rate": 0.0001,
      "loss": 7.9754,
      "loss/crossentropy": 2.50004506111145,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24566112458705902,
      "step": 2264
    },
    {
      "epoch": 0.141625,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.01441650390625,
      "learning_rate": 0.0001,
      "loss": 7.9826,
      "loss/crossentropy": 2.192861318588257,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26260973513126373,
      "step": 2266
    },
    {
      "epoch": 0.14175,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.0215240478515625,
      "learning_rate": 0.0001,
      "loss": 7.8327,
      "loss/crossentropy": 2.3900744915008545,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23667296767234802,
      "step": 2268
    },
    {
      "epoch": 0.141875,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.0174713134765625,
      "learning_rate": 0.0001,
      "loss": 7.9866,
      "loss/crossentropy": 2.459189772605896,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2659824937582016,
      "step": 2270
    },
    {
      "epoch": 0.142,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0124176025390625,
      "learning_rate": 0.0001,
      "loss": 7.9221,
      "loss/crossentropy": 2.3119730949401855,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2727499008178711,
      "step": 2272
    },
    {
      "epoch": 0.142125,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.0190093994140625,
      "learning_rate": 0.0001,
      "loss": 8.0506,
      "loss/crossentropy": 2.065304398536682,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2462991625070572,
      "step": 2274
    },
    {
      "epoch": 0.14225,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.022021484375,
      "learning_rate": 0.0001,
      "loss": 7.8896,
      "loss/crossentropy": 2.293634057044983,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23517119884490967,
      "step": 2276
    },
    {
      "epoch": 0.142375,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0225250244140625,
      "learning_rate": 0.0001,
      "loss": 7.9233,
      "loss/crossentropy": 2.193318486213684,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24228639900684357,
      "step": 2278
    },
    {
      "epoch": 0.1425,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.0252593994140625,
      "learning_rate": 0.0001,
      "loss": 7.9282,
      "loss/crossentropy": 2.3415223360061646,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25495699793100357,
      "step": 2280
    },
    {
      "epoch": 0.142625,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.027318318684895832,
      "learning_rate": 0.0001,
      "loss": 7.8591,
      "loss/crossentropy": 1.9665740132331848,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2337390035390854,
      "step": 2282
    },
    {
      "epoch": 0.14275,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.024193318684895833,
      "learning_rate": 0.0001,
      "loss": 7.7983,
      "loss/crossentropy": 2.0722063779830933,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23800316452980042,
      "step": 2284
    },
    {
      "epoch": 0.142875,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.025093587239583333,
      "learning_rate": 0.0001,
      "loss": 7.9698,
      "loss/crossentropy": 2.3465652465820312,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2537553757429123,
      "step": 2286
    },
    {
      "epoch": 0.143,
      "grad_norm": 3.375,
      "grad_norm_var": 0.057938639322916666,
      "learning_rate": 0.0001,
      "loss": 7.8197,
      "loss/crossentropy": 2.4646483659744263,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2531234845519066,
      "step": 2288
    },
    {
      "epoch": 0.143125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.06323140462239583,
      "learning_rate": 0.0001,
      "loss": 7.8108,
      "loss/crossentropy": 2.255491614341736,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24858752638101578,
      "step": 2290
    },
    {
      "epoch": 0.14325,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.06523030598958333,
      "learning_rate": 0.0001,
      "loss": 7.9138,
      "loss/crossentropy": 2.0624001026153564,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23998911678791046,
      "step": 2292
    },
    {
      "epoch": 0.143375,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.06442769368489583,
      "learning_rate": 0.0001,
      "loss": 7.9531,
      "loss/crossentropy": 2.4339091777801514,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2569551467895508,
      "step": 2294
    },
    {
      "epoch": 0.1435,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.06369527180989583,
      "learning_rate": 0.0001,
      "loss": 7.9041,
      "loss/crossentropy": 2.0448151230812073,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2471894770860672,
      "step": 2296
    },
    {
      "epoch": 0.143625,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.0640625,
      "learning_rate": 0.0001,
      "loss": 8.0666,
      "loss/crossentropy": 2.415607452392578,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2683194726705551,
      "step": 2298
    },
    {
      "epoch": 0.14375,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.061930338541666664,
      "learning_rate": 0.0001,
      "loss": 7.9572,
      "loss/crossentropy": 2.294751286506653,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2594631314277649,
      "step": 2300
    },
    {
      "epoch": 0.143875,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.06265869140625,
      "learning_rate": 0.0001,
      "loss": 7.7507,
      "loss/crossentropy": 2.219098746776581,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2452593445777893,
      "step": 2302
    },
    {
      "epoch": 0.144,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.024833170572916667,
      "learning_rate": 0.0001,
      "loss": 7.7452,
      "loss/crossentropy": 2.273571014404297,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23514091968536377,
      "step": 2304
    },
    {
      "epoch": 0.144125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.028706868489583332,
      "learning_rate": 0.0001,
      "loss": 8.092,
      "loss/crossentropy": 2.470995545387268,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2565620690584183,
      "step": 2306
    },
    {
      "epoch": 0.14425,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.022508748372395835,
      "learning_rate": 0.0001,
      "loss": 8.0169,
      "loss/crossentropy": 2.4442650079727173,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2491839900612831,
      "step": 2308
    },
    {
      "epoch": 0.144375,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.024120076497395834,
      "learning_rate": 0.0001,
      "loss": 7.8243,
      "loss/crossentropy": 2.3042315244674683,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24753264337778091,
      "step": 2310
    },
    {
      "epoch": 0.1445,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.022835286458333333,
      "learning_rate": 0.0001,
      "loss": 7.8473,
      "loss/crossentropy": 2.247647523880005,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.242111474275589,
      "step": 2312
    },
    {
      "epoch": 0.144625,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.021142578125,
      "learning_rate": 0.0001,
      "loss": 7.8245,
      "loss/crossentropy": 2.0948009490966797,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22648434340953827,
      "step": 2314
    },
    {
      "epoch": 0.14475,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.024540201822916666,
      "learning_rate": 0.0001,
      "loss": 7.9081,
      "loss/crossentropy": 2.3449655771255493,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25433051586151123,
      "step": 2316
    },
    {
      "epoch": 0.144875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.03191731770833333,
      "learning_rate": 0.0001,
      "loss": 7.8692,
      "loss/crossentropy": 2.1519018411636353,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23911522328853607,
      "step": 2318
    },
    {
      "epoch": 0.145,
      "grad_norm": 3.046875,
      "grad_norm_var": 0.03612874348958333,
      "learning_rate": 0.0001,
      "loss": 8.0635,
      "loss/crossentropy": 2.0561267137527466,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23246531933546066,
      "step": 2320
    },
    {
      "epoch": 0.145125,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.031248982747395834,
      "learning_rate": 0.0001,
      "loss": 8.0962,
      "loss/crossentropy": 2.413579821586609,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2741449773311615,
      "step": 2322
    },
    {
      "epoch": 0.14525,
      "grad_norm": 3.0,
      "grad_norm_var": 0.03997395833333333,
      "learning_rate": 0.0001,
      "loss": 7.8067,
      "loss/crossentropy": 2.215983271598816,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24622830748558044,
      "step": 2324
    },
    {
      "epoch": 0.145375,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.04117431640625,
      "learning_rate": 0.0001,
      "loss": 7.9424,
      "loss/crossentropy": 2.2071104049682617,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24660057574510574,
      "step": 2326
    },
    {
      "epoch": 0.1455,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.0425689697265625,
      "learning_rate": 0.0001,
      "loss": 8.0007,
      "loss/crossentropy": 2.1792843341827393,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2711133062839508,
      "step": 2328
    },
    {
      "epoch": 0.145625,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.0416015625,
      "learning_rate": 0.0001,
      "loss": 7.9595,
      "loss/crossentropy": 2.256834030151367,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26283788681030273,
      "step": 2330
    },
    {
      "epoch": 0.14575,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.04439697265625,
      "learning_rate": 0.0001,
      "loss": 7.7117,
      "loss/crossentropy": 1.91128808259964,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23225348442792892,
      "step": 2332
    },
    {
      "epoch": 0.145875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.03492431640625,
      "learning_rate": 0.0001,
      "loss": 7.9979,
      "loss/crossentropy": 2.1611289978027344,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2694767862558365,
      "step": 2334
    },
    {
      "epoch": 0.146,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.029423014322916666,
      "learning_rate": 0.0001,
      "loss": 7.9771,
      "loss/crossentropy": 2.3651944398880005,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24654380977153778,
      "step": 2336
    },
    {
      "epoch": 0.146125,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.03247782389322917,
      "learning_rate": 0.0001,
      "loss": 8.0897,
      "loss/crossentropy": 2.365579605102539,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26178716123104095,
      "step": 2338
    },
    {
      "epoch": 0.14625,
      "grad_norm": 2.875,
      "grad_norm_var": 0.025487263997395832,
      "learning_rate": 0.0001,
      "loss": 7.8216,
      "loss/crossentropy": 2.195146918296814,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2360374853014946,
      "step": 2340
    },
    {
      "epoch": 0.146375,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.02750244140625,
      "learning_rate": 0.0001,
      "loss": 8.0719,
      "loss/crossentropy": 2.6680378913879395,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2590227723121643,
      "step": 2342
    },
    {
      "epoch": 0.1465,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.025227864583333332,
      "learning_rate": 0.0001,
      "loss": 7.9196,
      "loss/crossentropy": 2.307919979095459,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2748124748468399,
      "step": 2344
    },
    {
      "epoch": 0.146625,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.025581868489583333,
      "learning_rate": 0.0001,
      "loss": 8.0198,
      "loss/crossentropy": 2.478832721710205,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25123097002506256,
      "step": 2346
    },
    {
      "epoch": 0.14675,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.025715128580729166,
      "learning_rate": 0.0001,
      "loss": 7.998,
      "loss/crossentropy": 2.1463791131973267,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2501315772533417,
      "step": 2348
    },
    {
      "epoch": 0.146875,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0401519775390625,
      "learning_rate": 0.0001,
      "loss": 7.9402,
      "loss/crossentropy": 2.287923812866211,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2529391869902611,
      "step": 2350
    },
    {
      "epoch": 0.147,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.04274800618489583,
      "learning_rate": 0.0001,
      "loss": 7.8521,
      "loss/crossentropy": 2.393770456314087,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23246632516384125,
      "step": 2352
    },
    {
      "epoch": 0.147125,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.03935445149739583,
      "learning_rate": 0.0001,
      "loss": 7.9868,
      "loss/crossentropy": 1.9886181354522705,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2457761988043785,
      "step": 2354
    },
    {
      "epoch": 0.14725,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.0428375244140625,
      "learning_rate": 0.0001,
      "loss": 7.9631,
      "loss/crossentropy": 2.1264249682426453,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.261639803647995,
      "step": 2356
    },
    {
      "epoch": 0.147375,
      "grad_norm": 2.875,
      "grad_norm_var": 0.0380767822265625,
      "learning_rate": 0.0001,
      "loss": 7.8278,
      "loss/crossentropy": 2.0697389245033264,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22177913784980774,
      "step": 2358
    },
    {
      "epoch": 0.1475,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0396484375,
      "learning_rate": 0.0001,
      "loss": 7.9523,
      "loss/crossentropy": 2.355503797531128,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.257536381483078,
      "step": 2360
    },
    {
      "epoch": 0.147625,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0458984375,
      "learning_rate": 0.0001,
      "loss": 7.7195,
      "loss/crossentropy": 2.263971447944641,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2459626868367195,
      "step": 2362
    },
    {
      "epoch": 0.14775,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.034886678059895836,
      "learning_rate": 0.0001,
      "loss": 7.8342,
      "loss/crossentropy": 2.3069592714309692,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25156907737255096,
      "step": 2364
    },
    {
      "epoch": 0.147875,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.025902303059895833,
      "learning_rate": 0.0001,
      "loss": 7.8323,
      "loss/crossentropy": 2.343958616256714,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23790227621793747,
      "step": 2366
    },
    {
      "epoch": 0.148,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.02525634765625,
      "learning_rate": 0.0001,
      "loss": 8.0088,
      "loss/crossentropy": 2.1950390338897705,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25015532970428467,
      "step": 2368
    },
    {
      "epoch": 0.148125,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.0327789306640625,
      "learning_rate": 0.0001,
      "loss": 7.7179,
      "loss/crossentropy": 2.18330717086792,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23950626701116562,
      "step": 2370
    },
    {
      "epoch": 0.14825,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.04156494140625,
      "learning_rate": 0.0001,
      "loss": 7.89,
      "loss/crossentropy": 2.359447479248047,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25177963823080063,
      "step": 2372
    },
    {
      "epoch": 0.148375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.048075358072916664,
      "learning_rate": 0.0001,
      "loss": 7.8616,
      "loss/crossentropy": 2.1051629185676575,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23466359078884125,
      "step": 2374
    },
    {
      "epoch": 0.1485,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.05561421712239583,
      "learning_rate": 0.0001,
      "loss": 7.8136,
      "loss/crossentropy": 2.4187822341918945,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24878371506929398,
      "step": 2376
    },
    {
      "epoch": 0.148625,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.05022786458333333,
      "learning_rate": 0.0001,
      "loss": 7.8544,
      "loss/crossentropy": 2.3044979572296143,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23919613659381866,
      "step": 2378
    },
    {
      "epoch": 0.14875,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.05283203125,
      "learning_rate": 0.0001,
      "loss": 7.9553,
      "loss/crossentropy": 2.334774613380432,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26303067803382874,
      "step": 2380
    },
    {
      "epoch": 0.148875,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.051268513997395834,
      "learning_rate": 0.0001,
      "loss": 7.8011,
      "loss/crossentropy": 2.1512030363082886,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2616318315267563,
      "step": 2382
    },
    {
      "epoch": 0.149,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.04903971354166667,
      "learning_rate": 0.0001,
      "loss": 7.9319,
      "loss/crossentropy": 2.1831018924713135,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24666057527065277,
      "step": 2384
    },
    {
      "epoch": 0.149125,
      "grad_norm": 3.125,
      "grad_norm_var": 0.05806884765625,
      "learning_rate": 0.0001,
      "loss": 8.0404,
      "loss/crossentropy": 2.278907299041748,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24930745363235474,
      "step": 2386
    },
    {
      "epoch": 0.14925,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.04917704264322917,
      "learning_rate": 0.0001,
      "loss": 7.8234,
      "loss/crossentropy": 2.117949962615967,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2466331273317337,
      "step": 2388
    },
    {
      "epoch": 0.149375,
      "grad_norm": 3.21875,
      "grad_norm_var": 0.05543212890625,
      "learning_rate": 0.0001,
      "loss": 7.9321,
      "loss/crossentropy": 2.4539263248443604,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2619713842868805,
      "step": 2390
    },
    {
      "epoch": 0.1495,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.0503082275390625,
      "learning_rate": 0.0001,
      "loss": 8.0366,
      "loss/crossentropy": 2.155607759952545,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2557392567396164,
      "step": 2392
    },
    {
      "epoch": 0.149625,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0584625244140625,
      "learning_rate": 0.0001,
      "loss": 7.8701,
      "loss/crossentropy": 2.226928472518921,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.227652445435524,
      "step": 2394
    },
    {
      "epoch": 0.14975,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.05657552083333333,
      "learning_rate": 0.0001,
      "loss": 7.9392,
      "loss/crossentropy": 2.152814030647278,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22992898523807526,
      "step": 2396
    },
    {
      "epoch": 0.149875,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.061258951822916664,
      "learning_rate": 0.0001,
      "loss": 7.877,
      "loss/crossentropy": 2.0306188464164734,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2434871345758438,
      "step": 2398
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.057112630208333334,
      "learning_rate": 0.0001,
      "loss": 7.9455,
      "loss/crossentropy": 2.3572858572006226,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24068891257047653,
      "step": 2400
    },
    {
      "epoch": 0.150125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.057112630208333334,
      "learning_rate": 0.0001,
      "loss": 7.8958,
      "loss/crossentropy": 2.4808624982833862,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2544522359967232,
      "step": 2402
    },
    {
      "epoch": 0.15025,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.055052693684895834,
      "learning_rate": 0.0001,
      "loss": 7.8099,
      "loss/crossentropy": 2.0727401971817017,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25555629283189774,
      "step": 2404
    },
    {
      "epoch": 0.150375,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.04289957682291667,
      "learning_rate": 0.0001,
      "loss": 7.9492,
      "loss/crossentropy": 2.3265267610549927,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2484055981040001,
      "step": 2406
    },
    {
      "epoch": 0.1505,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.05078837076822917,
      "learning_rate": 0.0001,
      "loss": 7.9314,
      "loss/crossentropy": 2.455584764480591,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2524856925010681,
      "step": 2408
    },
    {
      "epoch": 0.150625,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.044694010416666666,
      "learning_rate": 0.0001,
      "loss": 7.8646,
      "loss/crossentropy": 2.425659656524658,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2739051878452301,
      "step": 2410
    },
    {
      "epoch": 0.15075,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.042967732747395834,
      "learning_rate": 0.0001,
      "loss": 7.9698,
      "loss/crossentropy": 2.306099534034729,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24583810567855835,
      "step": 2412
    },
    {
      "epoch": 0.150875,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.04340718587239583,
      "learning_rate": 0.0001,
      "loss": 7.7465,
      "loss/crossentropy": 2.4911707639694214,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24410546571016312,
      "step": 2414
    },
    {
      "epoch": 0.151,
      "grad_norm": 2.75,
      "grad_norm_var": 0.04588114420572917,
      "learning_rate": 0.0001,
      "loss": 7.8045,
      "loss/crossentropy": 2.461613178253174,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2660996913909912,
      "step": 2416
    },
    {
      "epoch": 0.151125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.046708170572916666,
      "learning_rate": 0.0001,
      "loss": 7.7771,
      "loss/crossentropy": 2.1200402975082397,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23757921904325485,
      "step": 2418
    },
    {
      "epoch": 0.15125,
      "grad_norm": 2.625,
      "grad_norm_var": 0.048029581705729164,
      "learning_rate": 0.0001,
      "loss": 7.8634,
      "loss/crossentropy": 2.0594701766967773,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2412218227982521,
      "step": 2420
    },
    {
      "epoch": 0.151375,
      "grad_norm": 3.390625,
      "grad_norm_var": 0.09226786295572917,
      "learning_rate": 0.0001,
      "loss": 7.9832,
      "loss/crossentropy": 2.171906590461731,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24810399115085602,
      "step": 2422
    },
    {
      "epoch": 0.1515,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.09123942057291666,
      "learning_rate": 0.0001,
      "loss": 7.8273,
      "loss/crossentropy": 2.5124112367630005,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2484402135014534,
      "step": 2424
    },
    {
      "epoch": 0.151625,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.0913726806640625,
      "learning_rate": 0.0001,
      "loss": 7.782,
      "loss/crossentropy": 2.3001959323883057,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24032824486494064,
      "step": 2426
    },
    {
      "epoch": 0.15175,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.0932525634765625,
      "learning_rate": 0.0001,
      "loss": 7.7919,
      "loss/crossentropy": 2.170712888240814,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26182495057582855,
      "step": 2428
    },
    {
      "epoch": 0.151875,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.093359375,
      "learning_rate": 0.0001,
      "loss": 7.9205,
      "loss/crossentropy": 2.2728850841522217,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2512703761458397,
      "step": 2430
    },
    {
      "epoch": 0.152,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.0877838134765625,
      "learning_rate": 0.0001,
      "loss": 7.7564,
      "loss/crossentropy": 2.2336456775665283,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24472886323928833,
      "step": 2432
    },
    {
      "epoch": 0.152125,
      "grad_norm": 2.75,
      "grad_norm_var": 0.07998758951822917,
      "learning_rate": 0.0001,
      "loss": 7.792,
      "loss/crossentropy": 2.0555617809295654,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21662656217813492,
      "step": 2434
    },
    {
      "epoch": 0.15225,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.07681376139322917,
      "learning_rate": 0.0001,
      "loss": 7.852,
      "loss/crossentropy": 2.1744298934936523,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25150124728679657,
      "step": 2436
    },
    {
      "epoch": 0.152375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.018342081705729166,
      "learning_rate": 0.0001,
      "loss": 7.7934,
      "loss/crossentropy": 2.0990302562713623,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22628428786993027,
      "step": 2438
    },
    {
      "epoch": 0.1525,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.011844889322916666,
      "learning_rate": 0.0001,
      "loss": 7.8081,
      "loss/crossentropy": 2.2353204488754272,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26493804156780243,
      "step": 2440
    },
    {
      "epoch": 0.152625,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.017704264322916666,
      "learning_rate": 0.0001,
      "loss": 8.0923,
      "loss/crossentropy": 2.281570076942444,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2562706768512726,
      "step": 2442
    },
    {
      "epoch": 0.15275,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0250396728515625,
      "learning_rate": 0.0001,
      "loss": 7.773,
      "loss/crossentropy": 2.251350522041321,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2373836562037468,
      "step": 2444
    },
    {
      "epoch": 0.152875,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.0528472900390625,
      "learning_rate": 0.0001,
      "loss": 7.976,
      "loss/crossentropy": 2.2960145473480225,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25969095528125763,
      "step": 2446
    },
    {
      "epoch": 0.153,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.05984700520833333,
      "learning_rate": 0.0001,
      "loss": 7.8294,
      "loss/crossentropy": 2.28712797164917,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2389351725578308,
      "step": 2448
    },
    {
      "epoch": 0.153125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.06357421875,
      "learning_rate": 0.0001,
      "loss": 7.9498,
      "loss/crossentropy": 2.170054316520691,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24584101140499115,
      "step": 2450
    },
    {
      "epoch": 0.15325,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.07652587890625,
      "learning_rate": 0.0001,
      "loss": 8.0025,
      "loss/crossentropy": 2.2106114625930786,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24998192489147186,
      "step": 2452
    },
    {
      "epoch": 0.153375,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.07939046223958333,
      "learning_rate": 0.0001,
      "loss": 7.7971,
      "loss/crossentropy": 2.2459070682525635,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24219267070293427,
      "step": 2454
    },
    {
      "epoch": 0.1535,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.08028971354166667,
      "learning_rate": 0.0001,
      "loss": 7.8238,
      "loss/crossentropy": 2.3142576217651367,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25120753794908524,
      "step": 2456
    },
    {
      "epoch": 0.153625,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0760406494140625,
      "learning_rate": 0.0001,
      "loss": 7.9069,
      "loss/crossentropy": 2.390681028366089,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2660007178783417,
      "step": 2458
    },
    {
      "epoch": 0.15375,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.07095947265625,
      "learning_rate": 0.0001,
      "loss": 7.9599,
      "loss/crossentropy": 2.3622519969940186,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2376810610294342,
      "step": 2460
    },
    {
      "epoch": 0.153875,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.05569254557291667,
      "learning_rate": 0.0001,
      "loss": 7.7633,
      "loss/crossentropy": 2.587849259376526,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2587762326002121,
      "step": 2462
    },
    {
      "epoch": 0.154,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.04690348307291667,
      "learning_rate": 0.0001,
      "loss": 8.0367,
      "loss/crossentropy": 2.0119821429252625,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23865149170160294,
      "step": 2464
    },
    {
      "epoch": 0.154125,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.04401041666666667,
      "learning_rate": 0.0001,
      "loss": 7.9178,
      "loss/crossentropy": 2.278993248939514,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2538345381617546,
      "step": 2466
    },
    {
      "epoch": 0.15425,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.029352823893229168,
      "learning_rate": 0.0001,
      "loss": 7.8351,
      "loss/crossentropy": 2.2865071296691895,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24299630522727966,
      "step": 2468
    },
    {
      "epoch": 0.154375,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.027497355143229166,
      "learning_rate": 0.0001,
      "loss": 7.7031,
      "loss/crossentropy": 2.118988275527954,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23056157678365707,
      "step": 2470
    },
    {
      "epoch": 0.1545,
      "grad_norm": 2.25,
      "grad_norm_var": 0.0398101806640625,
      "learning_rate": 0.0001,
      "loss": 7.7647,
      "loss/crossentropy": 2.122451901435852,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2540634050965309,
      "step": 2472
    },
    {
      "epoch": 0.154625,
      "grad_norm": 2.875,
      "grad_norm_var": 0.041845703125,
      "learning_rate": 0.0001,
      "loss": 7.8108,
      "loss/crossentropy": 2.2460381984710693,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2485114336013794,
      "step": 2474
    },
    {
      "epoch": 0.15475,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0369049072265625,
      "learning_rate": 0.0001,
      "loss": 7.8238,
      "loss/crossentropy": 2.2321892976760864,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24692068994045258,
      "step": 2476
    },
    {
      "epoch": 0.154875,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.0273834228515625,
      "learning_rate": 0.0001,
      "loss": 7.8107,
      "loss/crossentropy": 2.47454035282135,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24419991672039032,
      "step": 2478
    },
    {
      "epoch": 0.155,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.026399739583333335,
      "learning_rate": 0.0001,
      "loss": 7.782,
      "loss/crossentropy": 2.1783688068389893,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24744782596826553,
      "step": 2480
    },
    {
      "epoch": 0.155125,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.029524739583333334,
      "learning_rate": 0.0001,
      "loss": 7.9437,
      "loss/crossentropy": 2.553811550140381,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2530565932393074,
      "step": 2482
    },
    {
      "epoch": 0.15525,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.04010009765625,
      "learning_rate": 0.0001,
      "loss": 7.8713,
      "loss/crossentropy": 2.441239356994629,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2551605701446533,
      "step": 2484
    },
    {
      "epoch": 0.155375,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.038309733072916664,
      "learning_rate": 0.0001,
      "loss": 7.7061,
      "loss/crossentropy": 2.370589256286621,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25826428830623627,
      "step": 2486
    },
    {
      "epoch": 0.1555,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.026390584309895833,
      "learning_rate": 0.0001,
      "loss": 7.7961,
      "loss/crossentropy": 2.1814417839050293,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2495630532503128,
      "step": 2488
    },
    {
      "epoch": 0.155625,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.029173787434895834,
      "learning_rate": 0.0001,
      "loss": 7.8197,
      "loss/crossentropy": 2.4883482456207275,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26348088681697845,
      "step": 2490
    },
    {
      "epoch": 0.15575,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.027632649739583334,
      "learning_rate": 0.0001,
      "loss": 7.8219,
      "loss/crossentropy": 2.1873401403427124,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24557159841060638,
      "step": 2492
    },
    {
      "epoch": 0.155875,
      "grad_norm": 2.75,
      "grad_norm_var": 0.02867431640625,
      "learning_rate": 0.0001,
      "loss": 7.8562,
      "loss/crossentropy": 2.3110402822494507,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24427203088998795,
      "step": 2494
    },
    {
      "epoch": 0.156,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.03600260416666667,
      "learning_rate": 0.0001,
      "loss": 7.8415,
      "loss/crossentropy": 2.2570624351501465,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24605220556259155,
      "step": 2496
    },
    {
      "epoch": 0.156125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.04087626139322917,
      "learning_rate": 0.0001,
      "loss": 7.6643,
      "loss/crossentropy": 2.2185534238815308,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2364451214671135,
      "step": 2498
    },
    {
      "epoch": 0.15625,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.039948527018229166,
      "learning_rate": 0.0001,
      "loss": 7.8161,
      "loss/crossentropy": 2.2274473905563354,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24973751604557037,
      "step": 2500
    },
    {
      "epoch": 0.156375,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.042292277018229164,
      "learning_rate": 0.0001,
      "loss": 8.0038,
      "loss/crossentropy": 2.3013203144073486,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24737702310085297,
      "step": 2502
    },
    {
      "epoch": 0.1565,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0455078125,
      "learning_rate": 0.0001,
      "loss": 7.7928,
      "loss/crossentropy": 2.5051584243774414,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25412553548812866,
      "step": 2504
    },
    {
      "epoch": 0.156625,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.0430084228515625,
      "learning_rate": 0.0001,
      "loss": 7.9481,
      "loss/crossentropy": 2.189783751964569,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24579951167106628,
      "step": 2506
    },
    {
      "epoch": 0.15675,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0482818603515625,
      "learning_rate": 0.0001,
      "loss": 7.8348,
      "loss/crossentropy": 2.629545569419861,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26841507852077484,
      "step": 2508
    },
    {
      "epoch": 0.156875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.060212198893229166,
      "learning_rate": 0.0001,
      "loss": 7.7123,
      "loss/crossentropy": 2.267096519470215,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24167770147323608,
      "step": 2510
    },
    {
      "epoch": 0.157,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.05322977701822917,
      "learning_rate": 0.0001,
      "loss": 7.6795,
      "loss/crossentropy": 2.170002818107605,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2375175580382347,
      "step": 2512
    },
    {
      "epoch": 0.157125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.05366109212239583,
      "learning_rate": 0.0001,
      "loss": 7.8975,
      "loss/crossentropy": 2.1839526891708374,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24612244218587875,
      "step": 2514
    },
    {
      "epoch": 0.15725,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0496734619140625,
      "learning_rate": 0.0001,
      "loss": 7.7503,
      "loss/crossentropy": 1.7978224754333496,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22572653740644455,
      "step": 2516
    },
    {
      "epoch": 0.157375,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.052567545572916666,
      "learning_rate": 0.0001,
      "loss": 7.9403,
      "loss/crossentropy": 2.2894846200942993,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24215564131736755,
      "step": 2518
    },
    {
      "epoch": 0.1575,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.052469889322916664,
      "learning_rate": 0.0001,
      "loss": 8.0173,
      "loss/crossentropy": 2.271655559539795,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23966332525014877,
      "step": 2520
    },
    {
      "epoch": 0.157625,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.051070149739583334,
      "learning_rate": 0.0001,
      "loss": 8.027,
      "loss/crossentropy": 2.30005145072937,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2628418430685997,
      "step": 2522
    },
    {
      "epoch": 0.15775,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.03728841145833333,
      "learning_rate": 0.0001,
      "loss": 7.5896,
      "loss/crossentropy": 2.0799155235290527,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23638420552015305,
      "step": 2524
    },
    {
      "epoch": 0.157875,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.03769124348958333,
      "learning_rate": 0.0001,
      "loss": 7.9816,
      "loss/crossentropy": 2.13996684551239,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24061943590641022,
      "step": 2526
    },
    {
      "epoch": 0.158,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.03584696451822917,
      "learning_rate": 0.0001,
      "loss": 7.89,
      "loss/crossentropy": 2.4007346630096436,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2567130923271179,
      "step": 2528
    },
    {
      "epoch": 0.158125,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.0336578369140625,
      "learning_rate": 0.0001,
      "loss": 7.8945,
      "loss/crossentropy": 2.3631176948547363,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2415386661887169,
      "step": 2530
    },
    {
      "epoch": 0.15825,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.02857666015625,
      "learning_rate": 0.0001,
      "loss": 7.7907,
      "loss/crossentropy": 2.058986485004425,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24685738235712051,
      "step": 2532
    },
    {
      "epoch": 0.158375,
      "grad_norm": 2.5,
      "grad_norm_var": 0.02593994140625,
      "learning_rate": 0.0001,
      "loss": 7.8062,
      "loss/crossentropy": 2.2281254529953003,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24689025431871414,
      "step": 2534
    },
    {
      "epoch": 0.1585,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.023127237955729168,
      "learning_rate": 0.0001,
      "loss": 7.8028,
      "loss/crossentropy": 2.4382470846176147,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27194739878177643,
      "step": 2536
    },
    {
      "epoch": 0.158625,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.028083292643229167,
      "learning_rate": 0.0001,
      "loss": 7.8523,
      "loss/crossentropy": 2.2935184240341187,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23303698748350143,
      "step": 2538
    },
    {
      "epoch": 0.15875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.0289703369140625,
      "learning_rate": 0.0001,
      "loss": 7.8038,
      "loss/crossentropy": 2.43733286857605,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23855997622013092,
      "step": 2540
    },
    {
      "epoch": 0.158875,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.020894368489583332,
      "learning_rate": 0.0001,
      "loss": 7.8183,
      "loss/crossentropy": 2.318352222442627,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2344244346022606,
      "step": 2542
    },
    {
      "epoch": 0.159,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.021468098958333334,
      "learning_rate": 0.0001,
      "loss": 7.7506,
      "loss/crossentropy": 2.172747015953064,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23044558614492416,
      "step": 2544
    },
    {
      "epoch": 0.159125,
      "grad_norm": 2.625,
      "grad_norm_var": 0.017024739583333334,
      "learning_rate": 0.0001,
      "loss": 7.7647,
      "loss/crossentropy": 2.2639771699905396,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2624407559633255,
      "step": 2546
    },
    {
      "epoch": 0.15925,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.05847981770833333,
      "learning_rate": 0.0001,
      "loss": 7.8837,
      "loss/crossentropy": 2.484058380126953,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2976628988981247,
      "step": 2548
    },
    {
      "epoch": 0.159375,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.05621337890625,
      "learning_rate": 0.0001,
      "loss": 7.9374,
      "loss/crossentropy": 2.439212441444397,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23525572568178177,
      "step": 2550
    },
    {
      "epoch": 0.1595,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.061009724934895836,
      "learning_rate": 0.0001,
      "loss": 7.6554,
      "loss/crossentropy": 2.046541452407837,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23553012311458588,
      "step": 2552
    },
    {
      "epoch": 0.159625,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.058430989583333336,
      "learning_rate": 0.0001,
      "loss": 7.679,
      "loss/crossentropy": 2.027937591075897,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24199260026216507,
      "step": 2554
    },
    {
      "epoch": 0.15975,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.06506245930989583,
      "learning_rate": 0.0001,
      "loss": 7.6605,
      "loss/crossentropy": 1.922214150428772,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21722379326820374,
      "step": 2556
    },
    {
      "epoch": 0.159875,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.06368815104166667,
      "learning_rate": 0.0001,
      "loss": 7.947,
      "loss/crossentropy": 2.41329824924469,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23701953887939453,
      "step": 2558
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.625,
      "grad_norm_var": 0.06347249348958334,
      "learning_rate": 0.0001,
      "loss": 7.9478,
      "loss/crossentropy": 2.364239811897278,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26914364099502563,
      "step": 2560
    },
    {
      "epoch": 0.160125,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.06280924479166666,
      "learning_rate": 0.0001,
      "loss": 7.8012,
      "loss/crossentropy": 2.2895541191101074,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2240670844912529,
      "step": 2562
    },
    {
      "epoch": 0.16025,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.022858683268229166,
      "learning_rate": 0.0001,
      "loss": 7.9514,
      "loss/crossentropy": 2.21063768863678,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23704807460308075,
      "step": 2564
    },
    {
      "epoch": 0.160375,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.026102701822916668,
      "learning_rate": 0.0001,
      "loss": 7.9352,
      "loss/crossentropy": 2.1890910863876343,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25638218969106674,
      "step": 2566
    },
    {
      "epoch": 0.1605,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.023014322916666666,
      "learning_rate": 0.0001,
      "loss": 7.7254,
      "loss/crossentropy": 2.3455424308776855,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22738848626613617,
      "step": 2568
    },
    {
      "epoch": 0.160625,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.018830362955729166,
      "learning_rate": 0.0001,
      "loss": 7.9244,
      "loss/crossentropy": 2.4760804176330566,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2477440983057022,
      "step": 2570
    },
    {
      "epoch": 0.16075,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.0157379150390625,
      "learning_rate": 0.0001,
      "loss": 7.8971,
      "loss/crossentropy": 2.2207542657852173,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23943090438842773,
      "step": 2572
    },
    {
      "epoch": 0.160875,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0168609619140625,
      "learning_rate": 0.0001,
      "loss": 7.8168,
      "loss/crossentropy": 2.5181933641433716,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2479179948568344,
      "step": 2574
    },
    {
      "epoch": 0.161,
      "grad_norm": 2.75,
      "grad_norm_var": 0.015721638997395832,
      "learning_rate": 0.0001,
      "loss": 7.7453,
      "loss/crossentropy": 2.37592613697052,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24624846875667572,
      "step": 2576
    },
    {
      "epoch": 0.161125,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.030204264322916667,
      "learning_rate": 0.0001,
      "loss": 7.8473,
      "loss/crossentropy": 2.2562596797943115,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2466205209493637,
      "step": 2578
    },
    {
      "epoch": 0.16125,
      "grad_norm": 2.625,
      "grad_norm_var": 0.029866536458333332,
      "learning_rate": 0.0001,
      "loss": 7.8813,
      "loss/crossentropy": 2.23412823677063,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2418230101466179,
      "step": 2580
    },
    {
      "epoch": 0.161375,
      "grad_norm": 2.625,
      "grad_norm_var": 0.023030598958333332,
      "learning_rate": 0.0001,
      "loss": 7.9116,
      "loss/crossentropy": 2.529879093170166,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2786422669887543,
      "step": 2582
    },
    {
      "epoch": 0.1615,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0252593994140625,
      "learning_rate": 0.0001,
      "loss": 7.7615,
      "loss/crossentropy": 2.1202937364578247,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24669316411018372,
      "step": 2584
    },
    {
      "epoch": 0.161625,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.03206278483072917,
      "learning_rate": 0.0001,
      "loss": 7.7169,
      "loss/crossentropy": 2.2816332578659058,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23847512155771255,
      "step": 2586
    },
    {
      "epoch": 0.16175,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.032136027018229166,
      "learning_rate": 0.0001,
      "loss": 7.7928,
      "loss/crossentropy": 2.264583945274353,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23760029673576355,
      "step": 2588
    },
    {
      "epoch": 0.161875,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.03433837890625,
      "learning_rate": 0.0001,
      "loss": 7.8559,
      "loss/crossentropy": 2.070025682449341,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2591887414455414,
      "step": 2590
    },
    {
      "epoch": 0.162,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.039388020833333336,
      "learning_rate": 0.0001,
      "loss": 7.8661,
      "loss/crossentropy": 2.3117960691452026,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23791569471359253,
      "step": 2592
    },
    {
      "epoch": 0.162125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.0252593994140625,
      "learning_rate": 0.0001,
      "loss": 7.4415,
      "loss/crossentropy": 2.2540050745010376,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22730688750743866,
      "step": 2594
    },
    {
      "epoch": 0.16225,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.03404947916666667,
      "learning_rate": 0.0001,
      "loss": 7.6522,
      "loss/crossentropy": 1.7815396785736084,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2086879387497902,
      "step": 2596
    },
    {
      "epoch": 0.162375,
      "grad_norm": 2.625,
      "grad_norm_var": 0.03359375,
      "learning_rate": 0.0001,
      "loss": 7.7545,
      "loss/crossentropy": 2.38827908039093,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24543824791908264,
      "step": 2598
    },
    {
      "epoch": 0.1625,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.03720703125,
      "learning_rate": 0.0001,
      "loss": 7.8079,
      "loss/crossentropy": 2.4880915880203247,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2978169023990631,
      "step": 2600
    },
    {
      "epoch": 0.162625,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.03308817545572917,
      "learning_rate": 0.0001,
      "loss": 7.8877,
      "loss/crossentropy": 2.4218918085098267,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24140693247318268,
      "step": 2602
    },
    {
      "epoch": 0.16275,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.031053670247395835,
      "learning_rate": 0.0001,
      "loss": 7.8144,
      "loss/crossentropy": 2.266621947288513,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26293135434389114,
      "step": 2604
    },
    {
      "epoch": 0.162875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.028499348958333334,
      "learning_rate": 0.0001,
      "loss": 7.7038,
      "loss/crossentropy": 2.1036359071731567,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2307727113366127,
      "step": 2606
    },
    {
      "epoch": 0.163,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.04426981608072917,
      "learning_rate": 0.0001,
      "loss": 7.8715,
      "loss/crossentropy": 2.2452776432037354,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26242855191230774,
      "step": 2608
    },
    {
      "epoch": 0.163125,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.04185791015625,
      "learning_rate": 0.0001,
      "loss": 7.8903,
      "loss/crossentropy": 2.2557637691497803,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.272522896528244,
      "step": 2610
    },
    {
      "epoch": 0.16325,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.03326416015625,
      "learning_rate": 0.0001,
      "loss": 7.9233,
      "loss/crossentropy": 2.375272512435913,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2328314259648323,
      "step": 2612
    },
    {
      "epoch": 0.163375,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.03937886555989583,
      "learning_rate": 0.0001,
      "loss": 7.8084,
      "loss/crossentropy": 2.2634716033935547,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2391228973865509,
      "step": 2614
    },
    {
      "epoch": 0.1635,
      "grad_norm": 2.75,
      "grad_norm_var": 0.04064127604166667,
      "learning_rate": 0.0001,
      "loss": 7.888,
      "loss/crossentropy": 2.5287814140319824,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2443351447582245,
      "step": 2616
    },
    {
      "epoch": 0.163625,
      "grad_norm": 2.375,
      "grad_norm_var": 0.04646708170572917,
      "learning_rate": 0.0001,
      "loss": 7.6805,
      "loss/crossentropy": 2.142694592475891,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24597708880901337,
      "step": 2618
    },
    {
      "epoch": 0.16375,
      "grad_norm": 3.25,
      "grad_norm_var": 0.06467997233072917,
      "learning_rate": 0.0001,
      "loss": 7.8287,
      "loss/crossentropy": 1.996739685535431,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25455768406391144,
      "step": 2620
    },
    {
      "epoch": 0.163875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.06575419108072916,
      "learning_rate": 0.0001,
      "loss": 7.8684,
      "loss/crossentropy": 2.460938572883606,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25081367045640945,
      "step": 2622
    },
    {
      "epoch": 0.164,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.05423177083333333,
      "learning_rate": 0.0001,
      "loss": 7.8841,
      "loss/crossentropy": 2.4802383184432983,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24186843633651733,
      "step": 2624
    },
    {
      "epoch": 0.164125,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.05076395670572917,
      "learning_rate": 0.0001,
      "loss": 7.8454,
      "loss/crossentropy": 2.209325075149536,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.237510085105896,
      "step": 2626
    },
    {
      "epoch": 0.16425,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.06262613932291666,
      "learning_rate": 0.0001,
      "loss": 7.7406,
      "loss/crossentropy": 2.0401015281677246,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20650795102119446,
      "step": 2628
    },
    {
      "epoch": 0.164375,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.06002604166666667,
      "learning_rate": 0.0001,
      "loss": 7.894,
      "loss/crossentropy": 2.5026817321777344,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24748124927282333,
      "step": 2630
    },
    {
      "epoch": 0.1645,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0602691650390625,
      "learning_rate": 0.0001,
      "loss": 7.7024,
      "loss/crossentropy": 2.2391568422317505,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22500373423099518,
      "step": 2632
    },
    {
      "epoch": 0.164625,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.05440165201822917,
      "learning_rate": 0.0001,
      "loss": 7.7876,
      "loss/crossentropy": 2.2685747742652893,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2358316034078598,
      "step": 2634
    },
    {
      "epoch": 0.16475,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.027220662434895834,
      "learning_rate": 0.0001,
      "loss": 7.7126,
      "loss/crossentropy": 2.2785946130752563,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24026557803153992,
      "step": 2636
    },
    {
      "epoch": 0.164875,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.024898274739583334,
      "learning_rate": 0.0001,
      "loss": 7.8153,
      "loss/crossentropy": 2.2721141576766968,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2398277372121811,
      "step": 2638
    },
    {
      "epoch": 0.165,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.023224894205729166,
      "learning_rate": 0.0001,
      "loss": 7.9432,
      "loss/crossentropy": 2.229793667793274,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21887121349573135,
      "step": 2640
    },
    {
      "epoch": 0.165125,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.023876953125,
      "learning_rate": 0.0001,
      "loss": 7.603,
      "loss/crossentropy": 2.1890532970428467,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23123417794704437,
      "step": 2642
    },
    {
      "epoch": 0.16525,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.0223052978515625,
      "learning_rate": 0.0001,
      "loss": 7.6917,
      "loss/crossentropy": 2.172744870185852,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22291851788759232,
      "step": 2644
    },
    {
      "epoch": 0.165375,
      "grad_norm": 2.75,
      "grad_norm_var": 0.017606608072916665,
      "learning_rate": 0.0001,
      "loss": 7.6527,
      "loss/crossentropy": 2.2864272594451904,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24596457928419113,
      "step": 2646
    },
    {
      "epoch": 0.1655,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.01695556640625,
      "learning_rate": 0.0001,
      "loss": 7.858,
      "loss/crossentropy": 2.428277611732483,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25081363320350647,
      "step": 2648
    },
    {
      "epoch": 0.165625,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.017508951822916667,
      "learning_rate": 0.0001,
      "loss": 7.8198,
      "loss/crossentropy": 2.2622756958007812,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24526074528694153,
      "step": 2650
    },
    {
      "epoch": 0.16575,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0265289306640625,
      "learning_rate": 0.0001,
      "loss": 7.6316,
      "loss/crossentropy": 2.1581307649612427,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24160084128379822,
      "step": 2652
    },
    {
      "epoch": 0.165875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.0283203125,
      "learning_rate": 0.0001,
      "loss": 7.8289,
      "loss/crossentropy": 2.2180778980255127,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24087932705879211,
      "step": 2654
    },
    {
      "epoch": 0.166,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.030939737955729168,
      "learning_rate": 0.0001,
      "loss": 7.8398,
      "loss/crossentropy": 2.3046650886535645,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25179338455200195,
      "step": 2656
    },
    {
      "epoch": 0.166125,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.02769775390625,
      "learning_rate": 0.0001,
      "loss": 7.7888,
      "loss/crossentropy": 2.251810073852539,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23383210599422455,
      "step": 2658
    },
    {
      "epoch": 0.16625,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0210357666015625,
      "learning_rate": 0.0001,
      "loss": 7.6108,
      "loss/crossentropy": 2.326148748397827,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.267700731754303,
      "step": 2660
    },
    {
      "epoch": 0.166375,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.021410115559895835,
      "learning_rate": 0.0001,
      "loss": 7.6615,
      "loss/crossentropy": 2.3175487518310547,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2537999600172043,
      "step": 2662
    },
    {
      "epoch": 0.1665,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.019310506184895833,
      "learning_rate": 0.0001,
      "loss": 7.7319,
      "loss/crossentropy": 2.4394067525863647,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24439330399036407,
      "step": 2664
    },
    {
      "epoch": 0.166625,
      "grad_norm": 2.5,
      "grad_norm_var": 0.024934895833333335,
      "learning_rate": 0.0001,
      "loss": 7.7306,
      "loss/crossentropy": 2.377542495727539,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2411457523703575,
      "step": 2666
    },
    {
      "epoch": 0.16675,
      "grad_norm": 2.96875,
      "grad_norm_var": 0.026097615559895832,
      "learning_rate": 0.0001,
      "loss": 7.7291,
      "loss/crossentropy": 2.244265556335449,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2636634260416031,
      "step": 2668
    },
    {
      "epoch": 0.166875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.029618326822916666,
      "learning_rate": 0.0001,
      "loss": 7.817,
      "loss/crossentropy": 2.3067715167999268,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2648337334394455,
      "step": 2670
    },
    {
      "epoch": 0.167,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.02916259765625,
      "learning_rate": 0.0001,
      "loss": 7.9386,
      "loss/crossentropy": 2.3284155130386353,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25726044178009033,
      "step": 2672
    },
    {
      "epoch": 0.167125,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.03279520670572917,
      "learning_rate": 0.0001,
      "loss": 7.6504,
      "loss/crossentropy": 2.1608939170837402,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23987659811973572,
      "step": 2674
    },
    {
      "epoch": 0.16725,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.04436442057291667,
      "learning_rate": 0.0001,
      "loss": 7.7824,
      "loss/crossentropy": 2.156682312488556,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22545601427555084,
      "step": 2676
    },
    {
      "epoch": 0.167375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.07141520182291666,
      "learning_rate": 0.0001,
      "loss": 7.8573,
      "loss/crossentropy": 2.1365780234336853,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21754685044288635,
      "step": 2678
    },
    {
      "epoch": 0.1675,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.07617899576822916,
      "learning_rate": 0.0001,
      "loss": 7.9647,
      "loss/crossentropy": 2.27071213722229,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22438976168632507,
      "step": 2680
    },
    {
      "epoch": 0.167625,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0685455322265625,
      "learning_rate": 0.0001,
      "loss": 7.7773,
      "loss/crossentropy": 2.115522563457489,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22477930784225464,
      "step": 2682
    },
    {
      "epoch": 0.16775,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.06461181640625,
      "learning_rate": 0.0001,
      "loss": 7.7755,
      "loss/crossentropy": 2.215229034423828,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22990095615386963,
      "step": 2684
    },
    {
      "epoch": 0.167875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.06243082682291667,
      "learning_rate": 0.0001,
      "loss": 7.7615,
      "loss/crossentropy": 2.180325746536255,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.232216514647007,
      "step": 2686
    },
    {
      "epoch": 0.168,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0634185791015625,
      "learning_rate": 0.0001,
      "loss": 7.713,
      "loss/crossentropy": 2.4484771490097046,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2512357458472252,
      "step": 2688
    },
    {
      "epoch": 0.168125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.0561431884765625,
      "learning_rate": 0.0001,
      "loss": 7.7087,
      "loss/crossentropy": 2.178835153579712,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24023275077342987,
      "step": 2690
    },
    {
      "epoch": 0.16825,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.045750935872395836,
      "learning_rate": 0.0001,
      "loss": 7.6464,
      "loss/crossentropy": 2.0620937943458557,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23334022611379623,
      "step": 2692
    },
    {
      "epoch": 0.168375,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.009740193684895834,
      "learning_rate": 0.0001,
      "loss": 7.8639,
      "loss/crossentropy": 2.4087116718292236,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2341567426919937,
      "step": 2694
    },
    {
      "epoch": 0.1685,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.014647420247395833,
      "learning_rate": 0.0001,
      "loss": 7.9106,
      "loss/crossentropy": 2.309167981147766,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24564050883054733,
      "step": 2696
    },
    {
      "epoch": 0.168625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.016364542643229167,
      "learning_rate": 0.0001,
      "loss": 7.6039,
      "loss/crossentropy": 1.9676810503005981,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2102392315864563,
      "step": 2698
    },
    {
      "epoch": 0.16875,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.017118326822916665,
      "learning_rate": 0.0001,
      "loss": 7.7754,
      "loss/crossentropy": 2.380856513977051,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2278568521142006,
      "step": 2700
    },
    {
      "epoch": 0.168875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.020335896809895834,
      "learning_rate": 0.0001,
      "loss": 7.8029,
      "loss/crossentropy": 2.2248435020446777,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23989464342594147,
      "step": 2702
    },
    {
      "epoch": 0.169,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.0283355712890625,
      "learning_rate": 0.0001,
      "loss": 7.7909,
      "loss/crossentropy": 2.2802765369415283,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23772113770246506,
      "step": 2704
    },
    {
      "epoch": 0.169125,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.02998046875,
      "learning_rate": 0.0001,
      "loss": 7.8392,
      "loss/crossentropy": 2.320490837097168,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.232273131608963,
      "step": 2706
    },
    {
      "epoch": 0.16925,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.036279296875,
      "learning_rate": 0.0001,
      "loss": 7.7277,
      "loss/crossentropy": 2.103710889816284,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21974950283765793,
      "step": 2708
    },
    {
      "epoch": 0.169375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.0538726806640625,
      "learning_rate": 0.0001,
      "loss": 7.9849,
      "loss/crossentropy": 2.311343789100647,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27306586503982544,
      "step": 2710
    },
    {
      "epoch": 0.1695,
      "grad_norm": 4.21875,
      "grad_norm_var": 0.21113993326822916,
      "learning_rate": 0.0001,
      "loss": 7.898,
      "loss/crossentropy": 2.248456120491028,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23485350608825684,
      "step": 2712
    },
    {
      "epoch": 0.169625,
      "grad_norm": 3.640625,
      "grad_norm_var": 0.2821116129557292,
      "learning_rate": 0.0001,
      "loss": 8.0907,
      "loss/crossentropy": 2.3589508533477783,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23614779859781265,
      "step": 2714
    },
    {
      "epoch": 0.16975,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.29221903483072914,
      "learning_rate": 0.0001,
      "loss": 7.8759,
      "loss/crossentropy": 2.472365975379944,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23715022206306458,
      "step": 2716
    },
    {
      "epoch": 0.169875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.3374420166015625,
      "learning_rate": 0.0001,
      "loss": 7.7942,
      "loss/crossentropy": 2.264963388442993,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24661238491535187,
      "step": 2718
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.3333943684895833,
      "learning_rate": 0.0001,
      "loss": 7.9196,
      "loss/crossentropy": 2.477718949317932,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25135859847068787,
      "step": 2720
    },
    {
      "epoch": 0.170125,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.3395792643229167,
      "learning_rate": 0.0001,
      "loss": 7.8171,
      "loss/crossentropy": 2.2033207416534424,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24111789464950562,
      "step": 2722
    },
    {
      "epoch": 0.17025,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.3217844645182292,
      "learning_rate": 0.0001,
      "loss": 7.7115,
      "loss/crossentropy": 2.3668792247772217,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2309272140264511,
      "step": 2724
    },
    {
      "epoch": 0.170375,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.32696940104166666,
      "learning_rate": 0.0001,
      "loss": 7.807,
      "loss/crossentropy": 2.359344244003296,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25724074244499207,
      "step": 2726
    },
    {
      "epoch": 0.1705,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.21409505208333332,
      "learning_rate": 0.0001,
      "loss": 7.7598,
      "loss/crossentropy": 2.2009201049804688,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23280736804008484,
      "step": 2728
    },
    {
      "epoch": 0.170625,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.1070465087890625,
      "learning_rate": 0.0001,
      "loss": 7.8024,
      "loss/crossentropy": 2.1781824827194214,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23048165440559387,
      "step": 2730
    },
    {
      "epoch": 0.17075,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.041890462239583336,
      "learning_rate": 0.0001,
      "loss": 7.867,
      "loss/crossentropy": 2.2078417539596558,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24096353352069855,
      "step": 2732
    },
    {
      "epoch": 0.170875,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.03166910807291667,
      "learning_rate": 0.0001,
      "loss": 7.8545,
      "loss/crossentropy": 2.3574694395065308,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2407936155796051,
      "step": 2734
    },
    {
      "epoch": 0.171,
      "grad_norm": 2.5,
      "grad_norm_var": 0.026285807291666668,
      "learning_rate": 0.0001,
      "loss": 7.7336,
      "loss/crossentropy": 2.3674607276916504,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2338072955608368,
      "step": 2736
    },
    {
      "epoch": 0.171125,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.025178019205729166,
      "learning_rate": 0.0001,
      "loss": 7.7552,
      "loss/crossentropy": 2.1523255109786987,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23672043532133102,
      "step": 2738
    },
    {
      "epoch": 0.17125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.026471964518229165,
      "learning_rate": 0.0001,
      "loss": 7.6336,
      "loss/crossentropy": 2.0955100655555725,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2361309677362442,
      "step": 2740
    },
    {
      "epoch": 0.171375,
      "grad_norm": 3.140625,
      "grad_norm_var": 0.036432902018229164,
      "learning_rate": 0.0001,
      "loss": 7.8829,
      "loss/crossentropy": 2.509047269821167,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2578771486878395,
      "step": 2742
    },
    {
      "epoch": 0.1715,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.03332926432291667,
      "learning_rate": 0.0001,
      "loss": 7.7991,
      "loss/crossentropy": 2.2338361740112305,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26055432856082916,
      "step": 2744
    },
    {
      "epoch": 0.171625,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.033967081705729166,
      "learning_rate": 0.0001,
      "loss": 7.7437,
      "loss/crossentropy": 2.1647003889083862,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23635494709014893,
      "step": 2746
    },
    {
      "epoch": 0.17175,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.03599344889322917,
      "learning_rate": 0.0001,
      "loss": 7.7051,
      "loss/crossentropy": 2.561861991882324,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2592911720275879,
      "step": 2748
    },
    {
      "epoch": 0.171875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.03669331868489583,
      "learning_rate": 0.0001,
      "loss": 7.6254,
      "loss/crossentropy": 2.082680583000183,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21699509769678116,
      "step": 2750
    },
    {
      "epoch": 0.172,
      "grad_norm": 6.8125,
      "grad_norm_var": 1.1539052327473958,
      "learning_rate": 0.0001,
      "loss": 7.8237,
      "loss/crossentropy": 2.5276395082473755,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2522757425904274,
      "step": 2752
    },
    {
      "epoch": 0.172125,
      "grad_norm": 5.1875,
      "grad_norm_var": 6.189676920572917,
      "learning_rate": 0.0001,
      "loss": 8.0084,
      "loss/crossentropy": 2.2055013179779053,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23886322230100632,
      "step": 2754
    },
    {
      "epoch": 0.17225,
      "grad_norm": 2.375,
      "grad_norm_var": 6.181050618489583,
      "learning_rate": 0.0001,
      "loss": 7.9047,
      "loss/crossentropy": 2.394223690032959,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2515896260738373,
      "step": 2756
    },
    {
      "epoch": 0.172375,
      "grad_norm": 2.90625,
      "grad_norm_var": 6.165526326497396,
      "learning_rate": 0.0001,
      "loss": 7.9735,
      "loss/crossentropy": 2.2563817501068115,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23824837803840637,
      "step": 2758
    },
    {
      "epoch": 0.1725,
      "grad_norm": 2.484375,
      "grad_norm_var": 6.159468587239584,
      "learning_rate": 0.0001,
      "loss": 7.8461,
      "loss/crossentropy": 2.244271457195282,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22762248665094376,
      "step": 2760
    },
    {
      "epoch": 0.172625,
      "grad_norm": 2.609375,
      "grad_norm_var": 6.164518229166666,
      "learning_rate": 0.0001,
      "loss": 7.7406,
      "loss/crossentropy": 2.183770179748535,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21703775227069855,
      "step": 2762
    },
    {
      "epoch": 0.17275,
      "grad_norm": 3.5625,
      "grad_norm_var": 6.166910807291667,
      "learning_rate": 0.0001,
      "loss": 7.9424,
      "loss/crossentropy": 2.1734741926193237,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2613416016101837,
      "step": 2764
    },
    {
      "epoch": 0.172875,
      "grad_norm": 2.859375,
      "grad_norm_var": 6.048502604166667,
      "learning_rate": 0.0001,
      "loss": 7.9174,
      "loss/crossentropy": 2.32150936126709,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23922567069530487,
      "step": 2766
    },
    {
      "epoch": 0.173,
      "grad_norm": 2.65625,
      "grad_norm_var": 5.403804524739583,
      "learning_rate": 0.0001,
      "loss": 7.6948,
      "loss/crossentropy": 2.0935378074645996,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23874947428703308,
      "step": 2768
    },
    {
      "epoch": 0.173125,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.39658915201822914,
      "learning_rate": 0.0001,
      "loss": 7.9079,
      "loss/crossentropy": 2.2263898253440857,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24427123367786407,
      "step": 2770
    },
    {
      "epoch": 0.17325,
      "grad_norm": 2.625,
      "grad_norm_var": 0.37922261555989584,
      "learning_rate": 0.0001,
      "loss": 7.8895,
      "loss/crossentropy": 2.1437301635742188,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22952381521463394,
      "step": 2772
    },
    {
      "epoch": 0.173375,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.40615946451822915,
      "learning_rate": 0.0001,
      "loss": 7.8372,
      "loss/crossentropy": 2.293881416320801,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2393340766429901,
      "step": 2774
    },
    {
      "epoch": 0.1735,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.4012980143229167,
      "learning_rate": 0.0001,
      "loss": 7.7442,
      "loss/crossentropy": 2.258249878883362,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23926617950201035,
      "step": 2776
    },
    {
      "epoch": 0.173625,
      "grad_norm": 3.953125,
      "grad_norm_var": 0.4626210530598958,
      "learning_rate": 0.0001,
      "loss": 7.7726,
      "loss/crossentropy": 2.0506081581115723,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2070065289735794,
      "step": 2778
    },
    {
      "epoch": 0.17375,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.14410400390625,
      "learning_rate": 0.0001,
      "loss": 7.7289,
      "loss/crossentropy": 2.130703330039978,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23245615512132645,
      "step": 2780
    },
    {
      "epoch": 0.173875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.1447906494140625,
      "learning_rate": 0.0001,
      "loss": 7.8126,
      "loss/crossentropy": 2.336124062538147,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2596941590309143,
      "step": 2782
    },
    {
      "epoch": 0.174,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.13846028645833333,
      "learning_rate": 0.0001,
      "loss": 7.7806,
      "loss/crossentropy": 2.313853621482849,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24538902938365936,
      "step": 2784
    },
    {
      "epoch": 0.174125,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.13967997233072918,
      "learning_rate": 0.0001,
      "loss": 7.7471,
      "loss/crossentropy": 2.2884416580200195,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24766312539577484,
      "step": 2786
    },
    {
      "epoch": 0.17425,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.14446512858072916,
      "learning_rate": 0.0001,
      "loss": 7.8361,
      "loss/crossentropy": 2.3857977390289307,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2376108318567276,
      "step": 2788
    },
    {
      "epoch": 0.174375,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.14230855305989584,
      "learning_rate": 0.0001,
      "loss": 7.7924,
      "loss/crossentropy": 2.2684574127197266,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25091154873371124,
      "step": 2790
    },
    {
      "epoch": 0.1745,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.1416168212890625,
      "learning_rate": 0.0001,
      "loss": 7.7769,
      "loss/crossentropy": 2.2278876304626465,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2252519577741623,
      "step": 2792
    },
    {
      "epoch": 0.174625,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.03281962076822917,
      "learning_rate": 0.0001,
      "loss": 7.5981,
      "loss/crossentropy": 2.2489346265792847,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23500560969114304,
      "step": 2794
    },
    {
      "epoch": 0.17475,
      "grad_norm": 2.5,
      "grad_norm_var": 0.022248331705729166,
      "learning_rate": 0.0001,
      "loss": 7.7545,
      "loss/crossentropy": 2.295899510383606,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2576214596629143,
      "step": 2796
    },
    {
      "epoch": 0.174875,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.0241851806640625,
      "learning_rate": 0.0001,
      "loss": 7.8388,
      "loss/crossentropy": 2.3035519123077393,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2654409855604172,
      "step": 2798
    },
    {
      "epoch": 0.175,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.037060546875,
      "learning_rate": 0.0001,
      "loss": 7.9235,
      "loss/crossentropy": 2.2352579832077026,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2841232195496559,
      "step": 2800
    },
    {
      "epoch": 0.175125,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.046483357747395836,
      "learning_rate": 0.0001,
      "loss": 7.709,
      "loss/crossentropy": 2.3198055028915405,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23578546196222305,
      "step": 2802
    },
    {
      "epoch": 0.17525,
      "grad_norm": 3.15625,
      "grad_norm_var": 0.05718994140625,
      "learning_rate": 0.0001,
      "loss": 7.8402,
      "loss/crossentropy": 2.2245510816574097,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23328936845064163,
      "step": 2804
    },
    {
      "epoch": 0.175375,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.13108317057291666,
      "learning_rate": 0.0001,
      "loss": 7.7222,
      "loss/crossentropy": 2.3215973377227783,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2323600873351097,
      "step": 2806
    },
    {
      "epoch": 0.1755,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.13945210774739583,
      "learning_rate": 0.0001,
      "loss": 7.9641,
      "loss/crossentropy": 2.6317641735076904,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25842827558517456,
      "step": 2808
    },
    {
      "epoch": 0.175625,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.13935139973958333,
      "learning_rate": 0.0001,
      "loss": 7.82,
      "loss/crossentropy": 2.215041160583496,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25014058500528336,
      "step": 2810
    },
    {
      "epoch": 0.17575,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.13599853515625,
      "learning_rate": 0.0001,
      "loss": 7.7395,
      "loss/crossentropy": 2.1867226362228394,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23424651473760605,
      "step": 2812
    },
    {
      "epoch": 0.175875,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.1615631103515625,
      "learning_rate": 0.0001,
      "loss": 7.5309,
      "loss/crossentropy": 2.217566967010498,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.226304829120636,
      "step": 2814
    },
    {
      "epoch": 0.176,
      "grad_norm": 2.875,
      "grad_norm_var": 0.15181884765625,
      "learning_rate": 0.0001,
      "loss": 7.759,
      "loss/crossentropy": 2.0618727803230286,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2439548224210739,
      "step": 2816
    },
    {
      "epoch": 0.176125,
      "grad_norm": 3.515625,
      "grad_norm_var": 0.6506795247395833,
      "learning_rate": 0.0001,
      "loss": 7.8753,
      "loss/crossentropy": 2.409805655479431,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2505335807800293,
      "step": 2818
    },
    {
      "epoch": 0.17625,
      "grad_norm": 3.03125,
      "grad_norm_var": 0.6482248942057292,
      "learning_rate": 0.0001,
      "loss": 7.5632,
      "loss/crossentropy": 2.03094744682312,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21356388926506042,
      "step": 2820
    },
    {
      "epoch": 0.176375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.61324462890625,
      "learning_rate": 0.0001,
      "loss": 7.6257,
      "loss/crossentropy": 2.3141270875930786,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25053539127111435,
      "step": 2822
    },
    {
      "epoch": 0.1765,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.60732421875,
      "learning_rate": 0.0001,
      "loss": 7.8661,
      "loss/crossentropy": 2.174069106578827,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22884509712457657,
      "step": 2824
    },
    {
      "epoch": 0.176625,
      "grad_norm": 2.625,
      "grad_norm_var": 0.6008626302083333,
      "learning_rate": 0.0001,
      "loss": 7.5315,
      "loss/crossentropy": 2.08145010471344,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22816456109285355,
      "step": 2826
    },
    {
      "epoch": 0.17675,
      "grad_norm": 2.375,
      "grad_norm_var": 0.6063313802083333,
      "learning_rate": 0.0001,
      "loss": 7.6201,
      "loss/crossentropy": 2.094637870788574,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2243911251425743,
      "step": 2828
    },
    {
      "epoch": 0.176875,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.5699940999348958,
      "learning_rate": 0.0001,
      "loss": 7.7378,
      "loss/crossentropy": 2.1945928931236267,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2399984896183014,
      "step": 2830
    },
    {
      "epoch": 0.177,
      "grad_norm": 2.5,
      "grad_norm_var": 0.5867421468098958,
      "learning_rate": 0.0001,
      "loss": 7.6547,
      "loss/crossentropy": 2.3012553453445435,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23795722424983978,
      "step": 2832
    },
    {
      "epoch": 0.177125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0286773681640625,
      "learning_rate": 0.0001,
      "loss": 7.6384,
      "loss/crossentropy": 2.424581289291382,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2470892071723938,
      "step": 2834
    },
    {
      "epoch": 0.17725,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.0132720947265625,
      "learning_rate": 0.0001,
      "loss": 7.7292,
      "loss/crossentropy": 2.136981964111328,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23704643547534943,
      "step": 2836
    },
    {
      "epoch": 0.177375,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.01051025390625,
      "learning_rate": 0.0001,
      "loss": 7.8595,
      "loss/crossentropy": 2.285550355911255,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23677106201648712,
      "step": 2838
    },
    {
      "epoch": 0.1775,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.015262858072916666,
      "learning_rate": 0.0001,
      "loss": 7.6297,
      "loss/crossentropy": 2.1494513750076294,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2412027269601822,
      "step": 2840
    },
    {
      "epoch": 0.177625,
      "grad_norm": 3.0,
      "grad_norm_var": 0.026984659830729167,
      "learning_rate": 0.0001,
      "loss": 7.7216,
      "loss/crossentropy": 2.605257034301758,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25743308663368225,
      "step": 2842
    },
    {
      "epoch": 0.17775,
      "grad_norm": 2.5,
      "grad_norm_var": 0.028539021809895832,
      "learning_rate": 0.0001,
      "loss": 7.6461,
      "loss/crossentropy": 2.0102819204330444,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2197662517428398,
      "step": 2844
    },
    {
      "epoch": 0.177875,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.028564453125,
      "learning_rate": 0.0001,
      "loss": 7.8794,
      "loss/crossentropy": 2.154181718826294,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23210670053958893,
      "step": 2846
    },
    {
      "epoch": 0.178,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0362945556640625,
      "learning_rate": 0.0001,
      "loss": 7.8658,
      "loss/crossentropy": 2.0595306158065796,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26342423260211945,
      "step": 2848
    },
    {
      "epoch": 0.178125,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.03465067545572917,
      "learning_rate": 0.0001,
      "loss": 7.5678,
      "loss/crossentropy": 2.179203987121582,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22831647098064423,
      "step": 2850
    },
    {
      "epoch": 0.17825,
      "grad_norm": 2.875,
      "grad_norm_var": 0.0369781494140625,
      "learning_rate": 0.0001,
      "loss": 7.6801,
      "loss/crossentropy": 2.0674314498901367,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23797215521335602,
      "step": 2852
    },
    {
      "epoch": 0.178375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0592681884765625,
      "learning_rate": 0.0001,
      "loss": 7.9571,
      "loss/crossentropy": 2.3534988164901733,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26077476143836975,
      "step": 2854
    },
    {
      "epoch": 0.1785,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.07317708333333334,
      "learning_rate": 0.0001,
      "loss": 7.6968,
      "loss/crossentropy": 2.10899019241333,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22398869693279266,
      "step": 2856
    },
    {
      "epoch": 0.178625,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.07069905598958333,
      "learning_rate": 0.0001,
      "loss": 7.8299,
      "loss/crossentropy": 2.319381833076477,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24246351420879364,
      "step": 2858
    },
    {
      "epoch": 0.17875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.07053934733072917,
      "learning_rate": 0.0001,
      "loss": 7.6359,
      "loss/crossentropy": 2.083498954772949,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23692196607589722,
      "step": 2860
    },
    {
      "epoch": 0.178875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0753814697265625,
      "learning_rate": 0.0001,
      "loss": 7.8099,
      "loss/crossentropy": 2.1947683095932007,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24239200353622437,
      "step": 2862
    },
    {
      "epoch": 0.179,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.06674702962239583,
      "learning_rate": 0.0001,
      "loss": 7.7765,
      "loss/crossentropy": 2.209209442138672,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24729400128126144,
      "step": 2864
    },
    {
      "epoch": 0.179125,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.0657135009765625,
      "learning_rate": 0.0001,
      "loss": 7.8832,
      "loss/crossentropy": 2.3722325563430786,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24714642018079758,
      "step": 2866
    },
    {
      "epoch": 0.17925,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.07121988932291666,
      "learning_rate": 0.0001,
      "loss": 7.7811,
      "loss/crossentropy": 2.4134687185287476,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2480832040309906,
      "step": 2868
    },
    {
      "epoch": 0.179375,
      "grad_norm": 2.625,
      "grad_norm_var": 0.0347320556640625,
      "learning_rate": 0.0001,
      "loss": 7.7289,
      "loss/crossentropy": 2.2061760425567627,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23551230877637863,
      "step": 2870
    },
    {
      "epoch": 0.1795,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.030790201822916665,
      "learning_rate": 0.0001,
      "loss": 7.8462,
      "loss/crossentropy": 2.436152458190918,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2384696677327156,
      "step": 2872
    },
    {
      "epoch": 0.179625,
      "grad_norm": 2.375,
      "grad_norm_var": 0.03289388020833333,
      "learning_rate": 0.0001,
      "loss": 7.7489,
      "loss/crossentropy": 2.3130866289138794,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27254779636859894,
      "step": 2874
    },
    {
      "epoch": 0.17975,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0348052978515625,
      "learning_rate": 0.0001,
      "loss": 7.8657,
      "loss/crossentropy": 2.294617772102356,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23688946664333344,
      "step": 2876
    },
    {
      "epoch": 0.179875,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.030497233072916668,
      "learning_rate": 0.0001,
      "loss": 7.7343,
      "loss/crossentropy": 2.3553664684295654,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2647460997104645,
      "step": 2878
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.031180826822916667,
      "learning_rate": 0.0001,
      "loss": 7.7173,
      "loss/crossentropy": 2.3102493286132812,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23434799164533615,
      "step": 2880
    },
    {
      "epoch": 0.180125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.030378214518229165,
      "learning_rate": 0.0001,
      "loss": 7.7913,
      "loss/crossentropy": 2.298587918281555,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22284646332263947,
      "step": 2882
    },
    {
      "epoch": 0.18025,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.024128214518229166,
      "learning_rate": 0.0001,
      "loss": 7.6415,
      "loss/crossentropy": 2.1285579204559326,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23009717464447021,
      "step": 2884
    },
    {
      "epoch": 0.180375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.021419270833333334,
      "learning_rate": 0.0001,
      "loss": 7.7626,
      "loss/crossentropy": 2.1065726280212402,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20703819394111633,
      "step": 2886
    },
    {
      "epoch": 0.1805,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.0209625244140625,
      "learning_rate": 0.0001,
      "loss": 7.8513,
      "loss/crossentropy": 2.2261340618133545,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25797754526138306,
      "step": 2888
    },
    {
      "epoch": 0.180625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0176910400390625,
      "learning_rate": 0.0001,
      "loss": 7.8405,
      "loss/crossentropy": 2.5347334146499634,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25483807921409607,
      "step": 2890
    },
    {
      "epoch": 0.18075,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.016141764322916665,
      "learning_rate": 0.0001,
      "loss": 7.8018,
      "loss/crossentropy": 2.2389495372772217,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2264159545302391,
      "step": 2892
    },
    {
      "epoch": 0.180875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.017552693684895832,
      "learning_rate": 0.0001,
      "loss": 7.8118,
      "loss/crossentropy": 2.2665982246398926,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24241438508033752,
      "step": 2894
    },
    {
      "epoch": 0.181,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.017430623372395832,
      "learning_rate": 0.0001,
      "loss": 7.7171,
      "loss/crossentropy": 2.0678027272224426,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21813754737377167,
      "step": 2896
    },
    {
      "epoch": 0.181125,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.015034993489583334,
      "learning_rate": 0.0001,
      "loss": 7.7695,
      "loss/crossentropy": 2.3117023706436157,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23616492748260498,
      "step": 2898
    },
    {
      "epoch": 0.18125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.016434733072916666,
      "learning_rate": 0.0001,
      "loss": 7.8045,
      "loss/crossentropy": 2.30752170085907,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22399520874023438,
      "step": 2900
    },
    {
      "epoch": 0.181375,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.016022745768229166,
      "learning_rate": 0.0001,
      "loss": 8.0111,
      "loss/crossentropy": 2.441025972366333,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25707243382930756,
      "step": 2902
    },
    {
      "epoch": 0.1815,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.012848917643229167,
      "learning_rate": 0.0001,
      "loss": 7.6732,
      "loss/crossentropy": 2.146459937095642,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24353434145450592,
      "step": 2904
    },
    {
      "epoch": 0.181625,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.017609659830729166,
      "learning_rate": 0.0001,
      "loss": 7.7333,
      "loss/crossentropy": 2.4673913717269897,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2522246688604355,
      "step": 2906
    },
    {
      "epoch": 0.18175,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.0198638916015625,
      "learning_rate": 0.0001,
      "loss": 7.7385,
      "loss/crossentropy": 2.1044957637786865,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.235269233584404,
      "step": 2908
    },
    {
      "epoch": 0.181875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.022347005208333333,
      "learning_rate": 0.0001,
      "loss": 7.4037,
      "loss/crossentropy": 2.2339547872543335,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2398391216993332,
      "step": 2910
    },
    {
      "epoch": 0.182,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.0226715087890625,
      "learning_rate": 0.0001,
      "loss": 7.5718,
      "loss/crossentropy": 2.1950976848602295,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23091710358858109,
      "step": 2912
    },
    {
      "epoch": 0.182125,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.02310791015625,
      "learning_rate": 0.0001,
      "loss": 7.6153,
      "loss/crossentropy": 2.3033652305603027,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26021257042884827,
      "step": 2914
    },
    {
      "epoch": 0.18225,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.017838541666666666,
      "learning_rate": 0.0001,
      "loss": 7.8996,
      "loss/crossentropy": 2.4616453647613525,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2583332806825638,
      "step": 2916
    },
    {
      "epoch": 0.182375,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.018456013997395833,
      "learning_rate": 0.0001,
      "loss": 7.6534,
      "loss/crossentropy": 2.3851388692855835,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24298951029777527,
      "step": 2918
    },
    {
      "epoch": 0.1825,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.016890462239583334,
      "learning_rate": 0.0001,
      "loss": 7.6927,
      "loss/crossentropy": 2.409003496170044,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22873351722955704,
      "step": 2920
    },
    {
      "epoch": 0.182625,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.03720703125,
      "learning_rate": 0.0001,
      "loss": 7.7708,
      "loss/crossentropy": 2.233977437019348,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.250872403383255,
      "step": 2922
    },
    {
      "epoch": 0.18275,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.03955790201822917,
      "learning_rate": 0.0001,
      "loss": 7.8246,
      "loss/crossentropy": 2.2683684825897217,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577130198478699,
      "step": 2924
    },
    {
      "epoch": 0.182875,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.04023030598958333,
      "learning_rate": 0.0001,
      "loss": 7.7134,
      "loss/crossentropy": 2.2642526626586914,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25480280816555023,
      "step": 2926
    },
    {
      "epoch": 0.183,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.03713785807291667,
      "learning_rate": 0.0001,
      "loss": 7.8294,
      "loss/crossentropy": 2.176198959350586,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22762203961610794,
      "step": 2928
    },
    {
      "epoch": 0.183125,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.037007649739583336,
      "learning_rate": 0.0001,
      "loss": 7.7678,
      "loss/crossentropy": 2.5741217136383057,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24319174140691757,
      "step": 2930
    },
    {
      "epoch": 0.18325,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.03632405598958333,
      "learning_rate": 0.0001,
      "loss": 7.744,
      "loss/crossentropy": 2.4425946474075317,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2534085810184479,
      "step": 2932
    },
    {
      "epoch": 0.183375,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.0351470947265625,
      "learning_rate": 0.0001,
      "loss": 7.6372,
      "loss/crossentropy": 2.136154890060425,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23775418102741241,
      "step": 2934
    },
    {
      "epoch": 0.1835,
      "grad_norm": 2.5,
      "grad_norm_var": 0.035380045572916664,
      "learning_rate": 0.0001,
      "loss": 7.8286,
      "loss/crossentropy": 2.249310851097107,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24401143193244934,
      "step": 2936
    },
    {
      "epoch": 0.183625,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.018912760416666667,
      "learning_rate": 0.0001,
      "loss": 7.8273,
      "loss/crossentropy": 2.3503148555755615,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24899056553840637,
      "step": 2938
    },
    {
      "epoch": 0.18375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.012923177083333333,
      "learning_rate": 0.0001,
      "loss": 7.5477,
      "loss/crossentropy": 2.147356152534485,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24195496737957,
      "step": 2940
    },
    {
      "epoch": 0.183875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.017496744791666668,
      "learning_rate": 0.0001,
      "loss": 7.6031,
      "loss/crossentropy": 2.314660429954529,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24584651738405228,
      "step": 2942
    },
    {
      "epoch": 0.184,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.020829264322916666,
      "learning_rate": 0.0001,
      "loss": 7.6413,
      "loss/crossentropy": 2.0859320759773254,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2166888415813446,
      "step": 2944
    },
    {
      "epoch": 0.184125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.028837076822916665,
      "learning_rate": 0.0001,
      "loss": 7.7158,
      "loss/crossentropy": 2.305862069129944,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23023030161857605,
      "step": 2946
    },
    {
      "epoch": 0.18425,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.03004150390625,
      "learning_rate": 0.0001,
      "loss": 7.635,
      "loss/crossentropy": 2.345908284187317,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22712141275405884,
      "step": 2948
    },
    {
      "epoch": 0.184375,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.03779296875,
      "learning_rate": 0.0001,
      "loss": 7.7227,
      "loss/crossentropy": 1.9320513010025024,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20210829377174377,
      "step": 2950
    },
    {
      "epoch": 0.1845,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.04317118326822917,
      "learning_rate": 0.0001,
      "loss": 7.6749,
      "loss/crossentropy": 2.2975679636001587,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23657388985157013,
      "step": 2952
    },
    {
      "epoch": 0.184625,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.04095052083333333,
      "learning_rate": 0.0001,
      "loss": 7.7486,
      "loss/crossentropy": 2.2370001077651978,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24035517871379852,
      "step": 2954
    },
    {
      "epoch": 0.18475,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.046418253580729166,
      "learning_rate": 0.0001,
      "loss": 7.77,
      "loss/crossentropy": 2.3344703912734985,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24448612332344055,
      "step": 2956
    },
    {
      "epoch": 0.184875,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.0432037353515625,
      "learning_rate": 0.0001,
      "loss": 7.7287,
      "loss/crossentropy": 2.3184186220169067,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24355477839708328,
      "step": 2958
    },
    {
      "epoch": 0.185,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.04150390625,
      "learning_rate": 0.0001,
      "loss": 7.793,
      "loss/crossentropy": 2.4449312686920166,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24685372412204742,
      "step": 2960
    },
    {
      "epoch": 0.185125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0351226806640625,
      "learning_rate": 0.0001,
      "loss": 7.7295,
      "loss/crossentropy": 2.0395036935806274,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22259121388196945,
      "step": 2962
    },
    {
      "epoch": 0.18525,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.0314453125,
      "learning_rate": 0.0001,
      "loss": 7.6614,
      "loss/crossentropy": 2.029510021209717,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22326287627220154,
      "step": 2964
    },
    {
      "epoch": 0.185375,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.02506103515625,
      "learning_rate": 0.0001,
      "loss": 7.6142,
      "loss/crossentropy": 2.2890524864196777,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22059021890163422,
      "step": 2966
    },
    {
      "epoch": 0.1855,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.021434529622395834,
      "learning_rate": 0.0001,
      "loss": 7.7904,
      "loss/crossentropy": 2.2007906436920166,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22886135429143906,
      "step": 2968
    },
    {
      "epoch": 0.185625,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.016097005208333334,
      "learning_rate": 0.0001,
      "loss": 7.7165,
      "loss/crossentropy": 2.4090301990509033,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24099014699459076,
      "step": 2970
    },
    {
      "epoch": 0.18575,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.014225260416666666,
      "learning_rate": 0.0001,
      "loss": 7.7287,
      "loss/crossentropy": 2.358201503753662,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2252245992422104,
      "step": 2972
    },
    {
      "epoch": 0.185875,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.015523274739583334,
      "learning_rate": 0.0001,
      "loss": 7.623,
      "loss/crossentropy": 2.3175272941589355,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23873913288116455,
      "step": 2974
    },
    {
      "epoch": 0.186,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.0131988525390625,
      "learning_rate": 0.0001,
      "loss": 7.6915,
      "loss/crossentropy": 2.590595841407776,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24967636168003082,
      "step": 2976
    },
    {
      "epoch": 0.186125,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.015306599934895833,
      "learning_rate": 0.0001,
      "loss": 7.6723,
      "loss/crossentropy": 2.2069579362869263,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22214916348457336,
      "step": 2978
    },
    {
      "epoch": 0.18625,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.015729777018229165,
      "learning_rate": 0.0001,
      "loss": 7.8361,
      "loss/crossentropy": 2.3302581310272217,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2437615841627121,
      "step": 2980
    },
    {
      "epoch": 0.186375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.014232381184895834,
      "learning_rate": 0.0001,
      "loss": 7.6333,
      "loss/crossentropy": 2.2672786712646484,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22940023988485336,
      "step": 2982
    },
    {
      "epoch": 0.1865,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.014290364583333333,
      "learning_rate": 0.0001,
      "loss": 7.7551,
      "loss/crossentropy": 2.528477191925049,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24014821648597717,
      "step": 2984
    },
    {
      "epoch": 0.186625,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0172515869140625,
      "learning_rate": 0.0001,
      "loss": 7.6699,
      "loss/crossentropy": 2.134658455848694,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2487226352095604,
      "step": 2986
    },
    {
      "epoch": 0.18675,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0167388916015625,
      "learning_rate": 0.0001,
      "loss": 7.6979,
      "loss/crossentropy": 2.3620848655700684,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24307234585285187,
      "step": 2988
    },
    {
      "epoch": 0.186875,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.015250651041666667,
      "learning_rate": 0.0001,
      "loss": 7.7099,
      "loss/crossentropy": 2.4233195781707764,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2325136736035347,
      "step": 2990
    },
    {
      "epoch": 0.187,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.015462239583333334,
      "learning_rate": 0.0001,
      "loss": 7.6485,
      "loss/crossentropy": 2.2925750017166138,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24893249571323395,
      "step": 2992
    },
    {
      "epoch": 0.187125,
      "grad_norm": 4.125,
      "grad_norm_var": 0.16298421223958334,
      "learning_rate": 0.0001,
      "loss": 7.7527,
      "loss/crossentropy": 2.1467760801315308,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23566482961177826,
      "step": 2994
    },
    {
      "epoch": 0.18725,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.16752827962239583,
      "learning_rate": 0.0001,
      "loss": 7.7408,
      "loss/crossentropy": 2.103184461593628,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2323935329914093,
      "step": 2996
    },
    {
      "epoch": 0.187375,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.16705322265625,
      "learning_rate": 0.0001,
      "loss": 7.7494,
      "loss/crossentropy": 2.174781620502472,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25046705454587936,
      "step": 2998
    },
    {
      "epoch": 0.1875,
      "grad_norm": 2.625,
      "grad_norm_var": 0.16780192057291668,
      "learning_rate": 0.0001,
      "loss": 7.7174,
      "loss/crossentropy": 2.2673741579055786,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22653405368328094,
      "step": 3000
    },
    {
      "epoch": 0.187625,
      "grad_norm": 3.296875,
      "grad_norm_var": 0.19199117024739584,
      "learning_rate": 0.0001,
      "loss": 7.7319,
      "loss/crossentropy": 2.157706141471863,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2287752330303192,
      "step": 3002
    },
    {
      "epoch": 0.18775,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.2681223551432292,
      "learning_rate": 0.0001,
      "loss": 7.8417,
      "loss/crossentropy": 2.0640329122543335,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2371016889810562,
      "step": 3004
    },
    {
      "epoch": 0.187875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.28884989420572915,
      "learning_rate": 0.0001,
      "loss": 7.4793,
      "loss/crossentropy": 2.1649757027626038,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22954751551151276,
      "step": 3006
    },
    {
      "epoch": 0.188,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.2865397135416667,
      "learning_rate": 0.0001,
      "loss": 7.7681,
      "loss/crossentropy": 2.402653217315674,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2439199835062027,
      "step": 3008
    },
    {
      "epoch": 0.188125,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.16442057291666667,
      "learning_rate": 0.0001,
      "loss": 7.7058,
      "loss/crossentropy": 2.0360541343688965,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2370767444372177,
      "step": 3010
    },
    {
      "epoch": 0.18825,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.16503499348958334,
      "learning_rate": 0.0001,
      "loss": 7.78,
      "loss/crossentropy": 2.5376839637756348,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25698722898960114,
      "step": 3012
    },
    {
      "epoch": 0.188375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.16298421223958334,
      "learning_rate": 0.0001,
      "loss": 7.6674,
      "loss/crossentropy": 2.153092384338379,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22976408153772354,
      "step": 3014
    },
    {
      "epoch": 0.1885,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.16728413899739583,
      "learning_rate": 0.0001,
      "loss": 7.9659,
      "loss/crossentropy": 2.4408687353134155,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2630517780780792,
      "step": 3016
    },
    {
      "epoch": 0.188625,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.15907796223958334,
      "learning_rate": 0.0001,
      "loss": 7.6187,
      "loss/crossentropy": 2.1757636070251465,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2302849441766739,
      "step": 3018
    },
    {
      "epoch": 0.18875,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.03792215983072917,
      "learning_rate": 0.0001,
      "loss": 7.5604,
      "loss/crossentropy": 2.064240336418152,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22439640015363693,
      "step": 3020
    },
    {
      "epoch": 0.188875,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.03224995930989583,
      "learning_rate": 0.0001,
      "loss": 7.6954,
      "loss/crossentropy": 2.1221320629119873,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22975972294807434,
      "step": 3022
    },
    {
      "epoch": 0.189,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.023714192708333335,
      "learning_rate": 0.0001,
      "loss": 7.8211,
      "loss/crossentropy": 2.243198275566101,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2282658889889717,
      "step": 3024
    },
    {
      "epoch": 0.189125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0191558837890625,
      "learning_rate": 0.0001,
      "loss": 7.6639,
      "loss/crossentropy": 1.9989042282104492,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23544684797525406,
      "step": 3026
    },
    {
      "epoch": 0.18925,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.015510050455729167,
      "learning_rate": 0.0001,
      "loss": 7.6059,
      "loss/crossentropy": 2.0583502054214478,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22483647614717484,
      "step": 3028
    },
    {
      "epoch": 0.189375,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.019481404622395834,
      "learning_rate": 0.0001,
      "loss": 7.5609,
      "loss/crossentropy": 2.213624954223633,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23435892909765244,
      "step": 3030
    },
    {
      "epoch": 0.1895,
      "grad_norm": 2.625,
      "grad_norm_var": 0.015445963541666666,
      "learning_rate": 0.0001,
      "loss": 7.7361,
      "loss/crossentropy": 2.2522560358047485,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24112869054079056,
      "step": 3032
    },
    {
      "epoch": 0.189625,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.011865234375,
      "learning_rate": 0.0001,
      "loss": 7.9651,
      "loss/crossentropy": 2.325987696647644,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22860444337129593,
      "step": 3034
    },
    {
      "epoch": 0.18975,
      "grad_norm": 2.75,
      "grad_norm_var": 0.016649373372395835,
      "learning_rate": 0.0001,
      "loss": 7.6774,
      "loss/crossentropy": 2.292188882827759,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24093221873044968,
      "step": 3036
    },
    {
      "epoch": 0.189875,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.020677693684895835,
      "learning_rate": 0.0001,
      "loss": 7.7072,
      "loss/crossentropy": 2.1392345428466797,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2271246463060379,
      "step": 3038
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.025584920247395834,
      "learning_rate": 0.0001,
      "loss": 7.7131,
      "loss/crossentropy": 2.3634947538375854,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2574180141091347,
      "step": 3040
    },
    {
      "epoch": 0.190125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.025406901041666666,
      "learning_rate": 0.0001,
      "loss": 7.6816,
      "loss/crossentropy": 2.224321484565735,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22878948599100113,
      "step": 3042
    },
    {
      "epoch": 0.19025,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.0256500244140625,
      "learning_rate": 0.0001,
      "loss": 7.7158,
      "loss/crossentropy": 2.471584916114807,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2526979222893715,
      "step": 3044
    },
    {
      "epoch": 0.190375,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.02271728515625,
      "learning_rate": 0.0001,
      "loss": 7.4846,
      "loss/crossentropy": 2.2407480478286743,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23275888711214066,
      "step": 3046
    },
    {
      "epoch": 0.1905,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.023140462239583333,
      "learning_rate": 0.0001,
      "loss": 7.7875,
      "loss/crossentropy": 2.2426388263702393,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23194129765033722,
      "step": 3048
    },
    {
      "epoch": 0.190625,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.029488118489583333,
      "learning_rate": 0.0001,
      "loss": 7.6974,
      "loss/crossentropy": 2.3478230237960815,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24639128148555756,
      "step": 3050
    },
    {
      "epoch": 0.19075,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.030973307291666665,
      "learning_rate": 0.0001,
      "loss": 7.8786,
      "loss/crossentropy": 2.3184871673583984,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2819037437438965,
      "step": 3052
    },
    {
      "epoch": 0.190875,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.025520833333333333,
      "learning_rate": 0.0001,
      "loss": 7.6416,
      "loss/crossentropy": 2.140998363494873,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22248034179210663,
      "step": 3054
    },
    {
      "epoch": 0.191,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.024540201822916666,
      "learning_rate": 0.0001,
      "loss": 7.7976,
      "loss/crossentropy": 2.492767333984375,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2436331883072853,
      "step": 3056
    },
    {
      "epoch": 0.191125,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.026851399739583334,
      "learning_rate": 0.0001,
      "loss": 7.6777,
      "loss/crossentropy": 1.9927314519882202,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22899659723043442,
      "step": 3058
    },
    {
      "epoch": 0.19125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0286285400390625,
      "learning_rate": 0.0001,
      "loss": 7.9659,
      "loss/crossentropy": 2.2941343784332275,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24661502987146378,
      "step": 3060
    },
    {
      "epoch": 0.191375,
      "grad_norm": 2.5,
      "grad_norm_var": 0.02808837890625,
      "learning_rate": 0.0001,
      "loss": 7.8332,
      "loss/crossentropy": 2.2587934732437134,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23479507118463516,
      "step": 3062
    },
    {
      "epoch": 0.1915,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0285797119140625,
      "learning_rate": 0.0001,
      "loss": 7.7855,
      "loss/crossentropy": 2.448140263557434,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24534112215042114,
      "step": 3064
    },
    {
      "epoch": 0.191625,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.022802734375,
      "learning_rate": 0.0001,
      "loss": 7.6054,
      "loss/crossentropy": 2.5346790552139282,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2549649178981781,
      "step": 3066
    },
    {
      "epoch": 0.19175,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0201324462890625,
      "learning_rate": 0.0001,
      "loss": 7.6652,
      "loss/crossentropy": 2.139198064804077,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22500670701265335,
      "step": 3068
    },
    {
      "epoch": 0.191875,
      "grad_norm": 2.5,
      "grad_norm_var": 0.020052083333333335,
      "learning_rate": 0.0001,
      "loss": 7.6343,
      "loss/crossentropy": 2.2101441621780396,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24504300951957703,
      "step": 3070
    },
    {
      "epoch": 0.192,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.018387858072916666,
      "learning_rate": 0.0001,
      "loss": 7.8094,
      "loss/crossentropy": 2.387241005897522,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23291389644145966,
      "step": 3072
    },
    {
      "epoch": 0.192125,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.015632120768229167,
      "learning_rate": 0.0001,
      "loss": 7.657,
      "loss/crossentropy": 2.015101671218872,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2168959379196167,
      "step": 3074
    },
    {
      "epoch": 0.19225,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.016044108072916667,
      "learning_rate": 0.0001,
      "loss": 7.5738,
      "loss/crossentropy": 2.201832890510559,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25159038603305817,
      "step": 3076
    },
    {
      "epoch": 0.192375,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.017699178059895834,
      "learning_rate": 0.0001,
      "loss": 7.7274,
      "loss/crossentropy": 2.4729052782058716,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2636168450117111,
      "step": 3078
    },
    {
      "epoch": 0.1925,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.015868123372395834,
      "learning_rate": 0.0001,
      "loss": 7.4003,
      "loss/crossentropy": 2.096401810646057,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22800646722316742,
      "step": 3080
    },
    {
      "epoch": 0.192625,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.017316691080729165,
      "learning_rate": 0.0001,
      "loss": 7.5855,
      "loss/crossentropy": 2.1243752241134644,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2130807489156723,
      "step": 3082
    },
    {
      "epoch": 0.19275,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.016258748372395833,
      "learning_rate": 0.0001,
      "loss": 7.6234,
      "loss/crossentropy": 2.393889904022217,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23582585901021957,
      "step": 3084
    },
    {
      "epoch": 0.192875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0202789306640625,
      "learning_rate": 0.0001,
      "loss": 7.7359,
      "loss/crossentropy": 2.530544877052307,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23919443786144257,
      "step": 3086
    },
    {
      "epoch": 0.193,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.018895467122395832,
      "learning_rate": 0.0001,
      "loss": 7.7122,
      "loss/crossentropy": 2.14614474773407,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23280902951955795,
      "step": 3088
    },
    {
      "epoch": 0.193125,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.025519816080729167,
      "learning_rate": 0.0001,
      "loss": 7.6703,
      "loss/crossentropy": 2.1698378324508667,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23564688116312027,
      "step": 3090
    },
    {
      "epoch": 0.19325,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0282379150390625,
      "learning_rate": 0.0001,
      "loss": 7.5935,
      "loss/crossentropy": 2.2789262533187866,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23355238884687424,
      "step": 3092
    },
    {
      "epoch": 0.193375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.030013020833333334,
      "learning_rate": 0.0001,
      "loss": 7.8383,
      "loss/crossentropy": 2.548181891441345,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.242641419172287,
      "step": 3094
    },
    {
      "epoch": 0.1935,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.031525675455729166,
      "learning_rate": 0.0001,
      "loss": 7.5252,
      "loss/crossentropy": 2.34587025642395,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2449270710349083,
      "step": 3096
    },
    {
      "epoch": 0.193625,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.04414774576822917,
      "learning_rate": 0.0001,
      "loss": 7.5994,
      "loss/crossentropy": 2.2254514694213867,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2519787400960922,
      "step": 3098
    },
    {
      "epoch": 0.19375,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.060301717122395834,
      "learning_rate": 0.0001,
      "loss": 7.623,
      "loss/crossentropy": 2.3490875959396362,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24305754899978638,
      "step": 3100
    },
    {
      "epoch": 0.193875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0575836181640625,
      "learning_rate": 0.0001,
      "loss": 7.7137,
      "loss/crossentropy": 2.021351933479309,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2211918607354164,
      "step": 3102
    },
    {
      "epoch": 0.194,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.060791015625,
      "learning_rate": 0.0001,
      "loss": 7.7423,
      "loss/crossentropy": 2.1594278812408447,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.24009329080581665,
      "step": 3104
    },
    {
      "epoch": 0.194125,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.059137980143229164,
      "learning_rate": 0.0001,
      "loss": 7.7889,
      "loss/crossentropy": 2.459377884864807,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.251203328371048,
      "step": 3106
    },
    {
      "epoch": 0.19425,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.05748291015625,
      "learning_rate": 0.0001,
      "loss": 7.5124,
      "loss/crossentropy": 2.0707362294197083,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21844393759965897,
      "step": 3108
    },
    {
      "epoch": 0.194375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.101025390625,
      "learning_rate": 0.0001,
      "loss": 7.6732,
      "loss/crossentropy": 2.2419523000717163,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2376825362443924,
      "step": 3110
    },
    {
      "epoch": 0.1945,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.10181376139322916,
      "learning_rate": 0.0001,
      "loss": 7.6479,
      "loss/crossentropy": 2.3259233236312866,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25602586567401886,
      "step": 3112
    },
    {
      "epoch": 0.194625,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.0926910400390625,
      "learning_rate": 0.0001,
      "loss": 7.5447,
      "loss/crossentropy": 1.9941769242286682,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21642977744340897,
      "step": 3114
    },
    {
      "epoch": 0.19475,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.09576822916666666,
      "learning_rate": 0.0001,
      "loss": 7.8191,
      "loss/crossentropy": 2.5602025985717773,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25449611991643906,
      "step": 3116
    },
    {
      "epoch": 0.194875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.09041239420572916,
      "learning_rate": 0.0001,
      "loss": 7.8136,
      "loss/crossentropy": 2.3339617252349854,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23222877830266953,
      "step": 3118
    },
    {
      "epoch": 0.195,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.09040425618489584,
      "learning_rate": 0.0001,
      "loss": 7.7202,
      "loss/crossentropy": 2.4900479316711426,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24146823585033417,
      "step": 3120
    },
    {
      "epoch": 0.195125,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.09036356608072917,
      "learning_rate": 0.0001,
      "loss": 7.6583,
      "loss/crossentropy": 2.191547393798828,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2142081782221794,
      "step": 3122
    },
    {
      "epoch": 0.19525,
      "grad_norm": 2.375,
      "grad_norm_var": 0.090185546875,
      "learning_rate": 0.0001,
      "loss": 7.6174,
      "loss/crossentropy": 2.3771393299102783,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2471369206905365,
      "step": 3124
    },
    {
      "epoch": 0.195375,
      "grad_norm": 2.625,
      "grad_norm_var": 0.04331766764322917,
      "learning_rate": 0.0001,
      "loss": 7.5707,
      "loss/crossentropy": 2.3110562562942505,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23804593086242676,
      "step": 3126
    },
    {
      "epoch": 0.1955,
      "grad_norm": 2.5,
      "grad_norm_var": 0.040379842122395836,
      "learning_rate": 0.0001,
      "loss": 7.6465,
      "loss/crossentropy": 2.0701069831848145,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23578406125307083,
      "step": 3128
    },
    {
      "epoch": 0.195625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.038134765625,
      "learning_rate": 0.0001,
      "loss": 7.6923,
      "loss/crossentropy": 2.2268728017807007,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22668010741472244,
      "step": 3130
    },
    {
      "epoch": 0.19575,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.018724568684895835,
      "learning_rate": 0.0001,
      "loss": 7.7925,
      "loss/crossentropy": 2.288881540298462,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2400398850440979,
      "step": 3132
    },
    {
      "epoch": 0.195875,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.019310506184895833,
      "learning_rate": 0.0001,
      "loss": 7.5776,
      "loss/crossentropy": 2.3762770891189575,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24239980429410934,
      "step": 3134
    },
    {
      "epoch": 0.196,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.022037760416666666,
      "learning_rate": 0.0001,
      "loss": 7.5924,
      "loss/crossentropy": 2.0780075788497925,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2166167050600052,
      "step": 3136
    },
    {
      "epoch": 0.196125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.013505045572916667,
      "learning_rate": 0.0001,
      "loss": 7.6296,
      "loss/crossentropy": 2.2321070432662964,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.257367268204689,
      "step": 3138
    },
    {
      "epoch": 0.19625,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0124664306640625,
      "learning_rate": 0.0001,
      "loss": 7.655,
      "loss/crossentropy": 2.2101333141326904,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22183632850646973,
      "step": 3140
    },
    {
      "epoch": 0.196375,
      "grad_norm": 2.5,
      "grad_norm_var": 0.013451131184895833,
      "learning_rate": 0.0001,
      "loss": 7.7539,
      "loss/crossentropy": 2.3512450456619263,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2585148215293884,
      "step": 3142
    },
    {
      "epoch": 0.1965,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.012360636393229167,
      "learning_rate": 0.0001,
      "loss": 7.6486,
      "loss/crossentropy": 2.224077582359314,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23895263671875,
      "step": 3144
    },
    {
      "epoch": 0.196625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.01246337890625,
      "learning_rate": 0.0001,
      "loss": 7.5564,
      "loss/crossentropy": 2.1337246894836426,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2377912774682045,
      "step": 3146
    },
    {
      "epoch": 0.19675,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.017671712239583335,
      "learning_rate": 0.0001,
      "loss": 7.6371,
      "loss/crossentropy": 2.1832423210144043,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2349269688129425,
      "step": 3148
    },
    {
      "epoch": 0.196875,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0158203125,
      "learning_rate": 0.0001,
      "loss": 7.6147,
      "loss/crossentropy": 2.2364492416381836,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24817125499248505,
      "step": 3150
    },
    {
      "epoch": 0.197,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.019254557291666665,
      "learning_rate": 0.0001,
      "loss": 7.5449,
      "loss/crossentropy": 2.30988085269928,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26015302538871765,
      "step": 3152
    },
    {
      "epoch": 0.197125,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.020392862955729167,
      "learning_rate": 0.0001,
      "loss": 7.7401,
      "loss/crossentropy": 2.053266227245331,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24950231611728668,
      "step": 3154
    },
    {
      "epoch": 0.19725,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.021126302083333333,
      "learning_rate": 0.0001,
      "loss": 7.6193,
      "loss/crossentropy": 2.2058684825897217,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23218996822834015,
      "step": 3156
    },
    {
      "epoch": 0.197375,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.031148274739583332,
      "learning_rate": 0.0001,
      "loss": 7.83,
      "loss/crossentropy": 2.3524067401885986,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24826574325561523,
      "step": 3158
    },
    {
      "epoch": 0.1975,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.032079060872395836,
      "learning_rate": 0.0001,
      "loss": 7.6028,
      "loss/crossentropy": 2.124649167060852,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23834124207496643,
      "step": 3160
    },
    {
      "epoch": 0.197625,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.05683186848958333,
      "learning_rate": 0.0001,
      "loss": 7.6409,
      "loss/crossentropy": 2.170323371887207,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24094149470329285,
      "step": 3162
    },
    {
      "epoch": 0.19775,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.06315816243489583,
      "learning_rate": 0.0001,
      "loss": 7.7351,
      "loss/crossentropy": 2.340814709663391,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2378515675663948,
      "step": 3164
    },
    {
      "epoch": 0.197875,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0582672119140625,
      "learning_rate": 0.0001,
      "loss": 7.7131,
      "loss/crossentropy": 2.454757571220398,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25292622298002243,
      "step": 3166
    },
    {
      "epoch": 0.198,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.0470703125,
      "learning_rate": 0.0001,
      "loss": 7.7054,
      "loss/crossentropy": 2.3518433570861816,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2326052561402321,
      "step": 3168
    },
    {
      "epoch": 0.198125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.049103800455729166,
      "learning_rate": 0.0001,
      "loss": 7.8036,
      "loss/crossentropy": 2.3869314193725586,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2253723442554474,
      "step": 3170
    },
    {
      "epoch": 0.19825,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.05646158854166667,
      "learning_rate": 0.0001,
      "loss": 7.549,
      "loss/crossentropy": 2.1406772136688232,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2136363908648491,
      "step": 3172
    },
    {
      "epoch": 0.198375,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.050959269205729164,
      "learning_rate": 0.0001,
      "loss": 7.7547,
      "loss/crossentropy": 2.276672065258026,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2241700440645218,
      "step": 3174
    },
    {
      "epoch": 0.1985,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.056696573893229164,
      "learning_rate": 0.0001,
      "loss": 7.5706,
      "loss/crossentropy": 2.0704278349876404,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22979146987199783,
      "step": 3176
    },
    {
      "epoch": 0.198625,
      "grad_norm": 2.625,
      "grad_norm_var": 0.025178019205729166,
      "learning_rate": 0.0001,
      "loss": 7.6319,
      "loss/crossentropy": 2.155359983444214,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23411893844604492,
      "step": 3178
    },
    {
      "epoch": 0.19875,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.026708984375,
      "learning_rate": 0.0001,
      "loss": 7.6763,
      "loss/crossentropy": 2.17472767829895,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2461443468928337,
      "step": 3180
    },
    {
      "epoch": 0.198875,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.02847900390625,
      "learning_rate": 0.0001,
      "loss": 7.61,
      "loss/crossentropy": 2.401307702064514,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2419404238462448,
      "step": 3182
    },
    {
      "epoch": 0.199,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.03395894368489583,
      "learning_rate": 0.0001,
      "loss": 7.5815,
      "loss/crossentropy": 2.303532361984253,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23136408627033234,
      "step": 3184
    },
    {
      "epoch": 0.199125,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.03798726399739583,
      "learning_rate": 0.0001,
      "loss": 7.7585,
      "loss/crossentropy": 2.691552758216858,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24934251606464386,
      "step": 3186
    },
    {
      "epoch": 0.19925,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.041975911458333334,
      "learning_rate": 0.0001,
      "loss": 7.6867,
      "loss/crossentropy": 2.1433998346328735,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23058529198169708,
      "step": 3188
    },
    {
      "epoch": 0.199375,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.04368387858072917,
      "learning_rate": 0.0001,
      "loss": 7.6658,
      "loss/crossentropy": 2.075712561607361,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23563528060913086,
      "step": 3190
    },
    {
      "epoch": 0.1995,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.038849894205729166,
      "learning_rate": 0.0001,
      "loss": 7.6327,
      "loss/crossentropy": 2.239920735359192,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24973846971988678,
      "step": 3192
    },
    {
      "epoch": 0.199625,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.03837788899739583,
      "learning_rate": 0.0001,
      "loss": 7.6491,
      "loss/crossentropy": 2.2711654901504517,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2149556428194046,
      "step": 3194
    },
    {
      "epoch": 0.19975,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.033543904622395836,
      "learning_rate": 0.0001,
      "loss": 7.6259,
      "loss/crossentropy": 2.2742727994918823,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24378067255020142,
      "step": 3196
    },
    {
      "epoch": 0.199875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.03476155598958333,
      "learning_rate": 0.0001,
      "loss": 7.6477,
      "loss/crossentropy": 2.074104130268097,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22755059599876404,
      "step": 3198
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.03190816243489583,
      "learning_rate": 0.0001,
      "loss": 7.4978,
      "loss/crossentropy": 2.2103521823883057,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22538809478282928,
      "step": 3200
    },
    {
      "epoch": 0.200125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.027132161458333335,
      "learning_rate": 0.0001,
      "loss": 7.4522,
      "loss/crossentropy": 2.262304186820984,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22689391672611237,
      "step": 3202
    },
    {
      "epoch": 0.20025,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.024527994791666667,
      "learning_rate": 0.0001,
      "loss": 7.6634,
      "loss/crossentropy": 2.159933626651764,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2550048828125,
      "step": 3204
    },
    {
      "epoch": 0.200375,
      "grad_norm": 2.5,
      "grad_norm_var": 0.022847493489583332,
      "learning_rate": 0.0001,
      "loss": 7.7359,
      "loss/crossentropy": 2.2928545475006104,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2492647022008896,
      "step": 3206
    },
    {
      "epoch": 0.2005,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.022435506184895832,
      "learning_rate": 0.0001,
      "loss": 7.6104,
      "loss/crossentropy": 2.151831030845642,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21393808722496033,
      "step": 3208
    },
    {
      "epoch": 0.200625,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.022005208333333335,
      "learning_rate": 0.0001,
      "loss": 7.8164,
      "loss/crossentropy": 2.166096329689026,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23471974581480026,
      "step": 3210
    },
    {
      "epoch": 0.20075,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.018277994791666665,
      "learning_rate": 0.0001,
      "loss": 7.565,
      "loss/crossentropy": 2.181807518005371,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23415996134281158,
      "step": 3212
    },
    {
      "epoch": 0.200875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.019071451822916665,
      "learning_rate": 0.0001,
      "loss": 7.5114,
      "loss/crossentropy": 2.1912107467651367,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22295787930488586,
      "step": 3214
    },
    {
      "epoch": 0.201,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.01558837890625,
      "learning_rate": 0.0001,
      "loss": 7.4921,
      "loss/crossentropy": 2.297171950340271,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25197841227054596,
      "step": 3216
    },
    {
      "epoch": 0.201125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.015364583333333333,
      "learning_rate": 0.0001,
      "loss": 7.7764,
      "loss/crossentropy": 2.484106659889221,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2731506675481796,
      "step": 3218
    },
    {
      "epoch": 0.20125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.017975870768229166,
      "learning_rate": 0.0001,
      "loss": 7.6025,
      "loss/crossentropy": 2.156631350517273,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21255087107419968,
      "step": 3220
    },
    {
      "epoch": 0.201375,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0179351806640625,
      "learning_rate": 0.0001,
      "loss": 7.5934,
      "loss/crossentropy": 2.3413909673690796,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22059939801692963,
      "step": 3222
    },
    {
      "epoch": 0.2015,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.05054423014322917,
      "learning_rate": 0.0001,
      "loss": 7.6958,
      "loss/crossentropy": 2.313757300376892,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23688851296901703,
      "step": 3224
    },
    {
      "epoch": 0.201625,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.052643839518229166,
      "learning_rate": 0.0001,
      "loss": 7.5624,
      "loss/crossentropy": 2.3218902349472046,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23602160066366196,
      "step": 3226
    },
    {
      "epoch": 0.20175,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0511138916015625,
      "learning_rate": 0.0001,
      "loss": 7.6753,
      "loss/crossentropy": 2.6514742374420166,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2617443650960922,
      "step": 3228
    },
    {
      "epoch": 0.201875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.05115559895833333,
      "learning_rate": 0.0001,
      "loss": 7.7007,
      "loss/crossentropy": 2.27648389339447,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23478404432535172,
      "step": 3230
    },
    {
      "epoch": 0.202,
      "grad_norm": 2.75,
      "grad_norm_var": 0.05434468587239583,
      "learning_rate": 0.0001,
      "loss": 7.7911,
      "loss/crossentropy": 2.3282746076583862,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24819976091384888,
      "step": 3232
    },
    {
      "epoch": 0.202125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.05576883951822917,
      "learning_rate": 0.0001,
      "loss": 7.5815,
      "loss/crossentropy": 2.0597460865974426,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23130206763744354,
      "step": 3234
    },
    {
      "epoch": 0.20225,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.04765625,
      "learning_rate": 0.0001,
      "loss": 7.777,
      "loss/crossentropy": 2.3545076847076416,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22461315244436264,
      "step": 3236
    },
    {
      "epoch": 0.202375,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.045506795247395836,
      "learning_rate": 0.0001,
      "loss": 7.6893,
      "loss/crossentropy": 2.2642041444778442,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24759702384471893,
      "step": 3238
    },
    {
      "epoch": 0.2025,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.020438639322916667,
      "learning_rate": 0.0001,
      "loss": 7.5394,
      "loss/crossentropy": 2.405397891998291,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24760686606168747,
      "step": 3240
    },
    {
      "epoch": 0.202625,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.018050130208333334,
      "learning_rate": 0.0001,
      "loss": 7.5978,
      "loss/crossentropy": 1.8945466876029968,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20826154947280884,
      "step": 3242
    },
    {
      "epoch": 0.20275,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.018550618489583334,
      "learning_rate": 0.0001,
      "loss": 7.6012,
      "loss/crossentropy": 2.2214646339416504,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21611948311328888,
      "step": 3244
    },
    {
      "epoch": 0.202875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.01685791015625,
      "learning_rate": 0.0001,
      "loss": 7.5799,
      "loss/crossentropy": 2.41989004611969,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2531380206346512,
      "step": 3246
    },
    {
      "epoch": 0.203,
      "grad_norm": 2.75,
      "grad_norm_var": 0.016499837239583332,
      "learning_rate": 0.0001,
      "loss": 7.6609,
      "loss/crossentropy": 2.1457839012145996,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22547265142202377,
      "step": 3248
    },
    {
      "epoch": 0.203125,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.011815388997395834,
      "learning_rate": 0.0001,
      "loss": 7.6925,
      "loss/crossentropy": 2.202640414237976,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24964796006679535,
      "step": 3250
    },
    {
      "epoch": 0.20325,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.01177978515625,
      "learning_rate": 0.0001,
      "loss": 7.8597,
      "loss/crossentropy": 2.2329805493354797,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21109139919281006,
      "step": 3252
    },
    {
      "epoch": 0.203375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.013602701822916667,
      "learning_rate": 0.0001,
      "loss": 7.6793,
      "loss/crossentropy": 2.37657368183136,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22429364919662476,
      "step": 3254
    },
    {
      "epoch": 0.2035,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.013654581705729167,
      "learning_rate": 0.0001,
      "loss": 7.5988,
      "loss/crossentropy": 2.240600347518921,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24599803984165192,
      "step": 3256
    },
    {
      "epoch": 0.203625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.020670572916666668,
      "learning_rate": 0.0001,
      "loss": 7.6654,
      "loss/crossentropy": 2.5686757564544678,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.263079509139061,
      "step": 3258
    },
    {
      "epoch": 0.20375,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.023265584309895834,
      "learning_rate": 0.0001,
      "loss": 7.824,
      "loss/crossentropy": 2.150991916656494,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2586375027894974,
      "step": 3260
    },
    {
      "epoch": 0.203875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.026048787434895835,
      "learning_rate": 0.0001,
      "loss": 7.6643,
      "loss/crossentropy": 2.370198965072632,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23691494762897491,
      "step": 3262
    },
    {
      "epoch": 0.204,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.029390462239583335,
      "learning_rate": 0.0001,
      "loss": 7.5166,
      "loss/crossentropy": 2.2037036418914795,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23511488735675812,
      "step": 3264
    },
    {
      "epoch": 0.204125,
      "grad_norm": 2.625,
      "grad_norm_var": 0.032548014322916666,
      "learning_rate": 0.0001,
      "loss": 7.631,
      "loss/crossentropy": 2.2161275148391724,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22294826805591583,
      "step": 3266
    },
    {
      "epoch": 0.20425,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.06555887858072916,
      "learning_rate": 0.0001,
      "loss": 7.8449,
      "loss/crossentropy": 2.403158664703369,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24931098520755768,
      "step": 3268
    },
    {
      "epoch": 0.204375,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.06297098795572917,
      "learning_rate": 0.0001,
      "loss": 7.8327,
      "loss/crossentropy": 2.4231287240982056,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24163633584976196,
      "step": 3270
    },
    {
      "epoch": 0.2045,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.06093648274739583,
      "learning_rate": 0.0001,
      "loss": 7.4887,
      "loss/crossentropy": 2.196571111679077,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2219029664993286,
      "step": 3272
    },
    {
      "epoch": 0.204625,
      "grad_norm": 2.5,
      "grad_norm_var": 0.05232645670572917,
      "learning_rate": 0.0001,
      "loss": 7.6319,
      "loss/crossentropy": 2.336767315864563,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23825974017381668,
      "step": 3274
    },
    {
      "epoch": 0.20475,
      "grad_norm": 2.25,
      "grad_norm_var": 0.05592041015625,
      "learning_rate": 0.0001,
      "loss": 7.4521,
      "loss/crossentropy": 1.9283623099327087,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2104254812002182,
      "step": 3276
    },
    {
      "epoch": 0.204875,
      "grad_norm": 2.75,
      "grad_norm_var": 0.05458882649739583,
      "learning_rate": 0.0001,
      "loss": 7.7259,
      "loss/crossentropy": 2.250017523765564,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23542233556509018,
      "step": 3278
    },
    {
      "epoch": 0.205,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.053807576497395836,
      "learning_rate": 0.0001,
      "loss": 7.5853,
      "loss/crossentropy": 2.0355631709098816,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21646135300397873,
      "step": 3280
    },
    {
      "epoch": 0.205125,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.056761678059895834,
      "learning_rate": 0.0001,
      "loss": 7.5638,
      "loss/crossentropy": 2.1133495569229126,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2248711958527565,
      "step": 3282
    },
    {
      "epoch": 0.20525,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0180816650390625,
      "learning_rate": 0.0001,
      "loss": 7.6095,
      "loss/crossentropy": 2.4140706062316895,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22342108935117722,
      "step": 3284
    },
    {
      "epoch": 0.205375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.01802978515625,
      "learning_rate": 0.0001,
      "loss": 7.6281,
      "loss/crossentropy": 2.4801841974258423,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24090874940156937,
      "step": 3286
    },
    {
      "epoch": 0.2055,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.021122233072916666,
      "learning_rate": 0.0001,
      "loss": 7.6194,
      "loss/crossentropy": 2.333125591278076,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23281607031822205,
      "step": 3288
    },
    {
      "epoch": 0.205625,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.022443644205729165,
      "learning_rate": 0.0001,
      "loss": 7.5728,
      "loss/crossentropy": 2.057736098766327,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21230417490005493,
      "step": 3290
    },
    {
      "epoch": 0.20575,
      "grad_norm": 2.5,
      "grad_norm_var": 0.019025675455729165,
      "learning_rate": 0.0001,
      "loss": 7.5554,
      "loss/crossentropy": 2.2296417951583862,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24230563640594482,
      "step": 3292
    },
    {
      "epoch": 0.205875,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0163482666015625,
      "learning_rate": 0.0001,
      "loss": 7.5161,
      "loss/crossentropy": 2.4877594709396362,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23580122739076614,
      "step": 3294
    },
    {
      "epoch": 0.206,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.015816243489583333,
      "learning_rate": 0.0001,
      "loss": 7.6607,
      "loss/crossentropy": 2.22783100605011,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23493072390556335,
      "step": 3296
    },
    {
      "epoch": 0.206125,
      "grad_norm": 3.484375,
      "grad_norm_var": 0.06994527180989583,
      "learning_rate": 0.0001,
      "loss": 7.548,
      "loss/crossentropy": 2.177275240421295,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23492375016212463,
      "step": 3298
    },
    {
      "epoch": 0.20625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.07803446451822917,
      "learning_rate": 0.0001,
      "loss": 7.612,
      "loss/crossentropy": 2.100243628025055,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21778713911771774,
      "step": 3300
    },
    {
      "epoch": 0.206375,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.08179931640625,
      "learning_rate": 0.0001,
      "loss": 7.6651,
      "loss/crossentropy": 2.612051248550415,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.236809641122818,
      "step": 3302
    },
    {
      "epoch": 0.2065,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.10703125,
      "learning_rate": 0.0001,
      "loss": 7.7176,
      "loss/crossentropy": 2.3358840942382812,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22349786013364792,
      "step": 3304
    },
    {
      "epoch": 0.206625,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.10436197916666666,
      "learning_rate": 0.0001,
      "loss": 7.6017,
      "loss/crossentropy": 2.0664124488830566,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22234025597572327,
      "step": 3306
    },
    {
      "epoch": 0.20675,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.105126953125,
      "learning_rate": 0.0001,
      "loss": 7.7791,
      "loss/crossentropy": 2.3125079870224,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22895997017621994,
      "step": 3308
    },
    {
      "epoch": 0.206875,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.10261942545572916,
      "learning_rate": 0.0001,
      "loss": 7.761,
      "loss/crossentropy": 2.0990543365478516,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22909457981586456,
      "step": 3310
    },
    {
      "epoch": 0.207,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.11274312337239584,
      "learning_rate": 0.0001,
      "loss": 7.6989,
      "loss/crossentropy": 2.3832221031188965,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23881246894598007,
      "step": 3312
    },
    {
      "epoch": 0.207125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.053099568684895834,
      "learning_rate": 0.0001,
      "loss": 7.5829,
      "loss/crossentropy": 2.070538818836212,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22222436219453812,
      "step": 3314
    },
    {
      "epoch": 0.20725,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0491607666015625,
      "learning_rate": 0.0001,
      "loss": 7.7099,
      "loss/crossentropy": 2.0685949325561523,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.225556842982769,
      "step": 3316
    },
    {
      "epoch": 0.207375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0464752197265625,
      "learning_rate": 0.0001,
      "loss": 7.5792,
      "loss/crossentropy": 2.2039034366607666,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23356658220291138,
      "step": 3318
    },
    {
      "epoch": 0.2075,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.017772420247395834,
      "learning_rate": 0.0001,
      "loss": 7.6484,
      "loss/crossentropy": 2.520377278327942,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23397985100746155,
      "step": 3320
    },
    {
      "epoch": 0.207625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.018724568684895835,
      "learning_rate": 0.0001,
      "loss": 7.6201,
      "loss/crossentropy": 2.232245087623596,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2378198802471161,
      "step": 3322
    },
    {
      "epoch": 0.20775,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.017574055989583334,
      "learning_rate": 0.0001,
      "loss": 7.7734,
      "loss/crossentropy": 2.3666106462478638,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22776059806346893,
      "step": 3324
    },
    {
      "epoch": 0.207875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.026090494791666665,
      "learning_rate": 0.0001,
      "loss": 7.692,
      "loss/crossentropy": 2.4405359029769897,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23942655324935913,
      "step": 3326
    },
    {
      "epoch": 0.208,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.026097615559895832,
      "learning_rate": 0.0001,
      "loss": 7.4516,
      "loss/crossentropy": 2.165894627571106,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21770837903022766,
      "step": 3328
    },
    {
      "epoch": 0.208125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.026106770833333334,
      "learning_rate": 0.0001,
      "loss": 7.5851,
      "loss/crossentropy": 2.2975982427597046,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24745838344097137,
      "step": 3330
    },
    {
      "epoch": 0.20825,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0307769775390625,
      "learning_rate": 0.0001,
      "loss": 7.5979,
      "loss/crossentropy": 2.1849515438079834,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23390965163707733,
      "step": 3332
    },
    {
      "epoch": 0.208375,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.028743489583333334,
      "learning_rate": 0.0001,
      "loss": 7.7235,
      "loss/crossentropy": 2.336664915084839,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22321896255016327,
      "step": 3334
    },
    {
      "epoch": 0.2085,
      "grad_norm": 2.625,
      "grad_norm_var": 0.029752604166666665,
      "learning_rate": 0.0001,
      "loss": 7.6849,
      "loss/crossentropy": 2.4030131101608276,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24722521752119064,
      "step": 3336
    },
    {
      "epoch": 0.208625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.028348795572916665,
      "learning_rate": 0.0001,
      "loss": 7.6468,
      "loss/crossentropy": 2.451479196548462,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2548409700393677,
      "step": 3338
    },
    {
      "epoch": 0.20875,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.024079386393229166,
      "learning_rate": 0.0001,
      "loss": 7.7279,
      "loss/crossentropy": 2.391486406326294,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24848993867635727,
      "step": 3340
    },
    {
      "epoch": 0.208875,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.015412394205729167,
      "learning_rate": 0.0001,
      "loss": 7.6761,
      "loss/crossentropy": 2.242367148399353,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23639392107725143,
      "step": 3342
    },
    {
      "epoch": 0.209,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.016487630208333333,
      "learning_rate": 0.0001,
      "loss": 7.6526,
      "loss/crossentropy": 2.131048798561096,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2150106355547905,
      "step": 3344
    },
    {
      "epoch": 0.209125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0172515869140625,
      "learning_rate": 0.0001,
      "loss": 7.4834,
      "loss/crossentropy": 2.2289204597473145,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2406204640865326,
      "step": 3346
    },
    {
      "epoch": 0.20925,
      "grad_norm": 3.078125,
      "grad_norm_var": 0.04006245930989583,
      "learning_rate": 0.0001,
      "loss": 7.6395,
      "loss/crossentropy": 2.335645318031311,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2360967919230461,
      "step": 3348
    },
    {
      "epoch": 0.209375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0597076416015625,
      "learning_rate": 0.0001,
      "loss": 7.6344,
      "loss/crossentropy": 2.3322980403900146,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2533845752477646,
      "step": 3350
    },
    {
      "epoch": 0.2095,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.06763916015625,
      "learning_rate": 0.0001,
      "loss": 7.394,
      "loss/crossentropy": 2.0071592926979065,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21447932720184326,
      "step": 3352
    },
    {
      "epoch": 0.209625,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.07714436848958334,
      "learning_rate": 0.0001,
      "loss": 7.5678,
      "loss/crossentropy": 2.3756041526794434,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23200811445713043,
      "step": 3354
    },
    {
      "epoch": 0.20975,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.08035380045572917,
      "learning_rate": 0.0001,
      "loss": 7.4439,
      "loss/crossentropy": 1.9585599303245544,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19989113509655,
      "step": 3356
    },
    {
      "epoch": 0.209875,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.08413798014322917,
      "learning_rate": 0.0001,
      "loss": 7.3117,
      "loss/crossentropy": 2.1502009630203247,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22656698524951935,
      "step": 3358
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.375,
      "grad_norm_var": 0.077978515625,
      "learning_rate": 0.0001,
      "loss": 7.6045,
      "loss/crossentropy": 2.3314971923828125,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2628200501203537,
      "step": 3360
    },
    {
      "epoch": 0.210125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.07669169108072917,
      "learning_rate": 0.0001,
      "loss": 7.6801,
      "loss/crossentropy": 2.407312273979187,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2756526470184326,
      "step": 3362
    },
    {
      "epoch": 0.21025,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.06636962890625,
      "learning_rate": 0.0001,
      "loss": 7.7946,
      "loss/crossentropy": 2.308638334274292,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22128069400787354,
      "step": 3364
    },
    {
      "epoch": 0.210375,
      "grad_norm": 2.625,
      "grad_norm_var": 0.048192342122395836,
      "learning_rate": 0.0001,
      "loss": 7.4601,
      "loss/crossentropy": 2.227054715156555,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.223979651927948,
      "step": 3366
    },
    {
      "epoch": 0.2105,
      "grad_norm": 2.25,
      "grad_norm_var": 0.04175516764322917,
      "learning_rate": 0.0001,
      "loss": 7.3921,
      "loss/crossentropy": 2.1322200298309326,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25718845427036285,
      "step": 3368
    },
    {
      "epoch": 0.210625,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.03443603515625,
      "learning_rate": 0.0001,
      "loss": 7.5104,
      "loss/crossentropy": 2.1420618891716003,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2320111319422722,
      "step": 3370
    },
    {
      "epoch": 0.21075,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.03416239420572917,
      "learning_rate": 0.0001,
      "loss": 7.7232,
      "loss/crossentropy": 2.3579647541046143,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2402171939611435,
      "step": 3372
    },
    {
      "epoch": 0.210875,
      "grad_norm": 3.34375,
      "grad_norm_var": 0.07431233723958333,
      "learning_rate": 0.0001,
      "loss": 7.4416,
      "loss/crossentropy": 2.3642072677612305,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22273917496204376,
      "step": 3374
    },
    {
      "epoch": 0.211,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.07669270833333333,
      "learning_rate": 0.0001,
      "loss": 7.4455,
      "loss/crossentropy": 2.2815465927124023,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23410624265670776,
      "step": 3376
    },
    {
      "epoch": 0.211125,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.07057291666666667,
      "learning_rate": 0.0001,
      "loss": 7.5148,
      "loss/crossentropy": 2.066421687602997,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24254445731639862,
      "step": 3378
    },
    {
      "epoch": 0.21125,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.06165364583333333,
      "learning_rate": 0.0001,
      "loss": 7.5341,
      "loss/crossentropy": 2.347060441970825,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25217752158641815,
      "step": 3380
    },
    {
      "epoch": 0.211375,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.06360270182291666,
      "learning_rate": 0.0001,
      "loss": 7.7507,
      "loss/crossentropy": 2.1539812088012695,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26475973427295685,
      "step": 3382
    },
    {
      "epoch": 0.2115,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.0606353759765625,
      "learning_rate": 0.0001,
      "loss": 7.7259,
      "loss/crossentropy": 2.1600695848464966,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2167871668934822,
      "step": 3384
    },
    {
      "epoch": 0.211625,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.06337788899739584,
      "learning_rate": 0.0001,
      "loss": 7.6085,
      "loss/crossentropy": 2.286532163619995,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2332899570465088,
      "step": 3386
    },
    {
      "epoch": 0.21175,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.05858968098958333,
      "learning_rate": 0.0001,
      "loss": 7.562,
      "loss/crossentropy": 2.1641604900360107,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2164478898048401,
      "step": 3388
    },
    {
      "epoch": 0.211875,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0242095947265625,
      "learning_rate": 0.0001,
      "loss": 7.7682,
      "loss/crossentropy": 2.3409924507141113,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23107275366783142,
      "step": 3390
    },
    {
      "epoch": 0.212,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.019364420572916666,
      "learning_rate": 0.0001,
      "loss": 7.5186,
      "loss/crossentropy": 2.2500524520874023,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.213922381401062,
      "step": 3392
    },
    {
      "epoch": 0.212125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.038426717122395836,
      "learning_rate": 0.0001,
      "loss": 7.5321,
      "loss/crossentropy": 2.1275582909584045,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22479213774204254,
      "step": 3394
    },
    {
      "epoch": 0.21225,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.0404449462890625,
      "learning_rate": 0.0001,
      "loss": 7.5174,
      "loss/crossentropy": 2.212312698364258,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24751190841197968,
      "step": 3396
    },
    {
      "epoch": 0.212375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.042236328125,
      "learning_rate": 0.0001,
      "loss": 7.4043,
      "loss/crossentropy": 1.9285815954208374,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19548063725233078,
      "step": 3398
    },
    {
      "epoch": 0.2125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.0437408447265625,
      "learning_rate": 0.0001,
      "loss": 7.6525,
      "loss/crossentropy": 2.2272496223449707,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24632243812084198,
      "step": 3400
    },
    {
      "epoch": 0.212625,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.03942057291666667,
      "learning_rate": 0.0001,
      "loss": 7.6239,
      "loss/crossentropy": 2.521925210952759,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23339618742465973,
      "step": 3402
    },
    {
      "epoch": 0.21275,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.04421284993489583,
      "learning_rate": 0.0001,
      "loss": 7.5628,
      "loss/crossentropy": 2.089443802833557,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2286679819226265,
      "step": 3404
    },
    {
      "epoch": 0.212875,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.03938700358072917,
      "learning_rate": 0.0001,
      "loss": 7.6109,
      "loss/crossentropy": 2.3914257287979126,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23510746657848358,
      "step": 3406
    },
    {
      "epoch": 0.213,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.038863118489583334,
      "learning_rate": 0.0001,
      "loss": 7.456,
      "loss/crossentropy": 2.1810909509658813,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21339446306228638,
      "step": 3408
    },
    {
      "epoch": 0.213125,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.031126912434895834,
      "learning_rate": 0.0001,
      "loss": 7.6262,
      "loss/crossentropy": 2.068147301673889,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23478543758392334,
      "step": 3410
    },
    {
      "epoch": 0.21325,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.022786458333333332,
      "learning_rate": 0.0001,
      "loss": 7.6825,
      "loss/crossentropy": 2.299628734588623,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24276187270879745,
      "step": 3412
    },
    {
      "epoch": 0.213375,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.0220703125,
      "learning_rate": 0.0001,
      "loss": 7.5285,
      "loss/crossentropy": 2.539917826652527,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24582375586032867,
      "step": 3414
    },
    {
      "epoch": 0.2135,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.016039021809895835,
      "learning_rate": 0.0001,
      "loss": 7.7053,
      "loss/crossentropy": 2.2273647785186768,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24760635942220688,
      "step": 3416
    },
    {
      "epoch": 0.213625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.023143513997395834,
      "learning_rate": 0.0001,
      "loss": 7.5504,
      "loss/crossentropy": 2.0793908834457397,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20350514352321625,
      "step": 3418
    },
    {
      "epoch": 0.21375,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.030887858072916666,
      "learning_rate": 0.0001,
      "loss": 7.6719,
      "loss/crossentropy": 2.2238458395004272,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23141219466924667,
      "step": 3420
    },
    {
      "epoch": 0.213875,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.03818359375,
      "learning_rate": 0.0001,
      "loss": 7.6894,
      "loss/crossentropy": 2.2496371269226074,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24826089292764664,
      "step": 3422
    },
    {
      "epoch": 0.214,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.031083170572916666,
      "learning_rate": 0.0001,
      "loss": 7.5904,
      "loss/crossentropy": 2.2201942205429077,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22636444121599197,
      "step": 3424
    },
    {
      "epoch": 0.214125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.029117838541666666,
      "learning_rate": 0.0001,
      "loss": 7.7162,
      "loss/crossentropy": 2.387493371963501,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23339012265205383,
      "step": 3426
    },
    {
      "epoch": 0.21425,
      "grad_norm": 2.625,
      "grad_norm_var": 0.038263956705729164,
      "learning_rate": 0.0001,
      "loss": 7.4986,
      "loss/crossentropy": 2.1064809560775757,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2052219733595848,
      "step": 3428
    },
    {
      "epoch": 0.214375,
      "grad_norm": 2.5,
      "grad_norm_var": 0.043603515625,
      "learning_rate": 0.0001,
      "loss": 7.7774,
      "loss/crossentropy": 2.430534839630127,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2444680631160736,
      "step": 3430
    },
    {
      "epoch": 0.2145,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.0421539306640625,
      "learning_rate": 0.0001,
      "loss": 7.6541,
      "loss/crossentropy": 2.2829513549804688,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23072397708892822,
      "step": 3432
    },
    {
      "epoch": 0.214625,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.047215779622395836,
      "learning_rate": 0.0001,
      "loss": 7.4546,
      "loss/crossentropy": 2.240882158279419,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24445254355669022,
      "step": 3434
    },
    {
      "epoch": 0.21475,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.04260660807291667,
      "learning_rate": 0.0001,
      "loss": 7.585,
      "loss/crossentropy": 1.915956974029541,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20426518470048904,
      "step": 3436
    },
    {
      "epoch": 0.214875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.038141886393229164,
      "learning_rate": 0.0001,
      "loss": 7.6817,
      "loss/crossentropy": 2.0629988312721252,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23025204241275787,
      "step": 3438
    },
    {
      "epoch": 0.215,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0386627197265625,
      "learning_rate": 0.0001,
      "loss": 7.4915,
      "loss/crossentropy": 2.1499475240707397,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2223310023546219,
      "step": 3440
    },
    {
      "epoch": 0.215125,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0455474853515625,
      "learning_rate": 0.0001,
      "loss": 7.6482,
      "loss/crossentropy": 2.323388457298279,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23185274004936218,
      "step": 3442
    },
    {
      "epoch": 0.21525,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0388580322265625,
      "learning_rate": 0.0001,
      "loss": 7.6131,
      "loss/crossentropy": 2.4512449502944946,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2369954064488411,
      "step": 3444
    },
    {
      "epoch": 0.215375,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.032373046875,
      "learning_rate": 0.0001,
      "loss": 7.637,
      "loss/crossentropy": 2.382017970085144,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23922354727983475,
      "step": 3446
    },
    {
      "epoch": 0.2155,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.03400065104166667,
      "learning_rate": 0.0001,
      "loss": 7.5746,
      "loss/crossentropy": 2.27813720703125,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2455897182226181,
      "step": 3448
    },
    {
      "epoch": 0.215625,
      "grad_norm": 2.5,
      "grad_norm_var": 0.024247233072916666,
      "learning_rate": 0.0001,
      "loss": 7.6352,
      "loss/crossentropy": 2.0362807512283325,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24546430259943008,
      "step": 3450
    },
    {
      "epoch": 0.21575,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.019071451822916665,
      "learning_rate": 0.0001,
      "loss": 7.5596,
      "loss/crossentropy": 2.3591285943984985,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2355157434940338,
      "step": 3452
    },
    {
      "epoch": 0.215875,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.016950480143229165,
      "learning_rate": 0.0001,
      "loss": 7.4538,
      "loss/crossentropy": 2.0467506051063538,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2161174640059471,
      "step": 3454
    },
    {
      "epoch": 0.216,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.020247395833333334,
      "learning_rate": 0.0001,
      "loss": 7.744,
      "loss/crossentropy": 2.383505702018738,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23139237612485886,
      "step": 3456
    },
    {
      "epoch": 0.216125,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.007906087239583333,
      "learning_rate": 0.0001,
      "loss": 7.6497,
      "loss/crossentropy": 2.422740340232849,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2240883857011795,
      "step": 3458
    },
    {
      "epoch": 0.21625,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.0074615478515625,
      "learning_rate": 0.0001,
      "loss": 7.6628,
      "loss/crossentropy": 2.494243025779724,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2455742135643959,
      "step": 3460
    },
    {
      "epoch": 0.216375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.0082672119140625,
      "learning_rate": 0.0001,
      "loss": 7.5369,
      "loss/crossentropy": 2.1609995365142822,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2432066798210144,
      "step": 3462
    },
    {
      "epoch": 0.2165,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0080230712890625,
      "learning_rate": 0.0001,
      "loss": 7.6719,
      "loss/crossentropy": 2.152750015258789,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22096887230873108,
      "step": 3464
    },
    {
      "epoch": 0.216625,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.008275349934895834,
      "learning_rate": 0.0001,
      "loss": 7.6158,
      "loss/crossentropy": 2.2551519870758057,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22652066498994827,
      "step": 3466
    },
    {
      "epoch": 0.21675,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0111236572265625,
      "learning_rate": 0.0001,
      "loss": 7.6574,
      "loss/crossentropy": 2.2164549827575684,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23051265627145767,
      "step": 3468
    },
    {
      "epoch": 0.216875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.01197509765625,
      "learning_rate": 0.0001,
      "loss": 7.5793,
      "loss/crossentropy": 2.5120718479156494,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24404268711805344,
      "step": 3470
    },
    {
      "epoch": 0.217,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.009358723958333334,
      "learning_rate": 0.0001,
      "loss": 7.4738,
      "loss/crossentropy": 2.171375274658203,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23342353105545044,
      "step": 3472
    },
    {
      "epoch": 0.217125,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.00963134765625,
      "learning_rate": 0.0001,
      "loss": 7.6139,
      "loss/crossentropy": 2.095268964767456,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23750004172325134,
      "step": 3474
    },
    {
      "epoch": 0.21725,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.009748331705729167,
      "learning_rate": 0.0001,
      "loss": 7.6385,
      "loss/crossentropy": 2.187831997871399,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21564120054244995,
      "step": 3476
    },
    {
      "epoch": 0.217375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.010758463541666667,
      "learning_rate": 0.0001,
      "loss": 7.649,
      "loss/crossentropy": 2.339821934700012,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24484576284885406,
      "step": 3478
    },
    {
      "epoch": 0.2175,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.010188802083333334,
      "learning_rate": 0.0001,
      "loss": 7.7182,
      "loss/crossentropy": 2.085095524787903,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21802203357219696,
      "step": 3480
    },
    {
      "epoch": 0.217625,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.009748331705729167,
      "learning_rate": 0.0001,
      "loss": 7.6739,
      "loss/crossentropy": 2.4005582332611084,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22154852002859116,
      "step": 3482
    },
    {
      "epoch": 0.21775,
      "grad_norm": 4.375,
      "grad_norm_var": 0.24265034993489584,
      "learning_rate": 0.0001,
      "loss": 7.5902,
      "loss/crossentropy": 2.235607147216797,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3020609989762306,
      "step": 3484
    },
    {
      "epoch": 0.217875,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.2362457275390625,
      "learning_rate": 0.0001,
      "loss": 7.5921,
      "loss/crossentropy": 2.37876033782959,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.238236665725708,
      "step": 3486
    },
    {
      "epoch": 0.218,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.23375244140625,
      "learning_rate": 0.0001,
      "loss": 7.7093,
      "loss/crossentropy": 2.446916341781616,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2403736189007759,
      "step": 3488
    },
    {
      "epoch": 0.218125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.23952534993489583,
      "learning_rate": 0.0001,
      "loss": 7.6001,
      "loss/crossentropy": 2.703190565109253,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24328448623418808,
      "step": 3490
    },
    {
      "epoch": 0.21825,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.23860677083333334,
      "learning_rate": 0.0001,
      "loss": 7.6135,
      "loss/crossentropy": 2.266252636909485,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2304093837738037,
      "step": 3492
    },
    {
      "epoch": 0.218375,
      "grad_norm": 3.0625,
      "grad_norm_var": 0.24362691243489584,
      "learning_rate": 0.0001,
      "loss": 7.6869,
      "loss/crossentropy": 2.2512608766555786,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23177290707826614,
      "step": 3494
    },
    {
      "epoch": 0.2185,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.24628804524739584,
      "learning_rate": 0.0001,
      "loss": 7.8453,
      "loss/crossentropy": 2.3944746255874634,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22361087799072266,
      "step": 3496
    },
    {
      "epoch": 0.218625,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.25588785807291664,
      "learning_rate": 0.0001,
      "loss": 7.3925,
      "loss/crossentropy": 1.9911410212516785,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2150706946849823,
      "step": 3498
    },
    {
      "epoch": 0.21875,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.05894266764322917,
      "learning_rate": 0.0001,
      "loss": 7.6356,
      "loss/crossentropy": 2.290215253829956,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22882460057735443,
      "step": 3500
    },
    {
      "epoch": 0.218875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.07018941243489583,
      "learning_rate": 0.0001,
      "loss": 7.5163,
      "loss/crossentropy": 2.201116681098938,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20892898738384247,
      "step": 3502
    },
    {
      "epoch": 0.219,
      "grad_norm": 2.5,
      "grad_norm_var": 0.06816304524739583,
      "learning_rate": 0.0001,
      "loss": 7.7937,
      "loss/crossentropy": 2.210504412651062,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21811866015195847,
      "step": 3504
    },
    {
      "epoch": 0.219125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.06256510416666666,
      "learning_rate": 0.0001,
      "loss": 7.6281,
      "loss/crossentropy": 2.355741262435913,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23753728717565536,
      "step": 3506
    },
    {
      "epoch": 0.21925,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.06705729166666667,
      "learning_rate": 0.0001,
      "loss": 7.5304,
      "loss/crossentropy": 2.2776095867156982,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22738799452781677,
      "step": 3508
    },
    {
      "epoch": 0.219375,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.046605428059895836,
      "learning_rate": 0.0001,
      "loss": 7.5032,
      "loss/crossentropy": 2.295590400695801,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2449091300368309,
      "step": 3510
    },
    {
      "epoch": 0.2195,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.03515625,
      "learning_rate": 0.0001,
      "loss": 7.6288,
      "loss/crossentropy": 2.326041340827942,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2660403698682785,
      "step": 3512
    },
    {
      "epoch": 0.219625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.03609619140625,
      "learning_rate": 0.0001,
      "loss": 7.5858,
      "loss/crossentropy": 2.432402729988098,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25160669535398483,
      "step": 3514
    },
    {
      "epoch": 0.21975,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.038895670572916666,
      "learning_rate": 0.0001,
      "loss": 7.818,
      "loss/crossentropy": 2.349487543106079,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23811831325292587,
      "step": 3516
    },
    {
      "epoch": 0.219875,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.0508941650390625,
      "learning_rate": 0.0001,
      "loss": 7.7315,
      "loss/crossentropy": 2.3854116201400757,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24041782319545746,
      "step": 3518
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.048075358072916664,
      "learning_rate": 0.0001,
      "loss": 7.5721,
      "loss/crossentropy": 2.253451347351074,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2183404043316841,
      "step": 3520
    },
    {
      "epoch": 0.220125,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.04853108723958333,
      "learning_rate": 0.0001,
      "loss": 7.4311,
      "loss/crossentropy": 1.989369809627533,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.218755841255188,
      "step": 3522
    },
    {
      "epoch": 0.22025,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.046187337239583334,
      "learning_rate": 0.0001,
      "loss": 7.5011,
      "loss/crossentropy": 2.3954477310180664,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.254411518573761,
      "step": 3524
    },
    {
      "epoch": 0.220375,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.04576416015625,
      "learning_rate": 0.0001,
      "loss": 7.5453,
      "loss/crossentropy": 1.9688183665275574,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2124113142490387,
      "step": 3526
    },
    {
      "epoch": 0.2205,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.04296468098958333,
      "learning_rate": 0.0001,
      "loss": 7.5413,
      "loss/crossentropy": 2.304739475250244,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24053708463907242,
      "step": 3528
    },
    {
      "epoch": 0.220625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.040282185872395834,
      "learning_rate": 0.0001,
      "loss": 7.5082,
      "loss/crossentropy": 2.188236117362976,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2476644068956375,
      "step": 3530
    },
    {
      "epoch": 0.22075,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.03193257649739583,
      "learning_rate": 0.0001,
      "loss": 7.4935,
      "loss/crossentropy": 2.452435612678528,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2143031656742096,
      "step": 3532
    },
    {
      "epoch": 0.220875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.012613932291666666,
      "learning_rate": 0.0001,
      "loss": 7.4794,
      "loss/crossentropy": 2.0797160863876343,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2122730240225792,
      "step": 3534
    },
    {
      "epoch": 0.221,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.010595703125,
      "learning_rate": 0.0001,
      "loss": 7.4632,
      "loss/crossentropy": 2.4266319274902344,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2510553449392319,
      "step": 3536
    },
    {
      "epoch": 0.221125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.012450154622395833,
      "learning_rate": 0.0001,
      "loss": 7.6415,
      "loss/crossentropy": 2.059949517250061,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23185402899980545,
      "step": 3538
    },
    {
      "epoch": 0.22125,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.01265869140625,
      "learning_rate": 0.0001,
      "loss": 7.6176,
      "loss/crossentropy": 2.5653083324432373,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23594635725021362,
      "step": 3540
    },
    {
      "epoch": 0.221375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.013667805989583334,
      "learning_rate": 0.0001,
      "loss": 7.481,
      "loss/crossentropy": 2.3301087617874146,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2452377825975418,
      "step": 3542
    },
    {
      "epoch": 0.2215,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0131011962890625,
      "learning_rate": 0.0001,
      "loss": 7.5606,
      "loss/crossentropy": 2.2409706115722656,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2660795971751213,
      "step": 3544
    },
    {
      "epoch": 0.221625,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.020589192708333332,
      "learning_rate": 0.0001,
      "loss": 7.6275,
      "loss/crossentropy": 2.341962456703186,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23292769491672516,
      "step": 3546
    },
    {
      "epoch": 0.22175,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.020503743489583334,
      "learning_rate": 0.0001,
      "loss": 7.5761,
      "loss/crossentropy": 2.27796733379364,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22092991322278976,
      "step": 3548
    },
    {
      "epoch": 0.221875,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0172515869140625,
      "learning_rate": 0.0001,
      "loss": 7.5742,
      "loss/crossentropy": 2.189824938774109,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23947207629680634,
      "step": 3550
    },
    {
      "epoch": 0.222,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.017186482747395832,
      "learning_rate": 0.0001,
      "loss": 7.5813,
      "loss/crossentropy": 2.4192023277282715,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24019119888544083,
      "step": 3552
    },
    {
      "epoch": 0.222125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0127838134765625,
      "learning_rate": 0.0001,
      "loss": 7.5347,
      "loss/crossentropy": 2.158234715461731,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2341742068529129,
      "step": 3554
    },
    {
      "epoch": 0.22225,
      "grad_norm": 3.203125,
      "grad_norm_var": 0.047587076822916664,
      "learning_rate": 0.0001,
      "loss": 7.378,
      "loss/crossentropy": 2.2715145349502563,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22904645651578903,
      "step": 3556
    },
    {
      "epoch": 0.222375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.26266276041666664,
      "learning_rate": 0.0001,
      "loss": 7.6181,
      "loss/crossentropy": 2.2331241369247437,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25211699306964874,
      "step": 3558
    },
    {
      "epoch": 0.2225,
      "grad_norm": 2.375,
      "grad_norm_var": 0.2688140869140625,
      "learning_rate": 0.0001,
      "loss": 7.5199,
      "loss/crossentropy": 1.9353508949279785,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2270013615489006,
      "step": 3560
    },
    {
      "epoch": 0.222625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.27647196451822914,
      "learning_rate": 0.0001,
      "loss": 7.5403,
      "loss/crossentropy": 2.4099196195602417,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24662812799215317,
      "step": 3562
    },
    {
      "epoch": 0.22275,
      "grad_norm": 2.71875,
      "grad_norm_var": 0.27763264973958335,
      "learning_rate": 0.0001,
      "loss": 7.7591,
      "loss/crossentropy": 2.163403630256653,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22525054216384888,
      "step": 3564
    },
    {
      "epoch": 0.222875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.27356363932291666,
      "learning_rate": 0.0001,
      "loss": 7.6724,
      "loss/crossentropy": 2.3632307052612305,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.221424400806427,
      "step": 3566
    },
    {
      "epoch": 0.223,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.2787394205729167,
      "learning_rate": 0.0001,
      "loss": 7.4518,
      "loss/crossentropy": 2.079641282558441,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22443066537380219,
      "step": 3568
    },
    {
      "epoch": 0.223125,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.28662109375,
      "learning_rate": 0.0001,
      "loss": 7.5553,
      "loss/crossentropy": 2.0237990021705627,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21297388523817062,
      "step": 3570
    },
    {
      "epoch": 0.22325,
      "grad_norm": 2.625,
      "grad_norm_var": 0.26023763020833335,
      "learning_rate": 0.0001,
      "loss": 7.9066,
      "loss/crossentropy": 2.4305167198181152,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24352750182151794,
      "step": 3572
    },
    {
      "epoch": 0.223375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.03300679524739583,
      "learning_rate": 0.0001,
      "loss": 7.8042,
      "loss/crossentropy": 2.296820282936096,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23312810063362122,
      "step": 3574
    },
    {
      "epoch": 0.2235,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.029866536458333332,
      "learning_rate": 0.0001,
      "loss": 7.7462,
      "loss/crossentropy": 2.3262380361557007,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22458947449922562,
      "step": 3576
    },
    {
      "epoch": 0.223625,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.027179972330729166,
      "learning_rate": 0.0001,
      "loss": 7.6477,
      "loss/crossentropy": 2.4565069675445557,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2450973466038704,
      "step": 3578
    },
    {
      "epoch": 0.22375,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.028913370768229165,
      "learning_rate": 0.0001,
      "loss": 7.5068,
      "loss/crossentropy": 1.9984254240989685,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19529377669095993,
      "step": 3580
    },
    {
      "epoch": 0.223875,
      "grad_norm": 2.5,
      "grad_norm_var": 0.02584228515625,
      "learning_rate": 0.0001,
      "loss": 7.5913,
      "loss/crossentropy": 2.2899560928344727,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25301460921764374,
      "step": 3582
    },
    {
      "epoch": 0.224,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.026764933268229166,
      "learning_rate": 0.0001,
      "loss": 7.5833,
      "loss/crossentropy": 2.1312328577041626,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22322946041822433,
      "step": 3584
    },
    {
      "epoch": 0.224125,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.017867024739583334,
      "learning_rate": 0.0001,
      "loss": 7.6728,
      "loss/crossentropy": 2.5150551795959473,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2675798535346985,
      "step": 3586
    },
    {
      "epoch": 0.22425,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0173492431640625,
      "learning_rate": 0.0001,
      "loss": 7.5826,
      "loss/crossentropy": 2.1855462789535522,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21716494113206863,
      "step": 3588
    },
    {
      "epoch": 0.224375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0208892822265625,
      "learning_rate": 0.0001,
      "loss": 7.4135,
      "loss/crossentropy": 2.4238641262054443,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23732400685548782,
      "step": 3590
    },
    {
      "epoch": 0.2245,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.020002237955729165,
      "learning_rate": 0.0001,
      "loss": 7.5734,
      "loss/crossentropy": 2.313872456550598,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2245703637599945,
      "step": 3592
    },
    {
      "epoch": 0.224625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.017822265625,
      "learning_rate": 0.0001,
      "loss": 7.6389,
      "loss/crossentropy": 2.149410605430603,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22927816212177277,
      "step": 3594
    },
    {
      "epoch": 0.22475,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.013117472330729166,
      "learning_rate": 0.0001,
      "loss": 7.594,
      "loss/crossentropy": 2.228400468826294,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23162036389112473,
      "step": 3596
    },
    {
      "epoch": 0.224875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0120758056640625,
      "learning_rate": 0.0001,
      "loss": 7.6038,
      "loss/crossentropy": 2.181916832923889,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21812283247709274,
      "step": 3598
    },
    {
      "epoch": 0.225,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0110015869140625,
      "learning_rate": 0.0001,
      "loss": 7.7592,
      "loss/crossentropy": 2.3809478282928467,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2515050619840622,
      "step": 3600
    },
    {
      "epoch": 0.225125,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.011324055989583333,
      "learning_rate": 0.0001,
      "loss": 7.5347,
      "loss/crossentropy": 2.1800352334976196,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20716014504432678,
      "step": 3602
    },
    {
      "epoch": 0.22525,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.01744384765625,
      "learning_rate": 0.0001,
      "loss": 7.5785,
      "loss/crossentropy": 2.423554301261902,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24492305517196655,
      "step": 3604
    },
    {
      "epoch": 0.225375,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.028251139322916667,
      "learning_rate": 0.0001,
      "loss": 7.7038,
      "loss/crossentropy": 2.3537445068359375,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2731524705886841,
      "step": 3606
    },
    {
      "epoch": 0.2255,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.04365234375,
      "learning_rate": 0.0001,
      "loss": 7.7234,
      "loss/crossentropy": 2.3835121393203735,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22908172756433487,
      "step": 3608
    },
    {
      "epoch": 0.225625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.04636942545572917,
      "learning_rate": 0.0001,
      "loss": 7.6703,
      "loss/crossentropy": 2.6490813493728638,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22531013935804367,
      "step": 3610
    },
    {
      "epoch": 0.22575,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.05110575358072917,
      "learning_rate": 0.0001,
      "loss": 7.5759,
      "loss/crossentropy": 2.1871402263641357,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22304056584835052,
      "step": 3612
    },
    {
      "epoch": 0.225875,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.0443511962890625,
      "learning_rate": 0.0001,
      "loss": 7.4932,
      "loss/crossentropy": 2.2581640481948853,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24387839436531067,
      "step": 3614
    },
    {
      "epoch": 0.226,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.044489542643229164,
      "learning_rate": 0.0001,
      "loss": 7.7008,
      "loss/crossentropy": 2.2254581451416016,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22644620388746262,
      "step": 3616
    },
    {
      "epoch": 0.226125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.04413960774739583,
      "learning_rate": 0.0001,
      "loss": 7.5712,
      "loss/crossentropy": 2.0950043201446533,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24633889645338058,
      "step": 3618
    },
    {
      "epoch": 0.22625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.042292277018229164,
      "learning_rate": 0.0001,
      "loss": 7.6548,
      "loss/crossentropy": 2.2507599592208862,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22745974361896515,
      "step": 3620
    },
    {
      "epoch": 0.226375,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.032613118489583336,
      "learning_rate": 0.0001,
      "loss": 7.6329,
      "loss/crossentropy": 2.114292323589325,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22122054547071457,
      "step": 3622
    },
    {
      "epoch": 0.2265,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.011823527018229167,
      "learning_rate": 0.0001,
      "loss": 7.532,
      "loss/crossentropy": 2.210999310016632,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22689851373434067,
      "step": 3624
    },
    {
      "epoch": 0.226625,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.014583333333333334,
      "learning_rate": 0.0001,
      "loss": 7.4216,
      "loss/crossentropy": 2.5903425216674805,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22328981757164001,
      "step": 3626
    },
    {
      "epoch": 0.22675,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.01275634765625,
      "learning_rate": 0.0001,
      "loss": 7.5963,
      "loss/crossentropy": 2.3979709148406982,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2354452759027481,
      "step": 3628
    },
    {
      "epoch": 0.226875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.01240234375,
      "learning_rate": 0.0001,
      "loss": 7.4937,
      "loss/crossentropy": 2.308434844017029,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22410962730646133,
      "step": 3630
    },
    {
      "epoch": 0.227,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.01529541015625,
      "learning_rate": 0.0001,
      "loss": 7.5951,
      "loss/crossentropy": 2.4131675958633423,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24779768288135529,
      "step": 3632
    },
    {
      "epoch": 0.227125,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.024723307291666666,
      "learning_rate": 0.0001,
      "loss": 7.5681,
      "loss/crossentropy": 2.2655831575393677,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2255219966173172,
      "step": 3634
    },
    {
      "epoch": 0.22725,
      "grad_norm": 2.25,
      "grad_norm_var": 0.025487263997395832,
      "learning_rate": 0.0001,
      "loss": 7.4176,
      "loss/crossentropy": 2.3867735862731934,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24707113206386566,
      "step": 3636
    },
    {
      "epoch": 0.227375,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.022834269205729167,
      "learning_rate": 0.0001,
      "loss": 7.532,
      "loss/crossentropy": 2.3354828357696533,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2387101650238037,
      "step": 3638
    },
    {
      "epoch": 0.2275,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.022581990559895834,
      "learning_rate": 0.0001,
      "loss": 7.4607,
      "loss/crossentropy": 2.164547324180603,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21518608927726746,
      "step": 3640
    },
    {
      "epoch": 0.227625,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0202056884765625,
      "learning_rate": 0.0001,
      "loss": 7.6245,
      "loss/crossentropy": 2.3133569955825806,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2465798780322075,
      "step": 3642
    },
    {
      "epoch": 0.22775,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.02066650390625,
      "learning_rate": 0.0001,
      "loss": 7.5408,
      "loss/crossentropy": 2.3382097482681274,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22838010638952255,
      "step": 3644
    },
    {
      "epoch": 0.227875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0206695556640625,
      "learning_rate": 0.0001,
      "loss": 7.4479,
      "loss/crossentropy": 2.2210439443588257,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21334365755319595,
      "step": 3646
    },
    {
      "epoch": 0.228,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.019310506184895833,
      "learning_rate": 0.0001,
      "loss": 7.5992,
      "loss/crossentropy": 2.1229522228240967,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23556266725063324,
      "step": 3648
    },
    {
      "epoch": 0.228125,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.009129842122395834,
      "learning_rate": 0.0001,
      "loss": 7.5133,
      "loss/crossentropy": 2.335044503211975,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25041337311267853,
      "step": 3650
    },
    {
      "epoch": 0.22825,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.01851806640625,
      "learning_rate": 0.0001,
      "loss": 7.5085,
      "loss/crossentropy": 2.1980998516082764,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21712280064821243,
      "step": 3652
    },
    {
      "epoch": 0.228375,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.021100870768229165,
      "learning_rate": 0.0001,
      "loss": 7.7472,
      "loss/crossentropy": 2.513595938682556,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2537487596273422,
      "step": 3654
    },
    {
      "epoch": 0.2285,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.019722493489583333,
      "learning_rate": 0.0001,
      "loss": 7.515,
      "loss/crossentropy": 2.3871147632598877,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24276654422283173,
      "step": 3656
    },
    {
      "epoch": 0.228625,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.021703084309895832,
      "learning_rate": 0.0001,
      "loss": 7.5239,
      "loss/crossentropy": 2.449997901916504,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23972835391759872,
      "step": 3658
    },
    {
      "epoch": 0.22875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.023957316080729166,
      "learning_rate": 0.0001,
      "loss": 7.3961,
      "loss/crossentropy": 1.9787690043449402,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21979594230651855,
      "step": 3660
    },
    {
      "epoch": 0.228875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.030777994791666666,
      "learning_rate": 0.0001,
      "loss": 7.4817,
      "loss/crossentropy": 2.327951431274414,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2144240364432335,
      "step": 3662
    },
    {
      "epoch": 0.229,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.028954060872395833,
      "learning_rate": 0.0001,
      "loss": 7.4867,
      "loss/crossentropy": 2.2228533029556274,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2117415815591812,
      "step": 3664
    },
    {
      "epoch": 0.229125,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.030817667643229168,
      "learning_rate": 0.0001,
      "loss": 7.5446,
      "loss/crossentropy": 2.5074501037597656,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2416432872414589,
      "step": 3666
    },
    {
      "epoch": 0.22925,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.023502604166666666,
      "learning_rate": 0.0001,
      "loss": 7.5777,
      "loss/crossentropy": 2.1035314798355103,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21771013736724854,
      "step": 3668
    },
    {
      "epoch": 0.229375,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.026463826497395832,
      "learning_rate": 0.0001,
      "loss": 7.5223,
      "loss/crossentropy": 2.156371831893921,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2226782739162445,
      "step": 3670
    },
    {
      "epoch": 0.2295,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0279296875,
      "learning_rate": 0.0001,
      "loss": 7.5712,
      "loss/crossentropy": 2.3843045234680176,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23753250390291214,
      "step": 3672
    },
    {
      "epoch": 0.229625,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.024128214518229166,
      "learning_rate": 0.0001,
      "loss": 7.6631,
      "loss/crossentropy": 2.2664679288864136,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23596899211406708,
      "step": 3674
    },
    {
      "epoch": 0.22975,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.024051920572916666,
      "learning_rate": 0.0001,
      "loss": 7.3774,
      "loss/crossentropy": 2.0786343812942505,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21789100021123886,
      "step": 3676
    },
    {
      "epoch": 0.229875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0205230712890625,
      "learning_rate": 0.0001,
      "loss": 7.5573,
      "loss/crossentropy": 2.148313283920288,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22734209895133972,
      "step": 3678
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.019624837239583335,
      "learning_rate": 0.0001,
      "loss": 7.5015,
      "loss/crossentropy": 2.3508098125457764,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22268230468034744,
      "step": 3680
    },
    {
      "epoch": 0.230125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.018773396809895832,
      "learning_rate": 0.0001,
      "loss": 7.5282,
      "loss/crossentropy": 2.419388175010681,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2422405481338501,
      "step": 3682
    },
    {
      "epoch": 0.23025,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0137603759765625,
      "learning_rate": 0.0001,
      "loss": 7.5899,
      "loss/crossentropy": 2.2298837900161743,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21447760611772537,
      "step": 3684
    },
    {
      "epoch": 0.230375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.013605753580729166,
      "learning_rate": 0.0001,
      "loss": 7.59,
      "loss/crossentropy": 2.4269654750823975,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24916177242994308,
      "step": 3686
    },
    {
      "epoch": 0.2305,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.010431925455729166,
      "learning_rate": 0.0001,
      "loss": 7.4829,
      "loss/crossentropy": 1.9996501207351685,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23489703238010406,
      "step": 3688
    },
    {
      "epoch": 0.230625,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.014469401041666666,
      "learning_rate": 0.0001,
      "loss": 7.7753,
      "loss/crossentropy": 2.3211807012557983,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.237454354763031,
      "step": 3690
    },
    {
      "epoch": 0.23075,
      "grad_norm": 2.5,
      "grad_norm_var": 0.013277180989583333,
      "learning_rate": 0.0001,
      "loss": 7.5813,
      "loss/crossentropy": 2.1937203407287598,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2389645278453827,
      "step": 3692
    },
    {
      "epoch": 0.230875,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.01240234375,
      "learning_rate": 0.0001,
      "loss": 7.7269,
      "loss/crossentropy": 2.413442850112915,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24230879545211792,
      "step": 3694
    },
    {
      "epoch": 0.231,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.0149078369140625,
      "learning_rate": 0.0001,
      "loss": 7.5778,
      "loss/crossentropy": 2.252353072166443,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22742437571287155,
      "step": 3696
    },
    {
      "epoch": 0.231125,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.020670572916666668,
      "learning_rate": 0.0001,
      "loss": 7.6338,
      "loss/crossentropy": 2.2866071462631226,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22707533836364746,
      "step": 3698
    },
    {
      "epoch": 0.23125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.023470052083333335,
      "learning_rate": 0.0001,
      "loss": 7.4712,
      "loss/crossentropy": 1.939712941646576,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23170647770166397,
      "step": 3700
    },
    {
      "epoch": 0.231375,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.022196451822916668,
      "learning_rate": 0.0001,
      "loss": 7.5799,
      "loss/crossentropy": 1.7738837003707886,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24364864826202393,
      "step": 3702
    },
    {
      "epoch": 0.2315,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0230865478515625,
      "learning_rate": 0.0001,
      "loss": 7.5375,
      "loss/crossentropy": 2.1018226742744446,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22683311998844147,
      "step": 3704
    },
    {
      "epoch": 0.231625,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0196197509765625,
      "learning_rate": 0.0001,
      "loss": 7.6113,
      "loss/crossentropy": 2.2435100078582764,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22194090485572815,
      "step": 3706
    },
    {
      "epoch": 0.23175,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.019147745768229165,
      "learning_rate": 0.0001,
      "loss": 7.5735,
      "loss/crossentropy": 2.114552319049835,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21233541518449783,
      "step": 3708
    },
    {
      "epoch": 0.231875,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.020164998372395833,
      "learning_rate": 0.0001,
      "loss": 7.4842,
      "loss/crossentropy": 2.340905785560608,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23916912078857422,
      "step": 3710
    },
    {
      "epoch": 0.232,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.018675740559895834,
      "learning_rate": 0.0001,
      "loss": 7.5672,
      "loss/crossentropy": 2.2121574878692627,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22300127893686295,
      "step": 3712
    },
    {
      "epoch": 0.232125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.015852864583333334,
      "learning_rate": 0.0001,
      "loss": 7.5457,
      "loss/crossentropy": 2.350710391998291,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2501726374030113,
      "step": 3714
    },
    {
      "epoch": 0.23225,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.015983072916666667,
      "learning_rate": 0.0001,
      "loss": 7.5465,
      "loss/crossentropy": 2.4245604276657104,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22501108050346375,
      "step": 3716
    },
    {
      "epoch": 0.232375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.017215983072916666,
      "learning_rate": 0.0001,
      "loss": 7.6819,
      "loss/crossentropy": 2.2433913946151733,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23217583447694778,
      "step": 3718
    },
    {
      "epoch": 0.2325,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.017194620768229165,
      "learning_rate": 0.0001,
      "loss": 7.462,
      "loss/crossentropy": 2.203797459602356,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21597397327423096,
      "step": 3720
    },
    {
      "epoch": 0.232625,
      "grad_norm": 2.375,
      "grad_norm_var": 0.015653483072916665,
      "learning_rate": 0.0001,
      "loss": 7.4907,
      "loss/crossentropy": 2.274090051651001,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22629251331090927,
      "step": 3722
    },
    {
      "epoch": 0.23275,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.016402180989583334,
      "learning_rate": 0.0001,
      "loss": 7.5762,
      "loss/crossentropy": 2.1787149906158447,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21793190389871597,
      "step": 3724
    },
    {
      "epoch": 0.232875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.018001302083333334,
      "learning_rate": 0.0001,
      "loss": 7.5742,
      "loss/crossentropy": 2.472353219985962,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2537408918142319,
      "step": 3726
    },
    {
      "epoch": 0.233,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.012376912434895833,
      "learning_rate": 0.0001,
      "loss": 7.7366,
      "loss/crossentropy": 2.1297940015792847,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24158430099487305,
      "step": 3728
    },
    {
      "epoch": 0.233125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0106109619140625,
      "learning_rate": 0.0001,
      "loss": 7.5799,
      "loss/crossentropy": 2.307152509689331,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2116793394088745,
      "step": 3730
    },
    {
      "epoch": 0.23325,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.010465494791666667,
      "learning_rate": 0.0001,
      "loss": 7.4555,
      "loss/crossentropy": 1.9622553586959839,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22563175857067108,
      "step": 3732
    },
    {
      "epoch": 0.233375,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.011637369791666666,
      "learning_rate": 0.0001,
      "loss": 7.558,
      "loss/crossentropy": 2.1677664518356323,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22453109174966812,
      "step": 3734
    },
    {
      "epoch": 0.2335,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.09955952962239584,
      "learning_rate": 0.0001,
      "loss": 7.7388,
      "loss/crossentropy": 2.192821502685547,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23431353271007538,
      "step": 3736
    },
    {
      "epoch": 0.233625,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.10053609212239584,
      "learning_rate": 0.0001,
      "loss": 7.5906,
      "loss/crossentropy": 2.1779892444610596,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23049022257328033,
      "step": 3738
    },
    {
      "epoch": 0.23375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.10708719889322917,
      "learning_rate": 0.0001,
      "loss": 7.4549,
      "loss/crossentropy": 2.402343273162842,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2568327337503433,
      "step": 3740
    },
    {
      "epoch": 0.233875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.10690104166666667,
      "learning_rate": 0.0001,
      "loss": 7.5119,
      "loss/crossentropy": 2.1869853734970093,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2425551563501358,
      "step": 3742
    },
    {
      "epoch": 0.234,
      "grad_norm": 2.375,
      "grad_norm_var": 0.11015218098958333,
      "learning_rate": 0.0001,
      "loss": 7.5073,
      "loss/crossentropy": 2.2516770362854004,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2116701528429985,
      "step": 3744
    },
    {
      "epoch": 0.234125,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.11015218098958333,
      "learning_rate": 0.0001,
      "loss": 7.5986,
      "loss/crossentropy": 2.005309283733368,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20876743644475937,
      "step": 3746
    },
    {
      "epoch": 0.23425,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.10966695149739583,
      "learning_rate": 0.0001,
      "loss": 7.4817,
      "loss/crossentropy": 2.5279784202575684,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23321525007486343,
      "step": 3748
    },
    {
      "epoch": 0.234375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.11015218098958333,
      "learning_rate": 0.0001,
      "loss": 7.5474,
      "loss/crossentropy": 2.34593665599823,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23283468186855316,
      "step": 3750
    },
    {
      "epoch": 0.2345,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.024665323893229167,
      "learning_rate": 0.0001,
      "loss": 7.4105,
      "loss/crossentropy": 2.249088764190674,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24345380067825317,
      "step": 3752
    },
    {
      "epoch": 0.234625,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.01451416015625,
      "learning_rate": 0.0001,
      "loss": 7.5255,
      "loss/crossentropy": 2.2118486166000366,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2435833364725113,
      "step": 3754
    },
    {
      "epoch": 0.23475,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.017411295572916666,
      "learning_rate": 0.0001,
      "loss": 7.6165,
      "loss/crossentropy": 2.2884024381637573,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23158583790063858,
      "step": 3756
    },
    {
      "epoch": 0.234875,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.0189361572265625,
      "learning_rate": 0.0001,
      "loss": 7.7033,
      "loss/crossentropy": 2.2991076707839966,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23600934445858002,
      "step": 3758
    },
    {
      "epoch": 0.235,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.020589192708333332,
      "learning_rate": 0.0001,
      "loss": 7.4587,
      "loss/crossentropy": 2.1402446627616882,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21911373734474182,
      "step": 3760
    },
    {
      "epoch": 0.235125,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0215728759765625,
      "learning_rate": 0.0001,
      "loss": 7.6719,
      "loss/crossentropy": 2.234601616859436,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22324847429990768,
      "step": 3762
    },
    {
      "epoch": 0.23525,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.022412109375,
      "learning_rate": 0.0001,
      "loss": 7.5913,
      "loss/crossentropy": 2.2850943207740784,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22513452172279358,
      "step": 3764
    },
    {
      "epoch": 0.235375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.01890869140625,
      "learning_rate": 0.0001,
      "loss": 7.6234,
      "loss/crossentropy": 2.122738838195801,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22072789072990417,
      "step": 3766
    },
    {
      "epoch": 0.2355,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0145172119140625,
      "learning_rate": 0.0001,
      "loss": 7.5619,
      "loss/crossentropy": 2.4355037212371826,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24772146344184875,
      "step": 3768
    },
    {
      "epoch": 0.235625,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.012572224934895833,
      "learning_rate": 0.0001,
      "loss": 7.5071,
      "loss/crossentropy": 1.8801981806755066,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22862768173217773,
      "step": 3770
    },
    {
      "epoch": 0.23575,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.017650349934895834,
      "learning_rate": 0.0001,
      "loss": 7.4754,
      "loss/crossentropy": 2.2766274213790894,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2313675582408905,
      "step": 3772
    },
    {
      "epoch": 0.235875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.018610636393229168,
      "learning_rate": 0.0001,
      "loss": 7.5267,
      "loss/crossentropy": 2.0864307284355164,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2242383509874344,
      "step": 3774
    },
    {
      "epoch": 0.236,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.01572265625,
      "learning_rate": 0.0001,
      "loss": 7.4776,
      "loss/crossentropy": 2.2763630151748657,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24077893048524857,
      "step": 3776
    },
    {
      "epoch": 0.236125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.014127604166666667,
      "learning_rate": 0.0001,
      "loss": 7.5641,
      "loss/crossentropy": 2.2426193952560425,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2291230633854866,
      "step": 3778
    },
    {
      "epoch": 0.23625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.015558878580729166,
      "learning_rate": 0.0001,
      "loss": 7.4933,
      "loss/crossentropy": 2.081269860267639,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25176841020584106,
      "step": 3780
    },
    {
      "epoch": 0.236375,
      "grad_norm": 6.09375,
      "grad_norm_var": 1.8935546875,
      "learning_rate": 0.0001,
      "loss": 7.8648,
      "loss/crossentropy": 2.011550545692444,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25546982884407043,
      "step": 3782
    },
    {
      "epoch": 0.2365,
      "grad_norm": 2.59375,
      "grad_norm_var": 1.8919993082682292,
      "learning_rate": 0.0001,
      "loss": 7.9057,
      "loss/crossentropy": 2.4982590675354004,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2651009112596512,
      "step": 3784
    },
    {
      "epoch": 0.236625,
      "grad_norm": 2.71875,
      "grad_norm_var": 1.8650950113932292,
      "learning_rate": 0.0001,
      "loss": 7.6646,
      "loss/crossentropy": 2.2798246145248413,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22900397330522537,
      "step": 3786
    },
    {
      "epoch": 0.23675,
      "grad_norm": 2.390625,
      "grad_norm_var": 1.87945556640625,
      "learning_rate": 0.0001,
      "loss": 7.379,
      "loss/crossentropy": 2.03772509098053,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22353503108024597,
      "step": 3788
    },
    {
      "epoch": 0.236875,
      "grad_norm": 2.734375,
      "grad_norm_var": 1.82320556640625,
      "learning_rate": 0.0001,
      "loss": 7.4055,
      "loss/crossentropy": 2.317867159843445,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23167508840560913,
      "step": 3790
    },
    {
      "epoch": 0.237,
      "grad_norm": 2.1875,
      "grad_norm_var": 1.84205322265625,
      "learning_rate": 0.0001,
      "loss": 7.4846,
      "loss/crossentropy": 2.010311722755432,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20548687875270844,
      "step": 3792
    },
    {
      "epoch": 0.237125,
      "grad_norm": 2.359375,
      "grad_norm_var": 1.8334625244140625,
      "learning_rate": 0.0001,
      "loss": 7.5309,
      "loss/crossentropy": 2.325111150741577,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2562504708766937,
      "step": 3794
    },
    {
      "epoch": 0.23725,
      "grad_norm": 2.328125,
      "grad_norm_var": 1.8178131103515625,
      "learning_rate": 0.0001,
      "loss": 7.5873,
      "loss/crossentropy": 2.0214288234710693,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2158362790942192,
      "step": 3796
    },
    {
      "epoch": 0.237375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.1085845947265625,
      "learning_rate": 0.0001,
      "loss": 7.6152,
      "loss/crossentropy": 2.025280773639679,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2420121431350708,
      "step": 3798
    },
    {
      "epoch": 0.2375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.025788370768229166,
      "learning_rate": 0.0001,
      "loss": 7.5203,
      "loss/crossentropy": 2.2576816082000732,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24750325828790665,
      "step": 3800
    },
    {
      "epoch": 0.237625,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.019807942708333335,
      "learning_rate": 0.0001,
      "loss": 7.562,
      "loss/crossentropy": 2.4177106618881226,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2321905866265297,
      "step": 3802
    },
    {
      "epoch": 0.23775,
      "grad_norm": 2.25,
      "grad_norm_var": 0.017560831705729165,
      "learning_rate": 0.0001,
      "loss": 7.6246,
      "loss/crossentropy": 2.381041169166565,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22734872996807098,
      "step": 3804
    },
    {
      "epoch": 0.237875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.014777628580729167,
      "learning_rate": 0.0001,
      "loss": 7.2978,
      "loss/crossentropy": 2.169810175895691,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21825361251831055,
      "step": 3806
    },
    {
      "epoch": 0.238,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.01949462890625,
      "learning_rate": 0.0001,
      "loss": 7.6745,
      "loss/crossentropy": 2.2910315990448,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2431943118572235,
      "step": 3808
    },
    {
      "epoch": 0.238125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.020799763997395835,
      "learning_rate": 0.0001,
      "loss": 7.4715,
      "loss/crossentropy": 2.32381534576416,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21884576976299286,
      "step": 3810
    },
    {
      "epoch": 0.23825,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.02027587890625,
      "learning_rate": 0.0001,
      "loss": 7.626,
      "loss/crossentropy": 2.3181525468826294,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23518574982881546,
      "step": 3812
    },
    {
      "epoch": 0.238375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.021712239583333334,
      "learning_rate": 0.0001,
      "loss": 7.718,
      "loss/crossentropy": 2.4021564722061157,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22601833939552307,
      "step": 3814
    },
    {
      "epoch": 0.2385,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.026253255208333333,
      "learning_rate": 0.0001,
      "loss": 7.5776,
      "loss/crossentropy": 2.241186261177063,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22214636206626892,
      "step": 3816
    },
    {
      "epoch": 0.238625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.028076171875,
      "learning_rate": 0.0001,
      "loss": 7.4295,
      "loss/crossentropy": 2.3284627199172974,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23751358687877655,
      "step": 3818
    },
    {
      "epoch": 0.23875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.025634765625,
      "learning_rate": 0.0001,
      "loss": 7.3839,
      "loss/crossentropy": 1.878059983253479,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20184766501188278,
      "step": 3820
    },
    {
      "epoch": 0.238875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.021415201822916667,
      "learning_rate": 0.0001,
      "loss": 7.4835,
      "loss/crossentropy": 2.2008787393569946,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2629189044237137,
      "step": 3822
    },
    {
      "epoch": 0.239,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.016803995768229166,
      "learning_rate": 0.0001,
      "loss": 7.4507,
      "loss/crossentropy": 2.3513262271881104,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22654324024915695,
      "step": 3824
    },
    {
      "epoch": 0.239125,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0198638916015625,
      "learning_rate": 0.0001,
      "loss": 7.4914,
      "loss/crossentropy": 2.05319607257843,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21194881200790405,
      "step": 3826
    },
    {
      "epoch": 0.23925,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.020882161458333333,
      "learning_rate": 0.0001,
      "loss": 7.4726,
      "loss/crossentropy": 2.274933695793152,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24475091695785522,
      "step": 3828
    },
    {
      "epoch": 0.239375,
      "grad_norm": 2.625,
      "grad_norm_var": 0.02076416015625,
      "learning_rate": 0.0001,
      "loss": 7.4758,
      "loss/crossentropy": 2.2083067893981934,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21219877898693085,
      "step": 3830
    },
    {
      "epoch": 0.2395,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0187164306640625,
      "learning_rate": 0.0001,
      "loss": 7.6724,
      "loss/crossentropy": 2.3150436878204346,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2536996081471443,
      "step": 3832
    },
    {
      "epoch": 0.239625,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.014557902018229167,
      "learning_rate": 0.0001,
      "loss": 7.569,
      "loss/crossentropy": 2.2580004930496216,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21672644466161728,
      "step": 3834
    },
    {
      "epoch": 0.23975,
      "grad_norm": 2.375,
      "grad_norm_var": 0.014354451497395834,
      "learning_rate": 0.0001,
      "loss": 7.5683,
      "loss/crossentropy": 2.080252170562744,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22742826491594315,
      "step": 3836
    },
    {
      "epoch": 0.239875,
      "grad_norm": 2.375,
      "grad_norm_var": 0.014774576822916666,
      "learning_rate": 0.0001,
      "loss": 7.3651,
      "loss/crossentropy": 2.1281388998031616,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2401324361562729,
      "step": 3838
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.03736572265625,
      "learning_rate": 0.0001,
      "loss": 7.5007,
      "loss/crossentropy": 2.2224199771881104,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23487379401922226,
      "step": 3840
    },
    {
      "epoch": 0.240125,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.04025065104166667,
      "learning_rate": 0.0001,
      "loss": 7.632,
      "loss/crossentropy": 2.424517512321472,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24695612490177155,
      "step": 3842
    },
    {
      "epoch": 0.24025,
      "grad_norm": 2.75,
      "grad_norm_var": 0.04254557291666667,
      "learning_rate": 0.0001,
      "loss": 7.5674,
      "loss/crossentropy": 2.1599162220954895,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21321508288383484,
      "step": 3844
    },
    {
      "epoch": 0.240375,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.0422271728515625,
      "learning_rate": 0.0001,
      "loss": 7.6312,
      "loss/crossentropy": 2.0522512793540955,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21054793149232864,
      "step": 3846
    },
    {
      "epoch": 0.2405,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.04182840983072917,
      "learning_rate": 0.0001,
      "loss": 7.6148,
      "loss/crossentropy": 2.3739218711853027,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24357128143310547,
      "step": 3848
    },
    {
      "epoch": 0.240625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.050309244791666666,
      "learning_rate": 0.0001,
      "loss": 7.4666,
      "loss/crossentropy": 2.1554529666900635,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21792703121900558,
      "step": 3850
    },
    {
      "epoch": 0.24075,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.05252278645833333,
      "learning_rate": 0.0001,
      "loss": 7.5105,
      "loss/crossentropy": 2.5243422985076904,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23979288339614868,
      "step": 3852
    },
    {
      "epoch": 0.240875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.054032389322916666,
      "learning_rate": 0.0001,
      "loss": 7.6535,
      "loss/crossentropy": 2.169221580028534,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21038363128900528,
      "step": 3854
    },
    {
      "epoch": 0.241,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0281158447265625,
      "learning_rate": 0.0001,
      "loss": 7.4283,
      "loss/crossentropy": 2.375051498413086,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24313046038150787,
      "step": 3856
    },
    {
      "epoch": 0.241125,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.027339680989583334,
      "learning_rate": 0.0001,
      "loss": 7.5168,
      "loss/crossentropy": 2.504861831665039,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2226250097155571,
      "step": 3858
    },
    {
      "epoch": 0.24125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.022347005208333333,
      "learning_rate": 0.0001,
      "loss": 7.4035,
      "loss/crossentropy": 2.188872456550598,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22465746104717255,
      "step": 3860
    },
    {
      "epoch": 0.241375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.018831380208333335,
      "learning_rate": 0.0001,
      "loss": 7.4832,
      "loss/crossentropy": 2.109761595726013,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21876226365566254,
      "step": 3862
    },
    {
      "epoch": 0.2415,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0161041259765625,
      "learning_rate": 0.0001,
      "loss": 7.4889,
      "loss/crossentropy": 2.454153060913086,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2234111726284027,
      "step": 3864
    },
    {
      "epoch": 0.241625,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0175445556640625,
      "learning_rate": 0.0001,
      "loss": 7.5401,
      "loss/crossentropy": 2.2534934282302856,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20882034301757812,
      "step": 3866
    },
    {
      "epoch": 0.24175,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01861572265625,
      "learning_rate": 0.0001,
      "loss": 7.3884,
      "loss/crossentropy": 2.46646249294281,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23306798189878464,
      "step": 3868
    },
    {
      "epoch": 0.241875,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.01939697265625,
      "learning_rate": 0.0001,
      "loss": 7.4742,
      "loss/crossentropy": 2.286616086959839,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23071034252643585,
      "step": 3870
    },
    {
      "epoch": 0.242,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.020002237955729165,
      "learning_rate": 0.0001,
      "loss": 7.4734,
      "loss/crossentropy": 2.3127135038375854,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2306494191288948,
      "step": 3872
    },
    {
      "epoch": 0.242125,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.018636067708333332,
      "learning_rate": 0.0001,
      "loss": 7.3801,
      "loss/crossentropy": 2.292248845100403,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21103744953870773,
      "step": 3874
    },
    {
      "epoch": 0.24225,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.020799763997395835,
      "learning_rate": 0.0001,
      "loss": 7.7475,
      "loss/crossentropy": 2.2768986225128174,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25374574959278107,
      "step": 3876
    },
    {
      "epoch": 0.242375,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.02554931640625,
      "learning_rate": 0.0001,
      "loss": 7.4706,
      "loss/crossentropy": 2.335216999053955,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2206215113401413,
      "step": 3878
    },
    {
      "epoch": 0.2425,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.027098592122395834,
      "learning_rate": 0.0001,
      "loss": 7.6204,
      "loss/crossentropy": 2.3161808252334595,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23353615403175354,
      "step": 3880
    },
    {
      "epoch": 0.242625,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.024853515625,
      "learning_rate": 0.0001,
      "loss": 7.4924,
      "loss/crossentropy": 2.1703152656555176,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23688945174217224,
      "step": 3882
    },
    {
      "epoch": 0.24275,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.027176920572916666,
      "learning_rate": 0.0001,
      "loss": 7.529,
      "loss/crossentropy": 2.342598557472229,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21841312944889069,
      "step": 3884
    },
    {
      "epoch": 0.242875,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.09791259765625,
      "learning_rate": 0.0001,
      "loss": 7.3372,
      "loss/crossentropy": 2.1650543808937073,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22078751772642136,
      "step": 3886
    },
    {
      "epoch": 0.243,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.11746419270833333,
      "learning_rate": 0.0001,
      "loss": 7.4851,
      "loss/crossentropy": 1.997887134552002,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21081900596618652,
      "step": 3888
    },
    {
      "epoch": 0.243125,
      "grad_norm": 2.5,
      "grad_norm_var": 0.11201070149739584,
      "learning_rate": 0.0001,
      "loss": 7.6291,
      "loss/crossentropy": 2.2321996688842773,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22545063495635986,
      "step": 3890
    },
    {
      "epoch": 0.24325,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.11261393229166666,
      "learning_rate": 0.0001,
      "loss": 7.5623,
      "loss/crossentropy": 2.522809147834778,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24426687508821487,
      "step": 3892
    },
    {
      "epoch": 0.243375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.11669921875,
      "learning_rate": 0.0001,
      "loss": 7.4586,
      "loss/crossentropy": 2.3665112257003784,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.253150999546051,
      "step": 3894
    },
    {
      "epoch": 0.2435,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.11687825520833334,
      "learning_rate": 0.0001,
      "loss": 7.5531,
      "loss/crossentropy": 2.4039018154144287,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22742793709039688,
      "step": 3896
    },
    {
      "epoch": 0.243625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.1285552978515625,
      "learning_rate": 0.0001,
      "loss": 7.5957,
      "loss/crossentropy": 2.3447670936584473,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2258382812142372,
      "step": 3898
    },
    {
      "epoch": 0.24375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.12775065104166666,
      "learning_rate": 0.0001,
      "loss": 7.3161,
      "loss/crossentropy": 2.020743668079376,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2295529618859291,
      "step": 3900
    },
    {
      "epoch": 0.243875,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.045685831705729166,
      "learning_rate": 0.0001,
      "loss": 7.4793,
      "loss/crossentropy": 2.0840115547180176,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21463429182767868,
      "step": 3902
    },
    {
      "epoch": 0.244,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.03689778645833333,
      "learning_rate": 0.0001,
      "loss": 7.7833,
      "loss/crossentropy": 2.3722068071365356,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22333616763353348,
      "step": 3904
    },
    {
      "epoch": 0.244125,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.038605753580729166,
      "learning_rate": 0.0001,
      "loss": 7.4049,
      "loss/crossentropy": 2.5307204723358154,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23095162957906723,
      "step": 3906
    },
    {
      "epoch": 0.24425,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.036554972330729164,
      "learning_rate": 0.0001,
      "loss": 7.5943,
      "loss/crossentropy": 2.427748680114746,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2420305386185646,
      "step": 3908
    },
    {
      "epoch": 0.244375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.033984375,
      "learning_rate": 0.0001,
      "loss": 7.5523,
      "loss/crossentropy": 2.3058314323425293,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25578539073467255,
      "step": 3910
    },
    {
      "epoch": 0.2445,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0274566650390625,
      "learning_rate": 0.0001,
      "loss": 7.2921,
      "loss/crossentropy": 1.9724953174591064,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19885031133890152,
      "step": 3912
    },
    {
      "epoch": 0.244625,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.020406087239583332,
      "learning_rate": 0.0001,
      "loss": 7.6238,
      "loss/crossentropy": 2.1780654191970825,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2180589661002159,
      "step": 3914
    },
    {
      "epoch": 0.24475,
      "grad_norm": 2.375,
      "grad_norm_var": 0.017455037434895834,
      "learning_rate": 0.0001,
      "loss": 7.4598,
      "loss/crossentropy": 2.246911883354187,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22257865220308304,
      "step": 3916
    },
    {
      "epoch": 0.244875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.01953125,
      "learning_rate": 0.0001,
      "loss": 7.5233,
      "loss/crossentropy": 2.1807644367218018,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23529939353466034,
      "step": 3918
    },
    {
      "epoch": 0.245,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.015241495768229167,
      "learning_rate": 0.0001,
      "loss": 7.6941,
      "loss/crossentropy": 2.4168232679367065,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.24450047314167023,
      "step": 3920
    },
    {
      "epoch": 0.245125,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.015836588541666665,
      "learning_rate": 0.0001,
      "loss": 7.3875,
      "loss/crossentropy": 2.1456319093704224,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22022899985313416,
      "step": 3922
    },
    {
      "epoch": 0.24525,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.017183430989583335,
      "learning_rate": 0.0001,
      "loss": 7.5178,
      "loss/crossentropy": 2.1945712566375732,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23692822456359863,
      "step": 3924
    },
    {
      "epoch": 0.245375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.017943318684895834,
      "learning_rate": 0.0001,
      "loss": 7.5715,
      "loss/crossentropy": 2.334246516227722,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24413339793682098,
      "step": 3926
    },
    {
      "epoch": 0.2455,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.01416015625,
      "learning_rate": 0.0001,
      "loss": 7.4425,
      "loss/crossentropy": 2.052259385585785,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21555544435977936,
      "step": 3928
    },
    {
      "epoch": 0.245625,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.0144195556640625,
      "learning_rate": 0.0001,
      "loss": 7.6389,
      "loss/crossentropy": 2.4917489290237427,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24890758097171783,
      "step": 3930
    },
    {
      "epoch": 0.24575,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.015250651041666667,
      "learning_rate": 0.0001,
      "loss": 7.5094,
      "loss/crossentropy": 2.3055362701416016,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2225131392478943,
      "step": 3932
    },
    {
      "epoch": 0.245875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.013472493489583333,
      "learning_rate": 0.0001,
      "loss": 7.4905,
      "loss/crossentropy": 2.1624478101730347,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2125004380941391,
      "step": 3934
    },
    {
      "epoch": 0.246,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.013997395833333334,
      "learning_rate": 0.0001,
      "loss": 7.4723,
      "loss/crossentropy": 2.408942222595215,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23912448436021805,
      "step": 3936
    },
    {
      "epoch": 0.246125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.012760416666666666,
      "learning_rate": 0.0001,
      "loss": 7.2563,
      "loss/crossentropy": 2.1905765533447266,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22357414662837982,
      "step": 3938
    },
    {
      "epoch": 0.24625,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0129547119140625,
      "learning_rate": 0.0001,
      "loss": 7.4517,
      "loss/crossentropy": 2.3154603242874146,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23004180938005447,
      "step": 3940
    },
    {
      "epoch": 0.246375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.011620076497395833,
      "learning_rate": 0.0001,
      "loss": 7.4689,
      "loss/crossentropy": 2.5023341178894043,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24651438742876053,
      "step": 3942
    },
    {
      "epoch": 0.2465,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.01148681640625,
      "learning_rate": 0.0001,
      "loss": 7.4688,
      "loss/crossentropy": 2.0356882214546204,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20058569312095642,
      "step": 3944
    },
    {
      "epoch": 0.246625,
      "grad_norm": 2.5,
      "grad_norm_var": 0.010791015625,
      "learning_rate": 0.0001,
      "loss": 7.5573,
      "loss/crossentropy": 2.4191837310791016,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23377195000648499,
      "step": 3946
    },
    {
      "epoch": 0.24675,
      "grad_norm": 2.5,
      "grad_norm_var": 0.010628255208333333,
      "learning_rate": 0.0001,
      "loss": 7.6407,
      "loss/crossentropy": 2.3417128324508667,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22980307787656784,
      "step": 3948
    },
    {
      "epoch": 0.246875,
      "grad_norm": 2.5,
      "grad_norm_var": 0.014143880208333333,
      "learning_rate": 0.0001,
      "loss": 7.5853,
      "loss/crossentropy": 2.3083345890045166,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23690129816532135,
      "step": 3950
    },
    {
      "epoch": 0.247,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.017389933268229168,
      "learning_rate": 0.0001,
      "loss": 7.5956,
      "loss/crossentropy": 2.456955909729004,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2354580983519554,
      "step": 3952
    },
    {
      "epoch": 0.247125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.015055338541666666,
      "learning_rate": 0.0001,
      "loss": 7.4467,
      "loss/crossentropy": 2.162124276161194,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23025665432214737,
      "step": 3954
    },
    {
      "epoch": 0.24725,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.013337198893229167,
      "learning_rate": 0.0001,
      "loss": 7.4083,
      "loss/crossentropy": 2.203832507133484,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21881967037916183,
      "step": 3956
    },
    {
      "epoch": 0.247375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.012848917643229167,
      "learning_rate": 0.0001,
      "loss": 7.4759,
      "loss/crossentropy": 2.226723313331604,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22026114910840988,
      "step": 3958
    },
    {
      "epoch": 0.2475,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.012678019205729167,
      "learning_rate": 0.0001,
      "loss": 7.476,
      "loss/crossentropy": 2.3727807998657227,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.247600257396698,
      "step": 3960
    },
    {
      "epoch": 0.247625,
      "grad_norm": 2.375,
      "grad_norm_var": 0.012105305989583334,
      "learning_rate": 0.0001,
      "loss": 7.483,
      "loss/crossentropy": 2.2924267053604126,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2366592362523079,
      "step": 3962
    },
    {
      "epoch": 0.24775,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.013654581705729167,
      "learning_rate": 0.0001,
      "loss": 7.3951,
      "loss/crossentropy": 2.0975323915481567,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2243112102150917,
      "step": 3964
    },
    {
      "epoch": 0.247875,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.010553995768229166,
      "learning_rate": 0.0001,
      "loss": 7.3489,
      "loss/crossentropy": 2.21097195148468,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2190333753824234,
      "step": 3966
    },
    {
      "epoch": 0.248,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.007840983072916667,
      "learning_rate": 0.0001,
      "loss": 7.4721,
      "loss/crossentropy": 2.2507461309432983,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23200294375419617,
      "step": 3968
    },
    {
      "epoch": 0.248125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0075592041015625,
      "learning_rate": 0.0001,
      "loss": 7.4843,
      "loss/crossentropy": 2.191147208213806,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23013149946928024,
      "step": 3970
    },
    {
      "epoch": 0.24825,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.00748291015625,
      "learning_rate": 0.0001,
      "loss": 7.5614,
      "loss/crossentropy": 2.4555280208587646,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2434312105178833,
      "step": 3972
    },
    {
      "epoch": 0.248375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.007157389322916667,
      "learning_rate": 0.0001,
      "loss": 7.4256,
      "loss/crossentropy": 2.2261093854904175,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23195409029722214,
      "step": 3974
    },
    {
      "epoch": 0.2485,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.009528605143229167,
      "learning_rate": 0.0001,
      "loss": 7.4072,
      "loss/crossentropy": 2.1353044509887695,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21157176792621613,
      "step": 3976
    },
    {
      "epoch": 0.248625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0131988525390625,
      "learning_rate": 0.0001,
      "loss": 7.3719,
      "loss/crossentropy": 2.145276427268982,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21788546442985535,
      "step": 3978
    },
    {
      "epoch": 0.24875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0127105712890625,
      "learning_rate": 0.0001,
      "loss": 7.4473,
      "loss/crossentropy": 2.37498140335083,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21876709163188934,
      "step": 3980
    },
    {
      "epoch": 0.248875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.01724853515625,
      "learning_rate": 0.0001,
      "loss": 7.589,
      "loss/crossentropy": 2.432854413986206,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2542262375354767,
      "step": 3982
    },
    {
      "epoch": 0.249,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0197418212890625,
      "learning_rate": 0.0001,
      "loss": 7.5591,
      "loss/crossentropy": 2.451367735862732,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22828736156225204,
      "step": 3984
    },
    {
      "epoch": 0.249125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0188629150390625,
      "learning_rate": 0.0001,
      "loss": 7.4799,
      "loss/crossentropy": 2.2237168550491333,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23009125888347626,
      "step": 3986
    },
    {
      "epoch": 0.24925,
      "grad_norm": 2.25,
      "grad_norm_var": 0.020703125,
      "learning_rate": 0.0001,
      "loss": 7.6225,
      "loss/crossentropy": 2.0535144805908203,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22887953370809555,
      "step": 3988
    },
    {
      "epoch": 0.249375,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.0243804931640625,
      "learning_rate": 0.0001,
      "loss": 7.2587,
      "loss/crossentropy": 2.1713778972625732,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20236970484256744,
      "step": 3990
    },
    {
      "epoch": 0.2495,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.029539998372395834,
      "learning_rate": 0.0001,
      "loss": 7.5803,
      "loss/crossentropy": 2.314449429512024,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2168670818209648,
      "step": 3992
    },
    {
      "epoch": 0.249625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0293121337890625,
      "learning_rate": 0.0001,
      "loss": 7.5327,
      "loss/crossentropy": 2.2450716495513916,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23649980127811432,
      "step": 3994
    },
    {
      "epoch": 0.24975,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.029488118489583333,
      "learning_rate": 0.0001,
      "loss": 7.3866,
      "loss/crossentropy": 2.172006130218506,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21691139042377472,
      "step": 3996
    },
    {
      "epoch": 0.249875,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.025321451822916667,
      "learning_rate": 0.0001,
      "loss": 7.4429,
      "loss/crossentropy": 2.230931878089905,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2391601949930191,
      "step": 3998
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.0368316650390625,
      "learning_rate": 0.0001,
      "loss": 7.4992,
      "loss/crossentropy": 2.2851897478103638,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2219674438238144,
      "step": 4000
    },
    {
      "epoch": 0.250125,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.03642578125,
      "learning_rate": 0.0001,
      "loss": 7.6042,
      "loss/crossentropy": 2.118333578109741,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23840918391942978,
      "step": 4002
    },
    {
      "epoch": 0.25025,
      "grad_norm": 2.375,
      "grad_norm_var": 0.03258056640625,
      "learning_rate": 0.0001,
      "loss": 7.5683,
      "loss/crossentropy": 2.031722903251648,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21818936616182327,
      "step": 4004
    },
    {
      "epoch": 0.250375,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.03168843587239583,
      "learning_rate": 0.0001,
      "loss": 7.4845,
      "loss/crossentropy": 2.4262243509292603,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24300269782543182,
      "step": 4006
    },
    {
      "epoch": 0.2505,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.024299112955729167,
      "learning_rate": 0.0001,
      "loss": 7.7033,
      "loss/crossentropy": 2.167011022567749,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23807096481323242,
      "step": 4008
    },
    {
      "epoch": 0.250625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.02398681640625,
      "learning_rate": 0.0001,
      "loss": 7.532,
      "loss/crossentropy": 2.434093475341797,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22854039818048477,
      "step": 4010
    },
    {
      "epoch": 0.25075,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.030745442708333334,
      "learning_rate": 0.0001,
      "loss": 7.3823,
      "loss/crossentropy": 2.121519684791565,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22766801714897156,
      "step": 4012
    },
    {
      "epoch": 0.250875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.027880859375,
      "learning_rate": 0.0001,
      "loss": 7.4289,
      "loss/crossentropy": 2.2950530648231506,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24578213691711426,
      "step": 4014
    },
    {
      "epoch": 0.251,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.020589192708333332,
      "learning_rate": 0.0001,
      "loss": 7.5219,
      "loss/crossentropy": 2.3839573860168457,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21992743760347366,
      "step": 4016
    },
    {
      "epoch": 0.251125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.022321573893229165,
      "learning_rate": 0.0001,
      "loss": 7.5561,
      "loss/crossentropy": 2.4837042093276978,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23451413959264755,
      "step": 4018
    },
    {
      "epoch": 0.25125,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.0230133056640625,
      "learning_rate": 0.0001,
      "loss": 7.5998,
      "loss/crossentropy": 2.4655433893203735,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2359592318534851,
      "step": 4020
    },
    {
      "epoch": 0.251375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0247711181640625,
      "learning_rate": 0.0001,
      "loss": 7.3372,
      "loss/crossentropy": 2.121498227119446,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2136445865035057,
      "step": 4022
    },
    {
      "epoch": 0.2515,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.039549763997395834,
      "learning_rate": 0.0001,
      "loss": 7.4977,
      "loss/crossentropy": 2.208828091621399,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22217834740877151,
      "step": 4024
    },
    {
      "epoch": 0.251625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.06523030598958333,
      "learning_rate": 0.0001,
      "loss": 7.6357,
      "loss/crossentropy": 2.191303014755249,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25364626944065094,
      "step": 4026
    },
    {
      "epoch": 0.25175,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.06326497395833333,
      "learning_rate": 0.0001,
      "loss": 7.4891,
      "loss/crossentropy": 2.271737813949585,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23410511761903763,
      "step": 4028
    },
    {
      "epoch": 0.251875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.06123758951822917,
      "learning_rate": 0.0001,
      "loss": 7.5977,
      "loss/crossentropy": 2.153814435005188,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21588297933340073,
      "step": 4030
    },
    {
      "epoch": 0.252,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0592437744140625,
      "learning_rate": 0.0001,
      "loss": 7.2691,
      "loss/crossentropy": 2.183136820793152,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22347302734851837,
      "step": 4032
    },
    {
      "epoch": 0.252125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.060205078125,
      "learning_rate": 0.0001,
      "loss": 7.481,
      "loss/crossentropy": 2.1289315223693848,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2259645164012909,
      "step": 4034
    },
    {
      "epoch": 0.25225,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.0599517822265625,
      "learning_rate": 0.0001,
      "loss": 7.5806,
      "loss/crossentropy": 1.9534605145454407,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21411054581403732,
      "step": 4036
    },
    {
      "epoch": 0.252375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.06717122395833333,
      "learning_rate": 0.0001,
      "loss": 7.6651,
      "loss/crossentropy": 2.3216229677200317,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21676085889339447,
      "step": 4038
    },
    {
      "epoch": 0.2525,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.058470662434895834,
      "learning_rate": 0.0001,
      "loss": 7.5468,
      "loss/crossentropy": 2.086758255958557,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20101846754550934,
      "step": 4040
    },
    {
      "epoch": 0.252625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.03208719889322917,
      "learning_rate": 0.0001,
      "loss": 7.3466,
      "loss/crossentropy": 2.2384684085845947,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2282901331782341,
      "step": 4042
    },
    {
      "epoch": 0.25275,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.028251139322916667,
      "learning_rate": 0.0001,
      "loss": 7.4619,
      "loss/crossentropy": 1.9721214771270752,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21432989835739136,
      "step": 4044
    },
    {
      "epoch": 0.252875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.029313151041666666,
      "learning_rate": 0.0001,
      "loss": 7.3318,
      "loss/crossentropy": 1.9340474605560303,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21380113065242767,
      "step": 4046
    },
    {
      "epoch": 0.253,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0304351806640625,
      "learning_rate": 0.0001,
      "loss": 7.5475,
      "loss/crossentropy": 2.3662819862365723,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21932249516248703,
      "step": 4048
    },
    {
      "epoch": 0.253125,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.030940755208333334,
      "learning_rate": 0.0001,
      "loss": 7.5843,
      "loss/crossentropy": 2.2904332876205444,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2326778918504715,
      "step": 4050
    },
    {
      "epoch": 0.25325,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.032421875,
      "learning_rate": 0.0001,
      "loss": 7.4797,
      "loss/crossentropy": 2.4156243801116943,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23186896741390228,
      "step": 4052
    },
    {
      "epoch": 0.253375,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.018408203125,
      "learning_rate": 0.0001,
      "loss": 7.4728,
      "loss/crossentropy": 2.2443253993988037,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21730951219797134,
      "step": 4054
    },
    {
      "epoch": 0.2535,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.019359334309895834,
      "learning_rate": 0.0001,
      "loss": 7.4368,
      "loss/crossentropy": 1.9812930226325989,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2251596599817276,
      "step": 4056
    },
    {
      "epoch": 0.253625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.020441691080729168,
      "learning_rate": 0.0001,
      "loss": 7.4598,
      "loss/crossentropy": 2.628469467163086,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23521346598863602,
      "step": 4058
    },
    {
      "epoch": 0.25375,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.018700154622395833,
      "learning_rate": 0.0001,
      "loss": 7.5237,
      "loss/crossentropy": 2.390172600746155,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22036952525377274,
      "step": 4060
    },
    {
      "epoch": 0.253875,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.019303385416666666,
      "learning_rate": 0.0001,
      "loss": 7.632,
      "loss/crossentropy": 2.174973249435425,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22056061774492264,
      "step": 4062
    },
    {
      "epoch": 0.254,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.020601399739583335,
      "learning_rate": 0.0001,
      "loss": 7.5629,
      "loss/crossentropy": 2.2380123138427734,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2207566350698471,
      "step": 4064
    },
    {
      "epoch": 0.254125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.017821248372395834,
      "learning_rate": 0.0001,
      "loss": 7.4799,
      "loss/crossentropy": 2.308589458465576,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22748146951198578,
      "step": 4066
    },
    {
      "epoch": 0.25425,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.0190826416015625,
      "learning_rate": 0.0001,
      "loss": 7.6862,
      "loss/crossentropy": 2.6882801055908203,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2547220140695572,
      "step": 4068
    },
    {
      "epoch": 0.254375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0201324462890625,
      "learning_rate": 0.0001,
      "loss": 7.5749,
      "loss/crossentropy": 2.417618155479431,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23678294569253922,
      "step": 4070
    },
    {
      "epoch": 0.2545,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.0204986572265625,
      "learning_rate": 0.0001,
      "loss": 7.356,
      "loss/crossentropy": 2.23097562789917,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2246166616678238,
      "step": 4072
    },
    {
      "epoch": 0.254625,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.02060546875,
      "learning_rate": 0.0001,
      "loss": 7.6507,
      "loss/crossentropy": 2.252380132675171,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23461927473545074,
      "step": 4074
    },
    {
      "epoch": 0.25475,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.01802978515625,
      "learning_rate": 0.0001,
      "loss": 7.5349,
      "loss/crossentropy": 2.2581721544265747,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2264912948012352,
      "step": 4076
    },
    {
      "epoch": 0.254875,
      "grad_norm": 2.6875,
      "grad_norm_var": 0.022347005208333333,
      "learning_rate": 0.0001,
      "loss": 7.4877,
      "loss/crossentropy": 2.3790767192840576,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23550712317228317,
      "step": 4078
    },
    {
      "epoch": 0.255,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.022248331705729166,
      "learning_rate": 0.0001,
      "loss": 7.4732,
      "loss/crossentropy": 2.3831344842910767,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23731465637683868,
      "step": 4080
    },
    {
      "epoch": 0.255125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.026178995768229168,
      "learning_rate": 0.0001,
      "loss": 7.4923,
      "loss/crossentropy": 2.5071096420288086,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22199269384145737,
      "step": 4082
    },
    {
      "epoch": 0.25525,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.023758951822916666,
      "learning_rate": 0.0001,
      "loss": 7.5247,
      "loss/crossentropy": 2.30050528049469,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22400212287902832,
      "step": 4084
    },
    {
      "epoch": 0.255375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0220123291015625,
      "learning_rate": 0.0001,
      "loss": 7.4624,
      "loss/crossentropy": 2.2171316146850586,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21539007127285004,
      "step": 4086
    },
    {
      "epoch": 0.2555,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.023493448893229168,
      "learning_rate": 0.0001,
      "loss": 7.5157,
      "loss/crossentropy": 2.311915159225464,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2283788025379181,
      "step": 4088
    },
    {
      "epoch": 0.255625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017997233072916667,
      "learning_rate": 0.0001,
      "loss": 7.3652,
      "loss/crossentropy": 2.3196401596069336,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22029782831668854,
      "step": 4090
    },
    {
      "epoch": 0.25575,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.01959228515625,
      "learning_rate": 0.0001,
      "loss": 7.3629,
      "loss/crossentropy": 2.2703882455825806,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21397818624973297,
      "step": 4092
    },
    {
      "epoch": 0.255875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0088531494140625,
      "learning_rate": 0.0001,
      "loss": 7.4362,
      "loss/crossentropy": 2.296531915664673,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21631457656621933,
      "step": 4094
    },
    {
      "epoch": 0.256,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.010481770833333333,
      "learning_rate": 0.0001,
      "loss": 7.5304,
      "loss/crossentropy": 2.178624987602234,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22841021418571472,
      "step": 4096
    },
    {
      "epoch": 0.256125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.009837849934895834,
      "learning_rate": 0.0001,
      "loss": 7.4817,
      "loss/crossentropy": 2.3095529079437256,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22539246827363968,
      "step": 4098
    },
    {
      "epoch": 0.25625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.009618123372395834,
      "learning_rate": 0.0001,
      "loss": 7.4224,
      "loss/crossentropy": 2.3652232885360718,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24415633082389832,
      "step": 4100
    },
    {
      "epoch": 0.256375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.011083984375,
      "learning_rate": 0.0001,
      "loss": 7.4878,
      "loss/crossentropy": 2.0212921500205994,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22881153225898743,
      "step": 4102
    },
    {
      "epoch": 0.2565,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.01650390625,
      "learning_rate": 0.0001,
      "loss": 7.4785,
      "loss/crossentropy": 2.3224822282791138,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23468727618455887,
      "step": 4104
    },
    {
      "epoch": 0.256625,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.019364420572916666,
      "learning_rate": 0.0001,
      "loss": 7.7486,
      "loss/crossentropy": 2.4106584787368774,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21804316341876984,
      "step": 4106
    },
    {
      "epoch": 0.25675,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0199371337890625,
      "learning_rate": 0.0001,
      "loss": 7.321,
      "loss/crossentropy": 2.2287791967391968,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22060447931289673,
      "step": 4108
    },
    {
      "epoch": 0.256875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0247955322265625,
      "learning_rate": 0.0001,
      "loss": 7.4268,
      "loss/crossentropy": 1.9771644473075867,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20855499804019928,
      "step": 4110
    },
    {
      "epoch": 0.257,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.0250396728515625,
      "learning_rate": 0.0001,
      "loss": 7.4497,
      "loss/crossentropy": 2.125575006008148,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2247249186038971,
      "step": 4112
    },
    {
      "epoch": 0.257125,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.028153483072916666,
      "learning_rate": 0.0001,
      "loss": 7.4864,
      "loss/crossentropy": 2.074004888534546,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21001387387514114,
      "step": 4114
    },
    {
      "epoch": 0.25725,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.027367146809895833,
      "learning_rate": 0.0001,
      "loss": 7.4488,
      "loss/crossentropy": 1.9355474710464478,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20440368354320526,
      "step": 4116
    },
    {
      "epoch": 0.257375,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.025386555989583334,
      "learning_rate": 0.0001,
      "loss": 7.4847,
      "loss/crossentropy": 2.311020255088806,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20823492854833603,
      "step": 4118
    },
    {
      "epoch": 0.2575,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.023363240559895835,
      "learning_rate": 0.0001,
      "loss": 7.4348,
      "loss/crossentropy": 2.3363587856292725,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22158727049827576,
      "step": 4120
    },
    {
      "epoch": 0.257625,
      "grad_norm": 3.09375,
      "grad_norm_var": 1.232933553059896,
      "learning_rate": 0.0001,
      "loss": 7.5643,
      "loss/crossentropy": 2.253212571144104,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2316179946064949,
      "step": 4122
    },
    {
      "epoch": 0.25775,
      "grad_norm": 2.328125,
      "grad_norm_var": 1.2166900634765625,
      "learning_rate": 0.0001,
      "loss": 7.5682,
      "loss/crossentropy": 2.22301983833313,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23405539989471436,
      "step": 4124
    },
    {
      "epoch": 0.257875,
      "grad_norm": 2.625,
      "grad_norm_var": 1.179638671875,
      "learning_rate": 0.0001,
      "loss": 7.6354,
      "loss/crossentropy": 2.1657320261001587,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24702759087085724,
      "step": 4126
    },
    {
      "epoch": 0.258,
      "grad_norm": 2.265625,
      "grad_norm_var": 1.1891886393229167,
      "learning_rate": 0.0001,
      "loss": 7.6633,
      "loss/crossentropy": 2.708492875099182,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.248228058218956,
      "step": 4128
    },
    {
      "epoch": 0.258125,
      "grad_norm": 2.4375,
      "grad_norm_var": 1.183177693684896,
      "learning_rate": 0.0001,
      "loss": 7.567,
      "loss/crossentropy": 2.481553316116333,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.24093511700630188,
      "step": 4130
    },
    {
      "epoch": 0.25825,
      "grad_norm": 2.25,
      "grad_norm_var": 1.1793609619140626,
      "learning_rate": 0.0001,
      "loss": 7.5228,
      "loss/crossentropy": 2.336062788963318,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22933385521173477,
      "step": 4132
    },
    {
      "epoch": 0.258375,
      "grad_norm": 2.59375,
      "grad_norm_var": 1.1680338541666666,
      "learning_rate": 0.0001,
      "loss": 7.4909,
      "loss/crossentropy": 2.233590006828308,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22607532143592834,
      "step": 4134
    },
    {
      "epoch": 0.2585,
      "grad_norm": 2.5,
      "grad_norm_var": 1.15947265625,
      "learning_rate": 0.0001,
      "loss": 7.6554,
      "loss/crossentropy": 2.3016180992126465,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21121040731668472,
      "step": 4136
    },
    {
      "epoch": 0.258625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.026317342122395834,
      "learning_rate": 0.0001,
      "loss": 7.551,
      "loss/crossentropy": 2.0917162895202637,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2196909263730049,
      "step": 4138
    },
    {
      "epoch": 0.25875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.025862630208333334,
      "learning_rate": 0.0001,
      "loss": 7.5891,
      "loss/crossentropy": 2.369123935699463,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2268521413207054,
      "step": 4140
    },
    {
      "epoch": 0.258875,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.016141764322916665,
      "learning_rate": 0.0001,
      "loss": 7.4561,
      "loss/crossentropy": 2.4183573722839355,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24558168649673462,
      "step": 4142
    },
    {
      "epoch": 0.259,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.012906901041666667,
      "learning_rate": 0.0001,
      "loss": 7.5225,
      "loss/crossentropy": 2.1985327005386353,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2282828763127327,
      "step": 4144
    },
    {
      "epoch": 0.259125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.011205037434895834,
      "learning_rate": 0.0001,
      "loss": 7.4406,
      "loss/crossentropy": 2.2581781148910522,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2538040652871132,
      "step": 4146
    },
    {
      "epoch": 0.25925,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.01461181640625,
      "learning_rate": 0.0001,
      "loss": 7.562,
      "loss/crossentropy": 2.539314389228821,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23499274253845215,
      "step": 4148
    },
    {
      "epoch": 0.259375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.013948567708333333,
      "learning_rate": 0.0001,
      "loss": 7.5071,
      "loss/crossentropy": 2.0835620164871216,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22590668499469757,
      "step": 4150
    },
    {
      "epoch": 0.2595,
      "grad_norm": 2.375,
      "grad_norm_var": 0.013509114583333334,
      "learning_rate": 0.0001,
      "loss": 7.4878,
      "loss/crossentropy": 2.1896191835403442,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22646436095237732,
      "step": 4152
    },
    {
      "epoch": 0.259625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.01422119140625,
      "learning_rate": 0.0001,
      "loss": 7.3402,
      "loss/crossentropy": 1.9305825233459473,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20503179728984833,
      "step": 4154
    },
    {
      "epoch": 0.25975,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0172515869140625,
      "learning_rate": 0.0001,
      "loss": 7.417,
      "loss/crossentropy": 1.887523353099823,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2075207680463791,
      "step": 4156
    },
    {
      "epoch": 0.259875,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.017756144205729168,
      "learning_rate": 0.0001,
      "loss": 7.5039,
      "loss/crossentropy": 2.354191780090332,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23857767134904861,
      "step": 4158
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.019873046875,
      "learning_rate": 0.0001,
      "loss": 7.3457,
      "loss/crossentropy": 2.1631126403808594,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.208695188164711,
      "step": 4160
    },
    {
      "epoch": 0.260125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0183990478515625,
      "learning_rate": 0.0001,
      "loss": 7.337,
      "loss/crossentropy": 2.1133294701576233,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21781667321920395,
      "step": 4162
    },
    {
      "epoch": 0.26025,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.014891560872395833,
      "learning_rate": 0.0001,
      "loss": 7.3932,
      "loss/crossentropy": 2.209348678588867,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21353087574243546,
      "step": 4164
    },
    {
      "epoch": 0.260375,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.018000284830729168,
      "learning_rate": 0.0001,
      "loss": 7.5817,
      "loss/crossentropy": 2.3300869464874268,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23223827034235,
      "step": 4166
    },
    {
      "epoch": 0.2605,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017829386393229167,
      "learning_rate": 0.0001,
      "loss": 7.4924,
      "loss/crossentropy": 2.2505780458450317,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21991939842700958,
      "step": 4168
    },
    {
      "epoch": 0.260625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017936197916666667,
      "learning_rate": 0.0001,
      "loss": 7.4621,
      "loss/crossentropy": 2.1267285346984863,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20734632015228271,
      "step": 4170
    },
    {
      "epoch": 0.26075,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.03319905598958333,
      "learning_rate": 0.0001,
      "loss": 7.6821,
      "loss/crossentropy": 2.561190962791443,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.25469981133937836,
      "step": 4172
    },
    {
      "epoch": 0.260875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.03173421223958333,
      "learning_rate": 0.0001,
      "loss": 7.6492,
      "loss/crossentropy": 2.5840975046157837,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24661777913570404,
      "step": 4174
    },
    {
      "epoch": 0.261,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.032027180989583334,
      "learning_rate": 0.0001,
      "loss": 7.3485,
      "loss/crossentropy": 2.312406063079834,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23344486206769943,
      "step": 4176
    },
    {
      "epoch": 0.261125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.033219401041666666,
      "learning_rate": 0.0001,
      "loss": 7.4603,
      "loss/crossentropy": 2.3917373418807983,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22443928569555283,
      "step": 4178
    },
    {
      "epoch": 0.26125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.03388570149739583,
      "learning_rate": 0.0001,
      "loss": 7.5113,
      "loss/crossentropy": 2.3461934328079224,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2298140972852707,
      "step": 4180
    },
    {
      "epoch": 0.261375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0312408447265625,
      "learning_rate": 0.0001,
      "loss": 7.5746,
      "loss/crossentropy": 2.3137890100479126,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23146747052669525,
      "step": 4182
    },
    {
      "epoch": 0.2615,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.03052978515625,
      "learning_rate": 0.0001,
      "loss": 7.5043,
      "loss/crossentropy": 2.2696300745010376,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2407674714922905,
      "step": 4184
    },
    {
      "epoch": 0.261625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.03245340983072917,
      "learning_rate": 0.0001,
      "loss": 7.4266,
      "loss/crossentropy": 2.3981817960739136,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2357579469680786,
      "step": 4186
    },
    {
      "epoch": 0.26175,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.022826131184895834,
      "learning_rate": 0.0001,
      "loss": 7.2983,
      "loss/crossentropy": 2.278700351715088,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24243299663066864,
      "step": 4188
    },
    {
      "epoch": 0.261875,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.0290191650390625,
      "learning_rate": 0.0001,
      "loss": 7.4591,
      "loss/crossentropy": 2.4734745025634766,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2231806293129921,
      "step": 4190
    },
    {
      "epoch": 0.262,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.03518473307291667,
      "learning_rate": 0.0001,
      "loss": 7.535,
      "loss/crossentropy": 2.281826972961426,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2438691332936287,
      "step": 4192
    },
    {
      "epoch": 0.262125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.03855692545572917,
      "learning_rate": 0.0001,
      "loss": 7.4283,
      "loss/crossentropy": 2.1762090921401978,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19439425319433212,
      "step": 4194
    },
    {
      "epoch": 0.26225,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.03613993326822917,
      "learning_rate": 0.0001,
      "loss": 7.5443,
      "loss/crossentropy": 2.3899075984954834,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22394779324531555,
      "step": 4196
    },
    {
      "epoch": 0.262375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.03876953125,
      "learning_rate": 0.0001,
      "loss": 7.612,
      "loss/crossentropy": 2.250289797782898,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22523928433656693,
      "step": 4198
    },
    {
      "epoch": 0.2625,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.03834228515625,
      "learning_rate": 0.0001,
      "loss": 7.4899,
      "loss/crossentropy": 2.0721304416656494,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22663410007953644,
      "step": 4200
    },
    {
      "epoch": 0.262625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0362945556640625,
      "learning_rate": 0.0001,
      "loss": 7.5435,
      "loss/crossentropy": 2.1173004508018494,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20741065591573715,
      "step": 4202
    },
    {
      "epoch": 0.26275,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.033186848958333334,
      "learning_rate": 0.0001,
      "loss": 7.5587,
      "loss/crossentropy": 2.3617148399353027,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22693531960248947,
      "step": 4204
    },
    {
      "epoch": 0.262875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.029784138997395834,
      "learning_rate": 0.0001,
      "loss": 7.49,
      "loss/crossentropy": 2.1566708087921143,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22167697548866272,
      "step": 4206
    },
    {
      "epoch": 0.263,
      "grad_norm": 2.5,
      "grad_norm_var": 0.022001139322916665,
      "learning_rate": 0.0001,
      "loss": 7.4201,
      "loss/crossentropy": 2.2872395515441895,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23204121738672256,
      "step": 4208
    },
    {
      "epoch": 0.263125,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0179595947265625,
      "learning_rate": 0.0001,
      "loss": 7.4017,
      "loss/crossentropy": 2.0254051089286804,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21901094913482666,
      "step": 4210
    },
    {
      "epoch": 0.26325,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.017878214518229168,
      "learning_rate": 0.0001,
      "loss": 7.3872,
      "loss/crossentropy": 2.1917017698287964,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2296266034245491,
      "step": 4212
    },
    {
      "epoch": 0.263375,
      "grad_norm": 2.5,
      "grad_norm_var": 0.019050089518229167,
      "learning_rate": 0.0001,
      "loss": 7.5185,
      "loss/crossentropy": 2.329349994659424,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22277437150478363,
      "step": 4214
    },
    {
      "epoch": 0.2635,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.019661458333333333,
      "learning_rate": 0.0001,
      "loss": 7.4769,
      "loss/crossentropy": 2.3094968795776367,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22067157924175262,
      "step": 4216
    },
    {
      "epoch": 0.263625,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.015999348958333333,
      "learning_rate": 0.0001,
      "loss": 7.5023,
      "loss/crossentropy": 2.057901620864868,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21499791741371155,
      "step": 4218
    },
    {
      "epoch": 0.26375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.015283203125,
      "learning_rate": 0.0001,
      "loss": 7.3844,
      "loss/crossentropy": 2.2509127855300903,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21002254635095596,
      "step": 4220
    },
    {
      "epoch": 0.263875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0160064697265625,
      "learning_rate": 0.0001,
      "loss": 7.3918,
      "loss/crossentropy": 2.280747413635254,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21898390352725983,
      "step": 4222
    },
    {
      "epoch": 0.264,
      "grad_norm": 2.25,
      "grad_norm_var": 0.015672810872395835,
      "learning_rate": 0.0001,
      "loss": 7.5155,
      "loss/crossentropy": 2.3069392442703247,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23423085361719131,
      "step": 4224
    },
    {
      "epoch": 0.264125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.015185546875,
      "learning_rate": 0.0001,
      "loss": 7.4396,
      "loss/crossentropy": 2.0961318016052246,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23950795829296112,
      "step": 4226
    },
    {
      "epoch": 0.26425,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.012691243489583334,
      "learning_rate": 0.0001,
      "loss": 7.4114,
      "loss/crossentropy": 2.2781461477279663,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23504098504781723,
      "step": 4228
    },
    {
      "epoch": 0.264375,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.011181640625,
      "learning_rate": 0.0001,
      "loss": 7.4173,
      "loss/crossentropy": 2.1842299699783325,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21509061753749847,
      "step": 4230
    },
    {
      "epoch": 0.2645,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.008817545572916667,
      "learning_rate": 0.0001,
      "loss": 7.5102,
      "loss/crossentropy": 2.3369181156158447,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23115838319063187,
      "step": 4232
    },
    {
      "epoch": 0.264625,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.018033854166666665,
      "learning_rate": 0.0001,
      "loss": 7.6056,
      "loss/crossentropy": 2.123593807220459,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21955028176307678,
      "step": 4234
    },
    {
      "epoch": 0.26475,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.019579060872395835,
      "learning_rate": 0.0001,
      "loss": 7.5573,
      "loss/crossentropy": 2.1841901540756226,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20950836688280106,
      "step": 4236
    },
    {
      "epoch": 0.264875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0201812744140625,
      "learning_rate": 0.0001,
      "loss": 7.4577,
      "loss/crossentropy": 2.180688500404358,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21572377532720566,
      "step": 4238
    },
    {
      "epoch": 0.265,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0191314697265625,
      "learning_rate": 0.0001,
      "loss": 7.5163,
      "loss/crossentropy": 2.5182595252990723,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24843312799930573,
      "step": 4240
    },
    {
      "epoch": 0.265125,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.020783487955729166,
      "learning_rate": 0.0001,
      "loss": 7.3331,
      "loss/crossentropy": 2.3631211519241333,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22477340698242188,
      "step": 4242
    },
    {
      "epoch": 0.26525,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.025874837239583334,
      "learning_rate": 0.0001,
      "loss": 7.3582,
      "loss/crossentropy": 2.392832636833191,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23732294142246246,
      "step": 4244
    },
    {
      "epoch": 0.265375,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.0303863525390625,
      "learning_rate": 0.0001,
      "loss": 7.5458,
      "loss/crossentropy": 2.4172616004943848,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25564996898174286,
      "step": 4246
    },
    {
      "epoch": 0.2655,
      "grad_norm": 2.25,
      "grad_norm_var": 0.030614217122395832,
      "learning_rate": 0.0001,
      "loss": 7.3352,
      "loss/crossentropy": 2.068120002746582,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20718112587928772,
      "step": 4248
    },
    {
      "epoch": 0.265625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.025495402018229165,
      "learning_rate": 0.0001,
      "loss": 7.4747,
      "loss/crossentropy": 2.3594859838485718,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22751520574092865,
      "step": 4250
    },
    {
      "epoch": 0.26575,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.023298136393229165,
      "learning_rate": 0.0001,
      "loss": 7.3998,
      "loss/crossentropy": 2.446703553199768,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23083661496639252,
      "step": 4252
    },
    {
      "epoch": 0.265875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.026398722330729166,
      "learning_rate": 0.0001,
      "loss": 7.3885,
      "loss/crossentropy": 2.268368363380432,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.222725510597229,
      "step": 4254
    },
    {
      "epoch": 0.266,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.028446451822916666,
      "learning_rate": 0.0001,
      "loss": 7.5755,
      "loss/crossentropy": 2.152546525001526,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22324977815151215,
      "step": 4256
    },
    {
      "epoch": 0.266125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.026220703125,
      "learning_rate": 0.0001,
      "loss": 7.3993,
      "loss/crossentropy": 2.101604700088501,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22246717661619186,
      "step": 4258
    },
    {
      "epoch": 0.26625,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.029410807291666667,
      "learning_rate": 0.0001,
      "loss": 7.4041,
      "loss/crossentropy": 2.2383921146392822,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22142166644334793,
      "step": 4260
    },
    {
      "epoch": 0.266375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.023681640625,
      "learning_rate": 0.0001,
      "loss": 7.5145,
      "loss/crossentropy": 2.367012858390808,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22680655121803284,
      "step": 4262
    },
    {
      "epoch": 0.2665,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.025732421875,
      "learning_rate": 0.0001,
      "loss": 7.2148,
      "loss/crossentropy": 2.4683737754821777,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23372989892959595,
      "step": 4264
    },
    {
      "epoch": 0.266625,
      "grad_norm": 2.5,
      "grad_norm_var": 0.0251617431640625,
      "learning_rate": 0.0001,
      "loss": 7.4554,
      "loss/crossentropy": 2.2976629734039307,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21854644268751144,
      "step": 4266
    },
    {
      "epoch": 0.26675,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.025874837239583334,
      "learning_rate": 0.0001,
      "loss": 7.567,
      "loss/crossentropy": 2.0734461545944214,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20711353421211243,
      "step": 4268
    },
    {
      "epoch": 0.266875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.023094685872395833,
      "learning_rate": 0.0001,
      "loss": 7.3456,
      "loss/crossentropy": 2.2194411754608154,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2097087875008583,
      "step": 4270
    },
    {
      "epoch": 0.267,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0214263916015625,
      "learning_rate": 0.0001,
      "loss": 7.3546,
      "loss/crossentropy": 2.3072394132614136,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2229909971356392,
      "step": 4272
    },
    {
      "epoch": 0.267125,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.0269195556640625,
      "learning_rate": 0.0001,
      "loss": 7.4624,
      "loss/crossentropy": 2.3109829425811768,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2220280021429062,
      "step": 4274
    },
    {
      "epoch": 0.26725,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.020921834309895835,
      "learning_rate": 0.0001,
      "loss": 7.5419,
      "loss/crossentropy": 2.2977495193481445,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24211393296718597,
      "step": 4276
    },
    {
      "epoch": 0.267375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.021605428059895834,
      "learning_rate": 0.0001,
      "loss": 7.5332,
      "loss/crossentropy": 2.2791624069213867,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2135421559214592,
      "step": 4278
    },
    {
      "epoch": 0.2675,
      "grad_norm": 2.5,
      "grad_norm_var": 0.019489542643229166,
      "learning_rate": 0.0001,
      "loss": 7.5424,
      "loss/crossentropy": 2.4423515796661377,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2313070297241211,
      "step": 4280
    },
    {
      "epoch": 0.267625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.021043904622395835,
      "learning_rate": 0.0001,
      "loss": 7.2078,
      "loss/crossentropy": 2.1874340772628784,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20884133875370026,
      "step": 4282
    },
    {
      "epoch": 0.26775,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.0204986572265625,
      "learning_rate": 0.0001,
      "loss": 7.5178,
      "loss/crossentropy": 2.2358198165893555,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24393440037965775,
      "step": 4284
    },
    {
      "epoch": 0.267875,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.021776326497395835,
      "learning_rate": 0.0001,
      "loss": 7.2812,
      "loss/crossentropy": 2.064828336238861,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2007676362991333,
      "step": 4286
    },
    {
      "epoch": 0.268,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.022786458333333332,
      "learning_rate": 0.0001,
      "loss": 7.4434,
      "loss/crossentropy": 2.301008701324463,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23284630477428436,
      "step": 4288
    },
    {
      "epoch": 0.268125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.018538411458333334,
      "learning_rate": 0.0001,
      "loss": 7.3878,
      "loss/crossentropy": 1.959551453590393,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1952490210533142,
      "step": 4290
    },
    {
      "epoch": 0.26825,
      "grad_norm": 2.375,
      "grad_norm_var": 0.016890462239583334,
      "learning_rate": 0.0001,
      "loss": 7.5644,
      "loss/crossentropy": 2.352171301841736,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2467745542526245,
      "step": 4292
    },
    {
      "epoch": 0.268375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.015478515625,
      "learning_rate": 0.0001,
      "loss": 7.343,
      "loss/crossentropy": 2.213460922241211,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2195800244808197,
      "step": 4294
    },
    {
      "epoch": 0.2685,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0146484375,
      "learning_rate": 0.0001,
      "loss": 7.4869,
      "loss/crossentropy": 2.042128264904022,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2317609265446663,
      "step": 4296
    },
    {
      "epoch": 0.268625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.014769490559895833,
      "learning_rate": 0.0001,
      "loss": 7.3506,
      "loss/crossentropy": 1.9961625337600708,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19491659104824066,
      "step": 4298
    },
    {
      "epoch": 0.26875,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.017508951822916667,
      "learning_rate": 0.0001,
      "loss": 7.468,
      "loss/crossentropy": 2.118159055709839,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2275976911187172,
      "step": 4300
    },
    {
      "epoch": 0.268875,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.015095011393229166,
      "learning_rate": 0.0001,
      "loss": 7.3515,
      "loss/crossentropy": 2.206713318824768,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21720553189516068,
      "step": 4302
    },
    {
      "epoch": 0.269,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.01480712890625,
      "learning_rate": 0.0001,
      "loss": 7.4099,
      "loss/crossentropy": 2.2401949167251587,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21897585690021515,
      "step": 4304
    },
    {
      "epoch": 0.269125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0141021728515625,
      "learning_rate": 0.0001,
      "loss": 7.3092,
      "loss/crossentropy": 2.1088130474090576,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21423090249300003,
      "step": 4306
    },
    {
      "epoch": 0.26925,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.014774576822916666,
      "learning_rate": 0.0001,
      "loss": 7.4478,
      "loss/crossentropy": 2.2879436016082764,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20457830280065536,
      "step": 4308
    },
    {
      "epoch": 0.269375,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.01558837890625,
      "learning_rate": 0.0001,
      "loss": 7.4249,
      "loss/crossentropy": 2.038703441619873,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21783077716827393,
      "step": 4310
    },
    {
      "epoch": 0.2695,
      "grad_norm": 2.375,
      "grad_norm_var": 0.01842041015625,
      "learning_rate": 0.0001,
      "loss": 7.6062,
      "loss/crossentropy": 2.4648650884628296,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22937683761119843,
      "step": 4312
    },
    {
      "epoch": 0.269625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.016950480143229165,
      "learning_rate": 0.0001,
      "loss": 7.4844,
      "loss/crossentropy": 2.0551947951316833,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22646934539079666,
      "step": 4314
    },
    {
      "epoch": 0.26975,
      "grad_norm": 2.375,
      "grad_norm_var": 0.015165201822916667,
      "learning_rate": 0.0001,
      "loss": 7.4434,
      "loss/crossentropy": 2.237433969974518,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22162948548793793,
      "step": 4316
    },
    {
      "epoch": 0.269875,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.015543619791666666,
      "learning_rate": 0.0001,
      "loss": 7.5201,
      "loss/crossentropy": 2.275120735168457,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23471694439649582,
      "step": 4318
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.019733683268229166,
      "learning_rate": 0.0001,
      "loss": 7.3651,
      "loss/crossentropy": 2.355165123939514,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25206050276756287,
      "step": 4320
    },
    {
      "epoch": 0.270125,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.018602498372395835,
      "learning_rate": 0.0001,
      "loss": 7.5587,
      "loss/crossentropy": 2.378506660461426,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22956155985593796,
      "step": 4322
    },
    {
      "epoch": 0.27025,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.01636962890625,
      "learning_rate": 0.0001,
      "loss": 7.6102,
      "loss/crossentropy": 2.2196805477142334,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23681814968585968,
      "step": 4324
    },
    {
      "epoch": 0.270375,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.0182525634765625,
      "learning_rate": 0.0001,
      "loss": 7.3513,
      "loss/crossentropy": 2.1617177724838257,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19959037005901337,
      "step": 4326
    },
    {
      "epoch": 0.2705,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.022386678059895835,
      "learning_rate": 0.0001,
      "loss": 7.4452,
      "loss/crossentropy": 2.2576276063919067,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2321421429514885,
      "step": 4328
    },
    {
      "epoch": 0.270625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.025267537434895834,
      "learning_rate": 0.0001,
      "loss": 7.36,
      "loss/crossentropy": 2.213522434234619,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2282974198460579,
      "step": 4330
    },
    {
      "epoch": 0.27075,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.028880818684895834,
      "learning_rate": 0.0001,
      "loss": 7.3864,
      "loss/crossentropy": 1.9888715744018555,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21721196174621582,
      "step": 4332
    },
    {
      "epoch": 0.270875,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.028706868489583332,
      "learning_rate": 0.0001,
      "loss": 7.3121,
      "loss/crossentropy": 2.3635976314544678,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22595931589603424,
      "step": 4334
    },
    {
      "epoch": 0.271,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.022997029622395835,
      "learning_rate": 0.0001,
      "loss": 7.5235,
      "loss/crossentropy": 2.4795159101486206,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23015367984771729,
      "step": 4336
    },
    {
      "epoch": 0.271125,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.047998046875,
      "learning_rate": 0.0001,
      "loss": 7.4249,
      "loss/crossentropy": 2.234145760536194,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20242837071418762,
      "step": 4338
    },
    {
      "epoch": 0.27125,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.04712626139322917,
      "learning_rate": 0.0001,
      "loss": 7.5575,
      "loss/crossentropy": 2.2627410888671875,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2454666718840599,
      "step": 4340
    },
    {
      "epoch": 0.271375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.04541727701822917,
      "learning_rate": 0.0001,
      "loss": 7.3373,
      "loss/crossentropy": 2.4094841480255127,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22295518964529037,
      "step": 4342
    },
    {
      "epoch": 0.2715,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.03918863932291667,
      "learning_rate": 0.0001,
      "loss": 7.489,
      "loss/crossentropy": 2.485226035118103,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2179865539073944,
      "step": 4344
    },
    {
      "epoch": 0.271625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.03469645182291667,
      "learning_rate": 0.0001,
      "loss": 7.4442,
      "loss/crossentropy": 2.3933740854263306,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24797789752483368,
      "step": 4346
    },
    {
      "epoch": 0.27175,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.028246053059895835,
      "learning_rate": 0.0001,
      "loss": 7.4128,
      "loss/crossentropy": 2.136129140853882,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20815995335578918,
      "step": 4348
    },
    {
      "epoch": 0.271875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.029474894205729168,
      "learning_rate": 0.0001,
      "loss": 7.3621,
      "loss/crossentropy": 2.2934054136276245,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22534728795289993,
      "step": 4350
    },
    {
      "epoch": 0.272,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.029808553059895833,
      "learning_rate": 0.0001,
      "loss": 7.7497,
      "loss/crossentropy": 2.2244023084640503,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24372966587543488,
      "step": 4352
    },
    {
      "epoch": 0.272125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.004515584309895833,
      "learning_rate": 0.0001,
      "loss": 7.5103,
      "loss/crossentropy": 2.2522358894348145,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2237512692809105,
      "step": 4354
    },
    {
      "epoch": 0.27225,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.005533854166666667,
      "learning_rate": 0.0001,
      "loss": 7.5503,
      "loss/crossentropy": 2.006240487098694,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21218693256378174,
      "step": 4356
    },
    {
      "epoch": 0.272375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.007356770833333333,
      "learning_rate": 0.0001,
      "loss": 7.4,
      "loss/crossentropy": 2.1753203868865967,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21662192791700363,
      "step": 4358
    },
    {
      "epoch": 0.2725,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.008317057291666667,
      "learning_rate": 0.0001,
      "loss": 7.4924,
      "loss/crossentropy": 2.5050474405288696,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23573968559503555,
      "step": 4360
    },
    {
      "epoch": 0.272625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.00982666015625,
      "learning_rate": 0.0001,
      "loss": 7.2394,
      "loss/crossentropy": 2.2561826705932617,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2149110957980156,
      "step": 4362
    },
    {
      "epoch": 0.27275,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.011262003580729167,
      "learning_rate": 0.0001,
      "loss": 7.5461,
      "loss/crossentropy": 2.4560667276382446,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22948572784662247,
      "step": 4364
    },
    {
      "epoch": 0.272875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.010895792643229167,
      "learning_rate": 0.0001,
      "loss": 7.5201,
      "loss/crossentropy": 2.2445766925811768,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24865839630365372,
      "step": 4366
    },
    {
      "epoch": 0.273,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.010602823893229167,
      "learning_rate": 0.0001,
      "loss": 7.3433,
      "loss/crossentropy": 2.048405647277832,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21950747072696686,
      "step": 4368
    },
    {
      "epoch": 0.273125,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.016405232747395835,
      "learning_rate": 0.0001,
      "loss": 7.478,
      "loss/crossentropy": 2.5548731088638306,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24532774090766907,
      "step": 4370
    },
    {
      "epoch": 0.27325,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0150390625,
      "learning_rate": 0.0001,
      "loss": 7.4301,
      "loss/crossentropy": 2.158105969429016,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2423110455274582,
      "step": 4372
    },
    {
      "epoch": 0.273375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.014518229166666667,
      "learning_rate": 0.0001,
      "loss": 7.5337,
      "loss/crossentropy": 2.3834049701690674,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2357938289642334,
      "step": 4374
    },
    {
      "epoch": 0.2735,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.017692057291666667,
      "learning_rate": 0.0001,
      "loss": 7.3858,
      "loss/crossentropy": 2.2216193675994873,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23488235473632812,
      "step": 4376
    },
    {
      "epoch": 0.273625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.04396870930989583,
      "learning_rate": 0.0001,
      "loss": 7.4476,
      "loss/crossentropy": 2.11636745929718,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21510595828294754,
      "step": 4378
    },
    {
      "epoch": 0.27375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.04899800618489583,
      "learning_rate": 0.0001,
      "loss": 7.572,
      "loss/crossentropy": 2.2707090377807617,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22173020988702774,
      "step": 4380
    },
    {
      "epoch": 0.273875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.05029296875,
      "learning_rate": 0.0001,
      "loss": 7.3261,
      "loss/crossentropy": 2.270142912864685,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21372423321008682,
      "step": 4382
    },
    {
      "epoch": 0.274,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.053120930989583336,
      "learning_rate": 0.0001,
      "loss": 7.4542,
      "loss/crossentropy": 2.403599977493286,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20995523035526276,
      "step": 4384
    },
    {
      "epoch": 0.274125,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.049071248372395834,
      "learning_rate": 0.0001,
      "loss": 7.6809,
      "loss/crossentropy": 2.2590737342834473,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22851084172725677,
      "step": 4386
    },
    {
      "epoch": 0.27425,
      "grad_norm": 2.5,
      "grad_norm_var": 0.046647135416666666,
      "learning_rate": 0.0001,
      "loss": 7.5104,
      "loss/crossentropy": 2.303091526031494,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.24387390911579132,
      "step": 4388
    },
    {
      "epoch": 0.274375,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.05137430826822917,
      "learning_rate": 0.0001,
      "loss": 7.5524,
      "loss/crossentropy": 2.3587981462478638,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2259790152311325,
      "step": 4390
    },
    {
      "epoch": 0.2745,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.05120442708333333,
      "learning_rate": 0.0001,
      "loss": 7.5764,
      "loss/crossentropy": 2.26511013507843,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2363736778497696,
      "step": 4392
    },
    {
      "epoch": 0.274625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.028758748372395834,
      "learning_rate": 0.0001,
      "loss": 7.2611,
      "loss/crossentropy": 2.1224186420440674,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21887023746967316,
      "step": 4394
    },
    {
      "epoch": 0.27475,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.024665323893229167,
      "learning_rate": 0.0001,
      "loss": 7.411,
      "loss/crossentropy": 2.4636008739471436,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22841719537973404,
      "step": 4396
    },
    {
      "epoch": 0.274875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.022785441080729166,
      "learning_rate": 0.0001,
      "loss": 7.4425,
      "loss/crossentropy": 2.098508358001709,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24196244776248932,
      "step": 4398
    },
    {
      "epoch": 0.275,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.020856730143229165,
      "learning_rate": 0.0001,
      "loss": 7.6109,
      "loss/crossentropy": 2.245239734649658,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2130843922495842,
      "step": 4400
    },
    {
      "epoch": 0.275125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.025374348958333334,
      "learning_rate": 0.0001,
      "loss": 7.3746,
      "loss/crossentropy": 2.1706331968307495,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21158546209335327,
      "step": 4402
    },
    {
      "epoch": 0.27525,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.026200358072916666,
      "learning_rate": 0.0001,
      "loss": 7.2704,
      "loss/crossentropy": 2.114712119102478,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21735002845525742,
      "step": 4404
    },
    {
      "epoch": 0.275375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.01597900390625,
      "learning_rate": 0.0001,
      "loss": 7.4371,
      "loss/crossentropy": 2.4146808385849,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2161477878689766,
      "step": 4406
    },
    {
      "epoch": 0.2755,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0154205322265625,
      "learning_rate": 0.0001,
      "loss": 7.5387,
      "loss/crossentropy": 2.5566210746765137,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23766440898180008,
      "step": 4408
    },
    {
      "epoch": 0.275625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.01412353515625,
      "learning_rate": 0.0001,
      "loss": 7.3358,
      "loss/crossentropy": 2.216295003890991,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21209152787923813,
      "step": 4410
    },
    {
      "epoch": 0.27575,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.01796875,
      "learning_rate": 0.0001,
      "loss": 7.5077,
      "loss/crossentropy": 2.306955099105835,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2539971098303795,
      "step": 4412
    },
    {
      "epoch": 0.275875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.018195597330729167,
      "learning_rate": 0.0001,
      "loss": 7.4567,
      "loss/crossentropy": 2.462777853012085,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21741768717765808,
      "step": 4414
    },
    {
      "epoch": 0.276,
      "grad_norm": 2.734375,
      "grad_norm_var": 0.0329010009765625,
      "learning_rate": 0.0001,
      "loss": 7.5509,
      "loss/crossentropy": 2.155795156955719,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22352226078510284,
      "step": 4416
    },
    {
      "epoch": 0.276125,
      "grad_norm": 3.234375,
      "grad_norm_var": 0.088720703125,
      "learning_rate": 0.0001,
      "loss": 7.4472,
      "loss/crossentropy": 2.4492448568344116,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22944186627864838,
      "step": 4418
    },
    {
      "epoch": 0.27625,
      "grad_norm": 3.453125,
      "grad_norm_var": 0.14516499837239583,
      "learning_rate": 0.0001,
      "loss": 7.4556,
      "loss/crossentropy": 2.296768367290497,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2189040184020996,
      "step": 4420
    },
    {
      "epoch": 0.276375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.1495758056640625,
      "learning_rate": 0.0001,
      "loss": 7.4439,
      "loss/crossentropy": 2.4126769304275513,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23999958485364914,
      "step": 4422
    },
    {
      "epoch": 0.2765,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.14530843098958332,
      "learning_rate": 0.0001,
      "loss": 7.501,
      "loss/crossentropy": 2.47876238822937,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23916874080896378,
      "step": 4424
    },
    {
      "epoch": 0.276625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.138720703125,
      "learning_rate": 0.0001,
      "loss": 7.5551,
      "loss/crossentropy": 2.282703399658203,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2197970598936081,
      "step": 4426
    },
    {
      "epoch": 0.27675,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.1488677978515625,
      "learning_rate": 0.0001,
      "loss": 7.4234,
      "loss/crossentropy": 2.26338267326355,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22207339107990265,
      "step": 4428
    },
    {
      "epoch": 0.276875,
      "grad_norm": 4.59375,
      "grad_norm_var": 0.3890462239583333,
      "learning_rate": 0.0001,
      "loss": 7.5694,
      "loss/crossentropy": 2.34802508354187,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23877909779548645,
      "step": 4430
    },
    {
      "epoch": 0.277,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.4018951416015625,
      "learning_rate": 0.0001,
      "loss": 7.6152,
      "loss/crossentropy": 2.4531562328338623,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24313053488731384,
      "step": 4432
    },
    {
      "epoch": 0.277125,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.39807535807291666,
      "learning_rate": 0.0001,
      "loss": 7.2933,
      "loss/crossentropy": 2.1458455324172974,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21921583265066147,
      "step": 4434
    },
    {
      "epoch": 0.27725,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.34549153645833336,
      "learning_rate": 0.0001,
      "loss": 7.3935,
      "loss/crossentropy": 2.3641769886016846,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2235148400068283,
      "step": 4436
    },
    {
      "epoch": 0.277375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.3485026041666667,
      "learning_rate": 0.0001,
      "loss": 7.4657,
      "loss/crossentropy": 2.2699997425079346,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2232022061944008,
      "step": 4438
    },
    {
      "epoch": 0.2775,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.3463043212890625,
      "learning_rate": 0.0001,
      "loss": 7.489,
      "loss/crossentropy": 2.2820075154304504,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22474562376737595,
      "step": 4440
    },
    {
      "epoch": 0.277625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.34402669270833336,
      "learning_rate": 0.0001,
      "loss": 7.2763,
      "loss/crossentropy": 2.3725186586380005,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2197442501783371,
      "step": 4442
    },
    {
      "epoch": 0.27775,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.33488667805989586,
      "learning_rate": 0.0001,
      "loss": 7.3046,
      "loss/crossentropy": 2.0243775248527527,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20709318667650223,
      "step": 4444
    },
    {
      "epoch": 0.277875,
      "grad_norm": 2.5,
      "grad_norm_var": 0.019928995768229166,
      "learning_rate": 0.0001,
      "loss": 7.5691,
      "loss/crossentropy": 2.267683506011963,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23416732996702194,
      "step": 4446
    },
    {
      "epoch": 0.278,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.015241495768229167,
      "learning_rate": 0.0001,
      "loss": 7.5059,
      "loss/crossentropy": 2.4565316438674927,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23150788247585297,
      "step": 4448
    },
    {
      "epoch": 0.278125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.015132649739583334,
      "learning_rate": 0.0001,
      "loss": 7.3083,
      "loss/crossentropy": 2.2579123973846436,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23325718939304352,
      "step": 4450
    },
    {
      "epoch": 0.27825,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.015819295247395834,
      "learning_rate": 0.0001,
      "loss": 7.4666,
      "loss/crossentropy": 2.2895156145095825,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23578675836324692,
      "step": 4452
    },
    {
      "epoch": 0.278375,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.014232381184895834,
      "learning_rate": 0.0001,
      "loss": 7.3926,
      "loss/crossentropy": 2.4191900491714478,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23101849853992462,
      "step": 4454
    },
    {
      "epoch": 0.2785,
      "grad_norm": 2.625,
      "grad_norm_var": 0.01796875,
      "learning_rate": 0.0001,
      "loss": 7.5229,
      "loss/crossentropy": 2.1673884987831116,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21298403292894363,
      "step": 4456
    },
    {
      "epoch": 0.278625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.02232666015625,
      "learning_rate": 0.0001,
      "loss": 7.2791,
      "loss/crossentropy": 1.9522064924240112,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1917770504951477,
      "step": 4458
    },
    {
      "epoch": 0.27875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.02037353515625,
      "learning_rate": 0.0001,
      "loss": 7.3455,
      "loss/crossentropy": 2.064726769924164,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2061791568994522,
      "step": 4460
    },
    {
      "epoch": 0.278875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0209869384765625,
      "learning_rate": 0.0001,
      "loss": 7.5458,
      "loss/crossentropy": 2.57345187664032,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24028793722391129,
      "step": 4462
    },
    {
      "epoch": 0.279,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.021092732747395832,
      "learning_rate": 0.0001,
      "loss": 7.52,
      "loss/crossentropy": 2.1306859254837036,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21655796468257904,
      "step": 4464
    },
    {
      "epoch": 0.279125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.019237263997395834,
      "learning_rate": 0.0001,
      "loss": 7.3362,
      "loss/crossentropy": 2.0370622873306274,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20722102373838425,
      "step": 4466
    },
    {
      "epoch": 0.27925,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.023942057291666666,
      "learning_rate": 0.0001,
      "loss": 7.3497,
      "loss/crossentropy": 2.3192614316940308,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2113727256655693,
      "step": 4468
    },
    {
      "epoch": 0.279375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0229400634765625,
      "learning_rate": 0.0001,
      "loss": 7.3515,
      "loss/crossentropy": 2.378154754638672,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23498709499835968,
      "step": 4470
    },
    {
      "epoch": 0.2795,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.017284138997395834,
      "learning_rate": 0.0001,
      "loss": 7.3089,
      "loss/crossentropy": 2.3729015588760376,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24130545556545258,
      "step": 4472
    },
    {
      "epoch": 0.279625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.009761555989583334,
      "learning_rate": 0.0001,
      "loss": 7.37,
      "loss/crossentropy": 2.139391541481018,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24066069722175598,
      "step": 4474
    },
    {
      "epoch": 0.27975,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0101226806640625,
      "learning_rate": 0.0001,
      "loss": 7.3748,
      "loss/crossentropy": 2.561732530593872,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2334682047367096,
      "step": 4476
    },
    {
      "epoch": 0.279875,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0133453369140625,
      "learning_rate": 0.0001,
      "loss": 7.4443,
      "loss/crossentropy": 2.5658878087997437,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22343529760837555,
      "step": 4478
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.014322916666666666,
      "learning_rate": 0.0001,
      "loss": 7.2706,
      "loss/crossentropy": 2.389992117881775,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2276037633419037,
      "step": 4480
    },
    {
      "epoch": 0.280125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.022044881184895834,
      "learning_rate": 0.0001,
      "loss": 7.5801,
      "loss/crossentropy": 2.496686816215515,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2241569608449936,
      "step": 4482
    },
    {
      "epoch": 0.28025,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017658487955729166,
      "learning_rate": 0.0001,
      "loss": 7.3432,
      "loss/crossentropy": 2.33056378364563,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23244759440422058,
      "step": 4484
    },
    {
      "epoch": 0.280375,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.017313639322916668,
      "learning_rate": 0.0001,
      "loss": 7.4858,
      "loss/crossentropy": 2.2192925214767456,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21771762520074844,
      "step": 4486
    },
    {
      "epoch": 0.2805,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.017902628580729166,
      "learning_rate": 0.0001,
      "loss": 7.3754,
      "loss/crossentropy": 2.1574283838272095,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20880410075187683,
      "step": 4488
    },
    {
      "epoch": 0.280625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.019266764322916668,
      "learning_rate": 0.0001,
      "loss": 7.4153,
      "loss/crossentropy": 2.3507992029190063,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23332297801971436,
      "step": 4490
    },
    {
      "epoch": 0.28075,
      "grad_norm": 2.5,
      "grad_norm_var": 0.021833292643229165,
      "learning_rate": 0.0001,
      "loss": 7.4313,
      "loss/crossentropy": 2.2984365224838257,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22823016345500946,
      "step": 4492
    },
    {
      "epoch": 0.280875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.021076456705729166,
      "learning_rate": 0.0001,
      "loss": 7.2686,
      "loss/crossentropy": 2.104506731033325,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22106795012950897,
      "step": 4494
    },
    {
      "epoch": 0.281,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.022196451822916668,
      "learning_rate": 0.0001,
      "loss": 7.537,
      "loss/crossentropy": 2.197329521179199,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.222248375415802,
      "step": 4496
    },
    {
      "epoch": 0.281125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.012995402018229166,
      "learning_rate": 0.0001,
      "loss": 7.3045,
      "loss/crossentropy": 2.2515393495559692,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22155503183603287,
      "step": 4498
    },
    {
      "epoch": 0.28125,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.019986979166666665,
      "learning_rate": 0.0001,
      "loss": 7.3329,
      "loss/crossentropy": 2.1618112325668335,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22284910082817078,
      "step": 4500
    },
    {
      "epoch": 0.281375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0228424072265625,
      "learning_rate": 0.0001,
      "loss": 7.2701,
      "loss/crossentropy": 2.088331937789917,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23195888847112656,
      "step": 4502
    },
    {
      "epoch": 0.2815,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.026529947916666668,
      "learning_rate": 0.0001,
      "loss": 7.4928,
      "loss/crossentropy": 2.327447533607483,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22215363383293152,
      "step": 4504
    },
    {
      "epoch": 0.281625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.026334635416666665,
      "learning_rate": 0.0001,
      "loss": 7.4629,
      "loss/crossentropy": 2.294684410095215,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2363322228193283,
      "step": 4506
    },
    {
      "epoch": 0.28175,
      "grad_norm": 2.25,
      "grad_norm_var": 0.02236328125,
      "learning_rate": 0.0001,
      "loss": 7.4728,
      "loss/crossentropy": 2.3789936304092407,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22490855306386948,
      "step": 4508
    },
    {
      "epoch": 0.281875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.019554646809895833,
      "learning_rate": 0.0001,
      "loss": 7.45,
      "loss/crossentropy": 2.167789340019226,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21532851457595825,
      "step": 4510
    },
    {
      "epoch": 0.282,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.016795857747395834,
      "learning_rate": 0.0001,
      "loss": 7.3859,
      "loss/crossentropy": 2.197750449180603,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22491279989480972,
      "step": 4512
    },
    {
      "epoch": 0.282125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.017951456705729167,
      "learning_rate": 0.0001,
      "loss": 7.3363,
      "loss/crossentropy": 2.168722629547119,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2121475487947464,
      "step": 4514
    },
    {
      "epoch": 0.28225,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.013407389322916666,
      "learning_rate": 0.0001,
      "loss": 7.3139,
      "loss/crossentropy": 2.154773235321045,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22038134932518005,
      "step": 4516
    },
    {
      "epoch": 0.282375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.01109619140625,
      "learning_rate": 0.0001,
      "loss": 7.4864,
      "loss/crossentropy": 2.1986958980560303,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22602716833353043,
      "step": 4518
    },
    {
      "epoch": 0.2825,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.007225545247395834,
      "learning_rate": 0.0001,
      "loss": 7.2571,
      "loss/crossentropy": 2.1418489813804626,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20537669956684113,
      "step": 4520
    },
    {
      "epoch": 0.282625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.010081990559895834,
      "learning_rate": 0.0001,
      "loss": 7.478,
      "loss/crossentropy": 2.152292013168335,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21266800165176392,
      "step": 4522
    },
    {
      "epoch": 0.28275,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.012181599934895834,
      "learning_rate": 0.0001,
      "loss": 7.3898,
      "loss/crossentropy": 2.3404839038848877,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21193323284387589,
      "step": 4524
    },
    {
      "epoch": 0.282875,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.0173004150390625,
      "learning_rate": 0.0001,
      "loss": 7.5024,
      "loss/crossentropy": 2.012498140335083,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21007203310728073,
      "step": 4526
    },
    {
      "epoch": 0.283,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.016975911458333333,
      "learning_rate": 0.0001,
      "loss": 7.3939,
      "loss/crossentropy": 2.218207001686096,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23073484003543854,
      "step": 4528
    },
    {
      "epoch": 0.283125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.016185506184895834,
      "learning_rate": 0.0001,
      "loss": 7.519,
      "loss/crossentropy": 2.3596348762512207,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2409394308924675,
      "step": 4530
    },
    {
      "epoch": 0.28325,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.016502888997395833,
      "learning_rate": 0.0001,
      "loss": 7.4134,
      "loss/crossentropy": 2.223081946372986,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22396845370531082,
      "step": 4532
    },
    {
      "epoch": 0.283375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.019755045572916668,
      "learning_rate": 0.0001,
      "loss": 7.3217,
      "loss/crossentropy": 2.258087635040283,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21903490275144577,
      "step": 4534
    },
    {
      "epoch": 0.2835,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.022379557291666668,
      "learning_rate": 0.0001,
      "loss": 7.3878,
      "loss/crossentropy": 2.3071266412734985,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21915674209594727,
      "step": 4536
    },
    {
      "epoch": 0.283625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.020035807291666666,
      "learning_rate": 0.0001,
      "loss": 7.4188,
      "loss/crossentropy": 2.1818684339523315,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22117509692907333,
      "step": 4538
    },
    {
      "epoch": 0.28375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.015851847330729165,
      "learning_rate": 0.0001,
      "loss": 7.4492,
      "loss/crossentropy": 2.411054253578186,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22131475806236267,
      "step": 4540
    },
    {
      "epoch": 0.283875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0133209228515625,
      "learning_rate": 0.0001,
      "loss": 7.4197,
      "loss/crossentropy": 2.2065125703811646,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21521207690238953,
      "step": 4542
    },
    {
      "epoch": 0.284,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0134918212890625,
      "learning_rate": 0.0001,
      "loss": 7.4471,
      "loss/crossentropy": 2.266932725906372,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22295700013637543,
      "step": 4544
    },
    {
      "epoch": 0.284125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.011872355143229167,
      "learning_rate": 0.0001,
      "loss": 7.5007,
      "loss/crossentropy": 2.360601305961609,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23160873353481293,
      "step": 4546
    },
    {
      "epoch": 0.28425,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.013895670572916666,
      "learning_rate": 0.0001,
      "loss": 7.3673,
      "loss/crossentropy": 2.1906508207321167,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21694105863571167,
      "step": 4548
    },
    {
      "epoch": 0.284375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.011649576822916667,
      "learning_rate": 0.0001,
      "loss": 7.4986,
      "loss/crossentropy": 2.348879337310791,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.213335782289505,
      "step": 4550
    },
    {
      "epoch": 0.2845,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.008128865559895834,
      "learning_rate": 0.0001,
      "loss": 7.5221,
      "loss/crossentropy": 2.343509554862976,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24417825788259506,
      "step": 4552
    },
    {
      "epoch": 0.284625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.008524576822916666,
      "learning_rate": 0.0001,
      "loss": 7.4006,
      "loss/crossentropy": 2.243224263191223,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21264301240444183,
      "step": 4554
    },
    {
      "epoch": 0.28475,
      "grad_norm": 2.5,
      "grad_norm_var": 0.011823527018229167,
      "learning_rate": 0.0001,
      "loss": 7.4715,
      "loss/crossentropy": 2.383206009864807,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2533396929502487,
      "step": 4556
    },
    {
      "epoch": 0.284875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.013695271809895833,
      "learning_rate": 0.0001,
      "loss": 7.2299,
      "loss/crossentropy": 2.2882405519485474,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23156971484422684,
      "step": 4558
    },
    {
      "epoch": 0.285,
      "grad_norm": 2.25,
      "grad_norm_var": 0.012548828125,
      "learning_rate": 0.0001,
      "loss": 7.4714,
      "loss/crossentropy": 2.3273061513900757,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2340613454580307,
      "step": 4560
    },
    {
      "epoch": 0.285125,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.01236572265625,
      "learning_rate": 0.0001,
      "loss": 7.2556,
      "loss/crossentropy": 2.206205368041992,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21796930581331253,
      "step": 4562
    },
    {
      "epoch": 0.28525,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0104644775390625,
      "learning_rate": 0.0001,
      "loss": 7.3176,
      "loss/crossentropy": 2.26140820980072,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21520189940929413,
      "step": 4564
    },
    {
      "epoch": 0.285375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.01904296875,
      "learning_rate": 0.0001,
      "loss": 7.4868,
      "loss/crossentropy": 2.1846988201141357,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23294325172901154,
      "step": 4566
    },
    {
      "epoch": 0.2855,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.020262654622395834,
      "learning_rate": 0.0001,
      "loss": 7.3939,
      "loss/crossentropy": 2.1126757860183716,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20701631158590317,
      "step": 4568
    },
    {
      "epoch": 0.285625,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.03251851399739583,
      "learning_rate": 0.0001,
      "loss": 7.4807,
      "loss/crossentropy": 2.407546877861023,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22992483526468277,
      "step": 4570
    },
    {
      "epoch": 0.28575,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0304840087890625,
      "learning_rate": 0.0001,
      "loss": 7.2665,
      "loss/crossentropy": 2.281604766845703,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2113427072763443,
      "step": 4572
    },
    {
      "epoch": 0.285875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0279205322265625,
      "learning_rate": 0.0001,
      "loss": 7.5764,
      "loss/crossentropy": 2.199875235557556,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21796562522649765,
      "step": 4574
    },
    {
      "epoch": 0.286,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.027318318684895832,
      "learning_rate": 0.0001,
      "loss": 7.4868,
      "loss/crossentropy": 2.4474005699157715,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22615059465169907,
      "step": 4576
    },
    {
      "epoch": 0.286125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.025809733072916667,
      "learning_rate": 0.0001,
      "loss": 7.4363,
      "loss/crossentropy": 2.554097890853882,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2136968970298767,
      "step": 4578
    },
    {
      "epoch": 0.28625,
      "grad_norm": 2.375,
      "grad_norm_var": 0.028218587239583332,
      "learning_rate": 0.0001,
      "loss": 7.3431,
      "loss/crossentropy": 2.4345656633377075,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22010788321495056,
      "step": 4580
    },
    {
      "epoch": 0.286375,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.021240234375,
      "learning_rate": 0.0001,
      "loss": 7.6311,
      "loss/crossentropy": 2.0311567187309265,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21834005415439606,
      "step": 4582
    },
    {
      "epoch": 0.2865,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.024019368489583335,
      "learning_rate": 0.0001,
      "loss": 7.5513,
      "loss/crossentropy": 2.2485233545303345,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23373603075742722,
      "step": 4584
    },
    {
      "epoch": 0.286625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.009859212239583333,
      "learning_rate": 0.0001,
      "loss": 7.312,
      "loss/crossentropy": 2.2216570377349854,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2155969738960266,
      "step": 4586
    },
    {
      "epoch": 0.28675,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.009943644205729166,
      "learning_rate": 0.0001,
      "loss": 7.5092,
      "loss/crossentropy": 2.213111639022827,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2212653011083603,
      "step": 4588
    },
    {
      "epoch": 0.286875,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.013362630208333334,
      "learning_rate": 0.0001,
      "loss": 7.3797,
      "loss/crossentropy": 2.257219433784485,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22302033007144928,
      "step": 4590
    },
    {
      "epoch": 0.287,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.018452962239583332,
      "learning_rate": 0.0001,
      "loss": 7.3395,
      "loss/crossentropy": 2.374780535697937,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2257033884525299,
      "step": 4592
    },
    {
      "epoch": 0.287125,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.021761067708333335,
      "learning_rate": 0.0001,
      "loss": 7.2915,
      "loss/crossentropy": 2.033597767353058,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22485361993312836,
      "step": 4594
    },
    {
      "epoch": 0.28725,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.022591145833333333,
      "learning_rate": 0.0001,
      "loss": 7.4737,
      "loss/crossentropy": 2.3573769330978394,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2300783023238182,
      "step": 4596
    },
    {
      "epoch": 0.287375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0231109619140625,
      "learning_rate": 0.0001,
      "loss": 7.3957,
      "loss/crossentropy": 2.3102123737335205,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22356858849525452,
      "step": 4598
    },
    {
      "epoch": 0.2875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.02281494140625,
      "learning_rate": 0.0001,
      "loss": 7.2862,
      "loss/crossentropy": 2.392950177192688,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21436259150505066,
      "step": 4600
    },
    {
      "epoch": 0.287625,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0263824462890625,
      "learning_rate": 0.0001,
      "loss": 7.3518,
      "loss/crossentropy": 2.2781176567077637,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23186073452234268,
      "step": 4602
    },
    {
      "epoch": 0.28775,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0295074462890625,
      "learning_rate": 0.0001,
      "loss": 7.3298,
      "loss/crossentropy": 2.2567808628082275,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2299715131521225,
      "step": 4604
    },
    {
      "epoch": 0.287875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0271392822265625,
      "learning_rate": 0.0001,
      "loss": 7.3105,
      "loss/crossentropy": 1.9985857605934143,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21828313171863556,
      "step": 4606
    },
    {
      "epoch": 0.288,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.022749837239583334,
      "learning_rate": 0.0001,
      "loss": 7.4778,
      "loss/crossentropy": 2.2161970138549805,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2215772345662117,
      "step": 4608
    },
    {
      "epoch": 0.288125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.01998291015625,
      "learning_rate": 0.0001,
      "loss": 7.2087,
      "loss/crossentropy": 1.9949069619178772,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1976795345544815,
      "step": 4610
    },
    {
      "epoch": 0.28825,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0176422119140625,
      "learning_rate": 0.0001,
      "loss": 7.3442,
      "loss/crossentropy": 2.1542601585388184,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20314577966928482,
      "step": 4612
    },
    {
      "epoch": 0.288375,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.017822265625,
      "learning_rate": 0.0001,
      "loss": 7.4219,
      "loss/crossentropy": 2.1769785284996033,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22160416841506958,
      "step": 4614
    },
    {
      "epoch": 0.2885,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.016673787434895834,
      "learning_rate": 0.0001,
      "loss": 7.4635,
      "loss/crossentropy": 2.079149842262268,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21963858604431152,
      "step": 4616
    },
    {
      "epoch": 0.288625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.012743123372395833,
      "learning_rate": 0.0001,
      "loss": 7.4368,
      "loss/crossentropy": 2.1562063694000244,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20194550603628159,
      "step": 4618
    },
    {
      "epoch": 0.28875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0077626546223958336,
      "learning_rate": 0.0001,
      "loss": 7.3215,
      "loss/crossentropy": 2.285536289215088,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23264925926923752,
      "step": 4620
    },
    {
      "epoch": 0.288875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.010933430989583333,
      "learning_rate": 0.0001,
      "loss": 7.5954,
      "loss/crossentropy": 2.383559465408325,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21055196970701218,
      "step": 4622
    },
    {
      "epoch": 0.289,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.01123046875,
      "learning_rate": 0.0001,
      "loss": 7.3199,
      "loss/crossentropy": 2.09514844417572,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21392296999692917,
      "step": 4624
    },
    {
      "epoch": 0.289125,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.012279256184895834,
      "learning_rate": 0.0001,
      "loss": 7.4886,
      "loss/crossentropy": 2.366590738296509,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2233487293124199,
      "step": 4626
    },
    {
      "epoch": 0.28925,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0121246337890625,
      "learning_rate": 0.0001,
      "loss": 7.627,
      "loss/crossentropy": 2.5399746894836426,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22708307206630707,
      "step": 4628
    },
    {
      "epoch": 0.289375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.014286295572916666,
      "learning_rate": 0.0001,
      "loss": 7.3466,
      "loss/crossentropy": 2.181055188179016,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21900714933872223,
      "step": 4630
    },
    {
      "epoch": 0.2895,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.014240519205729166,
      "learning_rate": 0.0001,
      "loss": 7.3034,
      "loss/crossentropy": 2.297792911529541,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2245972827076912,
      "step": 4632
    },
    {
      "epoch": 0.289625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.012946573893229167,
      "learning_rate": 0.0001,
      "loss": 7.3323,
      "loss/crossentropy": 2.329147696495056,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22863604873418808,
      "step": 4634
    },
    {
      "epoch": 0.28975,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.23771158854166666,
      "learning_rate": 0.0001,
      "loss": 7.3751,
      "loss/crossentropy": 2.1996554136276245,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21396170556545258,
      "step": 4636
    },
    {
      "epoch": 0.289875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.23672587076822918,
      "learning_rate": 0.0001,
      "loss": 7.4831,
      "loss/crossentropy": 2.5707833766937256,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23703519254922867,
      "step": 4638
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.5,
      "grad_norm_var": 0.22306315104166666,
      "learning_rate": 0.0001,
      "loss": 7.4067,
      "loss/crossentropy": 2.0104441046714783,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22016918659210205,
      "step": 4640
    },
    {
      "epoch": 0.290125,
      "grad_norm": 3.0,
      "grad_norm_var": 0.23544514973958333,
      "learning_rate": 0.0001,
      "loss": 7.3453,
      "loss/crossentropy": 2.236189603805542,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22123342752456665,
      "step": 4642
    },
    {
      "epoch": 0.29025,
      "grad_norm": 1.953125,
      "grad_norm_var": 0.2549641927083333,
      "learning_rate": 0.0001,
      "loss": 7.1814,
      "loss/crossentropy": 2.1541532278060913,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22347942739725113,
      "step": 4644
    },
    {
      "epoch": 0.290375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.2615559895833333,
      "learning_rate": 0.0001,
      "loss": 7.2884,
      "loss/crossentropy": 2.274155378341675,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23323418200016022,
      "step": 4646
    },
    {
      "epoch": 0.2905,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.26042378743489586,
      "learning_rate": 0.0001,
      "loss": 7.4791,
      "loss/crossentropy": 2.08142626285553,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2270170971751213,
      "step": 4648
    },
    {
      "epoch": 0.290625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.2713368733723958,
      "learning_rate": 0.0001,
      "loss": 7.4897,
      "loss/crossentropy": 2.15802264213562,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20108021795749664,
      "step": 4650
    },
    {
      "epoch": 0.29075,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.06603190104166666,
      "learning_rate": 0.0001,
      "loss": 7.5383,
      "loss/crossentropy": 2.215345621109009,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2371804639697075,
      "step": 4652
    },
    {
      "epoch": 0.290875,
      "grad_norm": 2.5,
      "grad_norm_var": 0.07634989420572917,
      "learning_rate": 0.0001,
      "loss": 7.274,
      "loss/crossentropy": 2.2180492281913757,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21646256744861603,
      "step": 4654
    },
    {
      "epoch": 0.291,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.07224019368489583,
      "learning_rate": 0.0001,
      "loss": 7.3643,
      "loss/crossentropy": 2.1802927255630493,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2141588106751442,
      "step": 4656
    },
    {
      "epoch": 0.291125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.04449462890625,
      "learning_rate": 0.0001,
      "loss": 7.649,
      "loss/crossentropy": 2.5158231258392334,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.243204727768898,
      "step": 4658
    },
    {
      "epoch": 0.29125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0333892822265625,
      "learning_rate": 0.0001,
      "loss": 7.463,
      "loss/crossentropy": 2.190263271331787,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21288666874170303,
      "step": 4660
    },
    {
      "epoch": 0.291375,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.0307281494140625,
      "learning_rate": 0.0001,
      "loss": 7.4629,
      "loss/crossentropy": 2.5436954498291016,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2295963317155838,
      "step": 4662
    },
    {
      "epoch": 0.2915,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.031201171875,
      "learning_rate": 0.0001,
      "loss": 7.5307,
      "loss/crossentropy": 2.388418436050415,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.21847142279148102,
      "step": 4664
    },
    {
      "epoch": 0.291625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.02662353515625,
      "learning_rate": 0.0001,
      "loss": 7.4585,
      "loss/crossentropy": 2.4331501722335815,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2292798087000847,
      "step": 4666
    },
    {
      "epoch": 0.29175,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.027144368489583334,
      "learning_rate": 0.0001,
      "loss": 7.2474,
      "loss/crossentropy": 2.1129366755485535,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.20572030544281006,
      "step": 4668
    },
    {
      "epoch": 0.291875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.010789998372395833,
      "learning_rate": 0.0001,
      "loss": 7.5378,
      "loss/crossentropy": 2.058245360851288,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20938818156719208,
      "step": 4670
    },
    {
      "epoch": 0.292,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.010204060872395834,
      "learning_rate": 0.0001,
      "loss": 7.5196,
      "loss/crossentropy": 2.34469473361969,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2339082881808281,
      "step": 4672
    },
    {
      "epoch": 0.292125,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.0115631103515625,
      "learning_rate": 0.0001,
      "loss": 7.2852,
      "loss/crossentropy": 2.3817514181137085,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21657159179449081,
      "step": 4674
    },
    {
      "epoch": 0.29225,
      "grad_norm": 2.125,
      "grad_norm_var": 0.016988118489583332,
      "learning_rate": 0.0001,
      "loss": 7.3871,
      "loss/crossentropy": 2.382703423500061,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2450731173157692,
      "step": 4676
    },
    {
      "epoch": 0.292375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.014615885416666667,
      "learning_rate": 0.0001,
      "loss": 7.4901,
      "loss/crossentropy": 2.296135663986206,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.26525241136550903,
      "step": 4678
    },
    {
      "epoch": 0.2925,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.012093098958333333,
      "learning_rate": 0.0001,
      "loss": 7.4537,
      "loss/crossentropy": 2.2322874069213867,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22614771127700806,
      "step": 4680
    },
    {
      "epoch": 0.292625,
      "grad_norm": 2.375,
      "grad_norm_var": 0.014232381184895834,
      "learning_rate": 0.0001,
      "loss": 7.3101,
      "loss/crossentropy": 2.408819079399109,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21294642984867096,
      "step": 4682
    },
    {
      "epoch": 0.29275,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.013434855143229167,
      "learning_rate": 0.0001,
      "loss": 7.3394,
      "loss/crossentropy": 2.1100034713745117,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22328343987464905,
      "step": 4684
    },
    {
      "epoch": 0.292875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0124664306640625,
      "learning_rate": 0.0001,
      "loss": 7.1731,
      "loss/crossentropy": 1.996330440044403,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18464084714651108,
      "step": 4686
    },
    {
      "epoch": 0.293,
      "grad_norm": 2.890625,
      "grad_norm_var": 0.035481770833333336,
      "learning_rate": 0.0001,
      "loss": 7.199,
      "loss/crossentropy": 2.1880674958229065,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2431424781680107,
      "step": 4688
    },
    {
      "epoch": 0.293125,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0387847900390625,
      "learning_rate": 0.0001,
      "loss": 7.2796,
      "loss/crossentropy": 2.326804280281067,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21799682080745697,
      "step": 4690
    },
    {
      "epoch": 0.29325,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.033524576822916666,
      "learning_rate": 0.0001,
      "loss": 7.5501,
      "loss/crossentropy": 2.309473156929016,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22959060966968536,
      "step": 4692
    },
    {
      "epoch": 0.293375,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.03308817545572917,
      "learning_rate": 0.0001,
      "loss": 7.4887,
      "loss/crossentropy": 2.607773542404175,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23161280155181885,
      "step": 4694
    },
    {
      "epoch": 0.2935,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.034333292643229166,
      "learning_rate": 0.0001,
      "loss": 7.1605,
      "loss/crossentropy": 2.140324115753174,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24282102286815643,
      "step": 4696
    },
    {
      "epoch": 0.293625,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.03413798014322917,
      "learning_rate": 0.0001,
      "loss": 7.4359,
      "loss/crossentropy": 2.1101192831993103,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2048392966389656,
      "step": 4698
    },
    {
      "epoch": 0.29375,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.040185546875,
      "learning_rate": 0.0001,
      "loss": 7.3764,
      "loss/crossentropy": 2.3710379600524902,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21764564514160156,
      "step": 4700
    },
    {
      "epoch": 0.293875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.03961181640625,
      "learning_rate": 0.0001,
      "loss": 7.4356,
      "loss/crossentropy": 2.3584975004196167,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2174394130706787,
      "step": 4702
    },
    {
      "epoch": 0.294,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.014957682291666666,
      "learning_rate": 0.0001,
      "loss": 7.4147,
      "loss/crossentropy": 2.118413209915161,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19888906925916672,
      "step": 4704
    },
    {
      "epoch": 0.294125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0112945556640625,
      "learning_rate": 0.0001,
      "loss": 7.3895,
      "loss/crossentropy": 2.2657341957092285,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23323117196559906,
      "step": 4706
    },
    {
      "epoch": 0.29425,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.012328084309895833,
      "learning_rate": 0.0001,
      "loss": 7.2587,
      "loss/crossentropy": 2.2151424884796143,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20538458228111267,
      "step": 4708
    },
    {
      "epoch": 0.294375,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.010152180989583334,
      "learning_rate": 0.0001,
      "loss": 7.4708,
      "loss/crossentropy": 2.5433419942855835,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26616372913122177,
      "step": 4710
    },
    {
      "epoch": 0.2945,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0125396728515625,
      "learning_rate": 0.0001,
      "loss": 7.2729,
      "loss/crossentropy": 2.154632091522217,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2053903043270111,
      "step": 4712
    },
    {
      "epoch": 0.294625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.01275634765625,
      "learning_rate": 0.0001,
      "loss": 7.4455,
      "loss/crossentropy": 2.3647114038467407,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22039730101823807,
      "step": 4714
    },
    {
      "epoch": 0.29475,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0086822509765625,
      "learning_rate": 0.0001,
      "loss": 7.2138,
      "loss/crossentropy": 2.1929028034210205,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21555405855178833,
      "step": 4716
    },
    {
      "epoch": 0.294875,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0091796875,
      "learning_rate": 0.0001,
      "loss": 7.36,
      "loss/crossentropy": 2.084302306175232,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21005475521087646,
      "step": 4718
    },
    {
      "epoch": 0.295,
      "grad_norm": 2.25,
      "grad_norm_var": 0.009765625,
      "learning_rate": 0.0001,
      "loss": 7.3237,
      "loss/crossentropy": 2.346268892288208,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22263453155755997,
      "step": 4720
    },
    {
      "epoch": 0.295125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.015034993489583334,
      "learning_rate": 0.0001,
      "loss": 7.2444,
      "loss/crossentropy": 2.268470883369446,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2138143628835678,
      "step": 4722
    },
    {
      "epoch": 0.29525,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.0237945556640625,
      "learning_rate": 0.0001,
      "loss": 7.6037,
      "loss/crossentropy": 2.326021194458008,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2048988789319992,
      "step": 4724
    },
    {
      "epoch": 0.295375,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.024811808268229166,
      "learning_rate": 0.0001,
      "loss": 7.3422,
      "loss/crossentropy": 2.193223237991333,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2141074314713478,
      "step": 4726
    },
    {
      "epoch": 0.2955,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0246978759765625,
      "learning_rate": 0.0001,
      "loss": 7.4967,
      "loss/crossentropy": 2.308136224746704,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21569503098726273,
      "step": 4728
    },
    {
      "epoch": 0.295625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0247711181640625,
      "learning_rate": 0.0001,
      "loss": 7.3277,
      "loss/crossentropy": 1.9237273931503296,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1951095387339592,
      "step": 4730
    },
    {
      "epoch": 0.29575,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.0256988525390625,
      "learning_rate": 0.0001,
      "loss": 7.3125,
      "loss/crossentropy": 2.059843420982361,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21607337892055511,
      "step": 4732
    },
    {
      "epoch": 0.295875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.030598958333333332,
      "learning_rate": 0.0001,
      "loss": 7.3797,
      "loss/crossentropy": 2.239774227142334,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24183505028486252,
      "step": 4734
    },
    {
      "epoch": 0.296,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.030663045247395833,
      "learning_rate": 0.0001,
      "loss": 7.4556,
      "loss/crossentropy": 2.37227463722229,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23292560875415802,
      "step": 4736
    },
    {
      "epoch": 0.296125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0251861572265625,
      "learning_rate": 0.0001,
      "loss": 7.304,
      "loss/crossentropy": 2.0044411420822144,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19409935921430588,
      "step": 4738
    },
    {
      "epoch": 0.29625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.018094889322916665,
      "learning_rate": 0.0001,
      "loss": 7.3915,
      "loss/crossentropy": 2.3123366832733154,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2075807899236679,
      "step": 4740
    },
    {
      "epoch": 0.296375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0167388916015625,
      "learning_rate": 0.0001,
      "loss": 7.3113,
      "loss/crossentropy": 1.761619508266449,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22059950977563858,
      "step": 4742
    },
    {
      "epoch": 0.2965,
      "grad_norm": 2.5,
      "grad_norm_var": 0.016584269205729165,
      "learning_rate": 0.0001,
      "loss": 7.5001,
      "loss/crossentropy": 2.106764078140259,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22241321206092834,
      "step": 4744
    },
    {
      "epoch": 0.296625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0156646728515625,
      "learning_rate": 0.0001,
      "loss": 7.4221,
      "loss/crossentropy": 2.1658183336257935,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2201010212302208,
      "step": 4746
    },
    {
      "epoch": 0.29675,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.014216105143229166,
      "learning_rate": 0.0001,
      "loss": 7.2877,
      "loss/crossentropy": 2.288554072380066,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21139442175626755,
      "step": 4748
    },
    {
      "epoch": 0.296875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.012132771809895833,
      "learning_rate": 0.0001,
      "loss": 7.291,
      "loss/crossentropy": 2.209873080253601,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23227518796920776,
      "step": 4750
    },
    {
      "epoch": 0.297,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.011668904622395834,
      "learning_rate": 0.0001,
      "loss": 7.3108,
      "loss/crossentropy": 2.2278741598129272,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.213672935962677,
      "step": 4752
    },
    {
      "epoch": 0.297125,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.014351399739583333,
      "learning_rate": 0.0001,
      "loss": 7.4632,
      "loss/crossentropy": 2.1707485914230347,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21832922846078873,
      "step": 4754
    },
    {
      "epoch": 0.29725,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.013277180989583333,
      "learning_rate": 0.0001,
      "loss": 7.3793,
      "loss/crossentropy": 2.068936765193939,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21937869489192963,
      "step": 4756
    },
    {
      "epoch": 0.297375,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.0177642822265625,
      "learning_rate": 0.0001,
      "loss": 7.4439,
      "loss/crossentropy": 2.4402244091033936,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2264351323246956,
      "step": 4758
    },
    {
      "epoch": 0.2975,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.029377237955729166,
      "learning_rate": 0.0001,
      "loss": 7.4963,
      "loss/crossentropy": 2.351226568222046,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23098966479301453,
      "step": 4760
    },
    {
      "epoch": 0.297625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.03259989420572917,
      "learning_rate": 0.0001,
      "loss": 7.392,
      "loss/crossentropy": 1.9955863952636719,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21300213038921356,
      "step": 4762
    },
    {
      "epoch": 0.29775,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.03186848958333333,
      "learning_rate": 0.0001,
      "loss": 7.5055,
      "loss/crossentropy": 2.4948599338531494,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2379990816116333,
      "step": 4764
    },
    {
      "epoch": 0.297875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0257720947265625,
      "learning_rate": 0.0001,
      "loss": 7.3315,
      "loss/crossentropy": 1.780558168888092,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19055156409740448,
      "step": 4766
    },
    {
      "epoch": 0.298,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0232086181640625,
      "learning_rate": 0.0001,
      "loss": 7.4719,
      "loss/crossentropy": 2.25586998462677,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2168411985039711,
      "step": 4768
    },
    {
      "epoch": 0.298125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.021703084309895832,
      "learning_rate": 0.0001,
      "loss": 7.3451,
      "loss/crossentropy": 2.1937352418899536,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21270034462213516,
      "step": 4770
    },
    {
      "epoch": 0.29825,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.019123331705729166,
      "learning_rate": 0.0001,
      "loss": 7.4653,
      "loss/crossentropy": 2.2712541818618774,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23585833609104156,
      "step": 4772
    },
    {
      "epoch": 0.298375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0224609375,
      "learning_rate": 0.0001,
      "loss": 7.392,
      "loss/crossentropy": 2.311362624168396,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21948038041591644,
      "step": 4774
    },
    {
      "epoch": 0.2985,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.010936482747395834,
      "learning_rate": 0.0001,
      "loss": 7.5252,
      "loss/crossentropy": 2.5121726989746094,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23548902571201324,
      "step": 4776
    },
    {
      "epoch": 0.298625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.010725911458333333,
      "learning_rate": 0.0001,
      "loss": 7.4346,
      "loss/crossentropy": 2.352226734161377,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2144220471382141,
      "step": 4778
    },
    {
      "epoch": 0.29875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0104156494140625,
      "learning_rate": 0.0001,
      "loss": 7.3003,
      "loss/crossentropy": 1.966825008392334,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20474375039339066,
      "step": 4780
    },
    {
      "epoch": 0.298875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.01158447265625,
      "learning_rate": 0.0001,
      "loss": 7.2383,
      "loss/crossentropy": 2.2786693572998047,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22437963634729385,
      "step": 4782
    },
    {
      "epoch": 0.299,
      "grad_norm": 2.125,
      "grad_norm_var": 0.012821451822916666,
      "learning_rate": 0.0001,
      "loss": 7.314,
      "loss/crossentropy": 2.1766642332077026,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21804757416248322,
      "step": 4784
    },
    {
      "epoch": 0.299125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0131988525390625,
      "learning_rate": 0.0001,
      "loss": 7.3039,
      "loss/crossentropy": 2.009239912033081,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19700751453638077,
      "step": 4786
    },
    {
      "epoch": 0.29925,
      "grad_norm": 3.109375,
      "grad_norm_var": 0.0577545166015625,
      "learning_rate": 0.0001,
      "loss": 7.3357,
      "loss/crossentropy": 2.127845048904419,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21124648302793503,
      "step": 4788
    },
    {
      "epoch": 0.299375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0581695556640625,
      "learning_rate": 0.0001,
      "loss": 7.3315,
      "loss/crossentropy": 2.303865075111389,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22746270895004272,
      "step": 4790
    },
    {
      "epoch": 0.2995,
      "grad_norm": 2.375,
      "grad_norm_var": 0.058984375,
      "learning_rate": 0.0001,
      "loss": 7.3872,
      "loss/crossentropy": 2.15032958984375,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21064457297325134,
      "step": 4792
    },
    {
      "epoch": 0.299625,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.059544881184895836,
      "learning_rate": 0.0001,
      "loss": 7.4218,
      "loss/crossentropy": 1.9902217388153076,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2275134027004242,
      "step": 4794
    },
    {
      "epoch": 0.29975,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.061421712239583336,
      "learning_rate": 0.0001,
      "loss": 7.3493,
      "loss/crossentropy": 2.365830898284912,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22473762929439545,
      "step": 4796
    },
    {
      "epoch": 0.299875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.061253865559895836,
      "learning_rate": 0.0001,
      "loss": 7.2287,
      "loss/crossentropy": 2.406466007232666,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2222784459590912,
      "step": 4798
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.06142578125,
      "learning_rate": 0.0001,
      "loss": 7.4167,
      "loss/crossentropy": 2.2407450675964355,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2090248540043831,
      "step": 4800
    },
    {
      "epoch": 0.300125,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.05963134765625,
      "learning_rate": 0.0001,
      "loss": 7.3583,
      "loss/crossentropy": 2.3130555152893066,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21969569474458694,
      "step": 4802
    },
    {
      "epoch": 0.30025,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0265625,
      "learning_rate": 0.0001,
      "loss": 7.2996,
      "loss/crossentropy": 2.301561713218689,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21655967831611633,
      "step": 4804
    },
    {
      "epoch": 0.300375,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.02265625,
      "learning_rate": 0.0001,
      "loss": 7.3977,
      "loss/crossentropy": 2.4715986251831055,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22068122029304504,
      "step": 4806
    },
    {
      "epoch": 0.3005,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.0252838134765625,
      "learning_rate": 0.0001,
      "loss": 7.3491,
      "loss/crossentropy": 2.0583669543266296,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2092050388455391,
      "step": 4808
    },
    {
      "epoch": 0.300625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.026447550455729166,
      "learning_rate": 0.0001,
      "loss": 7.4016,
      "loss/crossentropy": 2.222812056541443,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20580071210861206,
      "step": 4810
    },
    {
      "epoch": 0.30075,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.027692667643229165,
      "learning_rate": 0.0001,
      "loss": 7.3078,
      "loss/crossentropy": 2.467105746269226,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21557529270648956,
      "step": 4812
    },
    {
      "epoch": 0.300875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.029719034830729168,
      "learning_rate": 0.0001,
      "loss": 7.4463,
      "loss/crossentropy": 2.0972548127174377,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22322270274162292,
      "step": 4814
    },
    {
      "epoch": 0.301,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0301910400390625,
      "learning_rate": 0.0001,
      "loss": 7.3009,
      "loss/crossentropy": 2.113277792930603,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21659619361162186,
      "step": 4816
    },
    {
      "epoch": 0.301125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.02880859375,
      "learning_rate": 0.0001,
      "loss": 7.3721,
      "loss/crossentropy": 2.483347177505493,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2171446457505226,
      "step": 4818
    },
    {
      "epoch": 0.30125,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.026927693684895834,
      "learning_rate": 0.0001,
      "loss": 7.3889,
      "loss/crossentropy": 2.417271375656128,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22507987171411514,
      "step": 4820
    },
    {
      "epoch": 0.301375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.02681884765625,
      "learning_rate": 0.0001,
      "loss": 7.4797,
      "loss/crossentropy": 2.3490647077560425,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2174646332859993,
      "step": 4822
    },
    {
      "epoch": 0.3015,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.020164998372395833,
      "learning_rate": 0.0001,
      "loss": 7.5363,
      "loss/crossentropy": 2.400337815284729,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2227081060409546,
      "step": 4824
    },
    {
      "epoch": 0.301625,
      "grad_norm": 3.0,
      "grad_norm_var": 0.04592692057291667,
      "learning_rate": 0.0001,
      "loss": 7.4569,
      "loss/crossentropy": 2.2321704030036926,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24002033472061157,
      "step": 4826
    },
    {
      "epoch": 0.30175,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.04690348307291667,
      "learning_rate": 0.0001,
      "loss": 7.5359,
      "loss/crossentropy": 2.3871182203292847,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20659293234348297,
      "step": 4828
    },
    {
      "epoch": 0.301875,
      "grad_norm": 3.28125,
      "grad_norm_var": 0.09729410807291666,
      "learning_rate": 0.0001,
      "loss": 7.4514,
      "loss/crossentropy": 2.4146281480789185,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22511692345142365,
      "step": 4830
    },
    {
      "epoch": 0.302,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.09411519368489583,
      "learning_rate": 0.0001,
      "loss": 7.3884,
      "loss/crossentropy": 2.3637466430664062,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20597800612449646,
      "step": 4832
    },
    {
      "epoch": 0.302125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.10143229166666666,
      "learning_rate": 0.0001,
      "loss": 7.4427,
      "loss/crossentropy": 2.363954782485962,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21014075726270676,
      "step": 4834
    },
    {
      "epoch": 0.30225,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0969146728515625,
      "learning_rate": 0.0001,
      "loss": 7.2434,
      "loss/crossentropy": 2.245696544647217,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20109941810369492,
      "step": 4836
    },
    {
      "epoch": 0.302375,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.09761962890625,
      "learning_rate": 0.0001,
      "loss": 7.3634,
      "loss/crossentropy": 2.1231839656829834,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2174079716205597,
      "step": 4838
    },
    {
      "epoch": 0.3025,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.11103108723958334,
      "learning_rate": 0.0001,
      "loss": 7.2504,
      "loss/crossentropy": 2.1823160648345947,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21924307942390442,
      "step": 4840
    },
    {
      "epoch": 0.302625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.08931884765625,
      "learning_rate": 0.0001,
      "loss": 7.4531,
      "loss/crossentropy": 2.3826904296875,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21867043524980545,
      "step": 4842
    },
    {
      "epoch": 0.30275,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.08771158854166666,
      "learning_rate": 0.0001,
      "loss": 7.3825,
      "loss/crossentropy": 2.2450802326202393,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2196601778268814,
      "step": 4844
    },
    {
      "epoch": 0.302875,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.03821207682291667,
      "learning_rate": 0.0001,
      "loss": 7.5146,
      "loss/crossentropy": 2.1403591632843018,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2133881226181984,
      "step": 4846
    },
    {
      "epoch": 0.303,
      "grad_norm": 2.25,
      "grad_norm_var": 0.06558329264322917,
      "learning_rate": 0.0001,
      "loss": 7.435,
      "loss/crossentropy": 2.14195853471756,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19571785628795624,
      "step": 4848
    },
    {
      "epoch": 0.303125,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.060221354166666664,
      "learning_rate": 0.0001,
      "loss": 7.4894,
      "loss/crossentropy": 2.2988877296447754,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22777371853590012,
      "step": 4850
    },
    {
      "epoch": 0.30325,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.06297098795572917,
      "learning_rate": 0.0001,
      "loss": 7.3589,
      "loss/crossentropy": 2.390594482421875,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2120780646800995,
      "step": 4852
    },
    {
      "epoch": 0.303375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.06382548014322917,
      "learning_rate": 0.0001,
      "loss": 7.4284,
      "loss/crossentropy": 2.379095196723938,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20808186382055283,
      "step": 4854
    },
    {
      "epoch": 0.3035,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0565093994140625,
      "learning_rate": 0.0001,
      "loss": 7.4303,
      "loss/crossentropy": 2.398724317550659,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22028641402721405,
      "step": 4856
    },
    {
      "epoch": 0.303625,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.0544097900390625,
      "learning_rate": 0.0001,
      "loss": 7.5402,
      "loss/crossentropy": 2.4652938842773438,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23258233815431595,
      "step": 4858
    },
    {
      "epoch": 0.30375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0521148681640625,
      "learning_rate": 0.0001,
      "loss": 7.5154,
      "loss/crossentropy": 2.15559184551239,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2242182418704033,
      "step": 4860
    },
    {
      "epoch": 0.303875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.04914449055989583,
      "learning_rate": 0.0001,
      "loss": 7.516,
      "loss/crossentropy": 2.3568320274353027,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22093456983566284,
      "step": 4862
    },
    {
      "epoch": 0.304,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.018382771809895834,
      "learning_rate": 0.0001,
      "loss": 7.303,
      "loss/crossentropy": 2.130435824394226,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20797330886125565,
      "step": 4864
    },
    {
      "epoch": 0.304125,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.017659505208333332,
      "learning_rate": 0.0001,
      "loss": 7.5087,
      "loss/crossentropy": 2.1923974752426147,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2099837362766266,
      "step": 4866
    },
    {
      "epoch": 0.30425,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.018993123372395834,
      "learning_rate": 0.0001,
      "loss": 7.5138,
      "loss/crossentropy": 2.3074164986610413,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21502834558486938,
      "step": 4868
    },
    {
      "epoch": 0.304375,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.023274739583333332,
      "learning_rate": 0.0001,
      "loss": 7.6134,
      "loss/crossentropy": 2.399793028831482,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2250315099954605,
      "step": 4870
    },
    {
      "epoch": 0.3045,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.021906534830729168,
      "learning_rate": 0.0001,
      "loss": 7.4322,
      "loss/crossentropy": 2.5476996898651123,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21240823715925217,
      "step": 4872
    },
    {
      "epoch": 0.304625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.022847493489583332,
      "learning_rate": 0.0001,
      "loss": 7.3043,
      "loss/crossentropy": 2.406996250152588,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21996094286441803,
      "step": 4874
    },
    {
      "epoch": 0.30475,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.02496337890625,
      "learning_rate": 0.0001,
      "loss": 7.2396,
      "loss/crossentropy": 2.1408446431159973,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.212337464094162,
      "step": 4876
    },
    {
      "epoch": 0.304875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.022932942708333334,
      "learning_rate": 0.0001,
      "loss": 7.3172,
      "loss/crossentropy": 2.0700973868370056,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21268072724342346,
      "step": 4878
    },
    {
      "epoch": 0.305,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.023412068684895832,
      "learning_rate": 0.0001,
      "loss": 7.3727,
      "loss/crossentropy": 2.317967474460602,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22330276668071747,
      "step": 4880
    },
    {
      "epoch": 0.305125,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.020633951822916666,
      "learning_rate": 0.0001,
      "loss": 7.4016,
      "loss/crossentropy": 2.3994847536087036,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2378486543893814,
      "step": 4882
    },
    {
      "epoch": 0.30525,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.028446451822916666,
      "learning_rate": 0.0001,
      "loss": 7.3097,
      "loss/crossentropy": 2.103451728820801,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20587532967329025,
      "step": 4884
    },
    {
      "epoch": 0.305375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.019172159830729167,
      "learning_rate": 0.0001,
      "loss": 7.2349,
      "loss/crossentropy": 2.2608002424240112,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21245233714580536,
      "step": 4886
    },
    {
      "epoch": 0.3055,
      "grad_norm": 2.25,
      "grad_norm_var": 0.018586222330729166,
      "learning_rate": 0.0001,
      "loss": 7.4389,
      "loss/crossentropy": 2.401768207550049,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22278450429439545,
      "step": 4888
    },
    {
      "epoch": 0.305625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.018798828125,
      "learning_rate": 0.0001,
      "loss": 7.3505,
      "loss/crossentropy": 2.100538969039917,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23200103640556335,
      "step": 4890
    },
    {
      "epoch": 0.30575,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.03186442057291667,
      "learning_rate": 0.0001,
      "loss": 7.2995,
      "loss/crossentropy": 2.3301326036453247,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24110360443592072,
      "step": 4892
    },
    {
      "epoch": 0.305875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.03230692545572917,
      "learning_rate": 0.0001,
      "loss": 7.3208,
      "loss/crossentropy": 2.4211736917495728,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22261983156204224,
      "step": 4894
    },
    {
      "epoch": 0.306,
      "grad_norm": 2.125,
      "grad_norm_var": 0.030964152018229166,
      "learning_rate": 0.0001,
      "loss": 7.2336,
      "loss/crossentropy": 2.1695640087127686,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20674562454223633,
      "step": 4896
    },
    {
      "epoch": 0.306125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.031769816080729166,
      "learning_rate": 0.0001,
      "loss": 7.2113,
      "loss/crossentropy": 2.0899396538734436,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20201702415943146,
      "step": 4898
    },
    {
      "epoch": 0.30625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.025055948893229166,
      "learning_rate": 0.0001,
      "loss": 7.1833,
      "loss/crossentropy": 2.3102033138275146,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22870182991027832,
      "step": 4900
    },
    {
      "epoch": 0.306375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.024462890625,
      "learning_rate": 0.0001,
      "loss": 7.429,
      "loss/crossentropy": 2.093406856060028,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21099549531936646,
      "step": 4902
    },
    {
      "epoch": 0.3065,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.024054972330729167,
      "learning_rate": 0.0001,
      "loss": 7.2861,
      "loss/crossentropy": 2.1686906814575195,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20351973176002502,
      "step": 4904
    },
    {
      "epoch": 0.306625,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.024247233072916666,
      "learning_rate": 0.0001,
      "loss": 7.4273,
      "loss/crossentropy": 2.0178955793380737,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2049720138311386,
      "step": 4906
    },
    {
      "epoch": 0.30675,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.00933837890625,
      "learning_rate": 0.0001,
      "loss": 7.3421,
      "loss/crossentropy": 2.164846181869507,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20680507272481918,
      "step": 4908
    },
    {
      "epoch": 0.306875,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.009398396809895833,
      "learning_rate": 0.0001,
      "loss": 7.3451,
      "loss/crossentropy": 2.324475646018982,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22731740027666092,
      "step": 4910
    },
    {
      "epoch": 0.307,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.009642537434895833,
      "learning_rate": 0.0001,
      "loss": 7.3873,
      "loss/crossentropy": 2.7607351541519165,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.239481620490551,
      "step": 4912
    },
    {
      "epoch": 0.307125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0101470947265625,
      "learning_rate": 0.0001,
      "loss": 7.3776,
      "loss/crossentropy": 2.286571979522705,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2324925810098648,
      "step": 4914
    },
    {
      "epoch": 0.30725,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.009251912434895834,
      "learning_rate": 0.0001,
      "loss": 7.4509,
      "loss/crossentropy": 2.0468556880950928,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.220846489071846,
      "step": 4916
    },
    {
      "epoch": 0.307375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.017464192708333333,
      "learning_rate": 0.0001,
      "loss": 7.4308,
      "loss/crossentropy": 2.3432207107543945,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21841663122177124,
      "step": 4918
    },
    {
      "epoch": 0.3075,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.0173248291015625,
      "learning_rate": 0.0001,
      "loss": 7.3261,
      "loss/crossentropy": 1.9974586367607117,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20223890990018845,
      "step": 4920
    },
    {
      "epoch": 0.307625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017601521809895833,
      "learning_rate": 0.0001,
      "loss": 7.3917,
      "loss/crossentropy": 2.1487491130828857,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20649082213640213,
      "step": 4922
    },
    {
      "epoch": 0.30775,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.016162109375,
      "learning_rate": 0.0001,
      "loss": 7.3709,
      "loss/crossentropy": 2.0778582096099854,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2082173004746437,
      "step": 4924
    },
    {
      "epoch": 0.307875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0177642822265625,
      "learning_rate": 0.0001,
      "loss": 7.4308,
      "loss/crossentropy": 2.4916462898254395,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23393811285495758,
      "step": 4926
    },
    {
      "epoch": 0.308,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.016893513997395835,
      "learning_rate": 0.0001,
      "loss": 7.2895,
      "loss/crossentropy": 2.1852511167526245,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1971207559108734,
      "step": 4928
    },
    {
      "epoch": 0.308125,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.014404296875,
      "learning_rate": 0.0001,
      "loss": 7.4778,
      "loss/crossentropy": 2.4292192459106445,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20822913944721222,
      "step": 4930
    },
    {
      "epoch": 0.30825,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.017508951822916667,
      "learning_rate": 0.0001,
      "loss": 7.3199,
      "loss/crossentropy": 2.162381172180176,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21929100155830383,
      "step": 4932
    },
    {
      "epoch": 0.308375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.00947265625,
      "learning_rate": 0.0001,
      "loss": 7.325,
      "loss/crossentropy": 2.1474106311798096,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2182038575410843,
      "step": 4934
    },
    {
      "epoch": 0.3085,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.009033203125,
      "learning_rate": 0.0001,
      "loss": 7.4231,
      "loss/crossentropy": 2.2566583156585693,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20229701697826385,
      "step": 4936
    },
    {
      "epoch": 0.308625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0088775634765625,
      "learning_rate": 0.0001,
      "loss": 7.4338,
      "loss/crossentropy": 2.361881971359253,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22635971009731293,
      "step": 4938
    },
    {
      "epoch": 0.30875,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.014403279622395833,
      "learning_rate": 0.0001,
      "loss": 7.4386,
      "loss/crossentropy": 2.214319109916687,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23132434487342834,
      "step": 4940
    },
    {
      "epoch": 0.308875,
      "grad_norm": 2.5,
      "grad_norm_var": 0.016576131184895832,
      "learning_rate": 0.0001,
      "loss": 7.3068,
      "loss/crossentropy": 2.063450336456299,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20887789130210876,
      "step": 4942
    },
    {
      "epoch": 0.309,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.018062337239583334,
      "learning_rate": 0.0001,
      "loss": 7.3097,
      "loss/crossentropy": 2.1654560565948486,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20234611630439758,
      "step": 4944
    },
    {
      "epoch": 0.309125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0166168212890625,
      "learning_rate": 0.0001,
      "loss": 7.3565,
      "loss/crossentropy": 2.086349129676819,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1944892778992653,
      "step": 4946
    },
    {
      "epoch": 0.30925,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.015819295247395834,
      "learning_rate": 0.0001,
      "loss": 7.4902,
      "loss/crossentropy": 2.4319673776626587,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2345517948269844,
      "step": 4948
    },
    {
      "epoch": 0.309375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.015869140625,
      "learning_rate": 0.0001,
      "loss": 7.3198,
      "loss/crossentropy": 2.2893803119659424,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21564996242523193,
      "step": 4950
    },
    {
      "epoch": 0.3095,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0133697509765625,
      "learning_rate": 0.0001,
      "loss": 7.3128,
      "loss/crossentropy": 2.2920368909835815,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.227824367582798,
      "step": 4952
    },
    {
      "epoch": 0.309625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0130035400390625,
      "learning_rate": 0.0001,
      "loss": 7.2905,
      "loss/crossentropy": 2.1902358531951904,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22382274270057678,
      "step": 4954
    },
    {
      "epoch": 0.30975,
      "grad_norm": 2.25,
      "grad_norm_var": 0.008885701497395834,
      "learning_rate": 0.0001,
      "loss": 7.1857,
      "loss/crossentropy": 2.1179298162460327,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19988138228654861,
      "step": 4956
    },
    {
      "epoch": 0.309875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0048980712890625,
      "learning_rate": 0.0001,
      "loss": 7.3741,
      "loss/crossentropy": 2.7137014865875244,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2347271665930748,
      "step": 4958
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0032379150390625,
      "learning_rate": 0.0001,
      "loss": 7.5647,
      "loss/crossentropy": 2.31722891330719,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21784493327140808,
      "step": 4960
    },
    {
      "epoch": 0.310125,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.0297760009765625,
      "learning_rate": 0.0001,
      "loss": 7.5544,
      "loss/crossentropy": 2.3354387283325195,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2259213700890541,
      "step": 4962
    },
    {
      "epoch": 0.31025,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.0390777587890625,
      "learning_rate": 0.0001,
      "loss": 7.2878,
      "loss/crossentropy": 1.9992610216140747,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.206348218023777,
      "step": 4964
    },
    {
      "epoch": 0.310375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.041304524739583334,
      "learning_rate": 0.0001,
      "loss": 7.1877,
      "loss/crossentropy": 2.0673335790634155,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21330340206623077,
      "step": 4966
    },
    {
      "epoch": 0.3105,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.04544270833333333,
      "learning_rate": 0.0001,
      "loss": 7.2614,
      "loss/crossentropy": 2.302871584892273,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2201063483953476,
      "step": 4968
    },
    {
      "epoch": 0.310625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.0468414306640625,
      "learning_rate": 0.0001,
      "loss": 7.4131,
      "loss/crossentropy": 2.3394633531570435,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2507524937391281,
      "step": 4970
    },
    {
      "epoch": 0.31075,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.04869384765625,
      "learning_rate": 0.0001,
      "loss": 7.5202,
      "loss/crossentropy": 2.5619258880615234,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2357812374830246,
      "step": 4972
    },
    {
      "epoch": 0.310875,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.05373433430989583,
      "learning_rate": 0.0001,
      "loss": 7.3841,
      "loss/crossentropy": 2.0160459876060486,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22442921996116638,
      "step": 4974
    },
    {
      "epoch": 0.311,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0671875,
      "learning_rate": 0.0001,
      "loss": 7.4319,
      "loss/crossentropy": 2.474762439727783,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22143270820379257,
      "step": 4976
    },
    {
      "epoch": 0.311125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.04348551432291667,
      "learning_rate": 0.0001,
      "loss": 7.3106,
      "loss/crossentropy": 2.3460559844970703,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21027249097824097,
      "step": 4978
    },
    {
      "epoch": 0.31125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0361328125,
      "learning_rate": 0.0001,
      "loss": 7.2274,
      "loss/crossentropy": 1.8983039855957031,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19185489416122437,
      "step": 4980
    },
    {
      "epoch": 0.311375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0352447509765625,
      "learning_rate": 0.0001,
      "loss": 7.5014,
      "loss/crossentropy": 2.4294410943984985,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21551431715488434,
      "step": 4982
    },
    {
      "epoch": 0.3115,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.030516560872395834,
      "learning_rate": 0.0001,
      "loss": 7.1866,
      "loss/crossentropy": 2.183108687400818,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21338380873203278,
      "step": 4984
    },
    {
      "epoch": 0.311625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.033463541666666666,
      "learning_rate": 0.0001,
      "loss": 7.3706,
      "loss/crossentropy": 2.182175934314728,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21428421884775162,
      "step": 4986
    },
    {
      "epoch": 0.31175,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.031468709309895836,
      "learning_rate": 0.0001,
      "loss": 7.5321,
      "loss/crossentropy": 2.381687641143799,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21604669839143753,
      "step": 4988
    },
    {
      "epoch": 0.311875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.02672119140625,
      "learning_rate": 0.0001,
      "loss": 7.3109,
      "loss/crossentropy": 2.211581826210022,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22757954895496368,
      "step": 4990
    },
    {
      "epoch": 0.312,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.012214152018229167,
      "learning_rate": 0.0001,
      "loss": 7.3448,
      "loss/crossentropy": 2.164597749710083,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.229446142911911,
      "step": 4992
    },
    {
      "epoch": 0.312125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.009943644205729166,
      "learning_rate": 0.0001,
      "loss": 7.2848,
      "loss/crossentropy": 2.303720474243164,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21908074617385864,
      "step": 4994
    },
    {
      "epoch": 0.31225,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.011351521809895833,
      "learning_rate": 0.0001,
      "loss": 7.4035,
      "loss/crossentropy": 2.4575328826904297,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22248198091983795,
      "step": 4996
    },
    {
      "epoch": 0.312375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.018700154622395833,
      "learning_rate": 0.0001,
      "loss": 7.507,
      "loss/crossentropy": 2.3077362775802612,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21921824663877487,
      "step": 4998
    },
    {
      "epoch": 0.3125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.017406209309895834,
      "learning_rate": 0.0001,
      "loss": 7.3155,
      "loss/crossentropy": 2.1894084215164185,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21899671852588654,
      "step": 5000
    },
    {
      "epoch": 0.312625,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.015135701497395833,
      "learning_rate": 0.0001,
      "loss": 7.3408,
      "loss/crossentropy": 2.262491822242737,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19611389189958572,
      "step": 5002
    },
    {
      "epoch": 0.31275,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.01842041015625,
      "learning_rate": 0.0001,
      "loss": 7.2152,
      "loss/crossentropy": 1.982454240322113,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20768950879573822,
      "step": 5004
    },
    {
      "epoch": 0.312875,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.023763020833333332,
      "learning_rate": 0.0001,
      "loss": 7.2139,
      "loss/crossentropy": 2.2430403232574463,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21962688863277435,
      "step": 5006
    },
    {
      "epoch": 0.313,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.027595011393229167,
      "learning_rate": 0.0001,
      "loss": 7.3438,
      "loss/crossentropy": 2.3544063568115234,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22437047958374023,
      "step": 5008
    },
    {
      "epoch": 0.313125,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.03183186848958333,
      "learning_rate": 0.0001,
      "loss": 7.3206,
      "loss/crossentropy": 2.342305541038513,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2293403297662735,
      "step": 5010
    },
    {
      "epoch": 0.31325,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.031769816080729166,
      "learning_rate": 0.0001,
      "loss": 7.2882,
      "loss/crossentropy": 2.2680485248565674,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22678761184215546,
      "step": 5012
    },
    {
      "epoch": 0.313375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.024507649739583335,
      "learning_rate": 0.0001,
      "loss": 7.4037,
      "loss/crossentropy": 2.13227915763855,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20939987897872925,
      "step": 5014
    },
    {
      "epoch": 0.3135,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0258697509765625,
      "learning_rate": 0.0001,
      "loss": 7.3085,
      "loss/crossentropy": 2.2183371782302856,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22399604320526123,
      "step": 5016
    },
    {
      "epoch": 0.313625,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.023534138997395832,
      "learning_rate": 0.0001,
      "loss": 7.3265,
      "loss/crossentropy": 2.3377569913864136,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21345963329076767,
      "step": 5018
    },
    {
      "epoch": 0.31375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.022001139322916665,
      "learning_rate": 0.0001,
      "loss": 7.203,
      "loss/crossentropy": 2.2402291893959045,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2167833298444748,
      "step": 5020
    },
    {
      "epoch": 0.313875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0185211181640625,
      "learning_rate": 0.0001,
      "loss": 7.1242,
      "loss/crossentropy": 2.1168267726898193,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20187420397996902,
      "step": 5022
    },
    {
      "epoch": 0.314,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.017838541666666666,
      "learning_rate": 0.0001,
      "loss": 7.3825,
      "loss/crossentropy": 2.1705461740493774,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21749653667211533,
      "step": 5024
    },
    {
      "epoch": 0.314125,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.015705362955729166,
      "learning_rate": 0.0001,
      "loss": 7.3272,
      "loss/crossentropy": 2.2871659994125366,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23058424144983292,
      "step": 5026
    },
    {
      "epoch": 0.31425,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0137359619140625,
      "learning_rate": 0.0001,
      "loss": 7.3611,
      "loss/crossentropy": 2.341141700744629,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23287169635295868,
      "step": 5028
    },
    {
      "epoch": 0.314375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.013993326822916667,
      "learning_rate": 0.0001,
      "loss": 7.3674,
      "loss/crossentropy": 1.9995309114456177,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20135702937841415,
      "step": 5030
    },
    {
      "epoch": 0.3145,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.012694295247395833,
      "learning_rate": 0.0001,
      "loss": 7.2974,
      "loss/crossentropy": 2.396213173866272,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22502055764198303,
      "step": 5032
    },
    {
      "epoch": 0.314625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.014188639322916667,
      "learning_rate": 0.0001,
      "loss": 7.3376,
      "loss/crossentropy": 2.290814518928528,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21020909398794174,
      "step": 5034
    },
    {
      "epoch": 0.31475,
      "grad_norm": 2.0,
      "grad_norm_var": 0.017414347330729166,
      "learning_rate": 0.0001,
      "loss": 7.2327,
      "loss/crossentropy": 2.5261220932006836,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21174553781747818,
      "step": 5036
    },
    {
      "epoch": 0.314875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.020197550455729168,
      "learning_rate": 0.0001,
      "loss": 7.2107,
      "loss/crossentropy": 2.3141993284225464,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21525625884532928,
      "step": 5038
    },
    {
      "epoch": 0.315,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.04215087890625,
      "learning_rate": 0.0001,
      "loss": 7.3146,
      "loss/crossentropy": 2.3335756063461304,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21623239666223526,
      "step": 5040
    },
    {
      "epoch": 0.315125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.045633951822916664,
      "learning_rate": 0.0001,
      "loss": 7.2735,
      "loss/crossentropy": 2.2438907623291016,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22927288711071014,
      "step": 5042
    },
    {
      "epoch": 0.31525,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.047261555989583336,
      "learning_rate": 0.0001,
      "loss": 7.4352,
      "loss/crossentropy": 2.2331418991088867,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21440240740776062,
      "step": 5044
    },
    {
      "epoch": 0.315375,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.0459136962890625,
      "learning_rate": 0.0001,
      "loss": 7.4132,
      "loss/crossentropy": 2.272444486618042,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2074766531586647,
      "step": 5046
    },
    {
      "epoch": 0.3155,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.047526041666666664,
      "learning_rate": 0.0001,
      "loss": 7.1822,
      "loss/crossentropy": 2.2327855825424194,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23146355152130127,
      "step": 5048
    },
    {
      "epoch": 0.315625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.048151652018229164,
      "learning_rate": 0.0001,
      "loss": 7.1235,
      "loss/crossentropy": 2.138622522354126,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2159329056739807,
      "step": 5050
    },
    {
      "epoch": 0.31575,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.03786519368489583,
      "learning_rate": 0.0001,
      "loss": 7.3683,
      "loss/crossentropy": 2.407191514968872,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2199866697192192,
      "step": 5052
    },
    {
      "epoch": 0.315875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.03487955729166667,
      "learning_rate": 0.0001,
      "loss": 7.3308,
      "loss/crossentropy": 2.131745457649231,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.209860198199749,
      "step": 5054
    },
    {
      "epoch": 0.316,
      "grad_norm": 2.125,
      "grad_norm_var": 0.018387858072916666,
      "learning_rate": 0.0001,
      "loss": 7.2193,
      "loss/crossentropy": 2.0351319909095764,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2149025946855545,
      "step": 5056
    },
    {
      "epoch": 0.316125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.014046223958333333,
      "learning_rate": 0.0001,
      "loss": 7.1825,
      "loss/crossentropy": 2.4224579334259033,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21975557506084442,
      "step": 5058
    },
    {
      "epoch": 0.31625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.015070597330729166,
      "learning_rate": 0.0001,
      "loss": 7.273,
      "loss/crossentropy": 2.1384547352790833,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2082139551639557,
      "step": 5060
    },
    {
      "epoch": 0.316375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.013044230143229167,
      "learning_rate": 0.0001,
      "loss": 7.3584,
      "loss/crossentropy": 2.4295462369918823,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22232317924499512,
      "step": 5062
    },
    {
      "epoch": 0.3165,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0131256103515625,
      "learning_rate": 0.0001,
      "loss": 7.3255,
      "loss/crossentropy": 2.2445785999298096,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2112947255373001,
      "step": 5064
    },
    {
      "epoch": 0.316625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0092193603515625,
      "learning_rate": 0.0001,
      "loss": 7.3904,
      "loss/crossentropy": 2.491084575653076,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23876774311065674,
      "step": 5066
    },
    {
      "epoch": 0.31675,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.00875244140625,
      "learning_rate": 0.0001,
      "loss": 7.3886,
      "loss/crossentropy": 2.209762454032898,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21998873353004456,
      "step": 5068
    },
    {
      "epoch": 0.316875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.007373046875,
      "learning_rate": 0.0001,
      "loss": 7.354,
      "loss/crossentropy": 2.184313654899597,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21638303250074387,
      "step": 5070
    },
    {
      "epoch": 0.317,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.00654296875,
      "learning_rate": 0.0001,
      "loss": 7.2445,
      "loss/crossentropy": 1.932084858417511,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20044665038585663,
      "step": 5072
    },
    {
      "epoch": 0.317125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.00751953125,
      "learning_rate": 0.0001,
      "loss": 7.147,
      "loss/crossentropy": 2.099605619907379,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1961287409067154,
      "step": 5074
    },
    {
      "epoch": 0.31725,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.0076080322265625,
      "learning_rate": 0.0001,
      "loss": 7.4359,
      "loss/crossentropy": 2.4930461645126343,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19766415655612946,
      "step": 5076
    },
    {
      "epoch": 0.317375,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.009847005208333334,
      "learning_rate": 0.0001,
      "loss": 7.2892,
      "loss/crossentropy": 2.0933732390403748,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2190747633576393,
      "step": 5078
    },
    {
      "epoch": 0.3175,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.009794108072916667,
      "learning_rate": 0.0001,
      "loss": 7.2631,
      "loss/crossentropy": 2.2265865802764893,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19832175970077515,
      "step": 5080
    },
    {
      "epoch": 0.317625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.012955729166666667,
      "learning_rate": 0.0001,
      "loss": 7.3764,
      "loss/crossentropy": 2.1202717423439026,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22476188838481903,
      "step": 5082
    },
    {
      "epoch": 0.31775,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.013671875,
      "learning_rate": 0.0001,
      "loss": 7.182,
      "loss/crossentropy": 2.208008825778961,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21714557707309723,
      "step": 5084
    },
    {
      "epoch": 0.317875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0148345947265625,
      "learning_rate": 0.0001,
      "loss": 7.2372,
      "loss/crossentropy": 2.3373151421546936,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23226696997880936,
      "step": 5086
    },
    {
      "epoch": 0.318,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.014256795247395834,
      "learning_rate": 0.0001,
      "loss": 7.3527,
      "loss/crossentropy": 2.235350489616394,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20813613384962082,
      "step": 5088
    },
    {
      "epoch": 0.318125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.014188639322916667,
      "learning_rate": 0.0001,
      "loss": 7.3671,
      "loss/crossentropy": 2.436918258666992,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2232442870736122,
      "step": 5090
    },
    {
      "epoch": 0.31825,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.018684895833333333,
      "learning_rate": 0.0001,
      "loss": 7.2646,
      "loss/crossentropy": 2.3693257570266724,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2209920957684517,
      "step": 5092
    },
    {
      "epoch": 0.318375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.020164998372395833,
      "learning_rate": 0.0001,
      "loss": 7.4097,
      "loss/crossentropy": 2.5247997045516968,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23687294870615005,
      "step": 5094
    },
    {
      "epoch": 0.3185,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.020384724934895834,
      "learning_rate": 0.0001,
      "loss": 7.2837,
      "loss/crossentropy": 2.009072959423065,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20863434672355652,
      "step": 5096
    },
    {
      "epoch": 0.318625,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.019173177083333333,
      "learning_rate": 0.0001,
      "loss": 7.1841,
      "loss/crossentropy": 2.075112044811249,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2084924578666687,
      "step": 5098
    },
    {
      "epoch": 0.31875,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.017878214518229168,
      "learning_rate": 0.0001,
      "loss": 7.2721,
      "loss/crossentropy": 2.15164053440094,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20492035150527954,
      "step": 5100
    },
    {
      "epoch": 0.318875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.01708984375,
      "learning_rate": 0.0001,
      "loss": 7.3294,
      "loss/crossentropy": 1.9480576515197754,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20920200645923615,
      "step": 5102
    },
    {
      "epoch": 0.319,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.018163045247395832,
      "learning_rate": 0.0001,
      "loss": 7.3463,
      "loss/crossentropy": 2.2869019508361816,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21756701171398163,
      "step": 5104
    },
    {
      "epoch": 0.319125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.017650349934895834,
      "learning_rate": 0.0001,
      "loss": 7.1405,
      "loss/crossentropy": 2.0993104577064514,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21797939389944077,
      "step": 5106
    },
    {
      "epoch": 0.31925,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0272613525390625,
      "learning_rate": 0.0001,
      "loss": 7.3592,
      "loss/crossentropy": 2.4255337715148926,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21611501276493073,
      "step": 5108
    },
    {
      "epoch": 0.319375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0240631103515625,
      "learning_rate": 0.0001,
      "loss": 7.2214,
      "loss/crossentropy": 2.370956540107727,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23814254999160767,
      "step": 5110
    },
    {
      "epoch": 0.3195,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.025191243489583334,
      "learning_rate": 0.0001,
      "loss": 7.2919,
      "loss/crossentropy": 2.354593515396118,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22845982760190964,
      "step": 5112
    },
    {
      "epoch": 0.319625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.023582967122395833,
      "learning_rate": 0.0001,
      "loss": 7.3072,
      "loss/crossentropy": 2.1754024028778076,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23337450623512268,
      "step": 5114
    },
    {
      "epoch": 0.31975,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0242340087890625,
      "learning_rate": 0.0001,
      "loss": 7.3127,
      "loss/crossentropy": 2.1386443972587585,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2071130946278572,
      "step": 5116
    },
    {
      "epoch": 0.319875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.023531087239583335,
      "learning_rate": 0.0001,
      "loss": 7.3132,
      "loss/crossentropy": 2.3322278261184692,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21129751950502396,
      "step": 5118
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0241119384765625,
      "learning_rate": 0.0001,
      "loss": 7.2513,
      "loss/crossentropy": 2.294466018676758,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20739653706550598,
      "step": 5120
    },
    {
      "epoch": 0.320125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.023388671875,
      "learning_rate": 0.0001,
      "loss": 7.1934,
      "loss/crossentropy": 2.16942036151886,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19805258512496948,
      "step": 5122
    },
    {
      "epoch": 0.32025,
      "grad_norm": 2.625,
      "grad_norm_var": 0.018831380208333335,
      "learning_rate": 0.0001,
      "loss": 7.507,
      "loss/crossentropy": 2.132123589515686,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21495044976472855,
      "step": 5124
    },
    {
      "epoch": 0.320375,
      "grad_norm": 2.0,
      "grad_norm_var": 0.024616495768229166,
      "learning_rate": 0.0001,
      "loss": 7.2239,
      "loss/crossentropy": 1.760918915271759,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17673537880182266,
      "step": 5126
    },
    {
      "epoch": 0.3205,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.024144490559895832,
      "learning_rate": 0.0001,
      "loss": 7.4896,
      "loss/crossentropy": 2.4206674098968506,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2217917963862419,
      "step": 5128
    },
    {
      "epoch": 0.320625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.025658162434895833,
      "learning_rate": 0.0001,
      "loss": 7.2327,
      "loss/crossentropy": 2.1627532839775085,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20185734331607819,
      "step": 5130
    },
    {
      "epoch": 0.32075,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0330078125,
      "learning_rate": 0.0001,
      "loss": 7.4634,
      "loss/crossentropy": 2.143425464630127,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21182992309331894,
      "step": 5132
    },
    {
      "epoch": 0.320875,
      "grad_norm": 2.375,
      "grad_norm_var": 0.03430887858072917,
      "learning_rate": 0.0001,
      "loss": 7.3735,
      "loss/crossentropy": 1.9043779969215393,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19466465711593628,
      "step": 5134
    },
    {
      "epoch": 0.321,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.04011942545572917,
      "learning_rate": 0.0001,
      "loss": 7.2799,
      "loss/crossentropy": 2.3145501613616943,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23457962274551392,
      "step": 5136
    },
    {
      "epoch": 0.321125,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.040648396809895834,
      "learning_rate": 0.0001,
      "loss": 7.3412,
      "loss/crossentropy": 2.338579297065735,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23789451271295547,
      "step": 5138
    },
    {
      "epoch": 0.32125,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.036848958333333334,
      "learning_rate": 0.0001,
      "loss": 7.509,
      "loss/crossentropy": 2.0653016567230225,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23478703200817108,
      "step": 5140
    },
    {
      "epoch": 0.321375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.029866536458333332,
      "learning_rate": 0.0001,
      "loss": 7.4456,
      "loss/crossentropy": 2.146829605102539,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2174145206809044,
      "step": 5142
    },
    {
      "epoch": 0.3215,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.030256144205729165,
      "learning_rate": 0.0001,
      "loss": 7.2912,
      "loss/crossentropy": 2.283796191215515,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22230414301156998,
      "step": 5144
    },
    {
      "epoch": 0.321625,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.040022786458333334,
      "learning_rate": 0.0001,
      "loss": 7.3014,
      "loss/crossentropy": 2.309414267539978,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24046258628368378,
      "step": 5146
    },
    {
      "epoch": 0.32175,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.045531209309895834,
      "learning_rate": 0.0001,
      "loss": 7.1654,
      "loss/crossentropy": 2.361426830291748,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21131903678178787,
      "step": 5148
    },
    {
      "epoch": 0.321875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.048628743489583334,
      "learning_rate": 0.0001,
      "loss": 7.3457,
      "loss/crossentropy": 2.2447391748428345,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23755492269992828,
      "step": 5150
    },
    {
      "epoch": 0.322,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.041304524739583334,
      "learning_rate": 0.0001,
      "loss": 7.2372,
      "loss/crossentropy": 2.0738277435302734,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20171590149402618,
      "step": 5152
    },
    {
      "epoch": 0.322125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0625396728515625,
      "learning_rate": 0.0001,
      "loss": 7.3119,
      "loss/crossentropy": 2.452193021774292,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2211400717496872,
      "step": 5154
    },
    {
      "epoch": 0.32225,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.05943094889322917,
      "learning_rate": 0.0001,
      "loss": 7.5275,
      "loss/crossentropy": 2.1492894887924194,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22379465401172638,
      "step": 5156
    },
    {
      "epoch": 0.322375,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.05969950358072917,
      "learning_rate": 0.0001,
      "loss": 7.1852,
      "loss/crossentropy": 2.1073238849639893,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22517702728509903,
      "step": 5158
    },
    {
      "epoch": 0.3225,
      "grad_norm": 2.375,
      "grad_norm_var": 0.06669921875,
      "learning_rate": 0.0001,
      "loss": 7.4154,
      "loss/crossentropy": 2.211340069770813,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21814390271902084,
      "step": 5160
    },
    {
      "epoch": 0.322625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.05657145182291667,
      "learning_rate": 0.0001,
      "loss": 7.4603,
      "loss/crossentropy": 2.1871854066848755,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21511095762252808,
      "step": 5162
    },
    {
      "epoch": 0.32275,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.04453837076822917,
      "learning_rate": 0.0001,
      "loss": 7.3515,
      "loss/crossentropy": 2.2441636323928833,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23230791091918945,
      "step": 5164
    },
    {
      "epoch": 0.322875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.040892537434895834,
      "learning_rate": 0.0001,
      "loss": 7.1981,
      "loss/crossentropy": 2.134332001209259,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21239123493433,
      "step": 5166
    },
    {
      "epoch": 0.323,
      "grad_norm": 3.125,
      "grad_norm_var": 0.07382405598958333,
      "learning_rate": 0.0001,
      "loss": 7.5831,
      "loss/crossentropy": 2.3247495889663696,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21503940969705582,
      "step": 5168
    },
    {
      "epoch": 0.323125,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.059244791666666664,
      "learning_rate": 0.0001,
      "loss": 7.5669,
      "loss/crossentropy": 2.187830626964569,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24586067348718643,
      "step": 5170
    },
    {
      "epoch": 0.32325,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.06236572265625,
      "learning_rate": 0.0001,
      "loss": 7.2922,
      "loss/crossentropy": 2.291743755340576,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22773872315883636,
      "step": 5172
    },
    {
      "epoch": 0.323375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.06570536295572917,
      "learning_rate": 0.0001,
      "loss": 7.2504,
      "loss/crossentropy": 2.20532488822937,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21305081248283386,
      "step": 5174
    },
    {
      "epoch": 0.3235,
      "grad_norm": 2.25,
      "grad_norm_var": 0.06047770182291667,
      "learning_rate": 0.0001,
      "loss": 7.3579,
      "loss/crossentropy": 2.226097345352173,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.223523810505867,
      "step": 5176
    },
    {
      "epoch": 0.323625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.06304931640625,
      "learning_rate": 0.0001,
      "loss": 7.0957,
      "loss/crossentropy": 2.05389004945755,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20273905247449875,
      "step": 5178
    },
    {
      "epoch": 0.32375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.06721089680989584,
      "learning_rate": 0.0001,
      "loss": 7.2408,
      "loss/crossentropy": 2.0276909470558167,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20203246176242828,
      "step": 5180
    },
    {
      "epoch": 0.323875,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.06479390462239583,
      "learning_rate": 0.0001,
      "loss": 7.5044,
      "loss/crossentropy": 2.2829922437667847,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21530025452375412,
      "step": 5182
    },
    {
      "epoch": 0.324,
      "grad_norm": 2.125,
      "grad_norm_var": 0.023453776041666666,
      "learning_rate": 0.0001,
      "loss": 7.3556,
      "loss/crossentropy": 2.1827311515808105,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.218561053276062,
      "step": 5184
    },
    {
      "epoch": 0.324125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01080322265625,
      "learning_rate": 0.0001,
      "loss": 7.3249,
      "loss/crossentropy": 2.091078519821167,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23558902740478516,
      "step": 5186
    },
    {
      "epoch": 0.32425,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.0319244384765625,
      "learning_rate": 0.0001,
      "loss": 7.3744,
      "loss/crossentropy": 1.8757956624031067,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19631417095661163,
      "step": 5188
    },
    {
      "epoch": 0.324375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.031037394205729166,
      "learning_rate": 0.0001,
      "loss": 7.284,
      "loss/crossentropy": 2.342907428741455,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22963730245828629,
      "step": 5190
    },
    {
      "epoch": 0.3245,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.027179972330729166,
      "learning_rate": 0.0001,
      "loss": 7.3116,
      "loss/crossentropy": 2.244239926338196,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2171139419078827,
      "step": 5192
    },
    {
      "epoch": 0.324625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.026656087239583334,
      "learning_rate": 0.0001,
      "loss": 7.26,
      "loss/crossentropy": 2.035650849342346,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2151600569486618,
      "step": 5194
    },
    {
      "epoch": 0.32475,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.023274739583333332,
      "learning_rate": 0.0001,
      "loss": 7.3792,
      "loss/crossentropy": 2.309348702430725,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21702983975410461,
      "step": 5196
    },
    {
      "epoch": 0.324875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.026732381184895834,
      "learning_rate": 0.0001,
      "loss": 7.1716,
      "loss/crossentropy": 2.129282593727112,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21354100108146667,
      "step": 5198
    },
    {
      "epoch": 0.325,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.031981404622395834,
      "learning_rate": 0.0001,
      "loss": 7.2898,
      "loss/crossentropy": 2.0915945172309875,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19767944514751434,
      "step": 5200
    },
    {
      "epoch": 0.325125,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0355133056640625,
      "learning_rate": 0.0001,
      "loss": 7.249,
      "loss/crossentropy": 2.389148235321045,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23801419138908386,
      "step": 5202
    },
    {
      "epoch": 0.32525,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.014774576822916666,
      "learning_rate": 0.0001,
      "loss": 7.4405,
      "loss/crossentropy": 2.0830936431884766,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19635440409183502,
      "step": 5204
    },
    {
      "epoch": 0.325375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.016304524739583333,
      "learning_rate": 0.0001,
      "loss": 7.2434,
      "loss/crossentropy": 2.287827789783478,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22433650493621826,
      "step": 5206
    },
    {
      "epoch": 0.3255,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.015111287434895834,
      "learning_rate": 0.0001,
      "loss": 7.4008,
      "loss/crossentropy": 2.550079107284546,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22946575284004211,
      "step": 5208
    },
    {
      "epoch": 0.325625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0140777587890625,
      "learning_rate": 0.0001,
      "loss": 7.2935,
      "loss/crossentropy": 2.1926426887512207,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2117481455206871,
      "step": 5210
    },
    {
      "epoch": 0.32575,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.020099894205729166,
      "learning_rate": 0.0001,
      "loss": 7.2581,
      "loss/crossentropy": 2.2146820425987244,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2380428984761238,
      "step": 5212
    },
    {
      "epoch": 0.325875,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.021708170572916668,
      "learning_rate": 0.0001,
      "loss": 7.2562,
      "loss/crossentropy": 2.3124881982803345,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21675492078065872,
      "step": 5214
    },
    {
      "epoch": 0.326,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.016161092122395835,
      "learning_rate": 0.0001,
      "loss": 7.1713,
      "loss/crossentropy": 2.3529210090637207,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.223765030503273,
      "step": 5216
    },
    {
      "epoch": 0.326125,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.020930989583333334,
      "learning_rate": 0.0001,
      "loss": 7.3457,
      "loss/crossentropy": 2.2348451614379883,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23559778928756714,
      "step": 5218
    },
    {
      "epoch": 0.32625,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.026448567708333332,
      "learning_rate": 0.0001,
      "loss": 7.1213,
      "loss/crossentropy": 2.407866954803467,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23116052150726318,
      "step": 5220
    },
    {
      "epoch": 0.326375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.025267537434895834,
      "learning_rate": 0.0001,
      "loss": 7.43,
      "loss/crossentropy": 2.282076358795166,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22940561920404434,
      "step": 5222
    },
    {
      "epoch": 0.3265,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.028270467122395834,
      "learning_rate": 0.0001,
      "loss": 7.2729,
      "loss/crossentropy": 2.0684497356414795,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20412250608205795,
      "step": 5224
    },
    {
      "epoch": 0.326625,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.029150390625,
      "learning_rate": 0.0001,
      "loss": 7.4137,
      "loss/crossentropy": 2.4470431804656982,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2289155125617981,
      "step": 5226
    },
    {
      "epoch": 0.32675,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.025755818684895834,
      "learning_rate": 0.0001,
      "loss": 7.1882,
      "loss/crossentropy": 2.232643723487854,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22333452105522156,
      "step": 5228
    },
    {
      "epoch": 0.326875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.022977701822916665,
      "learning_rate": 0.0001,
      "loss": 7.1683,
      "loss/crossentropy": 1.9237089157104492,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20895886421203613,
      "step": 5230
    },
    {
      "epoch": 0.327,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.023460896809895833,
      "learning_rate": 0.0001,
      "loss": 7.392,
      "loss/crossentropy": 2.570519208908081,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2476401850581169,
      "step": 5232
    },
    {
      "epoch": 0.327125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.011909993489583333,
      "learning_rate": 0.0001,
      "loss": 7.1545,
      "loss/crossentropy": 2.332336902618408,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22975466400384903,
      "step": 5234
    },
    {
      "epoch": 0.32725,
      "grad_norm": 3.859375,
      "grad_norm_var": 0.1721588134765625,
      "learning_rate": 0.0001,
      "loss": 7.4894,
      "loss/crossentropy": 2.4853312969207764,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22591929137706757,
      "step": 5236
    },
    {
      "epoch": 0.327375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.17515869140625,
      "learning_rate": 0.0001,
      "loss": 7.3073,
      "loss/crossentropy": 2.4176896810531616,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2283809781074524,
      "step": 5238
    },
    {
      "epoch": 0.3275,
      "grad_norm": 2.25,
      "grad_norm_var": 0.1721588134765625,
      "learning_rate": 0.0001,
      "loss": 7.441,
      "loss/crossentropy": 2.581329822540283,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24542076140642166,
      "step": 5240
    },
    {
      "epoch": 0.327625,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.16851806640625,
      "learning_rate": 0.0001,
      "loss": 7.2261,
      "loss/crossentropy": 2.2448220252990723,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22246970981359482,
      "step": 5242
    },
    {
      "epoch": 0.32775,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.16536051432291668,
      "learning_rate": 0.0001,
      "loss": 7.3095,
      "loss/crossentropy": 2.354673981666565,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2191583588719368,
      "step": 5244
    },
    {
      "epoch": 0.327875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.16868082682291666,
      "learning_rate": 0.0001,
      "loss": 7.3025,
      "loss/crossentropy": 2.3827792406082153,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23692472279071808,
      "step": 5246
    },
    {
      "epoch": 0.328,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.17063395182291666,
      "learning_rate": 0.0001,
      "loss": 7.3818,
      "loss/crossentropy": 2.433183193206787,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22385024279356003,
      "step": 5248
    },
    {
      "epoch": 0.328125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.16874898274739583,
      "learning_rate": 0.0001,
      "loss": 7.3701,
      "loss/crossentropy": 2.1747193932533264,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2178487330675125,
      "step": 5250
    },
    {
      "epoch": 0.32825,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.01500244140625,
      "learning_rate": 0.0001,
      "loss": 7.444,
      "loss/crossentropy": 2.0669074058532715,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22157609462738037,
      "step": 5252
    },
    {
      "epoch": 0.328375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.014655558268229167,
      "learning_rate": 0.0001,
      "loss": 7.6055,
      "loss/crossentropy": 2.4753568172454834,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2559722363948822,
      "step": 5254
    },
    {
      "epoch": 0.3285,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.014208984375,
      "learning_rate": 0.0001,
      "loss": 7.3287,
      "loss/crossentropy": 2.3594852685928345,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2157405987381935,
      "step": 5256
    },
    {
      "epoch": 0.328625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.012572224934895833,
      "learning_rate": 0.0001,
      "loss": 7.4131,
      "loss/crossentropy": 2.2439894676208496,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21909688413143158,
      "step": 5258
    },
    {
      "epoch": 0.32875,
      "grad_norm": 2.375,
      "grad_norm_var": 0.010091145833333334,
      "learning_rate": 0.0001,
      "loss": 7.1475,
      "loss/crossentropy": 2.136144995689392,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22025711089372635,
      "step": 5260
    },
    {
      "epoch": 0.328875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.009544881184895833,
      "learning_rate": 0.0001,
      "loss": 7.4255,
      "loss/crossentropy": 2.1109477281570435,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2135395109653473,
      "step": 5262
    },
    {
      "epoch": 0.329,
      "grad_norm": 2.5,
      "grad_norm_var": 0.011844889322916666,
      "learning_rate": 0.0001,
      "loss": 7.5097,
      "loss/crossentropy": 2.205671548843384,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21154307574033737,
      "step": 5264
    },
    {
      "epoch": 0.329125,
      "grad_norm": 2.0,
      "grad_norm_var": 0.0176910400390625,
      "learning_rate": 0.0001,
      "loss": 7.1289,
      "loss/crossentropy": 2.044199228286743,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19973917305469513,
      "step": 5266
    },
    {
      "epoch": 0.32925,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.021708170572916668,
      "learning_rate": 0.0001,
      "loss": 7.4721,
      "loss/crossentropy": 2.234253406524658,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2099093198776245,
      "step": 5268
    },
    {
      "epoch": 0.329375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0228912353515625,
      "learning_rate": 0.0001,
      "loss": 7.2664,
      "loss/crossentropy": 2.252587676048279,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21195102483034134,
      "step": 5270
    },
    {
      "epoch": 0.3295,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.0292877197265625,
      "learning_rate": 0.0001,
      "loss": 7.3687,
      "loss/crossentropy": 2.134685754776001,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2187366485595703,
      "step": 5272
    },
    {
      "epoch": 0.329625,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.03511962890625,
      "learning_rate": 0.0001,
      "loss": 7.3743,
      "loss/crossentropy": 2.278490424156189,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23104965686798096,
      "step": 5274
    },
    {
      "epoch": 0.32975,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.03319905598958333,
      "learning_rate": 0.0001,
      "loss": 7.2294,
      "loss/crossentropy": 2.3663605451583862,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2136199250817299,
      "step": 5276
    },
    {
      "epoch": 0.329875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.03323160807291667,
      "learning_rate": 0.0001,
      "loss": 7.399,
      "loss/crossentropy": 2.3179785013198853,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20722012221813202,
      "step": 5278
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.029841105143229168,
      "learning_rate": 0.0001,
      "loss": 7.4934,
      "loss/crossentropy": 2.3918418884277344,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2301948517560959,
      "step": 5280
    },
    {
      "epoch": 0.330125,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.025178019205729166,
      "learning_rate": 0.0001,
      "loss": 7.2977,
      "loss/crossentropy": 2.0368301272392273,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2010180726647377,
      "step": 5282
    },
    {
      "epoch": 0.33025,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.020308430989583334,
      "learning_rate": 0.0001,
      "loss": 7.2924,
      "loss/crossentropy": 2.419578790664673,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22721153497695923,
      "step": 5284
    },
    {
      "epoch": 0.330375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.016722615559895834,
      "learning_rate": 0.0001,
      "loss": 7.2706,
      "loss/crossentropy": 2.213322699069977,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2133590281009674,
      "step": 5286
    },
    {
      "epoch": 0.3305,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.009862263997395834,
      "learning_rate": 0.0001,
      "loss": 7.3482,
      "loss/crossentropy": 2.2472715377807617,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23156778514385223,
      "step": 5288
    },
    {
      "epoch": 0.330625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.007417805989583333,
      "learning_rate": 0.0001,
      "loss": 7.1872,
      "loss/crossentropy": 2.298330068588257,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20751896500587463,
      "step": 5290
    },
    {
      "epoch": 0.33075,
      "grad_norm": 2.125,
      "grad_norm_var": 0.008055623372395833,
      "learning_rate": 0.0001,
      "loss": 7.3076,
      "loss/crossentropy": 2.2136794328689575,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21609289944171906,
      "step": 5292
    },
    {
      "epoch": 0.330875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.007966105143229167,
      "learning_rate": 0.0001,
      "loss": 7.3623,
      "loss/crossentropy": 2.2835363149642944,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22649526596069336,
      "step": 5294
    },
    {
      "epoch": 0.331,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.007743326822916666,
      "learning_rate": 0.0001,
      "loss": 7.3962,
      "loss/crossentropy": 2.3068933486938477,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21767152845859528,
      "step": 5296
    },
    {
      "epoch": 0.331125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.01090087890625,
      "learning_rate": 0.0001,
      "loss": 7.1498,
      "loss/crossentropy": 2.1658458709716797,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20870249718427658,
      "step": 5298
    },
    {
      "epoch": 0.33125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.011454264322916666,
      "learning_rate": 0.0001,
      "loss": 7.2139,
      "loss/crossentropy": 2.022110342979431,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19558995962142944,
      "step": 5300
    },
    {
      "epoch": 0.331375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.014387003580729167,
      "learning_rate": 0.0001,
      "loss": 7.3322,
      "loss/crossentropy": 2.1405563354492188,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20309502631425858,
      "step": 5302
    },
    {
      "epoch": 0.3315,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.015641276041666666,
      "learning_rate": 0.0001,
      "loss": 7.3417,
      "loss/crossentropy": 2.1956971883773804,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20331468433141708,
      "step": 5304
    },
    {
      "epoch": 0.331625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0128814697265625,
      "learning_rate": 0.0001,
      "loss": 7.3134,
      "loss/crossentropy": 2.3754764795303345,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23374854773283005,
      "step": 5306
    },
    {
      "epoch": 0.33175,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.016695149739583335,
      "learning_rate": 0.0001,
      "loss": 7.2282,
      "loss/crossentropy": 2.068848133087158,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19378670305013657,
      "step": 5308
    },
    {
      "epoch": 0.331875,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.019205729166666668,
      "learning_rate": 0.0001,
      "loss": 7.1813,
      "loss/crossentropy": 2.3996471166610718,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2248714193701744,
      "step": 5310
    },
    {
      "epoch": 0.332,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.020052083333333335,
      "learning_rate": 0.0001,
      "loss": 7.3708,
      "loss/crossentropy": 2.327105164527893,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2335279881954193,
      "step": 5312
    },
    {
      "epoch": 0.332125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.015478515625,
      "learning_rate": 0.0001,
      "loss": 7.3023,
      "loss/crossentropy": 2.254124402999878,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21904382854700089,
      "step": 5314
    },
    {
      "epoch": 0.33225,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0150054931640625,
      "learning_rate": 0.0001,
      "loss": 7.2638,
      "loss/crossentropy": 2.242727756500244,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23604810237884521,
      "step": 5316
    },
    {
      "epoch": 0.332375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0114898681640625,
      "learning_rate": 0.0001,
      "loss": 7.3476,
      "loss/crossentropy": 2.1725869178771973,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22862936556339264,
      "step": 5318
    },
    {
      "epoch": 0.3325,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.0150390625,
      "learning_rate": 0.0001,
      "loss": 7.4291,
      "loss/crossentropy": 2.289436936378479,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2235860824584961,
      "step": 5320
    },
    {
      "epoch": 0.332625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.01962890625,
      "learning_rate": 0.0001,
      "loss": 7.1351,
      "loss/crossentropy": 2.306610345840454,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2362884059548378,
      "step": 5322
    },
    {
      "epoch": 0.33275,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.015583292643229166,
      "learning_rate": 0.0001,
      "loss": 7.3527,
      "loss/crossentropy": 2.2097585201263428,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24638129770755768,
      "step": 5324
    },
    {
      "epoch": 0.332875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.015462239583333334,
      "learning_rate": 0.0001,
      "loss": 7.3412,
      "loss/crossentropy": 2.1767340898513794,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2145010083913803,
      "step": 5326
    },
    {
      "epoch": 0.333,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0224029541015625,
      "learning_rate": 0.0001,
      "loss": 7.2168,
      "loss/crossentropy": 2.1483041048049927,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21507804840803146,
      "step": 5328
    },
    {
      "epoch": 0.333125,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.024930826822916665,
      "learning_rate": 0.0001,
      "loss": 7.4416,
      "loss/crossentropy": 2.1952147483825684,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21811091899871826,
      "step": 5330
    },
    {
      "epoch": 0.33325,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.0267730712890625,
      "learning_rate": 0.0001,
      "loss": 7.4886,
      "loss/crossentropy": 2.136277675628662,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2098674327135086,
      "step": 5332
    },
    {
      "epoch": 0.333375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.027962239583333333,
      "learning_rate": 0.0001,
      "loss": 7.187,
      "loss/crossentropy": 2.1514610052108765,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2044997215270996,
      "step": 5334
    },
    {
      "epoch": 0.3335,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.026610310872395834,
      "learning_rate": 0.0001,
      "loss": 7.2754,
      "loss/crossentropy": 2.2177401781082153,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.202798530459404,
      "step": 5336
    },
    {
      "epoch": 0.333625,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.021239217122395834,
      "learning_rate": 0.0001,
      "loss": 7.1166,
      "loss/crossentropy": 2.191626250743866,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21423222124576569,
      "step": 5338
    },
    {
      "epoch": 0.33375,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0244293212890625,
      "learning_rate": 0.0001,
      "loss": 7.28,
      "loss/crossentropy": 2.3615646362304688,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22018377482891083,
      "step": 5340
    },
    {
      "epoch": 0.333875,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.029899088541666667,
      "learning_rate": 0.0001,
      "loss": 7.401,
      "loss/crossentropy": 2.231188416481018,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22484582662582397,
      "step": 5342
    },
    {
      "epoch": 0.334,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.026090494791666665,
      "learning_rate": 0.0001,
      "loss": 7.3716,
      "loss/crossentropy": 2.2002989053726196,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21874640136957169,
      "step": 5344
    },
    {
      "epoch": 0.334125,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0256744384765625,
      "learning_rate": 0.0001,
      "loss": 7.4587,
      "loss/crossentropy": 2.4450970888137817,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21748078614473343,
      "step": 5346
    },
    {
      "epoch": 0.33425,
      "grad_norm": 3.015625,
      "grad_norm_var": 0.057673136393229164,
      "learning_rate": 0.0001,
      "loss": 7.2319,
      "loss/crossentropy": 2.109615385532379,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19727355241775513,
      "step": 5348
    },
    {
      "epoch": 0.334375,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.052783203125,
      "learning_rate": 0.0001,
      "loss": 7.6111,
      "loss/crossentropy": 2.1436294317245483,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22486217319965363,
      "step": 5350
    },
    {
      "epoch": 0.3345,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.05257059733072917,
      "learning_rate": 0.0001,
      "loss": 7.2229,
      "loss/crossentropy": 2.407299041748047,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23616841435432434,
      "step": 5352
    },
    {
      "epoch": 0.334625,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.04553629557291667,
      "learning_rate": 0.0001,
      "loss": 7.2801,
      "loss/crossentropy": 2.192195415496826,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22064944356679916,
      "step": 5354
    },
    {
      "epoch": 0.33475,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.04217122395833333,
      "learning_rate": 0.0001,
      "loss": 7.4254,
      "loss/crossentropy": 2.1264270544052124,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2075883150100708,
      "step": 5356
    },
    {
      "epoch": 0.334875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0422760009765625,
      "learning_rate": 0.0001,
      "loss": 7.2029,
      "loss/crossentropy": 2.1121798753738403,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21974780410528183,
      "step": 5358
    },
    {
      "epoch": 0.335,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0387847900390625,
      "learning_rate": 0.0001,
      "loss": 7.4508,
      "loss/crossentropy": 2.2427613735198975,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21257954835891724,
      "step": 5360
    },
    {
      "epoch": 0.335125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.04039713541666667,
      "learning_rate": 0.0001,
      "loss": 7.4028,
      "loss/crossentropy": 2.186354875564575,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20210053771734238,
      "step": 5362
    },
    {
      "epoch": 0.33525,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.012723795572916667,
      "learning_rate": 0.0001,
      "loss": 7.2075,
      "loss/crossentropy": 2.155713438987732,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.203889898955822,
      "step": 5364
    },
    {
      "epoch": 0.335375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.008805338541666667,
      "learning_rate": 0.0001,
      "loss": 7.4549,
      "loss/crossentropy": 2.2281126976013184,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22180020064115524,
      "step": 5366
    },
    {
      "epoch": 0.3355,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.00972900390625,
      "learning_rate": 0.0001,
      "loss": 7.4261,
      "loss/crossentropy": 2.3512368202209473,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22407396882772446,
      "step": 5368
    },
    {
      "epoch": 0.335625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.01324462890625,
      "learning_rate": 0.0001,
      "loss": 7.2495,
      "loss/crossentropy": 2.2067723274230957,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2186514213681221,
      "step": 5370
    },
    {
      "epoch": 0.33575,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.01881103515625,
      "learning_rate": 0.0001,
      "loss": 7.1389,
      "loss/crossentropy": 2.170414924621582,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20364930480718613,
      "step": 5372
    },
    {
      "epoch": 0.335875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0207183837890625,
      "learning_rate": 0.0001,
      "loss": 7.1763,
      "loss/crossentropy": 2.1207195520401,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19605641067028046,
      "step": 5374
    },
    {
      "epoch": 0.336,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.03235270182291667,
      "learning_rate": 0.0001,
      "loss": 7.358,
      "loss/crossentropy": 2.5215905904769897,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23153279721736908,
      "step": 5376
    },
    {
      "epoch": 0.336125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0276519775390625,
      "learning_rate": 0.0001,
      "loss": 7.3453,
      "loss/crossentropy": 2.305363655090332,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21856709569692612,
      "step": 5378
    },
    {
      "epoch": 0.33625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.0273101806640625,
      "learning_rate": 0.0001,
      "loss": 7.3475,
      "loss/crossentropy": 1.9425964951515198,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20577477663755417,
      "step": 5380
    },
    {
      "epoch": 0.336375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.028123982747395835,
      "learning_rate": 0.0001,
      "loss": 7.4189,
      "loss/crossentropy": 2.2299511432647705,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26048048585653305,
      "step": 5382
    },
    {
      "epoch": 0.3365,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.027831013997395834,
      "learning_rate": 0.0001,
      "loss": 7.424,
      "loss/crossentropy": 2.1312129497528076,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21301250159740448,
      "step": 5384
    },
    {
      "epoch": 0.336625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.023856608072916667,
      "learning_rate": 0.0001,
      "loss": 7.2993,
      "loss/crossentropy": 2.1534899473190308,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23556435108184814,
      "step": 5386
    },
    {
      "epoch": 0.33675,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.019270833333333334,
      "learning_rate": 0.0001,
      "loss": 7.3045,
      "loss/crossentropy": 2.2635024189949036,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2051224410533905,
      "step": 5388
    },
    {
      "epoch": 0.336875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.017317708333333334,
      "learning_rate": 0.0001,
      "loss": 7.3403,
      "loss/crossentropy": 2.6195231676101685,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24129101634025574,
      "step": 5390
    },
    {
      "epoch": 0.337,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.010285441080729167,
      "learning_rate": 0.0001,
      "loss": 7.2644,
      "loss/crossentropy": 2.0847758054733276,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20890209078788757,
      "step": 5392
    },
    {
      "epoch": 0.337125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.017308553059895832,
      "learning_rate": 0.0001,
      "loss": 7.4097,
      "loss/crossentropy": 2.41829776763916,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23831215500831604,
      "step": 5394
    },
    {
      "epoch": 0.33725,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.018285115559895832,
      "learning_rate": 0.0001,
      "loss": 7.3525,
      "loss/crossentropy": 2.169269323348999,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21398558467626572,
      "step": 5396
    },
    {
      "epoch": 0.337375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.018424479166666667,
      "learning_rate": 0.0001,
      "loss": 7.3212,
      "loss/crossentropy": 2.198991537094116,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21486544609069824,
      "step": 5398
    },
    {
      "epoch": 0.3375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.019562784830729166,
      "learning_rate": 0.0001,
      "loss": 7.1218,
      "loss/crossentropy": 2.184316039085388,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20338526368141174,
      "step": 5400
    },
    {
      "epoch": 0.337625,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.018290201822916668,
      "learning_rate": 0.0001,
      "loss": 7.321,
      "loss/crossentropy": 2.111461341381073,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21006064862012863,
      "step": 5402
    },
    {
      "epoch": 0.33775,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.019115193684895834,
      "learning_rate": 0.0001,
      "loss": 7.3327,
      "loss/crossentropy": 2.301071524620056,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21048437803983688,
      "step": 5404
    },
    {
      "epoch": 0.337875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0183746337890625,
      "learning_rate": 0.0001,
      "loss": 7.2345,
      "loss/crossentropy": 2.2816654443740845,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22754280269145966,
      "step": 5406
    },
    {
      "epoch": 0.338,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.013505045572916667,
      "learning_rate": 0.0001,
      "loss": 7.2538,
      "loss/crossentropy": 2.3284599781036377,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23177867382764816,
      "step": 5408
    },
    {
      "epoch": 0.338125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.006266276041666667,
      "learning_rate": 0.0001,
      "loss": 7.1344,
      "loss/crossentropy": 2.009117007255554,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.195498988032341,
      "step": 5410
    },
    {
      "epoch": 0.33825,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.005143229166666667,
      "learning_rate": 0.0001,
      "loss": 7.3075,
      "loss/crossentropy": 2.0180088877677917,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22797267884016037,
      "step": 5412
    },
    {
      "epoch": 0.338375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.004736328125,
      "learning_rate": 0.0001,
      "loss": 7.3005,
      "loss/crossentropy": 2.1382123231887817,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2192755788564682,
      "step": 5414
    },
    {
      "epoch": 0.3385,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.004325358072916666,
      "learning_rate": 0.0001,
      "loss": 7.3033,
      "loss/crossentropy": 2.408115029335022,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2371460422873497,
      "step": 5416
    },
    {
      "epoch": 0.338625,
      "grad_norm": 2.859375,
      "grad_norm_var": 0.16881103515625,
      "learning_rate": 0.0001,
      "loss": 7.3914,
      "loss/crossentropy": 2.1764304637908936,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20545508712530136,
      "step": 5418
    },
    {
      "epoch": 0.33875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.16660054524739584,
      "learning_rate": 0.0001,
      "loss": 7.305,
      "loss/crossentropy": 2.1204302310943604,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2243422120809555,
      "step": 5420
    },
    {
      "epoch": 0.338875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.16787821451822918,
      "learning_rate": 0.0001,
      "loss": 7.395,
      "loss/crossentropy": 2.1409205198287964,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20757804811000824,
      "step": 5422
    },
    {
      "epoch": 0.339,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.17183837890625,
      "learning_rate": 0.0001,
      "loss": 7.239,
      "loss/crossentropy": 2.3405885696411133,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2265135422348976,
      "step": 5424
    },
    {
      "epoch": 0.339125,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.17040608723958334,
      "learning_rate": 0.0001,
      "loss": 7.305,
      "loss/crossentropy": 2.0772798657417297,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24080167710781097,
      "step": 5426
    },
    {
      "epoch": 0.33925,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.16744791666666667,
      "learning_rate": 0.0001,
      "loss": 7.3626,
      "loss/crossentropy": 2.3165992498397827,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21086010336875916,
      "step": 5428
    },
    {
      "epoch": 0.339375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.16593424479166666,
      "learning_rate": 0.0001,
      "loss": 7.2824,
      "loss/crossentropy": 2.2697300910949707,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.216596320271492,
      "step": 5430
    },
    {
      "epoch": 0.3395,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.1771636962890625,
      "learning_rate": 0.0001,
      "loss": 7.1865,
      "loss/crossentropy": 2.3810267448425293,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2208058461546898,
      "step": 5432
    },
    {
      "epoch": 0.339625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.027860514322916665,
      "learning_rate": 0.0001,
      "loss": 7.2512,
      "loss/crossentropy": 2.255163311958313,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.205363892018795,
      "step": 5434
    },
    {
      "epoch": 0.33975,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.0278717041015625,
      "learning_rate": 0.0001,
      "loss": 7.2184,
      "loss/crossentropy": 2.0902993083000183,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2042091339826584,
      "step": 5436
    },
    {
      "epoch": 0.339875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.016109212239583334,
      "learning_rate": 0.0001,
      "loss": 7.3953,
      "loss/crossentropy": 2.379234194755554,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22250881046056747,
      "step": 5438
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.015120442708333333,
      "learning_rate": 0.0001,
      "loss": 7.1556,
      "loss/crossentropy": 2.1854381561279297,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20145095884799957,
      "step": 5440
    },
    {
      "epoch": 0.340125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.015453084309895834,
      "learning_rate": 0.0001,
      "loss": 7.3506,
      "loss/crossentropy": 2.4397945404052734,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21113866567611694,
      "step": 5442
    },
    {
      "epoch": 0.34025,
      "grad_norm": 2.0,
      "grad_norm_var": 0.019580078125,
      "learning_rate": 0.0001,
      "loss": 7.2824,
      "loss/crossentropy": 2.2910887002944946,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22225283086299896,
      "step": 5444
    },
    {
      "epoch": 0.340375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.022215779622395834,
      "learning_rate": 0.0001,
      "loss": 7.4318,
      "loss/crossentropy": 2.4982157945632935,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23762008547782898,
      "step": 5446
    },
    {
      "epoch": 0.3405,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.03228759765625,
      "learning_rate": 0.0001,
      "loss": 7.5355,
      "loss/crossentropy": 2.3466309309005737,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2286328449845314,
      "step": 5448
    },
    {
      "epoch": 0.340625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.033426920572916664,
      "learning_rate": 0.0001,
      "loss": 7.4912,
      "loss/crossentropy": 2.5358729362487793,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24695628136396408,
      "step": 5450
    },
    {
      "epoch": 0.34075,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.03862202962239583,
      "learning_rate": 0.0001,
      "loss": 7.5367,
      "loss/crossentropy": 2.3047229051589966,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21712347865104675,
      "step": 5452
    },
    {
      "epoch": 0.340875,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.038386027018229164,
      "learning_rate": 0.0001,
      "loss": 7.119,
      "loss/crossentropy": 2.1131972074508667,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21644818782806396,
      "step": 5454
    },
    {
      "epoch": 0.341,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.042780558268229164,
      "learning_rate": 0.0001,
      "loss": 7.4856,
      "loss/crossentropy": 2.1927385330200195,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23934345692396164,
      "step": 5456
    },
    {
      "epoch": 0.341125,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.04208577473958333,
      "learning_rate": 0.0001,
      "loss": 7.5131,
      "loss/crossentropy": 2.1948903799057007,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2262982353568077,
      "step": 5458
    },
    {
      "epoch": 0.34125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.03450419108072917,
      "learning_rate": 0.0001,
      "loss": 7.2735,
      "loss/crossentropy": 2.2074116468429565,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21651601791381836,
      "step": 5460
    },
    {
      "epoch": 0.341375,
      "grad_norm": 2.65625,
      "grad_norm_var": 0.4347320556640625,
      "learning_rate": 0.0001,
      "loss": 7.6036,
      "loss/crossentropy": 2.3377386331558228,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.260085329413414,
      "step": 5462
    },
    {
      "epoch": 0.3415,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.43775634765625,
      "learning_rate": 0.0001,
      "loss": 7.3691,
      "loss/crossentropy": 2.5194804668426514,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2196458876132965,
      "step": 5464
    },
    {
      "epoch": 0.341625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.43778889973958335,
      "learning_rate": 0.0001,
      "loss": 7.3684,
      "loss/crossentropy": 2.222210168838501,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20729803293943405,
      "step": 5466
    },
    {
      "epoch": 0.34175,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.44607645670572915,
      "learning_rate": 0.0001,
      "loss": 7.5481,
      "loss/crossentropy": 2.0169124603271484,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22089700400829315,
      "step": 5468
    },
    {
      "epoch": 0.341875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.4344146728515625,
      "learning_rate": 0.0001,
      "loss": 7.3955,
      "loss/crossentropy": 2.1813031435012817,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2193674072623253,
      "step": 5470
    },
    {
      "epoch": 0.342,
      "grad_norm": 2.0,
      "grad_norm_var": 0.45690816243489585,
      "learning_rate": 0.0001,
      "loss": 7.2806,
      "loss/crossentropy": 2.2984254360198975,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22460055351257324,
      "step": 5472
    },
    {
      "epoch": 0.342125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.46097005208333336,
      "learning_rate": 0.0001,
      "loss": 7.3134,
      "loss/crossentropy": 2.1755064725875854,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21521113812923431,
      "step": 5474
    },
    {
      "epoch": 0.34225,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.46314697265625,
      "learning_rate": 0.0001,
      "loss": 7.1628,
      "loss/crossentropy": 2.117392897605896,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19606874883174896,
      "step": 5476
    },
    {
      "epoch": 0.342375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.022516886393229168,
      "learning_rate": 0.0001,
      "loss": 7.2474,
      "loss/crossentropy": 2.127562403678894,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21586275100708008,
      "step": 5478
    },
    {
      "epoch": 0.3425,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.027958170572916666,
      "learning_rate": 0.0001,
      "loss": 7.4147,
      "loss/crossentropy": 2.201394200325012,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21986886113882065,
      "step": 5480
    },
    {
      "epoch": 0.342625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.03655192057291667,
      "learning_rate": 0.0001,
      "loss": 7.2027,
      "loss/crossentropy": 2.0617064237594604,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22360235452651978,
      "step": 5482
    },
    {
      "epoch": 0.34275,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.03845926920572917,
      "learning_rate": 0.0001,
      "loss": 7.3388,
      "loss/crossentropy": 2.266227602958679,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21536527574062347,
      "step": 5484
    },
    {
      "epoch": 0.342875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.034012858072916666,
      "learning_rate": 0.0001,
      "loss": 7.2759,
      "loss/crossentropy": 2.3090654611587524,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2186703011393547,
      "step": 5486
    },
    {
      "epoch": 0.343,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.028180948893229165,
      "learning_rate": 0.0001,
      "loss": 7.4189,
      "loss/crossentropy": 2.4446980953216553,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24092496931552887,
      "step": 5488
    },
    {
      "epoch": 0.343125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0316314697265625,
      "learning_rate": 0.0001,
      "loss": 7.3887,
      "loss/crossentropy": 2.301460862159729,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2261280044913292,
      "step": 5490
    },
    {
      "epoch": 0.34325,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.031012980143229167,
      "learning_rate": 0.0001,
      "loss": 7.2817,
      "loss/crossentropy": 2.375279426574707,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22997137159109116,
      "step": 5492
    },
    {
      "epoch": 0.343375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.03375244140625,
      "learning_rate": 0.0001,
      "loss": 7.3397,
      "loss/crossentropy": 2.174167513847351,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22003310173749924,
      "step": 5494
    },
    {
      "epoch": 0.3435,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.02275390625,
      "learning_rate": 0.0001,
      "loss": 7.2999,
      "loss/crossentropy": 2.264827609062195,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22024701535701752,
      "step": 5496
    },
    {
      "epoch": 0.343625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.0152740478515625,
      "learning_rate": 0.0001,
      "loss": 7.2387,
      "loss/crossentropy": 2.186145544052124,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21280007809400558,
      "step": 5498
    },
    {
      "epoch": 0.34375,
      "grad_norm": 2.5625,
      "grad_norm_var": 0.01982421875,
      "learning_rate": 0.0001,
      "loss": 7.3772,
      "loss/crossentropy": 2.481659770011902,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2214002087712288,
      "step": 5500
    },
    {
      "epoch": 0.343875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.019367472330729166,
      "learning_rate": 0.0001,
      "loss": 7.3132,
      "loss/crossentropy": 2.3691645860671997,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23550476133823395,
      "step": 5502
    },
    {
      "epoch": 0.344,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01949462890625,
      "learning_rate": 0.0001,
      "loss": 7.2032,
      "loss/crossentropy": 2.260165572166443,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23349297046661377,
      "step": 5504
    },
    {
      "epoch": 0.344125,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.01617431640625,
      "learning_rate": 0.0001,
      "loss": 7.3419,
      "loss/crossentropy": 2.2282174825668335,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22737015783786774,
      "step": 5506
    },
    {
      "epoch": 0.34425,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.021663411458333334,
      "learning_rate": 0.0001,
      "loss": 7.2331,
      "loss/crossentropy": 2.3071209192276,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23168734461069107,
      "step": 5508
    },
    {
      "epoch": 0.344375,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.032013956705729166,
      "learning_rate": 0.0001,
      "loss": 7.5768,
      "loss/crossentropy": 2.337808847427368,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22684383392333984,
      "step": 5510
    },
    {
      "epoch": 0.3445,
      "grad_norm": 2.125,
      "grad_norm_var": 0.03868815104166667,
      "learning_rate": 0.0001,
      "loss": 7.1271,
      "loss/crossentropy": 2.21714323759079,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2065524309873581,
      "step": 5512
    },
    {
      "epoch": 0.344625,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.03770243326822917,
      "learning_rate": 0.0001,
      "loss": 7.5043,
      "loss/crossentropy": 2.3815321922302246,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22905410081148148,
      "step": 5514
    },
    {
      "epoch": 0.34475,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.03234049479166667,
      "learning_rate": 0.0001,
      "loss": 7.2816,
      "loss/crossentropy": 2.4301551580429077,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2220115140080452,
      "step": 5516
    },
    {
      "epoch": 0.344875,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.03194986979166667,
      "learning_rate": 0.0001,
      "loss": 7.2628,
      "loss/crossentropy": 2.404889702796936,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21883364766836166,
      "step": 5518
    },
    {
      "epoch": 0.345,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.03205464680989583,
      "learning_rate": 0.0001,
      "loss": 7.3638,
      "loss/crossentropy": 2.228495955467224,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2163659930229187,
      "step": 5520
    },
    {
      "epoch": 0.345125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.029816691080729166,
      "learning_rate": 0.0001,
      "loss": 7.1626,
      "loss/crossentropy": 2.102945566177368,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20724687725305557,
      "step": 5522
    },
    {
      "epoch": 0.34525,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.025031534830729167,
      "learning_rate": 0.0001,
      "loss": 7.3196,
      "loss/crossentropy": 2.291762113571167,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2216021940112114,
      "step": 5524
    },
    {
      "epoch": 0.345375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.014644368489583334,
      "learning_rate": 0.0001,
      "loss": 7.2901,
      "loss/crossentropy": 2.3197373151779175,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.2217041775584221,
      "step": 5526
    },
    {
      "epoch": 0.3455,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.009891764322916666,
      "learning_rate": 0.0001,
      "loss": 7.1251,
      "loss/crossentropy": 2.16168212890625,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2141154482960701,
      "step": 5528
    },
    {
      "epoch": 0.345625,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.01103515625,
      "learning_rate": 0.0001,
      "loss": 7.2774,
      "loss/crossentropy": 2.3330233097076416,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2168646603822708,
      "step": 5530
    },
    {
      "epoch": 0.34575,
      "grad_norm": 2.703125,
      "grad_norm_var": 0.025951131184895834,
      "learning_rate": 0.0001,
      "loss": 7.4739,
      "loss/crossentropy": 2.0444337129592896,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2103881537914276,
      "step": 5532
    },
    {
      "epoch": 0.345875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.025446573893229168,
      "learning_rate": 0.0001,
      "loss": 7.4652,
      "loss/crossentropy": 2.315095543861389,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2205868437886238,
      "step": 5534
    },
    {
      "epoch": 0.346,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.024323527018229166,
      "learning_rate": 0.0001,
      "loss": 7.2638,
      "loss/crossentropy": 2.2340970039367676,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21409018337726593,
      "step": 5536
    },
    {
      "epoch": 0.346125,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.027741495768229166,
      "learning_rate": 0.0001,
      "loss": 7.2674,
      "loss/crossentropy": 2.30459725856781,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22205013036727905,
      "step": 5538
    },
    {
      "epoch": 0.34625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.030475870768229166,
      "learning_rate": 0.0001,
      "loss": 7.1644,
      "loss/crossentropy": 2.048761546611786,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19404233247041702,
      "step": 5540
    },
    {
      "epoch": 0.346375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.028515625,
      "learning_rate": 0.0001,
      "loss": 7.2601,
      "loss/crossentropy": 2.1471662521362305,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2048891857266426,
      "step": 5542
    },
    {
      "epoch": 0.3465,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.027274576822916667,
      "learning_rate": 0.0001,
      "loss": 7.0981,
      "loss/crossentropy": 2.147502064704895,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21818849444389343,
      "step": 5544
    },
    {
      "epoch": 0.346625,
      "grad_norm": 2.765625,
      "grad_norm_var": 0.0386627197265625,
      "learning_rate": 0.0001,
      "loss": 7.2796,
      "loss/crossentropy": 2.213876247406006,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22943131625652313,
      "step": 5546
    },
    {
      "epoch": 0.34675,
      "grad_norm": 2.5,
      "grad_norm_var": 0.028055826822916668,
      "learning_rate": 0.0001,
      "loss": 7.3104,
      "loss/crossentropy": 2.327598452568054,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22541771829128265,
      "step": 5548
    },
    {
      "epoch": 0.346875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.031083170572916666,
      "learning_rate": 0.0001,
      "loss": 7.2545,
      "loss/crossentropy": 2.065271317958832,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2102024182677269,
      "step": 5550
    },
    {
      "epoch": 0.347,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.031769816080729166,
      "learning_rate": 0.0001,
      "loss": 7.2822,
      "loss/crossentropy": 2.241680383682251,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24006665498018265,
      "step": 5552
    },
    {
      "epoch": 0.347125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.029816691080729166,
      "learning_rate": 0.0001,
      "loss": 7.2535,
      "loss/crossentropy": 1.9361643195152283,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.193950355052948,
      "step": 5554
    },
    {
      "epoch": 0.34725,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.029618326822916666,
      "learning_rate": 0.0001,
      "loss": 7.2865,
      "loss/crossentropy": 2.2774378061294556,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2135343924164772,
      "step": 5556
    },
    {
      "epoch": 0.347375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.04593098958333333,
      "learning_rate": 0.0001,
      "loss": 7.2553,
      "loss/crossentropy": 2.092591166496277,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21611423045396805,
      "step": 5558
    },
    {
      "epoch": 0.3475,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.04534098307291667,
      "learning_rate": 0.0001,
      "loss": 7.4553,
      "loss/crossentropy": 2.4065760374069214,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21628361195325851,
      "step": 5560
    },
    {
      "epoch": 0.347625,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.03795166015625,
      "learning_rate": 0.0001,
      "loss": 7.3378,
      "loss/crossentropy": 2.1736042499542236,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21986880898475647,
      "step": 5562
    },
    {
      "epoch": 0.34775,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.03855692545572917,
      "learning_rate": 0.0001,
      "loss": 7.1797,
      "loss/crossentropy": 2.377760887145996,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20999367535114288,
      "step": 5564
    },
    {
      "epoch": 0.347875,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.03753255208333333,
      "learning_rate": 0.0001,
      "loss": 7.2805,
      "loss/crossentropy": 2.4437506198883057,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2216576337814331,
      "step": 5566
    },
    {
      "epoch": 0.348,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.04220377604166667,
      "learning_rate": 0.0001,
      "loss": 7.1347,
      "loss/crossentropy": 2.3025336265563965,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21155836433172226,
      "step": 5568
    },
    {
      "epoch": 0.348125,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.042902628580729164,
      "learning_rate": 0.0001,
      "loss": 7.2856,
      "loss/crossentropy": 2.147992491722107,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20805560052394867,
      "step": 5570
    },
    {
      "epoch": 0.34825,
      "grad_norm": 2.125,
      "grad_norm_var": 0.037495930989583336,
      "learning_rate": 0.0001,
      "loss": 7.2576,
      "loss/crossentropy": 2.0868008732795715,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2108987644314766,
      "step": 5572
    },
    {
      "epoch": 0.348375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.014159138997395833,
      "learning_rate": 0.0001,
      "loss": 7.4734,
      "loss/crossentropy": 2.1314677000045776,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22252144664525986,
      "step": 5574
    },
    {
      "epoch": 0.3485,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.013472493489583333,
      "learning_rate": 0.0001,
      "loss": 7.3078,
      "loss/crossentropy": 2.5350881814956665,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22396673262119293,
      "step": 5576
    },
    {
      "epoch": 0.348625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.016917928059895834,
      "learning_rate": 0.0001,
      "loss": 7.298,
      "loss/crossentropy": 2.3182544708251953,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2111162766814232,
      "step": 5578
    },
    {
      "epoch": 0.34875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.015876261393229167,
      "learning_rate": 0.0001,
      "loss": 7.4597,
      "loss/crossentropy": 2.1177011728286743,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2125827968120575,
      "step": 5580
    },
    {
      "epoch": 0.348875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.013231404622395833,
      "learning_rate": 0.0001,
      "loss": 7.2578,
      "loss/crossentropy": 2.2595534324645996,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20692522078752518,
      "step": 5582
    },
    {
      "epoch": 0.349,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.009651692708333333,
      "learning_rate": 0.0001,
      "loss": 7.4041,
      "loss/crossentropy": 2.2322030067443848,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2103104293346405,
      "step": 5584
    },
    {
      "epoch": 0.349125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.009598795572916667,
      "learning_rate": 0.0001,
      "loss": 7.3692,
      "loss/crossentropy": 2.342887282371521,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2122577279806137,
      "step": 5586
    },
    {
      "epoch": 0.34925,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0108062744140625,
      "learning_rate": 0.0001,
      "loss": 7.2918,
      "loss/crossentropy": 2.1660179495811462,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21258103847503662,
      "step": 5588
    },
    {
      "epoch": 0.349375,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.013411458333333333,
      "learning_rate": 0.0001,
      "loss": 7.2614,
      "loss/crossentropy": 2.191131591796875,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20719382166862488,
      "step": 5590
    },
    {
      "epoch": 0.3495,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.013133748372395834,
      "learning_rate": 0.0001,
      "loss": 7.2375,
      "loss/crossentropy": 2.0313998460769653,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2047080472111702,
      "step": 5592
    },
    {
      "epoch": 0.349625,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.025048828125,
      "learning_rate": 0.0001,
      "loss": 7.3307,
      "loss/crossentropy": 2.2927592992782593,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2102295085787773,
      "step": 5594
    },
    {
      "epoch": 0.34975,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.02720947265625,
      "learning_rate": 0.0001,
      "loss": 7.2445,
      "loss/crossentropy": 2.255831480026245,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22202551364898682,
      "step": 5596
    },
    {
      "epoch": 0.349875,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.0329010009765625,
      "learning_rate": 0.0001,
      "loss": 7.1646,
      "loss/crossentropy": 2.3973917961120605,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23418821394443512,
      "step": 5598
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.032746378580729166,
      "learning_rate": 0.0001,
      "loss": 7.2829,
      "loss/crossentropy": 2.029415249824524,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.209575816988945,
      "step": 5600
    },
    {
      "epoch": 0.350125,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.03385009765625,
      "learning_rate": 0.0001,
      "loss": 7.1971,
      "loss/crossentropy": 2.4901596307754517,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23769868910312653,
      "step": 5602
    },
    {
      "epoch": 0.35025,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.03967692057291667,
      "learning_rate": 0.0001,
      "loss": 7.1465,
      "loss/crossentropy": 2.428591251373291,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22477445006370544,
      "step": 5604
    },
    {
      "epoch": 0.350375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.035888671875,
      "learning_rate": 0.0001,
      "loss": 7.1955,
      "loss/crossentropy": 2.120119094848633,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2116844207048416,
      "step": 5606
    },
    {
      "epoch": 0.3505,
      "grad_norm": 2.25,
      "grad_norm_var": 0.03421223958333333,
      "learning_rate": 0.0001,
      "loss": 7.3445,
      "loss/crossentropy": 2.4258477687835693,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2168346494436264,
      "step": 5608
    },
    {
      "epoch": 0.350625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.020243326822916668,
      "learning_rate": 0.0001,
      "loss": 7.2439,
      "loss/crossentropy": 2.255433678627014,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21720143407583237,
      "step": 5610
    },
    {
      "epoch": 0.35075,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.019481404622395834,
      "learning_rate": 0.0001,
      "loss": 7.3014,
      "loss/crossentropy": 2.3039766550064087,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20905648171901703,
      "step": 5612
    },
    {
      "epoch": 0.350875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.014872233072916666,
      "learning_rate": 0.0001,
      "loss": 7.2678,
      "loss/crossentropy": 2.2413315773010254,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21247967332601547,
      "step": 5614
    },
    {
      "epoch": 0.351,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0152008056640625,
      "learning_rate": 0.0001,
      "loss": 7.4491,
      "loss/crossentropy": 2.434108018875122,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23025284707546234,
      "step": 5616
    },
    {
      "epoch": 0.351125,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.013667805989583334,
      "learning_rate": 0.0001,
      "loss": 7.3377,
      "loss/crossentropy": 2.3039416074752808,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23464076220989227,
      "step": 5618
    },
    {
      "epoch": 0.35125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.006371053059895834,
      "learning_rate": 0.0001,
      "loss": 7.1852,
      "loss/crossentropy": 2.198891282081604,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20828387141227722,
      "step": 5620
    },
    {
      "epoch": 0.351375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.00660400390625,
      "learning_rate": 0.0001,
      "loss": 7.3417,
      "loss/crossentropy": 1.9807387590408325,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18464645743370056,
      "step": 5622
    },
    {
      "epoch": 0.3515,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.007331339518229166,
      "learning_rate": 0.0001,
      "loss": 7.3484,
      "loss/crossentropy": 2.1647424697875977,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20414948463439941,
      "step": 5624
    },
    {
      "epoch": 0.351625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0063385009765625,
      "learning_rate": 0.0001,
      "loss": 7.3053,
      "loss/crossentropy": 2.1328948736190796,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22070185095071793,
      "step": 5626
    },
    {
      "epoch": 0.35175,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.0060699462890625,
      "learning_rate": 0.0001,
      "loss": 7.1396,
      "loss/crossentropy": 2.041126549243927,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20997025072574615,
      "step": 5628
    },
    {
      "epoch": 0.351875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.006126912434895834,
      "learning_rate": 0.0001,
      "loss": 7.1444,
      "loss/crossentropy": 2.0724629759788513,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20483851432800293,
      "step": 5630
    },
    {
      "epoch": 0.352,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.007958984375,
      "learning_rate": 0.0001,
      "loss": 7.2539,
      "loss/crossentropy": 2.167839527130127,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21613173931837082,
      "step": 5632
    },
    {
      "epoch": 0.352125,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.013037109375,
      "learning_rate": 0.0001,
      "loss": 7.1433,
      "loss/crossentropy": 2.105876088142395,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20869092643260956,
      "step": 5634
    },
    {
      "epoch": 0.35225,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.012970987955729167,
      "learning_rate": 0.0001,
      "loss": 7.3603,
      "loss/crossentropy": 2.1784520745277405,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20698366314172745,
      "step": 5636
    },
    {
      "epoch": 0.352375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.013947550455729167,
      "learning_rate": 0.0001,
      "loss": 7.3438,
      "loss/crossentropy": 2.215299963951111,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21201211214065552,
      "step": 5638
    },
    {
      "epoch": 0.3525,
      "grad_norm": 2.125,
      "grad_norm_var": 0.013939412434895833,
      "learning_rate": 0.0001,
      "loss": 7.2268,
      "loss/crossentropy": 2.0955730676651,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20698635280132294,
      "step": 5640
    },
    {
      "epoch": 0.352625,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.01763916015625,
      "learning_rate": 0.0001,
      "loss": 7.3076,
      "loss/crossentropy": 2.3292022943496704,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24243366718292236,
      "step": 5642
    },
    {
      "epoch": 0.35275,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.015672810872395835,
      "learning_rate": 0.0001,
      "loss": 7.229,
      "loss/crossentropy": 2.081650137901306,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2038363665342331,
      "step": 5644
    },
    {
      "epoch": 0.352875,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.016337076822916668,
      "learning_rate": 0.0001,
      "loss": 7.1489,
      "loss/crossentropy": 2.1960020065307617,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2301100641489029,
      "step": 5646
    },
    {
      "epoch": 0.353,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.014583333333333334,
      "learning_rate": 0.0001,
      "loss": 7.247,
      "loss/crossentropy": 2.379251480102539,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.219240702688694,
      "step": 5648
    },
    {
      "epoch": 0.353125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.009273274739583334,
      "learning_rate": 0.0001,
      "loss": 7.3936,
      "loss/crossentropy": 2.380456566810608,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22222916781902313,
      "step": 5650
    },
    {
      "epoch": 0.35325,
      "grad_norm": 2.125,
      "grad_norm_var": 0.009650675455729167,
      "learning_rate": 0.0001,
      "loss": 7.2234,
      "loss/crossentropy": 2.2347010374069214,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22965724766254425,
      "step": 5652
    },
    {
      "epoch": 0.353375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.008226521809895833,
      "learning_rate": 0.0001,
      "loss": 7.4284,
      "loss/crossentropy": 2.169225573539734,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20262756943702698,
      "step": 5654
    },
    {
      "epoch": 0.3535,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.010026041666666667,
      "learning_rate": 0.0001,
      "loss": 7.226,
      "loss/crossentropy": 2.189695119857788,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22685642540454865,
      "step": 5656
    },
    {
      "epoch": 0.353625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.008617146809895834,
      "learning_rate": 0.0001,
      "loss": 7.2095,
      "loss/crossentropy": 2.382868766784668,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2241538092494011,
      "step": 5658
    },
    {
      "epoch": 0.35375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.011812337239583333,
      "learning_rate": 0.0001,
      "loss": 7.251,
      "loss/crossentropy": 2.085647702217102,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22093788534402847,
      "step": 5660
    },
    {
      "epoch": 0.353875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0098785400390625,
      "learning_rate": 0.0001,
      "loss": 7.2481,
      "loss/crossentropy": 1.988870620727539,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20682383328676224,
      "step": 5662
    },
    {
      "epoch": 0.354,
      "grad_norm": 2.25,
      "grad_norm_var": 0.011031087239583333,
      "learning_rate": 0.0001,
      "loss": 7.3857,
      "loss/crossentropy": 2.2957637310028076,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22826778888702393,
      "step": 5664
    },
    {
      "epoch": 0.354125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.010326131184895834,
      "learning_rate": 0.0001,
      "loss": 7.3686,
      "loss/crossentropy": 2.2440401315689087,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21839071810245514,
      "step": 5666
    },
    {
      "epoch": 0.35425,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.009618123372395834,
      "learning_rate": 0.0001,
      "loss": 7.1635,
      "loss/crossentropy": 2.2398467659950256,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2106655314564705,
      "step": 5668
    },
    {
      "epoch": 0.354375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.009993489583333333,
      "learning_rate": 0.0001,
      "loss": 7.1971,
      "loss/crossentropy": 2.2117063999176025,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22577807307243347,
      "step": 5670
    },
    {
      "epoch": 0.3545,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.012824503580729167,
      "learning_rate": 0.0001,
      "loss": 7.2778,
      "loss/crossentropy": 2.489393711090088,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22771210968494415,
      "step": 5672
    },
    {
      "epoch": 0.354625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0126861572265625,
      "learning_rate": 0.0001,
      "loss": 7.2026,
      "loss/crossentropy": 2.0024437308311462,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20530618727207184,
      "step": 5674
    },
    {
      "epoch": 0.35475,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.011668904622395834,
      "learning_rate": 0.0001,
      "loss": 7.2365,
      "loss/crossentropy": 2.390307068824768,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21883082389831543,
      "step": 5676
    },
    {
      "epoch": 0.354875,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.011653645833333334,
      "learning_rate": 0.0001,
      "loss": 7.3552,
      "loss/crossentropy": 2.237827181816101,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21198499202728271,
      "step": 5678
    },
    {
      "epoch": 0.355,
      "grad_norm": 2.0,
      "grad_norm_var": 0.0149322509765625,
      "learning_rate": 0.0001,
      "loss": 7.1375,
      "loss/crossentropy": 2.071999192237854,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20247787237167358,
      "step": 5680
    },
    {
      "epoch": 0.355125,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.02051366170247396,
      "learning_rate": 0.0001,
      "loss": 7.2086,
      "loss/crossentropy": 2.006256639957428,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19993876665830612,
      "step": 5682
    },
    {
      "epoch": 0.35525,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.016534169514973957,
      "learning_rate": 0.0001,
      "loss": 7.2393,
      "loss/crossentropy": 2.4324631690979004,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2262727990746498,
      "step": 5684
    },
    {
      "epoch": 0.355375,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.015958404541015624,
      "learning_rate": 0.0001,
      "loss": 7.1675,
      "loss/crossentropy": 2.2547385692596436,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21899420768022537,
      "step": 5686
    },
    {
      "epoch": 0.3555,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.016318511962890626,
      "learning_rate": 0.0001,
      "loss": 7.1257,
      "loss/crossentropy": 2.3510611057281494,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21146484464406967,
      "step": 5688
    },
    {
      "epoch": 0.355625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.016094716389973958,
      "learning_rate": 0.0001,
      "loss": 7.2481,
      "loss/crossentropy": 2.157021403312683,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2122403085231781,
      "step": 5690
    },
    {
      "epoch": 0.35575,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.012463124593098958,
      "learning_rate": 0.0001,
      "loss": 7.3541,
      "loss/crossentropy": 2.340176820755005,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21765124797821045,
      "step": 5692
    },
    {
      "epoch": 0.355875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.013303375244140625,
      "learning_rate": 0.0001,
      "loss": 7.4739,
      "loss/crossentropy": 2.550337553024292,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2295769453048706,
      "step": 5694
    },
    {
      "epoch": 0.356,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.012410227457682292,
      "learning_rate": 0.0001,
      "loss": 7.3001,
      "loss/crossentropy": 2.221598982810974,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20915590971708298,
      "step": 5696
    },
    {
      "epoch": 0.356125,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.008756510416666667,
      "learning_rate": 0.0001,
      "loss": 7.3883,
      "loss/crossentropy": 2.3473533391952515,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20821285992860794,
      "step": 5698
    },
    {
      "epoch": 0.35625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.011335245768229167,
      "learning_rate": 0.0001,
      "loss": 7.1648,
      "loss/crossentropy": 2.310244917869568,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21906693279743195,
      "step": 5700
    },
    {
      "epoch": 0.356375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.014481608072916667,
      "learning_rate": 0.0001,
      "loss": 7.3204,
      "loss/crossentropy": 2.333138346672058,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23273716866970062,
      "step": 5702
    },
    {
      "epoch": 0.3565,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.014069620768229167,
      "learning_rate": 0.0001,
      "loss": 7.1919,
      "loss/crossentropy": 2.0340664386749268,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22012364119291306,
      "step": 5704
    },
    {
      "epoch": 0.356625,
      "grad_norm": 2.921875,
      "grad_norm_var": 0.04997456868489583,
      "learning_rate": 0.0001,
      "loss": 7.4458,
      "loss/crossentropy": 2.390481472015381,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22539138793945312,
      "step": 5706
    },
    {
      "epoch": 0.35675,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.05371805826822917,
      "learning_rate": 0.0001,
      "loss": 7.1741,
      "loss/crossentropy": 2.3384220600128174,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21385760605335236,
      "step": 5708
    },
    {
      "epoch": 0.356875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.052734375,
      "learning_rate": 0.0001,
      "loss": 7.3415,
      "loss/crossentropy": 2.266079902648926,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21113939583301544,
      "step": 5710
    },
    {
      "epoch": 0.357,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.05022379557291667,
      "learning_rate": 0.0001,
      "loss": 7.2609,
      "loss/crossentropy": 2.290347933769226,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22176006436347961,
      "step": 5712
    },
    {
      "epoch": 0.357125,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.059651692708333336,
      "learning_rate": 0.0001,
      "loss": 7.0321,
      "loss/crossentropy": 2.053887665271759,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20520412921905518,
      "step": 5714
    },
    {
      "epoch": 0.35725,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.05829671223958333,
      "learning_rate": 0.0001,
      "loss": 7.1609,
      "loss/crossentropy": 2.2182360887527466,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19742074608802795,
      "step": 5716
    },
    {
      "epoch": 0.357375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.05565999348958333,
      "learning_rate": 0.0001,
      "loss": 7.1431,
      "loss/crossentropy": 2.2058277130126953,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20125412940979004,
      "step": 5718
    },
    {
      "epoch": 0.3575,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0562408447265625,
      "learning_rate": 0.0001,
      "loss": 7.252,
      "loss/crossentropy": 2.047255039215088,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19879010319709778,
      "step": 5720
    },
    {
      "epoch": 0.357625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.013508097330729166,
      "learning_rate": 0.0001,
      "loss": 7.1866,
      "loss/crossentropy": 2.2525157928466797,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23531018197536469,
      "step": 5722
    },
    {
      "epoch": 0.35775,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.017476399739583332,
      "learning_rate": 0.0001,
      "loss": 6.9843,
      "loss/crossentropy": 2.151524543762207,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21920562535524368,
      "step": 5724
    },
    {
      "epoch": 0.357875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.020572916666666666,
      "learning_rate": 0.0001,
      "loss": 7.3308,
      "loss/crossentropy": 2.113102436065674,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20669876039028168,
      "step": 5726
    },
    {
      "epoch": 0.358,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.023151652018229166,
      "learning_rate": 0.0001,
      "loss": 7.1118,
      "loss/crossentropy": 2.0734687447547913,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20580605417490005,
      "step": 5728
    },
    {
      "epoch": 0.358125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.018180338541666667,
      "learning_rate": 0.0001,
      "loss": 7.2682,
      "loss/crossentropy": 2.2568482160568237,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21253487467765808,
      "step": 5730
    },
    {
      "epoch": 0.35825,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.017723592122395833,
      "learning_rate": 0.0001,
      "loss": 7.4277,
      "loss/crossentropy": 2.1575281620025635,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20935780555009842,
      "step": 5732
    },
    {
      "epoch": 0.358375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.02252197265625,
      "learning_rate": 0.0001,
      "loss": 7.3061,
      "loss/crossentropy": 2.1693350076675415,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21988856047391891,
      "step": 5734
    },
    {
      "epoch": 0.3585,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0248443603515625,
      "learning_rate": 0.0001,
      "loss": 7.3982,
      "loss/crossentropy": 2.4757591485977173,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22211267799139023,
      "step": 5736
    },
    {
      "epoch": 0.358625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.022835286458333333,
      "learning_rate": 0.0001,
      "loss": 7.2263,
      "loss/crossentropy": 1.9915843605995178,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20769823342561722,
      "step": 5738
    },
    {
      "epoch": 0.35875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.011701456705729167,
      "learning_rate": 0.0001,
      "loss": 7.369,
      "loss/crossentropy": 2.206750988960266,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2206248715519905,
      "step": 5740
    },
    {
      "epoch": 0.358875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.011865234375,
      "learning_rate": 0.0001,
      "loss": 7.373,
      "loss/crossentropy": 2.46751606464386,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2296297699213028,
      "step": 5742
    },
    {
      "epoch": 0.359,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.01314697265625,
      "learning_rate": 0.0001,
      "loss": 7.4235,
      "loss/crossentropy": 2.4122776985168457,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21703825145959854,
      "step": 5744
    },
    {
      "epoch": 0.359125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.012939453125,
      "learning_rate": 0.0001,
      "loss": 7.4364,
      "loss/crossentropy": 2.4436628818511963,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21490082144737244,
      "step": 5746
    },
    {
      "epoch": 0.35925,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.015934244791666666,
      "learning_rate": 0.0001,
      "loss": 7.0069,
      "loss/crossentropy": 2.0449106693267822,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18983326852321625,
      "step": 5748
    },
    {
      "epoch": 0.359375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.013898722330729167,
      "learning_rate": 0.0001,
      "loss": 7.1814,
      "loss/crossentropy": 2.1521427631378174,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20896754413843155,
      "step": 5750
    },
    {
      "epoch": 0.3595,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.012788899739583333,
      "learning_rate": 0.0001,
      "loss": 7.2468,
      "loss/crossentropy": 2.1787991523742676,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2136235386133194,
      "step": 5752
    },
    {
      "epoch": 0.359625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.013395182291666667,
      "learning_rate": 0.0001,
      "loss": 7.1933,
      "loss/crossentropy": 2.145695447921753,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20177044719457626,
      "step": 5754
    },
    {
      "epoch": 0.35975,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.013916015625,
      "learning_rate": 0.0001,
      "loss": 7.2973,
      "loss/crossentropy": 2.315553665161133,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21916157007217407,
      "step": 5756
    },
    {
      "epoch": 0.359875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.011351521809895833,
      "learning_rate": 0.0001,
      "loss": 7.2535,
      "loss/crossentropy": 2.1844006776809692,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21652723848819733,
      "step": 5758
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.010936482747395834,
      "learning_rate": 0.0001,
      "loss": 7.1545,
      "loss/crossentropy": 2.140083909034729,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2082248032093048,
      "step": 5760
    },
    {
      "epoch": 0.360125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.010640462239583334,
      "learning_rate": 0.0001,
      "loss": 7.3526,
      "loss/crossentropy": 2.4246350526809692,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2654386907815933,
      "step": 5762
    },
    {
      "epoch": 0.36025,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.011116536458333333,
      "learning_rate": 0.0001,
      "loss": 7.236,
      "loss/crossentropy": 2.190550684928894,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21372459083795547,
      "step": 5764
    },
    {
      "epoch": 0.360375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0099517822265625,
      "learning_rate": 0.0001,
      "loss": 7.198,
      "loss/crossentropy": 2.2206780910491943,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21862171590328217,
      "step": 5766
    },
    {
      "epoch": 0.3605,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.008036295572916666,
      "learning_rate": 0.0001,
      "loss": 7.139,
      "loss/crossentropy": 2.0877394676208496,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21827848255634308,
      "step": 5768
    },
    {
      "epoch": 0.360625,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.010497792561848959,
      "learning_rate": 0.0001,
      "loss": 7.1267,
      "loss/crossentropy": 2.1852867603302,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19439171254634857,
      "step": 5770
    },
    {
      "epoch": 0.36075,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.009500885009765625,
      "learning_rate": 0.0001,
      "loss": 7.2532,
      "loss/crossentropy": 2.2738914489746094,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20999271422624588,
      "step": 5772
    },
    {
      "epoch": 0.360875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.010184478759765626,
      "learning_rate": 0.0001,
      "loss": 7.3997,
      "loss/crossentropy": 2.32577121257782,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20629432797431946,
      "step": 5774
    },
    {
      "epoch": 0.361,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.017978668212890625,
      "learning_rate": 0.0001,
      "loss": 7.205,
      "loss/crossentropy": 2.3490023612976074,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23214927315711975,
      "step": 5776
    },
    {
      "epoch": 0.361125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.02216364542643229,
      "learning_rate": 0.0001,
      "loss": 7.2525,
      "loss/crossentropy": 2.041129231452942,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1971891075372696,
      "step": 5778
    },
    {
      "epoch": 0.36125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.020957183837890626,
      "learning_rate": 0.0001,
      "loss": 7.1419,
      "loss/crossentropy": 2.4754010438919067,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2261795774102211,
      "step": 5780
    },
    {
      "epoch": 0.361375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.020947011311848958,
      "learning_rate": 0.0001,
      "loss": 7.4145,
      "loss/crossentropy": 2.3293362855911255,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2322985827922821,
      "step": 5782
    },
    {
      "epoch": 0.3615,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.019608306884765624,
      "learning_rate": 0.0001,
      "loss": 7.2454,
      "loss/crossentropy": 2.2818493843078613,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2164430171251297,
      "step": 5784
    },
    {
      "epoch": 0.361625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0157379150390625,
      "learning_rate": 0.0001,
      "loss": 7.3042,
      "loss/crossentropy": 2.418179750442505,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22034931927919388,
      "step": 5786
    },
    {
      "epoch": 0.36175,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.017431640625,
      "learning_rate": 0.0001,
      "loss": 7.2657,
      "loss/crossentropy": 2.1933167576789856,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2206980139017105,
      "step": 5788
    },
    {
      "epoch": 0.361875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.018863932291666666,
      "learning_rate": 0.0001,
      "loss": 7.175,
      "loss/crossentropy": 2.2669215202331543,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20475652068853378,
      "step": 5790
    },
    {
      "epoch": 0.362,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.017643229166666666,
      "learning_rate": 0.0001,
      "loss": 7.247,
      "loss/crossentropy": 2.1614081859588623,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20143014192581177,
      "step": 5792
    },
    {
      "epoch": 0.362125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.020113118489583335,
      "learning_rate": 0.0001,
      "loss": 7.1625,
      "loss/crossentropy": 2.088079333305359,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20542144775390625,
      "step": 5794
    },
    {
      "epoch": 0.36225,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.019310506184895833,
      "learning_rate": 0.0001,
      "loss": 7.362,
      "loss/crossentropy": 2.2279645204544067,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2040068879723549,
      "step": 5796
    },
    {
      "epoch": 0.362375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.018903605143229165,
      "learning_rate": 0.0001,
      "loss": 7.1413,
      "loss/crossentropy": 2.3002779483795166,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2167448326945305,
      "step": 5798
    },
    {
      "epoch": 0.3625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.01959228515625,
      "learning_rate": 0.0001,
      "loss": 7.2912,
      "loss/crossentropy": 2.49115788936615,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22317777574062347,
      "step": 5800
    },
    {
      "epoch": 0.362625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.019188435872395833,
      "learning_rate": 0.0001,
      "loss": 7.2608,
      "loss/crossentropy": 2.2841527462005615,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2520540952682495,
      "step": 5802
    },
    {
      "epoch": 0.36275,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.017210896809895834,
      "learning_rate": 0.0001,
      "loss": 7.1874,
      "loss/crossentropy": 2.3316045999526978,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20709974318742752,
      "step": 5804
    },
    {
      "epoch": 0.362875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.014354451497395834,
      "learning_rate": 0.0001,
      "loss": 7.2947,
      "loss/crossentropy": 2.1988085508346558,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21208590269088745,
      "step": 5806
    },
    {
      "epoch": 0.363,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.007710774739583333,
      "learning_rate": 0.0001,
      "loss": 7.2853,
      "loss/crossentropy": 2.404086947441101,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23354601860046387,
      "step": 5808
    },
    {
      "epoch": 0.363125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0051422119140625,
      "learning_rate": 0.0001,
      "loss": 7.3537,
      "loss/crossentropy": 2.3549355268478394,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21141213178634644,
      "step": 5810
    },
    {
      "epoch": 0.36325,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.00552978515625,
      "learning_rate": 0.0001,
      "loss": 7.3451,
      "loss/crossentropy": 2.428610682487488,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22301796823740005,
      "step": 5812
    },
    {
      "epoch": 0.363375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0060536702473958336,
      "learning_rate": 0.0001,
      "loss": 7.3552,
      "loss/crossentropy": 2.033466935157776,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.196543850004673,
      "step": 5814
    },
    {
      "epoch": 0.3635,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.005150349934895834,
      "learning_rate": 0.0001,
      "loss": 7.3336,
      "loss/crossentropy": 2.324714779853821,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21623509377241135,
      "step": 5816
    },
    {
      "epoch": 0.363625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.004976399739583333,
      "learning_rate": 0.0001,
      "loss": 7.1483,
      "loss/crossentropy": 2.2404175996780396,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20572540163993835,
      "step": 5818
    },
    {
      "epoch": 0.36375,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.014676920572916667,
      "learning_rate": 0.0001,
      "loss": 7.375,
      "loss/crossentropy": 2.269519567489624,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2145681381225586,
      "step": 5820
    },
    {
      "epoch": 0.363875,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.016779581705729168,
      "learning_rate": 0.0001,
      "loss": 7.2622,
      "loss/crossentropy": 2.202036142349243,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2079039216041565,
      "step": 5822
    },
    {
      "epoch": 0.364,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0169097900390625,
      "learning_rate": 0.0001,
      "loss": 7.193,
      "loss/crossentropy": 2.546125888824463,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21474044024944305,
      "step": 5824
    },
    {
      "epoch": 0.364125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.016624959309895833,
      "learning_rate": 0.0001,
      "loss": 7.2476,
      "loss/crossentropy": 2.285582184791565,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21190346777439117,
      "step": 5826
    },
    {
      "epoch": 0.36425,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.016373697916666666,
      "learning_rate": 0.0001,
      "loss": 7.3289,
      "loss/crossentropy": 2.239107668399811,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19788258522748947,
      "step": 5828
    },
    {
      "epoch": 0.364375,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.017015584309895835,
      "learning_rate": 0.0001,
      "loss": 7.3511,
      "loss/crossentropy": 2.401890516281128,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2497824877500534,
      "step": 5830
    },
    {
      "epoch": 0.3645,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.019401041666666667,
      "learning_rate": 0.0001,
      "loss": 7.2613,
      "loss/crossentropy": 2.2030797004699707,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1958223581314087,
      "step": 5832
    },
    {
      "epoch": 0.364625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0217926025390625,
      "learning_rate": 0.0001,
      "loss": 7.2132,
      "loss/crossentropy": 2.241069197654724,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22120070457458496,
      "step": 5834
    },
    {
      "epoch": 0.36475,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.014045206705729167,
      "learning_rate": 0.0001,
      "loss": 7.3255,
      "loss/crossentropy": 2.346863269805908,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22068895399570465,
      "step": 5836
    },
    {
      "epoch": 0.364875,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.015950520833333332,
      "learning_rate": 0.0001,
      "loss": 7.3054,
      "loss/crossentropy": 2.157726287841797,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19728650152683258,
      "step": 5838
    },
    {
      "epoch": 0.365,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0157867431640625,
      "learning_rate": 0.0001,
      "loss": 7.1046,
      "loss/crossentropy": 2.1430864334106445,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19296472519636154,
      "step": 5840
    },
    {
      "epoch": 0.365125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.015152994791666667,
      "learning_rate": 0.0001,
      "loss": 7.2594,
      "loss/crossentropy": 2.453359365463257,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2097448706626892,
      "step": 5842
    },
    {
      "epoch": 0.36525,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.015885416666666666,
      "learning_rate": 0.0001,
      "loss": 7.2375,
      "loss/crossentropy": 2.137434482574463,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19895398616790771,
      "step": 5844
    },
    {
      "epoch": 0.365375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.014354451497395834,
      "learning_rate": 0.0001,
      "loss": 7.3807,
      "loss/crossentropy": 2.1278064846992493,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2288549244403839,
      "step": 5846
    },
    {
      "epoch": 0.3655,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0134918212890625,
      "learning_rate": 0.0001,
      "loss": 7.1056,
      "loss/crossentropy": 2.465573310852051,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22544366866350174,
      "step": 5848
    },
    {
      "epoch": 0.365625,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.011649576822916667,
      "learning_rate": 0.0001,
      "loss": 7.2308,
      "loss/crossentropy": 1.9526810050010681,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19054138660430908,
      "step": 5850
    },
    {
      "epoch": 0.36575,
      "grad_norm": 2.625,
      "grad_norm_var": 0.021903483072916667,
      "learning_rate": 0.0001,
      "loss": 7.3444,
      "loss/crossentropy": 2.3907413482666016,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22131036221981049,
      "step": 5852
    },
    {
      "epoch": 0.365875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.020210774739583333,
      "learning_rate": 0.0001,
      "loss": 7.3632,
      "loss/crossentropy": 2.4008761644363403,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22065234184265137,
      "step": 5854
    },
    {
      "epoch": 0.366,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.023111979166666668,
      "learning_rate": 0.0001,
      "loss": 7.1694,
      "loss/crossentropy": 2.389074921607971,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21668195724487305,
      "step": 5856
    },
    {
      "epoch": 0.366125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.023469034830729166,
      "learning_rate": 0.0001,
      "loss": 7.1397,
      "loss/crossentropy": 2.4073052406311035,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2183263897895813,
      "step": 5858
    },
    {
      "epoch": 0.36625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.02408447265625,
      "learning_rate": 0.0001,
      "loss": 7.2806,
      "loss/crossentropy": 2.45753812789917,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22091014683246613,
      "step": 5860
    },
    {
      "epoch": 0.366375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.024247233072916666,
      "learning_rate": 0.0001,
      "loss": 7.1823,
      "loss/crossentropy": 2.2068198919296265,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2208571657538414,
      "step": 5862
    },
    {
      "epoch": 0.3665,
      "grad_norm": 1.9609375,
      "grad_norm_var": 0.027530670166015625,
      "learning_rate": 0.0001,
      "loss": 7.0967,
      "loss/crossentropy": 2.0362515449523926,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1910586953163147,
      "step": 5864
    },
    {
      "epoch": 0.366625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.02529881795247396,
      "learning_rate": 0.0001,
      "loss": 7.2175,
      "loss/crossentropy": 2.3787707090377808,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20581073313951492,
      "step": 5866
    },
    {
      "epoch": 0.36675,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.014542388916015624,
      "learning_rate": 0.0001,
      "loss": 7.112,
      "loss/crossentropy": 2.222362995147705,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21793870627880096,
      "step": 5868
    },
    {
      "epoch": 0.366875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.011909739176432291,
      "learning_rate": 0.0001,
      "loss": 7.1673,
      "loss/crossentropy": 2.208632707595825,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22443342208862305,
      "step": 5870
    },
    {
      "epoch": 0.367,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.010330963134765624,
      "learning_rate": 0.0001,
      "loss": 7.3225,
      "loss/crossentropy": 1.9650804996490479,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20253446698188782,
      "step": 5872
    },
    {
      "epoch": 0.367125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.011270904541015625,
      "learning_rate": 0.0001,
      "loss": 7.2269,
      "loss/crossentropy": 2.1838788986206055,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22055459022521973,
      "step": 5874
    },
    {
      "epoch": 0.36725,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.013565826416015624,
      "learning_rate": 0.0001,
      "loss": 7.0766,
      "loss/crossentropy": 2.2628434896469116,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20941808074712753,
      "step": 5876
    },
    {
      "epoch": 0.367375,
      "grad_norm": 1.953125,
      "grad_norm_var": 0.01853205362955729,
      "learning_rate": 0.0001,
      "loss": 7.278,
      "loss/crossentropy": 2.1746416687965393,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2203633338212967,
      "step": 5878
    },
    {
      "epoch": 0.3675,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.017560831705729165,
      "learning_rate": 0.0001,
      "loss": 7.2906,
      "loss/crossentropy": 2.2157901525497437,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20976532995700836,
      "step": 5880
    },
    {
      "epoch": 0.367625,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.020563761393229168,
      "learning_rate": 0.0001,
      "loss": 7.2316,
      "loss/crossentropy": 2.40118670463562,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22522136569023132,
      "step": 5882
    },
    {
      "epoch": 0.36775,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.019624837239583335,
      "learning_rate": 0.0001,
      "loss": 7.2647,
      "loss/crossentropy": 2.5736021995544434,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2218579277396202,
      "step": 5884
    },
    {
      "epoch": 0.367875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.020270792643229167,
      "learning_rate": 0.0001,
      "loss": 7.3696,
      "loss/crossentropy": 2.074417471885681,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21545039117336273,
      "step": 5886
    },
    {
      "epoch": 0.368,
      "grad_norm": 2.125,
      "grad_norm_var": 0.020865885416666667,
      "learning_rate": 0.0001,
      "loss": 7.1881,
      "loss/crossentropy": 2.3205907344818115,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20773284137248993,
      "step": 5888
    },
    {
      "epoch": 0.368125,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.021393839518229166,
      "learning_rate": 0.0001,
      "loss": 7.073,
      "loss/crossentropy": 1.872346818447113,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.204973466694355,
      "step": 5890
    },
    {
      "epoch": 0.36825,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.017332967122395834,
      "learning_rate": 0.0001,
      "loss": 7.2071,
      "loss/crossentropy": 2.166461229324341,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21400277316570282,
      "step": 5892
    },
    {
      "epoch": 0.368375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.012279256184895834,
      "learning_rate": 0.0001,
      "loss": 7.1804,
      "loss/crossentropy": 2.2579694986343384,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22205153107643127,
      "step": 5894
    },
    {
      "epoch": 0.3685,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.008882649739583333,
      "learning_rate": 0.0001,
      "loss": 7.3781,
      "loss/crossentropy": 2.3255600929260254,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20994628965854645,
      "step": 5896
    },
    {
      "epoch": 0.368625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.00933837890625,
      "learning_rate": 0.0001,
      "loss": 7.2894,
      "loss/crossentropy": 2.6723464727401733,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21977736055850983,
      "step": 5898
    },
    {
      "epoch": 0.36875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.010212198893229166,
      "learning_rate": 0.0001,
      "loss": 7.2128,
      "loss/crossentropy": 2.2925814390182495,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24049442261457443,
      "step": 5900
    },
    {
      "epoch": 0.368875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0120513916015625,
      "learning_rate": 0.0001,
      "loss": 7.5009,
      "loss/crossentropy": 2.6006277799606323,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22706793248653412,
      "step": 5902
    },
    {
      "epoch": 0.369,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0119537353515625,
      "learning_rate": 0.0001,
      "loss": 7.2934,
      "loss/crossentropy": 2.4217220544815063,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23213213682174683,
      "step": 5904
    },
    {
      "epoch": 0.369125,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.01031494140625,
      "learning_rate": 0.0001,
      "loss": 7.2382,
      "loss/crossentropy": 2.1426541805267334,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18587464094161987,
      "step": 5906
    },
    {
      "epoch": 0.36925,
      "grad_norm": 2.25,
      "grad_norm_var": 0.013036092122395834,
      "learning_rate": 0.0001,
      "loss": 7.1082,
      "loss/crossentropy": 2.2752933502197266,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21011126041412354,
      "step": 5908
    },
    {
      "epoch": 0.369375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.018550618489583334,
      "learning_rate": 0.0001,
      "loss": 7.3066,
      "loss/crossentropy": 2.1513302326202393,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2277527153491974,
      "step": 5910
    },
    {
      "epoch": 0.3695,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.018550618489583334,
      "learning_rate": 0.0001,
      "loss": 7.2429,
      "loss/crossentropy": 2.327723264694214,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22254379838705063,
      "step": 5912
    },
    {
      "epoch": 0.369625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01705322265625,
      "learning_rate": 0.0001,
      "loss": 7.1405,
      "loss/crossentropy": 2.0437814593315125,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2087857574224472,
      "step": 5914
    },
    {
      "epoch": 0.36975,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0169342041015625,
      "learning_rate": 0.0001,
      "loss": 7.464,
      "loss/crossentropy": 2.3539143800735474,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21950966119766235,
      "step": 5916
    },
    {
      "epoch": 0.369875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.01630859375,
      "learning_rate": 0.0001,
      "loss": 7.2979,
      "loss/crossentropy": 2.4984445571899414,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19562814384698868,
      "step": 5918
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.015355428059895834,
      "learning_rate": 0.0001,
      "loss": 7.3028,
      "loss/crossentropy": 2.4766656160354614,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21741511672735214,
      "step": 5920
    },
    {
      "epoch": 0.370125,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.020672353108723958,
      "learning_rate": 0.0001,
      "loss": 7.1708,
      "loss/crossentropy": 2.243171215057373,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2148171290755272,
      "step": 5922
    },
    {
      "epoch": 0.37025,
      "grad_norm": 2.375,
      "grad_norm_var": 0.01923192342122396,
      "learning_rate": 0.0001,
      "loss": 7.321,
      "loss/crossentropy": 2.036896765232086,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2031344696879387,
      "step": 5924
    },
    {
      "epoch": 0.370375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.011864980061848959,
      "learning_rate": 0.0001,
      "loss": 7.2207,
      "loss/crossentropy": 2.084986448287964,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21330830454826355,
      "step": 5926
    },
    {
      "epoch": 0.3705,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.009710439046223958,
      "learning_rate": 0.0001,
      "loss": 7.2631,
      "loss/crossentropy": 2.224330186843872,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21560171246528625,
      "step": 5928
    },
    {
      "epoch": 0.370625,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.011277008056640624,
      "learning_rate": 0.0001,
      "loss": 7.311,
      "loss/crossentropy": 2.49066960811615,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21737707406282425,
      "step": 5930
    },
    {
      "epoch": 0.37075,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.010528310139973959,
      "learning_rate": 0.0001,
      "loss": 7.3316,
      "loss/crossentropy": 2.3138331174850464,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21158859878778458,
      "step": 5932
    },
    {
      "epoch": 0.370875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.010483551025390624,
      "learning_rate": 0.0001,
      "loss": 7.1589,
      "loss/crossentropy": 2.152156710624695,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2170645147562027,
      "step": 5934
    },
    {
      "epoch": 0.371,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.010603586832682291,
      "learning_rate": 0.0001,
      "loss": 7.2144,
      "loss/crossentropy": 2.0164735317230225,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1979883462190628,
      "step": 5936
    },
    {
      "epoch": 0.371125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.007059733072916667,
      "learning_rate": 0.0001,
      "loss": 7.0243,
      "loss/crossentropy": 1.9355103373527527,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20030242949724197,
      "step": 5938
    },
    {
      "epoch": 0.37125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.005646769205729167,
      "learning_rate": 0.0001,
      "loss": 7.2098,
      "loss/crossentropy": 2.3397440910339355,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21775859594345093,
      "step": 5940
    },
    {
      "epoch": 0.371375,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.00806884765625,
      "learning_rate": 0.0001,
      "loss": 7.0602,
      "loss/crossentropy": 2.1412546634674072,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22875963151454926,
      "step": 5942
    },
    {
      "epoch": 0.3715,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.018485514322916667,
      "learning_rate": 0.0001,
      "loss": 7.2662,
      "loss/crossentropy": 2.4508490562438965,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2223380208015442,
      "step": 5944
    },
    {
      "epoch": 0.371625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0183990478515625,
      "learning_rate": 0.0001,
      "loss": 7.3082,
      "loss/crossentropy": 2.4562530517578125,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2685226500034332,
      "step": 5946
    },
    {
      "epoch": 0.37175,
      "grad_norm": 2.125,
      "grad_norm_var": 0.017411295572916666,
      "learning_rate": 0.0001,
      "loss": 7.1859,
      "loss/crossentropy": 2.600165367126465,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2223629280924797,
      "step": 5948
    },
    {
      "epoch": 0.371875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.017024739583333334,
      "learning_rate": 0.0001,
      "loss": 7.3726,
      "loss/crossentropy": 2.579715847969055,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22339096665382385,
      "step": 5950
    },
    {
      "epoch": 0.372,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.017964680989583332,
      "learning_rate": 0.0001,
      "loss": 7.1321,
      "loss/crossentropy": 2.3544031381607056,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2049936279654503,
      "step": 5952
    },
    {
      "epoch": 0.372125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.018651326497395832,
      "learning_rate": 0.0001,
      "loss": 7.3593,
      "loss/crossentropy": 2.570642113685608,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2149905562400818,
      "step": 5954
    },
    {
      "epoch": 0.37225,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.017878214518229168,
      "learning_rate": 0.0001,
      "loss": 7.2501,
      "loss/crossentropy": 2.345090627670288,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21142956614494324,
      "step": 5956
    },
    {
      "epoch": 0.372375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.014322916666666666,
      "learning_rate": 0.0001,
      "loss": 7.2556,
      "loss/crossentropy": 2.083262085914612,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21225877851247787,
      "step": 5958
    },
    {
      "epoch": 0.3725,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0090728759765625,
      "learning_rate": 0.0001,
      "loss": 7.3038,
      "loss/crossentropy": 2.310503602027893,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2126244381070137,
      "step": 5960
    },
    {
      "epoch": 0.372625,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.011934153238932292,
      "learning_rate": 0.0001,
      "loss": 7.1571,
      "loss/crossentropy": 2.414725184440613,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2153559774160385,
      "step": 5962
    },
    {
      "epoch": 0.37275,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.013293202718098958,
      "learning_rate": 0.0001,
      "loss": 7.1466,
      "loss/crossentropy": 2.1802865266799927,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19948512315750122,
      "step": 5964
    },
    {
      "epoch": 0.372875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.013588205973307291,
      "learning_rate": 0.0001,
      "loss": 7.3194,
      "loss/crossentropy": 2.2380692958831787,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21608977019786835,
      "step": 5966
    },
    {
      "epoch": 0.373,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.013390858968098959,
      "learning_rate": 0.0001,
      "loss": 7.216,
      "loss/crossentropy": 2.2425453662872314,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2108849212527275,
      "step": 5968
    },
    {
      "epoch": 0.373125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.012666575113932292,
      "learning_rate": 0.0001,
      "loss": 7.163,
      "loss/crossentropy": 2.289492964744568,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20529530197381973,
      "step": 5970
    },
    {
      "epoch": 0.37325,
      "grad_norm": 2.125,
      "grad_norm_var": 0.012385813395182292,
      "learning_rate": 0.0001,
      "loss": 7.1534,
      "loss/crossentropy": 1.9850167036056519,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2159864455461502,
      "step": 5972
    },
    {
      "epoch": 0.373375,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.019954172770182292,
      "learning_rate": 0.0001,
      "loss": 7.1503,
      "loss/crossentropy": 2.3028509616851807,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21371204406023026,
      "step": 5974
    },
    {
      "epoch": 0.3735,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.01669286092122396,
      "learning_rate": 0.0001,
      "loss": 7.2954,
      "loss/crossentropy": 2.3715981245040894,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21668031811714172,
      "step": 5976
    },
    {
      "epoch": 0.373625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.016048177083333334,
      "learning_rate": 0.0001,
      "loss": 7.2445,
      "loss/crossentropy": 2.125378727912903,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20972995460033417,
      "step": 5978
    },
    {
      "epoch": 0.37375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.014176432291666667,
      "learning_rate": 0.0001,
      "loss": 7.148,
      "loss/crossentropy": 2.019354999065399,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18493575602769852,
      "step": 5980
    },
    {
      "epoch": 0.373875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.016136678059895833,
      "learning_rate": 0.0001,
      "loss": 7.2904,
      "loss/crossentropy": 2.051500916481018,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21599026024341583,
      "step": 5982
    },
    {
      "epoch": 0.374,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.017601521809895833,
      "learning_rate": 0.0001,
      "loss": 7.4102,
      "loss/crossentropy": 2.1651517152786255,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21314673870801926,
      "step": 5984
    },
    {
      "epoch": 0.374125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.01842041015625,
      "learning_rate": 0.0001,
      "loss": 7.2403,
      "loss/crossentropy": 2.254274010658264,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2058999389410019,
      "step": 5986
    },
    {
      "epoch": 0.37425,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.018680826822916666,
      "learning_rate": 0.0001,
      "loss": 7.3251,
      "loss/crossentropy": 2.346308946609497,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20627041906118393,
      "step": 5988
    },
    {
      "epoch": 0.374375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.011356608072916666,
      "learning_rate": 0.0001,
      "loss": 7.2133,
      "loss/crossentropy": 2.4631309509277344,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2179097756743431,
      "step": 5990
    },
    {
      "epoch": 0.3745,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0103424072265625,
      "learning_rate": 0.0001,
      "loss": 7.2366,
      "loss/crossentropy": 2.558820962905884,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20852772891521454,
      "step": 5992
    },
    {
      "epoch": 0.374625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.007982381184895833,
      "learning_rate": 0.0001,
      "loss": 7.2517,
      "loss/crossentropy": 2.252416253089905,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21487032622098923,
      "step": 5994
    },
    {
      "epoch": 0.37475,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.015999348958333333,
      "learning_rate": 0.0001,
      "loss": 7.3158,
      "loss/crossentropy": 2.4063336849212646,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22586210072040558,
      "step": 5996
    },
    {
      "epoch": 0.374875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.013179524739583334,
      "learning_rate": 0.0001,
      "loss": 7.1276,
      "loss/crossentropy": 1.848585605621338,
      "loss/hidden": 2.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19894341379404068,
      "step": 5998
    },
    {
      "epoch": 0.375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.013654581705729167,
      "learning_rate": 0.0001,
      "loss": 7.1552,
      "loss/crossentropy": 2.4806891679763794,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2110806256532669,
      "step": 6000
    },
    {
      "epoch": 0.375125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.012451171875,
      "learning_rate": 0.0001,
      "loss": 7.2238,
      "loss/crossentropy": 2.1955052614212036,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2050733044743538,
      "step": 6002
    },
    {
      "epoch": 0.37525,
      "grad_norm": 2.0,
      "grad_norm_var": 0.014990234375,
      "learning_rate": 0.0001,
      "loss": 7.2147,
      "loss/crossentropy": 2.2241486310958862,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20495334267616272,
      "step": 6004
    },
    {
      "epoch": 0.375375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.015355428059895834,
      "learning_rate": 0.0001,
      "loss": 7.0965,
      "loss/crossentropy": 2.167006492614746,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20993337780237198,
      "step": 6006
    },
    {
      "epoch": 0.3755,
      "grad_norm": 2.25,
      "grad_norm_var": 0.015620930989583334,
      "learning_rate": 0.0001,
      "loss": 7.1475,
      "loss/crossentropy": 2.1680710911750793,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2089712917804718,
      "step": 6008
    },
    {
      "epoch": 0.375625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.015555826822916667,
      "learning_rate": 0.0001,
      "loss": 7.1355,
      "loss/crossentropy": 2.338285446166992,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21749289333820343,
      "step": 6010
    },
    {
      "epoch": 0.37575,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0079498291015625,
      "learning_rate": 0.0001,
      "loss": 7.1924,
      "loss/crossentropy": 2.2684131860733032,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2123074233531952,
      "step": 6012
    },
    {
      "epoch": 0.375875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.008429972330729167,
      "learning_rate": 0.0001,
      "loss": 7.2788,
      "loss/crossentropy": 2.6743900775909424,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21920502185821533,
      "step": 6014
    },
    {
      "epoch": 0.376,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.006598917643229166,
      "learning_rate": 0.0001,
      "loss": 7.3491,
      "loss/crossentropy": 2.175094962120056,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2208651378750801,
      "step": 6016
    },
    {
      "epoch": 0.376125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.005757649739583333,
      "learning_rate": 0.0001,
      "loss": 7.2814,
      "loss/crossentropy": 2.417030453681946,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2150922417640686,
      "step": 6018
    },
    {
      "epoch": 0.37625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.004069010416666667,
      "learning_rate": 0.0001,
      "loss": 7.1846,
      "loss/crossentropy": 2.065057873725891,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18963027000427246,
      "step": 6020
    },
    {
      "epoch": 0.376375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0033843994140625,
      "learning_rate": 0.0001,
      "loss": 7.099,
      "loss/crossentropy": 2.0630787014961243,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2001161426305771,
      "step": 6022
    },
    {
      "epoch": 0.3765,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.005052693684895833,
      "learning_rate": 0.0001,
      "loss": 7.2794,
      "loss/crossentropy": 2.018410086631775,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21171020716428757,
      "step": 6024
    },
    {
      "epoch": 0.376625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.007242838541666667,
      "learning_rate": 0.0001,
      "loss": 7.04,
      "loss/crossentropy": 2.0343552231788635,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1925143450498581,
      "step": 6026
    },
    {
      "epoch": 0.37675,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.007731119791666667,
      "learning_rate": 0.0001,
      "loss": 7.2422,
      "loss/crossentropy": 2.3210513591766357,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2177387848496437,
      "step": 6028
    },
    {
      "epoch": 0.376875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.007096354166666667,
      "learning_rate": 0.0001,
      "loss": 7.0303,
      "loss/crossentropy": 2.0913103818893433,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19993747025728226,
      "step": 6030
    },
    {
      "epoch": 0.377,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.00611572265625,
      "learning_rate": 0.0001,
      "loss": 7.2291,
      "loss/crossentropy": 2.2609927654266357,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21157050877809525,
      "step": 6032
    },
    {
      "epoch": 0.377125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.007161458333333333,
      "learning_rate": 0.0001,
      "loss": 7.1153,
      "loss/crossentropy": 2.5453518629074097,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22479583323001862,
      "step": 6034
    },
    {
      "epoch": 0.37725,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.005952962239583333,
      "learning_rate": 0.0001,
      "loss": 7.2865,
      "loss/crossentropy": 2.421576499938965,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22091317176818848,
      "step": 6036
    },
    {
      "epoch": 0.377375,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.0066721598307291664,
      "learning_rate": 0.0001,
      "loss": 7.2464,
      "loss/crossentropy": 2.370941162109375,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21858198940753937,
      "step": 6038
    },
    {
      "epoch": 0.3775,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.006004842122395834,
      "learning_rate": 0.0001,
      "loss": 7.2514,
      "loss/crossentropy": 2.3779879808425903,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21413833647966385,
      "step": 6040
    },
    {
      "epoch": 0.377625,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.005671183268229167,
      "learning_rate": 0.0001,
      "loss": 7.3732,
      "loss/crossentropy": 2.073517680168152,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19559810310602188,
      "step": 6042
    },
    {
      "epoch": 0.37775,
      "grad_norm": 2.125,
      "grad_norm_var": 0.005810546875,
      "learning_rate": 0.0001,
      "loss": 7.2228,
      "loss/crossentropy": 2.136751651763916,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20897220820188522,
      "step": 6044
    },
    {
      "epoch": 0.377875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.005810546875,
      "learning_rate": 0.0001,
      "loss": 7.102,
      "loss/crossentropy": 2.1889522671699524,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20655735582113266,
      "step": 6046
    },
    {
      "epoch": 0.378,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.006891886393229167,
      "learning_rate": 0.0001,
      "loss": 7.3464,
      "loss/crossentropy": 2.486303687095642,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2155042290687561,
      "step": 6048
    },
    {
      "epoch": 0.378125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.006441243489583333,
      "learning_rate": 0.0001,
      "loss": 7.2726,
      "loss/crossentropy": 2.2876516580581665,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22767490148544312,
      "step": 6050
    },
    {
      "epoch": 0.37825,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.007868448893229166,
      "learning_rate": 0.0001,
      "loss": 7.2255,
      "loss/crossentropy": 2.4651968479156494,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2104952037334442,
      "step": 6052
    },
    {
      "epoch": 0.378375,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.005467732747395833,
      "learning_rate": 0.0001,
      "loss": 7.3932,
      "loss/crossentropy": 2.672922730445862,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24261310696601868,
      "step": 6054
    },
    {
      "epoch": 0.3785,
      "grad_norm": 2.625,
      "grad_norm_var": 0.0140625,
      "learning_rate": 0.0001,
      "loss": 7.1016,
      "loss/crossentropy": 1.833503007888794,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17841923236846924,
      "step": 6056
    },
    {
      "epoch": 0.378625,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.01978759765625,
      "learning_rate": 0.0001,
      "loss": 7.203,
      "loss/crossentropy": 2.2275290489196777,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20729243010282516,
      "step": 6058
    },
    {
      "epoch": 0.37875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.019050089518229167,
      "learning_rate": 0.0001,
      "loss": 7.2747,
      "loss/crossentropy": 2.679691195487976,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21618877351284027,
      "step": 6060
    },
    {
      "epoch": 0.378875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0194488525390625,
      "learning_rate": 0.0001,
      "loss": 7.1795,
      "loss/crossentropy": 2.263300061225891,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2042461857199669,
      "step": 6062
    },
    {
      "epoch": 0.379,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.019416300455729167,
      "learning_rate": 0.0001,
      "loss": 7.398,
      "loss/crossentropy": 2.6218732595443726,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2375633716583252,
      "step": 6064
    },
    {
      "epoch": 0.379125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.019440714518229166,
      "learning_rate": 0.0001,
      "loss": 7.3822,
      "loss/crossentropy": 2.30401611328125,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22317654639482498,
      "step": 6066
    },
    {
      "epoch": 0.37925,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.023216756184895833,
      "learning_rate": 0.0001,
      "loss": 7.3373,
      "loss/crossentropy": 1.9362152814865112,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1887020766735077,
      "step": 6068
    },
    {
      "epoch": 0.379375,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.029313151041666666,
      "learning_rate": 0.0001,
      "loss": 7.5001,
      "loss/crossentropy": 2.3842978477478027,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21501502394676208,
      "step": 6070
    },
    {
      "epoch": 0.3795,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.023298136393229165,
      "learning_rate": 0.0001,
      "loss": 7.1358,
      "loss/crossentropy": 2.22287917137146,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21563850343227386,
      "step": 6072
    },
    {
      "epoch": 0.379625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017215983072916666,
      "learning_rate": 0.0001,
      "loss": 7.1006,
      "loss/crossentropy": 2.402526021003723,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21390444040298462,
      "step": 6074
    },
    {
      "epoch": 0.37975,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.0245513916015625,
      "learning_rate": 0.0001,
      "loss": 7.1442,
      "loss/crossentropy": 2.188621401786804,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20676591992378235,
      "step": 6076
    },
    {
      "epoch": 0.379875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.022819010416666667,
      "learning_rate": 0.0001,
      "loss": 7.2357,
      "loss/crossentropy": 2.382845878601074,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21810097247362137,
      "step": 6078
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0234375,
      "learning_rate": 0.0001,
      "loss": 7.266,
      "loss/crossentropy": 2.408275842666626,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21064983308315277,
      "step": 6080
    },
    {
      "epoch": 0.380125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.026611328125,
      "learning_rate": 0.0001,
      "loss": 7.1686,
      "loss/crossentropy": 2.3628504276275635,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20509422570466995,
      "step": 6082
    },
    {
      "epoch": 0.38025,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.022737630208333335,
      "learning_rate": 0.0001,
      "loss": 7.2245,
      "loss/crossentropy": 2.246079921722412,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2075369581580162,
      "step": 6084
    },
    {
      "epoch": 0.380375,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.016429646809895834,
      "learning_rate": 0.0001,
      "loss": 7.1207,
      "loss/crossentropy": 2.012663960456848,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22296176850795746,
      "step": 6086
    },
    {
      "epoch": 0.3805,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0128082275390625,
      "learning_rate": 0.0001,
      "loss": 7.2217,
      "loss/crossentropy": 2.5077545642852783,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2282715067267418,
      "step": 6088
    },
    {
      "epoch": 0.380625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0127105712890625,
      "learning_rate": 0.0001,
      "loss": 7.1857,
      "loss/crossentropy": 2.2846879959106445,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20731749385595322,
      "step": 6090
    },
    {
      "epoch": 0.38075,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0082916259765625,
      "learning_rate": 0.0001,
      "loss": 7.264,
      "loss/crossentropy": 2.340460181236267,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21707424521446228,
      "step": 6092
    },
    {
      "epoch": 0.380875,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0072743733723958336,
      "learning_rate": 0.0001,
      "loss": 7.2139,
      "loss/crossentropy": 2.317685127258301,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20413777977228165,
      "step": 6094
    },
    {
      "epoch": 0.381,
      "grad_norm": 2.25,
      "grad_norm_var": 0.007111612955729167,
      "learning_rate": 0.0001,
      "loss": 7.3123,
      "loss/crossentropy": 2.2990000247955322,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22321767359972,
      "step": 6096
    },
    {
      "epoch": 0.381125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.006761678059895833,
      "learning_rate": 0.0001,
      "loss": 7.2415,
      "loss/crossentropy": 2.307106852531433,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2068295031785965,
      "step": 6098
    },
    {
      "epoch": 0.38125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.009663899739583334,
      "learning_rate": 0.0001,
      "loss": 7.2459,
      "loss/crossentropy": 2.272905468940735,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2071700543165207,
      "step": 6100
    },
    {
      "epoch": 0.381375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.007763671875,
      "learning_rate": 0.0001,
      "loss": 7.2205,
      "loss/crossentropy": 2.2466858625411987,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21905604004859924,
      "step": 6102
    },
    {
      "epoch": 0.3815,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.00625,
      "learning_rate": 0.0001,
      "loss": 7.3163,
      "loss/crossentropy": 2.113400459289551,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20151030272245407,
      "step": 6104
    },
    {
      "epoch": 0.381625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.00826416015625,
      "learning_rate": 0.0001,
      "loss": 7.2066,
      "loss/crossentropy": 2.289364218711853,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2247104048728943,
      "step": 6106
    },
    {
      "epoch": 0.38175,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01080322265625,
      "learning_rate": 0.0001,
      "loss": 7.2602,
      "loss/crossentropy": 2.203786611557007,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21391122043132782,
      "step": 6108
    },
    {
      "epoch": 0.381875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.011454264322916666,
      "learning_rate": 0.0001,
      "loss": 7.1077,
      "loss/crossentropy": 2.2855257987976074,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.24084167182445526,
      "step": 6110
    },
    {
      "epoch": 0.382,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0131500244140625,
      "learning_rate": 0.0001,
      "loss": 7.1511,
      "loss/crossentropy": 2.326382040977478,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22301767766475677,
      "step": 6112
    },
    {
      "epoch": 0.382125,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.01357421875,
      "learning_rate": 0.0001,
      "loss": 7.3663,
      "loss/crossentropy": 2.4644904136657715,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2120847851037979,
      "step": 6114
    },
    {
      "epoch": 0.38225,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.017594401041666666,
      "learning_rate": 0.0001,
      "loss": 7.1899,
      "loss/crossentropy": 1.9932494163513184,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1996365636587143,
      "step": 6116
    },
    {
      "epoch": 0.382375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.017769368489583333,
      "learning_rate": 0.0001,
      "loss": 7.2331,
      "loss/crossentropy": 2.2997413873672485,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21524758636951447,
      "step": 6118
    },
    {
      "epoch": 0.3825,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.018277994791666665,
      "learning_rate": 0.0001,
      "loss": 7.1646,
      "loss/crossentropy": 2.412147045135498,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20587334036827087,
      "step": 6120
    },
    {
      "epoch": 0.382625,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.020100911458333332,
      "learning_rate": 0.0001,
      "loss": 7.1928,
      "loss/crossentropy": 2.1714669466018677,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22052258253097534,
      "step": 6122
    },
    {
      "epoch": 0.38275,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.017887369791666666,
      "learning_rate": 0.0001,
      "loss": 7.2932,
      "loss/crossentropy": 2.3583080768585205,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.232616625726223,
      "step": 6124
    },
    {
      "epoch": 0.382875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.016999308268229166,
      "learning_rate": 0.0001,
      "loss": 7.252,
      "loss/crossentropy": 2.2754658460617065,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21504772454500198,
      "step": 6126
    },
    {
      "epoch": 0.383,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.023509724934895834,
      "learning_rate": 0.0001,
      "loss": 7.1404,
      "loss/crossentropy": 2.382510781288147,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22090370953083038,
      "step": 6128
    },
    {
      "epoch": 0.383125,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.027787017822265624,
      "learning_rate": 0.0001,
      "loss": 7.1187,
      "loss/crossentropy": 2.0568565130233765,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19300862401723862,
      "step": 6130
    },
    {
      "epoch": 0.38325,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.021183013916015625,
      "learning_rate": 0.0001,
      "loss": 7.2013,
      "loss/crossentropy": 2.395463228225708,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21835564076900482,
      "step": 6132
    },
    {
      "epoch": 0.383375,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.020715077718098957,
      "learning_rate": 0.0001,
      "loss": 7.2018,
      "loss/crossentropy": 2.2619467973709106,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2159418836236,
      "step": 6134
    },
    {
      "epoch": 0.3835,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.020918528238932293,
      "learning_rate": 0.0001,
      "loss": 7.4816,
      "loss/crossentropy": 2.2685283422470093,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21295687556266785,
      "step": 6136
    },
    {
      "epoch": 0.383625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.019311269124348957,
      "learning_rate": 0.0001,
      "loss": 7.1095,
      "loss/crossentropy": 2.2552493810653687,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2095998227596283,
      "step": 6138
    },
    {
      "epoch": 0.38375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.020139312744140624,
      "learning_rate": 0.0001,
      "loss": 7.2686,
      "loss/crossentropy": 2.3464255332946777,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20441381633281708,
      "step": 6140
    },
    {
      "epoch": 0.383875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.024421183268229167,
      "learning_rate": 0.0001,
      "loss": 7.2288,
      "loss/crossentropy": 2.287395715713501,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22399558871984482,
      "step": 6142
    },
    {
      "epoch": 0.384,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.011922200520833334,
      "learning_rate": 0.0001,
      "loss": 7.4251,
      "loss/crossentropy": 2.164630949497223,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22558195143938065,
      "step": 6144
    },
    {
      "epoch": 0.384125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.010959625244140625,
      "learning_rate": 0.0001,
      "loss": 7.1384,
      "loss/crossentropy": 1.937812328338623,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19157906621694565,
      "step": 6146
    },
    {
      "epoch": 0.38425,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.013787587483723959,
      "learning_rate": 0.0001,
      "loss": 7.2158,
      "loss/crossentropy": 2.3608381748199463,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24235235154628754,
      "step": 6148
    },
    {
      "epoch": 0.384375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.014587148030598959,
      "learning_rate": 0.0001,
      "loss": 7.1659,
      "loss/crossentropy": 2.4223140478134155,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21669473499059677,
      "step": 6150
    },
    {
      "epoch": 0.3845,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017937978108723957,
      "learning_rate": 0.0001,
      "loss": 7.0478,
      "loss/crossentropy": 2.2232367992401123,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21520529687404633,
      "step": 6152
    },
    {
      "epoch": 0.384625,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.021602121988932292,
      "learning_rate": 0.0001,
      "loss": 7.2573,
      "loss/crossentropy": 2.498006224632263,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22033587098121643,
      "step": 6154
    },
    {
      "epoch": 0.38475,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.02343928019205729,
      "learning_rate": 0.0001,
      "loss": 7.2942,
      "loss/crossentropy": 2.367275357246399,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21903083473443985,
      "step": 6156
    },
    {
      "epoch": 0.384875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0179351806640625,
      "learning_rate": 0.0001,
      "loss": 7.1205,
      "loss/crossentropy": 2.4437015056610107,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21279380470514297,
      "step": 6158
    },
    {
      "epoch": 0.385,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.021907552083333334,
      "learning_rate": 0.0001,
      "loss": 7.247,
      "loss/crossentropy": 2.4123772382736206,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22339122742414474,
      "step": 6160
    },
    {
      "epoch": 0.385125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.023811848958333333,
      "learning_rate": 0.0001,
      "loss": 7.186,
      "loss/crossentropy": 2.2593997716903687,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2121337652206421,
      "step": 6162
    },
    {
      "epoch": 0.38525,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.024283854166666667,
      "learning_rate": 0.0001,
      "loss": 7.2505,
      "loss/crossentropy": 2.4139418601989746,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2320389673113823,
      "step": 6164
    },
    {
      "epoch": 0.385375,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.023021443684895834,
      "learning_rate": 0.0001,
      "loss": 7.1636,
      "loss/crossentropy": 2.300944983959198,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21375388652086258,
      "step": 6166
    },
    {
      "epoch": 0.3855,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.0188140869140625,
      "learning_rate": 0.0001,
      "loss": 7.1753,
      "loss/crossentropy": 2.328981041908264,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2163231372833252,
      "step": 6168
    },
    {
      "epoch": 0.385625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.016825358072916668,
      "learning_rate": 0.0001,
      "loss": 7.257,
      "loss/crossentropy": 2.253252863883972,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1982560232281685,
      "step": 6170
    },
    {
      "epoch": 0.38575,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.01328125,
      "learning_rate": 0.0001,
      "loss": 7.1984,
      "loss/crossentropy": 2.4192394018173218,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20848099142313004,
      "step": 6172
    },
    {
      "epoch": 0.385875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.013410441080729167,
      "learning_rate": 0.0001,
      "loss": 7.1191,
      "loss/crossentropy": 2.1820013523101807,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2143269181251526,
      "step": 6174
    },
    {
      "epoch": 0.386,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.013410441080729167,
      "learning_rate": 0.0001,
      "loss": 7.0709,
      "loss/crossentropy": 2.271676182746887,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.208109050989151,
      "step": 6176
    },
    {
      "epoch": 0.386125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.008935546875,
      "learning_rate": 0.0001,
      "loss": 7.0798,
      "loss/crossentropy": 2.139783024787903,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2209583893418312,
      "step": 6178
    },
    {
      "epoch": 0.38625,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.01142578125,
      "learning_rate": 0.0001,
      "loss": 7.1879,
      "loss/crossentropy": 2.22269070148468,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20203150063753128,
      "step": 6180
    },
    {
      "epoch": 0.386375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.015510813395182291,
      "learning_rate": 0.0001,
      "loss": 7.1266,
      "loss/crossentropy": 2.225795269012451,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20338183641433716,
      "step": 6182
    },
    {
      "epoch": 0.3865,
      "grad_norm": 2.125,
      "grad_norm_var": 0.013512929280598959,
      "learning_rate": 0.0001,
      "loss": 7.1648,
      "loss/crossentropy": 2.114717125892639,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22314286977052689,
      "step": 6184
    },
    {
      "epoch": 0.386625,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.013219960530598958,
      "learning_rate": 0.0001,
      "loss": 7.1101,
      "loss/crossentropy": 2.0499364137649536,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20304933190345764,
      "step": 6186
    },
    {
      "epoch": 0.38675,
      "grad_norm": 2.125,
      "grad_norm_var": 0.013002268473307292,
      "learning_rate": 0.0001,
      "loss": 7.1289,
      "loss/crossentropy": 2.2222620248794556,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2161303237080574,
      "step": 6188
    },
    {
      "epoch": 0.386875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.012294260660807292,
      "learning_rate": 0.0001,
      "loss": 7.1987,
      "loss/crossentropy": 2.296729564666748,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2208261713385582,
      "step": 6190
    },
    {
      "epoch": 0.387,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.016477203369140624,
      "learning_rate": 0.0001,
      "loss": 7.4317,
      "loss/crossentropy": 2.4254910945892334,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2514353543519974,
      "step": 6192
    },
    {
      "epoch": 0.387125,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.01654230753580729,
      "learning_rate": 0.0001,
      "loss": 7.1742,
      "loss/crossentropy": 2.1946414709091187,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20449410378932953,
      "step": 6194
    },
    {
      "epoch": 0.38725,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.012839508056640626,
      "learning_rate": 0.0001,
      "loss": 7.1523,
      "loss/crossentropy": 2.1898844242095947,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2156129777431488,
      "step": 6196
    },
    {
      "epoch": 0.387375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0109527587890625,
      "learning_rate": 0.0001,
      "loss": 7.158,
      "loss/crossentropy": 2.100374698638916,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21593213081359863,
      "step": 6198
    },
    {
      "epoch": 0.3875,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.014564768473307291,
      "learning_rate": 0.0001,
      "loss": 7.0778,
      "loss/crossentropy": 2.119781017303467,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19760458916425705,
      "step": 6200
    },
    {
      "epoch": 0.387625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.014088694254557292,
      "learning_rate": 0.0001,
      "loss": 7.1764,
      "loss/crossentropy": 2.4633294343948364,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20755568891763687,
      "step": 6202
    },
    {
      "epoch": 0.38775,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.014168039957682291,
      "learning_rate": 0.0001,
      "loss": 7.2959,
      "loss/crossentropy": 2.351404905319214,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21977319568395615,
      "step": 6204
    },
    {
      "epoch": 0.387875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.014178212483723958,
      "learning_rate": 0.0001,
      "loss": 7.2006,
      "loss/crossentropy": 2.1882619857788086,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2126511111855507,
      "step": 6206
    },
    {
      "epoch": 0.388,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.009747060139973958,
      "learning_rate": 0.0001,
      "loss": 7.1983,
      "loss/crossentropy": 2.2526434659957886,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2065277025103569,
      "step": 6208
    },
    {
      "epoch": 0.388125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.009854888916015625,
      "learning_rate": 0.0001,
      "loss": 7.1293,
      "loss/crossentropy": 2.3055331707000732,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2006327137351036,
      "step": 6210
    },
    {
      "epoch": 0.38825,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.010575103759765624,
      "learning_rate": 0.0001,
      "loss": 7.2887,
      "loss/crossentropy": 2.175672173500061,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21848966926336288,
      "step": 6212
    },
    {
      "epoch": 0.388375,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.013836415608723958,
      "learning_rate": 0.0001,
      "loss": 7.2577,
      "loss/crossentropy": 2.3525902032852173,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22647082805633545,
      "step": 6214
    },
    {
      "epoch": 0.3885,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.020490519205729165,
      "learning_rate": 0.0001,
      "loss": 7.279,
      "loss/crossentropy": 2.0665590167045593,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19694138318300247,
      "step": 6216
    },
    {
      "epoch": 0.388625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.022809855143229165,
      "learning_rate": 0.0001,
      "loss": 7.233,
      "loss/crossentropy": 2.0745668411254883,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20363005250692368,
      "step": 6218
    },
    {
      "epoch": 0.38875,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.028922526041666667,
      "learning_rate": 0.0001,
      "loss": 7.3839,
      "loss/crossentropy": 2.038256347179413,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21672368794679642,
      "step": 6220
    },
    {
      "epoch": 0.388875,
      "grad_norm": 3.0,
      "grad_norm_var": 0.06468098958333333,
      "learning_rate": 0.0001,
      "loss": 7.2287,
      "loss/crossentropy": 2.2980682849884033,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22767220437526703,
      "step": 6222
    },
    {
      "epoch": 0.389,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.07187398274739583,
      "learning_rate": 0.0001,
      "loss": 7.1803,
      "loss/crossentropy": 2.175195574760437,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20187747478485107,
      "step": 6224
    },
    {
      "epoch": 0.389125,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.07619400024414062,
      "learning_rate": 0.0001,
      "loss": 7.0902,
      "loss/crossentropy": 2.0487667322158813,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19584185630083084,
      "step": 6226
    },
    {
      "epoch": 0.38925,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0768450419108073,
      "learning_rate": 0.0001,
      "loss": 7.3122,
      "loss/crossentropy": 2.1507842540740967,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2099941298365593,
      "step": 6228
    },
    {
      "epoch": 0.389375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.07747573852539062,
      "learning_rate": 0.0001,
      "loss": 7.3023,
      "loss/crossentropy": 2.536380410194397,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23754464834928513,
      "step": 6230
    },
    {
      "epoch": 0.3895,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.07687149047851563,
      "learning_rate": 0.0001,
      "loss": 7.1825,
      "loss/crossentropy": 2.354156494140625,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22577545046806335,
      "step": 6232
    },
    {
      "epoch": 0.389625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.07278416951497396,
      "learning_rate": 0.0001,
      "loss": 7.1849,
      "loss/crossentropy": 2.0844647884368896,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2019355520606041,
      "step": 6234
    },
    {
      "epoch": 0.38975,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.06987279256184896,
      "learning_rate": 0.0001,
      "loss": 7.1985,
      "loss/crossentropy": 2.2951064109802246,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20773043483495712,
      "step": 6236
    },
    {
      "epoch": 0.389875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.031109364827473958,
      "learning_rate": 0.0001,
      "loss": 7.227,
      "loss/crossentropy": 2.1024820804595947,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2022949606180191,
      "step": 6238
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.014829254150390625,
      "learning_rate": 0.0001,
      "loss": 7.149,
      "loss/crossentropy": 2.028247654438019,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19261081516742706,
      "step": 6240
    },
    {
      "epoch": 0.390125,
      "grad_norm": 2.953125,
      "grad_norm_var": 0.04890848795572917,
      "learning_rate": 0.0001,
      "loss": 7.3008,
      "loss/crossentropy": 2.4559611082077026,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21937407553195953,
      "step": 6242
    },
    {
      "epoch": 0.39025,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.050191243489583336,
      "learning_rate": 0.0001,
      "loss": 7.1446,
      "loss/crossentropy": 2.094746768474579,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18669873476028442,
      "step": 6244
    },
    {
      "epoch": 0.390375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.05080973307291667,
      "learning_rate": 0.0001,
      "loss": 7.3141,
      "loss/crossentropy": 2.0901660323143005,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2054583877325058,
      "step": 6246
    },
    {
      "epoch": 0.3905,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.04784749348958333,
      "learning_rate": 0.0001,
      "loss": 7.323,
      "loss/crossentropy": 2.0414637327194214,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2149074748158455,
      "step": 6248
    },
    {
      "epoch": 0.390625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.04676106770833333,
      "learning_rate": 0.0001,
      "loss": 7.2818,
      "loss/crossentropy": 2.477187752723694,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22341058403253555,
      "step": 6250
    },
    {
      "epoch": 0.39075,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.04804280598958333,
      "learning_rate": 0.0001,
      "loss": 7.0282,
      "loss/crossentropy": 2.167757034301758,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19077523797750473,
      "step": 6252
    },
    {
      "epoch": 0.390875,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.05100809733072917,
      "learning_rate": 0.0001,
      "loss": 7.2128,
      "loss/crossentropy": 2.4444233179092407,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21900728344917297,
      "step": 6254
    },
    {
      "epoch": 0.391,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0484771728515625,
      "learning_rate": 0.0001,
      "loss": 7.1528,
      "loss/crossentropy": 2.353291869163513,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21415339410305023,
      "step": 6256
    },
    {
      "epoch": 0.391125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.015192667643229166,
      "learning_rate": 0.0001,
      "loss": 7.091,
      "loss/crossentropy": 2.2490928173065186,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2167230099439621,
      "step": 6258
    },
    {
      "epoch": 0.39125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.013704427083333333,
      "learning_rate": 0.0001,
      "loss": 7.3306,
      "loss/crossentropy": 2.4165178537368774,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2405092567205429,
      "step": 6260
    },
    {
      "epoch": 0.391375,
      "grad_norm": 5.4375,
      "grad_norm_var": 0.8871378580729167,
      "learning_rate": 0.0001,
      "loss": 7.3884,
      "loss/crossentropy": 2.242551565170288,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23066271841526031,
      "step": 6262
    },
    {
      "epoch": 0.3915,
      "grad_norm": 13.0625,
      "grad_norm_var": 7.71259765625,
      "learning_rate": 0.0001,
      "loss": 7.8466,
      "loss/crossentropy": 2.4470694065093994,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26077815890312195,
      "step": 6264
    },
    {
      "epoch": 0.391625,
      "grad_norm": 2.625,
      "grad_norm_var": 7.606929524739583,
      "learning_rate": 0.0001,
      "loss": 7.3717,
      "loss/crossentropy": 2.3733749389648438,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23013299703598022,
      "step": 6266
    },
    {
      "epoch": 0.39175,
      "grad_norm": 2.46875,
      "grad_norm_var": 7.546891276041666,
      "learning_rate": 0.0001,
      "loss": 7.2616,
      "loss/crossentropy": 1.922485888004303,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2019965946674347,
      "step": 6268
    },
    {
      "epoch": 0.391875,
      "grad_norm": 2.015625,
      "grad_norm_var": 7.520503743489583,
      "learning_rate": 0.0001,
      "loss": 7.1054,
      "loss/crossentropy": 2.258482575416565,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22108732908964157,
      "step": 6270
    },
    {
      "epoch": 0.392,
      "grad_norm": 2.515625,
      "grad_norm_var": 7.477079264322916,
      "learning_rate": 0.0001,
      "loss": 7.0443,
      "loss/crossentropy": 2.2347971200942993,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21819213032722473,
      "step": 6272
    },
    {
      "epoch": 0.392125,
      "grad_norm": 2.15625,
      "grad_norm_var": 7.528499348958333,
      "learning_rate": 0.0001,
      "loss": 7.2214,
      "loss/crossentropy": 2.2647920846939087,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21231649070978165,
      "step": 6274
    },
    {
      "epoch": 0.39225,
      "grad_norm": 2.390625,
      "grad_norm_var": 7.526005045572917,
      "learning_rate": 0.0001,
      "loss": 7.4141,
      "loss/crossentropy": 2.3626712560653687,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21143031865358353,
      "step": 6276
    },
    {
      "epoch": 0.392375,
      "grad_norm": 2.515625,
      "grad_norm_var": 7.242333984375,
      "learning_rate": 0.0001,
      "loss": 7.2001,
      "loss/crossentropy": 2.018476188182831,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20615462213754654,
      "step": 6278
    },
    {
      "epoch": 0.3925,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.07892252604166666,
      "learning_rate": 0.0001,
      "loss": 7.1264,
      "loss/crossentropy": 2.347910761833191,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2185712829232216,
      "step": 6280
    },
    {
      "epoch": 0.392625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.027339680989583334,
      "learning_rate": 0.0001,
      "loss": 7.4132,
      "loss/crossentropy": 2.291501462459564,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21928339451551437,
      "step": 6282
    },
    {
      "epoch": 0.39275,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.0239166259765625,
      "learning_rate": 0.0001,
      "loss": 7.3247,
      "loss/crossentropy": 2.402106761932373,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2256387323141098,
      "step": 6284
    },
    {
      "epoch": 0.392875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.020929972330729168,
      "learning_rate": 0.0001,
      "loss": 7.3261,
      "loss/crossentropy": 2.5922293663024902,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23517914861440659,
      "step": 6286
    },
    {
      "epoch": 0.393,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.018831380208333335,
      "learning_rate": 0.0001,
      "loss": 6.9919,
      "loss/crossentropy": 1.85099458694458,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19639435410499573,
      "step": 6288
    },
    {
      "epoch": 0.393125,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.019466145833333334,
      "learning_rate": 0.0001,
      "loss": 7.1741,
      "loss/crossentropy": 2.6446659564971924,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20629265159368515,
      "step": 6290
    },
    {
      "epoch": 0.39325,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0166656494140625,
      "learning_rate": 0.0001,
      "loss": 7.0529,
      "loss/crossentropy": 2.020451545715332,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2004483938217163,
      "step": 6292
    },
    {
      "epoch": 0.393375,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.010456339518229166,
      "learning_rate": 0.0001,
      "loss": 7.1559,
      "loss/crossentropy": 2.37979257106781,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23029006272554398,
      "step": 6294
    },
    {
      "epoch": 0.3935,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.009598795572916667,
      "learning_rate": 0.0001,
      "loss": 7.1597,
      "loss/crossentropy": 1.9197645783424377,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18409430235624313,
      "step": 6296
    },
    {
      "epoch": 0.393625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0141510009765625,
      "learning_rate": 0.0001,
      "loss": 7.2572,
      "loss/crossentropy": 2.4349591732025146,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2220984399318695,
      "step": 6298
    },
    {
      "epoch": 0.39375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.018131256103515625,
      "learning_rate": 0.0001,
      "loss": 7.2722,
      "loss/crossentropy": 2.2742892503738403,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2200971096754074,
      "step": 6300
    },
    {
      "epoch": 0.393875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.01762669881184896,
      "learning_rate": 0.0001,
      "loss": 7.1513,
      "loss/crossentropy": 2.224164128303528,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21906382590532303,
      "step": 6302
    },
    {
      "epoch": 0.394,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.01935399373372396,
      "learning_rate": 0.0001,
      "loss": 7.4193,
      "loss/crossentropy": 2.4383881092071533,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21790315955877304,
      "step": 6304
    },
    {
      "epoch": 0.394125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.020763905843098958,
      "learning_rate": 0.0001,
      "loss": 7.258,
      "loss/crossentropy": 2.2842483520507812,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21311689168214798,
      "step": 6306
    },
    {
      "epoch": 0.39425,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.022474924723307293,
      "learning_rate": 0.0001,
      "loss": 7.2049,
      "loss/crossentropy": 2.2808109521865845,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2112395316362381,
      "step": 6308
    },
    {
      "epoch": 0.394375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.023158518473307292,
      "learning_rate": 0.0001,
      "loss": 7.0865,
      "loss/crossentropy": 2.1974657773971558,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20438392460346222,
      "step": 6310
    },
    {
      "epoch": 0.3945,
      "grad_norm": 2.125,
      "grad_norm_var": 0.034126536051432295,
      "learning_rate": 0.0001,
      "loss": 7.1925,
      "loss/crossentropy": 2.0605512261390686,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20864906907081604,
      "step": 6312
    },
    {
      "epoch": 0.394625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.029797108968098958,
      "learning_rate": 0.0001,
      "loss": 7.0857,
      "loss/crossentropy": 2.132881999015808,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19599150866270065,
      "step": 6314
    },
    {
      "epoch": 0.39475,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.025439453125,
      "learning_rate": 0.0001,
      "loss": 7.2386,
      "loss/crossentropy": 2.266274333000183,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.234784334897995,
      "step": 6316
    },
    {
      "epoch": 0.394875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.025397745768229167,
      "learning_rate": 0.0001,
      "loss": 7.3488,
      "loss/crossentropy": 2.5363104343414307,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2150138020515442,
      "step": 6318
    },
    {
      "epoch": 0.395,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.027229817708333333,
      "learning_rate": 0.0001,
      "loss": 7.2938,
      "loss/crossentropy": 2.313738703727722,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21550405770540237,
      "step": 6320
    },
    {
      "epoch": 0.395125,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.02779541015625,
      "learning_rate": 0.0001,
      "loss": 7.1882,
      "loss/crossentropy": 2.285131096839905,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20362475514411926,
      "step": 6322
    },
    {
      "epoch": 0.39525,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.026790364583333334,
      "learning_rate": 0.0001,
      "loss": 7.2794,
      "loss/crossentropy": 2.522578239440918,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2191583439707756,
      "step": 6324
    },
    {
      "epoch": 0.395375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.025755818684895834,
      "learning_rate": 0.0001,
      "loss": 7.1791,
      "loss/crossentropy": 2.460786819458008,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2294606864452362,
      "step": 6326
    },
    {
      "epoch": 0.3955,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.01246337890625,
      "learning_rate": 0.0001,
      "loss": 7.1824,
      "loss/crossentropy": 2.282975435256958,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22038684040308,
      "step": 6328
    },
    {
      "epoch": 0.395625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.012165323893229166,
      "learning_rate": 0.0001,
      "loss": 7.129,
      "loss/crossentropy": 2.178337335586548,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2119307518005371,
      "step": 6330
    },
    {
      "epoch": 0.39575,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.013981119791666666,
      "learning_rate": 0.0001,
      "loss": 7.311,
      "loss/crossentropy": 2.2752076387405396,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20718948543071747,
      "step": 6332
    },
    {
      "epoch": 0.395875,
      "grad_norm": 2.625,
      "grad_norm_var": 0.025113932291666665,
      "learning_rate": 0.0001,
      "loss": 7.2538,
      "loss/crossentropy": 2.2171541452407837,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2145935222506523,
      "step": 6334
    },
    {
      "epoch": 0.396,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.03355204264322917,
      "learning_rate": 0.0001,
      "loss": 7.3479,
      "loss/crossentropy": 2.221325159072876,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22985991835594177,
      "step": 6336
    },
    {
      "epoch": 0.396125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.028425089518229165,
      "learning_rate": 0.0001,
      "loss": 7.2308,
      "loss/crossentropy": 2.456564784049988,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21483594179153442,
      "step": 6338
    },
    {
      "epoch": 0.39625,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0310455322265625,
      "learning_rate": 0.0001,
      "loss": 7.1604,
      "loss/crossentropy": 2.1799052953720093,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2172977179288864,
      "step": 6340
    },
    {
      "epoch": 0.396375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0314453125,
      "learning_rate": 0.0001,
      "loss": 7.3171,
      "loss/crossentropy": 2.308402419090271,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21601353585720062,
      "step": 6342
    },
    {
      "epoch": 0.3965,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.03222249348958333,
      "learning_rate": 0.0001,
      "loss": 7.2262,
      "loss/crossentropy": 2.40183162689209,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2093559354543686,
      "step": 6344
    },
    {
      "epoch": 0.396625,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.034651692708333334,
      "learning_rate": 0.0001,
      "loss": 7.0315,
      "loss/crossentropy": 1.9722952842712402,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19374338537454605,
      "step": 6346
    },
    {
      "epoch": 0.39675,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.03699544270833333,
      "learning_rate": 0.0001,
      "loss": 7.1221,
      "loss/crossentropy": 2.2486064434051514,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19635196030139923,
      "step": 6348
    },
    {
      "epoch": 0.396875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.025829060872395834,
      "learning_rate": 0.0001,
      "loss": 7.1707,
      "loss/crossentropy": 2.4905707836151123,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23304647207260132,
      "step": 6350
    },
    {
      "epoch": 0.397,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0089996337890625,
      "learning_rate": 0.0001,
      "loss": 7.1753,
      "loss/crossentropy": 2.437414765357971,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2328067496418953,
      "step": 6352
    },
    {
      "epoch": 0.397125,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.011942545572916666,
      "learning_rate": 0.0001,
      "loss": 7.0693,
      "loss/crossentropy": 2.294760227203369,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21324169635772705,
      "step": 6354
    },
    {
      "epoch": 0.39725,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.01558837890625,
      "learning_rate": 0.0001,
      "loss": 7.1353,
      "loss/crossentropy": 2.355687439441681,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2057061642408371,
      "step": 6356
    },
    {
      "epoch": 0.397375,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.0186920166015625,
      "learning_rate": 0.0001,
      "loss": 7.1041,
      "loss/crossentropy": 2.3166561126708984,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19575699418783188,
      "step": 6358
    },
    {
      "epoch": 0.3975,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0171539306640625,
      "learning_rate": 0.0001,
      "loss": 6.97,
      "loss/crossentropy": 2.255427122116089,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19496920704841614,
      "step": 6360
    },
    {
      "epoch": 0.397625,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.016926066080729166,
      "learning_rate": 0.0001,
      "loss": 7.276,
      "loss/crossentropy": 2.5599944591522217,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24714961647987366,
      "step": 6362
    },
    {
      "epoch": 0.39775,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01539306640625,
      "learning_rate": 0.0001,
      "loss": 7.1811,
      "loss/crossentropy": 2.349897623062134,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21329647302627563,
      "step": 6364
    },
    {
      "epoch": 0.397875,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.01549072265625,
      "learning_rate": 0.0001,
      "loss": 7.1841,
      "loss/crossentropy": 2.190832495689392,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.219038225710392,
      "step": 6366
    },
    {
      "epoch": 0.398,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0158599853515625,
      "learning_rate": 0.0001,
      "loss": 7.2998,
      "loss/crossentropy": 2.4349499940872192,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21405059099197388,
      "step": 6368
    },
    {
      "epoch": 0.398125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01129150390625,
      "learning_rate": 0.0001,
      "loss": 7.2085,
      "loss/crossentropy": 2.380038619041443,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21820517629384995,
      "step": 6370
    },
    {
      "epoch": 0.39825,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.009186808268229167,
      "learning_rate": 0.0001,
      "loss": 7.1465,
      "loss/crossentropy": 2.311740756034851,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20036467909812927,
      "step": 6372
    },
    {
      "epoch": 0.398375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.005387369791666667,
      "learning_rate": 0.0001,
      "loss": 7.0727,
      "loss/crossentropy": 2.3335254192352295,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21295969933271408,
      "step": 6374
    },
    {
      "epoch": 0.3985,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.00562744140625,
      "learning_rate": 0.0001,
      "loss": 7.2106,
      "loss/crossentropy": 2.2149945497512817,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20361988991498947,
      "step": 6376
    },
    {
      "epoch": 0.398625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.005659993489583333,
      "learning_rate": 0.0001,
      "loss": 7.062,
      "loss/crossentropy": 2.217359721660614,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.206251360476017,
      "step": 6378
    },
    {
      "epoch": 0.39875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.006461588541666666,
      "learning_rate": 0.0001,
      "loss": 7.0996,
      "loss/crossentropy": 2.3303332328796387,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22268137335777283,
      "step": 6380
    },
    {
      "epoch": 0.398875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0055572509765625,
      "learning_rate": 0.0001,
      "loss": 7.263,
      "loss/crossentropy": 2.365337371826172,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21782244741916656,
      "step": 6382
    },
    {
      "epoch": 0.399,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.010190582275390625,
      "learning_rate": 0.0001,
      "loss": 7.1806,
      "loss/crossentropy": 2.1229239106178284,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2005736082792282,
      "step": 6384
    },
    {
      "epoch": 0.399125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.009224192301432291,
      "learning_rate": 0.0001,
      "loss": 7.1557,
      "loss/crossentropy": 2.10502552986145,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21637042611837387,
      "step": 6386
    },
    {
      "epoch": 0.39925,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.010229237874348958,
      "learning_rate": 0.0001,
      "loss": 7.3129,
      "loss/crossentropy": 2.272659182548523,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20518405735492706,
      "step": 6388
    },
    {
      "epoch": 0.399375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.011130523681640626,
      "learning_rate": 0.0001,
      "loss": 7.2501,
      "loss/crossentropy": 2.0195122957229614,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19787423312664032,
      "step": 6390
    },
    {
      "epoch": 0.3995,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.012631988525390625,
      "learning_rate": 0.0001,
      "loss": 6.965,
      "loss/crossentropy": 2.0998696088790894,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18977724760770798,
      "step": 6392
    },
    {
      "epoch": 0.399625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.011926015218098959,
      "learning_rate": 0.0001,
      "loss": 7.1537,
      "loss/crossentropy": 2.5123926401138306,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22189470380544662,
      "step": 6394
    },
    {
      "epoch": 0.39975,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.02241999308268229,
      "learning_rate": 0.0001,
      "loss": 7.145,
      "loss/crossentropy": 1.997516393661499,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19417890161275864,
      "step": 6396
    },
    {
      "epoch": 0.399875,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.023083241780598958,
      "learning_rate": 0.0001,
      "loss": 7.0326,
      "loss/crossentropy": 2.183876097202301,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2068372145295143,
      "step": 6398
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.125,
      "grad_norm_var": 0.021825154622395832,
      "learning_rate": 0.0001,
      "loss": 7.0986,
      "loss/crossentropy": 2.2808289527893066,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21026340126991272,
      "step": 6400
    },
    {
      "epoch": 0.400125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.021761067708333335,
      "learning_rate": 0.0001,
      "loss": 7.2804,
      "loss/crossentropy": 2.11923885345459,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2049631029367447,
      "step": 6402
    },
    {
      "epoch": 0.40025,
      "grad_norm": 2.125,
      "grad_norm_var": 0.020601399739583335,
      "learning_rate": 0.0001,
      "loss": 7.1831,
      "loss/crossentropy": 2.2619943022727966,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22322535514831543,
      "step": 6404
    },
    {
      "epoch": 0.400375,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.02127049763997396,
      "learning_rate": 0.0001,
      "loss": 7.0207,
      "loss/crossentropy": 1.81930810213089,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18869058787822723,
      "step": 6406
    },
    {
      "epoch": 0.4005,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.02247899373372396,
      "learning_rate": 0.0001,
      "loss": 7.3292,
      "loss/crossentropy": 2.421749472618103,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21702227741479874,
      "step": 6408
    },
    {
      "epoch": 0.400625,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.024112955729166666,
      "learning_rate": 0.0001,
      "loss": 7.2174,
      "loss/crossentropy": 2.363996148109436,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20497220754623413,
      "step": 6410
    },
    {
      "epoch": 0.40075,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.011481730143229167,
      "learning_rate": 0.0001,
      "loss": 7.2747,
      "loss/crossentropy": 2.1107038259506226,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2324059084057808,
      "step": 6412
    },
    {
      "epoch": 0.400875,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.011673990885416667,
      "learning_rate": 0.0001,
      "loss": 7.1866,
      "loss/crossentropy": 2.1150999069213867,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2122773751616478,
      "step": 6414
    },
    {
      "epoch": 0.401,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.013849894205729166,
      "learning_rate": 0.0001,
      "loss": 7.2246,
      "loss/crossentropy": 2.143269181251526,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2062653973698616,
      "step": 6416
    },
    {
      "epoch": 0.401125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.018065388997395834,
      "learning_rate": 0.0001,
      "loss": 7.317,
      "loss/crossentropy": 2.1853350400924683,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1954660639166832,
      "step": 6418
    },
    {
      "epoch": 0.40125,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.018114217122395835,
      "learning_rate": 0.0001,
      "loss": 7.1075,
      "loss/crossentropy": 2.1452205181121826,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2259805053472519,
      "step": 6420
    },
    {
      "epoch": 0.401375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.015215810139973958,
      "learning_rate": 0.0001,
      "loss": 7.1589,
      "loss/crossentropy": 2.5433114767074585,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20600835233926773,
      "step": 6422
    },
    {
      "epoch": 0.4015,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.016356404622395834,
      "learning_rate": 0.0001,
      "loss": 7.0635,
      "loss/crossentropy": 1.9214220643043518,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18052654713392258,
      "step": 6424
    },
    {
      "epoch": 0.401625,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.015728505452473958,
      "learning_rate": 0.0001,
      "loss": 7.2356,
      "loss/crossentropy": 2.359765887260437,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22128498554229736,
      "step": 6426
    },
    {
      "epoch": 0.40175,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.017470041910807293,
      "learning_rate": 0.0001,
      "loss": 7.2596,
      "loss/crossentropy": 2.2433066368103027,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2121361345052719,
      "step": 6428
    },
    {
      "epoch": 0.401875,
      "grad_norm": 2.5,
      "grad_norm_var": 0.022226715087890626,
      "learning_rate": 0.0001,
      "loss": 7.2592,
      "loss/crossentropy": 2.251939296722412,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21200115978717804,
      "step": 6430
    },
    {
      "epoch": 0.402,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.019909413655598958,
      "learning_rate": 0.0001,
      "loss": 7.1853,
      "loss/crossentropy": 2.20802104473114,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2019861936569214,
      "step": 6432
    },
    {
      "epoch": 0.402125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.01645075480143229,
      "learning_rate": 0.0001,
      "loss": 7.1294,
      "loss/crossentropy": 2.509099006652832,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22067614644765854,
      "step": 6434
    },
    {
      "epoch": 0.40225,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.025785319010416665,
      "learning_rate": 0.0001,
      "loss": 7.0552,
      "loss/crossentropy": 2.2592573165893555,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21897969394922256,
      "step": 6436
    },
    {
      "epoch": 0.402375,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.027347819010416666,
      "learning_rate": 0.0001,
      "loss": 7.3063,
      "loss/crossentropy": 2.221360445022583,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21196063607931137,
      "step": 6438
    },
    {
      "epoch": 0.4025,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.025294748942057292,
      "learning_rate": 0.0001,
      "loss": 7.1702,
      "loss/crossentropy": 2.428785562515259,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22930145263671875,
      "step": 6440
    },
    {
      "epoch": 0.402625,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.02661921183268229,
      "learning_rate": 0.0001,
      "loss": 7.2067,
      "loss/crossentropy": 2.287087917327881,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18991201370954514,
      "step": 6442
    },
    {
      "epoch": 0.40275,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.02487767537434896,
      "learning_rate": 0.0001,
      "loss": 7.0066,
      "loss/crossentropy": 2.274364471435547,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21028787642717361,
      "step": 6444
    },
    {
      "epoch": 0.402875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.02175877888997396,
      "learning_rate": 0.0001,
      "loss": 7.1773,
      "loss/crossentropy": 2.046273946762085,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19751162081956863,
      "step": 6446
    },
    {
      "epoch": 0.403,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.023178863525390624,
      "learning_rate": 0.0001,
      "loss": 7.2427,
      "loss/crossentropy": 2.1227652430534363,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.19309522956609726,
      "step": 6448
    },
    {
      "epoch": 0.403125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.02542088826497396,
      "learning_rate": 0.0001,
      "loss": 7.0169,
      "loss/crossentropy": 2.1013576984405518,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2055366113781929,
      "step": 6450
    },
    {
      "epoch": 0.40325,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.016097005208333334,
      "learning_rate": 0.0001,
      "loss": 7.2335,
      "loss/crossentropy": 2.3643540143966675,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21434146910905838,
      "step": 6452
    },
    {
      "epoch": 0.403375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.013102213541666666,
      "learning_rate": 0.0001,
      "loss": 7.1063,
      "loss/crossentropy": 2.2940242290496826,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21527153253555298,
      "step": 6454
    },
    {
      "epoch": 0.4035,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.01363525390625,
      "learning_rate": 0.0001,
      "loss": 7.1233,
      "loss/crossentropy": 2.432578206062317,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21458515524864197,
      "step": 6456
    },
    {
      "epoch": 0.403625,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0198150634765625,
      "learning_rate": 0.0001,
      "loss": 7.161,
      "loss/crossentropy": 2.0361666083335876,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21390791982412338,
      "step": 6458
    },
    {
      "epoch": 0.40375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0194000244140625,
      "learning_rate": 0.0001,
      "loss": 7.1093,
      "loss/crossentropy": 2.171969771385193,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22019729018211365,
      "step": 6460
    },
    {
      "epoch": 0.403875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0191314697265625,
      "learning_rate": 0.0001,
      "loss": 7.1831,
      "loss/crossentropy": 2.086853861808777,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21678819507360458,
      "step": 6462
    },
    {
      "epoch": 0.404,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.017015584309895835,
      "learning_rate": 0.0001,
      "loss": 7.0841,
      "loss/crossentropy": 2.077217400074005,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1952114701271057,
      "step": 6464
    },
    {
      "epoch": 0.404125,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.018431599934895834,
      "learning_rate": 0.0001,
      "loss": 7.3492,
      "loss/crossentropy": 2.162355422973633,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20112480223178864,
      "step": 6466
    },
    {
      "epoch": 0.40425,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.018895467122395832,
      "learning_rate": 0.0001,
      "loss": 7.2183,
      "loss/crossentropy": 2.3603663444519043,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22803721576929092,
      "step": 6468
    },
    {
      "epoch": 0.404375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0194976806640625,
      "learning_rate": 0.0001,
      "loss": 7.4027,
      "loss/crossentropy": 2.0049321055412292,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22556506842374802,
      "step": 6470
    },
    {
      "epoch": 0.4045,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.01796875,
      "learning_rate": 0.0001,
      "loss": 7.0518,
      "loss/crossentropy": 2.002595067024231,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19405024498701096,
      "step": 6472
    },
    {
      "epoch": 0.404625,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.015262858072916666,
      "learning_rate": 0.0001,
      "loss": 7.2985,
      "loss/crossentropy": 2.281522750854492,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21547602117061615,
      "step": 6474
    },
    {
      "epoch": 0.40475,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0160308837890625,
      "learning_rate": 0.0001,
      "loss": 7.0747,
      "loss/crossentropy": 2.1680938005447388,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21121270209550858,
      "step": 6476
    },
    {
      "epoch": 0.404875,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.016796875,
      "learning_rate": 0.0001,
      "loss": 7.1666,
      "loss/crossentropy": 2.5115526914596558,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2365971878170967,
      "step": 6478
    },
    {
      "epoch": 0.405,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.06926676432291666,
      "learning_rate": 0.0001,
      "loss": 7.2812,
      "loss/crossentropy": 2.2533043026924133,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.224958136677742,
      "step": 6480
    },
    {
      "epoch": 0.405125,
      "grad_norm": 1.84375,
      "grad_norm_var": 0.07986653645833333,
      "learning_rate": 0.0001,
      "loss": 7.1225,
      "loss/crossentropy": 2.2455263137817383,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2447589933872223,
      "step": 6482
    },
    {
      "epoch": 0.40525,
      "grad_norm": 2.25,
      "grad_norm_var": 0.0816070556640625,
      "learning_rate": 0.0001,
      "loss": 7.3032,
      "loss/crossentropy": 1.951097846031189,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20029456168413162,
      "step": 6484
    },
    {
      "epoch": 0.405375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.08391520182291666,
      "learning_rate": 0.0001,
      "loss": 7.2667,
      "loss/crossentropy": 2.215672254562378,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2087327167391777,
      "step": 6486
    },
    {
      "epoch": 0.4055,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.08147379557291666,
      "learning_rate": 0.0001,
      "loss": 7.1273,
      "loss/crossentropy": 1.8793167471885681,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2043544054031372,
      "step": 6488
    },
    {
      "epoch": 0.405625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.07893473307291667,
      "learning_rate": 0.0001,
      "loss": 7.2892,
      "loss/crossentropy": 2.3511608839035034,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20901018381118774,
      "step": 6490
    },
    {
      "epoch": 0.40575,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.08166910807291666,
      "learning_rate": 0.0001,
      "loss": 7.1031,
      "loss/crossentropy": 2.2664103507995605,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2170920968055725,
      "step": 6492
    },
    {
      "epoch": 0.405875,
      "grad_norm": 1.953125,
      "grad_norm_var": 0.08240559895833334,
      "learning_rate": 0.0001,
      "loss": 7.2317,
      "loss/crossentropy": 2.4039368629455566,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2005300372838974,
      "step": 6494
    },
    {
      "epoch": 0.406,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.018355305989583334,
      "learning_rate": 0.0001,
      "loss": 7.0248,
      "loss/crossentropy": 1.9945274591445923,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19976937770843506,
      "step": 6496
    },
    {
      "epoch": 0.406125,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.014977773030598959,
      "learning_rate": 0.0001,
      "loss": 7.0207,
      "loss/crossentropy": 2.2633402347564697,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20823977887630463,
      "step": 6498
    },
    {
      "epoch": 0.40625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.01840184529622396,
      "learning_rate": 0.0001,
      "loss": 7.3655,
      "loss/crossentropy": 2.1993072628974915,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2053944393992424,
      "step": 6500
    },
    {
      "epoch": 0.406375,
      "grad_norm": 1.9296875,
      "grad_norm_var": 0.022272745768229168,
      "learning_rate": 0.0001,
      "loss": 7.0907,
      "loss/crossentropy": 2.3876596689224243,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20196551084518433,
      "step": 6502
    },
    {
      "epoch": 0.4065,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0234619140625,
      "learning_rate": 0.0001,
      "loss": 7.2996,
      "loss/crossentropy": 2.2332963347434998,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22670364379882812,
      "step": 6504
    },
    {
      "epoch": 0.406625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.0226470947265625,
      "learning_rate": 0.0001,
      "loss": 7.2239,
      "loss/crossentropy": 2.4286776781082153,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21485131978988647,
      "step": 6506
    },
    {
      "epoch": 0.40675,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.023444620768229167,
      "learning_rate": 0.0001,
      "loss": 7.132,
      "loss/crossentropy": 2.1059845685958862,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20297736674547195,
      "step": 6508
    },
    {
      "epoch": 0.406875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.021336873372395832,
      "learning_rate": 0.0001,
      "loss": 7.3092,
      "loss/crossentropy": 2.437384843826294,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21660450100898743,
      "step": 6510
    },
    {
      "epoch": 0.407,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.0242431640625,
      "learning_rate": 0.0001,
      "loss": 7.3282,
      "loss/crossentropy": 2.492189645767212,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23497627675533295,
      "step": 6512
    },
    {
      "epoch": 0.407125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.021437327067057293,
      "learning_rate": 0.0001,
      "loss": 7.29,
      "loss/crossentropy": 2.0942156314849854,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21186655014753342,
      "step": 6514
    },
    {
      "epoch": 0.40725,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.01834284464518229,
      "learning_rate": 0.0001,
      "loss": 7.2034,
      "loss/crossentropy": 2.205212712287903,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23347996175289154,
      "step": 6516
    },
    {
      "epoch": 0.407375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.016682942708333332,
      "learning_rate": 0.0001,
      "loss": 7.2561,
      "loss/crossentropy": 2.18733811378479,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19546174257993698,
      "step": 6518
    },
    {
      "epoch": 0.4075,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.016185506184895834,
      "learning_rate": 0.0001,
      "loss": 7.0733,
      "loss/crossentropy": 2.0966725945472717,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22100364416837692,
      "step": 6520
    },
    {
      "epoch": 0.407625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.014680989583333333,
      "learning_rate": 0.0001,
      "loss": 7.07,
      "loss/crossentropy": 1.8778254985809326,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.2160200998187065,
      "step": 6522
    },
    {
      "epoch": 0.40775,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.015071614583333334,
      "learning_rate": 0.0001,
      "loss": 7.1556,
      "loss/crossentropy": 2.265491247177124,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23102690279483795,
      "step": 6524
    },
    {
      "epoch": 0.407875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.018745930989583333,
      "learning_rate": 0.0001,
      "loss": 7.2781,
      "loss/crossentropy": 2.2143566012382507,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2069038674235344,
      "step": 6526
    },
    {
      "epoch": 0.408,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.014383951822916666,
      "learning_rate": 0.0001,
      "loss": 7.297,
      "loss/crossentropy": 2.3243274688720703,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21643533557653427,
      "step": 6528
    },
    {
      "epoch": 0.408125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.014191691080729167,
      "learning_rate": 0.0001,
      "loss": 7.2748,
      "loss/crossentropy": 2.3320904970169067,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2175091654062271,
      "step": 6530
    },
    {
      "epoch": 0.40825,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.016087849934895832,
      "learning_rate": 0.0001,
      "loss": 7.2427,
      "loss/crossentropy": 2.1425468921661377,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20631052553653717,
      "step": 6532
    },
    {
      "epoch": 0.408375,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0207183837890625,
      "learning_rate": 0.0001,
      "loss": 7.1293,
      "loss/crossentropy": 2.483289361000061,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23001858592033386,
      "step": 6534
    },
    {
      "epoch": 0.4085,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0211822509765625,
      "learning_rate": 0.0001,
      "loss": 7.2254,
      "loss/crossentropy": 2.507395625114441,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20727375894784927,
      "step": 6536
    },
    {
      "epoch": 0.408625,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.030450185139973957,
      "learning_rate": 0.0001,
      "loss": 7.0344,
      "loss/crossentropy": 2.13398277759552,
      "loss/hidden": 2.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18832530081272125,
      "step": 6538
    },
    {
      "epoch": 0.40875,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.030755360921223957,
      "learning_rate": 0.0001,
      "loss": 7.1028,
      "loss/crossentropy": 2.128291964530945,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2085724174976349,
      "step": 6540
    },
    {
      "epoch": 0.408875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.026468658447265626,
      "learning_rate": 0.0001,
      "loss": 7.3629,
      "loss/crossentropy": 2.387086510658264,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23265989124774933,
      "step": 6542
    },
    {
      "epoch": 0.409,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.02826512654622396,
      "learning_rate": 0.0001,
      "loss": 7.2463,
      "loss/crossentropy": 2.436495780944824,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.216141015291214,
      "step": 6544
    },
    {
      "epoch": 0.409125,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.03478368123372396,
      "learning_rate": 0.0001,
      "loss": 7.322,
      "loss/crossentropy": 2.2948137521743774,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2177954763174057,
      "step": 6546
    },
    {
      "epoch": 0.40925,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.032195790608723955,
      "learning_rate": 0.0001,
      "loss": 7.3163,
      "loss/crossentropy": 2.068236470222473,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19945338368415833,
      "step": 6548
    },
    {
      "epoch": 0.409375,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.026920318603515625,
      "learning_rate": 0.0001,
      "loss": 7.202,
      "loss/crossentropy": 2.0515838861465454,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1940801441669464,
      "step": 6550
    },
    {
      "epoch": 0.4095,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.025221506754557293,
      "learning_rate": 0.0001,
      "loss": 7.0551,
      "loss/crossentropy": 2.2386069297790527,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21453995257616043,
      "step": 6552
    },
    {
      "epoch": 0.409625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.018553670247395834,
      "learning_rate": 0.0001,
      "loss": 7.1711,
      "loss/crossentropy": 2.238744616508484,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.208785742521286,
      "step": 6554
    },
    {
      "epoch": 0.40975,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.01754150390625,
      "learning_rate": 0.0001,
      "loss": 7.2699,
      "loss/crossentropy": 2.372469902038574,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2197486311197281,
      "step": 6556
    },
    {
      "epoch": 0.409875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.018724568684895835,
      "learning_rate": 0.0001,
      "loss": 7.3083,
      "loss/crossentropy": 2.257944345474243,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20727266371250153,
      "step": 6558
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.016162109375,
      "learning_rate": 0.0001,
      "loss": 7.2547,
      "loss/crossentropy": 2.3854445219039917,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2205938622355461,
      "step": 6560
    },
    {
      "epoch": 0.410125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0113922119140625,
      "learning_rate": 0.0001,
      "loss": 6.9946,
      "loss/crossentropy": 2.099511981010437,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2024962157011032,
      "step": 6562
    },
    {
      "epoch": 0.41025,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.0093414306640625,
      "learning_rate": 0.0001,
      "loss": 7.1571,
      "loss/crossentropy": 2.1464951634407043,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21468877792358398,
      "step": 6564
    },
    {
      "epoch": 0.410375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.00982666015625,
      "learning_rate": 0.0001,
      "loss": 7.2538,
      "loss/crossentropy": 2.3937063217163086,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2055506482720375,
      "step": 6566
    },
    {
      "epoch": 0.4105,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.010400390625,
      "learning_rate": 0.0001,
      "loss": 7.3326,
      "loss/crossentropy": 2.384568929672241,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22990135848522186,
      "step": 6568
    },
    {
      "epoch": 0.410625,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.012821451822916666,
      "learning_rate": 0.0001,
      "loss": 7.1655,
      "loss/crossentropy": 2.2787879705429077,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23064248263835907,
      "step": 6570
    },
    {
      "epoch": 0.41075,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.012679036458333333,
      "learning_rate": 0.0001,
      "loss": 7.1028,
      "loss/crossentropy": 2.1466062664985657,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20553258806467056,
      "step": 6572
    },
    {
      "epoch": 0.410875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0108795166015625,
      "learning_rate": 0.0001,
      "loss": 7.3206,
      "loss/crossentropy": 2.2528934478759766,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20717480778694153,
      "step": 6574
    },
    {
      "epoch": 0.411,
      "grad_norm": 2.875,
      "grad_norm_var": 0.04734598795572917,
      "learning_rate": 0.0001,
      "loss": 7.0194,
      "loss/crossentropy": 1.7589277029037476,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18202517926692963,
      "step": 6576
    },
    {
      "epoch": 0.411125,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.04872817993164062,
      "learning_rate": 0.0001,
      "loss": 7.148,
      "loss/crossentropy": 1.9737151265144348,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1905621960759163,
      "step": 6578
    },
    {
      "epoch": 0.41125,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.055216217041015626,
      "learning_rate": 0.0001,
      "loss": 7.1603,
      "loss/crossentropy": 2.265736222267151,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21055534482002258,
      "step": 6580
    },
    {
      "epoch": 0.411375,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.054593658447265624,
      "learning_rate": 0.0001,
      "loss": 7.1553,
      "loss/crossentropy": 2.3410770893096924,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22156669199466705,
      "step": 6582
    },
    {
      "epoch": 0.4115,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.056955718994140626,
      "learning_rate": 0.0001,
      "loss": 7.2238,
      "loss/crossentropy": 2.381894826889038,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21481861174106598,
      "step": 6584
    },
    {
      "epoch": 0.411625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.05864639282226562,
      "learning_rate": 0.0001,
      "loss": 7.2543,
      "loss/crossentropy": 2.0804589986801147,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2047130987048149,
      "step": 6586
    },
    {
      "epoch": 0.41175,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.055275217692057295,
      "learning_rate": 0.0001,
      "loss": 7.1031,
      "loss/crossentropy": 2.2733839750289917,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21279729157686234,
      "step": 6588
    },
    {
      "epoch": 0.411875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.05738703409830729,
      "learning_rate": 0.0001,
      "loss": 7.2073,
      "loss/crossentropy": 2.3205610513687134,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21465665102005005,
      "step": 6590
    },
    {
      "epoch": 0.412,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.02643407185872396,
      "learning_rate": 0.0001,
      "loss": 7.1259,
      "loss/crossentropy": 2.2790287733078003,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20951499789953232,
      "step": 6592
    },
    {
      "epoch": 0.412125,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.028148396809895834,
      "learning_rate": 0.0001,
      "loss": 7.3196,
      "loss/crossentropy": 2.3589893579483032,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21895043551921844,
      "step": 6594
    },
    {
      "epoch": 0.41225,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.015413411458333333,
      "learning_rate": 0.0001,
      "loss": 6.9755,
      "loss/crossentropy": 2.2003557682037354,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1951805129647255,
      "step": 6596
    },
    {
      "epoch": 0.412375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.012206013997395833,
      "learning_rate": 0.0001,
      "loss": 7.2822,
      "loss/crossentropy": 2.1846193075180054,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2042449563741684,
      "step": 6598
    },
    {
      "epoch": 0.4125,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.011449178059895834,
      "learning_rate": 0.0001,
      "loss": 7.1855,
      "loss/crossentropy": 2.1782132387161255,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2254723384976387,
      "step": 6600
    },
    {
      "epoch": 0.412625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.0118316650390625,
      "learning_rate": 0.0001,
      "loss": 7.2243,
      "loss/crossentropy": 2.1209170818328857,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22717957943677902,
      "step": 6602
    },
    {
      "epoch": 0.41275,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.01217041015625,
      "learning_rate": 0.0001,
      "loss": 7.2421,
      "loss/crossentropy": 2.050145149230957,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19752968847751617,
      "step": 6604
    },
    {
      "epoch": 0.412875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.012593587239583334,
      "learning_rate": 0.0001,
      "loss": 7.2494,
      "loss/crossentropy": 2.1468405723571777,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2092445194721222,
      "step": 6606
    },
    {
      "epoch": 0.413,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.012059529622395834,
      "learning_rate": 0.0001,
      "loss": 7.1083,
      "loss/crossentropy": 2.13679301738739,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.20577143877744675,
      "step": 6608
    },
    {
      "epoch": 0.413125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.008610026041666666,
      "learning_rate": 0.0001,
      "loss": 7.442,
      "loss/crossentropy": 2.2817904949188232,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20960254222154617,
      "step": 6610
    },
    {
      "epoch": 0.41325,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.00849609375,
      "learning_rate": 0.0001,
      "loss": 7.2355,
      "loss/crossentropy": 2.309928774833679,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2041112631559372,
      "step": 6612
    },
    {
      "epoch": 0.413375,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.021214803059895832,
      "learning_rate": 0.0001,
      "loss": 7.2045,
      "loss/crossentropy": 1.9638023972511292,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19546246528625488,
      "step": 6614
    },
    {
      "epoch": 0.4135,
      "grad_norm": 2.125,
      "grad_norm_var": 0.022069295247395832,
      "learning_rate": 0.0001,
      "loss": 7.2197,
      "loss/crossentropy": 2.2863436937332153,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20454485714435577,
      "step": 6616
    },
    {
      "epoch": 0.413625,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.025191243489583334,
      "learning_rate": 0.0001,
      "loss": 7.0682,
      "loss/crossentropy": 2.2289178371429443,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2051631659269333,
      "step": 6618
    },
    {
      "epoch": 0.41375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.026325480143229166,
      "learning_rate": 0.0001,
      "loss": 7.246,
      "loss/crossentropy": 2.1252601742744446,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21219032257795334,
      "step": 6620
    },
    {
      "epoch": 0.413875,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.027228800455729167,
      "learning_rate": 0.0001,
      "loss": 7.1937,
      "loss/crossentropy": 2.377307415008545,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22052890807390213,
      "step": 6622
    },
    {
      "epoch": 0.414,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.028043619791666665,
      "learning_rate": 0.0001,
      "loss": 7.0238,
      "loss/crossentropy": 2.070056438446045,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20407379418611526,
      "step": 6624
    },
    {
      "epoch": 0.414125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.027567545572916668,
      "learning_rate": 0.0001,
      "loss": 7.1428,
      "loss/crossentropy": 2.3578120470046997,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2143327072262764,
      "step": 6626
    },
    {
      "epoch": 0.41425,
      "grad_norm": 2.25,
      "grad_norm_var": 0.026170857747395835,
      "learning_rate": 0.0001,
      "loss": 7.1836,
      "loss/crossentropy": 2.4478999376296997,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21191944181919098,
      "step": 6628
    },
    {
      "epoch": 0.414375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0091705322265625,
      "learning_rate": 0.0001,
      "loss": 7.2445,
      "loss/crossentropy": 2.12015438079834,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20925237238407135,
      "step": 6630
    },
    {
      "epoch": 0.4145,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.009566243489583333,
      "learning_rate": 0.0001,
      "loss": 6.9971,
      "loss/crossentropy": 2.209274411201477,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21350758522748947,
      "step": 6632
    },
    {
      "epoch": 0.414625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.009077962239583333,
      "learning_rate": 0.0001,
      "loss": 7.2467,
      "loss/crossentropy": 2.0114998817443848,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2036866992712021,
      "step": 6634
    },
    {
      "epoch": 0.41475,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.00732421875,
      "learning_rate": 0.0001,
      "loss": 7.3385,
      "loss/crossentropy": 2.2817453145980835,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21267592161893845,
      "step": 6636
    },
    {
      "epoch": 0.414875,
      "grad_norm": 2.0,
      "grad_norm_var": 0.009300740559895833,
      "learning_rate": 0.0001,
      "loss": 7.3145,
      "loss/crossentropy": 2.3444933891296387,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21684523671865463,
      "step": 6638
    },
    {
      "epoch": 0.415,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.011150868733723958,
      "learning_rate": 0.0001,
      "loss": 7.2032,
      "loss/crossentropy": 2.2932777404785156,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24464474618434906,
      "step": 6640
    },
    {
      "epoch": 0.415125,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.012143707275390625,
      "learning_rate": 0.0001,
      "loss": 7.1644,
      "loss/crossentropy": 2.237114191055298,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2008899301290512,
      "step": 6642
    },
    {
      "epoch": 0.41525,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.010117340087890624,
      "learning_rate": 0.0001,
      "loss": 7.2987,
      "loss/crossentropy": 2.182630181312561,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1930861920118332,
      "step": 6644
    },
    {
      "epoch": 0.415375,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.050872548421223955,
      "learning_rate": 0.0001,
      "loss": 7.2461,
      "loss/crossentropy": 2.0044440031051636,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18386952579021454,
      "step": 6646
    },
    {
      "epoch": 0.4155,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.05223770141601562,
      "learning_rate": 0.0001,
      "loss": 7.1746,
      "loss/crossentropy": 2.2447410821914673,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2052413374185562,
      "step": 6648
    },
    {
      "epoch": 0.415625,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.053254954020182294,
      "learning_rate": 0.0001,
      "loss": 7.1224,
      "loss/crossentropy": 1.9521759748458862,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21115896850824356,
      "step": 6650
    },
    {
      "epoch": 0.41575,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.05448786417643229,
      "learning_rate": 0.0001,
      "loss": 7.347,
      "loss/crossentropy": 2.5570948123931885,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24073059856891632,
      "step": 6652
    },
    {
      "epoch": 0.415875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.052978261311848955,
      "learning_rate": 0.0001,
      "loss": 7.1036,
      "loss/crossentropy": 1.9738441109657288,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17930065095424652,
      "step": 6654
    },
    {
      "epoch": 0.416,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.05120035807291667,
      "learning_rate": 0.0001,
      "loss": 7.1908,
      "loss/crossentropy": 2.2183395624160767,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19753951579332352,
      "step": 6656
    },
    {
      "epoch": 0.416125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.04938151041666667,
      "learning_rate": 0.0001,
      "loss": 7.0473,
      "loss/crossentropy": 2.2473442554473877,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2003185674548149,
      "step": 6658
    },
    {
      "epoch": 0.41625,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.05120035807291667,
      "learning_rate": 0.0001,
      "loss": 7.1982,
      "loss/crossentropy": 2.0214603543281555,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2159905880689621,
      "step": 6660
    },
    {
      "epoch": 0.416375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.011494700113932292,
      "learning_rate": 0.0001,
      "loss": 7.0941,
      "loss/crossentropy": 2.1045217514038086,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21138650923967361,
      "step": 6662
    },
    {
      "epoch": 0.4165,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.012595367431640626,
      "learning_rate": 0.0001,
      "loss": 7.1393,
      "loss/crossentropy": 2.2603907585144043,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21229936927556992,
      "step": 6664
    },
    {
      "epoch": 0.416625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.011553700764973958,
      "learning_rate": 0.0001,
      "loss": 6.9486,
      "loss/crossentropy": 2.166019320487976,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20004819333553314,
      "step": 6666
    },
    {
      "epoch": 0.41675,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.011386871337890625,
      "learning_rate": 0.0001,
      "loss": 7.2752,
      "loss/crossentropy": 2.4337663650512695,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21502867341041565,
      "step": 6668
    },
    {
      "epoch": 0.416875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.011307525634765624,
      "learning_rate": 0.0001,
      "loss": 7.197,
      "loss/crossentropy": 2.383167862892151,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22213765233755112,
      "step": 6670
    },
    {
      "epoch": 0.417,
      "grad_norm": 3.171875,
      "grad_norm_var": 0.07418797810872396,
      "learning_rate": 0.0001,
      "loss": 7.2443,
      "loss/crossentropy": 2.469019055366516,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22149549424648285,
      "step": 6672
    },
    {
      "epoch": 0.417125,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.07734781901041667,
      "learning_rate": 0.0001,
      "loss": 7.1202,
      "loss/crossentropy": 2.223373532295227,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20211607217788696,
      "step": 6674
    },
    {
      "epoch": 0.41725,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.07432047526041667,
      "learning_rate": 0.0001,
      "loss": 7.1912,
      "loss/crossentropy": 2.2044894695281982,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21385891735553741,
      "step": 6676
    },
    {
      "epoch": 0.417375,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.07100601196289062,
      "learning_rate": 0.0001,
      "loss": 7.2926,
      "loss/crossentropy": 2.291485071182251,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22199992835521698,
      "step": 6678
    },
    {
      "epoch": 0.4175,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.06825942993164062,
      "learning_rate": 0.0001,
      "loss": 7.2736,
      "loss/crossentropy": 2.199909269809723,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21268168836832047,
      "step": 6680
    },
    {
      "epoch": 0.417625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.06856257120768229,
      "learning_rate": 0.0001,
      "loss": 7.255,
      "loss/crossentropy": 2.4666231870651245,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22746828943490982,
      "step": 6682
    },
    {
      "epoch": 0.41775,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.06691665649414062,
      "learning_rate": 0.0001,
      "loss": 7.3389,
      "loss/crossentropy": 2.2254520654678345,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19916392862796783,
      "step": 6684
    },
    {
      "epoch": 0.417875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.06772638956705729,
      "learning_rate": 0.0001,
      "loss": 7.3413,
      "loss/crossentropy": 2.230736017227173,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2047268971800804,
      "step": 6686
    },
    {
      "epoch": 0.418,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.011329905192057291,
      "learning_rate": 0.0001,
      "loss": 7.376,
      "loss/crossentropy": 2.319286346435547,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21851042658090591,
      "step": 6688
    },
    {
      "epoch": 0.418125,
      "grad_norm": 2.375,
      "grad_norm_var": 0.011002604166666667,
      "learning_rate": 0.0001,
      "loss": 7.2427,
      "loss/crossentropy": 2.312131881713867,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22473173588514328,
      "step": 6690
    },
    {
      "epoch": 0.41825,
      "grad_norm": 2.125,
      "grad_norm_var": 0.014322916666666666,
      "learning_rate": 0.0001,
      "loss": 7.2875,
      "loss/crossentropy": 2.3510780334472656,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21289631724357605,
      "step": 6692
    },
    {
      "epoch": 0.418375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.014436848958333333,
      "learning_rate": 0.0001,
      "loss": 7.2495,
      "loss/crossentropy": 2.302396059036255,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22023826837539673,
      "step": 6694
    },
    {
      "epoch": 0.4185,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0140533447265625,
      "learning_rate": 0.0001,
      "loss": 6.9816,
      "loss/crossentropy": 2.4627773761749268,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2272256538271904,
      "step": 6696
    },
    {
      "epoch": 0.418625,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.01793212890625,
      "learning_rate": 0.0001,
      "loss": 7.2295,
      "loss/crossentropy": 2.464987277984619,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21357368677854538,
      "step": 6698
    },
    {
      "epoch": 0.41875,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.0194000244140625,
      "learning_rate": 0.0001,
      "loss": 7.2894,
      "loss/crossentropy": 2.3194926977157593,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21601901948451996,
      "step": 6700
    },
    {
      "epoch": 0.418875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0193267822265625,
      "learning_rate": 0.0001,
      "loss": 7.1178,
      "loss/crossentropy": 2.158350110054016,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21564631164073944,
      "step": 6702
    },
    {
      "epoch": 0.419,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.018895467122395832,
      "learning_rate": 0.0001,
      "loss": 7.2231,
      "loss/crossentropy": 2.300287127494812,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1997418850660324,
      "step": 6704
    },
    {
      "epoch": 0.419125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.013744099934895834,
      "learning_rate": 0.0001,
      "loss": 7.2349,
      "loss/crossentropy": 2.378634810447693,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21635089814662933,
      "step": 6706
    },
    {
      "epoch": 0.41925,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.012105305989583334,
      "learning_rate": 0.0001,
      "loss": 7.2868,
      "loss/crossentropy": 2.3297730684280396,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2152877151966095,
      "step": 6708
    },
    {
      "epoch": 0.419375,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.010838826497395834,
      "learning_rate": 0.0001,
      "loss": 7.3518,
      "loss/crossentropy": 2.1663570404052734,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20017527043819427,
      "step": 6710
    },
    {
      "epoch": 0.4195,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.013109334309895833,
      "learning_rate": 0.0001,
      "loss": 7.2772,
      "loss/crossentropy": 2.153021812438965,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21046847850084305,
      "step": 6712
    },
    {
      "epoch": 0.419625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.011031087239583333,
      "learning_rate": 0.0001,
      "loss": 7.2319,
      "loss/crossentropy": 2.362241506576538,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21138739585876465,
      "step": 6714
    },
    {
      "epoch": 0.41975,
      "grad_norm": 2.125,
      "grad_norm_var": 0.006669108072916667,
      "learning_rate": 0.0001,
      "loss": 7.2814,
      "loss/crossentropy": 2.3483238220214844,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21662617474794388,
      "step": 6716
    },
    {
      "epoch": 0.419875,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.009781901041666667,
      "learning_rate": 0.0001,
      "loss": 7.0603,
      "loss/crossentropy": 2.3899463415145874,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20360279828310013,
      "step": 6718
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.125,
      "grad_norm_var": 0.010868326822916666,
      "learning_rate": 0.0001,
      "loss": 7.1463,
      "loss/crossentropy": 1.9754029512405396,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17641819268465042,
      "step": 6720
    },
    {
      "epoch": 0.420125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.011359659830729167,
      "learning_rate": 0.0001,
      "loss": 7.3308,
      "loss/crossentropy": 2.39111590385437,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21659883856773376,
      "step": 6722
    },
    {
      "epoch": 0.42025,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.014902496337890625,
      "learning_rate": 0.0001,
      "loss": 7.0377,
      "loss/crossentropy": 2.3440463542938232,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20923910290002823,
      "step": 6724
    },
    {
      "epoch": 0.420375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.012416330973307292,
      "learning_rate": 0.0001,
      "loss": 7.2015,
      "loss/crossentropy": 2.3062779903411865,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2264929711818695,
      "step": 6726
    },
    {
      "epoch": 0.4205,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.011045074462890625,
      "learning_rate": 0.0001,
      "loss": 7.2369,
      "loss/crossentropy": 2.1152766346931458,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20576580613851547,
      "step": 6728
    },
    {
      "epoch": 0.420625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.011270904541015625,
      "learning_rate": 0.0001,
      "loss": 7.2384,
      "loss/crossentropy": 2.3229598999023438,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.2038460299372673,
      "step": 6730
    },
    {
      "epoch": 0.42075,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.010459136962890626,
      "learning_rate": 0.0001,
      "loss": 7.1322,
      "loss/crossentropy": 2.3162847757339478,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21878770738840103,
      "step": 6732
    },
    {
      "epoch": 0.420875,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.013791656494140625,
      "learning_rate": 0.0001,
      "loss": 7.3428,
      "loss/crossentropy": 2.2077457904815674,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19963285326957703,
      "step": 6734
    },
    {
      "epoch": 0.421,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.014994049072265625,
      "learning_rate": 0.0001,
      "loss": 7.1156,
      "loss/crossentropy": 2.162528872489929,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.201595239341259,
      "step": 6736
    },
    {
      "epoch": 0.421125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.015634918212890626,
      "learning_rate": 0.0001,
      "loss": 7.1029,
      "loss/crossentropy": 1.9828236103057861,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19044172018766403,
      "step": 6738
    },
    {
      "epoch": 0.42125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0149078369140625,
      "learning_rate": 0.0001,
      "loss": 7.2027,
      "loss/crossentropy": 2.165103793144226,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21535291522741318,
      "step": 6740
    },
    {
      "epoch": 0.421375,
      "grad_norm": 1.9296875,
      "grad_norm_var": 0.01815973917643229,
      "learning_rate": 0.0001,
      "loss": 7.219,
      "loss/crossentropy": 2.0478169918060303,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20827841013669968,
      "step": 6742
    },
    {
      "epoch": 0.4215,
      "grad_norm": 2.125,
      "grad_norm_var": 0.01746393839518229,
      "learning_rate": 0.0001,
      "loss": 7.1333,
      "loss/crossentropy": 2.147496223449707,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21103401482105255,
      "step": 6744
    },
    {
      "epoch": 0.421625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.01730524698893229,
      "learning_rate": 0.0001,
      "loss": 7.0481,
      "loss/crossentropy": 2.247206687927246,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2090415209531784,
      "step": 6746
    },
    {
      "epoch": 0.42175,
      "grad_norm": 2.0,
      "grad_norm_var": 0.0195953369140625,
      "learning_rate": 0.0001,
      "loss": 6.993,
      "loss/crossentropy": 2.2320778369903564,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20059379935264587,
      "step": 6748
    },
    {
      "epoch": 0.421875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01278076171875,
      "learning_rate": 0.0001,
      "loss": 7.2886,
      "loss/crossentropy": 2.1443710327148438,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19475404173135757,
      "step": 6750
    },
    {
      "epoch": 0.422,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.015868123372395834,
      "learning_rate": 0.0001,
      "loss": 7.1489,
      "loss/crossentropy": 2.279394507408142,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20637677609920502,
      "step": 6752
    },
    {
      "epoch": 0.422125,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.014835611979166666,
      "learning_rate": 0.0001,
      "loss": 7.0726,
      "loss/crossentropy": 1.897760272026062,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2159346044063568,
      "step": 6754
    },
    {
      "epoch": 0.42225,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.012621053059895833,
      "learning_rate": 0.0001,
      "loss": 7.1816,
      "loss/crossentropy": 2.283962607383728,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23135912418365479,
      "step": 6756
    },
    {
      "epoch": 0.422375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.009423573811848959,
      "learning_rate": 0.0001,
      "loss": 7.1644,
      "loss/crossentropy": 2.388902187347412,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21581237763166428,
      "step": 6758
    },
    {
      "epoch": 0.4225,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.010473378499348958,
      "learning_rate": 0.0001,
      "loss": 7.1085,
      "loss/crossentropy": 2.092213809490204,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20688287913799286,
      "step": 6760
    },
    {
      "epoch": 0.422625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.011773427327473959,
      "learning_rate": 0.0001,
      "loss": 7.0663,
      "loss/crossentropy": 2.2318451404571533,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19159415364265442,
      "step": 6762
    },
    {
      "epoch": 0.42275,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.009723917643229166,
      "learning_rate": 0.0001,
      "loss": 7.0906,
      "loss/crossentropy": 2.011130690574646,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20954276621341705,
      "step": 6764
    },
    {
      "epoch": 0.422875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.0102935791015625,
      "learning_rate": 0.0001,
      "loss": 7.2399,
      "loss/crossentropy": 2.238163113594055,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19764646142721176,
      "step": 6766
    },
    {
      "epoch": 0.423,
      "grad_norm": 1.921875,
      "grad_norm_var": 0.010285441080729167,
      "learning_rate": 0.0001,
      "loss": 7.0323,
      "loss/crossentropy": 2.180557131767273,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19082503020763397,
      "step": 6768
    },
    {
      "epoch": 0.423125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.012702433268229167,
      "learning_rate": 0.0001,
      "loss": 7.197,
      "loss/crossentropy": 2.274542212486267,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21664000302553177,
      "step": 6770
    },
    {
      "epoch": 0.42325,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.027489217122395833,
      "learning_rate": 0.0001,
      "loss": 7.0367,
      "loss/crossentropy": 2.271838068962097,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21325764805078506,
      "step": 6772
    },
    {
      "epoch": 0.423375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.030661773681640626,
      "learning_rate": 0.0001,
      "loss": 7.257,
      "loss/crossentropy": 2.0293312668800354,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19651466608047485,
      "step": 6774
    },
    {
      "epoch": 0.4235,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.030142974853515626,
      "learning_rate": 0.0001,
      "loss": 7.1123,
      "loss/crossentropy": 2.3418461084365845,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2213895097374916,
      "step": 6776
    },
    {
      "epoch": 0.423625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.030594635009765624,
      "learning_rate": 0.0001,
      "loss": 7.2606,
      "loss/crossentropy": 2.3157602548599243,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.23133724927902222,
      "step": 6778
    },
    {
      "epoch": 0.42375,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.031288401285807295,
      "learning_rate": 0.0001,
      "loss": 7.0713,
      "loss/crossentropy": 2.2262462377548218,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21064256131649017,
      "step": 6780
    },
    {
      "epoch": 0.423875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.03070856730143229,
      "learning_rate": 0.0001,
      "loss": 7.2447,
      "loss/crossentropy": 2.6724666357040405,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2289513200521469,
      "step": 6782
    },
    {
      "epoch": 0.424,
      "grad_norm": 3.84375,
      "grad_norm_var": 0.1964617411295573,
      "learning_rate": 0.0001,
      "loss": 7.2904,
      "loss/crossentropy": 2.3239933252334595,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21807952970266342,
      "step": 6784
    },
    {
      "epoch": 0.424125,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.20003433227539064,
      "learning_rate": 0.0001,
      "loss": 7.2351,
      "loss/crossentropy": 2.0945045948028564,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21246600896120071,
      "step": 6786
    },
    {
      "epoch": 0.42425,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.19189224243164063,
      "learning_rate": 0.0001,
      "loss": 7.0303,
      "loss/crossentropy": 2.0538535118103027,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19015134125947952,
      "step": 6788
    },
    {
      "epoch": 0.424375,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.18770243326822916,
      "learning_rate": 0.0001,
      "loss": 7.107,
      "loss/crossentropy": 2.1239798069000244,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2081196829676628,
      "step": 6790
    },
    {
      "epoch": 0.4245,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.19275614420572917,
      "learning_rate": 0.0001,
      "loss": 7.1894,
      "loss/crossentropy": 2.553703784942627,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20920544862747192,
      "step": 6792
    },
    {
      "epoch": 0.424625,
      "grad_norm": 2.5,
      "grad_norm_var": 0.19491780598958333,
      "learning_rate": 0.0001,
      "loss": 7.2841,
      "loss/crossentropy": 2.5824981927871704,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21979796141386032,
      "step": 6794
    },
    {
      "epoch": 0.42475,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.19247945149739584,
      "learning_rate": 0.0001,
      "loss": 7.0355,
      "loss/crossentropy": 2.185934007167816,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19819935411214828,
      "step": 6796
    },
    {
      "epoch": 0.424875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.18901265462239583,
      "learning_rate": 0.0001,
      "loss": 7.3111,
      "loss/crossentropy": 2.1742522716522217,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21659693121910095,
      "step": 6798
    },
    {
      "epoch": 0.425,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.026676432291666666,
      "learning_rate": 0.0001,
      "loss": 7.2202,
      "loss/crossentropy": 2.3170909881591797,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21167440712451935,
      "step": 6800
    },
    {
      "epoch": 0.425125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.015461222330729166,
      "learning_rate": 0.0001,
      "loss": 7.229,
      "loss/crossentropy": 2.2571088075637817,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21498262882232666,
      "step": 6802
    },
    {
      "epoch": 0.42525,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.016535441080729168,
      "learning_rate": 0.0001,
      "loss": 7.127,
      "loss/crossentropy": 2.3108266592025757,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21807894110679626,
      "step": 6804
    },
    {
      "epoch": 0.425375,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.0168853759765625,
      "learning_rate": 0.0001,
      "loss": 7.2834,
      "loss/crossentropy": 2.15952205657959,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19036553800106049,
      "step": 6806
    },
    {
      "epoch": 0.4255,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.016356404622395834,
      "learning_rate": 0.0001,
      "loss": 7.2448,
      "loss/crossentropy": 2.15840220451355,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20849886536598206,
      "step": 6808
    },
    {
      "epoch": 0.425625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.008039347330729167,
      "learning_rate": 0.0001,
      "loss": 7.2537,
      "loss/crossentropy": 2.4403945207595825,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2224520891904831,
      "step": 6810
    },
    {
      "epoch": 0.42575,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0072743733723958336,
      "learning_rate": 0.0001,
      "loss": 7.1626,
      "loss/crossentropy": 2.308092713356018,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20341620594263077,
      "step": 6812
    },
    {
      "epoch": 0.425875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.009015909830729167,
      "learning_rate": 0.0001,
      "loss": 7.0819,
      "loss/crossentropy": 2.172079086303711,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21274089068174362,
      "step": 6814
    },
    {
      "epoch": 0.426,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.012919108072916666,
      "learning_rate": 0.0001,
      "loss": 7.3531,
      "loss/crossentropy": 2.1660048365592957,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21018584817647934,
      "step": 6816
    },
    {
      "epoch": 0.426125,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.013460286458333333,
      "learning_rate": 0.0001,
      "loss": 7.1127,
      "loss/crossentropy": 2.2449586391448975,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21250271797180176,
      "step": 6818
    },
    {
      "epoch": 0.42625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.012626139322916667,
      "learning_rate": 0.0001,
      "loss": 7.1219,
      "loss/crossentropy": 2.40755295753479,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2143237292766571,
      "step": 6820
    },
    {
      "epoch": 0.426375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0127349853515625,
      "learning_rate": 0.0001,
      "loss": 7.1712,
      "loss/crossentropy": 2.077523171901703,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21024423092603683,
      "step": 6822
    },
    {
      "epoch": 0.4265,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.01285400390625,
      "learning_rate": 0.0001,
      "loss": 7.1869,
      "loss/crossentropy": 2.2102068662643433,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22490687668323517,
      "step": 6824
    },
    {
      "epoch": 0.426625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0135162353515625,
      "learning_rate": 0.0001,
      "loss": 7.144,
      "loss/crossentropy": 2.5356907844543457,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2128807231783867,
      "step": 6826
    },
    {
      "epoch": 0.42675,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.016258748372395833,
      "learning_rate": 0.0001,
      "loss": 7.1871,
      "loss/crossentropy": 2.4186887741088867,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2111327275633812,
      "step": 6828
    },
    {
      "epoch": 0.426875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0157623291015625,
      "learning_rate": 0.0001,
      "loss": 7.2081,
      "loss/crossentropy": 2.4064241647720337,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22412901371717453,
      "step": 6830
    },
    {
      "epoch": 0.427,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.0109527587890625,
      "learning_rate": 0.0001,
      "loss": 7.1116,
      "loss/crossentropy": 2.1347469091415405,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1934138983488083,
      "step": 6832
    },
    {
      "epoch": 0.427125,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.012376912434895833,
      "learning_rate": 0.0001,
      "loss": 7.0814,
      "loss/crossentropy": 2.5839143991470337,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22045065462589264,
      "step": 6834
    },
    {
      "epoch": 0.42725,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.014615885416666667,
      "learning_rate": 0.0001,
      "loss": 7.2174,
      "loss/crossentropy": 2.4431090354919434,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2187180370092392,
      "step": 6836
    },
    {
      "epoch": 0.427375,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.014191691080729167,
      "learning_rate": 0.0001,
      "loss": 7.2399,
      "loss/crossentropy": 2.3245296478271484,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21662010997533798,
      "step": 6838
    },
    {
      "epoch": 0.4275,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.016559855143229166,
      "learning_rate": 0.0001,
      "loss": 7.0713,
      "loss/crossentropy": 2.178970217704773,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21533022820949554,
      "step": 6840
    },
    {
      "epoch": 0.427625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0154205322265625,
      "learning_rate": 0.0001,
      "loss": 7.0306,
      "loss/crossentropy": 2.044509172439575,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19547070562839508,
      "step": 6842
    },
    {
      "epoch": 0.42775,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.0145904541015625,
      "learning_rate": 0.0001,
      "loss": 7.1904,
      "loss/crossentropy": 2.6852035522460938,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23019836843013763,
      "step": 6844
    },
    {
      "epoch": 0.427875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.011649576822916667,
      "learning_rate": 0.0001,
      "loss": 7.1795,
      "loss/crossentropy": 2.404147505760193,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21275443583726883,
      "step": 6846
    },
    {
      "epoch": 0.428,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.013118489583333334,
      "learning_rate": 0.0001,
      "loss": 7.1491,
      "loss/crossentropy": 2.30082368850708,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20821545273065567,
      "step": 6848
    },
    {
      "epoch": 0.428125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0087066650390625,
      "learning_rate": 0.0001,
      "loss": 7.243,
      "loss/crossentropy": 2.41938316822052,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2598809227347374,
      "step": 6850
    },
    {
      "epoch": 0.42825,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.007552083333333333,
      "learning_rate": 0.0001,
      "loss": 7.1086,
      "loss/crossentropy": 2.22542405128479,
      "loss/hidden": 2.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2023932784795761,
      "step": 6852
    },
    {
      "epoch": 0.428375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.010448201497395834,
      "learning_rate": 0.0001,
      "loss": 7.2592,
      "loss/crossentropy": 2.057928144931793,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1930096223950386,
      "step": 6854
    },
    {
      "epoch": 0.4285,
      "grad_norm": 2.0,
      "grad_norm_var": 0.010676066080729166,
      "learning_rate": 0.0001,
      "loss": 7.1224,
      "loss/crossentropy": 2.1819591522216797,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1996973529458046,
      "step": 6856
    },
    {
      "epoch": 0.428625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.010773722330729167,
      "learning_rate": 0.0001,
      "loss": 7.1747,
      "loss/crossentropy": 2.0980719327926636,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22104358673095703,
      "step": 6858
    },
    {
      "epoch": 0.42875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.016243489583333333,
      "learning_rate": 0.0001,
      "loss": 6.913,
      "loss/crossentropy": 2.1513818502426147,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21680350601673126,
      "step": 6860
    },
    {
      "epoch": 0.428875,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.0395904541015625,
      "learning_rate": 0.0001,
      "loss": 7.2397,
      "loss/crossentropy": 2.2294562458992004,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22388208657503128,
      "step": 6862
    },
    {
      "epoch": 0.429,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.03950093587239583,
      "learning_rate": 0.0001,
      "loss": 7.0361,
      "loss/crossentropy": 2.283179521560669,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21150479465723038,
      "step": 6864
    },
    {
      "epoch": 0.429125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.03980712890625,
      "learning_rate": 0.0001,
      "loss": 7.1224,
      "loss/crossentropy": 2.3938897848129272,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2365514636039734,
      "step": 6866
    },
    {
      "epoch": 0.42925,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.0417877197265625,
      "learning_rate": 0.0001,
      "loss": 7.1785,
      "loss/crossentropy": 2.1658443212509155,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19529584795236588,
      "step": 6868
    },
    {
      "epoch": 0.429375,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.04097900390625,
      "learning_rate": 0.0001,
      "loss": 7.1715,
      "loss/crossentropy": 2.0922370553016663,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.19775715470314026,
      "step": 6870
    },
    {
      "epoch": 0.4295,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.03996480305989583,
      "learning_rate": 0.0001,
      "loss": 7.0673,
      "loss/crossentropy": 1.8662742376327515,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2048928141593933,
      "step": 6872
    },
    {
      "epoch": 0.429625,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.039990234375,
      "learning_rate": 0.0001,
      "loss": 7.2334,
      "loss/crossentropy": 2.25331974029541,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2132648006081581,
      "step": 6874
    },
    {
      "epoch": 0.42975,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.03132222493489583,
      "learning_rate": 0.0001,
      "loss": 7.0384,
      "loss/crossentropy": 2.0938963890075684,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19403553754091263,
      "step": 6876
    },
    {
      "epoch": 0.429875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0096588134765625,
      "learning_rate": 0.0001,
      "loss": 7.1117,
      "loss/crossentropy": 2.201113998889923,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2137242630124092,
      "step": 6878
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.009700520833333334,
      "learning_rate": 0.0001,
      "loss": 7.1669,
      "loss/crossentropy": 2.0272424817085266,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19501972198486328,
      "step": 6880
    },
    {
      "epoch": 0.430125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.009423828125,
      "learning_rate": 0.0001,
      "loss": 7.2121,
      "loss/crossentropy": 2.506343126296997,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22914932668209076,
      "step": 6882
    },
    {
      "epoch": 0.43025,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.004011027018229167,
      "learning_rate": 0.0001,
      "loss": 7.2302,
      "loss/crossentropy": 2.3738802671432495,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21538487076759338,
      "step": 6884
    },
    {
      "epoch": 0.430375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0032063802083333332,
      "learning_rate": 0.0001,
      "loss": 7.0062,
      "loss/crossentropy": 2.2716506719589233,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20168288797140121,
      "step": 6886
    },
    {
      "epoch": 0.4305,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.0031412760416666668,
      "learning_rate": 0.0001,
      "loss": 7.0321,
      "loss/crossentropy": 2.131265103816986,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19480124861001968,
      "step": 6888
    },
    {
      "epoch": 0.430625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.005765533447265625,
      "learning_rate": 0.0001,
      "loss": 7.0555,
      "loss/crossentropy": 2.56924045085907,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21264956146478653,
      "step": 6890
    },
    {
      "epoch": 0.43075,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.005863189697265625,
      "learning_rate": 0.0001,
      "loss": 7.29,
      "loss/crossentropy": 2.1670228242874146,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2205064371228218,
      "step": 6892
    },
    {
      "epoch": 0.430875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.010558827718098959,
      "learning_rate": 0.0001,
      "loss": 7.0508,
      "loss/crossentropy": 2.2021427154541016,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21743560582399368,
      "step": 6894
    },
    {
      "epoch": 0.431,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.013138580322265624,
      "learning_rate": 0.0001,
      "loss": 7.1581,
      "loss/crossentropy": 2.3325300216674805,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22179429978132248,
      "step": 6896
    },
    {
      "epoch": 0.431125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.013879140218098959,
      "learning_rate": 0.0001,
      "loss": 7.134,
      "loss/crossentropy": 2.150698184967041,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21261726319789886,
      "step": 6898
    },
    {
      "epoch": 0.43125,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.016928863525390626,
      "learning_rate": 0.0001,
      "loss": 7.0722,
      "loss/crossentropy": 2.262513518333435,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2029724195599556,
      "step": 6900
    },
    {
      "epoch": 0.431375,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.01788304646809896,
      "learning_rate": 0.0001,
      "loss": 7.0642,
      "loss/crossentropy": 2.2124452590942383,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20887747406959534,
      "step": 6902
    },
    {
      "epoch": 0.4315,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.018552398681640624,
      "learning_rate": 0.0001,
      "loss": 7.3876,
      "loss/crossentropy": 2.4545419216156006,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.263492152094841,
      "step": 6904
    },
    {
      "epoch": 0.431625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.016487630208333333,
      "learning_rate": 0.0001,
      "loss": 7.1829,
      "loss/crossentropy": 2.244446575641632,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20837052166461945,
      "step": 6906
    },
    {
      "epoch": 0.43175,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.016600545247395834,
      "learning_rate": 0.0001,
      "loss": 7.1886,
      "loss/crossentropy": 2.059956908226013,
      "loss/hidden": 2.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18521716445684433,
      "step": 6908
    },
    {
      "epoch": 0.431875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.010380045572916666,
      "learning_rate": 0.0001,
      "loss": 7.0432,
      "loss/crossentropy": 2.323797821998596,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20761998742818832,
      "step": 6910
    },
    {
      "epoch": 0.432,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.010236612955729167,
      "learning_rate": 0.0001,
      "loss": 7.216,
      "loss/crossentropy": 2.1744368076324463,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1985497921705246,
      "step": 6912
    },
    {
      "epoch": 0.432125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.009935506184895833,
      "learning_rate": 0.0001,
      "loss": 7.0865,
      "loss/crossentropy": 2.1344690322875977,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22802872955799103,
      "step": 6914
    },
    {
      "epoch": 0.43225,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.007340494791666667,
      "learning_rate": 0.0001,
      "loss": 7.1136,
      "loss/crossentropy": 2.186421036720276,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19479546695947647,
      "step": 6916
    },
    {
      "epoch": 0.432375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.007942708333333333,
      "learning_rate": 0.0001,
      "loss": 7.1482,
      "loss/crossentropy": 1.894170880317688,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18849200010299683,
      "step": 6918
    },
    {
      "epoch": 0.4325,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0094146728515625,
      "learning_rate": 0.0001,
      "loss": 7.3064,
      "loss/crossentropy": 2.443792700767517,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22042584419250488,
      "step": 6920
    },
    {
      "epoch": 0.432625,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.012040201822916667,
      "learning_rate": 0.0001,
      "loss": 7.1741,
      "loss/crossentropy": 2.199779987335205,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21045687794685364,
      "step": 6922
    },
    {
      "epoch": 0.43275,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.012369791666666666,
      "learning_rate": 0.0001,
      "loss": 7.0816,
      "loss/crossentropy": 1.9734878540039062,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18932150304317474,
      "step": 6924
    },
    {
      "epoch": 0.432875,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.01383056640625,
      "learning_rate": 0.0001,
      "loss": 7.0272,
      "loss/crossentropy": 2.060529947280884,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20331456512212753,
      "step": 6926
    },
    {
      "epoch": 0.433,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.013232421875,
      "learning_rate": 0.0001,
      "loss": 7.1574,
      "loss/crossentropy": 2.1172688007354736,
      "loss/hidden": 2.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2042495608329773,
      "step": 6928
    },
    {
      "epoch": 0.433125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.013524373372395834,
      "learning_rate": 0.0001,
      "loss": 7.2431,
      "loss/crossentropy": 2.218605160713196,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2152126282453537,
      "step": 6930
    },
    {
      "epoch": 0.43325,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.014020792643229167,
      "learning_rate": 0.0001,
      "loss": 7.0866,
      "loss/crossentropy": 2.047509551048279,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19541727006435394,
      "step": 6932
    },
    {
      "epoch": 0.433375,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.014922841389973959,
      "learning_rate": 0.0001,
      "loss": 7.0279,
      "loss/crossentropy": 2.1803908348083496,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18999575078487396,
      "step": 6934
    },
    {
      "epoch": 0.4335,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.009893544514973958,
      "learning_rate": 0.0001,
      "loss": 7.2116,
      "loss/crossentropy": 2.3334230184555054,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2261931300163269,
      "step": 6936
    },
    {
      "epoch": 0.433625,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.008129628499348958,
      "learning_rate": 0.0001,
      "loss": 7.1294,
      "loss/crossentropy": 2.2865262031555176,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21169719099998474,
      "step": 6938
    },
    {
      "epoch": 0.43375,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.008837636311848958,
      "learning_rate": 0.0001,
      "loss": 6.9919,
      "loss/crossentropy": 2.046865701675415,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19481410086154938,
      "step": 6940
    },
    {
      "epoch": 0.433875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.009787750244140626,
      "learning_rate": 0.0001,
      "loss": 7.2462,
      "loss/crossentropy": 2.44638729095459,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22355614602565765,
      "step": 6942
    },
    {
      "epoch": 0.434,
      "grad_norm": 2.0,
      "grad_norm_var": 0.010550689697265626,
      "learning_rate": 0.0001,
      "loss": 7.078,
      "loss/crossentropy": 2.1784814596176147,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20400924235582352,
      "step": 6944
    },
    {
      "epoch": 0.434125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.011446126302083333,
      "learning_rate": 0.0001,
      "loss": 7.0531,
      "loss/crossentropy": 2.4585882425308228,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22780652344226837,
      "step": 6946
    },
    {
      "epoch": 0.43425,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.01248779296875,
      "learning_rate": 0.0001,
      "loss": 7.1479,
      "loss/crossentropy": 2.1119790077209473,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.199091836810112,
      "step": 6948
    },
    {
      "epoch": 0.434375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.009987131754557291,
      "learning_rate": 0.0001,
      "loss": 7.1265,
      "loss/crossentropy": 2.2907246351242065,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2269321158528328,
      "step": 6950
    },
    {
      "epoch": 0.4345,
      "grad_norm": 1.921875,
      "grad_norm_var": 0.013183339436848959,
      "learning_rate": 0.0001,
      "loss": 7.0487,
      "loss/crossentropy": 2.2639458179473877,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19958817213773727,
      "step": 6952
    },
    {
      "epoch": 0.434625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.013014475504557291,
      "learning_rate": 0.0001,
      "loss": 7.0662,
      "loss/crossentropy": 2.39899480342865,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21808726340532303,
      "step": 6954
    },
    {
      "epoch": 0.43475,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.015541330973307291,
      "learning_rate": 0.0001,
      "loss": 7.1265,
      "loss/crossentropy": 2.3878051042556763,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21249045431613922,
      "step": 6956
    },
    {
      "epoch": 0.434875,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.014817047119140624,
      "learning_rate": 0.0001,
      "loss": 7.0378,
      "loss/crossentropy": 2.0612010955810547,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2078692466020584,
      "step": 6958
    },
    {
      "epoch": 0.435,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.014743804931640625,
      "learning_rate": 0.0001,
      "loss": 7.1189,
      "loss/crossentropy": 2.1870445013046265,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20125596970319748,
      "step": 6960
    },
    {
      "epoch": 0.435125,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.0228424072265625,
      "learning_rate": 0.0001,
      "loss": 7.1462,
      "loss/crossentropy": 2.318724036216736,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20482215285301208,
      "step": 6962
    },
    {
      "epoch": 0.43525,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.0268951416015625,
      "learning_rate": 0.0001,
      "loss": 7.1296,
      "loss/crossentropy": 2.5011104345321655,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22151333093643188,
      "step": 6964
    },
    {
      "epoch": 0.435375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.026887003580729166,
      "learning_rate": 0.0001,
      "loss": 7.1403,
      "loss/crossentropy": 2.384117841720581,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21883900463581085,
      "step": 6966
    },
    {
      "epoch": 0.4355,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.023705037434895833,
      "learning_rate": 0.0001,
      "loss": 7.0673,
      "loss/crossentropy": 2.29778790473938,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21907077729701996,
      "step": 6968
    },
    {
      "epoch": 0.435625,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.021540323893229168,
      "learning_rate": 0.0001,
      "loss": 7.1069,
      "loss/crossentropy": 2.1342278718948364,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18501774966716766,
      "step": 6970
    },
    {
      "epoch": 0.43575,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.022297159830729166,
      "learning_rate": 0.0001,
      "loss": 7.2041,
      "loss/crossentropy": 2.4118359088897705,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1985846757888794,
      "step": 6972
    },
    {
      "epoch": 0.435875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.022435506184895832,
      "learning_rate": 0.0001,
      "loss": 7.1099,
      "loss/crossentropy": 2.274700164794922,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1986750066280365,
      "step": 6974
    },
    {
      "epoch": 0.436,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.022736612955729166,
      "learning_rate": 0.0001,
      "loss": 7.0998,
      "loss/crossentropy": 2.030650019645691,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20323613286018372,
      "step": 6976
    },
    {
      "epoch": 0.436125,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.017096964518229167,
      "learning_rate": 0.0001,
      "loss": 7.0212,
      "loss/crossentropy": 2.1681824922561646,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19574403017759323,
      "step": 6978
    },
    {
      "epoch": 0.43625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.012287394205729166,
      "learning_rate": 0.0001,
      "loss": 7.3248,
      "loss/crossentropy": 2.2973861694335938,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2214999794960022,
      "step": 6980
    },
    {
      "epoch": 0.436375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.014435831705729167,
      "learning_rate": 0.0001,
      "loss": 7.0755,
      "loss/crossentropy": 2.2429606914520264,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21233399212360382,
      "step": 6982
    },
    {
      "epoch": 0.4365,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.013199869791666667,
      "learning_rate": 0.0001,
      "loss": 7.0234,
      "loss/crossentropy": 2.0870251655578613,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18894104659557343,
      "step": 6984
    },
    {
      "epoch": 0.436625,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.024022420247395832,
      "learning_rate": 0.0001,
      "loss": 7.1037,
      "loss/crossentropy": 1.8943498730659485,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19573025405406952,
      "step": 6986
    },
    {
      "epoch": 0.43675,
      "grad_norm": 1.953125,
      "grad_norm_var": 0.023616536458333334,
      "learning_rate": 0.0001,
      "loss": 7.2237,
      "loss/crossentropy": 2.5429954528808594,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23790296912193298,
      "step": 6988
    },
    {
      "epoch": 0.436875,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.024690755208333335,
      "learning_rate": 0.0001,
      "loss": 7.1511,
      "loss/crossentropy": 2.0892491340637207,
      "loss/hidden": 2.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19531705975532532,
      "step": 6990
    },
    {
      "epoch": 0.437,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.024828084309895835,
      "learning_rate": 0.0001,
      "loss": 7.2602,
      "loss/crossentropy": 2.1488635540008545,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21692749112844467,
      "step": 6992
    },
    {
      "epoch": 0.437125,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.02623265584309896,
      "learning_rate": 0.0001,
      "loss": 7.1101,
      "loss/crossentropy": 2.3074164390563965,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20840033143758774,
      "step": 6994
    },
    {
      "epoch": 0.43725,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.026318105061848958,
      "learning_rate": 0.0001,
      "loss": 7.0916,
      "loss/crossentropy": 2.2144097089767456,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21698354184627533,
      "step": 6996
    },
    {
      "epoch": 0.437375,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.02490208943684896,
      "learning_rate": 0.0001,
      "loss": 7.2198,
      "loss/crossentropy": 2.2563615441322327,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1933683454990387,
      "step": 6998
    },
    {
      "epoch": 0.4375,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.028254954020182292,
      "learning_rate": 0.0001,
      "loss": 7.2343,
      "loss/crossentropy": 2.388770818710327,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21556702256202698,
      "step": 7000
    },
    {
      "epoch": 0.437625,
      "grad_norm": 1.8515625,
      "grad_norm_var": 0.022370402018229166,
      "learning_rate": 0.0001,
      "loss": 7.0739,
      "loss/crossentropy": 2.278029680252075,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20425931364297867,
      "step": 7002
    },
    {
      "epoch": 0.43775,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.020137532552083334,
      "learning_rate": 0.0001,
      "loss": 7.0929,
      "loss/crossentropy": 2.2358744144439697,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.196475088596344,
      "step": 7004
    },
    {
      "epoch": 0.437875,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0196685791015625,
      "learning_rate": 0.0001,
      "loss": 7.0986,
      "loss/crossentropy": 2.077066421508789,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18660877645015717,
      "step": 7006
    },
    {
      "epoch": 0.438,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.024275716145833334,
      "learning_rate": 0.0001,
      "loss": 7.1155,
      "loss/crossentropy": 2.2696588039398193,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2037624940276146,
      "step": 7008
    },
    {
      "epoch": 0.438125,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.02268040974934896,
      "learning_rate": 0.0001,
      "loss": 7.2975,
      "loss/crossentropy": 2.3751505613327026,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21261807531118393,
      "step": 7010
    },
    {
      "epoch": 0.43825,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.022517649332682292,
      "learning_rate": 0.0001,
      "loss": 7.2177,
      "loss/crossentropy": 2.265856981277466,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1969621181488037,
      "step": 7012
    },
    {
      "epoch": 0.438375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.021996815999348957,
      "learning_rate": 0.0001,
      "loss": 7.0688,
      "loss/crossentropy": 2.275804281234741,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21681126207113266,
      "step": 7014
    },
    {
      "epoch": 0.4385,
      "grad_norm": 2.125,
      "grad_norm_var": 0.018047841389973958,
      "learning_rate": 0.0001,
      "loss": 7.1952,
      "loss/crossentropy": 2.355897307395935,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20308750867843628,
      "step": 7016
    },
    {
      "epoch": 0.438625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.011701456705729167,
      "learning_rate": 0.0001,
      "loss": 7.1911,
      "loss/crossentropy": 2.5430479049682617,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21198173612356186,
      "step": 7018
    },
    {
      "epoch": 0.43875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.010895792643229167,
      "learning_rate": 0.0001,
      "loss": 7.2542,
      "loss/crossentropy": 2.3191837072372437,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21172154694795609,
      "step": 7020
    },
    {
      "epoch": 0.438875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0104400634765625,
      "learning_rate": 0.0001,
      "loss": 7.164,
      "loss/crossentropy": 2.1724308729171753,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21450695395469666,
      "step": 7022
    },
    {
      "epoch": 0.439,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.00592041015625,
      "learning_rate": 0.0001,
      "loss": 7.1836,
      "loss/crossentropy": 2.2622636556625366,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22127537429332733,
      "step": 7024
    },
    {
      "epoch": 0.439125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.003855133056640625,
      "learning_rate": 0.0001,
      "loss": 7.0389,
      "loss/crossentropy": 2.3678966760635376,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19926925003528595,
      "step": 7026
    },
    {
      "epoch": 0.43925,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.006176503499348959,
      "learning_rate": 0.0001,
      "loss": 7.2079,
      "loss/crossentropy": 2.137107729911804,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2178208827972412,
      "step": 7028
    },
    {
      "epoch": 0.439375,
      "grad_norm": 1.953125,
      "grad_norm_var": 0.008664703369140625,
      "learning_rate": 0.0001,
      "loss": 7.1307,
      "loss/crossentropy": 2.3075451850891113,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21288493275642395,
      "step": 7030
    },
    {
      "epoch": 0.4395,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.010509999593098958,
      "learning_rate": 0.0001,
      "loss": 7.1834,
      "loss/crossentropy": 2.046548902988434,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18741850554943085,
      "step": 7032
    },
    {
      "epoch": 0.439625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.010379791259765625,
      "learning_rate": 0.0001,
      "loss": 7.1691,
      "loss/crossentropy": 2.286561965942383,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20791344344615936,
      "step": 7034
    },
    {
      "epoch": 0.43975,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.010599517822265625,
      "learning_rate": 0.0001,
      "loss": 7.3184,
      "loss/crossentropy": 2.287408947944641,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21978344023227692,
      "step": 7036
    },
    {
      "epoch": 0.439875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.010916900634765626,
      "learning_rate": 0.0001,
      "loss": 7.2935,
      "loss/crossentropy": 2.6174110174179077,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20811716467142105,
      "step": 7038
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.010231272379557291,
      "learning_rate": 0.0001,
      "loss": 7.3164,
      "loss/crossentropy": 2.4823784828186035,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23784971982240677,
      "step": 7040
    },
    {
      "epoch": 0.440125,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.007958984375,
      "learning_rate": 0.0001,
      "loss": 7.1676,
      "loss/crossentropy": 2.3906302452087402,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.201579749584198,
      "step": 7042
    },
    {
      "epoch": 0.44025,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.01168212890625,
      "learning_rate": 0.0001,
      "loss": 6.9151,
      "loss/crossentropy": 2.106368660926819,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17003612965345383,
      "step": 7044
    },
    {
      "epoch": 0.440375,
      "grad_norm": 2.578125,
      "grad_norm_var": 0.0222076416015625,
      "learning_rate": 0.0001,
      "loss": 7.172,
      "loss/crossentropy": 2.2014052867889404,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21450527757406235,
      "step": 7046
    },
    {
      "epoch": 0.4405,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.023249308268229168,
      "learning_rate": 0.0001,
      "loss": 7.0817,
      "loss/crossentropy": 2.2320194244384766,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2144247591495514,
      "step": 7048
    },
    {
      "epoch": 0.440625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.023615519205729168,
      "learning_rate": 0.0001,
      "loss": 7.1826,
      "loss/crossentropy": 2.2494088411331177,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1985793113708496,
      "step": 7050
    },
    {
      "epoch": 0.44075,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.026253255208333333,
      "learning_rate": 0.0001,
      "loss": 7.1503,
      "loss/crossentropy": 2.260366201400757,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2241573929786682,
      "step": 7052
    },
    {
      "epoch": 0.440875,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.026838175455729165,
      "learning_rate": 0.0001,
      "loss": 7.0095,
      "loss/crossentropy": 1.7234525084495544,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1722937896847725,
      "step": 7054
    },
    {
      "epoch": 0.441,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.02974853515625,
      "learning_rate": 0.0001,
      "loss": 7.1572,
      "loss/crossentropy": 2.1869869232177734,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1890271008014679,
      "step": 7056
    },
    {
      "epoch": 0.441125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0292633056640625,
      "learning_rate": 0.0001,
      "loss": 6.9738,
      "loss/crossentropy": 2.192438244819641,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21589791029691696,
      "step": 7058
    },
    {
      "epoch": 0.44125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.02275390625,
      "learning_rate": 0.0001,
      "loss": 7.2958,
      "loss/crossentropy": 2.5864726305007935,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23851511627435684,
      "step": 7060
    },
    {
      "epoch": 0.441375,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.011546834309895834,
      "learning_rate": 0.0001,
      "loss": 7.2065,
      "loss/crossentropy": 2.293688654899597,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21563249826431274,
      "step": 7062
    },
    {
      "epoch": 0.4415,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.011442057291666667,
      "learning_rate": 0.0001,
      "loss": 7.1256,
      "loss/crossentropy": 2.4867671728134155,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21973519027233124,
      "step": 7064
    },
    {
      "epoch": 0.441625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.010863240559895833,
      "learning_rate": 0.0001,
      "loss": 7.2803,
      "loss/crossentropy": 2.2372056245803833,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21072745323181152,
      "step": 7066
    },
    {
      "epoch": 0.44175,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.011714680989583334,
      "learning_rate": 0.0001,
      "loss": 7.0581,
      "loss/crossentropy": 2.25705885887146,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21308179199695587,
      "step": 7068
    },
    {
      "epoch": 0.441875,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.0117584228515625,
      "learning_rate": 0.0001,
      "loss": 7.0393,
      "loss/crossentropy": 2.0396016240119934,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1958983615040779,
      "step": 7070
    },
    {
      "epoch": 0.442,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.012010701497395833,
      "learning_rate": 0.0001,
      "loss": 7.1502,
      "loss/crossentropy": 2.4618523120880127,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21056653559207916,
      "step": 7072
    },
    {
      "epoch": 0.442125,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0133941650390625,
      "learning_rate": 0.0001,
      "loss": 7.2114,
      "loss/crossentropy": 2.572341799736023,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24748806655406952,
      "step": 7074
    },
    {
      "epoch": 0.44225,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.0137603759765625,
      "learning_rate": 0.0001,
      "loss": 7.0992,
      "loss/crossentropy": 2.293982744216919,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20247779786586761,
      "step": 7076
    },
    {
      "epoch": 0.442375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.012809244791666667,
      "learning_rate": 0.0001,
      "loss": 7.0991,
      "loss/crossentropy": 2.3547102212905884,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21820224821567535,
      "step": 7078
    },
    {
      "epoch": 0.4425,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.009837849934895834,
      "learning_rate": 0.0001,
      "loss": 7.0733,
      "loss/crossentropy": 2.233034372329712,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20219457149505615,
      "step": 7080
    },
    {
      "epoch": 0.442625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.009273274739583334,
      "learning_rate": 0.0001,
      "loss": 7.1626,
      "loss/crossentropy": 2.2339953184127808,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19660235941410065,
      "step": 7082
    },
    {
      "epoch": 0.44275,
      "grad_norm": 2.125,
      "grad_norm_var": 0.008128865559895834,
      "learning_rate": 0.0001,
      "loss": 7.0955,
      "loss/crossentropy": 2.2933523654937744,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20504215359687805,
      "step": 7084
    },
    {
      "epoch": 0.442875,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.008138020833333334,
      "learning_rate": 0.0001,
      "loss": 7.1335,
      "loss/crossentropy": 2.067702531814575,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20143579691648483,
      "step": 7086
    },
    {
      "epoch": 0.443,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.009570058186848958,
      "learning_rate": 0.0001,
      "loss": 7.1793,
      "loss/crossentropy": 2.0924493074417114,
      "loss/hidden": 2.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19646278768777847,
      "step": 7088
    },
    {
      "epoch": 0.443125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.010235341389973958,
      "learning_rate": 0.0001,
      "loss": 7.0845,
      "loss/crossentropy": 2.3074241876602173,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20258978009223938,
      "step": 7090
    },
    {
      "epoch": 0.44325,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.013842519124348958,
      "learning_rate": 0.0001,
      "loss": 7.065,
      "loss/crossentropy": 2.421837568283081,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21192050725221634,
      "step": 7092
    },
    {
      "epoch": 0.443375,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.017911529541015624,
      "learning_rate": 0.0001,
      "loss": 7.2564,
      "loss/crossentropy": 2.22128963470459,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21447572112083435,
      "step": 7094
    },
    {
      "epoch": 0.4435,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.019449869791666668,
      "learning_rate": 0.0001,
      "loss": 7.0811,
      "loss/crossentropy": 1.8576909899711609,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19812503457069397,
      "step": 7096
    },
    {
      "epoch": 0.443625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.01923828125,
      "learning_rate": 0.0001,
      "loss": 7.1299,
      "loss/crossentropy": 2.3352116346359253,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22965504229068756,
      "step": 7098
    },
    {
      "epoch": 0.44375,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.021922810872395834,
      "learning_rate": 0.0001,
      "loss": 7.1568,
      "loss/crossentropy": 2.288171410560608,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22362970560789108,
      "step": 7100
    },
    {
      "epoch": 0.443875,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.022798665364583335,
      "learning_rate": 0.0001,
      "loss": 7.2212,
      "loss/crossentropy": 2.535971522331238,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21269136667251587,
      "step": 7102
    },
    {
      "epoch": 0.444,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.01968968709309896,
      "learning_rate": 0.0001,
      "loss": 7.1576,
      "loss/crossentropy": 2.1160417795181274,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20902036875486374,
      "step": 7104
    },
    {
      "epoch": 0.444125,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.01985448201497396,
      "learning_rate": 0.0001,
      "loss": 7.1795,
      "loss/crossentropy": 2.206043004989624,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20614183694124222,
      "step": 7106
    },
    {
      "epoch": 0.44425,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.015641021728515624,
      "learning_rate": 0.0001,
      "loss": 7.0607,
      "loss/crossentropy": 2.3254839181900024,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21963687986135483,
      "step": 7108
    },
    {
      "epoch": 0.444375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.010493723551432292,
      "learning_rate": 0.0001,
      "loss": 7.122,
      "loss/crossentropy": 2.003136456012726,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20006847381591797,
      "step": 7110
    },
    {
      "epoch": 0.4445,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0087310791015625,
      "learning_rate": 0.0001,
      "loss": 7.242,
      "loss/crossentropy": 1.9243924021720886,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20003072917461395,
      "step": 7112
    },
    {
      "epoch": 0.444625,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.010383097330729167,
      "learning_rate": 0.0001,
      "loss": 7.0951,
      "loss/crossentropy": 2.0053927302360535,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20178984850645065,
      "step": 7114
    },
    {
      "epoch": 0.44475,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0123931884765625,
      "learning_rate": 0.0001,
      "loss": 7.2092,
      "loss/crossentropy": 2.1276594400405884,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19504177570343018,
      "step": 7116
    },
    {
      "epoch": 0.444875,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.013303375244140625,
      "learning_rate": 0.0001,
      "loss": 7.1927,
      "loss/crossentropy": 2.3429445028305054,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22777916491031647,
      "step": 7118
    },
    {
      "epoch": 0.445,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.022885894775390624,
      "learning_rate": 0.0001,
      "loss": 7.0434,
      "loss/crossentropy": 1.9249637126922607,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.196383997797966,
      "step": 7120
    },
    {
      "epoch": 0.445125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.025658925374348957,
      "learning_rate": 0.0001,
      "loss": 7.0644,
      "loss/crossentropy": 2.101871132850647,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19870474934577942,
      "step": 7122
    },
    {
      "epoch": 0.44525,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.02504450480143229,
      "learning_rate": 0.0001,
      "loss": 7.1175,
      "loss/crossentropy": 2.2008549571037292,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19907881319522858,
      "step": 7124
    },
    {
      "epoch": 0.445375,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.026838938395182293,
      "learning_rate": 0.0001,
      "loss": 7.2085,
      "loss/crossentropy": 1.9554465413093567,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20027147978544235,
      "step": 7126
    },
    {
      "epoch": 0.4455,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.026747385660807293,
      "learning_rate": 0.0001,
      "loss": 7.3277,
      "loss/crossentropy": 2.2794995307922363,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21968071907758713,
      "step": 7128
    },
    {
      "epoch": 0.445625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.02599054972330729,
      "learning_rate": 0.0001,
      "loss": 7.1629,
      "loss/crossentropy": 2.1739684343338013,
      "loss/hidden": 2.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20093033462762833,
      "step": 7130
    },
    {
      "epoch": 0.44575,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.02295710245768229,
      "learning_rate": 0.0001,
      "loss": 7.137,
      "loss/crossentropy": 2.3477087020874023,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2029757872223854,
      "step": 7132
    },
    {
      "epoch": 0.445875,
      "grad_norm": 2.25,
      "grad_norm_var": 0.019429524739583332,
      "learning_rate": 0.0001,
      "loss": 7.2484,
      "loss/crossentropy": 2.5823616981506348,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22345758229494095,
      "step": 7134
    },
    {
      "epoch": 0.446,
      "grad_norm": 2.125,
      "grad_norm_var": 0.009859212239583333,
      "learning_rate": 0.0001,
      "loss": 7.0862,
      "loss/crossentropy": 2.093753218650818,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20466412603855133,
      "step": 7136
    },
    {
      "epoch": 0.446125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.004231770833333333,
      "learning_rate": 0.0001,
      "loss": 7.0262,
      "loss/crossentropy": 2.1759002804756165,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22160179913043976,
      "step": 7138
    },
    {
      "epoch": 0.44625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.007342274983723958,
      "learning_rate": 0.0001,
      "loss": 7.0974,
      "loss/crossentropy": 2.324357032775879,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2030269131064415,
      "step": 7140
    },
    {
      "epoch": 0.446375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.008015696207682292,
      "learning_rate": 0.0001,
      "loss": 7.2816,
      "loss/crossentropy": 2.4500794410705566,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.260087326169014,
      "step": 7142
    },
    {
      "epoch": 0.4465,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.008392079671223959,
      "learning_rate": 0.0001,
      "loss": 7.2604,
      "loss/crossentropy": 2.3314210176467896,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1982848197221756,
      "step": 7144
    },
    {
      "epoch": 0.446625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.008001454671223958,
      "learning_rate": 0.0001,
      "loss": 7.2175,
      "loss/crossentropy": 2.3275386095046997,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20359043031930923,
      "step": 7146
    },
    {
      "epoch": 0.44675,
      "grad_norm": 2.375,
      "grad_norm_var": 0.011230214436848959,
      "learning_rate": 0.0001,
      "loss": 7.2505,
      "loss/crossentropy": 2.1986998319625854,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2198983132839203,
      "step": 7148
    },
    {
      "epoch": 0.446875,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.012115224202473959,
      "learning_rate": 0.0001,
      "loss": 7.2739,
      "loss/crossentropy": 1.9064122438430786,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1959618628025055,
      "step": 7150
    },
    {
      "epoch": 0.447,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.013669586181640625,
      "learning_rate": 0.0001,
      "loss": 7.1101,
      "loss/crossentropy": 2.3088358640670776,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20778021216392517,
      "step": 7152
    },
    {
      "epoch": 0.447125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.014249420166015625,
      "learning_rate": 0.0001,
      "loss": 7.2034,
      "loss/crossentropy": 2.2749520540237427,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19885848462581635,
      "step": 7154
    },
    {
      "epoch": 0.44725,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.011356608072916666,
      "learning_rate": 0.0001,
      "loss": 6.9199,
      "loss/crossentropy": 2.0392338633537292,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18347318470478058,
      "step": 7156
    },
    {
      "epoch": 0.447375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.012626139322916667,
      "learning_rate": 0.0001,
      "loss": 7.198,
      "loss/crossentropy": 2.3574529886245728,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21006865054368973,
      "step": 7158
    },
    {
      "epoch": 0.4475,
      "grad_norm": 2.375,
      "grad_norm_var": 0.021922810872395834,
      "learning_rate": 0.0001,
      "loss": 7.1556,
      "loss/crossentropy": 2.3607640266418457,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19356133043766022,
      "step": 7160
    },
    {
      "epoch": 0.447625,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.023030598958333332,
      "learning_rate": 0.0001,
      "loss": 7.0782,
      "loss/crossentropy": 2.203671097755432,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22066359221935272,
      "step": 7162
    },
    {
      "epoch": 0.44775,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.022261555989583334,
      "learning_rate": 0.0001,
      "loss": 7.0562,
      "loss/crossentropy": 2.1417211294174194,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1960388571023941,
      "step": 7164
    },
    {
      "epoch": 0.447875,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.021630859375,
      "learning_rate": 0.0001,
      "loss": 7.113,
      "loss/crossentropy": 2.0206031799316406,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18700659275054932,
      "step": 7166
    },
    {
      "epoch": 0.448,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.02095947265625,
      "learning_rate": 0.0001,
      "loss": 7.094,
      "loss/crossentropy": 2.1299338340759277,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1982402428984642,
      "step": 7168
    },
    {
      "epoch": 0.448125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.028413899739583335,
      "learning_rate": 0.0001,
      "loss": 7.152,
      "loss/crossentropy": 2.33224093914032,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21684490144252777,
      "step": 7170
    },
    {
      "epoch": 0.44825,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.025016276041666667,
      "learning_rate": 0.0001,
      "loss": 7.2652,
      "loss/crossentropy": 2.3137996196746826,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2174111008644104,
      "step": 7172
    },
    {
      "epoch": 0.448375,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.024421183268229167,
      "learning_rate": 0.0001,
      "loss": 7.1668,
      "loss/crossentropy": 1.9115217328071594,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21205194294452667,
      "step": 7174
    },
    {
      "epoch": 0.4485,
      "grad_norm": 2.0,
      "grad_norm_var": 0.018000284830729168,
      "learning_rate": 0.0001,
      "loss": 7.1978,
      "loss/crossentropy": 2.4868533611297607,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22938791662454605,
      "step": 7176
    },
    {
      "epoch": 0.448625,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.018260701497395834,
      "learning_rate": 0.0001,
      "loss": 7.193,
      "loss/crossentropy": 2.2773613929748535,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20718929171562195,
      "step": 7178
    },
    {
      "epoch": 0.44875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.0171295166015625,
      "learning_rate": 0.0001,
      "loss": 7.1092,
      "loss/crossentropy": 2.048713266849518,
      "loss/hidden": 2.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19681257009506226,
      "step": 7180
    },
    {
      "epoch": 0.448875,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.015397135416666667,
      "learning_rate": 0.0001,
      "loss": 7.0797,
      "loss/crossentropy": 1.8432785868644714,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20921127498149872,
      "step": 7182
    },
    {
      "epoch": 0.449,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.015387980143229167,
      "learning_rate": 0.0001,
      "loss": 7.1391,
      "loss/crossentropy": 2.129906117916107,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2244158536195755,
      "step": 7184
    },
    {
      "epoch": 0.449125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.011551920572916667,
      "learning_rate": 0.0001,
      "loss": 7.1485,
      "loss/crossentropy": 2.1112728118896484,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20086340606212616,
      "step": 7186
    },
    {
      "epoch": 0.44925,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.011714680989583334,
      "learning_rate": 0.0001,
      "loss": 7.2314,
      "loss/crossentropy": 2.256954550743103,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20468229055404663,
      "step": 7188
    },
    {
      "epoch": 0.449375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.014453125,
      "learning_rate": 0.0001,
      "loss": 7.1437,
      "loss/crossentropy": 2.071455657482147,
      "loss/hidden": 2.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20885341614484787,
      "step": 7190
    },
    {
      "epoch": 0.4495,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.013114420572916667,
      "learning_rate": 0.0001,
      "loss": 7.0949,
      "loss/crossentropy": 2.562646746635437,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21791629493236542,
      "step": 7192
    },
    {
      "epoch": 0.449625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.009761555989583334,
      "learning_rate": 0.0001,
      "loss": 7.1798,
      "loss/crossentropy": 2.3666142225265503,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2231055274605751,
      "step": 7194
    },
    {
      "epoch": 0.44975,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.009300740559895833,
      "learning_rate": 0.0001,
      "loss": 7.2875,
      "loss/crossentropy": 2.2392258644104004,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21026718616485596,
      "step": 7196
    },
    {
      "epoch": 0.449875,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.0059234619140625,
      "learning_rate": 0.0001,
      "loss": 7.0306,
      "loss/crossentropy": 2.531536340713501,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20711271464824677,
      "step": 7198
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.045699055989583334,
      "learning_rate": 0.0001,
      "loss": 7.1813,
      "loss/crossentropy": 2.32056200504303,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21862630546092987,
      "step": 7200
    },
    {
      "epoch": 0.450125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.04778620402018229,
      "learning_rate": 0.0001,
      "loss": 7.3459,
      "loss/crossentropy": 2.6083868741989136,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2005249261856079,
      "step": 7202
    },
    {
      "epoch": 0.45025,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.046781158447265624,
      "learning_rate": 0.0001,
      "loss": 6.9953,
      "loss/crossentropy": 2.134474039077759,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18911154568195343,
      "step": 7204
    },
    {
      "epoch": 0.450375,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.046537017822265624,
      "learning_rate": 0.0001,
      "loss": 7.2096,
      "loss/crossentropy": 2.2817357778549194,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20316140353679657,
      "step": 7206
    },
    {
      "epoch": 0.4505,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.049806467692057294,
      "learning_rate": 0.0001,
      "loss": 7.0024,
      "loss/crossentropy": 2.288169503211975,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20653357356786728,
      "step": 7208
    },
    {
      "epoch": 0.450625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.050172678629557294,
      "learning_rate": 0.0001,
      "loss": 7.2516,
      "loss/crossentropy": 2.5531680583953857,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21465806663036346,
      "step": 7210
    },
    {
      "epoch": 0.45075,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.04960912068684896,
      "learning_rate": 0.0001,
      "loss": 7.3268,
      "loss/crossentropy": 2.2371240854263306,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21228843927383423,
      "step": 7212
    },
    {
      "epoch": 0.450875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.04690119425455729,
      "learning_rate": 0.0001,
      "loss": 7.2514,
      "loss/crossentropy": 2.17119038105011,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19861158728599548,
      "step": 7214
    },
    {
      "epoch": 0.451,
      "grad_norm": 1.9609375,
      "grad_norm_var": 0.0108551025390625,
      "learning_rate": 0.0001,
      "loss": 6.9546,
      "loss/crossentropy": 2.042115569114685,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.19691552966833115,
      "step": 7216
    },
    {
      "epoch": 0.451125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.009997304280598958,
      "learning_rate": 0.0001,
      "loss": 7.0743,
      "loss/crossentropy": 2.0181705951690674,
      "loss/hidden": 2.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20092586427927017,
      "step": 7218
    },
    {
      "epoch": 0.45125,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.011661783854166666,
      "learning_rate": 0.0001,
      "loss": 7.0426,
      "loss/crossentropy": 2.313483238220215,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2026253342628479,
      "step": 7220
    },
    {
      "epoch": 0.451375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.014689127604166666,
      "learning_rate": 0.0001,
      "loss": 7.0506,
      "loss/crossentropy": 2.278806447982788,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2161618396639824,
      "step": 7222
    },
    {
      "epoch": 0.4515,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.011592610677083334,
      "learning_rate": 0.0001,
      "loss": 7.3406,
      "loss/crossentropy": 2.26158607006073,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20861487835645676,
      "step": 7224
    },
    {
      "epoch": 0.451625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.011201985677083333,
      "learning_rate": 0.0001,
      "loss": 7.1772,
      "loss/crossentropy": 2.0447089076042175,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2081030160188675,
      "step": 7226
    },
    {
      "epoch": 0.45175,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.012308756510416666,
      "learning_rate": 0.0001,
      "loss": 7.0837,
      "loss/crossentropy": 2.4593422412872314,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22033347189426422,
      "step": 7228
    },
    {
      "epoch": 0.451875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.012352498372395833,
      "learning_rate": 0.0001,
      "loss": 7.0803,
      "loss/crossentropy": 2.1379048824310303,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.212110698223114,
      "step": 7230
    },
    {
      "epoch": 0.452,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.009631093343098958,
      "learning_rate": 0.0001,
      "loss": 7.0067,
      "loss/crossentropy": 2.147655963897705,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21026761829853058,
      "step": 7232
    },
    {
      "epoch": 0.452125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.008278147379557291,
      "learning_rate": 0.0001,
      "loss": 7.2995,
      "loss/crossentropy": 2.4965137243270874,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2102838009595871,
      "step": 7234
    },
    {
      "epoch": 0.45225,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.007420857747395833,
      "learning_rate": 0.0001,
      "loss": 7.2283,
      "loss/crossentropy": 2.5284390449523926,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2260439619421959,
      "step": 7236
    },
    {
      "epoch": 0.452375,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.006136067708333333,
      "learning_rate": 0.0001,
      "loss": 7.1149,
      "loss/crossentropy": 2.124226689338684,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1935354694724083,
      "step": 7238
    },
    {
      "epoch": 0.4525,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.008177693684895833,
      "learning_rate": 0.0001,
      "loss": 7.1761,
      "loss/crossentropy": 2.31568443775177,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19555098563432693,
      "step": 7240
    },
    {
      "epoch": 0.452625,
      "grad_norm": 2.125,
      "grad_norm_var": 0.00797119140625,
      "learning_rate": 0.0001,
      "loss": 7.0197,
      "loss/crossentropy": 2.2378604412078857,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2003757283091545,
      "step": 7242
    },
    {
      "epoch": 0.45275,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.008304595947265625,
      "learning_rate": 0.0001,
      "loss": 7.032,
      "loss/crossentropy": 2.0563949942588806,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1994936764240265,
      "step": 7244
    },
    {
      "epoch": 0.452875,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.009273020426432292,
      "learning_rate": 0.0001,
      "loss": 7.0266,
      "loss/crossentropy": 2.1362143754959106,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19745449721813202,
      "step": 7246
    },
    {
      "epoch": 0.453,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.009978993733723959,
      "learning_rate": 0.0001,
      "loss": 7.054,
      "loss/crossentropy": 2.285860776901245,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21970739215612411,
      "step": 7248
    },
    {
      "epoch": 0.453125,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.010746002197265625,
      "learning_rate": 0.0001,
      "loss": 7.1889,
      "loss/crossentropy": 2.350265145301819,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2033230885863304,
      "step": 7250
    },
    {
      "epoch": 0.45325,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.006768544514973958,
      "learning_rate": 0.0001,
      "loss": 7.212,
      "loss/crossentropy": 2.2641106843948364,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20904739946126938,
      "step": 7252
    },
    {
      "epoch": 0.453375,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.0104248046875,
      "learning_rate": 0.0001,
      "loss": 7.2615,
      "loss/crossentropy": 2.3802077770233154,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21182265132665634,
      "step": 7254
    },
    {
      "epoch": 0.4535,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.013841756184895833,
      "learning_rate": 0.0001,
      "loss": 7.0786,
      "loss/crossentropy": 2.2918620109558105,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20877155661582947,
      "step": 7256
    },
    {
      "epoch": 0.453625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0139312744140625,
      "learning_rate": 0.0001,
      "loss": 7.0746,
      "loss/crossentropy": 2.120309591293335,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19328848272562027,
      "step": 7258
    },
    {
      "epoch": 0.45375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.011901601155598959,
      "learning_rate": 0.0001,
      "loss": 7.2181,
      "loss/crossentropy": 2.221208691596985,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21751584112644196,
      "step": 7260
    },
    {
      "epoch": 0.453875,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.023978424072265626,
      "learning_rate": 0.0001,
      "loss": 7.1222,
      "loss/crossentropy": 2.4885802268981934,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2257223054766655,
      "step": 7262
    },
    {
      "epoch": 0.454,
      "grad_norm": 2.375,
      "grad_norm_var": 0.02561213175455729,
      "learning_rate": 0.0001,
      "loss": 7.1315,
      "loss/crossentropy": 2.1699594259262085,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.21807490289211273,
      "step": 7264
    },
    {
      "epoch": 0.454125,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.022607167561848957,
      "learning_rate": 0.0001,
      "loss": 7.1284,
      "loss/crossentropy": 1.8780632615089417,
      "loss/hidden": 2.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1910051330924034,
      "step": 7266
    },
    {
      "epoch": 0.45425,
      "grad_norm": 2.125,
      "grad_norm_var": 0.02069066365559896,
      "learning_rate": 0.0001,
      "loss": 7.1184,
      "loss/crossentropy": 2.246003210544586,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22277537733316422,
      "step": 7268
    },
    {
      "epoch": 0.454375,
      "grad_norm": 2.375,
      "grad_norm_var": 0.017096964518229167,
      "learning_rate": 0.0001,
      "loss": 7.1533,
      "loss/crossentropy": 2.1062055826187134,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22463850677013397,
      "step": 7270
    },
    {
      "epoch": 0.4545,
      "grad_norm": 2.25,
      "grad_norm_var": 0.015620930989583334,
      "learning_rate": 0.0001,
      "loss": 7.1315,
      "loss/crossentropy": 2.35440993309021,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2115459069609642,
      "step": 7272
    },
    {
      "epoch": 0.454625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.01744384765625,
      "learning_rate": 0.0001,
      "loss": 7.0647,
      "loss/crossentropy": 2.358685255050659,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20285096019506454,
      "step": 7274
    },
    {
      "epoch": 0.45475,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.020406087239583332,
      "learning_rate": 0.0001,
      "loss": 7.0577,
      "loss/crossentropy": 2.1627367734909058,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19727136939764023,
      "step": 7276
    },
    {
      "epoch": 0.454875,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.015458170572916667,
      "learning_rate": 0.0001,
      "loss": 7.0459,
      "loss/crossentropy": 2.0946096181869507,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19678431004285812,
      "step": 7278
    },
    {
      "epoch": 0.455,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0161773681640625,
      "learning_rate": 0.0001,
      "loss": 7.2589,
      "loss/crossentropy": 2.244626998901367,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22719382494688034,
      "step": 7280
    },
    {
      "epoch": 0.455125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.014632161458333333,
      "learning_rate": 0.0001,
      "loss": 7.3766,
      "loss/crossentropy": 2.2402459383010864,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20855902880430222,
      "step": 7282
    },
    {
      "epoch": 0.45525,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.016844685872395834,
      "learning_rate": 0.0001,
      "loss": 7.1058,
      "loss/crossentropy": 2.4255205392837524,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1950306072831154,
      "step": 7284
    },
    {
      "epoch": 0.455375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.014286295572916666,
      "learning_rate": 0.0001,
      "loss": 7.1902,
      "loss/crossentropy": 2.4710735082626343,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21613246202468872,
      "step": 7286
    },
    {
      "epoch": 0.4555,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.01373291015625,
      "learning_rate": 0.0001,
      "loss": 7.0767,
      "loss/crossentropy": 2.0865633487701416,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19315458834171295,
      "step": 7288
    },
    {
      "epoch": 0.455625,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.014232381184895834,
      "learning_rate": 0.0001,
      "loss": 7.1555,
      "loss/crossentropy": 2.431704044342041,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22103539109230042,
      "step": 7290
    },
    {
      "epoch": 0.45575,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.013212076822916667,
      "learning_rate": 0.0001,
      "loss": 7.1897,
      "loss/crossentropy": 2.2944241762161255,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20230845361948013,
      "step": 7292
    },
    {
      "epoch": 0.455875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.012744140625,
      "learning_rate": 0.0001,
      "loss": 7.2919,
      "loss/crossentropy": 2.1923948526382446,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2351241260766983,
      "step": 7294
    },
    {
      "epoch": 0.456,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.013498687744140625,
      "learning_rate": 0.0001,
      "loss": 7.0956,
      "loss/crossentropy": 1.9904609322547913,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.19044706225395203,
      "step": 7296
    },
    {
      "epoch": 0.456125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.016371409098307293,
      "learning_rate": 0.0001,
      "loss": 7.2638,
      "loss/crossentropy": 2.392876386642456,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21254249662160873,
      "step": 7298
    },
    {
      "epoch": 0.45625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.01687800089518229,
      "learning_rate": 0.0001,
      "loss": 7.0909,
      "loss/crossentropy": 1.9285590052604675,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18553440272808075,
      "step": 7300
    },
    {
      "epoch": 0.456375,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.016717274983723957,
      "learning_rate": 0.0001,
      "loss": 7.1137,
      "loss/crossentropy": 2.4444403648376465,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22047097980976105,
      "step": 7302
    },
    {
      "epoch": 0.4565,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.01741511027018229,
      "learning_rate": 0.0001,
      "loss": 7.0704,
      "loss/crossentropy": 2.4315890073776245,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21392318606376648,
      "step": 7304
    },
    {
      "epoch": 0.456625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.013889312744140625,
      "learning_rate": 0.0001,
      "loss": 7.1225,
      "loss/crossentropy": 2.1737417578697205,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21062488108873367,
      "step": 7306
    },
    {
      "epoch": 0.45675,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.015036773681640626,
      "learning_rate": 0.0001,
      "loss": 7.0151,
      "loss/crossentropy": 1.8432039022445679,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20271048694849014,
      "step": 7308
    },
    {
      "epoch": 0.456875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.014113108317057291,
      "learning_rate": 0.0001,
      "loss": 7.0773,
      "loss/crossentropy": 2.1769769191741943,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20057760924100876,
      "step": 7310
    },
    {
      "epoch": 0.457,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.017267862955729168,
      "learning_rate": 0.0001,
      "loss": 7.2829,
      "loss/crossentropy": 2.502546191215515,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21403612941503525,
      "step": 7312
    },
    {
      "epoch": 0.457125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.012547810872395834,
      "learning_rate": 0.0001,
      "loss": 7.1304,
      "loss/crossentropy": 2.3192015886306763,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21322068572044373,
      "step": 7314
    },
    {
      "epoch": 0.45725,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0109771728515625,
      "learning_rate": 0.0001,
      "loss": 7.0573,
      "loss/crossentropy": 2.21256947517395,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.19907121360301971,
      "step": 7316
    },
    {
      "epoch": 0.457375,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.011083984375,
      "learning_rate": 0.0001,
      "loss": 7.1052,
      "loss/crossentropy": 2.3876004219055176,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21536500751972198,
      "step": 7318
    },
    {
      "epoch": 0.4575,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0110748291015625,
      "learning_rate": 0.0001,
      "loss": 7.1542,
      "loss/crossentropy": 2.3090778589248657,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2097294181585312,
      "step": 7320
    },
    {
      "epoch": 0.457625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.011226399739583334,
      "learning_rate": 0.0001,
      "loss": 7.1163,
      "loss/crossentropy": 2.3780629634857178,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2092108651995659,
      "step": 7322
    },
    {
      "epoch": 0.45775,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.009137980143229167,
      "learning_rate": 0.0001,
      "loss": 7.1624,
      "loss/crossentropy": 2.3224358558654785,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20188771933317184,
      "step": 7324
    },
    {
      "epoch": 0.457875,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.014707183837890625,
      "learning_rate": 0.0001,
      "loss": 7.1187,
      "loss/crossentropy": 2.044081926345825,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18789289891719818,
      "step": 7326
    },
    {
      "epoch": 0.458,
      "grad_norm": 2.375,
      "grad_norm_var": 0.012182362874348958,
      "learning_rate": 0.0001,
      "loss": 7.1447,
      "loss/crossentropy": 2.380860447883606,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20718378573656082,
      "step": 7328
    },
    {
      "epoch": 0.458125,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.0149658203125,
      "learning_rate": 0.0001,
      "loss": 7.2424,
      "loss/crossentropy": 2.1657201051712036,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19616171717643738,
      "step": 7330
    },
    {
      "epoch": 0.45825,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.017341105143229167,
      "learning_rate": 0.0001,
      "loss": 6.9994,
      "loss/crossentropy": 2.148615837097168,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20785433053970337,
      "step": 7332
    },
    {
      "epoch": 0.458375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.018513997395833332,
      "learning_rate": 0.0001,
      "loss": 7.1808,
      "loss/crossentropy": 2.2177847623825073,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21924154460430145,
      "step": 7334
    },
    {
      "epoch": 0.4585,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.020511881510416666,
      "learning_rate": 0.0001,
      "loss": 7.1623,
      "loss/crossentropy": 2.2308239936828613,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2200755625963211,
      "step": 7336
    },
    {
      "epoch": 0.458625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.020857747395833334,
      "learning_rate": 0.0001,
      "loss": 7.1733,
      "loss/crossentropy": 1.9752941727638245,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19304338842630386,
      "step": 7338
    },
    {
      "epoch": 0.45875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.027058919270833332,
      "learning_rate": 0.0001,
      "loss": 7.3887,
      "loss/crossentropy": 2.253862977027893,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21588093787431717,
      "step": 7340
    },
    {
      "epoch": 0.458875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.022045644124348958,
      "learning_rate": 0.0001,
      "loss": 7.1725,
      "loss/crossentropy": 2.3387417793273926,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20970949530601501,
      "step": 7342
    },
    {
      "epoch": 0.459,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.024379221598307292,
      "learning_rate": 0.0001,
      "loss": 7.222,
      "loss/crossentropy": 2.1245256066322327,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22371243685483932,
      "step": 7344
    },
    {
      "epoch": 0.459125,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.023216756184895833,
      "learning_rate": 0.0001,
      "loss": 7.257,
      "loss/crossentropy": 2.2408164739608765,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2288973107933998,
      "step": 7346
    },
    {
      "epoch": 0.45925,
      "grad_norm": 1.8515625,
      "grad_norm_var": 0.02879613240559896,
      "learning_rate": 0.0001,
      "loss": 7.0951,
      "loss/crossentropy": 2.180490016937256,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21135683357715607,
      "step": 7348
    },
    {
      "epoch": 0.459375,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.02787043253580729,
      "learning_rate": 0.0001,
      "loss": 7.1622,
      "loss/crossentropy": 2.359486937522888,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21552064269781113,
      "step": 7350
    },
    {
      "epoch": 0.4595,
      "grad_norm": 2.25,
      "grad_norm_var": 0.02600886027018229,
      "learning_rate": 0.0001,
      "loss": 7.2729,
      "loss/crossentropy": 2.4955438375473022,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2092251032590866,
      "step": 7352
    },
    {
      "epoch": 0.459625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.026444244384765624,
      "learning_rate": 0.0001,
      "loss": 7.1748,
      "loss/crossentropy": 2.3510589599609375,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20734377205371857,
      "step": 7354
    },
    {
      "epoch": 0.45975,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.018332672119140626,
      "learning_rate": 0.0001,
      "loss": 7.1075,
      "loss/crossentropy": 2.3306682109832764,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20482201874256134,
      "step": 7356
    },
    {
      "epoch": 0.459875,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.01725031534830729,
      "learning_rate": 0.0001,
      "loss": 7.1674,
      "loss/crossentropy": 2.3967502117156982,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21556542068719864,
      "step": 7358
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017073313395182293,
      "learning_rate": 0.0001,
      "loss": 7.0717,
      "loss/crossentropy": 2.274154245853424,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21294216066598892,
      "step": 7360
    },
    {
      "epoch": 0.460125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.013783518473307292,
      "learning_rate": 0.0001,
      "loss": 7.2142,
      "loss/crossentropy": 2.230677008628845,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2010795623064041,
      "step": 7362
    },
    {
      "epoch": 0.46025,
      "grad_norm": 1.9609375,
      "grad_norm_var": 0.009504954020182291,
      "learning_rate": 0.0001,
      "loss": 7.0379,
      "loss/crossentropy": 2.353756308555603,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22095441818237305,
      "step": 7364
    },
    {
      "epoch": 0.460375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.009458160400390625,
      "learning_rate": 0.0001,
      "loss": 6.9673,
      "loss/crossentropy": 2.085910201072693,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18464379012584686,
      "step": 7366
    },
    {
      "epoch": 0.4605,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.009199778238932291,
      "learning_rate": 0.0001,
      "loss": 6.8746,
      "loss/crossentropy": 2.0555408000946045,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2172028347849846,
      "step": 7368
    },
    {
      "epoch": 0.460625,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.009907786051432292,
      "learning_rate": 0.0001,
      "loss": 7.0269,
      "loss/crossentropy": 2.3041187524795532,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21645274013280869,
      "step": 7370
    },
    {
      "epoch": 0.46075,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.009531402587890625,
      "learning_rate": 0.0001,
      "loss": 6.9228,
      "loss/crossentropy": 1.9540690183639526,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.184081070125103,
      "step": 7372
    },
    {
      "epoch": 0.460875,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.009034983317057292,
      "learning_rate": 0.0001,
      "loss": 7.1386,
      "loss/crossentropy": 2.4415656328201294,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20297012478113174,
      "step": 7374
    },
    {
      "epoch": 0.461,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.006528472900390625,
      "learning_rate": 0.0001,
      "loss": 7.1107,
      "loss/crossentropy": 2.086025834083557,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19494184106588364,
      "step": 7376
    },
    {
      "epoch": 0.461125,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0063860575358072914,
      "learning_rate": 0.0001,
      "loss": 7.1613,
      "loss/crossentropy": 2.236558198928833,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21862926334142685,
      "step": 7378
    },
    {
      "epoch": 0.46125,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.006243642171223958,
      "learning_rate": 0.0001,
      "loss": 7.1739,
      "loss/crossentropy": 2.0421109199523926,
      "loss/hidden": 2.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2004089578986168,
      "step": 7380
    },
    {
      "epoch": 0.461375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.006573232014973959,
      "learning_rate": 0.0001,
      "loss": 7.0469,
      "loss/crossentropy": 2.216292977333069,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1917620524764061,
      "step": 7382
    },
    {
      "epoch": 0.4615,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.006883748372395833,
      "learning_rate": 0.0001,
      "loss": 7.1088,
      "loss/crossentropy": 2.209986925125122,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20837366580963135,
      "step": 7384
    },
    {
      "epoch": 0.461625,
      "grad_norm": 2.609375,
      "grad_norm_var": 0.022809855143229165,
      "learning_rate": 0.0001,
      "loss": 7.3591,
      "loss/crossentropy": 2.3474618196487427,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22284895181655884,
      "step": 7386
    },
    {
      "epoch": 0.46175,
      "grad_norm": 2.0,
      "grad_norm_var": 0.0231597900390625,
      "learning_rate": 0.0001,
      "loss": 7.0282,
      "loss/crossentropy": 2.0832881927490234,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17219309508800507,
      "step": 7388
    },
    {
      "epoch": 0.461875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.023249308268229168,
      "learning_rate": 0.0001,
      "loss": 7.1468,
      "loss/crossentropy": 2.2276368141174316,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19344830513000488,
      "step": 7390
    },
    {
      "epoch": 0.462,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.025169881184895833,
      "learning_rate": 0.0001,
      "loss": 7.0684,
      "loss/crossentropy": 2.4470431804656982,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22533931583166122,
      "step": 7392
    },
    {
      "epoch": 0.462125,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.02926813761393229,
      "learning_rate": 0.0001,
      "loss": 7.0658,
      "loss/crossentropy": 2.2905768156051636,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20665580034255981,
      "step": 7394
    },
    {
      "epoch": 0.46225,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.0297760009765625,
      "learning_rate": 0.0001,
      "loss": 7.1369,
      "loss/crossentropy": 2.167145550251007,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21655890345573425,
      "step": 7396
    },
    {
      "epoch": 0.462375,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.03216552734375,
      "learning_rate": 0.0001,
      "loss": 7.0859,
      "loss/crossentropy": 2.15854412317276,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20027539879083633,
      "step": 7398
    },
    {
      "epoch": 0.4625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.03135350545247396,
      "learning_rate": 0.0001,
      "loss": 7.1261,
      "loss/crossentropy": 2.1508615016937256,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18814773857593536,
      "step": 7400
    },
    {
      "epoch": 0.462625,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.0194732666015625,
      "learning_rate": 0.0001,
      "loss": 7.134,
      "loss/crossentropy": 1.842678189277649,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18930108845233917,
      "step": 7402
    },
    {
      "epoch": 0.46275,
      "grad_norm": 2.125,
      "grad_norm_var": 0.018400065104166665,
      "learning_rate": 0.0001,
      "loss": 7.2671,
      "loss/crossentropy": 2.4093555212020874,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21225199848413467,
      "step": 7404
    },
    {
      "epoch": 0.462875,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.019188435872395833,
      "learning_rate": 0.0001,
      "loss": 7.2534,
      "loss/crossentropy": 1.9698211550712585,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21386128664016724,
      "step": 7406
    },
    {
      "epoch": 0.463,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.0200836181640625,
      "learning_rate": 0.0001,
      "loss": 7.2251,
      "loss/crossentropy": 2.4693849086761475,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20892548561096191,
      "step": 7408
    },
    {
      "epoch": 0.463125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.01602350870768229,
      "learning_rate": 0.0001,
      "loss": 7.0863,
      "loss/crossentropy": 2.1525356769561768,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20484411716461182,
      "step": 7410
    },
    {
      "epoch": 0.46325,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.023339589436848957,
      "learning_rate": 0.0001,
      "loss": 7.0279,
      "loss/crossentropy": 2.3783161640167236,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19495395570993423,
      "step": 7412
    },
    {
      "epoch": 0.463375,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.022850545247395833,
      "learning_rate": 0.0001,
      "loss": 7.2075,
      "loss/crossentropy": 2.3271056413650513,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19265718758106232,
      "step": 7414
    },
    {
      "epoch": 0.4635,
      "grad_norm": 3.0625,
      "grad_norm_var": 3.065482584635417,
      "learning_rate": 0.0001,
      "loss": 7.6398,
      "loss/crossentropy": 2.133812189102173,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20769577473402023,
      "step": 7416
    },
    {
      "epoch": 0.463625,
      "grad_norm": 2.09375,
      "grad_norm_var": 3.042229970296224,
      "learning_rate": 0.0001,
      "loss": 7.213,
      "loss/crossentropy": 2.110043227672577,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21482352912425995,
      "step": 7418
    },
    {
      "epoch": 0.46375,
      "grad_norm": 2.125,
      "grad_norm_var": 3.038519032796224,
      "learning_rate": 0.0001,
      "loss": 7.1561,
      "loss/crossentropy": 2.31582248210907,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19608522206544876,
      "step": 7420
    },
    {
      "epoch": 0.463875,
      "grad_norm": 2.0625,
      "grad_norm_var": 3.049450429280599,
      "learning_rate": 0.0001,
      "loss": 7.3156,
      "loss/crossentropy": 2.19181752204895,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2320917323231697,
      "step": 7422
    },
    {
      "epoch": 0.464,
      "grad_norm": 2.21875,
      "grad_norm_var": 3.0374794006347656,
      "learning_rate": 0.0001,
      "loss": 7.1618,
      "loss/crossentropy": 2.466021180152893,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20255694538354874,
      "step": 7424
    },
    {
      "epoch": 0.464125,
      "grad_norm": 2.15625,
      "grad_norm_var": 3.039378865559896,
      "learning_rate": 0.0001,
      "loss": 7.1428,
      "loss/crossentropy": 2.425376534461975,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19863475114107132,
      "step": 7426
    },
    {
      "epoch": 0.46425,
      "grad_norm": 2.265625,
      "grad_norm_var": 3.04412841796875,
      "learning_rate": 0.0001,
      "loss": 7.0199,
      "loss/crossentropy": 2.244443416595459,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19751153886318207,
      "step": 7428
    },
    {
      "epoch": 0.464375,
      "grad_norm": 1.9609375,
      "grad_norm_var": 3.063792928059896,
      "learning_rate": 0.0001,
      "loss": 7.0883,
      "loss/crossentropy": 2.2773425579071045,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2200421243906021,
      "step": 7430
    },
    {
      "epoch": 0.4645,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.01649169921875,
      "learning_rate": 0.0001,
      "loss": 7.1049,
      "loss/crossentropy": 2.173538327217102,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21017886698246002,
      "step": 7432
    },
    {
      "epoch": 0.464625,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.013334147135416667,
      "learning_rate": 0.0001,
      "loss": 7.2421,
      "loss/crossentropy": 2.190195083618164,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2085673287510872,
      "step": 7434
    },
    {
      "epoch": 0.46475,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.014900716145833333,
      "learning_rate": 0.0001,
      "loss": 7.1757,
      "loss/crossentropy": 2.2361714839935303,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.20774667710065842,
      "step": 7436
    },
    {
      "epoch": 0.464875,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.014533487955729167,
      "learning_rate": 0.0001,
      "loss": 7.0734,
      "loss/crossentropy": 2.3481364250183105,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19645172357559204,
      "step": 7438
    },
    {
      "epoch": 0.465,
      "grad_norm": 1.9296875,
      "grad_norm_var": 0.019789377848307293,
      "learning_rate": 0.0001,
      "loss": 7.0093,
      "loss/crossentropy": 1.8984848260879517,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19228964298963547,
      "step": 7440
    },
    {
      "epoch": 0.465125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.019453938802083334,
      "learning_rate": 0.0001,
      "loss": 6.9896,
      "loss/crossentropy": 2.2871270179748535,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2178485319018364,
      "step": 7442
    },
    {
      "epoch": 0.46525,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.01668701171875,
      "learning_rate": 0.0001,
      "loss": 7.0334,
      "loss/crossentropy": 2.2983537912368774,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1965767741203308,
      "step": 7444
    },
    {
      "epoch": 0.465375,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.014768218994140625,
      "learning_rate": 0.0001,
      "loss": 7.2321,
      "loss/crossentropy": 2.178062319755554,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1993517056107521,
      "step": 7446
    },
    {
      "epoch": 0.4655,
      "grad_norm": 1.921875,
      "grad_norm_var": 0.013632965087890626,
      "learning_rate": 0.0001,
      "loss": 7.0158,
      "loss/crossentropy": 2.1353349685668945,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1889559030532837,
      "step": 7448
    },
    {
      "epoch": 0.465625,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.02373224894205729,
      "learning_rate": 0.0001,
      "loss": 7.2622,
      "loss/crossentropy": 2.2076762914657593,
      "loss/hidden": 2.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2045726329088211,
      "step": 7450
    },
    {
      "epoch": 0.46575,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.022900136311848958,
      "learning_rate": 0.0001,
      "loss": 7.1263,
      "loss/crossentropy": 2.4784727096557617,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21691476553678513,
      "step": 7452
    },
    {
      "epoch": 0.465875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.02217585245768229,
      "learning_rate": 0.0001,
      "loss": 7.0873,
      "loss/crossentropy": 1.949112594127655,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21352668851613998,
      "step": 7454
    },
    {
      "epoch": 0.466,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.017710113525390626,
      "learning_rate": 0.0001,
      "loss": 7.0893,
      "loss/crossentropy": 1.9374956488609314,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19351773709058762,
      "step": 7456
    },
    {
      "epoch": 0.466125,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.017227935791015624,
      "learning_rate": 0.0001,
      "loss": 7.107,
      "loss/crossentropy": 2.6141308546066284,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22147035598754883,
      "step": 7458
    },
    {
      "epoch": 0.46625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.017411041259765624,
      "learning_rate": 0.0001,
      "loss": 7.2292,
      "loss/crossentropy": 2.4253780841827393,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21378996968269348,
      "step": 7460
    },
    {
      "epoch": 0.466375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.017050933837890626,
      "learning_rate": 0.0001,
      "loss": 7.1957,
      "loss/crossentropy": 2.009346067905426,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2008848488330841,
      "step": 7462
    },
    {
      "epoch": 0.4665,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.01788508097330729,
      "learning_rate": 0.0001,
      "loss": 7.2114,
      "loss/crossentropy": 2.048809766769409,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19820420444011688,
      "step": 7464
    },
    {
      "epoch": 0.466625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.009893544514973958,
      "learning_rate": 0.0001,
      "loss": 7.2132,
      "loss/crossentropy": 2.3207257986068726,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20752790570259094,
      "step": 7466
    },
    {
      "epoch": 0.46675,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.010607655843098958,
      "learning_rate": 0.0001,
      "loss": 7.0494,
      "loss/crossentropy": 2.112247109413147,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19827520847320557,
      "step": 7468
    },
    {
      "epoch": 0.466875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.015447743733723958,
      "learning_rate": 0.0001,
      "loss": 7.1738,
      "loss/crossentropy": 2.2079219818115234,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22125893086194992,
      "step": 7470
    },
    {
      "epoch": 0.467,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.013386027018229166,
      "learning_rate": 0.0001,
      "loss": 7.0565,
      "loss/crossentropy": 2.2796353101730347,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20792751014232635,
      "step": 7472
    },
    {
      "epoch": 0.467125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0126129150390625,
      "learning_rate": 0.0001,
      "loss": 7.1541,
      "loss/crossentropy": 2.4691073894500732,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2315238192677498,
      "step": 7474
    },
    {
      "epoch": 0.46725,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.012727864583333333,
      "learning_rate": 0.0001,
      "loss": 6.9937,
      "loss/crossentropy": 2.2356735467910767,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19917455315589905,
      "step": 7476
    },
    {
      "epoch": 0.467375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0129058837890625,
      "learning_rate": 0.0001,
      "loss": 7.1406,
      "loss/crossentropy": 2.2866714000701904,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21963119506835938,
      "step": 7478
    },
    {
      "epoch": 0.4675,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0102935791015625,
      "learning_rate": 0.0001,
      "loss": 7.0201,
      "loss/crossentropy": 2.419238805770874,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21799220889806747,
      "step": 7480
    },
    {
      "epoch": 0.467625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0093658447265625,
      "learning_rate": 0.0001,
      "loss": 7.0075,
      "loss/crossentropy": 2.33626389503479,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20474457740783691,
      "step": 7482
    },
    {
      "epoch": 0.46775,
      "grad_norm": 2.0,
      "grad_norm_var": 0.009691365559895833,
      "learning_rate": 0.0001,
      "loss": 7.1476,
      "loss/crossentropy": 2.276577591896057,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2041800171136856,
      "step": 7484
    },
    {
      "epoch": 0.467875,
      "grad_norm": 2.375,
      "grad_norm_var": 0.008202107747395833,
      "learning_rate": 0.0001,
      "loss": 7.1914,
      "loss/crossentropy": 2.279148817062378,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21196125447750092,
      "step": 7486
    },
    {
      "epoch": 0.468,
      "grad_norm": 1.921875,
      "grad_norm_var": 0.01376953125,
      "learning_rate": 0.0001,
      "loss": 7.0034,
      "loss/crossentropy": 2.241237759590149,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19696836173534393,
      "step": 7488
    },
    {
      "epoch": 0.468125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.01412353515625,
      "learning_rate": 0.0001,
      "loss": 7.1467,
      "loss/crossentropy": 2.1839855909347534,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19702082127332687,
      "step": 7490
    },
    {
      "epoch": 0.46825,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.013988240559895834,
      "learning_rate": 0.0001,
      "loss": 7.133,
      "loss/crossentropy": 2.1689497232437134,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2228970304131508,
      "step": 7492
    },
    {
      "epoch": 0.468375,
      "grad_norm": 2.25,
      "grad_norm_var": 0.013060506184895833,
      "learning_rate": 0.0001,
      "loss": 7.1162,
      "loss/crossentropy": 2.161349654197693,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21048546582460403,
      "step": 7494
    },
    {
      "epoch": 0.4685,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.016910807291666666,
      "learning_rate": 0.0001,
      "loss": 7.1184,
      "loss/crossentropy": 2.362098455429077,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20488198101520538,
      "step": 7496
    },
    {
      "epoch": 0.468625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.0183502197265625,
      "learning_rate": 0.0001,
      "loss": 6.9562,
      "loss/crossentropy": 1.9627411365509033,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19364163279533386,
      "step": 7498
    },
    {
      "epoch": 0.46875,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.01845703125,
      "learning_rate": 0.0001,
      "loss": 7.062,
      "loss/crossentropy": 2.4354528188705444,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21706019341945648,
      "step": 7500
    },
    {
      "epoch": 0.468875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.04521484375,
      "learning_rate": 0.0001,
      "loss": 7.2507,
      "loss/crossentropy": 2.263838768005371,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20706459134817123,
      "step": 7502
    },
    {
      "epoch": 0.469,
      "grad_norm": 2.375,
      "grad_norm_var": 0.0410552978515625,
      "learning_rate": 0.0001,
      "loss": 6.9699,
      "loss/crossentropy": 2.2720807790756226,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21732699871063232,
      "step": 7504
    },
    {
      "epoch": 0.469125,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.0393707275390625,
      "learning_rate": 0.0001,
      "loss": 7.3032,
      "loss/crossentropy": 2.527849555015564,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2073214203119278,
      "step": 7506
    },
    {
      "epoch": 0.46925,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0349761962890625,
      "learning_rate": 0.0001,
      "loss": 7.1871,
      "loss/crossentropy": 2.335466742515564,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21534393727779388,
      "step": 7508
    },
    {
      "epoch": 0.469375,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.04195556640625,
      "learning_rate": 0.0001,
      "loss": 7.0814,
      "loss/crossentropy": 2.4958906173706055,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20870383828878403,
      "step": 7510
    },
    {
      "epoch": 0.4695,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.046567535400390624,
      "learning_rate": 0.0001,
      "loss": 7.1191,
      "loss/crossentropy": 2.233251214027405,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19957691431045532,
      "step": 7512
    },
    {
      "epoch": 0.469625,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.04698867797851562,
      "learning_rate": 0.0001,
      "loss": 7.2159,
      "loss/crossentropy": 2.1861671209335327,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2184196561574936,
      "step": 7514
    },
    {
      "epoch": 0.46975,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.041473134358723955,
      "learning_rate": 0.0001,
      "loss": 7.288,
      "loss/crossentropy": 2.273300290107727,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2080041542649269,
      "step": 7516
    },
    {
      "epoch": 0.469875,
      "grad_norm": 1.921875,
      "grad_norm_var": 0.02493260701497396,
      "learning_rate": 0.0001,
      "loss": 7.1214,
      "loss/crossentropy": 2.286626935005188,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23020273447036743,
      "step": 7518
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.25,
      "grad_norm_var": 0.01982599894205729,
      "learning_rate": 0.0001,
      "loss": 7.1163,
      "loss/crossentropy": 2.25377357006073,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19812580943107605,
      "step": 7520
    },
    {
      "epoch": 0.470125,
      "grad_norm": 2.25,
      "grad_norm_var": 0.01633478800455729,
      "learning_rate": 0.0001,
      "loss": 6.9896,
      "loss/crossentropy": 2.268404960632324,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22042839229106903,
      "step": 7522
    },
    {
      "epoch": 0.47025,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.016017405192057292,
      "learning_rate": 0.0001,
      "loss": 7.0678,
      "loss/crossentropy": 2.1755711436271667,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21114220470190048,
      "step": 7524
    },
    {
      "epoch": 0.470375,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.017093658447265625,
      "learning_rate": 0.0001,
      "loss": 7.1598,
      "loss/crossentropy": 2.4401893615722656,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.22914503514766693,
      "step": 7526
    },
    {
      "epoch": 0.4705,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.01617431640625,
      "learning_rate": 0.0001,
      "loss": 7.2893,
      "loss/crossentropy": 2.613025188446045,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21846508979797363,
      "step": 7528
    },
    {
      "epoch": 0.470625,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.019331868489583334,
      "learning_rate": 0.0001,
      "loss": 7.2158,
      "loss/crossentropy": 2.3140453100204468,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22654858231544495,
      "step": 7530
    },
    {
      "epoch": 0.47075,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0232330322265625,
      "learning_rate": 0.0001,
      "loss": 7.0316,
      "loss/crossentropy": 2.0402657985687256,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18750952184200287,
      "step": 7532
    },
    {
      "epoch": 0.470875,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.01988525390625,
      "learning_rate": 0.0001,
      "loss": 7.1331,
      "loss/crossentropy": 2.567373514175415,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22395136952400208,
      "step": 7534
    },
    {
      "epoch": 0.471,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.023465983072916665,
      "learning_rate": 0.0001,
      "loss": 7.2494,
      "loss/crossentropy": 2.3188188076019287,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21441180258989334,
      "step": 7536
    },
    {
      "epoch": 0.471125,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.02314453125,
      "learning_rate": 0.0001,
      "loss": 7.0734,
      "loss/crossentropy": 2.2127068042755127,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1956922933459282,
      "step": 7538
    },
    {
      "epoch": 0.47125,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.021028645833333335,
      "learning_rate": 0.0001,
      "loss": 6.9942,
      "loss/crossentropy": 2.3275548219680786,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21980319917201996,
      "step": 7540
    },
    {
      "epoch": 0.471375,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.02574462890625,
      "learning_rate": 0.0001,
      "loss": 7.2398,
      "loss/crossentropy": 2.232550859451294,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18873104453086853,
      "step": 7542
    },
    {
      "epoch": 0.4715,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.026496378580729167,
      "learning_rate": 0.0001,
      "loss": 7.1301,
      "loss/crossentropy": 2.1725897789001465,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.20075791329145432,
      "step": 7544
    },
    {
      "epoch": 0.471625,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.023665364583333334,
      "learning_rate": 0.0001,
      "loss": 7.0794,
      "loss/crossentropy": 2.0849578976631165,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20648343861103058,
      "step": 7546
    },
    {
      "epoch": 0.47175,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.020296223958333335,
      "learning_rate": 0.0001,
      "loss": 7.0611,
      "loss/crossentropy": 2.085715174674988,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2036331295967102,
      "step": 7548
    },
    {
      "epoch": 0.471875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.019319661458333335,
      "learning_rate": 0.0001,
      "loss": 7.1509,
      "loss/crossentropy": 1.9772019982337952,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19998165220022202,
      "step": 7550
    },
    {
      "epoch": 0.472,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.016141764322916665,
      "learning_rate": 0.0001,
      "loss": 7.0461,
      "loss/crossentropy": 2.2595661878585815,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20990056544542313,
      "step": 7552
    },
    {
      "epoch": 0.472125,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.016673787434895834,
      "learning_rate": 0.0001,
      "loss": 7.0228,
      "loss/crossentropy": 2.2455222606658936,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2194531187415123,
      "step": 7554
    },
    {
      "epoch": 0.47225,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.014567057291666666,
      "learning_rate": 0.0001,
      "loss": 7.1894,
      "loss/crossentropy": 2.240777611732483,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20595575124025345,
      "step": 7556
    },
    {
      "epoch": 0.472375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.008161417643229167,
      "learning_rate": 0.0001,
      "loss": 7.06,
      "loss/crossentropy": 2.1476142406463623,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18031620979309082,
      "step": 7558
    },
    {
      "epoch": 0.4725,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.008275349934895834,
      "learning_rate": 0.0001,
      "loss": 7.0674,
      "loss/crossentropy": 2.2802597284317017,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20469427108764648,
      "step": 7560
    },
    {
      "epoch": 0.472625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.007645670572916667,
      "learning_rate": 0.0001,
      "loss": 7.0796,
      "loss/crossentropy": 2.3202688694000244,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2028881385922432,
      "step": 7562
    },
    {
      "epoch": 0.47275,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.00732421875,
      "learning_rate": 0.0001,
      "loss": 7.0198,
      "loss/crossentropy": 2.185010552406311,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22524073719978333,
      "step": 7564
    },
    {
      "epoch": 0.472875,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.01376953125,
      "learning_rate": 0.0001,
      "loss": 7.1435,
      "loss/crossentropy": 2.1675198078155518,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.19807401299476624,
      "step": 7566
    },
    {
      "epoch": 0.473,
      "grad_norm": 1.890625,
      "grad_norm_var": 0.016803995768229166,
      "learning_rate": 0.0001,
      "loss": 7.0201,
      "loss/crossentropy": 2.437238574028015,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2327703759074211,
      "step": 7568
    },
    {
      "epoch": 0.473125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0144927978515625,
      "learning_rate": 0.0001,
      "loss": 6.9488,
      "loss/crossentropy": 2.4254690408706665,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21333793550729752,
      "step": 7570
    },
    {
      "epoch": 0.47325,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.016276041666666668,
      "learning_rate": 0.0001,
      "loss": 7.3178,
      "loss/crossentropy": 2.5538944005966187,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21501559019088745,
      "step": 7572
    },
    {
      "epoch": 0.473375,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.01484375,
      "learning_rate": 0.0001,
      "loss": 7.1061,
      "loss/crossentropy": 2.2689521312713623,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19831790030002594,
      "step": 7574
    },
    {
      "epoch": 0.4735,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.015523274739583334,
      "learning_rate": 0.0001,
      "loss": 7.0325,
      "loss/crossentropy": 1.871632695198059,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19257056713104248,
      "step": 7576
    },
    {
      "epoch": 0.473625,
      "grad_norm": 1.953125,
      "grad_norm_var": 0.017496744791666668,
      "learning_rate": 0.0001,
      "loss": 7.165,
      "loss/crossentropy": 2.2190489768981934,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20526662468910217,
      "step": 7578
    },
    {
      "epoch": 0.47375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.017316691080729165,
      "learning_rate": 0.0001,
      "loss": 7.3,
      "loss/crossentropy": 2.4316731691360474,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21631304919719696,
      "step": 7580
    },
    {
      "epoch": 0.473875,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.009273274739583334,
      "learning_rate": 0.0001,
      "loss": 7.1383,
      "loss/crossentropy": 2.157890558242798,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18887675553560257,
      "step": 7582
    },
    {
      "epoch": 0.474,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.007763671875,
      "learning_rate": 0.0001,
      "loss": 7.1594,
      "loss/crossentropy": 2.0798093676567078,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2017417550086975,
      "step": 7584
    },
    {
      "epoch": 0.474125,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.01455078125,
      "learning_rate": 0.0001,
      "loss": 7.2126,
      "loss/crossentropy": 2.38494336605072,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22561874240636826,
      "step": 7586
    },
    {
      "epoch": 0.47425,
      "grad_norm": 2.125,
      "grad_norm_var": 0.018294270833333334,
      "learning_rate": 0.0001,
      "loss": 7.2926,
      "loss/crossentropy": 2.4800193309783936,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2282564714550972,
      "step": 7588
    },
    {
      "epoch": 0.474375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.02139460245768229,
      "learning_rate": 0.0001,
      "loss": 7.0307,
      "loss/crossentropy": 2.2453829050064087,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21037797629833221,
      "step": 7590
    },
    {
      "epoch": 0.4745,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.021469879150390624,
      "learning_rate": 0.0001,
      "loss": 7.208,
      "loss/crossentropy": 2.2749218940734863,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2083357498049736,
      "step": 7592
    },
    {
      "epoch": 0.474625,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.019608306884765624,
      "learning_rate": 0.0001,
      "loss": 7.0957,
      "loss/crossentropy": 2.182799458503723,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18513298779726028,
      "step": 7594
    },
    {
      "epoch": 0.47475,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.020304107666015626,
      "learning_rate": 0.0001,
      "loss": 7.0361,
      "loss/crossentropy": 2.3911205530166626,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20220442116260529,
      "step": 7596
    },
    {
      "epoch": 0.474875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.019712066650390624,
      "learning_rate": 0.0001,
      "loss": 7.2206,
      "loss/crossentropy": 2.3215757608413696,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2056894525885582,
      "step": 7598
    },
    {
      "epoch": 0.475,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.019589996337890624,
      "learning_rate": 0.0001,
      "loss": 7.1877,
      "loss/crossentropy": 2.3881407976150513,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2328326404094696,
      "step": 7600
    },
    {
      "epoch": 0.475125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.01568578084309896,
      "learning_rate": 0.0001,
      "loss": 6.955,
      "loss/crossentropy": 2.414221405982971,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20993871241807938,
      "step": 7602
    },
    {
      "epoch": 0.47525,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.012276204427083333,
      "learning_rate": 0.0001,
      "loss": 7.0465,
      "loss/crossentropy": 2.051502525806427,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18645334243774414,
      "step": 7604
    },
    {
      "epoch": 0.475375,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.010241444905598958,
      "learning_rate": 0.0001,
      "loss": 7.1153,
      "loss/crossentropy": 2.0045130848884583,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.206765778362751,
      "step": 7606
    },
    {
      "epoch": 0.4755,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.008538564046223959,
      "learning_rate": 0.0001,
      "loss": 7.0222,
      "loss/crossentropy": 2.3240236043930054,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19366633147001266,
      "step": 7608
    },
    {
      "epoch": 0.475625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.007956695556640626,
      "learning_rate": 0.0001,
      "loss": 7.0812,
      "loss/crossentropy": 1.9922118186950684,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20807665586471558,
      "step": 7610
    },
    {
      "epoch": 0.47575,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.010909016927083333,
      "learning_rate": 0.0001,
      "loss": 7.0856,
      "loss/crossentropy": 1.825062870979309,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1701940894126892,
      "step": 7612
    },
    {
      "epoch": 0.475875,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0108642578125,
      "learning_rate": 0.0001,
      "loss": 7.2186,
      "loss/crossentropy": 2.29690420627594,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20619598031044006,
      "step": 7614
    },
    {
      "epoch": 0.476,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.010941569010416667,
      "learning_rate": 0.0001,
      "loss": 7.2496,
      "loss/crossentropy": 2.193692684173584,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20736318081617355,
      "step": 7616
    },
    {
      "epoch": 0.476125,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.010741170247395833,
      "learning_rate": 0.0001,
      "loss": 7.0215,
      "loss/crossentropy": 2.1778957843780518,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20710615813732147,
      "step": 7618
    },
    {
      "epoch": 0.47625,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.010237375895182291,
      "learning_rate": 0.0001,
      "loss": 7.0398,
      "loss/crossentropy": 2.1610811948776245,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19665740430355072,
      "step": 7620
    },
    {
      "epoch": 0.476375,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.008137766520182292,
      "learning_rate": 0.0001,
      "loss": 7.1509,
      "loss/crossentropy": 2.0157353281974792,
      "loss/hidden": 2.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19302255660295486,
      "step": 7622
    },
    {
      "epoch": 0.4765,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.007816314697265625,
      "learning_rate": 0.0001,
      "loss": 7.122,
      "loss/crossentropy": 2.2813684940338135,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20449642091989517,
      "step": 7624
    },
    {
      "epoch": 0.476625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.007500966389973958,
      "learning_rate": 0.0001,
      "loss": 6.9673,
      "loss/crossentropy": 2.1194839477539062,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19238164275884628,
      "step": 7626
    },
    {
      "epoch": 0.47675,
      "grad_norm": 2.640625,
      "grad_norm_var": 0.02554931640625,
      "learning_rate": 0.0001,
      "loss": 7.1515,
      "loss/crossentropy": 2.177587628364563,
      "loss/hidden": 2.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.207644984126091,
      "step": 7628
    },
    {
      "epoch": 0.476875,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.02942479451497396,
      "learning_rate": 0.0001,
      "loss": 7.0191,
      "loss/crossentropy": 2.3335689306259155,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21252815425395966,
      "step": 7630
    },
    {
      "epoch": 0.477,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.02950007120768229,
      "learning_rate": 0.0001,
      "loss": 7.1822,
      "loss/crossentropy": 2.325187921524048,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21348048746585846,
      "step": 7632
    },
    {
      "epoch": 0.477125,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.029325103759765624,
      "learning_rate": 0.0001,
      "loss": 7.1423,
      "loss/crossentropy": 2.287824869155884,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20349889993667603,
      "step": 7634
    },
    {
      "epoch": 0.47725,
      "grad_norm": 2.0,
      "grad_norm_var": 0.028574371337890626,
      "learning_rate": 0.0001,
      "loss": 7.0346,
      "loss/crossentropy": 2.2881882190704346,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1959080845117569,
      "step": 7636
    },
    {
      "epoch": 0.477375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.029842122395833334,
      "learning_rate": 0.0001,
      "loss": 7.1162,
      "loss/crossentropy": 2.3250468969345093,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1951511949300766,
      "step": 7638
    },
    {
      "epoch": 0.4775,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.030036417643229167,
      "learning_rate": 0.0001,
      "loss": 7.3131,
      "loss/crossentropy": 2.1652873754501343,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20676423609256744,
      "step": 7640
    },
    {
      "epoch": 0.477625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0290924072265625,
      "learning_rate": 0.0001,
      "loss": 7.1448,
      "loss/crossentropy": 2.1286062598228455,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20646179467439651,
      "step": 7642
    },
    {
      "epoch": 0.47775,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.0110107421875,
      "learning_rate": 0.0001,
      "loss": 7.0397,
      "loss/crossentropy": 2.2193092107772827,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20696381479501724,
      "step": 7644
    },
    {
      "epoch": 0.477875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.006876373291015625,
      "learning_rate": 0.0001,
      "loss": 7.2361,
      "loss/crossentropy": 2.1308083534240723,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1990327164530754,
      "step": 7646
    },
    {
      "epoch": 0.478,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.006748199462890625,
      "learning_rate": 0.0001,
      "loss": 7.2022,
      "loss/crossentropy": 2.4250513315200806,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22592860460281372,
      "step": 7648
    },
    {
      "epoch": 0.478125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.006650543212890625,
      "learning_rate": 0.0001,
      "loss": 7.1834,
      "loss/crossentropy": 2.297890782356262,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2043851688504219,
      "step": 7650
    },
    {
      "epoch": 0.47825,
      "grad_norm": 2.375,
      "grad_norm_var": 0.011191558837890626,
      "learning_rate": 0.0001,
      "loss": 6.9906,
      "loss/crossentropy": 2.03427255153656,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18367985635995865,
      "step": 7652
    },
    {
      "epoch": 0.478375,
      "grad_norm": 1.8671875,
      "grad_norm_var": 0.015474192301432292,
      "learning_rate": 0.0001,
      "loss": 7.0992,
      "loss/crossentropy": 2.3343425989151,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.210361510515213,
      "step": 7654
    },
    {
      "epoch": 0.4785,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.015152740478515624,
      "learning_rate": 0.0001,
      "loss": 6.9502,
      "loss/crossentropy": 2.5432735681533813,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2085108458995819,
      "step": 7656
    },
    {
      "epoch": 0.478625,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.014745839436848958,
      "learning_rate": 0.0001,
      "loss": 7.1265,
      "loss/crossentropy": 2.376760482788086,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21046151965856552,
      "step": 7658
    },
    {
      "epoch": 0.47875,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.014564768473307291,
      "learning_rate": 0.0001,
      "loss": 7.091,
      "loss/crossentropy": 2.1871683597564697,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20009056478738785,
      "step": 7660
    },
    {
      "epoch": 0.478875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.015600331624348958,
      "learning_rate": 0.0001,
      "loss": 7.0751,
      "loss/crossentropy": 2.1381759643554688,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20151401311159134,
      "step": 7662
    },
    {
      "epoch": 0.479,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.015228017171223959,
      "learning_rate": 0.0001,
      "loss": 7.1749,
      "loss/crossentropy": 2.204997420310974,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20210929214954376,
      "step": 7664
    },
    {
      "epoch": 0.479125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.021683502197265624,
      "learning_rate": 0.0001,
      "loss": 7.1606,
      "loss/crossentropy": 2.5145864486694336,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24845977127552032,
      "step": 7666
    },
    {
      "epoch": 0.47925,
      "grad_norm": 2.125,
      "grad_norm_var": 0.014534250895182291,
      "learning_rate": 0.0001,
      "loss": 7.0797,
      "loss/crossentropy": 2.1923307180404663,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19743437319993973,
      "step": 7668
    },
    {
      "epoch": 0.479375,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.010326131184895834,
      "learning_rate": 0.0001,
      "loss": 7.1655,
      "loss/crossentropy": 2.2290977239608765,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18826957046985626,
      "step": 7670
    },
    {
      "epoch": 0.4795,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.0140777587890625,
      "learning_rate": 0.0001,
      "loss": 7.0097,
      "loss/crossentropy": 2.1928118467330933,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20673301815986633,
      "step": 7672
    },
    {
      "epoch": 0.479625,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.013825480143229167,
      "learning_rate": 0.0001,
      "loss": 7.1607,
      "loss/crossentropy": 2.399188995361328,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21841491758823395,
      "step": 7674
    },
    {
      "epoch": 0.47975,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.01598078409830729,
      "learning_rate": 0.0001,
      "loss": 7.1132,
      "loss/crossentropy": 2.001654326915741,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17933339625597,
      "step": 7676
    },
    {
      "epoch": 0.479875,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.01590550740559896,
      "learning_rate": 0.0001,
      "loss": 7.0738,
      "loss/crossentropy": 2.2801817655563354,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19666346907615662,
      "step": 7678
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.015582021077473958,
      "learning_rate": 0.0001,
      "loss": 7.1026,
      "loss/crossentropy": 2.081633687019348,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19271892309188843,
      "step": 7680
    },
    {
      "epoch": 0.480125,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.008813222249348959,
      "learning_rate": 0.0001,
      "loss": 7.211,
      "loss/crossentropy": 2.392168879508972,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18299797177314758,
      "step": 7682
    },
    {
      "epoch": 0.48025,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.010147857666015624,
      "learning_rate": 0.0001,
      "loss": 7.3303,
      "loss/crossentropy": 2.3119935989379883,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23662632703781128,
      "step": 7684
    },
    {
      "epoch": 0.480375,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.009919230143229167,
      "learning_rate": 0.0001,
      "loss": 7.0347,
      "loss/crossentropy": 2.2318339347839355,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21657077223062515,
      "step": 7686
    },
    {
      "epoch": 0.4805,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.007819620768229167,
      "learning_rate": 0.0001,
      "loss": 6.9663,
      "loss/crossentropy": 2.1833382844924927,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21761953830718994,
      "step": 7688
    },
    {
      "epoch": 0.480625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.006322224934895833,
      "learning_rate": 0.0001,
      "loss": 7.0488,
      "loss/crossentropy": 2.134721040725708,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1840914860367775,
      "step": 7690
    },
    {
      "epoch": 0.48075,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.006231435139973958,
      "learning_rate": 0.0001,
      "loss": 7.0641,
      "loss/crossentropy": 2.2247310876846313,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22055795043706894,
      "step": 7692
    },
    {
      "epoch": 0.480875,
      "grad_norm": 1.9609375,
      "grad_norm_var": 0.007892862955729166,
      "learning_rate": 0.0001,
      "loss": 7.0667,
      "loss/crossentropy": 2.27902615070343,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21320205926895142,
      "step": 7694
    },
    {
      "epoch": 0.481,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.007950846354166667,
      "learning_rate": 0.0001,
      "loss": 7.0584,
      "loss/crossentropy": 2.0421899557113647,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1877262145280838,
      "step": 7696
    },
    {
      "epoch": 0.481125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.0074615478515625,
      "learning_rate": 0.0001,
      "loss": 7.0576,
      "loss/crossentropy": 2.2370803356170654,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20086784660816193,
      "step": 7698
    },
    {
      "epoch": 0.48125,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.0062652587890625,
      "learning_rate": 0.0001,
      "loss": 7.141,
      "loss/crossentropy": 2.2639442682266235,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20139917731285095,
      "step": 7700
    },
    {
      "epoch": 0.481375,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.005944569905598958,
      "learning_rate": 0.0001,
      "loss": 7.0808,
      "loss/crossentropy": 2.308246374130249,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2012246772646904,
      "step": 7702
    },
    {
      "epoch": 0.4815,
      "grad_norm": 2.25,
      "grad_norm_var": 0.007452138264973958,
      "learning_rate": 0.0001,
      "loss": 7.1243,
      "loss/crossentropy": 2.406078815460205,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20916583389043808,
      "step": 7704
    },
    {
      "epoch": 0.481625,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.013730621337890625,
      "learning_rate": 0.0001,
      "loss": 7.0034,
      "loss/crossentropy": 2.3612505197525024,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2026866227388382,
      "step": 7706
    },
    {
      "epoch": 0.48175,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.014928944905598958,
      "learning_rate": 0.0001,
      "loss": 7.0391,
      "loss/crossentropy": 2.1469807028770447,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1992548406124115,
      "step": 7708
    },
    {
      "epoch": 0.481875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.012711588541666667,
      "learning_rate": 0.0001,
      "loss": 7.1218,
      "loss/crossentropy": 2.0821534991264343,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2098289653658867,
      "step": 7710
    },
    {
      "epoch": 0.482,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.015070597330729166,
      "learning_rate": 0.0001,
      "loss": 7.1686,
      "loss/crossentropy": 2.180022358894348,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21401400864124298,
      "step": 7712
    },
    {
      "epoch": 0.482125,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.014644368489583334,
      "learning_rate": 0.0001,
      "loss": 7.1485,
      "loss/crossentropy": 2.3946781158447266,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22900524735450745,
      "step": 7714
    },
    {
      "epoch": 0.48225,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.015360514322916666,
      "learning_rate": 0.0001,
      "loss": 7.1556,
      "loss/crossentropy": 2.135510504245758,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21871786564588547,
      "step": 7716
    },
    {
      "epoch": 0.482375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.014777628580729167,
      "learning_rate": 0.0001,
      "loss": 7.2415,
      "loss/crossentropy": 2.286018133163452,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21493077278137207,
      "step": 7718
    },
    {
      "epoch": 0.4825,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.017748006184895835,
      "learning_rate": 0.0001,
      "loss": 7.0218,
      "loss/crossentropy": 2.0190805792808533,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20633917301893234,
      "step": 7720
    },
    {
      "epoch": 0.482625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.0145660400390625,
      "learning_rate": 0.0001,
      "loss": 7.1712,
      "loss/crossentropy": 2.0265942811965942,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20769783109426498,
      "step": 7722
    },
    {
      "epoch": 0.48275,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.011454264322916666,
      "learning_rate": 0.0001,
      "loss": 6.9481,
      "loss/crossentropy": 2.119886040687561,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19638077169656754,
      "step": 7724
    },
    {
      "epoch": 0.482875,
      "grad_norm": 2.125,
      "grad_norm_var": 0.009696451822916667,
      "learning_rate": 0.0001,
      "loss": 7.1273,
      "loss/crossentropy": 2.1580886840820312,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1923273205757141,
      "step": 7726
    },
    {
      "epoch": 0.483,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.009137980143229167,
      "learning_rate": 0.0001,
      "loss": 7.0008,
      "loss/crossentropy": 2.1663527488708496,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20339468121528625,
      "step": 7728
    },
    {
      "epoch": 0.483125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.008576456705729167,
      "learning_rate": 0.0001,
      "loss": 7.2413,
      "loss/crossentropy": 2.182821273803711,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21904577314853668,
      "step": 7730
    },
    {
      "epoch": 0.48325,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.008919270833333333,
      "learning_rate": 0.0001,
      "loss": 7.1494,
      "loss/crossentropy": 2.373465061187744,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2193896695971489,
      "step": 7732
    },
    {
      "epoch": 0.483375,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.0124176025390625,
      "learning_rate": 0.0001,
      "loss": 6.9891,
      "loss/crossentropy": 2.6929373741149902,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21133850514888763,
      "step": 7734
    },
    {
      "epoch": 0.4835,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.0075185139973958336,
      "learning_rate": 0.0001,
      "loss": 7.241,
      "loss/crossentropy": 2.153095006942749,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2049623802304268,
      "step": 7736
    },
    {
      "epoch": 0.483625,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.010358683268229167,
      "learning_rate": 0.0001,
      "loss": 7.2583,
      "loss/crossentropy": 2.349102020263672,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20283705741167068,
      "step": 7738
    },
    {
      "epoch": 0.48375,
      "grad_norm": 2.0,
      "grad_norm_var": 0.0125152587890625,
      "learning_rate": 0.0001,
      "loss": 7.0513,
      "loss/crossentropy": 2.5229681730270386,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22544901072978973,
      "step": 7740
    },
    {
      "epoch": 0.483875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.0131744384765625,
      "learning_rate": 0.0001,
      "loss": 7.2253,
      "loss/crossentropy": 2.4761338233947754,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20555153489112854,
      "step": 7742
    },
    {
      "epoch": 0.484,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.016153971354166668,
      "learning_rate": 0.0001,
      "loss": 7.1065,
      "loss/crossentropy": 2.6251370906829834,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2124454379081726,
      "step": 7744
    },
    {
      "epoch": 0.484125,
      "grad_norm": 1.8828125,
      "grad_norm_var": 0.02028376261393229,
      "learning_rate": 0.0001,
      "loss": 6.936,
      "loss/crossentropy": 2.269635319709778,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21971495449543,
      "step": 7746
    },
    {
      "epoch": 0.48425,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.02039159138997396,
      "learning_rate": 0.0001,
      "loss": 7.0399,
      "loss/crossentropy": 1.855255365371704,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17584873735904694,
      "step": 7748
    },
    {
      "epoch": 0.484375,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.017459869384765625,
      "learning_rate": 0.0001,
      "loss": 7.079,
      "loss/crossentropy": 2.198126792907715,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20961421728134155,
      "step": 7750
    },
    {
      "epoch": 0.4845,
      "grad_norm": 2.125,
      "grad_norm_var": 0.016137440999348957,
      "learning_rate": 0.0001,
      "loss": 7.0269,
      "loss/crossentropy": 1.967193365097046,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19744029641151428,
      "step": 7752
    },
    {
      "epoch": 0.484625,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.014597320556640625,
      "learning_rate": 0.0001,
      "loss": 7.0634,
      "loss/crossentropy": 2.325754761695862,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.20395881682634354,
      "step": 7754
    },
    {
      "epoch": 0.48475,
      "grad_norm": 1.9609375,
      "grad_norm_var": 0.014699045817057292,
      "learning_rate": 0.0001,
      "loss": 7.0538,
      "loss/crossentropy": 2.288987159729004,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2305854633450508,
      "step": 7756
    },
    {
      "epoch": 0.484875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.015207672119140625,
      "learning_rate": 0.0001,
      "loss": 7.3086,
      "loss/crossentropy": 2.116866946220398,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21432197093963623,
      "step": 7758
    },
    {
      "epoch": 0.485,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.011791737874348958,
      "learning_rate": 0.0001,
      "loss": 7.2918,
      "loss/crossentropy": 2.250456213951111,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22191955149173737,
      "step": 7760
    },
    {
      "epoch": 0.485125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.011043294270833334,
      "learning_rate": 0.0001,
      "loss": 7.1073,
      "loss/crossentropy": 2.2381151914596558,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20548705756664276,
      "step": 7762
    },
    {
      "epoch": 0.48525,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.011278279622395833,
      "learning_rate": 0.0001,
      "loss": 7.0467,
      "loss/crossentropy": 2.271865129470825,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20705430209636688,
      "step": 7764
    },
    {
      "epoch": 0.485375,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.0121978759765625,
      "learning_rate": 0.0001,
      "loss": 7.1154,
      "loss/crossentropy": 2.157663583755493,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19460859149694443,
      "step": 7766
    },
    {
      "epoch": 0.4855,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0123779296875,
      "learning_rate": 0.0001,
      "loss": 7.1723,
      "loss/crossentropy": 2.1781057119369507,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.221711665391922,
      "step": 7768
    },
    {
      "epoch": 0.485625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.0119049072265625,
      "learning_rate": 0.0001,
      "loss": 7.0052,
      "loss/crossentropy": 2.017356812953949,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1983555629849434,
      "step": 7770
    },
    {
      "epoch": 0.48575,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.011551920572916667,
      "learning_rate": 0.0001,
      "loss": 7.0771,
      "loss/crossentropy": 2.2357795238494873,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20853830128908157,
      "step": 7772
    },
    {
      "epoch": 0.485875,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.016551717122395834,
      "learning_rate": 0.0001,
      "loss": 7.1366,
      "loss/crossentropy": 2.2986165285110474,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22572917491197586,
      "step": 7774
    },
    {
      "epoch": 0.486,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.01666259765625,
      "learning_rate": 0.0001,
      "loss": 7.2861,
      "loss/crossentropy": 2.2475717067718506,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21900728344917297,
      "step": 7776
    },
    {
      "epoch": 0.486125,
      "grad_norm": 2.0,
      "grad_norm_var": 0.015201822916666666,
      "learning_rate": 0.0001,
      "loss": 7.047,
      "loss/crossentropy": 2.310316801071167,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20573000609874725,
      "step": 7778
    },
    {
      "epoch": 0.48625,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.0154449462890625,
      "learning_rate": 0.0001,
      "loss": 7.0287,
      "loss/crossentropy": 1.9829546213150024,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2091880813241005,
      "step": 7780
    },
    {
      "epoch": 0.486375,
      "grad_norm": 1.953125,
      "grad_norm_var": 0.017392730712890624,
      "learning_rate": 0.0001,
      "loss": 6.9216,
      "loss/crossentropy": 2.3593095541000366,
      "loss/hidden": 2.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19612394273281097,
      "step": 7782
    },
    {
      "epoch": 0.4865,
      "grad_norm": 2.25,
      "grad_norm_var": 0.020623524983723957,
      "learning_rate": 0.0001,
      "loss": 7.1751,
      "loss/crossentropy": 2.493327498435974,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23639556765556335,
      "step": 7784
    },
    {
      "epoch": 0.486625,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.024253082275390626,
      "learning_rate": 0.0001,
      "loss": 7.0933,
      "loss/crossentropy": 2.37237012386322,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2250986099243164,
      "step": 7786
    },
    {
      "epoch": 0.48675,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.022658030192057293,
      "learning_rate": 0.0001,
      "loss": 7.1574,
      "loss/crossentropy": 2.3521467447280884,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21240167319774628,
      "step": 7788
    },
    {
      "epoch": 0.486875,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.016200510660807292,
      "learning_rate": 0.0001,
      "loss": 7.0604,
      "loss/crossentropy": 2.2158159017562866,
      "loss/hidden": 2.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19502168148756027,
      "step": 7790
    },
    {
      "epoch": 0.487,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.015488433837890624,
      "learning_rate": 0.0001,
      "loss": 7.2302,
      "loss/crossentropy": 2.2819695472717285,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2108946293592453,
      "step": 7792
    },
    {
      "epoch": 0.487125,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.015295155843098958,
      "learning_rate": 0.0001,
      "loss": 7.0113,
      "loss/crossentropy": 2.2795369625091553,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.20005237311124802,
      "step": 7794
    },
    {
      "epoch": 0.48725,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.015087636311848958,
      "learning_rate": 0.0001,
      "loss": 7.1739,
      "loss/crossentropy": 2.5151994228363037,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20011039823293686,
      "step": 7796
    },
    {
      "epoch": 0.487375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.013590494791666666,
      "learning_rate": 0.0001,
      "loss": 7.1157,
      "loss/crossentropy": 2.0404099225997925,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21494626998901367,
      "step": 7798
    },
    {
      "epoch": 0.4875,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.01080322265625,
      "learning_rate": 0.0001,
      "loss": 7.0035,
      "loss/crossentropy": 2.205460011959076,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20000936090946198,
      "step": 7800
    },
    {
      "epoch": 0.487625,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.008210245768229167,
      "learning_rate": 0.0001,
      "loss": 7.0885,
      "loss/crossentropy": 2.253046751022339,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19893667101860046,
      "step": 7802
    },
    {
      "epoch": 0.48775,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.010838826497395834,
      "learning_rate": 0.0001,
      "loss": 7.1092,
      "loss/crossentropy": 2.250741481781006,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19479040056467056,
      "step": 7804
    },
    {
      "epoch": 0.487875,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.010530598958333333,
      "learning_rate": 0.0001,
      "loss": 7.0907,
      "loss/crossentropy": 2.1254579424858093,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2081373631954193,
      "step": 7806
    },
    {
      "epoch": 0.488,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.01021728515625,
      "learning_rate": 0.0001,
      "loss": 6.9847,
      "loss/crossentropy": 2.2556028366088867,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.1956285983324051,
      "step": 7808
    },
    {
      "epoch": 0.488125,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.010749308268229167,
      "learning_rate": 0.0001,
      "loss": 6.8772,
      "loss/crossentropy": 2.0442580580711365,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1880321502685547,
      "step": 7810
    },
    {
      "epoch": 0.48825,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.011329905192057291,
      "learning_rate": 0.0001,
      "loss": 6.9359,
      "loss/crossentropy": 1.964568853378296,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21166903525590897,
      "step": 7812
    },
    {
      "epoch": 0.488375,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.010786692301432291,
      "learning_rate": 0.0001,
      "loss": 7.1827,
      "loss/crossentropy": 2.41512668132782,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.20831845700740814,
      "step": 7814
    },
    {
      "epoch": 0.4885,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.01175537109375,
      "learning_rate": 0.0001,
      "loss": 7.1273,
      "loss/crossentropy": 2.370983600616455,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20832911878824234,
      "step": 7816
    },
    {
      "epoch": 0.488625,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.0101806640625,
      "learning_rate": 0.0001,
      "loss": 7.0815,
      "loss/crossentropy": 2.3157626390457153,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1933603137731552,
      "step": 7818
    },
    {
      "epoch": 0.48875,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.008310699462890625,
      "learning_rate": 0.0001,
      "loss": 6.9595,
      "loss/crossentropy": 2.01755154132843,
      "loss/hidden": 2.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18479111790657043,
      "step": 7820
    },
    {
      "epoch": 0.488875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.008038075764973958,
      "learning_rate": 0.0001,
      "loss": 7.0953,
      "loss/crossentropy": 2.116927742958069,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1958414539694786,
      "step": 7822
    },
    {
      "epoch": 0.489,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.007977040608723958,
      "learning_rate": 0.0001,
      "loss": 7.1639,
      "loss/crossentropy": 2.151541829109192,
      "loss/hidden": 2.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1838311031460762,
      "step": 7824
    },
    {
      "epoch": 0.489125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0060727437337239586,
      "learning_rate": 0.0001,
      "loss": 7.053,
      "loss/crossentropy": 2.4051939249038696,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20532245934009552,
      "step": 7826
    },
    {
      "epoch": 0.48925,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.013841756184895833,
      "learning_rate": 0.0001,
      "loss": 7.1092,
      "loss/crossentropy": 2.3758574724197388,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2034212425351143,
      "step": 7828
    },
    {
      "epoch": 0.489375,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.014408365885416666,
      "learning_rate": 0.0001,
      "loss": 7.1397,
      "loss/crossentropy": 2.2068817019462585,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20511388778686523,
      "step": 7830
    },
    {
      "epoch": 0.4895,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.013342030843098958,
      "learning_rate": 0.0001,
      "loss": 7.1086,
      "loss/crossentropy": 2.3683449029922485,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22085585445165634,
      "step": 7832
    },
    {
      "epoch": 0.489625,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.016015370686848957,
      "learning_rate": 0.0001,
      "loss": 7.0163,
      "loss/crossentropy": 2.137399196624756,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18337388336658478,
      "step": 7834
    },
    {
      "epoch": 0.48975,
      "grad_norm": 2.125,
      "grad_norm_var": 0.014411417643229167,
      "learning_rate": 0.0001,
      "loss": 7.1261,
      "loss/crossentropy": 2.2942042350769043,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2159949615597725,
      "step": 7836
    },
    {
      "epoch": 0.489875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.014240519205729166,
      "learning_rate": 0.0001,
      "loss": 7.1013,
      "loss/crossentropy": 2.302956461906433,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22014276683330536,
      "step": 7838
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.015511067708333333,
      "learning_rate": 0.0001,
      "loss": 7.0424,
      "loss/crossentropy": 2.1671026945114136,
      "loss/hidden": 2.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18992354720830917,
      "step": 7840
    },
    {
      "epoch": 0.490125,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.017622629801432293,
      "learning_rate": 0.0001,
      "loss": 7.0956,
      "loss/crossentropy": 2.034866750240326,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.19620046019554138,
      "step": 7842
    },
    {
      "epoch": 0.49025,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.010016886393229167,
      "learning_rate": 0.0001,
      "loss": 7.1249,
      "loss/crossentropy": 2.373619318008423,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2142253741621971,
      "step": 7844
    },
    {
      "epoch": 0.490375,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.018211873372395833,
      "learning_rate": 0.0001,
      "loss": 7.1376,
      "loss/crossentropy": 2.135084390640259,
      "loss/hidden": 2.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20321637392044067,
      "step": 7846
    },
    {
      "epoch": 0.4905,
      "grad_norm": 1.9609375,
      "grad_norm_var": 0.02012914021809896,
      "learning_rate": 0.0001,
      "loss": 7.0496,
      "loss/crossentropy": 2.344667911529541,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2073012888431549,
      "step": 7848
    },
    {
      "epoch": 0.490625,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.018790435791015626,
      "learning_rate": 0.0001,
      "loss": 6.8819,
      "loss/crossentropy": 2.205102324485779,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19368459284305573,
      "step": 7850
    },
    {
      "epoch": 0.49075,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.01999079386393229,
      "learning_rate": 0.0001,
      "loss": 6.962,
      "loss/crossentropy": 2.0952929258346558,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19991254806518555,
      "step": 7852
    },
    {
      "epoch": 0.490875,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.02063776652018229,
      "learning_rate": 0.0001,
      "loss": 7.0236,
      "loss/crossentropy": 2.091593384742737,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20015785843133926,
      "step": 7854
    },
    {
      "epoch": 0.491,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.019758860270182293,
      "learning_rate": 0.0001,
      "loss": 7.1106,
      "loss/crossentropy": 2.1102964878082275,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20344851911067963,
      "step": 7856
    },
    {
      "epoch": 0.491125,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.020869954427083334,
      "learning_rate": 0.0001,
      "loss": 7.0628,
      "loss/crossentropy": 2.2350775003433228,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20482338964939117,
      "step": 7858
    },
    {
      "epoch": 0.49125,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.019779459635416666,
      "learning_rate": 0.0001,
      "loss": 7.1046,
      "loss/crossentropy": 1.9230089783668518,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19790837168693542,
      "step": 7860
    },
    {
      "epoch": 0.491375,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.0128662109375,
      "learning_rate": 0.0001,
      "loss": 7.0854,
      "loss/crossentropy": 2.5659754276275635,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20197945088148117,
      "step": 7862
    },
    {
      "epoch": 0.4915,
      "grad_norm": 2.328125,
      "grad_norm_var": 0.012967681884765625,
      "learning_rate": 0.0001,
      "loss": 7.2325,
      "loss/crossentropy": 2.4076273441314697,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21878042817115784,
      "step": 7864
    },
    {
      "epoch": 0.491625,
      "grad_norm": 2.25,
      "grad_norm_var": 0.013685862223307291,
      "learning_rate": 0.0001,
      "loss": 7.192,
      "loss/crossentropy": 2.3655115365982056,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2367181032896042,
      "step": 7866
    },
    {
      "epoch": 0.49175,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.03374201456705729,
      "learning_rate": 0.0001,
      "loss": 7.2599,
      "loss/crossentropy": 2.1696566343307495,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2092232033610344,
      "step": 7868
    },
    {
      "epoch": 0.491875,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.03148778279622396,
      "learning_rate": 0.0001,
      "loss": 7.2385,
      "loss/crossentropy": 2.376840353012085,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21353555470705032,
      "step": 7870
    },
    {
      "epoch": 0.492,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.03212865193684896,
      "learning_rate": 0.0001,
      "loss": 7.1475,
      "loss/crossentropy": 2.085893988609314,
      "loss/hidden": 2.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20016048848628998,
      "step": 7872
    },
    {
      "epoch": 0.492125,
      "grad_norm": 2.0,
      "grad_norm_var": 0.03144912719726563,
      "learning_rate": 0.0001,
      "loss": 7.0677,
      "loss/crossentropy": 2.2020708322525024,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20381900668144226,
      "step": 7874
    },
    {
      "epoch": 0.49225,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.029173787434895834,
      "learning_rate": 0.0001,
      "loss": 7.123,
      "loss/crossentropy": 2.22407865524292,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20843693614006042,
      "step": 7876
    },
    {
      "epoch": 0.492375,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.026432291666666666,
      "learning_rate": 0.0001,
      "loss": 7.2386,
      "loss/crossentropy": 2.563064932823181,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23229733109474182,
      "step": 7878
    },
    {
      "epoch": 0.4925,
      "grad_norm": 2.125,
      "grad_norm_var": 0.024800618489583332,
      "learning_rate": 0.0001,
      "loss": 7.1823,
      "loss/crossentropy": 2.2542184591293335,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20725636184215546,
      "step": 7880
    },
    {
      "epoch": 0.492625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.024430338541666666,
      "learning_rate": 0.0001,
      "loss": 7.051,
      "loss/crossentropy": 2.041069507598877,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20505793392658234,
      "step": 7882
    },
    {
      "epoch": 0.49275,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.0036529541015625,
      "learning_rate": 0.0001,
      "loss": 7.2277,
      "loss/crossentropy": 2.295996069908142,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20132000744342804,
      "step": 7884
    },
    {
      "epoch": 0.492875,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.0341949462890625,
      "learning_rate": 0.0001,
      "loss": 7.2021,
      "loss/crossentropy": 2.152729630470276,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21744219958782196,
      "step": 7886
    },
    {
      "epoch": 0.493,
      "grad_norm": 2.125,
      "grad_norm_var": 0.033324178059895834,
      "learning_rate": 0.0001,
      "loss": 7.0682,
      "loss/crossentropy": 2.158630609512329,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20471574366092682,
      "step": 7888
    },
    {
      "epoch": 0.493125,
      "grad_norm": 2.234375,
      "grad_norm_var": 0.030858357747395832,
      "learning_rate": 0.0001,
      "loss": 6.9869,
      "loss/crossentropy": 2.0892770290374756,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18370763957500458,
      "step": 7890
    },
    {
      "epoch": 0.49325,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.03192952473958333,
      "learning_rate": 0.0001,
      "loss": 7.1989,
      "loss/crossentropy": 2.492920398712158,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.218817800283432,
      "step": 7892
    },
    {
      "epoch": 0.493375,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.03240559895833333,
      "learning_rate": 0.0001,
      "loss": 7.1465,
      "loss/crossentropy": 2.3585835695266724,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.203622005879879,
      "step": 7894
    },
    {
      "epoch": 0.4935,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.03378499348958333,
      "learning_rate": 0.0001,
      "loss": 7.1171,
      "loss/crossentropy": 2.145370841026306,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19818150997161865,
      "step": 7896
    },
    {
      "epoch": 0.493625,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.03325093587239583,
      "learning_rate": 0.0001,
      "loss": 7.239,
      "loss/crossentropy": 2.408655047416687,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21892248839139938,
      "step": 7898
    },
    {
      "epoch": 0.49375,
      "grad_norm": 2.125,
      "grad_norm_var": 0.03749974568684896,
      "learning_rate": 0.0001,
      "loss": 7.0329,
      "loss/crossentropy": 2.255719542503357,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21674372255802155,
      "step": 7900
    },
    {
      "epoch": 0.493875,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.007592519124348958,
      "learning_rate": 0.0001,
      "loss": 7.1371,
      "loss/crossentropy": 2.2832452058792114,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2183477208018303,
      "step": 7902
    },
    {
      "epoch": 0.494,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.009100087483723958,
      "learning_rate": 0.0001,
      "loss": 7.1093,
      "loss/crossentropy": 2.5752521753311157,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22478312999010086,
      "step": 7904
    },
    {
      "epoch": 0.494125,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.008141835530598959,
      "learning_rate": 0.0001,
      "loss": 7.0139,
      "loss/crossentropy": 2.229183316230774,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.2103634625673294,
      "step": 7906
    },
    {
      "epoch": 0.49425,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.009653472900390625,
      "learning_rate": 0.0001,
      "loss": 7.1175,
      "loss/crossentropy": 2.100042998790741,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19252710044384003,
      "step": 7908
    },
    {
      "epoch": 0.494375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.013268788655598959,
      "learning_rate": 0.0001,
      "loss": 7.301,
      "loss/crossentropy": 2.3349530696868896,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22781674563884735,
      "step": 7910
    },
    {
      "epoch": 0.4945,
      "grad_norm": 2.0,
      "grad_norm_var": 0.013352203369140624,
      "learning_rate": 0.0001,
      "loss": 7.0135,
      "loss/crossentropy": 2.2375741004943848,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19559404999017715,
      "step": 7912
    },
    {
      "epoch": 0.494625,
      "grad_norm": 2.109375,
      "grad_norm_var": 0.012680816650390624,
      "learning_rate": 0.0001,
      "loss": 7.093,
      "loss/crossentropy": 2.447828769683838,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2270418256521225,
      "step": 7914
    },
    {
      "epoch": 0.49475,
      "grad_norm": 2.28125,
      "grad_norm_var": 0.012059529622395834,
      "learning_rate": 0.0001,
      "loss": 6.9899,
      "loss/crossentropy": 2.0814391374588013,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18889734894037247,
      "step": 7916
    },
    {
      "epoch": 0.494875,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.0132476806640625,
      "learning_rate": 0.0001,
      "loss": 7.1485,
      "loss/crossentropy": 2.4870957136154175,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21650540828704834,
      "step": 7918
    },
    {
      "epoch": 0.495,
      "grad_norm": 2.25,
      "grad_norm_var": 0.0121734619140625,
      "learning_rate": 0.0001,
      "loss": 7.0928,
      "loss/crossentropy": 2.1004719734191895,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19623607397079468,
      "step": 7920
    },
    {
      "epoch": 0.495125,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.0206207275390625,
      "learning_rate": 0.0001,
      "loss": 7.2285,
      "loss/crossentropy": 2.592145800590515,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20861030369997025,
      "step": 7922
    },
    {
      "epoch": 0.49525,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.021271769205729166,
      "learning_rate": 0.0001,
      "loss": 7.0363,
      "loss/crossentropy": 2.118270993232727,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19777195155620575,
      "step": 7924
    },
    {
      "epoch": 0.495375,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.0199615478515625,
      "learning_rate": 0.0001,
      "loss": 6.9582,
      "loss/crossentropy": 2.176929235458374,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21006185561418533,
      "step": 7926
    },
    {
      "epoch": 0.4955,
      "grad_norm": 2.03125,
      "grad_norm_var": 0.019074503580729166,
      "learning_rate": 0.0001,
      "loss": 7.0891,
      "loss/crossentropy": 2.425865054130554,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20186667144298553,
      "step": 7928
    },
    {
      "epoch": 0.495625,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.020685831705729168,
      "learning_rate": 0.0001,
      "loss": 7.0731,
      "loss/crossentropy": 2.2788286209106445,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20905498415231705,
      "step": 7930
    },
    {
      "epoch": 0.49575,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.019010416666666665,
      "learning_rate": 0.0001,
      "loss": 7.0084,
      "loss/crossentropy": 2.188755750656128,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.21286778151988983,
      "step": 7932
    },
    {
      "epoch": 0.495875,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.019416300455729167,
      "learning_rate": 0.0001,
      "loss": 6.9673,
      "loss/crossentropy": 2.3245939016342163,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22744500637054443,
      "step": 7934
    },
    {
      "epoch": 0.496,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.01890869140625,
      "learning_rate": 0.0001,
      "loss": 7.149,
      "loss/crossentropy": 2.371795654296875,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21272078156471252,
      "step": 7936
    },
    {
      "epoch": 0.496125,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.007624308268229167,
      "learning_rate": 0.0001,
      "loss": 6.9848,
      "loss/crossentropy": 2.1958614587783813,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21580558270215988,
      "step": 7938
    },
    {
      "epoch": 0.49625,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.007666015625,
      "learning_rate": 0.0001,
      "loss": 7.1961,
      "loss/crossentropy": 2.513580083847046,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.202760711312294,
      "step": 7940
    },
    {
      "epoch": 0.496375,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.00748291015625,
      "learning_rate": 0.0001,
      "loss": 7.1847,
      "loss/crossentropy": 1.978775680065155,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19025252759456635,
      "step": 7942
    },
    {
      "epoch": 0.4965,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.0118316650390625,
      "learning_rate": 0.0001,
      "loss": 6.9504,
      "loss/crossentropy": 2.2968384623527527,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21156945079565048,
      "step": 7944
    },
    {
      "epoch": 0.496625,
      "grad_norm": 2.90625,
      "grad_norm_var": 0.051774088541666666,
      "learning_rate": 0.0001,
      "loss": 7.197,
      "loss/crossentropy": 2.2490543127059937,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20457617938518524,
      "step": 7946
    },
    {
      "epoch": 0.49675,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.051488240559895836,
      "learning_rate": 0.0001,
      "loss": 7.0335,
      "loss/crossentropy": 2.0426313877105713,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21022196114063263,
      "step": 7948
    },
    {
      "epoch": 0.496875,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.0497222900390625,
      "learning_rate": 0.0001,
      "loss": 7.1089,
      "loss/crossentropy": 2.0203962326049805,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1993423029780388,
      "step": 7950
    },
    {
      "epoch": 0.497,
      "grad_norm": 2.296875,
      "grad_norm_var": 0.0502349853515625,
      "learning_rate": 0.0001,
      "loss": 7.0083,
      "loss/crossentropy": 2.5307857990264893,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21577821671962738,
      "step": 7952
    },
    {
      "epoch": 0.497125,
      "grad_norm": 1.9453125,
      "grad_norm_var": 0.05158665974934896,
      "learning_rate": 0.0001,
      "loss": 7.037,
      "loss/crossentropy": 2.324398159980774,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20606698840856552,
      "step": 7954
    },
    {
      "epoch": 0.49725,
      "grad_norm": 2.375,
      "grad_norm_var": 0.05232518513997396,
      "learning_rate": 0.0001,
      "loss": 7.2288,
      "loss/crossentropy": 2.4783180952072144,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2216300517320633,
      "step": 7956
    },
    {
      "epoch": 0.497375,
      "grad_norm": 2.359375,
      "grad_norm_var": 0.051401519775390626,
      "learning_rate": 0.0001,
      "loss": 7.213,
      "loss/crossentropy": 2.411279320716858,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21086601167917252,
      "step": 7958
    },
    {
      "epoch": 0.4975,
      "grad_norm": 2.09375,
      "grad_norm_var": 0.051092274983723956,
      "learning_rate": 0.0001,
      "loss": 7.2168,
      "loss/crossentropy": 2.1537816524505615,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20549767464399338,
      "step": 7960
    },
    {
      "epoch": 0.497625,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.016281890869140624,
      "learning_rate": 0.0001,
      "loss": 7.1023,
      "loss/crossentropy": 2.394239068031311,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21313968300819397,
      "step": 7962
    },
    {
      "epoch": 0.49775,
      "grad_norm": 2.125,
      "grad_norm_var": 0.016798655192057293,
      "learning_rate": 0.0001,
      "loss": 7.185,
      "loss/crossentropy": 2.42279052734375,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2198297083377838,
      "step": 7964
    },
    {
      "epoch": 0.497875,
      "grad_norm": 2.140625,
      "grad_norm_var": 0.01599909464518229,
      "learning_rate": 0.0001,
      "loss": 7.0906,
      "loss/crossentropy": 2.2097359895706177,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20080310106277466,
      "step": 7966
    },
    {
      "epoch": 0.498,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.014574940999348958,
      "learning_rate": 0.0001,
      "loss": 7.3154,
      "loss/crossentropy": 2.3493038415908813,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19426824152469635,
      "step": 7968
    },
    {
      "epoch": 0.498125,
      "grad_norm": 2.125,
      "grad_norm_var": 0.0106597900390625,
      "learning_rate": 0.0001,
      "loss": 7.1954,
      "loss/crossentropy": 2.355955958366394,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2216314971446991,
      "step": 7970
    },
    {
      "epoch": 0.49825,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.007811482747395833,
      "learning_rate": 0.0001,
      "loss": 7.2072,
      "loss/crossentropy": 2.63875412940979,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21204157173633575,
      "step": 7972
    },
    {
      "epoch": 0.498375,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.0047686258951822914,
      "learning_rate": 0.0001,
      "loss": 7.0455,
      "loss/crossentropy": 2.2208076119422913,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.2118864804506302,
      "step": 7974
    },
    {
      "epoch": 0.4985,
      "grad_norm": 2.046875,
      "grad_norm_var": 0.004939524332682291,
      "learning_rate": 0.0001,
      "loss": 7.228,
      "loss/crossentropy": 2.2854151725769043,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20473261177539825,
      "step": 7976
    },
    {
      "epoch": 0.498625,
      "grad_norm": 2.484375,
      "grad_norm_var": 0.013315582275390625,
      "learning_rate": 0.0001,
      "loss": 7.1931,
      "loss/crossentropy": 2.1924540996551514,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22139258682727814,
      "step": 7978
    },
    {
      "epoch": 0.49875,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.017267862955729168,
      "learning_rate": 0.0001,
      "loss": 7.061,
      "loss/crossentropy": 2.3097928762435913,
      "loss/hidden": 2.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21281752735376358,
      "step": 7980
    },
    {
      "epoch": 0.498875,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.016605631510416666,
      "learning_rate": 0.0001,
      "loss": 7.2304,
      "loss/crossentropy": 2.5834310054779053,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20607245713472366,
      "step": 7982
    },
    {
      "epoch": 0.499,
      "grad_norm": 1.984375,
      "grad_norm_var": 0.01800537109375,
      "learning_rate": 0.0001,
      "loss": 7.168,
      "loss/crossentropy": 2.2289873361587524,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1980709359049797,
      "step": 7984
    },
    {
      "epoch": 0.499125,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.02115453084309896,
      "learning_rate": 0.0001,
      "loss": 7.1071,
      "loss/crossentropy": 2.3941906690597534,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2208108827471733,
      "step": 7986
    },
    {
      "epoch": 0.49925,
      "grad_norm": 2.671875,
      "grad_norm_var": 0.055149078369140625,
      "learning_rate": 0.0001,
      "loss": 7.3124,
      "loss/crossentropy": 2.1894861459732056,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.218056783080101,
      "step": 7988
    },
    {
      "epoch": 0.499375,
      "grad_norm": 2.0,
      "grad_norm_var": 0.05746256510416667,
      "learning_rate": 0.0001,
      "loss": 7.0268,
      "loss/crossentropy": 2.122998356819153,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20764590054750443,
      "step": 7990
    },
    {
      "epoch": 0.4995,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.056574503580729164,
      "learning_rate": 0.0001,
      "loss": 7.0048,
      "loss/crossentropy": 2.28106951713562,
      "loss/hidden": 2.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.20048896968364716,
      "step": 7992
    },
    {
      "epoch": 0.499625,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.05073140462239583,
      "learning_rate": 0.0001,
      "loss": 7.197,
      "loss/crossentropy": 2.450806140899658,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20395724475383759,
      "step": 7994
    },
    {
      "epoch": 0.49975,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.045171864827473956,
      "learning_rate": 0.0001,
      "loss": 7.0883,
      "loss/crossentropy": 2.2239577770233154,
      "loss/hidden": 2.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22716625034809113,
      "step": 7996
    },
    {
      "epoch": 0.499875,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.046213531494140626,
      "learning_rate": 0.0001,
      "loss": 7.1814,
      "loss/crossentropy": 2.3571836948394775,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20826996862888336,
      "step": 7998
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.0625,
      "grad_norm_var": 0.04478530883789063,
      "learning_rate": 0.0001,
      "loss": 7.208,
      "loss/crossentropy": 2.152498722076416,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18669088929891586,
      "step": 8000
    }
  ],
  "logging_steps": 2,
  "max_steps": 16000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 4000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.666362485243904e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}