{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.5,
  "eval_steps": 250,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001,
      "grad_norm": 0.000537872314453125,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 0.0002,
      "loss/crossentropy": 0.8766392022371292,
      "loss/hidden": 0.0,
      "loss/logits": 0.00021765431665698998,
      "step": 1
    },
    {
      "epoch": 0.002,
      "grad_norm": 0.2265625,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 0.005,
      "loss/crossentropy": 1.9883175492286682,
      "loss/hidden": 0.0039215087890625,
      "loss/logits": 0.001088879187591374,
      "step": 2
    },
    {
      "epoch": 0.003,
      "grad_norm": 0.25390625,
      "learning_rate": 6.000000000000001e-07,
      "loss": 0.0052,
      "loss/crossentropy": 1.8020615577697754,
      "loss/hidden": 0.004180908203125,
      "loss/logits": 0.0010398300073575228,
      "step": 3
    },
    {
      "epoch": 0.004,
      "grad_norm": 0.255859375,
      "learning_rate": 8.000000000000001e-07,
      "loss": 0.0049,
      "loss/crossentropy": 1.0764193534851074,
      "loss/hidden": 0.00399017333984375,
      "loss/logits": 0.0008995172393042594,
      "step": 4
    },
    {
      "epoch": 0.005,
      "grad_norm": 0.224609375,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.0049,
      "loss/crossentropy": 1.7853868007659912,
      "loss/hidden": 0.0038604736328125,
      "loss/logits": 0.0010730837238952518,
      "step": 5
    },
    {
      "epoch": 0.006,
      "grad_norm": 0.2333984375,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 0.0051,
      "loss/crossentropy": 2.4102118015289307,
      "loss/hidden": 0.00388336181640625,
      "loss/logits": 0.0011915687937289476,
      "step": 6
    },
    {
      "epoch": 0.007,
      "grad_norm": 0.35546875,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 0.0056,
      "loss/crossentropy": 1.9921993017196655,
      "loss/hidden": 0.0044403076171875,
      "loss/logits": 0.0011139529524371028,
      "step": 7
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.2353515625,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 0.0049,
      "loss/crossentropy": 2.269957184791565,
      "loss/hidden": 0.00376129150390625,
      "loss/logits": 0.0011444001575000584,
      "step": 8
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.22265625,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 0.0051,
      "loss/crossentropy": 2.1889681220054626,
      "loss/hidden": 0.0038909912109375,
      "loss/logits": 0.0011716101435013115,
      "step": 9
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.291015625,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.0052,
      "loss/crossentropy": 1.76205712556839,
      "loss/hidden": 0.0041351318359375,
      "loss/logits": 0.001058999594533816,
      "step": 10
    },
    {
      "epoch": 0.011,
      "grad_norm": 0.2177734375,
      "learning_rate": 2.2e-06,
      "loss": 0.0049,
      "loss/crossentropy": 2.438264012336731,
      "loss/hidden": 0.003753662109375,
      "loss/logits": 0.0011843050015158951,
      "step": 11
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.41015625,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 0.0071,
      "loss/crossentropy": 1.8871825337409973,
      "loss/hidden": 0.0059051513671875,
      "loss/logits": 0.0011930759064853191,
      "step": 12
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.53125,
      "learning_rate": 2.6e-06,
      "loss": 0.0084,
      "loss/crossentropy": 1.7400972247123718,
      "loss/hidden": 0.0071258544921875,
      "loss/logits": 0.001270102453418076,
      "step": 13
    },
    {
      "epoch": 0.014,
      "grad_norm": 0.365234375,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 0.0075,
      "loss/crossentropy": 2.0053656101226807,
      "loss/hidden": 0.006256103515625,
      "loss/logits": 0.0012446122709661722,
      "step": 14
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.455078125,
      "learning_rate": 3e-06,
      "loss": 0.0072,
      "loss/crossentropy": 1.984630048274994,
      "loss/hidden": 0.0059356689453125,
      "loss/logits": 0.0012947238283231854,
      "step": 15
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.447265625,
      "grad_norm_var": 0.016307008621940136,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 0.0072,
      "loss/crossentropy": 2.4732788801193237,
      "loss/hidden": 0.005767822265625,
      "loss/logits": 0.00144299550447613,
      "step": 16
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.89453125,
      "grad_norm_var": 0.031113270918528238,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 0.0076,
      "loss/crossentropy": 1.7775737643241882,
      "loss/hidden": 0.006317138671875,
      "loss/logits": 0.001260987774003297,
      "step": 17
    },
    {
      "epoch": 0.018,
      "grad_norm": 0.45703125,
      "grad_norm_var": 0.030601243178049724,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 0.0067,
      "loss/crossentropy": 1.1123631671071053,
      "loss/hidden": 0.0057373046875,
      "loss/logits": 0.0009507400100119412,
      "step": 18
    },
    {
      "epoch": 0.019,
      "grad_norm": 0.298828125,
      "grad_norm_var": 0.030057998498280843,
      "learning_rate": 3.8000000000000005e-06,
      "loss": 0.0068,
      "loss/crossentropy": 1.8855515718460083,
      "loss/hidden": 0.0055694580078125,
      "loss/logits": 0.0012491169618442655,
      "step": 19
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.3984375,
      "grad_norm_var": 0.02918777068456014,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.007,
      "loss/crossentropy": 1.773246705532074,
      "loss/hidden": 0.005828857421875,
      "loss/logits": 0.0011664124322123826,
      "step": 20
    },
    {
      "epoch": 0.021,
      "grad_norm": 0.302734375,
      "grad_norm_var": 0.02797787586847941,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 0.0069,
      "loss/crossentropy": 2.1012651920318604,
      "loss/hidden": 0.0056610107421875,
      "loss/logits": 0.0012796117807738483,
      "step": 21
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.026955906550089517,
      "learning_rate": 4.4e-06,
      "loss": 0.0101,
      "loss/crossentropy": 1.9430513381958008,
      "loss/hidden": 0.008514404296875,
      "loss/logits": 0.0016175230266526341,
      "step": 22
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.609375,
      "grad_norm_var": 0.029542907079060873,
      "learning_rate": 4.600000000000001e-06,
      "loss": 0.0118,
      "loss/crossentropy": 1.5989271998405457,
      "loss/hidden": 0.01025390625,
      "loss/logits": 0.0015109491650946438,
      "step": 23
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.80078125,
      "grad_norm_var": 0.03606090148289998,
      "learning_rate": 4.800000000000001e-06,
      "loss": 0.0102,
      "loss/crossentropy": 1.141058474779129,
      "loss/hidden": 0.009033203125,
      "loss/logits": 0.0011210083321202546,
      "step": 24
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.361328125,
      "grad_norm_var": 0.03307259480158488,
      "learning_rate": 5e-06,
      "loss": 0.0094,
      "loss/crossentropy": 2.0950170755386353,
      "loss/hidden": 0.0077972412109375,
      "loss/logits": 0.001559894997626543,
      "step": 25
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.83984375,
      "grad_norm_var": 0.0396828293800354,
      "learning_rate": 5.2e-06,
      "loss": 0.0112,
      "loss/crossentropy": 0.9552253857254982,
      "loss/hidden": 0.010284423828125,
      "loss/logits": 0.0008805262332316488,
      "step": 26
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.034408044815063474,
      "learning_rate": 5.400000000000001e-06,
      "loss": 0.0091,
      "loss/crossentropy": 1.3719437271356583,
      "loss/hidden": 0.007965087890625,
      "loss/logits": 0.001155910431407392,
      "step": 27
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.73046875,
      "grad_norm_var": 0.036436065038045244,
      "learning_rate": 5.600000000000001e-06,
      "loss": 0.0107,
      "loss/crossentropy": 1.6477643251419067,
      "loss/hidden": 0.009185791015625,
      "loss/logits": 0.0015593590214848518,
      "step": 28
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.41796875,
      "grad_norm_var": 0.03726207415262858,
      "learning_rate": 5.8e-06,
      "loss": 0.0096,
      "loss/crossentropy": 1.7987680435180664,
      "loss/hidden": 0.008087158203125,
      "loss/logits": 0.0015162223717197776,
      "step": 29
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.33203125,
      "grad_norm_var": 0.03804162343343099,
      "learning_rate": 6e-06,
      "loss": 0.0094,
      "loss/crossentropy": 1.74210923910141,
      "loss/hidden": 0.008026123046875,
      "loss/logits": 0.0013514517340809107,
      "step": 30
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.4296875,
      "grad_norm_var": 0.038314167658487955,
      "learning_rate": 6.200000000000001e-06,
      "loss": 0.0095,
      "loss/crossentropy": 1.45715793967247,
      "loss/hidden": 0.0081329345703125,
      "loss/logits": 0.0013754194369539618,
      "step": 31
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.54296875,
      "grad_norm_var": 0.03793176015218099,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 0.0137,
      "loss/crossentropy": 1.635874330997467,
      "loss/hidden": 0.01190185546875,
      "loss/logits": 0.0017871989402920008,
      "step": 32
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.76171875,
      "grad_norm_var": 0.03254489898681641,
      "learning_rate": 6.600000000000001e-06,
      "loss": 0.0143,
      "loss/crossentropy": 1.0347481966018677,
      "loss/hidden": 0.01300048828125,
      "loss/logits": 0.0012789819156751037,
      "step": 33
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.515625,
      "grad_norm_var": 0.032269287109375,
      "learning_rate": 6.800000000000001e-06,
      "loss": 0.0132,
      "loss/crossentropy": 2.0032879114151,
      "loss/hidden": 0.011383056640625,
      "loss/logits": 0.0018645224627107382,
      "step": 34
    },
    {
      "epoch": 0.035,
      "grad_norm": 1.0703125,
      "grad_norm_var": 0.04636419614156087,
      "learning_rate": 7e-06,
      "loss": 0.0143,
      "loss/crossentropy": 1.8410796523094177,
      "loss/hidden": 0.01226806640625,
      "loss/logits": 0.001986370305530727,
      "step": 35
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.4296875,
      "grad_norm_var": 0.045703490575154625,
      "learning_rate": 7.2000000000000005e-06,
      "loss": 0.0136,
      "loss/crossentropy": 1.9098870158195496,
      "loss/hidden": 0.01171875,
      "loss/logits": 0.0018596722511574626,
      "step": 36
    },
    {
      "epoch": 0.037,
      "grad_norm": 68.0,
      "grad_norm_var": 284.03319854736327,
      "learning_rate": 7.4e-06,
      "loss": 0.0558,
      "loss/crossentropy": 1.5951663255691528,
      "loss/hidden": 0.051666259765625,
      "loss/logits": 0.004160793498158455,
      "step": 37
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.380859375,
      "grad_norm_var": 284.0946207046509,
      "learning_rate": 7.600000000000001e-06,
      "loss": 0.0133,
      "loss/crossentropy": 2.25837504863739,
      "loss/hidden": 0.01129150390625,
      "loss/logits": 0.0020168160554021597,
      "step": 38
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.455078125,
      "grad_norm_var": 284.1822828769684,
      "learning_rate": 7.800000000000002e-06,
      "loss": 0.0126,
      "loss/crossentropy": 2.126526176929474,
      "loss/hidden": 0.0107421875,
      "loss/logits": 0.0018400833941996098,
      "step": 39
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.63671875,
      "grad_norm_var": 284.27119545936586,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.0142,
      "loss/crossentropy": 1.4863142371177673,
      "loss/hidden": 0.012481689453125,
      "loss/logits": 0.0017027563299052417,
      "step": 40
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.283203125,
      "grad_norm_var": 284.3175859928131,
      "learning_rate": 8.2e-06,
      "loss": 0.0112,
      "loss/crossentropy": 2.0888695120811462,
      "loss/hidden": 0.009521484375,
      "loss/logits": 0.0017255974235013127,
      "step": 41
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.431640625,
      "grad_norm_var": 284.5420877456665,
      "learning_rate": 8.400000000000001e-06,
      "loss": 0.0173,
      "loss/crossentropy": 1.611488163471222,
      "loss/hidden": 0.015380859375,
      "loss/logits": 0.0019445380312390625,
      "step": 42
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.419921875,
      "grad_norm_var": 284.6142045180003,
      "learning_rate": 8.6e-06,
      "loss": 0.0166,
      "loss/crossentropy": 1.8987411260604858,
      "loss/hidden": 0.0146484375,
      "loss/logits": 0.0019467678503133357,
      "step": 43
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.58203125,
      "grad_norm_var": 284.6949343204498,
      "learning_rate": 8.8e-06,
      "loss": 0.0183,
      "loss/crossentropy": 1.4084473848342896,
      "loss/hidden": 0.01605224609375,
      "loss/logits": 0.002271471545100212,
      "step": 44
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.380859375,
      "grad_norm_var": 284.71635888417563,
      "learning_rate": 9e-06,
      "loss": 0.0159,
      "loss/crossentropy": 1.6970309615135193,
      "loss/hidden": 0.01397705078125,
      "loss/logits": 0.0019325784523971379,
      "step": 45
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.455078125,
      "grad_norm_var": 284.64517935117084,
      "learning_rate": 9.200000000000002e-06,
      "loss": 0.0165,
      "loss/crossentropy": 2.1346731781959534,
      "loss/hidden": 0.014312744140625,
      "loss/logits": 0.002142712823115289,
      "step": 46
    },
    {
      "epoch": 0.047,
      "grad_norm": 2.21875,
      "grad_norm_var": 283.818000014623,
      "learning_rate": 9.4e-06,
      "loss": 0.0175,
      "loss/crossentropy": 1.6114214062690735,
      "loss/hidden": 0.0155029296875,
      "loss/logits": 0.0020421514636836946,
      "step": 47
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.44921875,
      "grad_norm_var": 283.87235945065817,
      "learning_rate": 9.600000000000001e-06,
      "loss": 0.0157,
      "loss/crossentropy": 2.056842625141144,
      "loss/hidden": 0.013671875,
      "loss/logits": 0.0020451846066862345,
      "step": 48
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.439453125,
      "grad_norm_var": 284.05417149861654,
      "learning_rate": 9.800000000000001e-06,
      "loss": 0.016,
      "loss/crossentropy": 1.5892411470413208,
      "loss/hidden": 0.013946533203125,
      "loss/logits": 0.00205704930704087,
      "step": 49
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3359375,
      "grad_norm_var": 284.15935770670575,
      "learning_rate": 1e-05,
      "loss": 0.0153,
      "loss/crossentropy": 2.3872954845428467,
      "loss/hidden": 0.01312255859375,
      "loss/logits": 0.0021313573233783245,
      "step": 50
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.451171875,
      "grad_norm_var": 284.49208029111225,
      "learning_rate": 1.02e-05,
      "loss": 0.0168,
      "loss/crossentropy": 2.0149841904640198,
      "loss/hidden": 0.01470947265625,
      "loss/logits": 0.0020815907046198845,
      "step": 51
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.51953125,
      "grad_norm_var": 284.44056928952534,
      "learning_rate": 1.04e-05,
      "loss": 0.021,
      "loss/crossentropy": 1.9311216473579407,
      "loss/hidden": 0.0185546875,
      "loss/logits": 0.0024686548858880997,
      "step": 52
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.20315702756245932,
      "learning_rate": 1.0600000000000002e-05,
      "loss": 0.0204,
      "loss/crossentropy": 1.9871841073036194,
      "loss/hidden": 0.01806640625,
      "loss/logits": 0.00237347767688334,
      "step": 53
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.51171875,
      "grad_norm_var": 0.2010729471842448,
      "learning_rate": 1.0800000000000002e-05,
      "loss": 0.0195,
      "loss/crossentropy": 1.4909774661064148,
      "loss/hidden": 0.017578125,
      "loss/logits": 0.0018839699332602322,
      "step": 54
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.376953125,
      "grad_norm_var": 0.20264968872070313,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 0.0188,
      "loss/crossentropy": 1.731587290763855,
      "loss/hidden": 0.01666259765625,
      "loss/logits": 0.0021363290725275874,
      "step": 55
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.482421875,
      "grad_norm_var": 0.20266098976135255,
      "learning_rate": 1.1200000000000001e-05,
      "loss": 0.0198,
      "loss/crossentropy": 1.8391692638397217,
      "loss/hidden": 0.01751708984375,
      "loss/logits": 0.0022706754971295595,
      "step": 56
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.82421875,
      "grad_norm_var": 0.20132694244384766,
      "learning_rate": 1.14e-05,
      "loss": 0.0181,
      "loss/crossentropy": 1.326266534626484,
      "loss/hidden": 0.01654052734375,
      "loss/logits": 0.0015604346699547023,
      "step": 57
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.41015625,
      "grad_norm_var": 0.2018068790435791,
      "learning_rate": 1.16e-05,
      "loss": 0.0185,
      "loss/crossentropy": 2.5511186122894287,
      "loss/hidden": 0.01611328125,
      "loss/logits": 0.0024241225328296423,
      "step": 58
    },
    {
      "epoch": 0.059,
      "grad_norm": 1.609375,
      "grad_norm_var": 0.26361236572265623,
      "learning_rate": 1.18e-05,
      "loss": 0.0183,
      "loss/crossentropy": 1.0930684125050902,
      "loss/hidden": 0.01702880859375,
      "loss/logits": 0.0013018156460020691,
      "step": 59
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.486328125,
      "grad_norm_var": 0.2652066389719645,
      "learning_rate": 1.2e-05,
      "loss": 0.02,
      "loss/crossentropy": 2.0819135308265686,
      "loss/hidden": 0.0174560546875,
      "loss/logits": 0.0025293552316725254,
      "step": 60
    },
    {
      "epoch": 0.061,
      "grad_norm": 1.09375,
      "grad_norm_var": 0.2708051045735677,
      "learning_rate": 1.22e-05,
      "loss": 0.0183,
      "loss/crossentropy": 0.9290539920330048,
      "loss/hidden": 0.016754150390625,
      "loss/logits": 0.0015562092885375023,
      "step": 61
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.453125,
      "grad_norm_var": 0.2708693027496338,
      "learning_rate": 1.2400000000000002e-05,
      "loss": 0.0227,
      "loss/crossentropy": 2.1691651344299316,
      "loss/hidden": 0.01995849609375,
      "loss/logits": 0.002767750178463757,
      "step": 62
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.4765625,
      "grad_norm_var": 0.10790785153706868,
      "learning_rate": 1.2600000000000001e-05,
      "loss": 0.0233,
      "loss/crossentropy": 2.1545491218566895,
      "loss/hidden": 0.0205078125,
      "loss/logits": 0.002785824006423354,
      "step": 63
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.47265625,
      "grad_norm_var": 0.10749700864156088,
      "learning_rate": 1.2800000000000001e-05,
      "loss": 0.0223,
      "loss/crossentropy": 1.9527725577354431,
      "loss/hidden": 0.01971435546875,
      "loss/logits": 0.0025634407065808773,
      "step": 64
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.55078125,
      "grad_norm_var": 0.10599034627278646,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 0.0256,
      "loss/crossentropy": 1.8496606945991516,
      "loss/hidden": 0.02288818359375,
      "loss/logits": 0.0027499888092279434,
      "step": 65
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.1012465794881185,
      "learning_rate": 1.3200000000000002e-05,
      "loss": 0.0221,
      "loss/crossentropy": 1.9440131187438965,
      "loss/hidden": 0.01971435546875,
      "loss/logits": 0.002431391447316855,
      "step": 66
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.498046875,
      "grad_norm_var": 0.10036614735921225,
      "learning_rate": 1.3400000000000002e-05,
      "loss": 0.0241,
      "loss/crossentropy": 1.7777947187423706,
      "loss/hidden": 0.02142333984375,
      "loss/logits": 0.0026856372132897377,
      "step": 67
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.09977563222249348,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 0.0241,
      "loss/crossentropy": 1.6634170711040497,
      "loss/hidden": 0.02178955078125,
      "loss/logits": 0.002268874435685575,
      "step": 68
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.359375,
      "grad_norm_var": 0.1039443333943685,
      "learning_rate": 1.38e-05,
      "loss": 0.0217,
      "loss/crossentropy": 1.9945446252822876,
      "loss/hidden": 0.019287109375,
      "loss/logits": 0.0024602848570793867,
      "step": 69
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.546875,
      "grad_norm_var": 0.10354207356770834,
      "learning_rate": 1.4e-05,
      "loss": 0.0212,
      "loss/crossentropy": 2.234881281852722,
      "loss/hidden": 0.0185546875,
      "loss/logits": 0.0026649613864719868,
      "step": 70
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.5390625,
      "grad_norm_var": 0.1000130812327067,
      "learning_rate": 1.4200000000000001e-05,
      "loss": 0.0235,
      "loss/crossentropy": 2.3283374309539795,
      "loss/hidden": 0.0206298828125,
      "loss/logits": 0.0028440920868888497,
      "step": 71
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.96484375,
      "grad_norm_var": 0.10530134836832682,
      "learning_rate": 1.4400000000000001e-05,
      "loss": 0.0273,
      "loss/crossentropy": 2.446515917778015,
      "loss/hidden": 0.0244140625,
      "loss/logits": 0.002847215859219432,
      "step": 72
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.10331465403238932,
      "learning_rate": 1.46e-05,
      "loss": 0.0313,
      "loss/crossentropy": 1.8365015387535095,
      "loss/hidden": 0.0277099609375,
      "loss/logits": 0.003543111262843013,
      "step": 73
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.58203125,
      "grad_norm_var": 0.0997507095336914,
      "learning_rate": 1.48e-05,
      "loss": 0.0275,
      "loss/crossentropy": 1.8750606179237366,
      "loss/hidden": 0.0244140625,
      "loss/logits": 0.0030850095208734274,
      "step": 74
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.6171875,
      "grad_norm_var": 0.03528436024983724,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.0285,
      "loss/crossentropy": 1.6197695136070251,
      "loss/hidden": 0.02557373046875,
      "loss/logits": 0.002948817447759211,
      "step": 75
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.5546875,
      "grad_norm_var": 0.034586191177368164,
      "learning_rate": 1.5200000000000002e-05,
      "loss": 0.0253,
      "loss/crossentropy": 2.139370322227478,
      "loss/hidden": 0.0225830078125,
      "loss/logits": 0.002709153341129422,
      "step": 76
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.78125,
      "grad_norm_var": 0.020085255304972332,
      "learning_rate": 1.54e-05,
      "loss": 0.0308,
      "loss/crossentropy": 1.5335928797721863,
      "loss/hidden": 0.02777099609375,
      "loss/logits": 0.00305762467905879,
      "step": 77
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.5078125,
      "grad_norm_var": 0.019349145889282226,
      "learning_rate": 1.5600000000000003e-05,
      "loss": 0.0273,
      "loss/crossentropy": 2.623558282852173,
      "loss/hidden": 0.024169921875,
      "loss/logits": 0.0031643210677430034,
      "step": 78
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.470703125,
      "grad_norm_var": 0.019434547424316405,
      "learning_rate": 1.58e-05,
      "loss": 0.0275,
      "loss/crossentropy": 2.3246337175369263,
      "loss/hidden": 0.0242919921875,
      "loss/logits": 0.0031679703388363123,
      "step": 79
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.431640625,
      "grad_norm_var": 0.0201418399810791,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.0254,
      "loss/crossentropy": 1.801970660686493,
      "loss/hidden": 0.0228271484375,
      "loss/logits": 0.0025987064000219107,
      "step": 80
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.44921875,
      "grad_norm_var": 0.021184905370076498,
      "learning_rate": 1.62e-05,
      "loss": 0.0265,
      "loss/crossentropy": 1.9489317536354065,
      "loss/hidden": 0.02374267578125,
      "loss/logits": 0.0027701087528839707,
      "step": 81
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.67578125,
      "grad_norm_var": 0.02180479367574056,
      "learning_rate": 1.64e-05,
      "loss": 0.034,
      "loss/crossentropy": 1.7697851061820984,
      "loss/hidden": 0.03070068359375,
      "loss/logits": 0.003283574478700757,
      "step": 82
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.57421875,
      "grad_norm_var": 0.021323140462239584,
      "learning_rate": 1.66e-05,
      "loss": 0.0309,
      "loss/crossentropy": 1.5783970654010773,
      "loss/hidden": 0.028076171875,
      "loss/logits": 0.002809713245369494,
      "step": 83
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.53125,
      "grad_norm_var": 0.02108605702718099,
      "learning_rate": 1.6800000000000002e-05,
      "loss": 0.0332,
      "loss/crossentropy": 1.460361659526825,
      "loss/hidden": 0.0303955078125,
      "loss/logits": 0.0027706819819286466,
      "step": 84
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.6015625,
      "grad_norm_var": 0.017696062723795574,
      "learning_rate": 1.7e-05,
      "loss": 0.0324,
      "loss/crossentropy": 2.1110434532165527,
      "loss/hidden": 0.02911376953125,
      "loss/logits": 0.0033112409291788936,
      "step": 85
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.451171875,
      "grad_norm_var": 0.018857304255167642,
      "learning_rate": 1.72e-05,
      "loss": 0.0291,
      "loss/crossentropy": 1.7163687944412231,
      "loss/hidden": 0.02630615234375,
      "loss/logits": 0.0027680074563249946,
      "step": 86
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.5703125,
      "grad_norm_var": 0.018718449274698894,
      "learning_rate": 1.7400000000000003e-05,
      "loss": 0.0339,
      "loss/crossentropy": 1.8893783688545227,
      "loss/hidden": 0.03021240234375,
      "loss/logits": 0.0037144168745726347,
      "step": 87
    },
    {
      "epoch": 0.088,
      "grad_norm": 1.75,
      "grad_norm_var": 0.0965951124827067,
      "learning_rate": 1.76e-05,
      "loss": 0.0293,
      "loss/crossentropy": 1.0857177823781967,
      "loss/hidden": 0.02716064453125,
      "loss/logits": 0.002114512084517628,
      "step": 88
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.4609375,
      "grad_norm_var": 0.09848872820536296,
      "learning_rate": 1.7800000000000002e-05,
      "loss": 0.0278,
      "loss/crossentropy": 2.1670188307762146,
      "loss/hidden": 0.0250244140625,
      "loss/logits": 0.0027708488050848246,
      "step": 89
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.984375,
      "grad_norm_var": 0.4452332655588786,
      "learning_rate": 1.8e-05,
      "loss": 0.034,
      "loss/crossentropy": 0.8697951380163431,
      "loss/hidden": 0.0322265625,
      "loss/logits": 0.0017659573932178319,
      "step": 90
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.44585811297098793,
      "learning_rate": 1.8200000000000002e-05,
      "loss": 0.0315,
      "loss/crossentropy": 2.0653520226478577,
      "loss/hidden": 0.02813720703125,
      "loss/logits": 0.003313788794912398,
      "step": 91
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.66015625,
      "grad_norm_var": 0.44346858660380045,
      "learning_rate": 1.8400000000000003e-05,
      "loss": 0.0352,
      "loss/crossentropy": 2.1175276041030884,
      "loss/hidden": 0.0318603515625,
      "loss/logits": 0.003378898836672306,
      "step": 92
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.478515625,
      "grad_norm_var": 0.44917195638020835,
      "learning_rate": 1.86e-05,
      "loss": 0.0328,
      "loss/crossentropy": 2.192784309387207,
      "loss/hidden": 0.029296875,
      "loss/logits": 0.003497788915410638,
      "step": 93
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.50390625,
      "grad_norm_var": 0.4493051528930664,
      "learning_rate": 1.88e-05,
      "loss": 0.0342,
      "loss/crossentropy": 1.8000940680503845,
      "loss/hidden": 0.0308837890625,
      "loss/logits": 0.003295119386166334,
      "step": 94
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.86328125,
      "grad_norm_var": 0.44371743202209474,
      "learning_rate": 1.9e-05,
      "loss": 0.0376,
      "loss/crossentropy": 1.9514374732971191,
      "loss/hidden": 0.0340576171875,
      "loss/logits": 0.0035327656660228968,
      "step": 95
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.55859375,
      "grad_norm_var": 0.4387262980143229,
      "learning_rate": 1.9200000000000003e-05,
      "loss": 0.0334,
      "loss/crossentropy": 1.7834157943725586,
      "loss/hidden": 0.03021240234375,
      "loss/logits": 0.003167669870890677,
      "step": 96
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.71484375,
      "grad_norm_var": 0.4309270222981771,
      "learning_rate": 1.94e-05,
      "loss": 0.0327,
      "loss/crossentropy": 1.6889591813087463,
      "loss/hidden": 0.02972412109375,
      "loss/logits": 0.0029616469983011484,
      "step": 97
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.4336400349934896,
      "learning_rate": 1.9600000000000002e-05,
      "loss": 0.0354,
      "loss/crossentropy": 1.7813147902488708,
      "loss/hidden": 0.031982421875,
      "loss/logits": 0.003417789936065674,
      "step": 98
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.9140625,
      "grad_norm_var": 0.43045953114827473,
      "learning_rate": 1.98e-05,
      "loss": 0.0376,
      "loss/crossentropy": 1.3951178789138794,
      "loss/hidden": 0.0345458984375,
      "loss/logits": 0.0030310061993077397,
      "step": 99
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.56640625,
      "grad_norm_var": 0.4291600545247396,
      "learning_rate": 2e-05,
      "loss": 0.0364,
      "loss/crossentropy": 2.255498170852661,
      "loss/hidden": 0.03277587890625,
      "loss/logits": 0.0036420804681256413,
      "step": 100
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.58984375,
      "grad_norm_var": 0.429521115620931,
      "learning_rate": 2e-05,
      "loss": 0.033,
      "loss/crossentropy": 2.4104394912719727,
      "loss/hidden": 0.02960205078125,
      "loss/logits": 0.0033488960471004248,
      "step": 101
    },
    {
      "epoch": 0.102,
      "grad_norm": 4.8125,
      "grad_norm_var": 1.4001366774241129,
      "learning_rate": 2e-05,
      "loss": 0.0477,
      "loss/crossentropy": 1.0830636993050575,
      "loss/hidden": 0.0452880859375,
      "loss/logits": 0.0023841604124754667,
      "step": 102
    },
    {
      "epoch": 0.103,
      "grad_norm": 4.1875,
      "grad_norm_var": 1.9629084110260009,
      "learning_rate": 2e-05,
      "loss": 0.0475,
      "loss/crossentropy": 0.7437883876264095,
      "loss/hidden": 0.0455322265625,
      "loss/logits": 0.0019981139339506626,
      "step": 103
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.77734375,
      "grad_norm_var": 1.9669294834136963,
      "learning_rate": 2e-05,
      "loss": 0.0387,
      "loss/crossentropy": 2.1284059882164,
      "loss/hidden": 0.0345458984375,
      "loss/logits": 0.00411223981063813,
      "step": 104
    },
    {
      "epoch": 0.105,
      "grad_norm": 1.6796875,
      "grad_norm_var": 1.92922043800354,
      "learning_rate": 2e-05,
      "loss": 0.0459,
      "loss/crossentropy": 2.1119471192359924,
      "loss/hidden": 0.0411376953125,
      "loss/logits": 0.0047579677775502205,
      "step": 105
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.90234375,
      "grad_norm_var": 1.7437895298004151,
      "learning_rate": 2e-05,
      "loss": 0.044,
      "loss/crossentropy": 2.391239643096924,
      "loss/hidden": 0.0390625,
      "loss/logits": 0.004930721828714013,
      "step": 106
    },
    {
      "epoch": 0.107,
      "grad_norm": 1.6875,
      "grad_norm_var": 1.7282822767893473,
      "learning_rate": 2e-05,
      "loss": 0.0451,
      "loss/crossentropy": 1.7602136731147766,
      "loss/hidden": 0.040283203125,
      "loss/logits": 0.004797366913408041,
      "step": 107
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.8828125,
      "grad_norm_var": 1.7130108992258708,
      "learning_rate": 2e-05,
      "loss": 0.0428,
      "loss/crossentropy": 2.0745638012886047,
      "loss/hidden": 0.0386962890625,
      "loss/logits": 0.004113797098398209,
      "step": 108
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.82421875,
      "grad_norm_var": 1.6829447428385416,
      "learning_rate": 2e-05,
      "loss": 0.0422,
      "loss/crossentropy": 1.685157299041748,
      "loss/hidden": 0.03857421875,
      "loss/logits": 0.0036494951928034425,
      "step": 109
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5703125,
      "grad_norm_var": 1.6387715021769205,
      "learning_rate": 2e-05,
      "loss": 0.0376,
      "loss/crossentropy": 2.625019073486328,
      "loss/hidden": 0.03369140625,
      "loss/logits": 0.0039150441298261285,
      "step": 110
    },
    {
      "epoch": 0.111,
      "grad_norm": 1.5234375,
      "grad_norm_var": 1.6204302469889322,
      "learning_rate": 2e-05,
      "loss": 0.0422,
      "loss/crossentropy": 0.676440417766571,
      "loss/hidden": 0.0401611328125,
      "loss/logits": 0.0020512532209977508,
      "step": 111
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.65234375,
      "grad_norm_var": 1.6101824442545574,
      "learning_rate": 2e-05,
      "loss": 0.0479,
      "loss/crossentropy": 1.8928841352462769,
      "loss/hidden": 0.0435791015625,
      "loss/logits": 0.00434900657273829,
      "step": 112
    },
    {
      "epoch": 0.113,
      "grad_norm": 1.09375,
      "grad_norm_var": 1.5831150690714517,
      "learning_rate": 2e-05,
      "loss": 0.0498,
      "loss/crossentropy": 1.2006176710128784,
      "loss/hidden": 0.04638671875,
      "loss/logits": 0.0034257903462275863,
      "step": 113
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.84375,
      "grad_norm_var": 1.5551775614420573,
      "learning_rate": 2e-05,
      "loss": 0.0437,
      "loss/crossentropy": 2.164067029953003,
      "loss/hidden": 0.03955078125,
      "loss/logits": 0.004164737183600664,
      "step": 114
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.875,
      "grad_norm_var": 1.5581644694010417,
      "learning_rate": 2e-05,
      "loss": 0.0469,
      "loss/crossentropy": 1.963140070438385,
      "loss/hidden": 0.0419921875,
      "loss/logits": 0.004867425188422203,
      "step": 115
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.83984375,
      "grad_norm_var": 1.530010732014974,
      "learning_rate": 2e-05,
      "loss": 0.0469,
      "loss/crossentropy": 1.936423420906067,
      "loss/hidden": 0.04248046875,
      "loss/logits": 0.004457900300621986,
      "step": 116
    },
    {
      "epoch": 0.117,
      "grad_norm": 1.0,
      "grad_norm_var": 1.4916320164998373,
      "learning_rate": 2e-05,
      "loss": 0.044,
      "loss/crossentropy": 1.9027796387672424,
      "loss/hidden": 0.0396728515625,
      "loss/logits": 0.004306067014113069,
      "step": 117
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.921875,
      "grad_norm_var": 0.724272092183431,
      "learning_rate": 2e-05,
      "loss": 0.048,
      "loss/crossentropy": 1.4962169528007507,
      "loss/hidden": 0.043212890625,
      "loss/logits": 0.004831232130527496,
      "step": 118
    },
    {
      "epoch": 0.119,
      "grad_norm": 1.3046875,
      "grad_norm_var": 0.12087090810139973,
      "learning_rate": 2e-05,
      "loss": 0.0458,
      "loss/crossentropy": 1.8558754324913025,
      "loss/hidden": 0.04150390625,
      "loss/logits": 0.004260358400642872,
      "step": 119
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7421875,
      "grad_norm_var": 0.12239583333333333,
      "learning_rate": 2e-05,
      "loss": 0.0467,
      "loss/crossentropy": 2.163163900375366,
      "loss/hidden": 0.042236328125,
      "loss/logits": 0.0044949238654226065,
      "step": 120
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.66796875,
      "grad_norm_var": 0.10601139068603516,
      "learning_rate": 2e-05,
      "loss": 0.0429,
      "loss/crossentropy": 1.875292718410492,
      "loss/hidden": 0.0389404296875,
      "loss/logits": 0.003972187405452132,
      "step": 121
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.97265625,
      "grad_norm_var": 0.1052103042602539,
      "learning_rate": 2e-05,
      "loss": 0.0504,
      "loss/crossentropy": 1.581692636013031,
      "loss/hidden": 0.0462646484375,
      "loss/logits": 0.0040856958366930485,
      "step": 122
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.77734375,
      "grad_norm_var": 0.07660497029622396,
      "learning_rate": 2e-05,
      "loss": 0.0467,
      "loss/crossentropy": 2.185007333755493,
      "loss/hidden": 0.0419921875,
      "loss/logits": 0.0047312104143202305,
      "step": 123
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.70703125,
      "grad_norm_var": 0.08053887685139974,
      "learning_rate": 2e-05,
      "loss": 0.0527,
      "loss/crossentropy": 1.7746418118476868,
      "loss/hidden": 0.0482177734375,
      "loss/logits": 0.004488097038120031,
      "step": 124
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.82421875,
      "grad_norm_var": 0.08053887685139974,
      "learning_rate": 2e-05,
      "loss": 0.0483,
      "loss/crossentropy": 1.8139249682426453,
      "loss/hidden": 0.044189453125,
      "loss/logits": 0.00407675513997674,
      "step": 125
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.80078125,
      "grad_norm_var": 0.05464986165364583,
      "learning_rate": 2e-05,
      "loss": 0.0536,
      "loss/crossentropy": 1.8078742623329163,
      "loss/hidden": 0.0489501953125,
      "loss/logits": 0.004657944664359093,
      "step": 126
    },
    {
      "epoch": 0.127,
      "grad_norm": 1.09375,
      "grad_norm_var": 0.030997467041015626,
      "learning_rate": 2e-05,
      "loss": 0.0496,
      "loss/crossentropy": 2.0267322659492493,
      "loss/hidden": 0.0447998046875,
      "loss/logits": 0.0047590641770511866,
      "step": 127
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.85546875,
      "grad_norm_var": 0.027347564697265625,
      "learning_rate": 2e-05,
      "loss": 0.0587,
      "loss/crossentropy": 1.6603793501853943,
      "loss/hidden": 0.052978515625,
      "loss/logits": 0.005712392507120967,
      "step": 128
    },
    {
      "epoch": 0.129,
      "grad_norm": 5.375,
      "grad_norm_var": 1.286358388264974,
      "learning_rate": 2e-05,
      "loss": 0.0577,
      "loss/crossentropy": 0.8844976872205734,
      "loss/hidden": 0.0550537109375,
      "loss/logits": 0.0026012896560132504,
      "step": 129
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.94140625,
      "grad_norm_var": 1.2828027725219726,
      "learning_rate": 2e-05,
      "loss": 0.0532,
      "loss/crossentropy": 2.151723265647888,
      "loss/hidden": 0.04833984375,
      "loss/logits": 0.0048982377629727125,
      "step": 130
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.92578125,
      "grad_norm_var": 1.280975341796875,
      "learning_rate": 2e-05,
      "loss": 0.048,
      "loss/crossentropy": 2.190707802772522,
      "loss/hidden": 0.0435791015625,
      "loss/logits": 0.004458446754142642,
      "step": 131
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.73828125,
      "grad_norm_var": 1.2861162821451824,
      "learning_rate": 2e-05,
      "loss": 0.0562,
      "loss/crossentropy": 2.0854132175445557,
      "loss/hidden": 0.0511474609375,
      "loss/logits": 0.005020990269258618,
      "step": 132
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.6796875,
      "grad_norm_var": 1.299598185221354,
      "learning_rate": 2e-05,
      "loss": 0.0509,
      "loss/crossentropy": 2.0993438959121704,
      "loss/hidden": 0.046142578125,
      "loss/logits": 0.004787095822393894,
      "step": 133
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.96875,
      "grad_norm_var": 1.2983378092447917,
      "learning_rate": 2e-05,
      "loss": 0.0491,
      "loss/crossentropy": 2.2328933477401733,
      "loss/hidden": 0.0445556640625,
      "loss/logits": 0.004536583088338375,
      "step": 134
    },
    {
      "epoch": 0.135,
      "grad_norm": 1.0625,
      "grad_norm_var": 1.2969581604003906,
      "learning_rate": 2e-05,
      "loss": 0.0638,
      "loss/crossentropy": 1.9981300234794617,
      "loss/hidden": 0.0579833984375,
      "loss/logits": 0.00582107319496572,
      "step": 135
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.6796875,
      "grad_norm_var": 1.3004615783691407,
      "learning_rate": 2e-05,
      "loss": 0.0542,
      "loss/crossentropy": 2.1993343830108643,
      "loss/hidden": 0.049072265625,
      "loss/logits": 0.005134769715368748,
      "step": 136
    },
    {
      "epoch": 0.137,
      "grad_norm": 3.5,
      "grad_norm_var": 1.627500343322754,
      "learning_rate": 2e-05,
      "loss": 0.0595,
      "loss/crossentropy": 1.469780683517456,
      "loss/hidden": 0.0552978515625,
      "loss/logits": 0.0042177007999271154,
      "step": 137
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.87109375,
      "grad_norm_var": 1.632664426167806,
      "learning_rate": 2e-05,
      "loss": 0.0554,
      "loss/crossentropy": 1.8814529180526733,
      "loss/hidden": 0.0506591796875,
      "loss/logits": 0.004711252404376864,
      "step": 138
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.9140625,
      "grad_norm_var": 1.62430419921875,
      "learning_rate": 2e-05,
      "loss": 0.0542,
      "loss/crossentropy": 1.9769226908683777,
      "loss/hidden": 0.049560546875,
      "loss/logits": 0.004602615023031831,
      "step": 139
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.296875,
      "grad_norm_var": 1.5987385431925456,
      "learning_rate": 2e-05,
      "loss": 0.0562,
      "loss/crossentropy": 1.3646953105926514,
      "loss/hidden": 0.0516357421875,
      "loss/logits": 0.0045162534806877375,
      "step": 140
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.91796875,
      "grad_norm_var": 1.592772356669108,
      "learning_rate": 2e-05,
      "loss": 0.0586,
      "loss/crossentropy": 1.5901939272880554,
      "loss/hidden": 0.0538330078125,
      "loss/logits": 0.004788138438016176,
      "step": 141
    },
    {
      "epoch": 0.142,
      "grad_norm": 1.109375,
      "grad_norm_var": 1.5760719299316406,
      "learning_rate": 2e-05,
      "loss": 0.0686,
      "loss/crossentropy": 1.8436982035636902,
      "loss/hidden": 0.062744140625,
      "loss/logits": 0.005897135473787785,
      "step": 142
    },
    {
      "epoch": 0.143,
      "grad_norm": 1.0,
      "grad_norm_var": 1.5800819396972656,
      "learning_rate": 2e-05,
      "loss": 0.0677,
      "loss/crossentropy": 1.7922558188438416,
      "loss/hidden": 0.06103515625,
      "loss/logits": 0.006622593384236097,
      "step": 143
    },
    {
      "epoch": 0.144,
      "grad_norm": 1.046875,
      "grad_norm_var": 1.5693745295206705,
      "learning_rate": 2e-05,
      "loss": 0.0626,
      "loss/crossentropy": 1.8654756546020508,
      "loss/hidden": 0.05712890625,
      "loss/logits": 0.005447414005175233,
      "step": 144
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.8046875,
      "grad_norm_var": 0.43840071360270183,
      "learning_rate": 2e-05,
      "loss": 0.0653,
      "loss/crossentropy": 2.023370146751404,
      "loss/hidden": 0.0596923828125,
      "loss/logits": 0.005567178362980485,
      "step": 145
    },
    {
      "epoch": 0.146,
      "grad_norm": 1.7265625,
      "grad_norm_var": 0.4612627665201823,
      "learning_rate": 2e-05,
      "loss": 0.0718,
      "loss/crossentropy": 1.2652358412742615,
      "loss/hidden": 0.066162109375,
      "loss/logits": 0.00563872791826725,
      "step": 146
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.8359375,
      "grad_norm_var": 0.4643350601196289,
      "learning_rate": 2e-05,
      "loss": 0.0579,
      "loss/crossentropy": 2.181838572025299,
      "loss/hidden": 0.0528564453125,
      "loss/logits": 0.0050070807337760925,
      "step": 147
    },
    {
      "epoch": 0.148,
      "grad_norm": 1.65625,
      "grad_norm_var": 0.4685035705566406,
      "learning_rate": 2e-05,
      "loss": 0.0653,
      "loss/crossentropy": 1.6760476231575012,
      "loss/hidden": 0.059814453125,
      "loss/logits": 0.005448109935969114,
      "step": 148
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.875,
      "grad_norm_var": 0.45754903157552085,
      "learning_rate": 2e-05,
      "loss": 0.0608,
      "loss/crossentropy": 1.9610846042633057,
      "loss/hidden": 0.05517578125,
      "loss/logits": 0.0055898819118738174,
      "step": 149
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2890625,
      "grad_norm_var": 0.45391006469726564,
      "learning_rate": 2e-05,
      "loss": 0.0607,
      "loss/crossentropy": 2.0354663729667664,
      "loss/hidden": 0.054931640625,
      "loss/logits": 0.005750466603785753,
      "step": 150
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.91015625,
      "grad_norm_var": 0.4586435317993164,
      "learning_rate": 2e-05,
      "loss": 0.061,
      "loss/crossentropy": 1.5509551763534546,
      "loss/hidden": 0.05615234375,
      "loss/logits": 0.00486933346837759,
      "step": 151
    },
    {
      "epoch": 0.152,
      "grad_norm": 1.8203125,
      "grad_norm_var": 0.45860640207926434,
      "learning_rate": 2e-05,
      "loss": 0.0823,
      "loss/crossentropy": 1.3190861344337463,
      "loss/hidden": 0.076171875,
      "loss/logits": 0.006146557629108429,
      "step": 152
    },
    {
      "epoch": 0.153,
      "grad_norm": 1.65625,
      "grad_norm_var": 0.12676741282145182,
      "learning_rate": 2e-05,
      "loss": 0.0689,
      "loss/crossentropy": 2.0075970888137817,
      "loss/hidden": 0.0626220703125,
      "loss/logits": 0.0062951259315013885,
      "step": 153
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.84375,
      "grad_norm_var": 0.12790629069010417,
      "learning_rate": 2e-05,
      "loss": 0.0645,
      "loss/crossentropy": 2.5025904178619385,
      "loss/hidden": 0.0584716796875,
      "loss/logits": 0.005998906912282109,
      "step": 154
    },
    {
      "epoch": 0.155,
      "grad_norm": 1.75,
      "grad_norm_var": 0.14317194620768228,
      "learning_rate": 2e-05,
      "loss": 0.0673,
      "loss/crossentropy": 1.7674061059951782,
      "loss/hidden": 0.0618896484375,
      "loss/logits": 0.005377188790589571,
      "step": 155
    },
    {
      "epoch": 0.156,
      "grad_norm": 1.046875,
      "grad_norm_var": 0.14455540974934897,
      "learning_rate": 2e-05,
      "loss": 0.0696,
      "loss/crossentropy": 1.4891575574874878,
      "loss/hidden": 0.0640869140625,
      "loss/logits": 0.005491052754223347,
      "step": 156
    },
    {
      "epoch": 0.157,
      "grad_norm": 1.0078125,
      "grad_norm_var": 0.1416147232055664,
      "learning_rate": 2e-05,
      "loss": 0.0656,
      "loss/crossentropy": 1.4295508861541748,
      "loss/hidden": 0.060546875,
      "loss/logits": 0.005026416387408972,
      "step": 157
    },
    {
      "epoch": 0.158,
      "grad_norm": 8.5,
      "grad_norm_var": 3.4551263809204102,
      "learning_rate": 2e-05,
      "loss": 0.1047,
      "loss/crossentropy": 1.6207728683948517,
      "loss/hidden": 0.09716796875,
      "loss/logits": 0.007503823610022664,
      "step": 158
    },
    {
      "epoch": 0.159,
      "grad_norm": 1.3125,
      "grad_norm_var": 3.4331842422485352,
      "learning_rate": 2e-05,
      "loss": 0.0663,
      "loss/crossentropy": 1.838720440864563,
      "loss/hidden": 0.06103515625,
      "loss/logits": 0.0052408319897949696,
      "step": 159
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.765625,
      "grad_norm_var": 3.403587277730306,
      "learning_rate": 2e-05,
      "loss": 0.0729,
      "loss/crossentropy": 1.9572261571884155,
      "loss/hidden": 0.06640625,
      "loss/logits": 0.00649917172268033,
      "step": 160
    },
    {
      "epoch": 0.161,
      "grad_norm": 7.71875,
      "grad_norm_var": 5.5313720067342125,
      "learning_rate": 2e-05,
      "loss": 0.0873,
      "loss/crossentropy": 0.06751747522503138,
      "loss/hidden": 0.086181640625,
      "loss/logits": 0.001096382096875459,
      "step": 161
    },
    {
      "epoch": 0.162,
      "grad_norm": 1.65625,
      "grad_norm_var": 5.535835202534994,
      "learning_rate": 2e-05,
      "loss": 0.0753,
      "loss/crossentropy": 1.9767259359359741,
      "loss/hidden": 0.06884765625,
      "loss/logits": 0.006433435715734959,
      "step": 162
    },
    {
      "epoch": 0.163,
      "grad_norm": 1.2734375,
      "grad_norm_var": 5.470252927144369,
      "learning_rate": 2e-05,
      "loss": 0.0742,
      "loss/crossentropy": 1.6337787508964539,
      "loss/hidden": 0.068359375,
      "loss/logits": 0.0058679585345089436,
      "step": 163
    },
    {
      "epoch": 0.164,
      "grad_norm": 1.171875,
      "grad_norm_var": 5.519557634989421,
      "learning_rate": 2e-05,
      "loss": 0.0791,
      "loss/crossentropy": 1.5085630416870117,
      "loss/hidden": 0.0732421875,
      "loss/logits": 0.00587455416098237,
      "step": 164
    },
    {
      "epoch": 0.165,
      "grad_norm": 1.328125,
      "grad_norm_var": 5.454612668355306,
      "learning_rate": 2e-05,
      "loss": 0.0733,
      "loss/crossentropy": 2.1295101046562195,
      "loss/hidden": 0.0665283203125,
      "loss/logits": 0.006821601651608944,
      "step": 165
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.828125,
      "grad_norm_var": 5.523303159077963,
      "learning_rate": 2e-05,
      "loss": 0.0681,
      "loss/crossentropy": 2.1514192819595337,
      "loss/hidden": 0.061767578125,
      "loss/logits": 0.0063285790383815765,
      "step": 166
    },
    {
      "epoch": 0.167,
      "grad_norm": 0.9140625,
      "grad_norm_var": 5.522652180989583,
      "learning_rate": 2e-05,
      "loss": 0.0799,
      "loss/crossentropy": 1.907168447971344,
      "loss/hidden": 0.072509765625,
      "loss/logits": 0.0073654367588460445,
      "step": 167
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.70703125,
      "grad_norm_var": 5.650849850972493,
      "learning_rate": 2e-05,
      "loss": 0.0665,
      "loss/crossentropy": 2.490573525428772,
      "loss/hidden": 0.0604248046875,
      "loss/logits": 0.006123463856056333,
      "step": 168
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.921875,
      "grad_norm_var": 5.727275530497233,
      "learning_rate": 2e-05,
      "loss": 0.0686,
      "loss/crossentropy": 2.1971182823181152,
      "loss/hidden": 0.0625,
      "loss/logits": 0.006081034895032644,
      "step": 169
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.84375,
      "grad_norm_var": 5.727275530497233,
      "learning_rate": 2e-05,
      "loss": 0.0723,
      "loss/crossentropy": 1.9449633955955505,
      "loss/hidden": 0.06591796875,
      "loss/logits": 0.00633727153763175,
      "step": 170
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.80078125,
      "grad_norm_var": 5.8211313883463545,
      "learning_rate": 2e-05,
      "loss": 0.0721,
      "loss/crossentropy": 1.8933625221252441,
      "loss/hidden": 0.066162109375,
      "loss/logits": 0.005927694728597999,
      "step": 171
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.734375,
      "grad_norm_var": 5.8664194742838545,
      "learning_rate": 2e-05,
      "loss": 0.0756,
      "loss/crossentropy": 2.2961581349372864,
      "loss/hidden": 0.069091796875,
      "loss/logits": 0.00650426116771996,
      "step": 172
    },
    {
      "epoch": 0.173,
      "grad_norm": 1.0859375,
      "grad_norm_var": 5.856801350911458,
      "learning_rate": 2e-05,
      "loss": 0.0876,
      "loss/crossentropy": 1.5580723285675049,
      "loss/hidden": 0.080322265625,
      "loss/logits": 0.00728521216660738,
      "step": 173
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.87109375,
      "grad_norm_var": 2.8547820409138995,
      "learning_rate": 2e-05,
      "loss": 0.0785,
      "loss/crossentropy": 2.4996918439865112,
      "loss/hidden": 0.07080078125,
      "loss/logits": 0.0076872315257787704,
      "step": 174
    },
    {
      "epoch": 0.175,
      "grad_norm": 1.09375,
      "grad_norm_var": 2.863120460510254,
      "learning_rate": 2e-05,
      "loss": 0.0842,
      "loss/crossentropy": 2.341306686401367,
      "loss/hidden": 0.075927734375,
      "loss/logits": 0.008260179311037064,
      "step": 175
    },
    {
      "epoch": 0.176,
      "grad_norm": 1.2734375,
      "grad_norm_var": 2.859659767150879,
      "learning_rate": 2e-05,
      "loss": 0.0839,
      "loss/crossentropy": 2.0976521968841553,
      "loss/hidden": 0.075927734375,
      "loss/logits": 0.007956868037581444,
      "step": 176
    },
    {
      "epoch": 0.177,
      "grad_norm": 1.6640625,
      "grad_norm_var": 0.09129581451416016,
      "learning_rate": 2e-05,
      "loss": 0.0854,
      "loss/crossentropy": 1.5655289888381958,
      "loss/hidden": 0.078857421875,
      "loss/logits": 0.006505638128146529,
      "step": 177
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.96484375,
      "grad_norm_var": 0.06740493774414062,
      "learning_rate": 2e-05,
      "loss": 0.0832,
      "loss/crossentropy": 1.947506844997406,
      "loss/hidden": 0.076171875,
      "loss/logits": 0.0070168147794902325,
      "step": 178
    },
    {
      "epoch": 0.179,
      "grad_norm": 4.5625,
      "grad_norm_var": 0.8503774007161459,
      "learning_rate": 2e-05,
      "loss": 0.0965,
      "loss/crossentropy": 1.557403326034546,
      "loss/hidden": 0.087158203125,
      "loss/logits": 0.009354921989142895,
      "step": 179
    },
    {
      "epoch": 0.18,
      "grad_norm": 8.3125,
      "grad_norm_var": 3.9767252604166665,
      "learning_rate": 2e-05,
      "loss": 0.1122,
      "loss/crossentropy": 0.45333431661129,
      "loss/hidden": 0.109375,
      "loss/logits": 0.0027967533096671104,
      "step": 180
    },
    {
      "epoch": 0.181,
      "grad_norm": 1.546875,
      "grad_norm_var": 3.969405110677083,
      "learning_rate": 2e-05,
      "loss": 0.0829,
      "loss/crossentropy": 2.005882978439331,
      "loss/hidden": 0.075439453125,
      "loss/logits": 0.007453362224623561,
      "step": 181
    },
    {
      "epoch": 0.182,
      "grad_norm": 1.3515625,
      "grad_norm_var": 3.926006825764974,
      "learning_rate": 2e-05,
      "loss": 0.0849,
      "loss/crossentropy": 2.199571132659912,
      "loss/hidden": 0.077880859375,
      "loss/logits": 0.0069826748222112656,
      "step": 182
    },
    {
      "epoch": 0.183,
      "grad_norm": 1.5703125,
      "grad_norm_var": 3.8817014058430988,
      "learning_rate": 2e-05,
      "loss": 0.0921,
      "loss/crossentropy": 1.6926537156105042,
      "loss/hidden": 0.085205078125,
      "loss/logits": 0.006879956694319844,
      "step": 183
    },
    {
      "epoch": 0.184,
      "grad_norm": 1.203125,
      "grad_norm_var": 3.826835568745931,
      "learning_rate": 2e-05,
      "loss": 0.0964,
      "loss/crossentropy": 1.509221613407135,
      "loss/hidden": 0.087890625,
      "loss/logits": 0.00847849901765585,
      "step": 184
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.703125,
      "grad_norm_var": 3.8554396947224934,
      "learning_rate": 2e-05,
      "loss": 0.0788,
      "loss/crossentropy": 2.4337867498397827,
      "loss/hidden": 0.072021484375,
      "loss/logits": 0.0067423065192997456,
      "step": 185
    },
    {
      "epoch": 0.186,
      "grad_norm": 1.234375,
      "grad_norm_var": 3.815881284077962,
      "learning_rate": 2e-05,
      "loss": 0.0966,
      "loss/crossentropy": 1.7458332180976868,
      "loss/hidden": 0.08837890625,
      "loss/logits": 0.008262162329629064,
      "step": 186
    },
    {
      "epoch": 0.187,
      "grad_norm": 6.59375,
      "grad_norm_var": 5.133159383138021,
      "learning_rate": 2e-05,
      "loss": 0.0928,
      "loss/crossentropy": 2.116236627101898,
      "loss/hidden": 0.0830078125,
      "loss/logits": 0.00975541677325964,
      "step": 187
    },
    {
      "epoch": 0.188,
      "grad_norm": 1.8203125,
      "grad_norm_var": 4.998583730061849,
      "learning_rate": 2e-05,
      "loss": 0.0831,
      "loss/crossentropy": 2.324514389038086,
      "loss/hidden": 0.075439453125,
      "loss/logits": 0.007644579978659749,
      "step": 188
    },
    {
      "epoch": 0.189,
      "grad_norm": 0.796875,
      "grad_norm_var": 5.048313395182292,
      "learning_rate": 2e-05,
      "loss": 0.0867,
      "loss/crossentropy": 1.9479625821113586,
      "loss/hidden": 0.0791015625,
      "loss/logits": 0.0075566458981484175,
      "step": 189
    },
    {
      "epoch": 0.19,
      "grad_norm": 15.875,
      "grad_norm_var": 16.414309628804524,
      "learning_rate": 2e-05,
      "loss": 0.1592,
      "loss/crossentropy": 1.5863521695137024,
      "loss/hidden": 0.1494140625,
      "loss/logits": 0.009787225630134344,
      "step": 190
    },
    {
      "epoch": 0.191,
      "grad_norm": 2.046875,
      "grad_norm_var": 16.208450762430825,
      "learning_rate": 2e-05,
      "loss": 0.0784,
      "loss/crossentropy": 0.8779918029904366,
      "loss/hidden": 0.073974609375,
      "loss/logits": 0.004391094436869025,
      "step": 191
    },
    {
      "epoch": 0.192,
      "grad_norm": 1.375,
      "grad_norm_var": 16.1827361424764,
      "learning_rate": 2e-05,
      "loss": 0.0931,
      "loss/crossentropy": 2.1567060947418213,
      "loss/hidden": 0.085693359375,
      "loss/logits": 0.007449513301253319,
      "step": 192
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.875,
      "grad_norm_var": 16.386012204488118,
      "learning_rate": 2e-05,
      "loss": 0.0898,
      "loss/crossentropy": 1.8178179860115051,
      "loss/hidden": 0.08251953125,
      "loss/logits": 0.007294924231246114,
      "step": 193
    },
    {
      "epoch": 0.194,
      "grad_norm": 2.21875,
      "grad_norm_var": 16.114434560139973,
      "learning_rate": 2e-05,
      "loss": 0.1014,
      "loss/crossentropy": 1.8806178569793701,
      "loss/hidden": 0.09375,
      "loss/logits": 0.0076924534514546394,
      "step": 194
    },
    {
      "epoch": 0.195,
      "grad_norm": 1.8671875,
      "grad_norm_var": 16.098729451497395,
      "learning_rate": 2e-05,
      "loss": 0.1048,
      "loss/crossentropy": 1.6054936051368713,
      "loss/hidden": 0.096435546875,
      "loss/logits": 0.008354771416634321,
      "step": 195
    },
    {
      "epoch": 0.196,
      "grad_norm": 1.90625,
      "grad_norm_var": 14.200210571289062,
      "learning_rate": 2e-05,
      "loss": 0.0851,
      "loss/crossentropy": 1.1937458366155624,
      "loss/hidden": 0.079833984375,
      "loss/logits": 0.005313969450071454,
      "step": 196
    },
    {
      "epoch": 0.197,
      "grad_norm": 2.453125,
      "grad_norm_var": 14.113833618164062,
      "learning_rate": 2e-05,
      "loss": 0.1056,
      "loss/crossentropy": 1.9973903894424438,
      "loss/hidden": 0.09619140625,
      "loss/logits": 0.00938287889584899,
      "step": 197
    },
    {
      "epoch": 0.198,
      "grad_norm": 1.5546875,
      "grad_norm_var": 14.07872314453125,
      "learning_rate": 2e-05,
      "loss": 0.087,
      "loss/crossentropy": 2.0422087907791138,
      "loss/hidden": 0.07958984375,
      "loss/logits": 0.007449948927387595,
      "step": 198
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.875,
      "grad_norm_var": 14.218849436442058,
      "learning_rate": 2e-05,
      "loss": 0.0908,
      "loss/crossentropy": 2.040232002735138,
      "loss/hidden": 0.08349609375,
      "loss/logits": 0.007334771566092968,
      "step": 199
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.6875,
      "grad_norm_var": 14.104658762613932,
      "learning_rate": 2e-05,
      "loss": 0.0996,
      "loss/crossentropy": 1.7977141737937927,
      "loss/hidden": 0.09130859375,
      "loss/logits": 0.008285259362310171,
      "step": 200
    },
    {
      "epoch": 0.201,
      "grad_norm": 1.1640625,
      "grad_norm_var": 13.984908040364584,
      "learning_rate": 2e-05,
      "loss": 0.0923,
      "loss/crossentropy": 1.960830569267273,
      "loss/hidden": 0.0849609375,
      "loss/logits": 0.007373227505013347,
      "step": 201
    },
    {
      "epoch": 0.202,
      "grad_norm": 1.2109375,
      "grad_norm_var": 13.99013646443685,
      "learning_rate": 2e-05,
      "loss": 0.1063,
      "loss/crossentropy": 1.5903997421264648,
      "loss/hidden": 0.098876953125,
      "loss/logits": 0.007376475026831031,
      "step": 202
    },
    {
      "epoch": 0.203,
      "grad_norm": 2.015625,
      "grad_norm_var": 13.0423215230306,
      "learning_rate": 2e-05,
      "loss": 0.0958,
      "loss/crossentropy": 1.1866007596254349,
      "loss/hidden": 0.0908203125,
      "loss/logits": 0.0049855056568048894,
      "step": 203
    },
    {
      "epoch": 0.204,
      "grad_norm": 2.203125,
      "grad_norm_var": 13.01123046875,
      "learning_rate": 2e-05,
      "loss": 0.1001,
      "loss/crossentropy": 2.016387164592743,
      "loss/hidden": 0.092529296875,
      "loss/logits": 0.0076178074814379215,
      "step": 204
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.98828125,
      "grad_norm_var": 12.966665585835775,
      "learning_rate": 2e-05,
      "loss": 0.1017,
      "loss/crossentropy": 1.9937080144882202,
      "loss/hidden": 0.09326171875,
      "loss/logits": 0.008388462010771036,
      "step": 205
    },
    {
      "epoch": 0.206,
      "grad_norm": 1.65625,
      "grad_norm_var": 0.5201679865519205,
      "learning_rate": 2e-05,
      "loss": 0.1012,
      "loss/crossentropy": 1.8353246450424194,
      "loss/hidden": 0.09326171875,
      "loss/logits": 0.00795629364438355,
      "step": 206
    },
    {
      "epoch": 0.207,
      "grad_norm": 1.6875,
      "grad_norm_var": 0.5143070856730143,
      "learning_rate": 2e-05,
      "loss": 0.0918,
      "loss/crossentropy": 1.0499791204929352,
      "loss/hidden": 0.08740234375,
      "loss/logits": 0.004438678151927888,
      "step": 207
    },
    {
      "epoch": 0.208,
      "grad_norm": 1.0625,
      "grad_norm_var": 0.5353540420532227,
      "learning_rate": 2e-05,
      "loss": 0.107,
      "loss/crossentropy": 1.8614663481712341,
      "loss/hidden": 0.09814453125,
      "loss/logits": 0.008855776861310005,
      "step": 208
    },
    {
      "epoch": 0.209,
      "grad_norm": 2.390625,
      "grad_norm_var": 0.5093535741170248,
      "learning_rate": 2e-05,
      "loss": 0.1072,
      "loss/crossentropy": 2.363565683364868,
      "loss/hidden": 0.096923828125,
      "loss/logits": 0.010271006729453802,
      "step": 209
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.171875,
      "grad_norm_var": 0.5069289525349935,
      "learning_rate": 2e-05,
      "loss": 0.1086,
      "loss/crossentropy": 1.955030083656311,
      "loss/hidden": 0.099365234375,
      "loss/logits": 0.0092296302318573,
      "step": 210
    },
    {
      "epoch": 0.211,
      "grad_norm": 1.2265625,
      "grad_norm_var": 0.5273447036743164,
      "learning_rate": 2e-05,
      "loss": 0.1062,
      "loss/crossentropy": 1.774095892906189,
      "loss/hidden": 0.0986328125,
      "loss/logits": 0.007574398070573807,
      "step": 211
    },
    {
      "epoch": 0.212,
      "grad_norm": 1.2890625,
      "grad_norm_var": 0.5396000544230143,
      "learning_rate": 2e-05,
      "loss": 0.1117,
      "loss/crossentropy": 1.8405153155326843,
      "loss/hidden": 0.10302734375,
      "loss/logits": 0.008719130419194698,
      "step": 212
    },
    {
      "epoch": 0.213,
      "grad_norm": 1.40625,
      "grad_norm_var": 0.5067829767862956,
      "learning_rate": 2e-05,
      "loss": 0.1045,
      "loss/crossentropy": 2.0069875717163086,
      "loss/hidden": 0.095947265625,
      "loss/logits": 0.008583055343478918,
      "step": 213
    },
    {
      "epoch": 0.214,
      "grad_norm": 1.1640625,
      "grad_norm_var": 0.5219018936157227,
      "learning_rate": 2e-05,
      "loss": 0.1103,
      "loss/crossentropy": 1.670526921749115,
      "loss/hidden": 0.102294921875,
      "loss/logits": 0.008038338739424944,
      "step": 214
    },
    {
      "epoch": 0.215,
      "grad_norm": 1.8828125,
      "grad_norm_var": 0.48292789459228513,
      "learning_rate": 2e-05,
      "loss": 0.1121,
      "loss/crossentropy": 1.795514464378357,
      "loss/hidden": 0.103759765625,
      "loss/logits": 0.008318986743688583,
      "step": 215
    },
    {
      "epoch": 0.216,
      "grad_norm": 1.1328125,
      "grad_norm_var": 0.2139871597290039,
      "learning_rate": 2e-05,
      "loss": 0.1066,
      "loss/crossentropy": 2.180332064628601,
      "loss/hidden": 0.09716796875,
      "loss/logits": 0.009391986764967442,
      "step": 216
    },
    {
      "epoch": 0.217,
      "grad_norm": 1.9375,
      "grad_norm_var": 0.21252689361572266,
      "learning_rate": 2e-05,
      "loss": 0.1234,
      "loss/crossentropy": 1.8504464030265808,
      "loss/hidden": 0.11181640625,
      "loss/logits": 0.011583337560296059,
      "step": 217
    },
    {
      "epoch": 0.218,
      "grad_norm": 1.046875,
      "grad_norm_var": 0.22248172760009766,
      "learning_rate": 2e-05,
      "loss": 0.1098,
      "loss/crossentropy": 1.6542016863822937,
      "loss/hidden": 0.101806640625,
      "loss/logits": 0.007953221211209893,
      "step": 218
    },
    {
      "epoch": 0.219,
      "grad_norm": 1.1484375,
      "grad_norm_var": 0.21898136138916016,
      "learning_rate": 2e-05,
      "loss": 0.1185,
      "loss/crossentropy": 1.8401342630386353,
      "loss/hidden": 0.107421875,
      "loss/logits": 0.011056106071919203,
      "step": 219
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2578125,
      "grad_norm_var": 0.18931725819905598,
      "learning_rate": 2e-05,
      "loss": 0.1082,
      "loss/crossentropy": 1.8265935778617859,
      "loss/hidden": 0.09912109375,
      "loss/logits": 0.009068313986063004,
      "step": 220
    },
    {
      "epoch": 0.221,
      "grad_norm": 52.25,
      "grad_norm_var": 161.16229426066081,
      "learning_rate": 2e-05,
      "loss": 0.1937,
      "loss/crossentropy": 1.5437742471694946,
      "loss/hidden": 0.170654296875,
      "loss/logits": 0.023064299020916224,
      "step": 221
    },
    {
      "epoch": 0.222,
      "grad_norm": 2.28125,
      "grad_norm_var": 160.93560969034831,
      "learning_rate": 2e-05,
      "loss": 0.1246,
      "loss/crossentropy": 1.227450430393219,
      "loss/hidden": 0.11572265625,
      "loss/logits": 0.008849140722304583,
      "step": 222
    },
    {
      "epoch": 0.223,
      "grad_norm": 1.28125,
      "grad_norm_var": 161.10956192016602,
      "learning_rate": 2e-05,
      "loss": 0.1196,
      "loss/crossentropy": 1.9892451167106628,
      "loss/hidden": 0.1103515625,
      "loss/logits": 0.009212612174451351,
      "step": 223
    },
    {
      "epoch": 0.224,
      "grad_norm": 1.0625,
      "grad_norm_var": 161.10956192016602,
      "learning_rate": 2e-05,
      "loss": 0.1208,
      "loss/crossentropy": 1.9727575778961182,
      "loss/hidden": 0.111328125,
      "loss/logits": 0.009519532322883606,
      "step": 224
    },
    {
      "epoch": 0.225,
      "grad_norm": 1.9140625,
      "grad_norm_var": 161.26942443847656,
      "learning_rate": 2e-05,
      "loss": 0.1112,
      "loss/crossentropy": 2.20854651927948,
      "loss/hidden": 0.1025390625,
      "loss/logits": 0.008704130537807941,
      "step": 225
    },
    {
      "epoch": 0.226,
      "grad_norm": 1.703125,
      "grad_norm_var": 161.43824768066406,
      "learning_rate": 2e-05,
      "loss": 0.1249,
      "loss/crossentropy": 1.8244708180427551,
      "loss/hidden": 0.115478515625,
      "loss/logits": 0.009438233450055122,
      "step": 226
    },
    {
      "epoch": 0.227,
      "grad_norm": 1.9921875,
      "grad_norm_var": 161.12805989583333,
      "learning_rate": 2e-05,
      "loss": 0.1264,
      "loss/crossentropy": 1.6184683442115784,
      "loss/hidden": 0.117431640625,
      "loss/logits": 0.008998575620353222,
      "step": 227
    },
    {
      "epoch": 0.228,
      "grad_norm": 1.40625,
      "grad_norm_var": 161.0760617574056,
      "learning_rate": 2e-05,
      "loss": 0.1427,
      "loss/crossentropy": 1.9090940952301025,
      "loss/hidden": 0.1298828125,
      "loss/logits": 0.01286676386371255,
      "step": 228
    },
    {
      "epoch": 0.229,
      "grad_norm": 1.5078125,
      "grad_norm_var": 161.03238525390626,
      "learning_rate": 2e-05,
      "loss": 0.1191,
      "loss/crossentropy": 1.7622392773628235,
      "loss/hidden": 0.109619140625,
      "loss/logits": 0.009484861977398396,
      "step": 229
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3671875,
      "grad_norm_var": 160.93959045410156,
      "learning_rate": 2e-05,
      "loss": 0.1185,
      "loss/crossentropy": 1.7633178234100342,
      "loss/hidden": 0.109130859375,
      "loss/logits": 0.009330280125141144,
      "step": 230
    },
    {
      "epoch": 0.231,
      "grad_norm": 0.98828125,
      "grad_norm_var": 161.32540073394776,
      "learning_rate": 2e-05,
      "loss": 0.1188,
      "loss/crossentropy": 2.186140298843384,
      "loss/hidden": 0.108154296875,
      "loss/logits": 0.010631876531988382,
      "step": 231
    },
    {
      "epoch": 0.232,
      "grad_norm": 3.28125,
      "grad_norm_var": 160.60855553944904,
      "learning_rate": 2e-05,
      "loss": 0.1224,
      "loss/crossentropy": 0.8389374911785126,
      "loss/hidden": 0.1171875,
      "loss/logits": 0.005214276316110045,
      "step": 232
    },
    {
      "epoch": 0.233,
      "grad_norm": 1.0703125,
      "grad_norm_var": 160.98382867177327,
      "learning_rate": 2e-05,
      "loss": 0.116,
      "loss/crossentropy": 2.1515474915504456,
      "loss/hidden": 0.107421875,
      "loss/logits": 0.00860951654613018,
      "step": 233
    },
    {
      "epoch": 0.234,
      "grad_norm": 4.5,
      "grad_norm_var": 160.03680464426677,
      "learning_rate": 2e-05,
      "loss": 0.1312,
      "loss/crossentropy": 1.6820667684078217,
      "loss/hidden": 0.123046875,
      "loss/logits": 0.008124232292175293,
      "step": 234
    },
    {
      "epoch": 0.235,
      "grad_norm": 2.40625,
      "grad_norm_var": 159.50010522206625,
      "learning_rate": 2e-05,
      "loss": 0.1056,
      "loss/crossentropy": 0.9079534839838743,
      "loss/hidden": 0.10107421875,
      "loss/logits": 0.004542189242783934,
      "step": 235
    },
    {
      "epoch": 0.236,
      "grad_norm": 0.984375,
      "grad_norm_var": 159.64182631174722,
      "learning_rate": 2e-05,
      "loss": 0.1192,
      "loss/crossentropy": 2.261181592941284,
      "loss/hidden": 0.109619140625,
      "loss/logits": 0.009581252932548523,
      "step": 236
    },
    {
      "epoch": 0.237,
      "grad_norm": 0.9921875,
      "grad_norm_var": 0.9261479059855143,
      "learning_rate": 2e-05,
      "loss": 0.1281,
      "loss/crossentropy": 1.9553669095039368,
      "loss/hidden": 0.116943359375,
      "loss/logits": 0.011152476072311401,
      "step": 237
    },
    {
      "epoch": 0.238,
      "grad_norm": 1.640625,
      "grad_norm_var": 0.9103616714477539,
      "learning_rate": 2e-05,
      "loss": 0.1466,
      "loss/crossentropy": 1.6360890865325928,
      "loss/hidden": 0.13525390625,
      "loss/logits": 0.011308418586850166,
      "step": 238
    },
    {
      "epoch": 0.239,
      "grad_norm": 2.265625,
      "grad_norm_var": 0.9085992813110352,
      "learning_rate": 2e-05,
      "loss": 0.133,
      "loss/crossentropy": 1.0788212679326534,
      "loss/hidden": 0.125732421875,
      "loss/logits": 0.007256039883941412,
      "step": 239
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.7578125,
      "grad_norm_var": 0.8688089370727539,
      "learning_rate": 2e-05,
      "loss": 0.1296,
      "loss/crossentropy": 1.6809419393539429,
      "loss/hidden": 0.119873046875,
      "loss/logits": 0.009761545807123184,
      "step": 240
    },
    {
      "epoch": 0.241,
      "grad_norm": 1.4921875,
      "grad_norm_var": 0.8769525527954102,
      "learning_rate": 2e-05,
      "loss": 0.1298,
      "loss/crossentropy": 2.1073160767555237,
      "loss/hidden": 0.1201171875,
      "loss/logits": 0.009713000617921352,
      "step": 241
    },
    {
      "epoch": 0.242,
      "grad_norm": 3.3125,
      "grad_norm_var": 1.0105956395467122,
      "learning_rate": 2e-05,
      "loss": 0.1851,
      "loss/crossentropy": 1.7140259146690369,
      "loss/hidden": 0.168212890625,
      "loss/logits": 0.01692299358546734,
      "step": 242
    },
    {
      "epoch": 0.243,
      "grad_norm": 1.3203125,
      "grad_norm_var": 1.0337132136027019,
      "learning_rate": 2e-05,
      "loss": 0.141,
      "loss/crossentropy": 1.70401269197464,
      "loss/hidden": 0.13037109375,
      "loss/logits": 0.010653213132172823,
      "step": 243
    },
    {
      "epoch": 0.244,
      "grad_norm": 2.015625,
      "grad_norm_var": 1.0173481623331706,
      "learning_rate": 2e-05,
      "loss": 0.1561,
      "loss/crossentropy": 1.9086145758628845,
      "loss/hidden": 0.1416015625,
      "loss/logits": 0.01448416942730546,
      "step": 244
    },
    {
      "epoch": 0.245,
      "grad_norm": 1.890625,
      "grad_norm_var": 1.0048868179321289,
      "learning_rate": 2e-05,
      "loss": 0.1751,
      "loss/crossentropy": 1.5015806555747986,
      "loss/hidden": 0.16064453125,
      "loss/logits": 0.014442750252783298,
      "step": 245
    },
    {
      "epoch": 0.246,
      "grad_norm": 1.6796875,
      "grad_norm_var": 0.9864847183227539,
      "learning_rate": 2e-05,
      "loss": 0.1323,
      "loss/crossentropy": 1.9546470642089844,
      "loss/hidden": 0.12255859375,
      "loss/logits": 0.009766705334186554,
      "step": 246
    },
    {
      "epoch": 0.247,
      "grad_norm": 1.203125,
      "grad_norm_var": 0.9611083984375,
      "learning_rate": 2e-05,
      "loss": 0.1539,
      "loss/crossentropy": 1.7062721848487854,
      "loss/hidden": 0.1416015625,
      "loss/logits": 0.01230617519468069,
      "step": 247
    },
    {
      "epoch": 0.248,
      "grad_norm": 4.21875,
      "grad_norm_var": 1.1776611328125,
      "learning_rate": 2e-05,
      "loss": 0.1515,
      "loss/crossentropy": 1.740279734134674,
      "loss/hidden": 0.14013671875,
      "loss/logits": 0.011402689386159182,
      "step": 248
    },
    {
      "epoch": 0.249,
      "grad_norm": 2.3125,
      "grad_norm_var": 1.1123573303222656,
      "learning_rate": 2e-05,
      "loss": 0.1504,
      "loss/crossentropy": 1.640882670879364,
      "loss/hidden": 0.1396484375,
      "loss/logits": 0.01071554934605956,
      "step": 249
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.796875,
      "grad_norm_var": 0.7542132059733073,
      "learning_rate": 2e-05,
      "loss": 0.1364,
      "loss/crossentropy": 1.4670004844665527,
      "loss/hidden": 0.126708984375,
      "loss/logits": 0.0096431621350348,
      "step": 250
    },
    {
      "epoch": 0.251,
      "grad_norm": 1.1796875,
      "grad_norm_var": 0.7847574869791667,
      "learning_rate": 2e-05,
      "loss": 0.14,
      "loss/crossentropy": 2.2024736404418945,
      "loss/hidden": 0.127197265625,
      "loss/logits": 0.012759591452777386,
      "step": 251
    },
    {
      "epoch": 0.252,
      "grad_norm": 3.53125,
      "grad_norm_var": 0.8651763916015625,
      "learning_rate": 2e-05,
      "loss": 0.1539,
      "loss/crossentropy": 2.0269722938537598,
      "loss/hidden": 0.14208984375,
      "loss/logits": 0.011817097198218107,
      "step": 252
    },
    {
      "epoch": 0.253,
      "grad_norm": 9.375,
      "grad_norm_var": 4.018281809488932,
      "learning_rate": 2e-05,
      "loss": 0.1661,
      "loss/crossentropy": 0.34899202920496464,
      "loss/hidden": 0.163818359375,
      "loss/logits": 0.0022718849941156805,
      "step": 253
    },
    {
      "epoch": 0.254,
      "grad_norm": 1.9921875,
      "grad_norm_var": 3.9798868815104167,
      "learning_rate": 2e-05,
      "loss": 0.1441,
      "loss/crossentropy": 2.2475985288619995,
      "loss/hidden": 0.1318359375,
      "loss/logits": 0.012224531266838312,
      "step": 254
    },
    {
      "epoch": 0.255,
      "grad_norm": 1.6328125,
      "grad_norm_var": 4.037050120035807,
      "learning_rate": 2e-05,
      "loss": 0.1497,
      "loss/crossentropy": 2.8270416259765625,
      "loss/hidden": 0.13623046875,
      "loss/logits": 0.013480226043611765,
      "step": 255
    },
    {
      "epoch": 0.256,
      "grad_norm": 1.4609375,
      "grad_norm_var": 4.07616958618164,
      "learning_rate": 2e-05,
      "loss": 0.1668,
      "loss/crossentropy": 1.3126854300498962,
      "loss/hidden": 0.15576171875,
      "loss/logits": 0.01107651786878705,
      "step": 256
    },
    {
      "epoch": 0.257,
      "grad_norm": 1.9140625,
      "grad_norm_var": 4.02563247680664,
      "learning_rate": 2e-05,
      "loss": 0.1502,
      "loss/crossentropy": 1.4198355078697205,
      "loss/hidden": 0.1396484375,
      "loss/logits": 0.01056258101016283,
      "step": 257
    },
    {
      "epoch": 0.258,
      "grad_norm": 1.3671875,
      "grad_norm_var": 4.081167602539063,
      "learning_rate": 2e-05,
      "loss": 0.1421,
      "loss/crossentropy": 1.657827377319336,
      "loss/hidden": 0.13232421875,
      "loss/logits": 0.009755304548889399,
      "step": 258
    },
    {
      "epoch": 0.259,
      "grad_norm": 1.75,
      "grad_norm_var": 4.025512440999349,
      "learning_rate": 2e-05,
      "loss": 0.1352,
      "loss/crossentropy": 2.3775731325149536,
      "loss/hidden": 0.12548828125,
      "loss/logits": 0.0096644451841712,
      "step": 259
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.40625,
      "grad_norm_var": 4.089703114827474,
      "learning_rate": 2e-05,
      "loss": 0.1442,
      "loss/crossentropy": 2.2461366653442383,
      "loss/hidden": 0.13232421875,
      "loss/logits": 0.011895926669239998,
      "step": 260
    },
    {
      "epoch": 0.261,
      "grad_norm": 2.578125,
      "grad_norm_var": 4.065040842692057,
      "learning_rate": 2e-05,
      "loss": 0.1474,
      "loss/crossentropy": 1.560776025056839,
      "loss/hidden": 0.1337890625,
      "loss/logits": 0.013578795362263918,
      "step": 261
    },
    {
      "epoch": 0.262,
      "grad_norm": 1.5390625,
      "grad_norm_var": 4.082124582926432,
      "learning_rate": 2e-05,
      "loss": 0.1556,
      "loss/crossentropy": 1.9976117014884949,
      "loss/hidden": 0.14404296875,
      "loss/logits": 0.011512083932757378,
      "step": 262
    },
    {
      "epoch": 0.263,
      "grad_norm": 1.6328125,
      "grad_norm_var": 4.018440755208333,
      "learning_rate": 2e-05,
      "loss": 0.1759,
      "loss/crossentropy": 1.705672264099121,
      "loss/hidden": 0.16162109375,
      "loss/logits": 0.014301342889666557,
      "step": 263
    },
    {
      "epoch": 0.264,
      "grad_norm": 1.765625,
      "grad_norm_var": 3.8464345296223956,
      "learning_rate": 2e-05,
      "loss": 0.1864,
      "loss/crossentropy": 1.7075408101081848,
      "loss/hidden": 0.171875,
      "loss/logits": 0.01456779520958662,
      "step": 264
    },
    {
      "epoch": 0.265,
      "grad_norm": 1.859375,
      "grad_norm_var": 3.86392822265625,
      "learning_rate": 2e-05,
      "loss": 0.1677,
      "loss/crossentropy": 2.094871759414673,
      "loss/hidden": 0.15380859375,
      "loss/logits": 0.013906504027545452,
      "step": 265
    },
    {
      "epoch": 0.266,
      "grad_norm": 2.578125,
      "grad_norm_var": 3.8542154947916667,
      "learning_rate": 2e-05,
      "loss": 0.1591,
      "loss/crossentropy": 2.166890859603882,
      "loss/hidden": 0.146484375,
      "loss/logits": 0.012606294360011816,
      "step": 266
    },
    {
      "epoch": 0.267,
      "grad_norm": 3.859375,
      "grad_norm_var": 3.885705312093099,
      "learning_rate": 2e-05,
      "loss": 0.1763,
      "loss/crossentropy": 1.674479365348816,
      "loss/hidden": 0.162109375,
      "loss/logits": 0.01416744152083993,
      "step": 267
    },
    {
      "epoch": 0.268,
      "grad_norm": 2.625,
      "grad_norm_var": 3.8142555236816404,
      "learning_rate": 2e-05,
      "loss": 0.2022,
      "loss/crossentropy": 1.0146620571613312,
      "loss/hidden": 0.1904296875,
      "loss/logits": 0.01172702293843031,
      "step": 268
    },
    {
      "epoch": 0.269,
      "grad_norm": 1.21875,
      "grad_norm_var": 0.4503334045410156,
      "learning_rate": 2e-05,
      "loss": 0.1457,
      "loss/crossentropy": 1.8024365305900574,
      "loss/hidden": 0.13427734375,
      "loss/logits": 0.011465264018625021,
      "step": 269
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4296875,
      "grad_norm_var": 0.46684951782226564,
      "learning_rate": 2e-05,
      "loss": 0.161,
      "loss/crossentropy": 1.7421787977218628,
      "loss/hidden": 0.14892578125,
      "loss/logits": 0.012049074750393629,
      "step": 270
    },
    {
      "epoch": 0.271,
      "grad_norm": 2.21875,
      "grad_norm_var": 0.4663726806640625,
      "learning_rate": 2e-05,
      "loss": 0.1519,
      "loss/crossentropy": 1.1601504981517792,
      "loss/hidden": 0.14404296875,
      "loss/logits": 0.007814974524080753,
      "step": 271
    },
    {
      "epoch": 0.272,
      "grad_norm": 1.7421875,
      "grad_norm_var": 0.4529693603515625,
      "learning_rate": 2e-05,
      "loss": 0.1693,
      "loss/crossentropy": 1.9806629419326782,
      "loss/hidden": 0.15625,
      "loss/logits": 0.01302909990772605,
      "step": 272
    },
    {
      "epoch": 0.273,
      "grad_norm": 1.1796875,
      "grad_norm_var": 0.4919352213541667,
      "learning_rate": 2e-05,
      "loss": 0.1724,
      "loss/crossentropy": 2.005366265773773,
      "loss/hidden": 0.158203125,
      "loss/logits": 0.014153223484754562,
      "step": 273
    },
    {
      "epoch": 0.274,
      "grad_norm": 1.765625,
      "grad_norm_var": 0.4723894755045573,
      "learning_rate": 2e-05,
      "loss": 0.1808,
      "loss/crossentropy": 1.7814961075782776,
      "loss/hidden": 0.166015625,
      "loss/logits": 0.014784782659262419,
      "step": 274
    },
    {
      "epoch": 0.275,
      "grad_norm": 1.9921875,
      "grad_norm_var": 0.4697011311848958,
      "learning_rate": 2e-05,
      "loss": 0.1963,
      "loss/crossentropy": 1.5670437216758728,
      "loss/hidden": 0.1796875,
      "loss/logits": 0.016570267733186483,
      "step": 275
    },
    {
      "epoch": 0.276,
      "grad_norm": 1.4765625,
      "grad_norm_var": 0.464800771077474,
      "learning_rate": 2e-05,
      "loss": 0.1604,
      "loss/crossentropy": 2.009281039237976,
      "loss/hidden": 0.1494140625,
      "loss/logits": 0.010985464788973331,
      "step": 276
    },
    {
      "epoch": 0.277,
      "grad_norm": 1.4453125,
      "grad_norm_var": 0.45259501139322916,
      "learning_rate": 2e-05,
      "loss": 0.168,
      "loss/crossentropy": 1.7085555791854858,
      "loss/hidden": 0.15625,
      "loss/logits": 0.011709913145750761,
      "step": 277
    },
    {
      "epoch": 0.278,
      "grad_norm": 1.3828125,
      "grad_norm_var": 0.46154683430989585,
      "learning_rate": 2e-05,
      "loss": 0.1456,
      "loss/crossentropy": 2.789747476577759,
      "loss/hidden": 0.1337890625,
      "loss/logits": 0.011802888009697199,
      "step": 278
    },
    {
      "epoch": 0.279,
      "grad_norm": 1.859375,
      "grad_norm_var": 0.45711441040039064,
      "learning_rate": 2e-05,
      "loss": 0.1881,
      "loss/crossentropy": 1.5918955504894257,
      "loss/hidden": 0.173828125,
      "loss/logits": 0.014291070867329836,
      "step": 279
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.8125,
      "grad_norm_var": 0.5068682352701823,
      "learning_rate": 2e-05,
      "loss": 0.1458,
      "loss/crossentropy": 0.8236657343804836,
      "loss/hidden": 0.139404296875,
      "loss/logits": 0.00643135339487344,
      "step": 280
    },
    {
      "epoch": 0.281,
      "grad_norm": 4.125,
      "grad_norm_var": 0.7956764221191406,
      "learning_rate": 2e-05,
      "loss": 0.1714,
      "loss/crossentropy": 2.1279306411743164,
      "loss/hidden": 0.15625,
      "loss/logits": 0.015115040354430676,
      "step": 281
    },
    {
      "epoch": 0.282,
      "grad_norm": 1.296875,
      "grad_norm_var": 0.8177813212076823,
      "learning_rate": 2e-05,
      "loss": 0.1669,
      "loss/crossentropy": 2.2272568941116333,
      "loss/hidden": 0.1533203125,
      "loss/logits": 0.0135371801443398,
      "step": 282
    },
    {
      "epoch": 0.283,
      "grad_norm": 2.515625,
      "grad_norm_var": 0.6023089090983073,
      "learning_rate": 2e-05,
      "loss": 0.1781,
      "loss/crossentropy": 2.2013776302337646,
      "loss/hidden": 0.16259765625,
      "loss/logits": 0.015500886365771294,
      "step": 283
    },
    {
      "epoch": 0.284,
      "grad_norm": 1.96875,
      "grad_norm_var": 0.5695391337076823,
      "learning_rate": 2e-05,
      "loss": 0.1822,
      "loss/crossentropy": 1.6315099596977234,
      "loss/hidden": 0.1689453125,
      "loss/logits": 0.013229990843683481,
      "step": 284
    },
    {
      "epoch": 0.285,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.550426991780599,
      "learning_rate": 2e-05,
      "loss": 0.1877,
      "loss/crossentropy": 1.329133152961731,
      "loss/hidden": 0.1748046875,
      "loss/logits": 0.012850106693804264,
      "step": 285
    },
    {
      "epoch": 0.286,
      "grad_norm": 2.78125,
      "grad_norm_var": 0.5659576416015625,
      "learning_rate": 2e-05,
      "loss": 0.1725,
      "loss/crossentropy": 2.0431485772132874,
      "loss/hidden": 0.15966796875,
      "loss/logits": 0.01284833624958992,
      "step": 286
    },
    {
      "epoch": 0.287,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.5648915608723958,
      "learning_rate": 2e-05,
      "loss": 0.2173,
      "loss/crossentropy": 1.6292879581451416,
      "loss/hidden": 0.19970703125,
      "loss/logits": 0.017579292878508568,
      "step": 287
    },
    {
      "epoch": 0.288,
      "grad_norm": 1.4296875,
      "grad_norm_var": 0.5841379801432292,
      "learning_rate": 2e-05,
      "loss": 0.1632,
      "loss/crossentropy": 2.0630630254745483,
      "loss/hidden": 0.14990234375,
      "loss/logits": 0.013251845724880695,
      "step": 288
    },
    {
      "epoch": 0.289,
      "grad_norm": 1.8203125,
      "grad_norm_var": 0.5364664713541667,
      "learning_rate": 2e-05,
      "loss": 0.2067,
      "loss/crossentropy": 2.168562591075897,
      "loss/hidden": 0.18798828125,
      "loss/logits": 0.01867722487077117,
      "step": 289
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.21875,
      "grad_norm_var": 0.5779449462890625,
      "learning_rate": 2e-05,
      "loss": 0.166,
      "loss/crossentropy": 1.8953060507774353,
      "loss/hidden": 0.15380859375,
      "loss/logits": 0.01215141685679555,
      "step": 290
    },
    {
      "epoch": 0.291,
      "grad_norm": 1.7109375,
      "grad_norm_var": 0.5848297119140625,
      "learning_rate": 2e-05,
      "loss": 0.187,
      "loss/crossentropy": 1.6148796081542969,
      "loss/hidden": 0.173828125,
      "loss/logits": 0.013202093075960875,
      "step": 291
    },
    {
      "epoch": 0.292,
      "grad_norm": 1.6328125,
      "grad_norm_var": 0.5749013264973958,
      "learning_rate": 2e-05,
      "loss": 0.197,
      "loss/crossentropy": 1.7814635038375854,
      "loss/hidden": 0.1826171875,
      "loss/logits": 0.014429094269871712,
      "step": 292
    },
    {
      "epoch": 0.293,
      "grad_norm": 2.015625,
      "grad_norm_var": 0.5503028869628906,
      "learning_rate": 2e-05,
      "loss": 0.1814,
      "loss/crossentropy": 2.1830875873565674,
      "loss/hidden": 0.16748046875,
      "loss/logits": 0.013968405313789845,
      "step": 293
    },
    {
      "epoch": 0.294,
      "grad_norm": 1.7109375,
      "grad_norm_var": 0.5268898010253906,
      "learning_rate": 2e-05,
      "loss": 0.2098,
      "loss/crossentropy": 1.681401550769806,
      "loss/hidden": 0.19482421875,
      "loss/logits": 0.01494319923222065,
      "step": 294
    },
    {
      "epoch": 0.295,
      "grad_norm": 1.3046875,
      "grad_norm_var": 0.5633453369140625,
      "learning_rate": 2e-05,
      "loss": 0.1884,
      "loss/crossentropy": 1.953886091709137,
      "loss/hidden": 0.173828125,
      "loss/logits": 0.014602533541619778,
      "step": 295
    },
    {
      "epoch": 0.296,
      "grad_norm": 1.6875,
      "grad_norm_var": 0.5292144775390625,
      "learning_rate": 2e-05,
      "loss": 0.1987,
      "loss/crossentropy": 1.6944631338119507,
      "loss/hidden": 0.18603515625,
      "loss/logits": 0.012617598287761211,
      "step": 296
    },
    {
      "epoch": 0.297,
      "grad_norm": 1.8359375,
      "grad_norm_var": 0.20425999959309896,
      "learning_rate": 2e-05,
      "loss": 0.2261,
      "loss/crossentropy": 2.214042544364929,
      "loss/hidden": 0.205078125,
      "loss/logits": 0.020975200459361076,
      "step": 297
    },
    {
      "epoch": 0.298,
      "grad_norm": 1.1484375,
      "grad_norm_var": 0.2164703369140625,
      "learning_rate": 2e-05,
      "loss": 0.1842,
      "loss/crossentropy": 2.1237878799438477,
      "loss/hidden": 0.16943359375,
      "loss/logits": 0.014801782555878162,
      "step": 298
    },
    {
      "epoch": 0.299,
      "grad_norm": 1.4765625,
      "grad_norm_var": 0.18964818318684895,
      "learning_rate": 2e-05,
      "loss": 0.1814,
      "loss/crossentropy": 1.492847979068756,
      "loss/hidden": 0.16845703125,
      "loss/logits": 0.012967187445610762,
      "step": 299
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.890625,
      "grad_norm_var": 0.1879595438639323,
      "learning_rate": 2e-05,
      "loss": 0.1776,
      "loss/crossentropy": 2.2924291491508484,
      "loss/hidden": 0.16357421875,
      "loss/logits": 0.014043833129107952,
      "step": 300
    },
    {
      "epoch": 0.301,
      "grad_norm": 4.1875,
      "grad_norm_var": 0.5374061584472656,
      "learning_rate": 2e-05,
      "loss": 0.2062,
      "loss/crossentropy": 1.607342541217804,
      "loss/hidden": 0.18994140625,
      "loss/logits": 0.016273885034024715,
      "step": 301
    },
    {
      "epoch": 0.302,
      "grad_norm": 1.5859375,
      "grad_norm_var": 0.4823486328125,
      "learning_rate": 2e-05,
      "loss": 0.2143,
      "loss/crossentropy": 1.8559609055519104,
      "loss/hidden": 0.197265625,
      "loss/logits": 0.017047187313437462,
      "step": 302
    },
    {
      "epoch": 0.303,
      "grad_norm": 1.2265625,
      "grad_norm_var": 0.4923052469889323,
      "learning_rate": 2e-05,
      "loss": 0.1814,
      "loss/crossentropy": 2.4204115867614746,
      "loss/hidden": 0.16796875,
      "loss/logits": 0.013407074846327305,
      "step": 303
    },
    {
      "epoch": 0.304,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.49497782389322914,
      "learning_rate": 2e-05,
      "loss": 0.2058,
      "loss/crossentropy": 1.7306669354438782,
      "loss/hidden": 0.189453125,
      "loss/logits": 0.016323519870638847,
      "step": 304
    },
    {
      "epoch": 0.305,
      "grad_norm": 1.6484375,
      "grad_norm_var": 0.4960856119791667,
      "learning_rate": 2e-05,
      "loss": 0.1877,
      "loss/crossentropy": 2.212082266807556,
      "loss/hidden": 0.171875,
      "loss/logits": 0.015811644960194826,
      "step": 305
    },
    {
      "epoch": 0.306,
      "grad_norm": 1.3046875,
      "grad_norm_var": 0.4901466369628906,
      "learning_rate": 2e-05,
      "loss": 0.1902,
      "loss/crossentropy": 1.9250993132591248,
      "loss/hidden": 0.17626953125,
      "loss/logits": 0.013882125727832317,
      "step": 306
    },
    {
      "epoch": 0.307,
      "grad_norm": 5.75,
      "grad_norm_var": 1.4711181640625,
      "learning_rate": 2e-05,
      "loss": 0.1934,
      "loss/crossentropy": 0.4879331737756729,
      "loss/hidden": 0.18701171875,
      "loss/logits": 0.006413323106244206,
      "step": 307
    },
    {
      "epoch": 0.308,
      "grad_norm": 3.046875,
      "grad_norm_var": 1.520232899983724,
      "learning_rate": 2e-05,
      "loss": 0.1973,
      "loss/crossentropy": 1.4504847526550293,
      "loss/hidden": 0.1875,
      "loss/logits": 0.009785078698769212,
      "step": 308
    },
    {
      "epoch": 0.309,
      "grad_norm": 1.40625,
      "grad_norm_var": 1.5522092183430989,
      "learning_rate": 2e-05,
      "loss": 0.2057,
      "loss/crossentropy": 2.149027943611145,
      "loss/hidden": 0.189453125,
      "loss/logits": 0.01620970480144024,
      "step": 309
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.7578125,
      "grad_norm_var": 1.550005849202474,
      "learning_rate": 2e-05,
      "loss": 0.2027,
      "loss/crossentropy": 2.1503273248672485,
      "loss/hidden": 0.185546875,
      "loss/logits": 0.01712088193744421,
      "step": 310
    },
    {
      "epoch": 0.311,
      "grad_norm": 1.4375,
      "grad_norm_var": 1.5372304280598958,
      "learning_rate": 2e-05,
      "loss": 0.1888,
      "loss/crossentropy": 2.1748342514038086,
      "loss/hidden": 0.17333984375,
      "loss/logits": 0.01546872965991497,
      "step": 311
    },
    {
      "epoch": 0.312,
      "grad_norm": 1.4921875,
      "grad_norm_var": 1.5502703348795572,
      "learning_rate": 2e-05,
      "loss": 0.2158,
      "loss/crossentropy": 1.3706732988357544,
      "loss/hidden": 0.20166015625,
      "loss/logits": 0.014161557890474796,
      "step": 312
    },
    {
      "epoch": 0.313,
      "grad_norm": 2.421875,
      "grad_norm_var": 1.5523111979166666,
      "learning_rate": 2e-05,
      "loss": 0.2021,
      "loss/crossentropy": 1.8907567262649536,
      "loss/hidden": 0.18701171875,
      "loss/logits": 0.015071831177920103,
      "step": 313
    },
    {
      "epoch": 0.314,
      "grad_norm": 1.296875,
      "grad_norm_var": 1.5344378153483074,
      "learning_rate": 2e-05,
      "loss": 0.201,
      "loss/crossentropy": 1.7888588905334473,
      "loss/hidden": 0.1875,
      "loss/logits": 0.013532605487853289,
      "step": 314
    },
    {
      "epoch": 0.315,
      "grad_norm": 1.5859375,
      "grad_norm_var": 1.5256507873535157,
      "learning_rate": 2e-05,
      "loss": 0.2166,
      "loss/crossentropy": 1.5358025133609772,
      "loss/hidden": 0.2021484375,
      "loss/logits": 0.014410331379622221,
      "step": 315
    },
    {
      "epoch": 0.316,
      "grad_norm": 56.0,
      "grad_norm_var": 182.73569310506184,
      "learning_rate": 2e-05,
      "loss": 0.2529,
      "loss/crossentropy": 2.1001065373420715,
      "loss/hidden": 0.234375,
      "loss/logits": 0.01847642147913575,
      "step": 316
    },
    {
      "epoch": 0.317,
      "grad_norm": 1.296875,
      "grad_norm_var": 183.77112401326497,
      "learning_rate": 2e-05,
      "loss": 0.1958,
      "loss/crossentropy": 2.3731868267059326,
      "loss/hidden": 0.1796875,
      "loss/logits": 0.01615766156464815,
      "step": 317
    },
    {
      "epoch": 0.318,
      "grad_norm": 1.53125,
      "grad_norm_var": 183.79867248535157,
      "learning_rate": 2e-05,
      "loss": 0.2212,
      "loss/crossentropy": 1.8716753125190735,
      "loss/hidden": 0.2041015625,
      "loss/logits": 0.017116894014179707,
      "step": 318
    },
    {
      "epoch": 0.319,
      "grad_norm": 1.9921875,
      "grad_norm_var": 183.41590983072916,
      "learning_rate": 2e-05,
      "loss": 0.1938,
      "loss/crossentropy": 1.2205194532871246,
      "loss/hidden": 0.18115234375,
      "loss/logits": 0.012608660385012627,
      "step": 319
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.203125,
      "grad_norm_var": 183.88273010253906,
      "learning_rate": 2e-05,
      "loss": 0.1822,
      "loss/crossentropy": 2.3611029386520386,
      "loss/hidden": 0.1689453125,
      "loss/logits": 0.013240456581115723,
      "step": 320
    },
    {
      "epoch": 0.321,
      "grad_norm": 1.3046875,
      "grad_norm_var": 184.05854390462238,
      "learning_rate": 2e-05,
      "loss": 0.193,
      "loss/crossentropy": 1.8402240872383118,
      "loss/hidden": 0.18017578125,
      "loss/logits": 0.012811433058232069,
      "step": 321
    },
    {
      "epoch": 0.322,
      "grad_norm": 1.3671875,
      "grad_norm_var": 184.02547912597657,
      "learning_rate": 2e-05,
      "loss": 0.2238,
      "loss/crossentropy": 1.9131136536598206,
      "loss/hidden": 0.20751953125,
      "loss/logits": 0.016317113302648067,
      "step": 322
    },
    {
      "epoch": 0.323,
      "grad_norm": 1.9765625,
      "grad_norm_var": 184.69184951782228,
      "learning_rate": 2e-05,
      "loss": 0.2509,
      "loss/crossentropy": 1.4010455012321472,
      "loss/hidden": 0.23193359375,
      "loss/logits": 0.018928353674709797,
      "step": 323
    },
    {
      "epoch": 0.324,
      "grad_norm": 2.234375,
      "grad_norm_var": 184.9522621154785,
      "learning_rate": 2e-05,
      "loss": 0.1929,
      "loss/crossentropy": 1.9659223556518555,
      "loss/hidden": 0.1796875,
      "loss/logits": 0.013216304127126932,
      "step": 324
    },
    {
      "epoch": 0.325,
      "grad_norm": 1.75,
      "grad_norm_var": 184.79406102498373,
      "learning_rate": 2e-05,
      "loss": 0.1877,
      "loss/crossentropy": 1.5221052765846252,
      "loss/hidden": 0.17626953125,
      "loss/logits": 0.011447824770584702,
      "step": 325
    },
    {
      "epoch": 0.326,
      "grad_norm": 1.5546875,
      "grad_norm_var": 184.88554662068685,
      "learning_rate": 2e-05,
      "loss": 0.2212,
      "loss/crossentropy": 2.06081086397171,
      "loss/hidden": 0.20361328125,
      "loss/logits": 0.017567144706845284,
      "step": 326
    },
    {
      "epoch": 0.327,
      "grad_norm": 3.578125,
      "grad_norm_var": 184.14719823201497,
      "learning_rate": 2e-05,
      "loss": 0.1707,
      "loss/crossentropy": 0.8908511102199554,
      "loss/hidden": 0.1640625,
      "loss/logits": 0.006589735276065767,
      "step": 327
    },
    {
      "epoch": 0.328,
      "grad_norm": 2.1875,
      "grad_norm_var": 183.83722737630208,
      "learning_rate": 2e-05,
      "loss": 0.2041,
      "loss/crossentropy": 1.4793621897697449,
      "loss/hidden": 0.19384765625,
      "loss/logits": 0.010210367618128657,
      "step": 328
    },
    {
      "epoch": 0.329,
      "grad_norm": 1.5703125,
      "grad_norm_var": 184.19855931599935,
      "learning_rate": 2e-05,
      "loss": 0.2174,
      "loss/crossentropy": 1.5629376769065857,
      "loss/hidden": 0.20166015625,
      "loss/logits": 0.015733799897134304,
      "step": 329
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4609375,
      "grad_norm_var": 184.11591389973958,
      "learning_rate": 2e-05,
      "loss": 0.2297,
      "loss/crossentropy": 2.016783118247986,
      "loss/hidden": 0.2119140625,
      "loss/logits": 0.017778108827769756,
      "step": 330
    },
    {
      "epoch": 0.331,
      "grad_norm": 1.3671875,
      "grad_norm_var": 184.22320963541668,
      "learning_rate": 2e-05,
      "loss": 0.2183,
      "loss/crossentropy": 2.3946865797042847,
      "loss/hidden": 0.2001953125,
      "loss/logits": 0.01807898748666048,
      "step": 331
    },
    {
      "epoch": 0.332,
      "grad_norm": 1.234375,
      "grad_norm_var": 0.35546773274739585,
      "learning_rate": 2e-05,
      "loss": 0.2244,
      "loss/crossentropy": 1.6463975310325623,
      "loss/hidden": 0.2099609375,
      "loss/logits": 0.014466887805610895,
      "step": 332
    },
    {
      "epoch": 0.333,
      "grad_norm": 1.703125,
      "grad_norm_var": 0.34256083170572915,
      "learning_rate": 2e-05,
      "loss": 0.2653,
      "loss/crossentropy": 1.727737307548523,
      "loss/hidden": 0.24462890625,
      "loss/logits": 0.020694734528660774,
      "step": 333
    },
    {
      "epoch": 0.334,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.36001688639322915,
      "learning_rate": 2e-05,
      "loss": 0.2636,
      "loss/crossentropy": 1.8381291031837463,
      "loss/hidden": 0.244140625,
      "loss/logits": 0.019478057511150837,
      "step": 334
    },
    {
      "epoch": 0.335,
      "grad_norm": 5.5,
      "grad_norm_var": 1.2181292215983073,
      "learning_rate": 2e-05,
      "loss": 0.2789,
      "loss/crossentropy": 1.395434319972992,
      "loss/hidden": 0.25732421875,
      "loss/logits": 0.02152822446078062,
      "step": 335
    },
    {
      "epoch": 0.336,
      "grad_norm": 1.7578125,
      "grad_norm_var": 1.1768707275390624,
      "learning_rate": 2e-05,
      "loss": 0.2301,
      "loss/crossentropy": 1.7802979946136475,
      "loss/hidden": 0.212890625,
      "loss/logits": 0.01717265695333481,
      "step": 336
    },
    {
      "epoch": 0.337,
      "grad_norm": 1.2265625,
      "grad_norm_var": 1.1850748697916667,
      "learning_rate": 2e-05,
      "loss": 0.2195,
      "loss/crossentropy": 1.864999234676361,
      "loss/hidden": 0.20361328125,
      "loss/logits": 0.015909720212221146,
      "step": 337
    },
    {
      "epoch": 0.338,
      "grad_norm": 1.5078125,
      "grad_norm_var": 1.1734934488932292,
      "learning_rate": 2e-05,
      "loss": 0.2322,
      "loss/crossentropy": 1.9171935319900513,
      "loss/hidden": 0.2138671875,
      "loss/logits": 0.01834118738770485,
      "step": 338
    },
    {
      "epoch": 0.339,
      "grad_norm": 1.7109375,
      "grad_norm_var": 1.1808430989583334,
      "learning_rate": 2e-05,
      "loss": 0.2546,
      "loss/crossentropy": 2.232408821582794,
      "loss/hidden": 0.23388671875,
      "loss/logits": 0.02068551816046238,
      "step": 339
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.40625,
      "grad_norm_var": 1.531086222330729,
      "learning_rate": 2e-05,
      "loss": 0.2209,
      "loss/crossentropy": 0.885938722640276,
      "loss/hidden": 0.2138671875,
      "loss/logits": 0.0069831793662160635,
      "step": 340
    },
    {
      "epoch": 0.341,
      "grad_norm": 1.8046875,
      "grad_norm_var": 1.5281471252441405,
      "learning_rate": 2e-05,
      "loss": 0.274,
      "loss/crossentropy": 2.053671360015869,
      "loss/hidden": 0.25,
      "loss/logits": 0.024039674550294876,
      "step": 341
    },
    {
      "epoch": 0.342,
      "grad_norm": 1.4765625,
      "grad_norm_var": 1.535064442952474,
      "learning_rate": 2e-05,
      "loss": 0.248,
      "loss/crossentropy": 2.1628893613815308,
      "loss/hidden": 0.22900390625,
      "loss/logits": 0.01902489084750414,
      "step": 342
    },
    {
      "epoch": 0.343,
      "grad_norm": 1.6875,
      "grad_norm_var": 1.4053301493326822,
      "learning_rate": 2e-05,
      "loss": 0.2355,
      "loss/crossentropy": 1.9784727692604065,
      "loss/hidden": 0.216796875,
      "loss/logits": 0.018667724914848804,
      "step": 343
    },
    {
      "epoch": 0.344,
      "grad_norm": 1.9453125,
      "grad_norm_var": 1.4048492431640625,
      "learning_rate": 2e-05,
      "loss": 0.2215,
      "loss/crossentropy": 2.1430813670158386,
      "loss/hidden": 0.205078125,
      "loss/logits": 0.016372697427868843,
      "step": 344
    },
    {
      "epoch": 0.345,
      "grad_norm": 3.34375,
      "grad_norm_var": 1.489422353108724,
      "learning_rate": 2e-05,
      "loss": 0.2828,
      "loss/crossentropy": 1.4574592113494873,
      "loss/hidden": 0.259765625,
      "loss/logits": 0.02300189435482025,
      "step": 345
    },
    {
      "epoch": 0.346,
      "grad_norm": 4.59375,
      "grad_norm_var": 1.8130035400390625,
      "learning_rate": 2e-05,
      "loss": 0.2555,
      "loss/crossentropy": 2.1325125694274902,
      "loss/hidden": 0.234375,
      "loss/logits": 0.021130304783582687,
      "step": 346
    },
    {
      "epoch": 0.347,
      "grad_norm": 1.4453125,
      "grad_norm_var": 1.8031412760416667,
      "learning_rate": 2e-05,
      "loss": 0.233,
      "loss/crossentropy": 2.6941460371017456,
      "loss/hidden": 0.21435546875,
      "loss/logits": 0.01859632506966591,
      "step": 347
    },
    {
      "epoch": 0.348,
      "grad_norm": 1.6171875,
      "grad_norm_var": 1.755077870686849,
      "learning_rate": 2e-05,
      "loss": 0.2562,
      "loss/crossentropy": 1.8957814574241638,
      "loss/hidden": 0.236328125,
      "loss/logits": 0.019866405054926872,
      "step": 348
    },
    {
      "epoch": 0.349,
      "grad_norm": 1.953125,
      "grad_norm_var": 1.7364418029785156,
      "learning_rate": 2e-05,
      "loss": 0.2507,
      "loss/crossentropy": 2.5658878087997437,
      "loss/hidden": 0.2294921875,
      "loss/logits": 0.02118699811398983,
      "step": 349
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.890625,
      "grad_norm_var": 1.7523719787597656,
      "learning_rate": 2e-05,
      "loss": 0.233,
      "loss/crossentropy": 1.9111933708190918,
      "loss/hidden": 0.21533203125,
      "loss/logits": 0.01770856324583292,
      "step": 350
    },
    {
      "epoch": 0.351,
      "grad_norm": 2.625,
      "grad_norm_var": 1.0678749084472656,
      "learning_rate": 2e-05,
      "loss": 0.2712,
      "loss/crossentropy": 1.5525288581848145,
      "loss/hidden": 0.25244140625,
      "loss/logits": 0.01877846010029316,
      "step": 351
    },
    {
      "epoch": 0.352,
      "grad_norm": 1.671875,
      "grad_norm_var": 1.07325439453125,
      "learning_rate": 2e-05,
      "loss": 0.2398,
      "loss/crossentropy": 1.47780179977417,
      "loss/hidden": 0.224609375,
      "loss/logits": 0.015163760632276535,
      "step": 352
    },
    {
      "epoch": 0.353,
      "grad_norm": 1.40625,
      "grad_norm_var": 1.0523902893066406,
      "learning_rate": 2e-05,
      "loss": 0.2579,
      "loss/crossentropy": 1.6976242065429688,
      "loss/hidden": 0.240234375,
      "loss/logits": 0.01768268644809723,
      "step": 353
    },
    {
      "epoch": 0.354,
      "grad_norm": 1.375,
      "grad_norm_var": 1.065623982747396,
      "learning_rate": 2e-05,
      "loss": 0.2594,
      "loss/crossentropy": 1.5402989983558655,
      "loss/hidden": 0.24169921875,
      "loss/logits": 0.017742513678967953,
      "step": 354
    },
    {
      "epoch": 0.355,
      "grad_norm": 2.609375,
      "grad_norm_var": 1.0593360900878905,
      "learning_rate": 2e-05,
      "loss": 0.2983,
      "loss/crossentropy": 1.7891557812690735,
      "loss/hidden": 0.2744140625,
      "loss/logits": 0.023881751112639904,
      "step": 355
    },
    {
      "epoch": 0.356,
      "grad_norm": 1.5859375,
      "grad_norm_var": 0.7421427408854167,
      "learning_rate": 2e-05,
      "loss": 0.2353,
      "loss/crossentropy": 2.255465269088745,
      "loss/hidden": 0.2177734375,
      "loss/logits": 0.01755282748490572,
      "step": 356
    },
    {
      "epoch": 0.357,
      "grad_norm": 1.4375,
      "grad_norm_var": 0.763287099202474,
      "learning_rate": 2e-05,
      "loss": 0.2388,
      "loss/crossentropy": 2.2716734409332275,
      "loss/hidden": 0.22021484375,
      "loss/logits": 0.018602201715111732,
      "step": 357
    },
    {
      "epoch": 0.358,
      "grad_norm": 2.34375,
      "grad_norm_var": 0.7449666341145833,
      "learning_rate": 2e-05,
      "loss": 0.2737,
      "loss/crossentropy": 1.8382077813148499,
      "loss/hidden": 0.2548828125,
      "loss/logits": 0.018825003411620855,
      "step": 358
    },
    {
      "epoch": 0.359,
      "grad_norm": 1.5546875,
      "grad_norm_var": 0.7532976786295573,
      "learning_rate": 2e-05,
      "loss": 0.2391,
      "loss/crossentropy": 1.6230210661888123,
      "loss/hidden": 0.224609375,
      "loss/logits": 0.014487342443317175,
      "step": 359
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.421875,
      "grad_norm_var": 0.7803385416666667,
      "learning_rate": 2e-05,
      "loss": 0.2519,
      "loss/crossentropy": 1.6961406469345093,
      "loss/hidden": 0.234375,
      "loss/logits": 0.017499960027635098,
      "step": 360
    },
    {
      "epoch": 0.361,
      "grad_norm": 1.5703125,
      "grad_norm_var": 0.6720965067545573,
      "learning_rate": 2e-05,
      "loss": 0.2623,
      "loss/crossentropy": 2.1821005940437317,
      "loss/hidden": 0.24072265625,
      "loss/logits": 0.021556712687015533,
      "step": 361
    },
    {
      "epoch": 0.362,
      "grad_norm": 1.6484375,
      "grad_norm_var": 0.17363688151041667,
      "learning_rate": 2e-05,
      "loss": 0.2759,
      "loss/crossentropy": 1.7173206806182861,
      "loss/hidden": 0.255859375,
      "loss/logits": 0.020033356733620167,
      "step": 362
    },
    {
      "epoch": 0.363,
      "grad_norm": 1.5859375,
      "grad_norm_var": 0.16897684733072918,
      "learning_rate": 2e-05,
      "loss": 0.2552,
      "loss/crossentropy": 1.8281689882278442,
      "loss/hidden": 0.23681640625,
      "loss/logits": 0.018404729664325714,
      "step": 363
    },
    {
      "epoch": 0.364,
      "grad_norm": 1.3125,
      "grad_norm_var": 0.1809282938639323,
      "learning_rate": 2e-05,
      "loss": 0.2546,
      "loss/crossentropy": 2.181256651878357,
      "loss/hidden": 0.23486328125,
      "loss/logits": 0.01975287776440382,
      "step": 364
    },
    {
      "epoch": 0.365,
      "grad_norm": 3.796875,
      "grad_norm_var": 0.4434466044108073,
      "learning_rate": 2e-05,
      "loss": 0.2803,
      "loss/crossentropy": 1.4486916065216064,
      "loss/hidden": 0.2607421875,
      "loss/logits": 0.01950985286384821,
      "step": 365
    },
    {
      "epoch": 0.366,
      "grad_norm": 1.234375,
      "grad_norm_var": 0.4680987040201823,
      "learning_rate": 2e-05,
      "loss": 0.2504,
      "loss/crossentropy": 2.026048183441162,
      "loss/hidden": 0.232421875,
      "loss/logits": 0.017978372983634472,
      "step": 366
    },
    {
      "epoch": 0.367,
      "grad_norm": 4.3125,
      "grad_norm_var": 0.8263628641764323,
      "learning_rate": 2e-05,
      "loss": 0.2579,
      "loss/crossentropy": 1.4382375180721283,
      "loss/hidden": 0.2412109375,
      "loss/logits": 0.016655512619763613,
      "step": 367
    },
    {
      "epoch": 0.368,
      "grad_norm": 2.25,
      "grad_norm_var": 0.827416737874349,
      "learning_rate": 2e-05,
      "loss": 0.3072,
      "loss/crossentropy": 1.57509446144104,
      "loss/hidden": 0.2880859375,
      "loss/logits": 0.019162926822900772,
      "step": 368
    },
    {
      "epoch": 0.369,
      "grad_norm": 1.78125,
      "grad_norm_var": 0.808251698811849,
      "learning_rate": 2e-05,
      "loss": 0.2383,
      "loss/crossentropy": 2.0060970187187195,
      "loss/hidden": 0.22021484375,
      "loss/logits": 0.018060280941426754,
      "step": 369
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.546875,
      "grad_norm_var": 0.798180898030599,
      "learning_rate": 2e-05,
      "loss": 0.2523,
      "loss/crossentropy": 1.2137621641159058,
      "loss/hidden": 0.24072265625,
      "loss/logits": 0.011561613995581865,
      "step": 370
    },
    {
      "epoch": 0.371,
      "grad_norm": 1.703125,
      "grad_norm_var": 0.7833717346191407,
      "learning_rate": 2e-05,
      "loss": 0.2561,
      "loss/crossentropy": 1.764179289340973,
      "loss/hidden": 0.240234375,
      "loss/logits": 0.015869705006480217,
      "step": 371
    },
    {
      "epoch": 0.372,
      "grad_norm": 1.5625,
      "grad_norm_var": 0.784716796875,
      "learning_rate": 2e-05,
      "loss": 0.2642,
      "loss/crossentropy": 2.1394487619400024,
      "loss/hidden": 0.2451171875,
      "loss/logits": 0.01907090563327074,
      "step": 372
    },
    {
      "epoch": 0.373,
      "grad_norm": 1.9765625,
      "grad_norm_var": 0.7621681213378906,
      "learning_rate": 2e-05,
      "loss": 0.2496,
      "loss/crossentropy": 2.151320219039917,
      "loss/hidden": 0.23095703125,
      "loss/logits": 0.018605505116283894,
      "step": 373
    },
    {
      "epoch": 0.374,
      "grad_norm": 1.5234375,
      "grad_norm_var": 0.77073974609375,
      "learning_rate": 2e-05,
      "loss": 0.2426,
      "loss/crossentropy": 2.291616916656494,
      "loss/hidden": 0.2255859375,
      "loss/logits": 0.01696862932294607,
      "step": 374
    },
    {
      "epoch": 0.375,
      "grad_norm": 1.1640625,
      "grad_norm_var": 0.8027577718098958,
      "learning_rate": 2e-05,
      "loss": 0.2482,
      "loss/crossentropy": 2.1597548127174377,
      "loss/hidden": 0.228515625,
      "loss/logits": 0.019656311720609665,
      "step": 375
    },
    {
      "epoch": 0.376,
      "grad_norm": 4.5625,
      "grad_norm_var": 1.1930867513020833,
      "learning_rate": 2e-05,
      "loss": 0.2546,
      "loss/crossentropy": 0.7966546472162008,
      "loss/hidden": 0.24609375,
      "loss/logits": 0.008532016014214605,
      "step": 376
    },
    {
      "epoch": 0.377,
      "grad_norm": 1.25,
      "grad_norm_var": 1.2246070861816407,
      "learning_rate": 2e-05,
      "loss": 0.2394,
      "loss/crossentropy": 1.730500340461731,
      "loss/hidden": 0.22314453125,
      "loss/logits": 0.016217158176004887,
      "step": 377
    },
    {
      "epoch": 0.378,
      "grad_norm": 1.9453125,
      "grad_norm_var": 1.210729726155599,
      "learning_rate": 2e-05,
      "loss": 0.2672,
      "loss/crossentropy": 2.0575554966926575,
      "loss/hidden": 0.2470703125,
      "loss/logits": 0.02009457629173994,
      "step": 378
    },
    {
      "epoch": 0.379,
      "grad_norm": 4.15625,
      "grad_norm_var": 1.4280181884765626,
      "learning_rate": 2e-05,
      "loss": 0.3649,
      "loss/crossentropy": 2.409613251686096,
      "loss/hidden": 0.330078125,
      "loss/logits": 0.034814249724149704,
      "step": 379
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.34375,
      "grad_norm_var": 1.3563140869140624,
      "learning_rate": 2e-05,
      "loss": 0.2651,
      "loss/crossentropy": 1.4721761345863342,
      "loss/hidden": 0.2490234375,
      "loss/logits": 0.016095119062811136,
      "step": 380
    },
    {
      "epoch": 0.381,
      "grad_norm": 1.2265625,
      "grad_norm_var": 1.2842750549316406,
      "learning_rate": 2e-05,
      "loss": 0.2538,
      "loss/crossentropy": 2.51900315284729,
      "loss/hidden": 0.2314453125,
      "loss/logits": 0.022326381877064705,
      "step": 381
    },
    {
      "epoch": 0.382,
      "grad_norm": 2.234375,
      "grad_norm_var": 1.2151995340983073,
      "learning_rate": 2e-05,
      "loss": 0.2743,
      "loss/crossentropy": 2.030519187450409,
      "loss/hidden": 0.2548828125,
      "loss/logits": 0.01944338995963335,
      "step": 382
    },
    {
      "epoch": 0.383,
      "grad_norm": 3.859375,
      "grad_norm_var": 1.1054583231608073,
      "learning_rate": 2e-05,
      "loss": 0.3105,
      "loss/crossentropy": 0.7516276463866234,
      "loss/hidden": 0.2978515625,
      "loss/logits": 0.012636175146326423,
      "step": 383
    },
    {
      "epoch": 0.384,
      "grad_norm": 2.296875,
      "grad_norm_var": 1.1055620829264323,
      "learning_rate": 2e-05,
      "loss": 0.2867,
      "loss/crossentropy": 1.9317356944084167,
      "loss/hidden": 0.263671875,
      "loss/logits": 0.023075740784406662,
      "step": 384
    },
    {
      "epoch": 0.385,
      "grad_norm": 2.09375,
      "grad_norm_var": 1.0917884826660156,
      "learning_rate": 2e-05,
      "loss": 0.3261,
      "loss/crossentropy": 2.1155296564102173,
      "loss/hidden": 0.2998046875,
      "loss/logits": 0.02629261091351509,
      "step": 385
    },
    {
      "epoch": 0.386,
      "grad_norm": 1.7734375,
      "grad_norm_var": 1.1014312744140624,
      "learning_rate": 2e-05,
      "loss": 0.287,
      "loss/crossentropy": 2.1998232007026672,
      "loss/hidden": 0.265625,
      "loss/logits": 0.021336179226636887,
      "step": 386
    },
    {
      "epoch": 0.387,
      "grad_norm": 1.8671875,
      "grad_norm_var": 1.0915992736816407,
      "learning_rate": 2e-05,
      "loss": 0.2608,
      "loss/crossentropy": 1.9437836408615112,
      "loss/hidden": 0.2412109375,
      "loss/logits": 0.019607914611697197,
      "step": 387
    },
    {
      "epoch": 0.388,
      "grad_norm": 2.125,
      "grad_norm_var": 1.0605812072753906,
      "learning_rate": 2e-05,
      "loss": 0.2871,
      "loss/crossentropy": 1.7142232656478882,
      "loss/hidden": 0.2666015625,
      "loss/logits": 0.020461218431591988,
      "step": 388
    },
    {
      "epoch": 0.389,
      "grad_norm": 1.640625,
      "grad_norm_var": 1.0809977213541666,
      "learning_rate": 2e-05,
      "loss": 0.2863,
      "loss/crossentropy": 2.236941933631897,
      "loss/hidden": 0.2626953125,
      "loss/logits": 0.023648610338568687,
      "step": 389
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.125,
      "grad_norm_var": 1.0853248596191407,
      "learning_rate": 2e-05,
      "loss": 0.2733,
      "loss/crossentropy": 1.2834028005599976,
      "loss/hidden": 0.2607421875,
      "loss/logits": 0.01257804874330759,
      "step": 390
    },
    {
      "epoch": 0.391,
      "grad_norm": 1.5,
      "grad_norm_var": 1.0390787760416667,
      "learning_rate": 2e-05,
      "loss": 0.3026,
      "loss/crossentropy": 1.5867803692817688,
      "loss/hidden": 0.2822265625,
      "loss/logits": 0.020396556705236435,
      "step": 391
    },
    {
      "epoch": 0.392,
      "grad_norm": 1.53125,
      "grad_norm_var": 0.7292439778645833,
      "learning_rate": 2e-05,
      "loss": 0.297,
      "loss/crossentropy": 1.4337636232376099,
      "loss/hidden": 0.2783203125,
      "loss/logits": 0.01866168435662985,
      "step": 392
    },
    {
      "epoch": 0.393,
      "grad_norm": 1.71875,
      "grad_norm_var": 0.6845052083333333,
      "learning_rate": 2e-05,
      "loss": 0.2642,
      "loss/crossentropy": 2.1386572122573853,
      "loss/hidden": 0.24462890625,
      "loss/logits": 0.019583708606660366,
      "step": 393
    },
    {
      "epoch": 0.394,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.710375722249349,
      "learning_rate": 2e-05,
      "loss": 0.3313,
      "loss/crossentropy": 1.936402440071106,
      "loss/hidden": 0.3046875,
      "loss/logits": 0.026638174429535866,
      "step": 394
    },
    {
      "epoch": 0.395,
      "grad_norm": 1.8671875,
      "grad_norm_var": 0.4642567952473958,
      "learning_rate": 2e-05,
      "loss": 0.2699,
      "loss/crossentropy": 2.2741682529449463,
      "loss/hidden": 0.248046875,
      "loss/logits": 0.021812792867422104,
      "step": 395
    },
    {
      "epoch": 0.396,
      "grad_norm": 4.84375,
      "grad_norm_var": 0.9248687744140625,
      "learning_rate": 2e-05,
      "loss": 0.3035,
      "loss/crossentropy": 1.1322659850120544,
      "loss/hidden": 0.291015625,
      "loss/logits": 0.01252604997716844,
      "step": 396
    },
    {
      "epoch": 0.397,
      "grad_norm": 2.53125,
      "grad_norm_var": 0.8462562561035156,
      "learning_rate": 2e-05,
      "loss": 0.3108,
      "loss/crossentropy": 1.358659565448761,
      "loss/hidden": 0.2900390625,
      "loss/logits": 0.02074052207171917,
      "step": 397
    },
    {
      "epoch": 0.398,
      "grad_norm": 1.84375,
      "grad_norm_var": 0.862939198811849,
      "learning_rate": 2e-05,
      "loss": 0.3,
      "loss/crossentropy": 1.9806614518165588,
      "loss/hidden": 0.2783203125,
      "loss/logits": 0.02170161809772253,
      "step": 398
    },
    {
      "epoch": 0.399,
      "grad_norm": 1.9296875,
      "grad_norm_var": 0.706591796875,
      "learning_rate": 2e-05,
      "loss": 0.2984,
      "loss/crossentropy": 2.3857691287994385,
      "loss/hidden": 0.2744140625,
      "loss/logits": 0.023968273773789406,
      "step": 399
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.9140625,
      "grad_norm_var": 0.7121620178222656,
      "learning_rate": 2e-05,
      "loss": 0.2732,
      "loss/crossentropy": 2.006265163421631,
      "loss/hidden": 0.2509765625,
      "loss/logits": 0.02220850996673107,
      "step": 400
    },
    {
      "epoch": 0.401,
      "grad_norm": 1.8046875,
      "grad_norm_var": 0.7215810139973958,
      "learning_rate": 2e-05,
      "loss": 0.2935,
      "loss/crossentropy": 1.7221473455429077,
      "loss/hidden": 0.275390625,
      "loss/logits": 0.018067960627377033,
      "step": 401
    },
    {
      "epoch": 0.402,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.7123146057128906,
      "learning_rate": 2e-05,
      "loss": 0.2923,
      "loss/crossentropy": 2.0756383538246155,
      "loss/hidden": 0.275390625,
      "loss/logits": 0.016928995959460735,
      "step": 402
    },
    {
      "epoch": 0.403,
      "grad_norm": 1.53125,
      "grad_norm_var": 0.7353993733723958,
      "learning_rate": 2e-05,
      "loss": 0.2972,
      "loss/crossentropy": 1.6683465242385864,
      "loss/hidden": 0.2783203125,
      "loss/logits": 0.018839839845895767,
      "step": 403
    },
    {
      "epoch": 0.404,
      "grad_norm": 1.8125,
      "grad_norm_var": 0.7447987874348958,
      "learning_rate": 2e-05,
      "loss": 0.2966,
      "loss/crossentropy": 1.737410545349121,
      "loss/hidden": 0.2763671875,
      "loss/logits": 0.02023144531995058,
      "step": 404
    },
    {
      "epoch": 0.405,
      "grad_norm": 1.3046875,
      "grad_norm_var": 0.7762163798014323,
      "learning_rate": 2e-05,
      "loss": 0.2855,
      "loss/crossentropy": 2.2183534502983093,
      "loss/hidden": 0.26513671875,
      "loss/logits": 0.02036190778017044,
      "step": 405
    },
    {
      "epoch": 0.406,
      "grad_norm": 1.5,
      "grad_norm_var": 0.7329465230305989,
      "learning_rate": 2e-05,
      "loss": 0.3193,
      "loss/crossentropy": 1.8786720633506775,
      "loss/hidden": 0.294921875,
      "loss/logits": 0.024385149590671062,
      "step": 406
    },
    {
      "epoch": 0.407,
      "grad_norm": 1.5,
      "grad_norm_var": 0.7329465230305989,
      "learning_rate": 2e-05,
      "loss": 0.3099,
      "loss/crossentropy": 1.8731706738471985,
      "loss/hidden": 0.2861328125,
      "loss/logits": 0.023721362464129925,
      "step": 407
    },
    {
      "epoch": 0.408,
      "grad_norm": 1.953125,
      "grad_norm_var": 0.714214833577474,
      "learning_rate": 2e-05,
      "loss": 0.2993,
      "loss/crossentropy": 2.0363497734069824,
      "loss/hidden": 0.2763671875,
      "loss/logits": 0.02292494662106037,
      "step": 408
    },
    {
      "epoch": 0.409,
      "grad_norm": 1.421875,
      "grad_norm_var": 0.7343544006347656,
      "learning_rate": 2e-05,
      "loss": 0.2919,
      "loss/crossentropy": 1.7596482038497925,
      "loss/hidden": 0.2705078125,
      "loss/logits": 0.021396052092313766,
      "step": 409
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.84375,
      "grad_norm_var": 0.7240577697753906,
      "learning_rate": 2e-05,
      "loss": 0.3154,
      "loss/crossentropy": 1.080414205789566,
      "loss/hidden": 0.29736328125,
      "loss/logits": 0.018078335095196962,
      "step": 410
    },
    {
      "epoch": 0.411,
      "grad_norm": 1.5625,
      "grad_norm_var": 0.73785400390625,
      "learning_rate": 2e-05,
      "loss": 0.2928,
      "loss/crossentropy": 2.527972936630249,
      "loss/hidden": 0.26953125,
      "loss/logits": 0.02323300577700138,
      "step": 411
    },
    {
      "epoch": 0.412,
      "grad_norm": 1.5078125,
      "grad_norm_var": 0.18848851521809895,
      "learning_rate": 2e-05,
      "loss": 0.2989,
      "loss/crossentropy": 1.5808929204940796,
      "loss/hidden": 0.28125,
      "loss/logits": 0.01763766910880804,
      "step": 412
    },
    {
      "epoch": 0.413,
      "grad_norm": 1.6328125,
      "grad_norm_var": 0.1557037353515625,
      "learning_rate": 2e-05,
      "loss": 0.3052,
      "loss/crossentropy": 2.073564648628235,
      "loss/hidden": 0.2841796875,
      "loss/logits": 0.021017897874116898,
      "step": 413
    },
    {
      "epoch": 0.414,
      "grad_norm": 1.703125,
      "grad_norm_var": 0.15574951171875,
      "learning_rate": 2e-05,
      "loss": 0.3341,
      "loss/crossentropy": 1.5968445539474487,
      "loss/hidden": 0.310546875,
      "loss/logits": 0.023572119884192944,
      "step": 414
    },
    {
      "epoch": 0.415,
      "grad_norm": 1.65625,
      "grad_norm_var": 0.15465469360351564,
      "learning_rate": 2e-05,
      "loss": 0.3319,
      "loss/crossentropy": 2.13019335269928,
      "loss/hidden": 0.3037109375,
      "loss/logits": 0.028160166926681995,
      "step": 415
    },
    {
      "epoch": 0.416,
      "grad_norm": 1.8828125,
      "grad_norm_var": 0.15405044555664063,
      "learning_rate": 2e-05,
      "loss": 0.2928,
      "loss/crossentropy": 1.3558663129806519,
      "loss/hidden": 0.2744140625,
      "loss/logits": 0.018423012923449278,
      "step": 416
    },
    {
      "epoch": 0.417,
      "grad_norm": 2.15625,
      "grad_norm_var": 0.1642242431640625,
      "learning_rate": 2e-05,
      "loss": 0.3349,
      "loss/crossentropy": 1.556907832622528,
      "loss/hidden": 0.310546875,
      "loss/logits": 0.0243788855150342,
      "step": 417
    },
    {
      "epoch": 0.418,
      "grad_norm": 1.765625,
      "grad_norm_var": 0.1344879150390625,
      "learning_rate": 2e-05,
      "loss": 0.293,
      "loss/crossentropy": 2.18166720867157,
      "loss/hidden": 0.2705078125,
      "loss/logits": 0.022501694969832897,
      "step": 418
    },
    {
      "epoch": 0.419,
      "grad_norm": 5.0,
      "grad_norm_var": 0.7930084228515625,
      "learning_rate": 2e-05,
      "loss": 0.306,
      "loss/crossentropy": 1.875123679637909,
      "loss/hidden": 0.2841796875,
      "loss/logits": 0.021816120482981205,
      "step": 419
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.0,
      "grad_norm_var": 0.7917633056640625,
      "learning_rate": 2e-05,
      "loss": 0.3207,
      "loss/crossentropy": 2.1878353357315063,
      "loss/hidden": 0.29296875,
      "loss/logits": 0.027718784287571907,
      "step": 420
    },
    {
      "epoch": 0.421,
      "grad_norm": 2.5,
      "grad_norm_var": 0.7763160705566406,
      "learning_rate": 2e-05,
      "loss": 0.3106,
      "loss/crossentropy": 2.46438992023468,
      "loss/hidden": 0.2841796875,
      "loss/logits": 0.026430321857333183,
      "step": 421
    },
    {
      "epoch": 0.422,
      "grad_norm": 1.59375,
      "grad_norm_var": 0.7701576232910157,
      "learning_rate": 2e-05,
      "loss": 0.2847,
      "loss/crossentropy": 1.991809368133545,
      "loss/hidden": 0.265625,
      "loss/logits": 0.019083392806351185,
      "step": 422
    },
    {
      "epoch": 0.423,
      "grad_norm": 2.421875,
      "grad_norm_var": 0.7565935770670573,
      "learning_rate": 2e-05,
      "loss": 0.415,
      "loss/crossentropy": 1.6859049797058105,
      "loss/hidden": 0.3818359375,
      "loss/logits": 0.03313039615750313,
      "step": 423
    },
    {
      "epoch": 0.424,
      "grad_norm": 1.859375,
      "grad_norm_var": 0.7589800516764323,
      "learning_rate": 2e-05,
      "loss": 0.3098,
      "loss/crossentropy": 1.8961586952209473,
      "loss/hidden": 0.2900390625,
      "loss/logits": 0.019725864753127098,
      "step": 424
    },
    {
      "epoch": 0.425,
      "grad_norm": 1.6171875,
      "grad_norm_var": 0.7438547770182292,
      "learning_rate": 2e-05,
      "loss": 0.3427,
      "loss/crossentropy": 2.085192084312439,
      "loss/hidden": 0.31640625,
      "loss/logits": 0.026326753199100494,
      "step": 425
    },
    {
      "epoch": 0.426,
      "grad_norm": 2.078125,
      "grad_norm_var": 0.705224609375,
      "learning_rate": 2e-05,
      "loss": 0.3321,
      "loss/crossentropy": 1.912731111049652,
      "loss/hidden": 0.3076171875,
      "loss/logits": 0.02450721152126789,
      "step": 426
    },
    {
      "epoch": 0.427,
      "grad_norm": 1.8359375,
      "grad_norm_var": 0.6918108622233073,
      "learning_rate": 2e-05,
      "loss": 0.3396,
      "loss/crossentropy": 2.1176230907440186,
      "loss/hidden": 0.310546875,
      "loss/logits": 0.029072879813611507,
      "step": 427
    },
    {
      "epoch": 0.428,
      "grad_norm": 1.6015625,
      "grad_norm_var": 0.6852617899576823,
      "learning_rate": 2e-05,
      "loss": 0.318,
      "loss/crossentropy": 2.351975202560425,
      "loss/hidden": 0.291015625,
      "loss/logits": 0.026953624561429024,
      "step": 428
    },
    {
      "epoch": 0.429,
      "grad_norm": 2.3125,
      "grad_norm_var": 0.6734690348307292,
      "learning_rate": 2e-05,
      "loss": 0.4069,
      "loss/crossentropy": 1.6036078929901123,
      "loss/hidden": 0.37109375,
      "loss/logits": 0.03581710997968912,
      "step": 429
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.46875,
      "grad_norm_var": 0.667138671875,
      "learning_rate": 2e-05,
      "loss": 0.3472,
      "loss/crossentropy": 1.881849765777588,
      "loss/hidden": 0.3232421875,
      "loss/logits": 0.023961665108799934,
      "step": 430
    },
    {
      "epoch": 0.431,
      "grad_norm": 3.625,
      "grad_norm_var": 0.77403564453125,
      "learning_rate": 2e-05,
      "loss": 0.3121,
      "loss/crossentropy": 2.3671000599861145,
      "loss/hidden": 0.2900390625,
      "loss/logits": 0.022101588547229767,
      "step": 431
    },
    {
      "epoch": 0.432,
      "grad_norm": 2.4375,
      "grad_norm_var": 0.7627866109212239,
      "learning_rate": 2e-05,
      "loss": 0.3151,
      "loss/crossentropy": 1.1575224101543427,
      "loss/hidden": 0.298828125,
      "loss/logits": 0.016257786191999912,
      "step": 432
    },
    {
      "epoch": 0.433,
      "grad_norm": 5.40625,
      "grad_norm_var": 1.3478289286295573,
      "learning_rate": 2e-05,
      "loss": 0.3283,
      "loss/crossentropy": 1.3821857124567032,
      "loss/hidden": 0.3115234375,
      "loss/logits": 0.016785149462521076,
      "step": 433
    },
    {
      "epoch": 0.434,
      "grad_norm": 2.140625,
      "grad_norm_var": 1.3182634989420572,
      "learning_rate": 2e-05,
      "loss": 0.3499,
      "loss/crossentropy": 1.4704007506370544,
      "loss/hidden": 0.326171875,
      "loss/logits": 0.02373607736080885,
      "step": 434
    },
    {
      "epoch": 0.435,
      "grad_norm": 1.7890625,
      "grad_norm_var": 0.9163736979166667,
      "learning_rate": 2e-05,
      "loss": 0.3453,
      "loss/crossentropy": 1.7521992325782776,
      "loss/hidden": 0.322265625,
      "loss/logits": 0.023045840673148632,
      "step": 435
    },
    {
      "epoch": 0.436,
      "grad_norm": 2.203125,
      "grad_norm_var": 0.9093251546223958,
      "learning_rate": 2e-05,
      "loss": 0.3079,
      "loss/crossentropy": 1.4147529304027557,
      "loss/hidden": 0.2919921875,
      "loss/logits": 0.01587154157459736,
      "step": 436
    },
    {
      "epoch": 0.437,
      "grad_norm": 1.78125,
      "grad_norm_var": 0.9289784749348958,
      "learning_rate": 2e-05,
      "loss": 0.3572,
      "loss/crossentropy": 2.1589527130126953,
      "loss/hidden": 0.330078125,
      "loss/logits": 0.027110325172543526,
      "step": 437
    },
    {
      "epoch": 0.438,
      "grad_norm": 1.546875,
      "grad_norm_var": 0.9336751302083334,
      "learning_rate": 2e-05,
      "loss": 0.3112,
      "loss/crossentropy": 2.0695826411247253,
      "loss/hidden": 0.2890625,
      "loss/logits": 0.022175450809299946,
      "step": 438
    },
    {
      "epoch": 0.439,
      "grad_norm": 8.6875,
      "grad_norm_var": 3.472150675455729,
      "learning_rate": 2e-05,
      "loss": 0.3174,
      "loss/crossentropy": 2.715834140777588,
      "loss/hidden": 0.2919921875,
      "loss/logits": 0.02542768605053425,
      "step": 439
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.0625,
      "grad_norm_var": 3.4516398111979165,
      "learning_rate": 2e-05,
      "loss": 0.3531,
      "loss/crossentropy": 2.089130699634552,
      "loss/hidden": 0.326171875,
      "loss/logits": 0.026951050385832787,
      "step": 440
    },
    {
      "epoch": 0.441,
      "grad_norm": 5.6875,
      "grad_norm_var": 3.8860979715983075,
      "learning_rate": 2e-05,
      "loss": 0.352,
      "loss/crossentropy": 1.6687681376934052,
      "loss/hidden": 0.3330078125,
      "loss/logits": 0.018973306752741337,
      "step": 441
    },
    {
      "epoch": 0.442,
      "grad_norm": 1.6953125,
      "grad_norm_var": 3.941239420572917,
      "learning_rate": 2e-05,
      "loss": 0.354,
      "loss/crossentropy": 1.4019538760185242,
      "loss/hidden": 0.33203125,
      "loss/logits": 0.021962410770356655,
      "step": 442
    },
    {
      "epoch": 0.443,
      "grad_norm": 2.453125,
      "grad_norm_var": 3.8729509989420574,
      "learning_rate": 2e-05,
      "loss": 0.3591,
      "loss/crossentropy": 2.068819046020508,
      "loss/hidden": 0.328125,
      "loss/logits": 0.03100405167788267,
      "step": 443
    },
    {
      "epoch": 0.444,
      "grad_norm": 2.625,
      "grad_norm_var": 3.7484527587890626,
      "learning_rate": 2e-05,
      "loss": 0.3207,
      "loss/crossentropy": 1.2215966582298279,
      "loss/hidden": 0.306640625,
      "loss/logits": 0.014033652492798865,
      "step": 444
    },
    {
      "epoch": 0.445,
      "grad_norm": 2.796875,
      "grad_norm_var": 3.7149943033854167,
      "learning_rate": 2e-05,
      "loss": 0.2843,
      "loss/crossentropy": 0.8393277078866959,
      "loss/hidden": 0.2734375,
      "loss/logits": 0.010860613780096173,
      "step": 445
    },
    {
      "epoch": 0.446,
      "grad_norm": 3.6875,
      "grad_norm_var": 3.7072184244791666,
      "learning_rate": 2e-05,
      "loss": 0.3369,
      "loss/crossentropy": 0.8106656819581985,
      "loss/hidden": 0.32421875,
      "loss/logits": 0.01267361780628562,
      "step": 446
    },
    {
      "epoch": 0.447,
      "grad_norm": 4.28125,
      "grad_norm_var": 3.774466959635417,
      "learning_rate": 2e-05,
      "loss": 0.3246,
      "loss/crossentropy": 1.0552468746900558,
      "loss/hidden": 0.3095703125,
      "loss/logits": 0.015042064245790243,
      "step": 447
    },
    {
      "epoch": 0.448,
      "grad_norm": 2.734375,
      "grad_norm_var": 3.749592081705729,
      "learning_rate": 2e-05,
      "loss": 0.3734,
      "loss/crossentropy": 2.4344149827957153,
      "loss/hidden": 0.3427734375,
      "loss/logits": 0.030597456730902195,
      "step": 448
    },
    {
      "epoch": 0.449,
      "grad_norm": 3.984375,
      "grad_norm_var": 3.4621622721354166,
      "learning_rate": 2e-05,
      "loss": 0.3036,
      "loss/crossentropy": 1.054320715367794,
      "loss/hidden": 0.28857421875,
      "loss/logits": 0.014980267733335495,
      "step": 449
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.8359375,
      "grad_norm_var": 3.5083513895670575,
      "learning_rate": 2e-05,
      "loss": 0.3366,
      "loss/crossentropy": 2.0155181288719177,
      "loss/hidden": 0.310546875,
      "loss/logits": 0.02600990142673254,
      "step": 450
    },
    {
      "epoch": 0.451,
      "grad_norm": 2.0,
      "grad_norm_var": 3.4738199869791666,
      "learning_rate": 2e-05,
      "loss": 0.3511,
      "loss/crossentropy": 1.755088448524475,
      "loss/hidden": 0.3271484375,
      "loss/logits": 0.023935355246067047,
      "step": 451
    },
    {
      "epoch": 0.452,
      "grad_norm": 2.046875,
      "grad_norm_var": 3.4946329752604166,
      "learning_rate": 2e-05,
      "loss": 0.3499,
      "loss/crossentropy": 1.7622599005699158,
      "loss/hidden": 0.326171875,
      "loss/logits": 0.023745747283101082,
      "step": 452
    },
    {
      "epoch": 0.453,
      "grad_norm": 1.7890625,
      "grad_norm_var": 3.4932431538899738,
      "learning_rate": 2e-05,
      "loss": 0.3215,
      "loss/crossentropy": 2.3116530179977417,
      "loss/hidden": 0.298828125,
      "loss/logits": 0.022703303024172783,
      "step": 453
    },
    {
      "epoch": 0.454,
      "grad_norm": 1.6875,
      "grad_norm_var": 3.464989980061849,
      "learning_rate": 2e-05,
      "loss": 0.3673,
      "loss/crossentropy": 1.5556917786598206,
      "loss/hidden": 0.3408203125,
      "loss/logits": 0.026494111865758896,
      "step": 454
    },
    {
      "epoch": 0.455,
      "grad_norm": 2.0,
      "grad_norm_var": 1.3033078511555989,
      "learning_rate": 2e-05,
      "loss": 0.3715,
      "loss/crossentropy": 1.7844219207763672,
      "loss/hidden": 0.345703125,
      "loss/logits": 0.02580021321773529,
      "step": 455
    },
    {
      "epoch": 0.456,
      "grad_norm": 2.53125,
      "grad_norm_var": 1.2765439351399739,
      "learning_rate": 2e-05,
      "loss": 0.448,
      "loss/crossentropy": 1.2347650527954102,
      "loss/hidden": 0.4150390625,
      "loss/logits": 0.0329879354685545,
      "step": 456
    },
    {
      "epoch": 0.457,
      "grad_norm": 1.4375,
      "grad_norm_var": 0.7350563049316406,
      "learning_rate": 2e-05,
      "loss": 0.3455,
      "loss/crossentropy": 1.9715585112571716,
      "loss/hidden": 0.318359375,
      "loss/logits": 0.02718514297157526,
      "step": 457
    },
    {
      "epoch": 0.458,
      "grad_norm": 1.5859375,
      "grad_norm_var": 0.7471616109212239,
      "learning_rate": 2e-05,
      "loss": 0.3339,
      "loss/crossentropy": 2.389525294303894,
      "loss/hidden": 0.30859375,
      "loss/logits": 0.025292156264185905,
      "step": 458
    },
    {
      "epoch": 0.459,
      "grad_norm": 1.4921875,
      "grad_norm_var": 0.8066884358723958,
      "learning_rate": 2e-05,
      "loss": 0.3166,
      "loss/crossentropy": 1.7892733812332153,
      "loss/hidden": 0.29296875,
      "loss/logits": 0.023592060431838036,
      "step": 459
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8125,
      "grad_norm_var": 0.8243560791015625,
      "learning_rate": 2e-05,
      "loss": 0.3353,
      "loss/crossentropy": 1.9092342853546143,
      "loss/hidden": 0.3115234375,
      "loss/logits": 0.02376522123813629,
      "step": 460
    },
    {
      "epoch": 0.461,
      "grad_norm": 1.34375,
      "grad_norm_var": 0.87099609375,
      "learning_rate": 2e-05,
      "loss": 0.349,
      "loss/crossentropy": 1.9013403058052063,
      "loss/hidden": 0.3251953125,
      "loss/logits": 0.02381738182157278,
      "step": 461
    },
    {
      "epoch": 0.462,
      "grad_norm": 2.9375,
      "grad_norm_var": 0.76396484375,
      "learning_rate": 2e-05,
      "loss": 0.3492,
      "loss/crossentropy": 0.9097070023417473,
      "loss/hidden": 0.330078125,
      "loss/logits": 0.01913693710230291,
      "step": 462
    },
    {
      "epoch": 0.463,
      "grad_norm": 2.828125,
      "grad_norm_var": 0.4963287353515625,
      "learning_rate": 2e-05,
      "loss": 0.4669,
      "loss/crossentropy": 1.9413211345672607,
      "loss/hidden": 0.427734375,
      "loss/logits": 0.03912976011633873,
      "step": 463
    },
    {
      "epoch": 0.464,
      "grad_norm": 1.9296875,
      "grad_norm_var": 0.47173233032226564,
      "learning_rate": 2e-05,
      "loss": 0.3569,
      "loss/crossentropy": 2.3746496438980103,
      "loss/hidden": 0.326171875,
      "loss/logits": 0.030762989073991776,
      "step": 464
    },
    {
      "epoch": 0.465,
      "grad_norm": 1.796875,
      "grad_norm_var": 0.21467259724934895,
      "learning_rate": 2e-05,
      "loss": 0.3875,
      "loss/crossentropy": 1.920172929763794,
      "loss/hidden": 0.359375,
      "loss/logits": 0.028154666535556316,
      "step": 465
    },
    {
      "epoch": 0.466,
      "grad_norm": 2.59375,
      "grad_norm_var": 0.23995768229166667,
      "learning_rate": 2e-05,
      "loss": 0.4173,
      "loss/crossentropy": 2.1804317831993103,
      "loss/hidden": 0.3828125,
      "loss/logits": 0.03448019549250603,
      "step": 466
    },
    {
      "epoch": 0.467,
      "grad_norm": 2.453125,
      "grad_norm_var": 0.25349833170572916,
      "learning_rate": 2e-05,
      "loss": 0.3635,
      "loss/crossentropy": 2.1129865646362305,
      "loss/hidden": 0.3369140625,
      "loss/logits": 0.026613284833729267,
      "step": 467
    },
    {
      "epoch": 0.468,
      "grad_norm": 3.4375,
      "grad_norm_var": 0.37997639973958336,
      "learning_rate": 2e-05,
      "loss": 0.3892,
      "loss/crossentropy": 1.6438812613487244,
      "loss/hidden": 0.3623046875,
      "loss/logits": 0.026910429820418358,
      "step": 468
    },
    {
      "epoch": 0.469,
      "grad_norm": 13.125,
      "grad_norm_var": 7.936161041259766,
      "learning_rate": 2e-05,
      "loss": 0.4187,
      "loss/crossentropy": 1.8062403798103333,
      "loss/hidden": 0.3857421875,
      "loss/logits": 0.03291827440261841,
      "step": 469
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.421875,
      "grad_norm_var": 7.8641212463378904,
      "learning_rate": 2e-05,
      "loss": 0.4157,
      "loss/crossentropy": 1.2208881378173828,
      "loss/hidden": 0.39453125,
      "loss/logits": 0.02117818035185337,
      "step": 470
    },
    {
      "epoch": 0.471,
      "grad_norm": 1.953125,
      "grad_norm_var": 7.8700111389160154,
      "learning_rate": 2e-05,
      "loss": 0.3306,
      "loss/crossentropy": 2.474324107170105,
      "loss/hidden": 0.3037109375,
      "loss/logits": 0.026909410022199154,
      "step": 471
    },
    {
      "epoch": 0.472,
      "grad_norm": 2.796875,
      "grad_norm_var": 7.860741933186849,
      "learning_rate": 2e-05,
      "loss": 0.4071,
      "loss/crossentropy": 1.8907885551452637,
      "loss/hidden": 0.3740234375,
      "loss/logits": 0.03311134688556194,
      "step": 472
    },
    {
      "epoch": 0.473,
      "grad_norm": 5.40625,
      "grad_norm_var": 8.053236643473307,
      "learning_rate": 2e-05,
      "loss": 0.482,
      "loss/crossentropy": 1.851112186908722,
      "loss/hidden": 0.4287109375,
      "loss/logits": 0.0532735763117671,
      "step": 473
    },
    {
      "epoch": 0.474,
      "grad_norm": 1.8125,
      "grad_norm_var": 8.008226521809895,
      "learning_rate": 2e-05,
      "loss": 0.4011,
      "loss/crossentropy": 2.0893144607543945,
      "loss/hidden": 0.37109375,
      "loss/logits": 0.03000558167695999,
      "step": 474
    },
    {
      "epoch": 0.475,
      "grad_norm": 1.84375,
      "grad_norm_var": 7.936071523030599,
      "learning_rate": 2e-05,
      "loss": 0.4086,
      "loss/crossentropy": 1.692557156085968,
      "loss/hidden": 0.37890625,
      "loss/logits": 0.029658248648047447,
      "step": 475
    },
    {
      "epoch": 0.476,
      "grad_norm": 1.734375,
      "grad_norm_var": 7.9510963439941404,
      "learning_rate": 2e-05,
      "loss": 0.3369,
      "loss/crossentropy": 2.7231298685073853,
      "loss/hidden": 0.3095703125,
      "loss/logits": 0.027365448884665966,
      "step": 476
    },
    {
      "epoch": 0.477,
      "grad_norm": 122.5,
      "grad_norm_var": 895.1761065165202,
      "learning_rate": 2e-05,
      "loss": 1.8739,
      "loss/crossentropy": 1.9931391477584839,
      "loss/hidden": 1.73828125,
      "loss/logits": 0.13565433584153652,
      "step": 477
    },
    {
      "epoch": 0.478,
      "grad_norm": 18.75,
      "grad_norm_var": 894.2567990620931,
      "learning_rate": 2e-05,
      "loss": 0.4467,
      "loss/crossentropy": 1.0818050801753998,
      "loss/hidden": 0.423828125,
      "loss/logits": 0.022886332124471664,
      "step": 478
    },
    {
      "epoch": 0.479,
      "grad_norm": 1.9609375,
      "grad_norm_var": 895.3381581624349,
      "learning_rate": 2e-05,
      "loss": 0.3744,
      "loss/crossentropy": 2.382234215736389,
      "loss/hidden": 0.3447265625,
      "loss/logits": 0.029717115685343742,
      "step": 479
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.71875,
      "grad_norm_var": 895.6162839253743,
      "learning_rate": 2e-05,
      "loss": 0.3323,
      "loss/crossentropy": 2.0683305859565735,
      "loss/hidden": 0.30859375,
      "loss/logits": 0.023680799640715122,
      "step": 480
    },
    {
      "epoch": 0.481,
      "grad_norm": 2.546875,
      "grad_norm_var": 894.6604733784993,
      "learning_rate": 2e-05,
      "loss": 0.3756,
      "loss/crossentropy": 2.154377818107605,
      "loss/hidden": 0.34765625,
      "loss/logits": 0.02795298583805561,
      "step": 481
    },
    {
      "epoch": 0.482,
      "grad_norm": 3.1875,
      "grad_norm_var": 893.9573666890462,
      "learning_rate": 2e-05,
      "loss": 0.4124,
      "loss/crossentropy": 1.9701088666915894,
      "loss/hidden": 0.3779296875,
      "loss/logits": 0.03451960347592831,
      "step": 482
    },
    {
      "epoch": 0.483,
      "grad_norm": 2.5,
      "grad_norm_var": 893.8991452534993,
      "learning_rate": 2e-05,
      "loss": 0.4523,
      "loss/crossentropy": 0.9486123919487,
      "loss/hidden": 0.4306640625,
      "loss/logits": 0.02167674619704485,
      "step": 483
    },
    {
      "epoch": 0.484,
      "grad_norm": 2.578125,
      "grad_norm_var": 894.9027565002441,
      "learning_rate": 2e-05,
      "loss": 0.3955,
      "loss/crossentropy": 1.7118502855300903,
      "loss/hidden": 0.365234375,
      "loss/logits": 0.030311796814203262,
      "step": 484
    },
    {
      "epoch": 0.485,
      "grad_norm": 1.890625,
      "grad_norm_var": 900.7159604390462,
      "learning_rate": 2e-05,
      "loss": 0.3914,
      "loss/crossentropy": 1.7511045932769775,
      "loss/hidden": 0.36328125,
      "loss/logits": 0.02810109406709671,
      "step": 485
    },
    {
      "epoch": 0.486,
      "grad_norm": 2.203125,
      "grad_norm_var": 902.0463498433431,
      "learning_rate": 2e-05,
      "loss": 0.3893,
      "loss/crossentropy": 1.9742628931999207,
      "loss/hidden": 0.3603515625,
      "loss/logits": 0.028935128822922707,
      "step": 486
    },
    {
      "epoch": 0.487,
      "grad_norm": 2.609375,
      "grad_norm_var": 901.28504002889,
      "learning_rate": 2e-05,
      "loss": 0.338,
      "loss/crossentropy": 1.5944682955741882,
      "loss/hidden": 0.31640625,
      "loss/logits": 0.02155130822211504,
      "step": 487
    },
    {
      "epoch": 0.488,
      "grad_norm": 2.0,
      "grad_norm_var": 902.1965695699056,
      "learning_rate": 2e-05,
      "loss": 0.3749,
      "loss/crossentropy": 2.109809994697571,
      "loss/hidden": 0.3486328125,
      "loss/logits": 0.026237317360937595,
      "step": 488
    },
    {
      "epoch": 0.489,
      "grad_norm": 2.828125,
      "grad_norm_var": 904.5185605367025,
      "learning_rate": 2e-05,
      "loss": 0.3601,
      "loss/crossentropy": 2.371906280517578,
      "loss/hidden": 0.33203125,
      "loss/logits": 0.0280781090259552,
      "step": 489
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.25,
      "grad_norm_var": 904.0067481994629,
      "learning_rate": 2e-05,
      "loss": 0.3881,
      "loss/crossentropy": 2.3074965476989746,
      "loss/hidden": 0.3583984375,
      "loss/logits": 0.029700559563934803,
      "step": 490
    },
    {
      "epoch": 0.491,
      "grad_norm": 1.609375,
      "grad_norm_var": 904.2906532287598,
      "learning_rate": 2e-05,
      "loss": 0.3533,
      "loss/crossentropy": 2.0604811906814575,
      "loss/hidden": 0.3271484375,
      "loss/logits": 0.026149596087634563,
      "step": 491
    },
    {
      "epoch": 0.492,
      "grad_norm": 2.203125,
      "grad_norm_var": 903.7375221252441,
      "learning_rate": 2e-05,
      "loss": 0.3982,
      "loss/crossentropy": 2.0394086837768555,
      "loss/hidden": 0.3671875,
      "loss/logits": 0.030979415401816368,
      "step": 492
    },
    {
      "epoch": 0.493,
      "grad_norm": 1.53125,
      "grad_norm_var": 17.239774322509767,
      "learning_rate": 2e-05,
      "loss": 0.3721,
      "loss/crossentropy": 1.992867350578308,
      "loss/hidden": 0.3447265625,
      "loss/logits": 0.02732760366052389,
      "step": 493
    },
    {
      "epoch": 0.494,
      "grad_norm": 1.5,
      "grad_norm_var": 0.24021377563476562,
      "learning_rate": 2e-05,
      "loss": 0.3607,
      "loss/crossentropy": 2.0647668838500977,
      "loss/hidden": 0.3349609375,
      "loss/logits": 0.02573198452591896,
      "step": 494
    },
    {
      "epoch": 0.495,
      "grad_norm": 3.265625,
      "grad_norm_var": 0.3059153238932292,
      "learning_rate": 2e-05,
      "loss": 0.4332,
      "loss/crossentropy": 2.0061678886413574,
      "loss/hidden": 0.4033203125,
      "loss/logits": 0.029847824946045876,
      "step": 495
    },
    {
      "epoch": 0.496,
      "grad_norm": 1.671875,
      "grad_norm_var": 0.30953776041666664,
      "learning_rate": 2e-05,
      "loss": 0.3677,
      "loss/crossentropy": 2.029963493347168,
      "loss/hidden": 0.3408203125,
      "loss/logits": 0.026841914281249046,
      "step": 496
    },
    {
      "epoch": 0.497,
      "grad_norm": 2.1875,
      "grad_norm_var": 0.3045074462890625,
      "learning_rate": 2e-05,
      "loss": 0.3773,
      "loss/crossentropy": 1.836094081401825,
      "loss/hidden": 0.3505859375,
      "loss/logits": 0.026703315787017345,
      "step": 497
    },
    {
      "epoch": 0.498,
      "grad_norm": 1.8984375,
      "grad_norm_var": 0.24739761352539064,
      "learning_rate": 2e-05,
      "loss": 0.3934,
      "loss/crossentropy": 2.284022331237793,
      "loss/hidden": 0.36328125,
      "loss/logits": 0.030102317221462727,
      "step": 498
    },
    {
      "epoch": 0.499,
      "grad_norm": 1.609375,
      "grad_norm_var": 0.25783462524414064,
      "learning_rate": 2e-05,
      "loss": 0.422,
      "loss/crossentropy": 1.7640503644943237,
      "loss/hidden": 0.388671875,
      "loss/logits": 0.03330034948885441,
      "step": 499
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.40625,
      "grad_norm_var": 0.2490618387858073,
      "learning_rate": 2e-05,
      "loss": 0.4409,
      "loss/crossentropy": 1.4432637095451355,
      "loss/hidden": 0.4130859375,
      "loss/logits": 0.027862844988703728,
      "step": 500
    }
  ],
  "logging_steps": 1,
  "max_steps": 1000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": true,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.2202930782208e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}