{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 2000,
  "global_step": 6000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00016666666666666666,
      "grad_norm": 47.0,
      "learning_rate": 0.0001,
      "loss": 8.0388,
      "loss/crossentropy": 2.015764206647873,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27190398424863815,
      "step": 1
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 51.75,
      "learning_rate": 9.999999314610822e-05,
      "loss": 7.1282,
      "loss/crossentropy": 1.6513436883687973,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21722547337412834,
      "step": 2
    },
    {
      "epoch": 0.0005,
      "grad_norm": 43.75,
      "learning_rate": 9.999997258443473e-05,
      "loss": 7.8038,
      "loss/crossentropy": 1.228823497891426,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2009564395993948,
      "step": 3
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 40.75,
      "learning_rate": 9.999993831498517e-05,
      "loss": 7.4582,
      "loss/crossentropy": 2.0953528583049774,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27634887397289276,
      "step": 4
    },
    {
      "epoch": 0.0008333333333333334,
      "grad_norm": 34.5,
      "learning_rate": 9.999989033776898e-05,
      "loss": 7.3349,
      "loss/crossentropy": 1.712344229221344,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21917030215263367,
      "step": 5
    },
    {
      "epoch": 0.001,
      "grad_norm": 31.75,
      "learning_rate": 9.999982865279924e-05,
      "loss": 7.5036,
      "loss/crossentropy": 1.8789039552211761,
      "loss/hidden": 3.76953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20935339480638504,
      "step": 6
    },
    {
      "epoch": 0.0011666666666666668,
      "grad_norm": 33.25,
      "learning_rate": 9.999975326009292e-05,
      "loss": 7.1155,
      "loss/crossentropy": 1.37015450745821,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13620511814951897,
      "step": 7
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 35.0,
      "learning_rate": 9.999966415967066e-05,
      "loss": 7.2857,
      "loss/crossentropy": 1.668631225824356,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21737387031316757,
      "step": 8
    },
    {
      "epoch": 0.0015,
      "grad_norm": 35.5,
      "learning_rate": 9.999956135155687e-05,
      "loss": 7.1543,
      "loss/crossentropy": 1.65235635638237,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1770026832818985,
      "step": 9
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 31.0,
      "learning_rate": 9.999944483577981e-05,
      "loss": 7.1422,
      "loss/crossentropy": 1.598803088068962,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17498954012989998,
      "step": 10
    },
    {
      "epoch": 0.0018333333333333333,
      "grad_norm": 33.75,
      "learning_rate": 9.999931461237134e-05,
      "loss": 7.6142,
      "loss/crossentropy": 1.65041284263134,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23264329880475998,
      "step": 11
    },
    {
      "epoch": 0.002,
      "grad_norm": 38.5,
      "learning_rate": 9.999917068136722e-05,
      "loss": 7.426,
      "loss/crossentropy": 1.4104643166065216,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21118134632706642,
      "step": 12
    },
    {
      "epoch": 0.0021666666666666666,
      "grad_norm": 40.25,
      "learning_rate": 9.999901304280685e-05,
      "loss": 7.9928,
      "loss/crossentropy": 1.6555309295654297,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16892194002866745,
      "step": 13
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 37.0,
      "learning_rate": 9.999884169673351e-05,
      "loss": 7.2367,
      "loss/crossentropy": 1.5136004090309143,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21831507235765457,
      "step": 14
    },
    {
      "epoch": 0.0025,
      "grad_norm": 33.75,
      "learning_rate": 9.999865664319414e-05,
      "loss": 7.6944,
      "loss/crossentropy": 1.755567491054535,
      "loss/hidden": 3.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2622127905488014,
      "step": 15
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 31.625,
      "grad_norm_var": 35.131184895833336,
      "learning_rate": 9.999845788223949e-05,
      "loss": 7.4481,
      "loss/crossentropy": 1.3894422799348831,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17372214049100876,
      "step": 16
    },
    {
      "epoch": 0.0028333333333333335,
      "grad_norm": 33.75,
      "grad_norm_var": 29.223893229166666,
      "learning_rate": 9.999824541392405e-05,
      "loss": 7.1243,
      "loss/crossentropy": 1.823076069355011,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2317724972963333,
      "step": 17
    },
    {
      "epoch": 0.003,
      "grad_norm": 38.5,
      "grad_norm_var": 13.4619140625,
      "learning_rate": 9.999801923830603e-05,
      "loss": 7.5944,
      "loss/crossentropy": 1.8854615688323975,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2611945904791355,
      "step": 18
    },
    {
      "epoch": 0.0031666666666666666,
      "grad_norm": 35.75,
      "grad_norm_var": 8.970247395833333,
      "learning_rate": 9.99977793554475e-05,
      "loss": 7.7183,
      "loss/crossentropy": 1.9868004322052002,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22432727739214897,
      "step": 19
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 33.75,
      "grad_norm_var": 6.935872395833333,
      "learning_rate": 9.999752576541418e-05,
      "loss": 7.4676,
      "loss/crossentropy": 1.3248331844806671,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20089071616530418,
      "step": 20
    },
    {
      "epoch": 0.0035,
      "grad_norm": 34.5,
      "grad_norm_var": 6.935872395833333,
      "learning_rate": 9.999725846827562e-05,
      "loss": 7.5965,
      "loss/crossentropy": 1.3043542802333832,
      "loss/hidden": 3.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2816320173442364,
      "step": 21
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 33.25,
      "grad_norm_var": 6.456184895833333,
      "learning_rate": 9.999697746410508e-05,
      "loss": 7.5651,
      "loss/crossentropy": 1.4966092258691788,
      "loss/hidden": 3.72265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19401345402002335,
      "step": 22
    },
    {
      "epoch": 0.003833333333333333,
      "grad_norm": 33.5,
      "grad_norm_var": 6.403580729166666,
      "learning_rate": 9.99966827529796e-05,
      "loss": 7.7272,
      "loss/crossentropy": 1.5755852162837982,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1464239191263914,
      "step": 23
    },
    {
      "epoch": 0.004,
      "grad_norm": 34.0,
      "grad_norm_var": 6.460872395833333,
      "learning_rate": 9.999637433497999e-05,
      "loss": 7.5594,
      "loss/crossentropy": 1.77267724275589,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26836544647812843,
      "step": 24
    },
    {
      "epoch": 0.004166666666666667,
      "grad_norm": 36.75,
      "grad_norm_var": 6.6587890625,
      "learning_rate": 9.999605221019081e-05,
      "loss": 7.9483,
      "loss/crossentropy": 1.4049716889858246,
      "loss/hidden": 3.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2349778600037098,
      "step": 25
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 6.242708333333334,
      "learning_rate": 9.999571637870036e-05,
      "loss": 7.0353,
      "loss/crossentropy": 1.6401013135910034,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18000634759664536,
      "step": 26
    },
    {
      "epoch": 0.0045,
      "grad_norm": 34.75,
      "grad_norm_var": 6.134375,
      "learning_rate": 9.99953668406007e-05,
      "loss": 7.5181,
      "loss/crossentropy": 1.5710090696811676,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11938946694135666,
      "step": 27
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 5.387239583333334,
      "learning_rate": 9.999500359598768e-05,
      "loss": 7.174,
      "loss/crossentropy": 1.7123600542545319,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16798048838973045,
      "step": 28
    },
    {
      "epoch": 0.004833333333333334,
      "grad_norm": 35.5,
      "grad_norm_var": 3.34375,
      "learning_rate": 9.999462664496088e-05,
      "loss": 7.4485,
      "loss/crossentropy": 1.2491168677806854,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17139602452516556,
      "step": 29
    },
    {
      "epoch": 0.005,
      "grad_norm": 32.25,
      "grad_norm_var": 3.1705729166666665,
      "learning_rate": 9.999423598762363e-05,
      "loss": 7.0512,
      "loss/crossentropy": 1.4913183897733688,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1743941754102707,
      "step": 30
    },
    {
      "epoch": 0.005166666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 3.34375,
      "learning_rate": 9.999383162408304e-05,
      "loss": 7.3525,
      "loss/crossentropy": 2.0380469262599945,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20196463912725449,
      "step": 31
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 37.75,
      "grad_norm_var": 3.6468098958333335,
      "learning_rate": 9.999341355444995e-05,
      "loss": 7.477,
      "loss/crossentropy": 1.167970821261406,
      "loss/hidden": 3.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26106464490294456,
      "step": 32
    },
    {
      "epoch": 0.0055,
      "grad_norm": 34.0,
      "grad_norm_var": 3.6254557291666667,
      "learning_rate": 9.999298177883903e-05,
      "loss": 7.4047,
      "loss/crossentropy": 1.9607312381267548,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2703733518719673,
      "step": 33
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 33.75,
      "grad_norm_var": 2.5171223958333333,
      "learning_rate": 9.99925362973686e-05,
      "loss": 7.4611,
      "loss/crossentropy": 2.214526116847992,
      "loss/hidden": 3.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3339185602962971,
      "step": 34
    },
    {
      "epoch": 0.005833333333333334,
      "grad_norm": 34.0,
      "grad_norm_var": 2.3530598958333333,
      "learning_rate": 9.999207711016081e-05,
      "loss": 7.4829,
      "loss/crossentropy": 1.9158975481987,
      "loss/hidden": 3.73828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21212821826338768,
      "step": 35
    },
    {
      "epoch": 0.006,
      "grad_norm": 33.75,
      "grad_norm_var": 2.3530598958333333,
      "learning_rate": 9.999160421734155e-05,
      "loss": 6.8363,
      "loss/crossentropy": 1.2238537073135376,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20537541806697845,
      "step": 36
    },
    {
      "epoch": 0.006166666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 3.326041666666667,
      "learning_rate": 9.999111761904046e-05,
      "loss": 6.5735,
      "loss/crossentropy": 1.386010155081749,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21487441286444664,
      "step": 37
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 3.52265625,
      "learning_rate": 9.999061731539094e-05,
      "loss": 7.0498,
      "loss/crossentropy": 1.6234411001205444,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26318273693323135,
      "step": 38
    },
    {
      "epoch": 0.0065,
      "grad_norm": 33.75,
      "grad_norm_var": 3.517708333333333,
      "learning_rate": 9.999010330653018e-05,
      "loss": 7.2467,
      "loss/crossentropy": 1.775725930929184,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.228952556848526,
      "step": 39
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 3.6145833333333335,
      "learning_rate": 9.998957559259906e-05,
      "loss": 7.3362,
      "loss/crossentropy": 1.3429348766803741,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1380001101642847,
      "step": 40
    },
    {
      "epoch": 0.006833333333333334,
      "grad_norm": 31.875,
      "grad_norm_var": 3.1093098958333334,
      "learning_rate": 9.998903417374228e-05,
      "loss": 7.4727,
      "loss/crossentropy": 1.2927208542823792,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22973712906241417,
      "step": 41
    },
    {
      "epoch": 0.007,
      "grad_norm": 32.25,
      "grad_norm_var": 3.042708333333333,
      "learning_rate": 9.998847905010826e-05,
      "loss": 7.3356,
      "loss/crossentropy": 1.642817735671997,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.22616977244615555,
      "step": 42
    },
    {
      "epoch": 0.007166666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 2.934375,
      "learning_rate": 9.998791022184922e-05,
      "loss": 7.2349,
      "loss/crossentropy": 1.7549102306365967,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2533755637705326,
      "step": 43
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 2.95390625,
      "learning_rate": 9.998732768912104e-05,
      "loss": 6.9294,
      "loss/crossentropy": 2.2454869747161865,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.164547361433506,
      "step": 44
    },
    {
      "epoch": 0.0075,
      "grad_norm": 32.5,
      "grad_norm_var": 2.59765625,
      "learning_rate": 9.99867314520835e-05,
      "loss": 7.2884,
      "loss/crossentropy": 1.0857951641082764,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15111834183335304,
      "step": 45
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 31.875,
      "grad_norm_var": 2.6447265625,
      "learning_rate": 9.998612151090003e-05,
      "loss": 7.4896,
      "loss/crossentropy": 2.3741764277219772,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21800962835550308,
      "step": 46
    },
    {
      "epoch": 0.007833333333333333,
      "grad_norm": 35.5,
      "grad_norm_var": 3.0103515625,
      "learning_rate": 9.998549786573785e-05,
      "loss": 7.8114,
      "loss/crossentropy": 1.4853083044290543,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1981479413807392,
      "step": 47
    },
    {
      "epoch": 0.008,
      "grad_norm": 32.25,
      "grad_norm_var": 1.5494140625,
      "learning_rate": 9.998486051676792e-05,
      "loss": 7.6955,
      "loss/crossentropy": 1.8257912993431091,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25801796093583107,
      "step": 48
    },
    {
      "epoch": 0.008166666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 1.4572265625,
      "learning_rate": 9.9984209464165e-05,
      "loss": 7.5406,
      "loss/crossentropy": 1.6004481613636017,
      "loss/hidden": 3.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2681163512170315,
      "step": 49
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 34.5,
      "grad_norm_var": 1.5931640625,
      "learning_rate": 9.998354470810757e-05,
      "loss": 7.4694,
      "loss/crossentropy": 1.1797468811273575,
      "loss/hidden": 3.79296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18932894617319107,
      "step": 50
    },
    {
      "epoch": 0.0085,
      "grad_norm": 30.625,
      "grad_norm_var": 1.76015625,
      "learning_rate": 9.998286624877786e-05,
      "loss": 7.1043,
      "loss/crossentropy": 1.4719633758068085,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32244824431836605,
      "step": 51
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 32.75,
      "grad_norm_var": 1.66640625,
      "learning_rate": 9.99821740863619e-05,
      "loss": 7.4195,
      "loss/crossentropy": 1.6572435796260834,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16776087693870068,
      "step": 52
    },
    {
      "epoch": 0.008833333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 1.2619140625,
      "learning_rate": 9.998146822104943e-05,
      "loss": 7.0209,
      "loss/crossentropy": 1.6052251160144806,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16937347874045372,
      "step": 53
    },
    {
      "epoch": 0.009,
      "grad_norm": 31.125,
      "grad_norm_var": 1.3872395833333333,
      "learning_rate": 9.998074865303399e-05,
      "loss": 7.2891,
      "loss/crossentropy": 1.534130334854126,
      "loss/hidden": 3.73046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23601197451353073,
      "step": 54
    },
    {
      "epoch": 0.009166666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 1.3083333333333333,
      "learning_rate": 9.998001538251282e-05,
      "loss": 7.3219,
      "loss/crossentropy": 1.6903752535581589,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18934278190135956,
      "step": 55
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 32.25,
      "grad_norm_var": 1.3143229166666666,
      "learning_rate": 9.997926840968699e-05,
      "loss": 7.7928,
      "loss/crossentropy": 1.417355865240097,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28693941608071327,
      "step": 56
    },
    {
      "epoch": 0.0095,
      "grad_norm": 31.0,
      "grad_norm_var": 1.4405598958333334,
      "learning_rate": 9.997850773476126e-05,
      "loss": 6.941,
      "loss/crossentropy": 1.1929711401462555,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18017736449837685,
      "step": 57
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 1.9559895833333334,
      "learning_rate": 9.997773335794416e-05,
      "loss": 7.2535,
      "loss/crossentropy": 1.5090252310037613,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18393898010253906,
      "step": 58
    },
    {
      "epoch": 0.009833333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 2.174934895833333,
      "learning_rate": 9.997694527944803e-05,
      "loss": 6.7798,
      "loss/crossentropy": 2.142109751701355,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2558054178953171,
      "step": 59
    },
    {
      "epoch": 0.01,
      "grad_norm": 33.0,
      "grad_norm_var": 2.2119140625,
      "learning_rate": 9.99761434994889e-05,
      "loss": 6.9992,
      "loss/crossentropy": 1.6562436819076538,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15309249237179756,
      "step": 60
    },
    {
      "epoch": 0.010166666666666666,
      "grad_norm": 41.0,
      "grad_norm_var": 7.055143229166666,
      "learning_rate": 9.997532801828658e-05,
      "loss": 7.7495,
      "loss/crossentropy": 1.5080684423446655,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.32041720300912857,
      "step": 61
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 33.75,
      "grad_norm_var": 7.058072916666666,
      "learning_rate": 9.997449883606466e-05,
      "loss": 7.1658,
      "loss/crossentropy": 0.9691251963376999,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2008093148469925,
      "step": 62
    },
    {
      "epoch": 0.0105,
      "grad_norm": 29.625,
      "grad_norm_var": 7.146809895833333,
      "learning_rate": 9.997365595305044e-05,
      "loss": 6.8092,
      "loss/crossentropy": 1.3262115865945816,
      "loss/hidden": 4.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24134666472673416,
      "step": 63
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 30.625,
      "grad_norm_var": 7.364322916666667,
      "learning_rate": 9.997279936947502e-05,
      "loss": 7.1277,
      "loss/crossentropy": 1.9158867001533508,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17067686840891838,
      "step": 64
    },
    {
      "epoch": 0.010833333333333334,
      "grad_norm": 31.625,
      "grad_norm_var": 7.3994140625,
      "learning_rate": 9.997192908557323e-05,
      "loss": 7.4407,
      "loss/crossentropy": 1.9335598796606064,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17702890932559967,
      "step": 65
    },
    {
      "epoch": 0.011,
      "grad_norm": 32.0,
      "grad_norm_var": 7.068684895833333,
      "learning_rate": 9.997104510158365e-05,
      "loss": 7.3374,
      "loss/crossentropy": 1.7730918526649475,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1596100777387619,
      "step": 66
    },
    {
      "epoch": 0.011166666666666667,
      "grad_norm": 29.875,
      "grad_norm_var": 7.259309895833334,
      "learning_rate": 9.997014741774866e-05,
      "loss": 6.7962,
      "loss/crossentropy": 1.5432041361927986,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18355126678943634,
      "step": 67
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 7.2837890625,
      "learning_rate": 9.996923603431433e-05,
      "loss": 6.9029,
      "loss/crossentropy": 1.232265830039978,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24395740032196045,
      "step": 68
    },
    {
      "epoch": 0.0115,
      "grad_norm": 32.5,
      "grad_norm_var": 7.2837890625,
      "learning_rate": 9.996831095153055e-05,
      "loss": 7.5835,
      "loss/crossentropy": 1.7480098903179169,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.18551664799451828,
      "step": 69
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 29.875,
      "grad_norm_var": 7.552018229166666,
      "learning_rate": 9.996737216965092e-05,
      "loss": 7.2713,
      "loss/crossentropy": 1.4004269242286682,
      "loss/hidden": 3.80078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24054613709449768,
      "step": 70
    },
    {
      "epoch": 0.011833333333333333,
      "grad_norm": 37.0,
      "grad_norm_var": 9.0478515625,
      "learning_rate": 9.996641968893282e-05,
      "loss": 6.8689,
      "loss/crossentropy": 1.4935747683048248,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2075977362692356,
      "step": 71
    },
    {
      "epoch": 0.012,
      "grad_norm": 31.25,
      "grad_norm_var": 9.1197265625,
      "learning_rate": 9.996545350963738e-05,
      "loss": 7.2183,
      "loss/crossentropy": 1.565061777830124,
      "loss/hidden": 3.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35492730885744095,
      "step": 72
    },
    {
      "epoch": 0.012166666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 9.007747395833333,
      "learning_rate": 9.996447363202946e-05,
      "loss": 7.3531,
      "loss/crossentropy": 1.3612003773450851,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23692565225064754,
      "step": 73
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 34.25,
      "grad_norm_var": 8.672916666666667,
      "learning_rate": 9.996348005637775e-05,
      "loss": 7.3786,
      "loss/crossentropy": 1.858590006828308,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31772397831082344,
      "step": 74
    },
    {
      "epoch": 0.0125,
      "grad_norm": 39.0,
      "grad_norm_var": 10.734830729166667,
      "learning_rate": 9.996247278295458e-05,
      "loss": 7.6853,
      "loss/crossentropy": 1.517339512705803,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1719112992286682,
      "step": 75
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 31.125,
      "grad_norm_var": 10.995572916666667,
      "learning_rate": 9.996145181203615e-05,
      "loss": 7.5477,
      "loss/crossentropy": 1.8657438457012177,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2289566993713379,
      "step": 76
    },
    {
      "epoch": 0.012833333333333334,
      "grad_norm": 31.625,
      "grad_norm_var": 6.547330729166666,
      "learning_rate": 9.996041714390235e-05,
      "loss": 6.8349,
      "loss/crossentropy": 1.3593356609344482,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2103591337800026,
      "step": 77
    },
    {
      "epoch": 0.013,
      "grad_norm": 37.0,
      "grad_norm_var": 7.766080729166666,
      "learning_rate": 9.995936877883682e-05,
      "loss": 7.7018,
      "loss/crossentropy": 1.642098844051361,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19433317705988884,
      "step": 78
    },
    {
      "epoch": 0.013166666666666667,
      "grad_norm": 34.25,
      "grad_norm_var": 7.22890625,
      "learning_rate": 9.9958306717127e-05,
      "loss": 7.4576,
      "loss/crossentropy": 1.7163181602954865,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2721835747361183,
      "step": 79
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 31.875,
      "grad_norm_var": 6.938541666666667,
      "learning_rate": 9.995723095906407e-05,
      "loss": 7.4261,
      "loss/crossentropy": 1.9470502138137817,
      "loss/hidden": 3.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23109716176986694,
      "step": 80
    },
    {
      "epoch": 0.0135,
      "grad_norm": 34.0,
      "grad_norm_var": 6.845768229166667,
      "learning_rate": 9.995614150494293e-05,
      "loss": 7.6891,
      "loss/crossentropy": 1.7489202320575714,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1897631213068962,
      "step": 81
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 33.5,
      "grad_norm_var": 6.750455729166666,
      "learning_rate": 9.995503835506226e-05,
      "loss": 6.7672,
      "loss/crossentropy": 1.3573525249958038,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15716634131968021,
      "step": 82
    },
    {
      "epoch": 0.013833333333333333,
      "grad_norm": 36.0,
      "grad_norm_var": 6.319791666666666,
      "learning_rate": 9.995392150972451e-05,
      "loss": 7.4197,
      "loss/crossentropy": 2.055204689502716,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2153688222169876,
      "step": 83
    },
    {
      "epoch": 0.014,
      "grad_norm": 32.25,
      "grad_norm_var": 6.420572916666667,
      "learning_rate": 9.995279096923585e-05,
      "loss": 7.6211,
      "loss/crossentropy": 1.6128068566322327,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18876289576292038,
      "step": 84
    },
    {
      "epoch": 0.014166666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 6.870833333333334,
      "learning_rate": 9.995164673390625e-05,
      "loss": 7.4225,
      "loss/crossentropy": 1.9184208512306213,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22452763468027115,
      "step": 85
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 35.25,
      "grad_norm_var": 6.078580729166666,
      "learning_rate": 9.995048880404938e-05,
      "loss": 7.4224,
      "loss/crossentropy": 1.450558990240097,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.267075689509511,
      "step": 86
    },
    {
      "epoch": 0.0145,
      "grad_norm": 31.75,
      "grad_norm_var": 5.586393229166666,
      "learning_rate": 9.994931717998272e-05,
      "loss": 7.3244,
      "loss/crossentropy": 1.2475939691066742,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1947660744190216,
      "step": 87
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 34.5,
      "grad_norm_var": 5.2681640625,
      "learning_rate": 9.994813186202747e-05,
      "loss": 7.2037,
      "loss/crossentropy": 1.3766074776649475,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19298407062888145,
      "step": 88
    },
    {
      "epoch": 0.014833333333333334,
      "grad_norm": 33.5,
      "grad_norm_var": 5.122330729166666,
      "learning_rate": 9.994693285050857e-05,
      "loss": 7.1216,
      "loss/crossentropy": 1.3637863248586655,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23826205730438232,
      "step": 89
    },
    {
      "epoch": 0.015,
      "grad_norm": 30.625,
      "grad_norm_var": 5.720833333333333,
      "learning_rate": 9.994572014575476e-05,
      "loss": 7.0287,
      "loss/crossentropy": 1.558560699224472,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17919514700770378,
      "step": 90
    },
    {
      "epoch": 0.015166666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 4.117122395833333,
      "learning_rate": 9.994449374809851e-05,
      "loss": 7.1082,
      "loss/crossentropy": 1.8318926692008972,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23970575630664825,
      "step": 91
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 30.75,
      "grad_norm_var": 4.220833333333333,
      "learning_rate": 9.994325365787602e-05,
      "loss": 7.329,
      "loss/crossentropy": 1.851843684911728,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3288569562137127,
      "step": 92
    },
    {
      "epoch": 0.0155,
      "grad_norm": 32.0,
      "grad_norm_var": 4.160872395833334,
      "learning_rate": 9.99419998754273e-05,
      "loss": 7.4068,
      "loss/crossentropy": 1.5664864778518677,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22041853331029415,
      "step": 93
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 3.8056640625,
      "learning_rate": 9.994073240109606e-05,
      "loss": 7.1767,
      "loss/crossentropy": 1.4907843619585037,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18625176325440407,
      "step": 94
    },
    {
      "epoch": 0.015833333333333335,
      "grad_norm": 31.5,
      "grad_norm_var": 3.6509765625,
      "learning_rate": 9.993945123522978e-05,
      "loss": 6.9561,
      "loss/crossentropy": 1.8172418773174286,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20110055431723595,
      "step": 95
    },
    {
      "epoch": 0.016,
      "grad_norm": 30.875,
      "grad_norm_var": 3.7791015625,
      "learning_rate": 9.993815637817974e-05,
      "loss": 7.2981,
      "loss/crossentropy": 1.1591381877660751,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18586143851280212,
      "step": 96
    },
    {
      "epoch": 0.016166666666666666,
      "grad_norm": 32.75,
      "grad_norm_var": 3.5942057291666667,
      "learning_rate": 9.993684783030088e-05,
      "loss": 6.9345,
      "loss/crossentropy": 1.2907428294420242,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21381350234150887,
      "step": 97
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 3.4869140625,
      "learning_rate": 9.993552559195197e-05,
      "loss": 7.3921,
      "loss/crossentropy": 2.438232123851776,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2648901715874672,
      "step": 98
    },
    {
      "epoch": 0.0165,
      "grad_norm": 30.75,
      "grad_norm_var": 2.5244140625,
      "learning_rate": 9.993418966349552e-05,
      "loss": 6.9331,
      "loss/crossentropy": 1.7527403831481934,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18184861540794373,
      "step": 99
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 33.25,
      "grad_norm_var": 2.6421223958333333,
      "learning_rate": 9.993284004529775e-05,
      "loss": 7.4561,
      "loss/crossentropy": 1.867360770702362,
      "loss/hidden": 3.76953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27160242944955826,
      "step": 100
    },
    {
      "epoch": 0.016833333333333332,
      "grad_norm": 32.25,
      "grad_norm_var": 2.5530598958333335,
      "learning_rate": 9.99314767377287e-05,
      "loss": 7.1804,
      "loss/crossentropy": 1.718344509601593,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19866780564188957,
      "step": 101
    },
    {
      "epoch": 0.017,
      "grad_norm": 28.875,
      "grad_norm_var": 2.323958333333333,
      "learning_rate": 9.993009974116211e-05,
      "loss": 7.3187,
      "loss/crossentropy": 1.3677956759929657,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15728242695331573,
      "step": 102
    },
    {
      "epoch": 0.017166666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 2.324934895833333,
      "learning_rate": 9.992870905597548e-05,
      "loss": 7.3042,
      "loss/crossentropy": 1.3308251798152924,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16750549711287022,
      "step": 103
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 1.7233723958333333,
      "learning_rate": 9.992730468255011e-05,
      "loss": 7.2264,
      "loss/crossentropy": 1.7275401055812836,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29135602340102196,
      "step": 104
    },
    {
      "epoch": 0.0175,
      "grad_norm": 30.0,
      "grad_norm_var": 1.5082682291666667,
      "learning_rate": 9.9925886621271e-05,
      "loss": 7.4005,
      "loss/crossentropy": 1.7864578068256378,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1873011216521263,
      "step": 105
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 1.728125,
      "learning_rate": 9.992445487252691e-05,
      "loss": 6.9595,
      "loss/crossentropy": 1.5800124257802963,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2642953395843506,
      "step": 106
    },
    {
      "epoch": 0.017833333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 1.69140625,
      "learning_rate": 9.992300943671036e-05,
      "loss": 7.284,
      "loss/crossentropy": 1.1614376306533813,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15753909014165401,
      "step": 107
    },
    {
      "epoch": 0.018,
      "grad_norm": 35.25,
      "grad_norm_var": 2.72265625,
      "learning_rate": 9.992155031421764e-05,
      "loss": 6.7385,
      "loss/crossentropy": 2.0193272531032562,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28752196952700615,
      "step": 108
    },
    {
      "epoch": 0.018166666666666668,
      "grad_norm": 29.875,
      "grad_norm_var": 2.841080729166667,
      "learning_rate": 9.992007750544876e-05,
      "loss": 6.6446,
      "loss/crossentropy": 1.359722450375557,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1365048959851265,
      "step": 109
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 2.700455729166667,
      "learning_rate": 9.991859101080751e-05,
      "loss": 7.7226,
      "loss/crossentropy": 1.7012291550636292,
      "loss/hidden": 3.73046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26156413927674294,
      "step": 110
    },
    {
      "epoch": 0.0185,
      "grad_norm": 29.375,
      "grad_norm_var": 2.9893229166666666,
      "learning_rate": 9.991709083070143e-05,
      "loss": 6.908,
      "loss/crossentropy": 1.6251331716775894,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1416161134839058,
      "step": 111
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 33.25,
      "grad_norm_var": 3.178580729166667,
      "learning_rate": 9.991557696554177e-05,
      "loss": 7.8488,
      "loss/crossentropy": 2.0877310037612915,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2414073385298252,
      "step": 112
    },
    {
      "epoch": 0.018833333333333334,
      "grad_norm": 31.0,
      "grad_norm_var": 3.0874348958333333,
      "learning_rate": 9.991404941574361e-05,
      "loss": 7.1683,
      "loss/crossentropy": 2.0482693016529083,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2420409545302391,
      "step": 113
    },
    {
      "epoch": 0.019,
      "grad_norm": 32.75,
      "grad_norm_var": 3.1270182291666666,
      "learning_rate": 9.99125081817257e-05,
      "loss": 7.1673,
      "loss/crossentropy": 1.921759843826294,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2487247809767723,
      "step": 114
    },
    {
      "epoch": 0.019166666666666665,
      "grad_norm": 31.875,
      "grad_norm_var": 3.101822916666667,
      "learning_rate": 9.99109532639106e-05,
      "loss": 6.7798,
      "loss/crossentropy": 1.3495987802743912,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14604422822594643,
      "step": 115
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 29.125,
      "grad_norm_var": 3.2113932291666667,
      "learning_rate": 9.990938466272459e-05,
      "loss": 7.4022,
      "loss/crossentropy": 1.8897645175457,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22202493250370026,
      "step": 116
    },
    {
      "epoch": 0.0195,
      "grad_norm": 38.75,
      "grad_norm_var": 6.7119140625,
      "learning_rate": 9.990780237859769e-05,
      "loss": 7.2288,
      "loss/crossentropy": 1.8467685282230377,
      "loss/hidden": 3.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19912605360150337,
      "step": 117
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 35.25,
      "grad_norm_var": 6.88125,
      "learning_rate": 9.990620641196374e-05,
      "loss": 7.5258,
      "loss/crossentropy": 1.4544800072908401,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23149508237838745,
      "step": 118
    },
    {
      "epoch": 0.019833333333333335,
      "grad_norm": 36.0,
      "grad_norm_var": 7.794205729166666,
      "learning_rate": 9.990459676326024e-05,
      "loss": 7.3993,
      "loss/crossentropy": 1.7979627847671509,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2008170560002327,
      "step": 119
    },
    {
      "epoch": 0.02,
      "grad_norm": 33.75,
      "grad_norm_var": 7.8837890625,
      "learning_rate": 9.990297343292851e-05,
      "loss": 7.448,
      "loss/crossentropy": 1.582246333360672,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22383124008774757,
      "step": 120
    },
    {
      "epoch": 0.020166666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 7.6712890625,
      "learning_rate": 9.990133642141359e-05,
      "loss": 7.1318,
      "loss/crossentropy": 2.2869274020195007,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26430132053792477,
      "step": 121
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 35.0,
      "grad_norm_var": 7.228059895833334,
      "learning_rate": 9.989968572916426e-05,
      "loss": 7.3843,
      "loss/crossentropy": 1.4673973321914673,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19540218636393547,
      "step": 122
    },
    {
      "epoch": 0.0205,
      "grad_norm": 28.375,
      "grad_norm_var": 8.345247395833333,
      "learning_rate": 9.989802135663308e-05,
      "loss": 6.881,
      "loss/crossentropy": 1.4048103988170624,
      "loss/hidden": 3.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17774714902043343,
      "step": 123
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 28.625,
      "grad_norm_var": 8.845572916666667,
      "learning_rate": 9.989634330427636e-05,
      "loss": 7.2466,
      "loss/crossentropy": 1.162289284169674,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19122084602713585,
      "step": 124
    },
    {
      "epoch": 0.020833333333333332,
      "grad_norm": 31.5,
      "grad_norm_var": 8.485872395833333,
      "learning_rate": 9.989465157255412e-05,
      "loss": 7.2053,
      "loss/crossentropy": 1.312704622745514,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15034876391291618,
      "step": 125
    },
    {
      "epoch": 0.021,
      "grad_norm": 30.625,
      "grad_norm_var": 8.647916666666667,
      "learning_rate": 9.989294616193017e-05,
      "loss": 6.8005,
      "loss/crossentropy": 1.6380910277366638,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14181393012404442,
      "step": 126
    },
    {
      "epoch": 0.021166666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 8.079622395833333,
      "learning_rate": 9.989122707287208e-05,
      "loss": 7.3312,
      "loss/crossentropy": 1.211222618818283,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2158495895564556,
      "step": 127
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 8.187239583333334,
      "learning_rate": 9.988949430585111e-05,
      "loss": 7.3088,
      "loss/crossentropy": 1.9512027502059937,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2397935502231121,
      "step": 128
    },
    {
      "epoch": 0.0215,
      "grad_norm": 29.875,
      "grad_norm_var": 8.465559895833334,
      "learning_rate": 9.988774786134234e-05,
      "loss": 7.0164,
      "loss/crossentropy": 2.2886485755443573,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17705616354942322,
      "step": 129
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 8.831184895833333,
      "learning_rate": 9.988598773982454e-05,
      "loss": 6.7626,
      "loss/crossentropy": 1.6010637283325195,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1609804928302765,
      "step": 130
    },
    {
      "epoch": 0.021833333333333333,
      "grad_norm": 31.375,
      "grad_norm_var": 8.859830729166667,
      "learning_rate": 9.988421394178027e-05,
      "loss": 7.1795,
      "loss/crossentropy": 2.1255241334438324,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2915850803256035,
      "step": 131
    },
    {
      "epoch": 0.022,
      "grad_norm": 30.5,
      "grad_norm_var": 8.44375,
      "learning_rate": 9.988242646769584e-05,
      "loss": 6.6464,
      "loss/crossentropy": 1.4530896842479706,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1587641667574644,
      "step": 132
    },
    {
      "epoch": 0.022166666666666668,
      "grad_norm": 35.0,
      "grad_norm_var": 6.01015625,
      "learning_rate": 9.988062531806126e-05,
      "loss": 6.8361,
      "loss/crossentropy": 1.58548042178154,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1621798612177372,
      "step": 133
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 5.246809895833334,
      "learning_rate": 9.987881049337037e-05,
      "loss": 7.2599,
      "loss/crossentropy": 1.462182879447937,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27100462280213833,
      "step": 134
    },
    {
      "epoch": 0.0225,
      "grad_norm": 31.25,
      "grad_norm_var": 3.8811848958333335,
      "learning_rate": 9.98769819941207e-05,
      "loss": 7.1722,
      "loss/crossentropy": 1.54609115421772,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19119622558355331,
      "step": 135
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 3.535872395833333,
      "learning_rate": 9.987513982081351e-05,
      "loss": 7.3784,
      "loss/crossentropy": 1.6093524098396301,
      "loss/hidden": 3.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27235616743564606,
      "step": 136
    },
    {
      "epoch": 0.022833333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 4.133333333333334,
      "learning_rate": 9.987328397395387e-05,
      "loss": 7.2047,
      "loss/crossentropy": 1.6545589417219162,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15520754642784595,
      "step": 137
    },
    {
      "epoch": 0.023,
      "grad_norm": 30.625,
      "grad_norm_var": 3.0327473958333333,
      "learning_rate": 9.98714144540506e-05,
      "loss": 7.157,
      "loss/crossentropy": 1.9186067283153534,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15664204582571983,
      "step": 138
    },
    {
      "epoch": 0.023166666666666665,
      "grad_norm": 30.5,
      "grad_norm_var": 2.630989583333333,
      "learning_rate": 9.986953126161619e-05,
      "loss": 6.6498,
      "loss/crossentropy": 1.324135184288025,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16996346972882748,
      "step": 139
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 2.284309895833333,
      "learning_rate": 9.986763439716696e-05,
      "loss": 6.7863,
      "loss/crossentropy": 1.7032744586467743,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1454637162387371,
      "step": 140
    },
    {
      "epoch": 0.0235,
      "grad_norm": 37.5,
      "grad_norm_var": 4.840559895833334,
      "learning_rate": 9.986572386122291e-05,
      "loss": 7.2084,
      "loss/crossentropy": 1.7331673800945282,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24686722084879875,
      "step": 141
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 4.817708333333333,
      "learning_rate": 9.986379965430786e-05,
      "loss": 7.4599,
      "loss/crossentropy": 2.2102459371089935,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.247200645506382,
      "step": 142
    },
    {
      "epoch": 0.023833333333333335,
      "grad_norm": 29.375,
      "grad_norm_var": 4.959309895833333,
      "learning_rate": 9.986186177694933e-05,
      "loss": 6.8554,
      "loss/crossentropy": 1.3829247057437897,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3295183889567852,
      "step": 143
    },
    {
      "epoch": 0.024,
      "grad_norm": 29.125,
      "grad_norm_var": 5.265559895833333,
      "learning_rate": 9.98599102296786e-05,
      "loss": 6.6174,
      "loss/crossentropy": 1.4767974317073822,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17495453730225563,
      "step": 144
    },
    {
      "epoch": 0.024166666666666666,
      "grad_norm": 30.375,
      "grad_norm_var": 5.188997395833334,
      "learning_rate": 9.98579450130307e-05,
      "loss": 7.0007,
      "loss/crossentropy": 1.502312645316124,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1338094538077712,
      "step": 145
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 37.0,
      "grad_norm_var": 6.986393229166667,
      "learning_rate": 9.985596612754439e-05,
      "loss": 7.2911,
      "loss/crossentropy": 1.6600433588027954,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1484263464808464,
      "step": 146
    },
    {
      "epoch": 0.0245,
      "grad_norm": 31.625,
      "grad_norm_var": 6.978059895833334,
      "learning_rate": 9.985397357376222e-05,
      "loss": 6.6697,
      "loss/crossentropy": 1.9513159692287445,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2093215435743332,
      "step": 147
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 40.75,
      "grad_norm_var": 11.825455729166666,
      "learning_rate": 9.985196735223045e-05,
      "loss": 7.3884,
      "loss/crossentropy": 1.5966178327798843,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15934613719582558,
      "step": 148
    },
    {
      "epoch": 0.024833333333333332,
      "grad_norm": 34.5,
      "grad_norm_var": 11.667643229166666,
      "learning_rate": 9.98499474634991e-05,
      "loss": 7.223,
      "loss/crossentropy": 2.1022060215473175,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25909359380602837,
      "step": 149
    },
    {
      "epoch": 0.025,
      "grad_norm": 31.5,
      "grad_norm_var": 11.567708333333334,
      "learning_rate": 9.98479139081219e-05,
      "loss": 7.5453,
      "loss/crossentropy": 1.3491213917732239,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.31083543226122856,
      "step": 150
    },
    {
      "epoch": 0.025166666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 11.567708333333334,
      "learning_rate": 9.98458666866564e-05,
      "loss": 6.9526,
      "loss/crossentropy": 1.1305021345615387,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17413905262947083,
      "step": 151
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 11.609375,
      "learning_rate": 9.984380579966385e-05,
      "loss": 7.5569,
      "loss/crossentropy": 1.7270284742116928,
      "loss/hidden": 3.80859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.262040700763464,
      "step": 152
    },
    {
      "epoch": 0.0255,
      "grad_norm": 30.25,
      "grad_norm_var": 10.660872395833334,
      "learning_rate": 9.984173124770923e-05,
      "loss": 7.0024,
      "loss/crossentropy": 1.4194546043872833,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18989887833595276,
      "step": 153
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 10.62890625,
      "learning_rate": 9.983964303136133e-05,
      "loss": 6.827,
      "loss/crossentropy": 1.8736361861228943,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19809295609593391,
      "step": 154
    },
    {
      "epoch": 0.025833333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 10.31640625,
      "learning_rate": 9.983754115119261e-05,
      "loss": 6.8501,
      "loss/crossentropy": 0.9456725493073463,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1407306743785739,
      "step": 155
    },
    {
      "epoch": 0.026,
      "grad_norm": 32.25,
      "grad_norm_var": 10.26640625,
      "learning_rate": 9.983542560777935e-05,
      "loss": 7.1745,
      "loss/crossentropy": 1.7430013120174408,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18162920884788036,
      "step": 156
    },
    {
      "epoch": 0.026166666666666668,
      "grad_norm": 30.375,
      "grad_norm_var": 8.9416015625,
      "learning_rate": 9.983329640170149e-05,
      "loss": 7.198,
      "loss/crossentropy": 1.6644318103790283,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21564067527651787,
      "step": 157
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 27.625,
      "grad_norm_var": 10.321875,
      "learning_rate": 9.983115353354281e-05,
      "loss": 6.6243,
      "loss/crossentropy": 1.250006690621376,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18062720447778702,
      "step": 158
    },
    {
      "epoch": 0.0265,
      "grad_norm": 30.625,
      "grad_norm_var": 9.976822916666666,
      "learning_rate": 9.982899700389076e-05,
      "loss": 6.7883,
      "loss/crossentropy": 1.4420564621686935,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2596291061490774,
      "step": 159
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 33.25,
      "grad_norm_var": 9.398893229166667,
      "learning_rate": 9.982682681333658e-05,
      "loss": 6.6638,
      "loss/crossentropy": 1.3785683065652847,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1723865158855915,
      "step": 160
    },
    {
      "epoch": 0.026833333333333334,
      "grad_norm": 32.25,
      "grad_norm_var": 9.120572916666667,
      "learning_rate": 9.982464296247522e-05,
      "loss": 7.3516,
      "loss/crossentropy": 1.4394225776195526,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2615921422839165,
      "step": 161
    },
    {
      "epoch": 0.027,
      "grad_norm": 33.5,
      "grad_norm_var": 7.77890625,
      "learning_rate": 9.982244545190542e-05,
      "loss": 7.1089,
      "loss/crossentropy": 1.884726345539093,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25164157152175903,
      "step": 162
    },
    {
      "epoch": 0.027166666666666665,
      "grad_norm": 33.5,
      "grad_norm_var": 7.8384765625,
      "learning_rate": 9.982023428222962e-05,
      "loss": 7.3006,
      "loss/crossentropy": 1.3327789902687073,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16302406042814255,
      "step": 163
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 31.25,
      "grad_norm_var": 2.8806640625,
      "learning_rate": 9.981800945405403e-05,
      "loss": 6.8786,
      "loss/crossentropy": 2.1047302186489105,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20406359992921352,
      "step": 164
    },
    {
      "epoch": 0.0275,
      "grad_norm": 30.875,
      "grad_norm_var": 2.3916666666666666,
      "learning_rate": 9.981577096798863e-05,
      "loss": 7.1575,
      "loss/crossentropy": 1.828908532857895,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2953005023300648,
      "step": 165
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 31.125,
      "grad_norm_var": 2.403580729166667,
      "learning_rate": 9.981351882464706e-05,
      "loss": 6.7743,
      "loss/crossentropy": 1.1883389204740524,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12561755441129208,
      "step": 166
    },
    {
      "epoch": 0.027833333333333335,
      "grad_norm": 32.0,
      "grad_norm_var": 2.4098307291666665,
      "learning_rate": 9.98112530246468e-05,
      "loss": 7.0895,
      "loss/crossentropy": 1.4930688589811325,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22280864231288433,
      "step": 167
    },
    {
      "epoch": 0.028,
      "grad_norm": 27.75,
      "grad_norm_var": 3.0801432291666666,
      "learning_rate": 9.980897356860901e-05,
      "loss": 6.9969,
      "loss/crossentropy": 1.5407499372959137,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2660684399306774,
      "step": 168
    },
    {
      "epoch": 0.028166666666666666,
      "grad_norm": 28.75,
      "grad_norm_var": 3.419205729166667,
      "learning_rate": 9.980668045715864e-05,
      "loss": 6.4818,
      "loss/crossentropy": 1.2468992918729782,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1492381915450096,
      "step": 169
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 32.25,
      "grad_norm_var": 3.4801432291666665,
      "learning_rate": 9.980437369092431e-05,
      "loss": 6.8676,
      "loss/crossentropy": 1.8643461614847183,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16300494596362114,
      "step": 170
    },
    {
      "epoch": 0.0285,
      "grad_norm": 32.0,
      "grad_norm_var": 3.4119140625,
      "learning_rate": 9.980205327053848e-05,
      "loss": 7.237,
      "loss/crossentropy": 1.6697624623775482,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19493362307548523,
      "step": 171
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 35.75,
      "grad_norm_var": 4.662434895833333,
      "learning_rate": 9.97997191966373e-05,
      "loss": 7.4244,
      "loss/crossentropy": 1.3050570487976074,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16732595954090357,
      "step": 172
    },
    {
      "epoch": 0.028833333333333332,
      "grad_norm": 32.75,
      "grad_norm_var": 4.680989583333333,
      "learning_rate": 9.979737146986064e-05,
      "loss": 6.862,
      "loss/crossentropy": 1.136594980955124,
      "loss/hidden": 4.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20343116112053394,
      "step": 173
    },
    {
      "epoch": 0.029,
      "grad_norm": 30.875,
      "grad_norm_var": 3.628125,
      "learning_rate": 9.979501009085219e-05,
      "loss": 7.2069,
      "loss/crossentropy": 1.4369015246629715,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19320333749055862,
      "step": 174
    },
    {
      "epoch": 0.029166666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 3.6947265625,
      "learning_rate": 9.979263506025929e-05,
      "loss": 6.7702,
      "loss/crossentropy": 1.0700709372758865,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17891627363860607,
      "step": 175
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 4.21015625,
      "learning_rate": 9.97902463787331e-05,
      "loss": 6.3209,
      "loss/crossentropy": 1.5019266307353973,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13693124055862427,
      "step": 176
    },
    {
      "epoch": 0.0295,
      "grad_norm": 30.5,
      "grad_norm_var": 4.215625,
      "learning_rate": 9.978784404692847e-05,
      "loss": 7.0097,
      "loss/crossentropy": 1.0866649374365807,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10230135731399059,
      "step": 177
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 30.25,
      "grad_norm_var": 3.94140625,
      "learning_rate": 9.978542806550402e-05,
      "loss": 7.419,
      "loss/crossentropy": 1.6656216979026794,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16881580278277397,
      "step": 178
    },
    {
      "epoch": 0.029833333333333333,
      "grad_norm": 31.375,
      "grad_norm_var": 3.5551432291666667,
      "learning_rate": 9.97829984351221e-05,
      "loss": 7.406,
      "loss/crossentropy": 1.6889117062091827,
      "loss/hidden": 3.75390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2585541270673275,
      "step": 179
    },
    {
      "epoch": 0.03,
      "grad_norm": 8086618112.0,
      "grad_norm_var": 4.087086999255681e+18,
      "learning_rate": 9.978055515644882e-05,
      "loss": 7.2784,
      "loss/crossentropy": 2.095020294189453,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1817887146025896,
      "step": 180
    },
    {
      "epoch": 0.030166666666666668,
      "grad_norm": 44.5,
      "grad_norm_var": 4.087086998337513e+18,
      "learning_rate": 9.977809823015401e-05,
      "loss": 6.9852,
      "loss/crossentropy": 1.773234412074089,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2178725991398096,
      "step": 181
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 36.0,
      "grad_norm_var": 4.0870869980089943e+18,
      "learning_rate": 9.977562765691124e-05,
      "loss": 6.8961,
      "loss/crossentropy": 1.3541785031557083,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18293461948633194,
      "step": 182
    },
    {
      "epoch": 0.0305,
      "grad_norm": 29.625,
      "grad_norm_var": 4.087086998169042e+18,
      "learning_rate": 9.977314343739786e-05,
      "loss": 7.052,
      "loss/crossentropy": 1.3558832257986069,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20253374427556992,
      "step": 183
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 31.5,
      "grad_norm_var": 4.087086997916335e+18,
      "learning_rate": 9.977064557229492e-05,
      "loss": 7.2972,
      "loss/crossentropy": 1.0495585799217224,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1994080375880003,
      "step": 184
    },
    {
      "epoch": 0.030833333333333334,
      "grad_norm": 31.375,
      "grad_norm_var": 4.08708699773944e+18,
      "learning_rate": 9.97681340622872e-05,
      "loss": 7.1021,
      "loss/crossentropy": 1.8053418397903442,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17343341559171677,
      "step": 185
    },
    {
      "epoch": 0.031,
      "grad_norm": 30.75,
      "grad_norm_var": 4.0870869978405233e+18,
      "learning_rate": 9.976560890806328e-05,
      "loss": 7.177,
      "loss/crossentropy": 1.5566141307353973,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15112582594156265,
      "step": 186
    },
    {
      "epoch": 0.031166666666666665,
      "grad_norm": 30.125,
      "grad_norm_var": 4.0870869979668767e+18,
      "learning_rate": 9.976307011031542e-05,
      "loss": 6.7397,
      "loss/crossentropy": 1.2723989188671112,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16342337802052498,
      "step": 187
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 4.087086998185889e+18,
      "learning_rate": 9.976051766973966e-05,
      "loss": 7.3915,
      "loss/crossentropy": 1.6031639650464058,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17763563804328442,
      "step": 188
    },
    {
      "epoch": 0.0315,
      "grad_norm": 33.25,
      "grad_norm_var": 4.0870869981521946e+18,
      "learning_rate": 9.975795158703576e-05,
      "loss": 7.0979,
      "loss/crossentropy": 1.4858632981777191,
      "loss/hidden": 3.76171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.330683471634984,
      "step": 189
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 4.0870869981606185e+18,
      "learning_rate": 9.975537186290724e-05,
      "loss": 7.3654,
      "loss/crossentropy": 2.4191945791244507,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25662462785840034,
      "step": 190
    },
    {
      "epoch": 0.03183333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 4.0870869981016535e+18,
      "learning_rate": 9.975277849806133e-05,
      "loss": 7.2515,
      "loss/crossentropy": 1.9716623425483704,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19087167084217072,
      "step": 191
    },
    {
      "epoch": 0.032,
      "grad_norm": 32.0,
      "grad_norm_var": 4.08708699785737e+18,
      "learning_rate": 9.9750171493209e-05,
      "loss": 7.4281,
      "loss/crossentropy": 1.6307190656661987,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23531628027558327,
      "step": 192
    },
    {
      "epoch": 0.03216666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 4.0870869978152525e+18,
      "learning_rate": 9.974755084906502e-05,
      "loss": 7.03,
      "loss/crossentropy": 1.4380917251110077,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3211356829851866,
      "step": 193
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 4.087086997629934e+18,
      "learning_rate": 9.974491656634782e-05,
      "loss": 7.3389,
      "loss/crossentropy": 1.0064150243997574,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1723968144506216,
      "step": 194
    },
    {
      "epoch": 0.0325,
      "grad_norm": 32.75,
      "grad_norm_var": 4.087086997537275e+18,
      "learning_rate": 9.974226864577961e-05,
      "loss": 7.5133,
      "loss/crossentropy": 1.7098364979028702,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17002902552485466,
      "step": 195
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 29.875,
      "grad_norm_var": 12.689322916666667,
      "learning_rate": 9.973960708808633e-05,
      "loss": 7.0961,
      "loss/crossentropy": 1.2855606228113174,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14486568979918957,
      "step": 196
    },
    {
      "epoch": 0.03283333333333333,
      "grad_norm": 32.75,
      "grad_norm_var": 2.542708333333333,
      "learning_rate": 9.973693189399766e-05,
      "loss": 7.7159,
      "loss/crossentropy": 1.4339561015367508,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15074146911501884,
      "step": 197
    },
    {
      "epoch": 0.033,
      "grad_norm": 29.625,
      "grad_norm_var": 1.4968098958333333,
      "learning_rate": 9.973424306424705e-05,
      "loss": 6.8725,
      "loss/crossentropy": 1.3229663521051407,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11913192272186279,
      "step": 198
    },
    {
      "epoch": 0.033166666666666664,
      "grad_norm": 31.75,
      "grad_norm_var": 1.2809895833333333,
      "learning_rate": 9.973154059957162e-05,
      "loss": 7.2338,
      "loss/crossentropy": 1.5000391602516174,
      "loss/hidden": 3.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24410316348075867,
      "step": 199
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 1.38125,
      "learning_rate": 9.972882450071228e-05,
      "loss": 6.9197,
      "loss/crossentropy": 1.185929924249649,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19635562598705292,
      "step": 200
    },
    {
      "epoch": 0.0335,
      "grad_norm": 33.5,
      "grad_norm_var": 1.6457682291666667,
      "learning_rate": 9.972609476841367e-05,
      "loss": 7.1692,
      "loss/crossentropy": 1.2175997495651245,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21033136174082756,
      "step": 201
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 31.0,
      "grad_norm_var": 1.6223307291666667,
      "learning_rate": 9.972335140342415e-05,
      "loss": 7.4232,
      "loss/crossentropy": 2.04010409116745,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.202102143317461,
      "step": 202
    },
    {
      "epoch": 0.03383333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 1.5989583333333333,
      "learning_rate": 9.972059440649584e-05,
      "loss": 7.0424,
      "loss/crossentropy": 1.7747844010591507,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25096169114112854,
      "step": 203
    },
    {
      "epoch": 0.034,
      "grad_norm": 28.75,
      "grad_norm_var": 2.0247395833333335,
      "learning_rate": 9.971782377838457e-05,
      "loss": 6.8701,
      "loss/crossentropy": 1.1719542741775513,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14155150577425957,
      "step": 204
    },
    {
      "epoch": 0.034166666666666665,
      "grad_norm": 32.75,
      "grad_norm_var": 1.9143229166666667,
      "learning_rate": 9.971503951984995e-05,
      "loss": 7.2028,
      "loss/crossentropy": 1.5867617726325989,
      "loss/hidden": 3.83984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2683488056063652,
      "step": 205
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 35.25,
      "grad_norm_var": 2.8330729166666666,
      "learning_rate": 9.971224163165527e-05,
      "loss": 7.1905,
      "loss/crossentropy": 1.7028155624866486,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3061375916004181,
      "step": 206
    },
    {
      "epoch": 0.0345,
      "grad_norm": 30.375,
      "grad_norm_var": 2.9166666666666665,
      "learning_rate": 9.970943011456761e-05,
      "loss": 6.8989,
      "loss/crossentropy": 2.1334219872951508,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2289668172597885,
      "step": 207
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 32.5,
      "grad_norm_var": 2.9614583333333333,
      "learning_rate": 9.970660496935776e-05,
      "loss": 7.4457,
      "loss/crossentropy": 1.2610541135072708,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.224246047437191,
      "step": 208
    },
    {
      "epoch": 0.034833333333333334,
      "grad_norm": 40.25,
      "grad_norm_var": 7.595247395833334,
      "learning_rate": 9.970376619680024e-05,
      "loss": 6.7979,
      "loss/crossentropy": 1.1224466264247894,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16827253252267838,
      "step": 209
    },
    {
      "epoch": 0.035,
      "grad_norm": 34.75,
      "grad_norm_var": 7.981705729166666,
      "learning_rate": 9.970091379767331e-05,
      "loss": 6.8035,
      "loss/crossentropy": 1.7064603418111801,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20265027321875095,
      "step": 210
    },
    {
      "epoch": 0.035166666666666666,
      "grad_norm": 30.25,
      "grad_norm_var": 8.2134765625,
      "learning_rate": 9.9698047772759e-05,
      "loss": 6.6525,
      "loss/crossentropy": 1.3764468729496002,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18533694557845592,
      "step": 211
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 30.25,
      "grad_norm_var": 8.11015625,
      "learning_rate": 9.969516812284301e-05,
      "loss": 7.0358,
      "loss/crossentropy": 1.9165741205215454,
      "loss/hidden": 3.74609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31283821910619736,
      "step": 212
    },
    {
      "epoch": 0.0355,
      "grad_norm": 32.0,
      "grad_norm_var": 8.084375,
      "learning_rate": 9.969227484871484e-05,
      "loss": 7.4682,
      "loss/crossentropy": 1.740638554096222,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19709094986319542,
      "step": 213
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 8.314518229166667,
      "learning_rate": 9.968936795116768e-05,
      "loss": 6.6945,
      "loss/crossentropy": 0.8976159617304802,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08759790286421776,
      "step": 214
    },
    {
      "epoch": 0.035833333333333335,
      "grad_norm": 36.5,
      "grad_norm_var": 9.531705729166667,
      "learning_rate": 9.968644743099848e-05,
      "loss": 7.0007,
      "loss/crossentropy": 1.8110921084880829,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19646160677075386,
      "step": 215
    },
    {
      "epoch": 0.036,
      "grad_norm": 30.75,
      "grad_norm_var": 9.4072265625,
      "learning_rate": 9.968351328900794e-05,
      "loss": 6.5056,
      "loss/crossentropy": 0.9803343713283539,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11365807242691517,
      "step": 216
    },
    {
      "epoch": 0.036166666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 9.470247395833333,
      "learning_rate": 9.968056552600043e-05,
      "loss": 6.9747,
      "loss/crossentropy": 1.8104292750358582,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20365064218640327,
      "step": 217
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 30.25,
      "grad_norm_var": 9.626497395833333,
      "learning_rate": 9.967760414278411e-05,
      "loss": 7.2355,
      "loss/crossentropy": 1.7058001458644867,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22070244327187538,
      "step": 218
    },
    {
      "epoch": 0.0365,
      "grad_norm": 30.0,
      "grad_norm_var": 9.694205729166667,
      "learning_rate": 9.967462914017088e-05,
      "loss": 7.0123,
      "loss/crossentropy": 1.2381923496723175,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16867449507117271,
      "step": 219
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 43.5,
      "grad_norm_var": 16.608268229166665,
      "learning_rate": 9.967164051897633e-05,
      "loss": 7.5328,
      "loss/crossentropy": 1.5826676338911057,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2712370380759239,
      "step": 220
    },
    {
      "epoch": 0.036833333333333336,
      "grad_norm": 31.75,
      "grad_norm_var": 16.7134765625,
      "learning_rate": 9.966863828001982e-05,
      "loss": 6.893,
      "loss/crossentropy": 1.2962444424629211,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14901776053011417,
      "step": 221
    },
    {
      "epoch": 0.037,
      "grad_norm": 32.5,
      "grad_norm_var": 16.363997395833334,
      "learning_rate": 9.966562242412442e-05,
      "loss": 6.9004,
      "loss/crossentropy": 1.8578623831272125,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23354769870638847,
      "step": 222
    },
    {
      "epoch": 0.03716666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 17.343489583333334,
      "learning_rate": 9.966259295211697e-05,
      "loss": 7.047,
      "loss/crossentropy": 1.6259884238243103,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1877981834113598,
      "step": 223
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 30.25,
      "grad_norm_var": 17.720833333333335,
      "learning_rate": 9.965954986482799e-05,
      "loss": 7.1541,
      "loss/crossentropy": 1.7171413600444794,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21186752244830132,
      "step": 224
    },
    {
      "epoch": 0.0375,
      "grad_norm": 29.5,
      "grad_norm_var": 13.924739583333333,
      "learning_rate": 9.965649316309178e-05,
      "loss": 6.9774,
      "loss/crossentropy": 1.3424269035458565,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27712389826774597,
      "step": 225
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 13.385872395833333,
      "learning_rate": 9.965342284774632e-05,
      "loss": 7.0364,
      "loss/crossentropy": 1.363720841705799,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14927429426461458,
      "step": 226
    },
    {
      "epoch": 0.03783333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 13.345768229166667,
      "learning_rate": 9.965033891963338e-05,
      "loss": 7.1098,
      "loss/crossentropy": 1.637398675084114,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22406315430998802,
      "step": 227
    },
    {
      "epoch": 0.038,
      "grad_norm": 32.5,
      "grad_norm_var": 13.191080729166666,
      "learning_rate": 9.964724137959843e-05,
      "loss": 7.4034,
      "loss/crossentropy": 1.655188411474228,
      "loss/hidden": 3.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2601375915110111,
      "step": 228
    },
    {
      "epoch": 0.03816666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 13.608072916666666,
      "learning_rate": 9.964413022849068e-05,
      "loss": 6.9138,
      "loss/crossentropy": 1.5690461844205856,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17689584381878376,
      "step": 229
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 13.051822916666667,
      "learning_rate": 9.964100546716309e-05,
      "loss": 6.8051,
      "loss/crossentropy": 1.7078745067119598,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16476575285196304,
      "step": 230
    },
    {
      "epoch": 0.0385,
      "grad_norm": 37.25,
      "grad_norm_var": 13.538541666666667,
      "learning_rate": 9.963786709647228e-05,
      "loss": 7.2079,
      "loss/crossentropy": 1.1831867694854736,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15216390788555145,
      "step": 231
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 13.470572916666667,
      "learning_rate": 9.963471511727868e-05,
      "loss": 7.4329,
      "loss/crossentropy": 1.100526675581932,
      "loss/hidden": 3.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3972581662237644,
      "step": 232
    },
    {
      "epoch": 0.03883333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 13.4478515625,
      "learning_rate": 9.963154953044645e-05,
      "loss": 7.0174,
      "loss/crossentropy": 1.3149209916591644,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17489828169345856,
      "step": 233
    },
    {
      "epoch": 0.039,
      "grad_norm": 32.0,
      "grad_norm_var": 13.188997395833333,
      "learning_rate": 9.962837033684343e-05,
      "loss": 7.0444,
      "loss/crossentropy": 1.6122197806835175,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18191683292388916,
      "step": 234
    },
    {
      "epoch": 0.03916666666666667,
      "grad_norm": 32.0,
      "grad_norm_var": 12.828580729166667,
      "learning_rate": 9.96251775373412e-05,
      "loss": 7.2731,
      "loss/crossentropy": 1.6611078679561615,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18038855865597725,
      "step": 235
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 4.198893229166667,
      "learning_rate": 9.962197113281509e-05,
      "loss": 7.3323,
      "loss/crossentropy": 1.4444286078214645,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18717906437814236,
      "step": 236
    },
    {
      "epoch": 0.0395,
      "grad_norm": 31.5,
      "grad_norm_var": 4.203059895833333,
      "learning_rate": 9.961875112414416e-05,
      "loss": 7.394,
      "loss/crossentropy": 1.2385891154408455,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16062070801854134,
      "step": 237
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 4.233333333333333,
      "learning_rate": 9.961551751221121e-05,
      "loss": 7.2373,
      "loss/crossentropy": 1.59829643368721,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18773933500051498,
      "step": 238
    },
    {
      "epoch": 0.03983333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 3.7684895833333334,
      "learning_rate": 9.961227029790272e-05,
      "loss": 7.4197,
      "loss/crossentropy": 1.8970681428909302,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2612060457468033,
      "step": 239
    },
    {
      "epoch": 0.04,
      "grad_norm": 30.875,
      "grad_norm_var": 3.6718098958333334,
      "learning_rate": 9.960900948210896e-05,
      "loss": 7.1812,
      "loss/crossentropy": 1.66687873005867,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2203241027891636,
      "step": 240
    },
    {
      "epoch": 0.04016666666666667,
      "grad_norm": 35.0,
      "grad_norm_var": 3.9181640625,
      "learning_rate": 9.96057350657239e-05,
      "loss": 6.4739,
      "loss/crossentropy": 1.127626657485962,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14585050754249096,
      "step": 241
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 34.5,
      "grad_norm_var": 4.154166666666667,
      "learning_rate": 9.960244704964521e-05,
      "loss": 7.154,
      "loss/crossentropy": 1.389030396938324,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1379571333527565,
      "step": 242
    },
    {
      "epoch": 0.0405,
      "grad_norm": 31.5,
      "grad_norm_var": 4.157291666666667,
      "learning_rate": 9.959914543477435e-05,
      "loss": 7.129,
      "loss/crossentropy": 1.4154839515686035,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17527304217219353,
      "step": 243
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 31.25,
      "grad_norm_var": 4.208072916666667,
      "learning_rate": 9.959583022201647e-05,
      "loss": 7.106,
      "loss/crossentropy": 1.0321640968322754,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17023729532957077,
      "step": 244
    },
    {
      "epoch": 0.04083333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 3.692643229166667,
      "learning_rate": 9.959250141228045e-05,
      "loss": 7.0659,
      "loss/crossentropy": 1.6669679433107376,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35606617107987404,
      "step": 245
    },
    {
      "epoch": 0.041,
      "grad_norm": 55.25,
      "grad_norm_var": 36.339518229166664,
      "learning_rate": 9.95891590064789e-05,
      "loss": 6.9787,
      "loss/crossentropy": 1.5344274044036865,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32492806017398834,
      "step": 246
    },
    {
      "epoch": 0.041166666666666664,
      "grad_norm": 33.5,
      "grad_norm_var": 35.503580729166664,
      "learning_rate": 9.958580300552815e-05,
      "loss": 7.3157,
      "loss/crossentropy": 2.0076797902584076,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2526522632688284,
      "step": 247
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 36.5,
      "grad_norm_var": 35.995768229166664,
      "learning_rate": 9.958243341034827e-05,
      "loss": 6.9608,
      "loss/crossentropy": 1.737393319606781,
      "loss/hidden": 3.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2978449836373329,
      "step": 248
    },
    {
      "epoch": 0.0415,
      "grad_norm": 32.5,
      "grad_norm_var": 35.526041666666664,
      "learning_rate": 9.957905022186309e-05,
      "loss": 7.5004,
      "loss/crossentropy": 1.8952009677886963,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19244135171175003,
      "step": 249
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 27.875,
      "grad_norm_var": 37.63795572916667,
      "learning_rate": 9.957565344100009e-05,
      "loss": 6.7315,
      "loss/crossentropy": 1.7154051959514618,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1966639757156372,
      "step": 250
    },
    {
      "epoch": 0.041833333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 38.16015625,
      "learning_rate": 9.957224306869053e-05,
      "loss": 7.0747,
      "loss/crossentropy": 1.884273886680603,
      "loss/hidden": 3.80078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24361001327633858,
      "step": 251
    },
    {
      "epoch": 0.042,
      "grad_norm": 30.875,
      "grad_norm_var": 38.597330729166664,
      "learning_rate": 9.956881910586937e-05,
      "loss": 6.7937,
      "loss/crossentropy": 1.5800000429153442,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19121325388550758,
      "step": 252
    },
    {
      "epoch": 0.042166666666666665,
      "grad_norm": 33.5,
      "grad_norm_var": 38.3369140625,
      "learning_rate": 9.956538155347534e-05,
      "loss": 7.4439,
      "loss/crossentropy": 1.6637271493673325,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2565694823861122,
      "step": 253
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 37.25,
      "grad_norm_var": 38.50598958333333,
      "learning_rate": 9.956193041245084e-05,
      "loss": 7.0995,
      "loss/crossentropy": 1.5276811718940735,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16093368455767632,
      "step": 254
    },
    {
      "epoch": 0.0425,
      "grad_norm": 32.5,
      "grad_norm_var": 37.28723958333333,
      "learning_rate": 9.955846568374201e-05,
      "loss": 6.4927,
      "loss/crossentropy": 1.6154318898916245,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13068031892180443,
      "step": 255
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 28.375,
      "grad_norm_var": 38.76640625,
      "learning_rate": 9.955498736829875e-05,
      "loss": 6.6218,
      "loss/crossentropy": 1.550460159778595,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17490394413471222,
      "step": 256
    },
    {
      "epoch": 0.042833333333333334,
      "grad_norm": 26.25,
      "grad_norm_var": 42.36666666666667,
      "learning_rate": 9.955149546707465e-05,
      "loss": 6.7822,
      "loss/crossentropy": 1.4549120962619781,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16110243648290634,
      "step": 257
    },
    {
      "epoch": 0.043,
      "grad_norm": 31.75,
      "grad_norm_var": 42.44973958333333,
      "learning_rate": 9.954798998102702e-05,
      "loss": 6.7702,
      "loss/crossentropy": 1.3850528970360756,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1854463703930378,
      "step": 258
    },
    {
      "epoch": 0.043166666666666666,
      "grad_norm": 27.875,
      "grad_norm_var": 44.1244140625,
      "learning_rate": 9.954447091111694e-05,
      "loss": 7.0334,
      "loss/crossentropy": 1.6108764857053757,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20439260825514793,
      "step": 259
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 30.5,
      "grad_norm_var": 44.3384765625,
      "learning_rate": 9.954093825830917e-05,
      "loss": 7.574,
      "loss/crossentropy": 2.0142699629068375,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1655888967216015,
      "step": 260
    },
    {
      "epoch": 0.0435,
      "grad_norm": 32.75,
      "grad_norm_var": 44.342122395833336,
      "learning_rate": 9.953739202357218e-05,
      "loss": 7.3679,
      "loss/crossentropy": 1.7621987462043762,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2661568485200405,
      "step": 261
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 35.75,
      "grad_norm_var": 10.196809895833333,
      "learning_rate": 9.953383220787824e-05,
      "loss": 7.0685,
      "loss/crossentropy": 1.4321940243244171,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2649080101400614,
      "step": 262
    },
    {
      "epoch": 0.043833333333333335,
      "grad_norm": 33.25,
      "grad_norm_var": 10.142643229166667,
      "learning_rate": 9.953025881220325e-05,
      "loss": 7.1322,
      "loss/crossentropy": 1.6164200007915497,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16854076832532883,
      "step": 263
    },
    {
      "epoch": 0.044,
      "grad_norm": 31.5,
      "grad_norm_var": 8.533268229166667,
      "learning_rate": 9.952667183752689e-05,
      "loss": 7.7075,
      "loss/crossentropy": 1.5773536264896393,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20186477713286877,
      "step": 264
    },
    {
      "epoch": 0.04416666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 8.567122395833334,
      "learning_rate": 9.952307128483256e-05,
      "loss": 7.0641,
      "loss/crossentropy": 1.9845942556858063,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23343012481927872,
      "step": 265
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 33.25,
      "grad_norm_var": 7.937239583333334,
      "learning_rate": 9.951945715510738e-05,
      "loss": 6.9057,
      "loss/crossentropy": 1.6168481409549713,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16589028760790825,
      "step": 266
    },
    {
      "epoch": 0.0445,
      "grad_norm": 30.125,
      "grad_norm_var": 7.982291666666667,
      "learning_rate": 9.951582944934215e-05,
      "loss": 6.9383,
      "loss/crossentropy": 1.5559693723917007,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25133585184812546,
      "step": 267
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 7.968684895833333,
      "learning_rate": 9.951218816853145e-05,
      "loss": 7.1961,
      "loss/crossentropy": 1.3414212465286255,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1478818543255329,
      "step": 268
    },
    {
      "epoch": 0.044833333333333336,
      "grad_norm": 31.5,
      "grad_norm_var": 7.733268229166667,
      "learning_rate": 9.950853331367356e-05,
      "loss": 7.0719,
      "loss/crossentropy": 1.5315271243453026,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16057554073631763,
      "step": 269
    },
    {
      "epoch": 0.045,
      "grad_norm": 30.125,
      "grad_norm_var": 5.495572916666666,
      "learning_rate": 9.950486488577045e-05,
      "loss": 6.7578,
      "loss/crossentropy": 1.6037451326847076,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1604137122631073,
      "step": 270
    },
    {
      "epoch": 0.04516666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 5.495572916666666,
      "learning_rate": 9.950118288582788e-05,
      "loss": 6.8719,
      "loss/crossentropy": 1.1782431602478027,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18701835349202156,
      "step": 271
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 31.125,
      "grad_norm_var": 4.965625,
      "learning_rate": 9.949748731485527e-05,
      "loss": 7.044,
      "loss/crossentropy": 1.400882750749588,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26591288298368454,
      "step": 272
    },
    {
      "epoch": 0.0455,
      "grad_norm": 32.25,
      "grad_norm_var": 3.190625,
      "learning_rate": 9.949377817386579e-05,
      "loss": 7.4913,
      "loss/crossentropy": 0.867219865322113,
      "loss/hidden": 3.73828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2675766684114933,
      "step": 273
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 3.4462890625,
      "learning_rate": 9.949005546387631e-05,
      "loss": 7.1206,
      "loss/crossentropy": 1.874289482831955,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20881149545311928,
      "step": 274
    },
    {
      "epoch": 0.04583333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 2.6947916666666667,
      "learning_rate": 9.948631918590746e-05,
      "loss": 6.9333,
      "loss/crossentropy": 1.5097296833992004,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1876576580107212,
      "step": 275
    },
    {
      "epoch": 0.046,
      "grad_norm": 29.25,
      "grad_norm_var": 2.98515625,
      "learning_rate": 9.948256934098352e-05,
      "loss": 7.4482,
      "loss/crossentropy": 1.0763804763555527,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.27809485141187906,
      "step": 276
    },
    {
      "epoch": 0.04616666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 2.8884765625,
      "learning_rate": 9.947880593013255e-05,
      "loss": 7.3084,
      "loss/crossentropy": 2.053309381008148,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22167784348130226,
      "step": 277
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 1.67265625,
      "learning_rate": 9.947502895438631e-05,
      "loss": 7.3537,
      "loss/crossentropy": 1.3560047149658203,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16262023150920868,
      "step": 278
    },
    {
      "epoch": 0.0465,
      "grad_norm": 37.0,
      "grad_norm_var": 3.60625,
      "learning_rate": 9.94712384147803e-05,
      "loss": 7.1441,
      "loss/crossentropy": 1.6553308367729187,
      "loss/hidden": 3.80078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.34052540734410286,
      "step": 279
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 3.771875,
      "learning_rate": 9.94674343123537e-05,
      "loss": 7.0543,
      "loss/crossentropy": 1.671010285615921,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23619508370757103,
      "step": 280
    },
    {
      "epoch": 0.04683333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 3.771875,
      "learning_rate": 9.946361664814943e-05,
      "loss": 6.9507,
      "loss/crossentropy": 1.2728363275527954,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20054782927036285,
      "step": 281
    },
    {
      "epoch": 0.047,
      "grad_norm": 30.0,
      "grad_norm_var": 3.66015625,
      "learning_rate": 9.945978542321411e-05,
      "loss": 6.5744,
      "loss/crossentropy": 0.998386912047863,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09477789141237736,
      "step": 282
    },
    {
      "epoch": 0.04716666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 3.569205729166667,
      "learning_rate": 9.945594063859809e-05,
      "loss": 6.9131,
      "loss/crossentropy": 1.7489349246025085,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32071322202682495,
      "step": 283
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 3.7514973958333333,
      "learning_rate": 9.945208229535548e-05,
      "loss": 7.4689,
      "loss/crossentropy": 2.0416936576366425,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23788784816861153,
      "step": 284
    },
    {
      "epoch": 0.0475,
      "grad_norm": 28.5,
      "grad_norm_var": 4.279622395833333,
      "learning_rate": 9.944821039454402e-05,
      "loss": 7.1895,
      "loss/crossentropy": 1.7832486033439636,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18590330705046654,
      "step": 285
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 37.0,
      "grad_norm_var": 6.223958333333333,
      "learning_rate": 9.944432493722524e-05,
      "loss": 7.046,
      "loss/crossentropy": 1.468076929450035,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1862525474280119,
      "step": 286
    },
    {
      "epoch": 0.04783333333333333,
      "grad_norm": 33.75,
      "grad_norm_var": 6.462239583333333,
      "learning_rate": 9.944042592446434e-05,
      "loss": 7.1954,
      "loss/crossentropy": 1.3620029240846634,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1722669992595911,
      "step": 287
    },
    {
      "epoch": 0.048,
      "grad_norm": 32.25,
      "grad_norm_var": 6.449934895833334,
      "learning_rate": 9.943651335733028e-05,
      "loss": 7.345,
      "loss/crossentropy": 1.3657430112361908,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1477232426404953,
      "step": 288
    },
    {
      "epoch": 0.04816666666666667,
      "grad_norm": 31.875,
      "grad_norm_var": 6.436458333333333,
      "learning_rate": 9.94325872368957e-05,
      "loss": 7.3979,
      "loss/crossentropy": 1.3430730998516083,
      "loss/hidden": 3.78515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1977537926286459,
      "step": 289
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 6.174739583333333,
      "learning_rate": 9.942864756423697e-05,
      "loss": 6.9853,
      "loss/crossentropy": 1.7727776169776917,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17479711771011353,
      "step": 290
    },
    {
      "epoch": 0.0485,
      "grad_norm": 30.125,
      "grad_norm_var": 6.1447265625,
      "learning_rate": 9.942469434043418e-05,
      "loss": 7.0402,
      "loss/crossentropy": 1.56208536028862,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21697872504591942,
      "step": 291
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 29.25,
      "grad_norm_var": 6.1447265625,
      "learning_rate": 9.942072756657112e-05,
      "loss": 6.9928,
      "loss/crossentropy": 1.5282710641622543,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1731567531824112,
      "step": 292
    },
    {
      "epoch": 0.04883333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 6.353125,
      "learning_rate": 9.941674724373531e-05,
      "loss": 6.8876,
      "loss/crossentropy": 1.3770808428525925,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21321340836584568,
      "step": 293
    },
    {
      "epoch": 0.049,
      "grad_norm": 27.75,
      "grad_norm_var": 7.230143229166667,
      "learning_rate": 9.941275337301796e-05,
      "loss": 6.5595,
      "loss/crossentropy": 1.5444412529468536,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14273350313305855,
      "step": 294
    },
    {
      "epoch": 0.049166666666666664,
      "grad_norm": 36.25,
      "grad_norm_var": 6.728580729166667,
      "learning_rate": 9.940874595551404e-05,
      "loss": 7.0873,
      "loss/crossentropy": 1.8509480655193329,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1753649227321148,
      "step": 295
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 42.0,
      "grad_norm_var": 13.487955729166666,
      "learning_rate": 9.940472499232217e-05,
      "loss": 7.2649,
      "loss/crossentropy": 2.137119799852371,
      "loss/hidden": 3.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3466581925749779,
      "step": 296
    },
    {
      "epoch": 0.0495,
      "grad_norm": 30.0,
      "grad_norm_var": 13.487955729166666,
      "learning_rate": 9.940069048454476e-05,
      "loss": 6.76,
      "loss/crossentropy": 2.316546082496643,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24957827851176262,
      "step": 297
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 30.125,
      "grad_norm_var": 13.453125,
      "learning_rate": 9.939664243328788e-05,
      "loss": 6.9381,
      "loss/crossentropy": 1.629784494638443,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2546052001416683,
      "step": 298
    },
    {
      "epoch": 0.049833333333333334,
      "grad_norm": 30.625,
      "grad_norm_var": 13.5775390625,
      "learning_rate": 9.939258083966131e-05,
      "loss": 6.7227,
      "loss/crossentropy": 1.5890116840600967,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1683155559003353,
      "step": 299
    },
    {
      "epoch": 0.05,
      "grad_norm": 29.875,
      "grad_norm_var": 13.77265625,
      "learning_rate": 9.938850570477858e-05,
      "loss": 7.2107,
      "loss/crossentropy": 1.9451849162578583,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17290722578763962,
      "step": 300
    },
    {
      "epoch": 0.050166666666666665,
      "grad_norm": 37.25,
      "grad_norm_var": 14.602083333333333,
      "learning_rate": 9.938441702975689e-05,
      "loss": 6.9981,
      "loss/crossentropy": 2.071776658296585,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25798892974853516,
      "step": 301
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 30.25,
      "grad_norm_var": 13.343489583333334,
      "learning_rate": 9.93803148157172e-05,
      "loss": 6.7827,
      "loss/crossentropy": 1.1773535460233688,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13183625414967537,
      "step": 302
    },
    {
      "epoch": 0.0505,
      "grad_norm": 32.5,
      "grad_norm_var": 13.152083333333334,
      "learning_rate": 9.937619906378413e-05,
      "loss": 6.8614,
      "loss/crossentropy": 2.0693687200546265,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19452445581555367,
      "step": 303
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 29.625,
      "grad_norm_var": 13.473372395833334,
      "learning_rate": 9.937206977508604e-05,
      "loss": 7.1653,
      "loss/crossentropy": 2.0442996323108673,
      "loss/hidden": 3.66015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17838554084300995,
      "step": 304
    },
    {
      "epoch": 0.050833333333333335,
      "grad_norm": 29.5,
      "grad_norm_var": 13.79375,
      "learning_rate": 9.936792695075502e-05,
      "loss": 7.3782,
      "loss/crossentropy": 1.3510285913944244,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10517092235386372,
      "step": 305
    },
    {
      "epoch": 0.051,
      "grad_norm": 29.0,
      "grad_norm_var": 14.2009765625,
      "learning_rate": 9.936377059192683e-05,
      "loss": 6.9483,
      "loss/crossentropy": 1.8398471474647522,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18359501659870148,
      "step": 306
    },
    {
      "epoch": 0.051166666666666666,
      "grad_norm": 27.875,
      "grad_norm_var": 14.9322265625,
      "learning_rate": 9.935960069974096e-05,
      "loss": 6.4221,
      "loss/crossentropy": 1.8597908020019531,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18311693333089352,
      "step": 307
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 30.75,
      "grad_norm_var": 14.6494140625,
      "learning_rate": 9.935541727534062e-05,
      "loss": 6.9276,
      "loss/crossentropy": 1.6094922870397568,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26469697803258896,
      "step": 308
    },
    {
      "epoch": 0.0515,
      "grad_norm": 33.25,
      "grad_norm_var": 14.676497395833334,
      "learning_rate": 9.93512203198727e-05,
      "loss": 6.8775,
      "loss/crossentropy": 1.4130693972110748,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1726217232644558,
      "step": 309
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 28.125,
      "grad_norm_var": 14.489583333333334,
      "learning_rate": 9.934700983448785e-05,
      "loss": 6.4815,
      "loss/crossentropy": 1.8149312138557434,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14228468015789986,
      "step": 310
    },
    {
      "epoch": 0.051833333333333335,
      "grad_norm": 27.25,
      "grad_norm_var": 14.077083333333333,
      "learning_rate": 9.934278582034037e-05,
      "loss": 6.7575,
      "loss/crossentropy": 1.4098316729068756,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15191207826137543,
      "step": 311
    },
    {
      "epoch": 0.052,
      "grad_norm": 29.5,
      "grad_norm_var": 5.717708333333333,
      "learning_rate": 9.93385482785883e-05,
      "loss": 7.0661,
      "loss/crossentropy": 1.2506734728813171,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2104758396744728,
      "step": 312
    },
    {
      "epoch": 0.05216666666666667,
      "grad_norm": 28.625,
      "grad_norm_var": 5.898893229166666,
      "learning_rate": 9.93342972103934e-05,
      "loss": 6.8494,
      "loss/crossentropy": 1.9692685008049011,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17125158198177814,
      "step": 313
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 31.5,
      "grad_norm_var": 5.992708333333334,
      "learning_rate": 9.933003261692113e-05,
      "loss": 7.0405,
      "loss/crossentropy": 1.5915742814540863,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1476550530642271,
      "step": 314
    },
    {
      "epoch": 0.0525,
      "grad_norm": 31.875,
      "grad_norm_var": 6.137239583333334,
      "learning_rate": 9.932575449934062e-05,
      "loss": 7.5291,
      "loss/crossentropy": 2.2194809913635254,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1954730562865734,
      "step": 315
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 34.25,
      "grad_norm_var": 7.014518229166667,
      "learning_rate": 9.932146285882477e-05,
      "loss": 6.8653,
      "loss/crossentropy": 1.9022675156593323,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17530881613492966,
      "step": 316
    },
    {
      "epoch": 0.052833333333333336,
      "grad_norm": 29.25,
      "grad_norm_var": 4.0228515625,
      "learning_rate": 9.931715769655015e-05,
      "loss": 6.7117,
      "loss/crossentropy": 1.8810075521469116,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20105278491973877,
      "step": 317
    },
    {
      "epoch": 0.053,
      "grad_norm": 30.25,
      "grad_norm_var": 4.0228515625,
      "learning_rate": 9.931283901369706e-05,
      "loss": 7.1338,
      "loss/crossentropy": 1.6084867715835571,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17544957250356674,
      "step": 318
    },
    {
      "epoch": 0.05316666666666667,
      "grad_norm": 26.75,
      "grad_norm_var": 4.322330729166667,
      "learning_rate": 9.930850681144945e-05,
      "loss": 6.7322,
      "loss/crossentropy": 1.9372955560684204,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22798743844032288,
      "step": 319
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 30.75,
      "grad_norm_var": 4.369791666666667,
      "learning_rate": 9.930416109099505e-05,
      "loss": 6.7024,
      "loss/crossentropy": 2.0897410213947296,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20163432508707047,
      "step": 320
    },
    {
      "epoch": 0.0535,
      "grad_norm": 31.625,
      "grad_norm_var": 4.5369140625,
      "learning_rate": 9.929980185352526e-05,
      "loss": 7.0626,
      "loss/crossentropy": 1.799334704875946,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16541759110987186,
      "step": 321
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 4.483268229166667,
      "learning_rate": 9.929542910023517e-05,
      "loss": 6.8316,
      "loss/crossentropy": 1.4304459393024445,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2662687115371227,
      "step": 322
    },
    {
      "epoch": 0.05383333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 4.624739583333334,
      "learning_rate": 9.929104283232362e-05,
      "loss": 6.8603,
      "loss/crossentropy": 1.520107924938202,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1625481117516756,
      "step": 323
    },
    {
      "epoch": 0.054,
      "grad_norm": 32.75,
      "grad_norm_var": 4.970572916666667,
      "learning_rate": 9.928664305099314e-05,
      "loss": 7.2975,
      "loss/crossentropy": 1.922645777463913,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35359594598412514,
      "step": 324
    },
    {
      "epoch": 0.05416666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 4.571809895833334,
      "learning_rate": 9.928222975744991e-05,
      "loss": 6.8766,
      "loss/crossentropy": 2.0565673410892487,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19727135077118874,
      "step": 325
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 4.261458333333334,
      "learning_rate": 9.927780295290389e-05,
      "loss": 7.1271,
      "loss/crossentropy": 1.5576016902923584,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18772463873028755,
      "step": 326
    },
    {
      "epoch": 0.0545,
      "grad_norm": 29.625,
      "grad_norm_var": 3.614518229166667,
      "learning_rate": 9.927336263856872e-05,
      "loss": 6.9329,
      "loss/crossentropy": 1.5006282478570938,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23727844608947635,
      "step": 327
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 29.0,
      "grad_norm_var": 3.700455729166667,
      "learning_rate": 9.926890881566171e-05,
      "loss": 6.8211,
      "loss/crossentropy": 1.223441168665886,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14496134035289288,
      "step": 328
    },
    {
      "epoch": 0.05483333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 4.016080729166666,
      "learning_rate": 9.926444148540393e-05,
      "loss": 6.309,
      "loss/crossentropy": 0.858293853700161,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10236557200551033,
      "step": 329
    },
    {
      "epoch": 0.055,
      "grad_norm": 34.5,
      "grad_norm_var": 4.994205729166667,
      "learning_rate": 9.925996064902011e-05,
      "loss": 7.0001,
      "loss/crossentropy": 2.172655910253525,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1768443062901497,
      "step": 330
    },
    {
      "epoch": 0.05516666666666667,
      "grad_norm": 39.5,
      "grad_norm_var": 9.875,
      "learning_rate": 9.92554663077387e-05,
      "loss": 7.1776,
      "loss/crossentropy": 1.2981346100568771,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17009487748146057,
      "step": 331
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 35.25,
      "grad_norm_var": 10.354166666666666,
      "learning_rate": 9.925095846279184e-05,
      "loss": 7.2192,
      "loss/crossentropy": 1.36193186044693,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.253113005310297,
      "step": 332
    },
    {
      "epoch": 0.0555,
      "grad_norm": 28.25,
      "grad_norm_var": 10.675,
      "learning_rate": 9.924643711541539e-05,
      "loss": 6.9291,
      "loss/crossentropy": 1.9987045526504517,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23344938457012177,
      "step": 333
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 10.773958333333333,
      "learning_rate": 9.92419022668489e-05,
      "loss": 7.828,
      "loss/crossentropy": 2.0947715640068054,
      "loss/hidden": 3.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.4486834332346916,
      "step": 334
    },
    {
      "epoch": 0.05583333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 9.553580729166667,
      "learning_rate": 9.923735391833564e-05,
      "loss": 6.8631,
      "loss/crossentropy": 1.9164935052394867,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16560781374573708,
      "step": 335
    },
    {
      "epoch": 0.056,
      "grad_norm": 31.125,
      "grad_norm_var": 9.526822916666667,
      "learning_rate": 9.923279207112255e-05,
      "loss": 7.1829,
      "loss/crossentropy": 2.01135965436697,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3246071469038725,
      "step": 336
    },
    {
      "epoch": 0.05616666666666666,
      "grad_norm": 33.5,
      "grad_norm_var": 9.781705729166667,
      "learning_rate": 9.922821672646027e-05,
      "loss": 7.4666,
      "loss/crossentropy": 1.5571194291114807,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16909234598279,
      "step": 337
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 9.98125,
      "learning_rate": 9.922362788560319e-05,
      "loss": 7.0297,
      "loss/crossentropy": 1.3507355153560638,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23893941938877106,
      "step": 338
    },
    {
      "epoch": 0.0565,
      "grad_norm": 30.5,
      "grad_norm_var": 9.892708333333333,
      "learning_rate": 9.921902554980934e-05,
      "loss": 6.7374,
      "loss/crossentropy": 1.8911243975162506,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2164096813648939,
      "step": 339
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 31.125,
      "grad_norm_var": 9.7666015625,
      "learning_rate": 9.921440972034049e-05,
      "loss": 7.1219,
      "loss/crossentropy": 1.6565758883953094,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21637392789125443,
      "step": 340
    },
    {
      "epoch": 0.05683333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 9.944205729166667,
      "learning_rate": 9.92097803984621e-05,
      "loss": 6.6962,
      "loss/crossentropy": 1.563918575644493,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1653151847422123,
      "step": 341
    },
    {
      "epoch": 0.057,
      "grad_norm": 31.625,
      "grad_norm_var": 9.930989583333334,
      "learning_rate": 9.920513758544332e-05,
      "loss": 7.2076,
      "loss/crossentropy": 1.9003488719463348,
      "loss/hidden": 3.82421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2942137196660042,
      "step": 342
    },
    {
      "epoch": 0.057166666666666664,
      "grad_norm": 39.25,
      "grad_norm_var": 13.5353515625,
      "learning_rate": 9.920048128255699e-05,
      "loss": 6.8842,
      "loss/crossentropy": 1.453528344631195,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17757558822631836,
      "step": 343
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 36.5,
      "grad_norm_var": 14.1212890625,
      "learning_rate": 9.919581149107968e-05,
      "loss": 6.9399,
      "loss/crossentropy": 1.048169419169426,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1615643361583352,
      "step": 344
    },
    {
      "epoch": 0.0575,
      "grad_norm": 38.75,
      "grad_norm_var": 14.776041666666666,
      "learning_rate": 9.919112821229163e-05,
      "loss": 6.8893,
      "loss/crossentropy": 1.4191984683275223,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1365694012492895,
      "step": 345
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 31.5,
      "grad_norm_var": 14.776041666666666,
      "learning_rate": 9.918643144747681e-05,
      "loss": 7.4587,
      "loss/crossentropy": 1.7477758526802063,
      "loss/hidden": 3.734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23377961292862892,
      "step": 346
    },
    {
      "epoch": 0.057833333333333334,
      "grad_norm": 27.875,
      "grad_norm_var": 13.002018229166667,
      "learning_rate": 9.918172119792282e-05,
      "loss": 7.1625,
      "loss/crossentropy": 1.7191437631845474,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14523478224873543,
      "step": 347
    },
    {
      "epoch": 0.058,
      "grad_norm": 29.625,
      "grad_norm_var": 12.676822916666667,
      "learning_rate": 9.917699746492104e-05,
      "loss": 7.2374,
      "loss/crossentropy": 1.711678385734558,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3540639393031597,
      "step": 348
    },
    {
      "epoch": 0.058166666666666665,
      "grad_norm": 29.0,
      "grad_norm_var": 12.354166666666666,
      "learning_rate": 9.917226024976649e-05,
      "loss": 7.0111,
      "loss/crossentropy": 1.871002122759819,
      "loss/hidden": 3.80078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.253181129693985,
      "step": 349
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 30.75,
      "grad_norm_var": 12.370833333333334,
      "learning_rate": 9.91675095537579e-05,
      "loss": 6.9966,
      "loss/crossentropy": 1.1223047077655792,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16907763667404652,
      "step": 350
    },
    {
      "epoch": 0.0585,
      "grad_norm": 28.875,
      "grad_norm_var": 12.618489583333334,
      "learning_rate": 9.916274537819775e-05,
      "loss": 7.1552,
      "loss/crossentropy": 1.913307100534439,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.2782452665269375,
      "step": 351
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 37.25,
      "grad_norm_var": 14.491080729166667,
      "learning_rate": 9.915796772439207e-05,
      "loss": 7.2787,
      "loss/crossentropy": 2.047320604324341,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16641808673739433,
      "step": 352
    },
    {
      "epoch": 0.058833333333333335,
      "grad_norm": 31.5,
      "grad_norm_var": 14.363997395833334,
      "learning_rate": 9.915317659365077e-05,
      "loss": 6.9958,
      "loss/crossentropy": 1.6410242393612862,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.165967701934278,
      "step": 353
    },
    {
      "epoch": 0.059,
      "grad_norm": 30.875,
      "grad_norm_var": 13.791080729166667,
      "learning_rate": 9.914837198728733e-05,
      "loss": 7.2045,
      "loss/crossentropy": 1.2407794147729874,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1580798588693142,
      "step": 354
    },
    {
      "epoch": 0.059166666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 13.6181640625,
      "learning_rate": 9.914355390661896e-05,
      "loss": 7.0317,
      "loss/crossentropy": 1.891918033361435,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24348440766334534,
      "step": 355
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 31.375,
      "grad_norm_var": 13.585872395833333,
      "learning_rate": 9.913872235296657e-05,
      "loss": 6.7965,
      "loss/crossentropy": 1.520493820309639,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18387246876955032,
      "step": 356
    },
    {
      "epoch": 0.0595,
      "grad_norm": 32.0,
      "grad_norm_var": 12.545572916666666,
      "learning_rate": 9.913387732765475e-05,
      "loss": 7.5963,
      "loss/crossentropy": 1.6907641142606735,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1569608375430107,
      "step": 357
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 12.851822916666666,
      "learning_rate": 9.91290188320118e-05,
      "loss": 7.325,
      "loss/crossentropy": 1.5798785090446472,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17809266969561577,
      "step": 358
    },
    {
      "epoch": 0.059833333333333336,
      "grad_norm": 31.625,
      "grad_norm_var": 9.480143229166666,
      "learning_rate": 9.91241468673697e-05,
      "loss": 7.1735,
      "loss/crossentropy": 2.05547434091568,
      "loss/hidden": 3.62109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18853947147727013,
      "step": 359
    },
    {
      "epoch": 0.06,
      "grad_norm": 33.0,
      "grad_norm_var": 8.091080729166666,
      "learning_rate": 9.911926143506412e-05,
      "loss": 7.1808,
      "loss/crossentropy": 2.253300368785858,
      "loss/hidden": 4.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2493579462170601,
      "step": 360
    },
    {
      "epoch": 0.06016666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 4.672330729166666,
      "learning_rate": 9.911436253643445e-05,
      "loss": 6.5164,
      "loss/crossentropy": 1.4248720556497574,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18392807617783546,
      "step": 361
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 31.5,
      "grad_norm_var": 4.672330729166666,
      "learning_rate": 9.910945017282372e-05,
      "loss": 7.3267,
      "loss/crossentropy": 1.6512728929519653,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14323543198406696,
      "step": 362
    },
    {
      "epoch": 0.0605,
      "grad_norm": 28.875,
      "grad_norm_var": 4.279622395833333,
      "learning_rate": 9.91045243455787e-05,
      "loss": 6.9783,
      "loss/crossentropy": 1.2311359643936157,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13875133730471134,
      "step": 363
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 4.0681640625,
      "learning_rate": 9.909958505604984e-05,
      "loss": 6.9123,
      "loss/crossentropy": 1.041396975517273,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10275209881365299,
      "step": 364
    },
    {
      "epoch": 0.060833333333333336,
      "grad_norm": 29.875,
      "grad_norm_var": 3.82890625,
      "learning_rate": 9.909463230559127e-05,
      "loss": 6.9391,
      "loss/crossentropy": 1.6771114617586136,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1523474808782339,
      "step": 365
    },
    {
      "epoch": 0.061,
      "grad_norm": 31.0,
      "grad_norm_var": 3.8072916666666665,
      "learning_rate": 9.908966609556079e-05,
      "loss": 7.3729,
      "loss/crossentropy": 1.1425088867545128,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1245612483471632,
      "step": 366
    },
    {
      "epoch": 0.06116666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 3.6103515625,
      "learning_rate": 9.908468642731995e-05,
      "loss": 7.018,
      "loss/crossentropy": 1.5243964493274689,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15938062593340874,
      "step": 367
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 34.0,
      "grad_norm_var": 1.8093098958333333,
      "learning_rate": 9.907969330223395e-05,
      "loss": 6.8973,
      "loss/crossentropy": 0.9294636249542236,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16288216598331928,
      "step": 368
    },
    {
      "epoch": 0.0615,
      "grad_norm": 31.625,
      "grad_norm_var": 1.8125,
      "learning_rate": 9.907468672167165e-05,
      "loss": 7.2048,
      "loss/crossentropy": 1.645423173904419,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2051373142749071,
      "step": 369
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 1.8051432291666667,
      "learning_rate": 9.906966668700567e-05,
      "loss": 7.2549,
      "loss/crossentropy": 1.6831459701061249,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19335630536079407,
      "step": 370
    },
    {
      "epoch": 0.06183333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 1.8952473958333333,
      "learning_rate": 9.906463319961225e-05,
      "loss": 7.1289,
      "loss/crossentropy": 1.8449882715940475,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20429406687617302,
      "step": 371
    },
    {
      "epoch": 0.062,
      "grad_norm": 29.125,
      "grad_norm_var": 2.223372395833333,
      "learning_rate": 9.90595862608714e-05,
      "loss": 6.4735,
      "loss/crossentropy": 1.3120336532592773,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1317860446870327,
      "step": 372
    },
    {
      "epoch": 0.06216666666666667,
      "grad_norm": 31.375,
      "grad_norm_var": 2.187239583333333,
      "learning_rate": 9.90545258721667e-05,
      "loss": 7.2773,
      "loss/crossentropy": 1.5410139858722687,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16073031350970268,
      "step": 373
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 33.75,
      "grad_norm_var": 2.4723307291666665,
      "learning_rate": 9.904945203488554e-05,
      "loss": 7.3947,
      "loss/crossentropy": 1.5286826118826866,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13874854519963264,
      "step": 374
    },
    {
      "epoch": 0.0625,
      "grad_norm": 28.875,
      "grad_norm_var": 2.8848307291666666,
      "learning_rate": 9.904436475041891e-05,
      "loss": 6.9468,
      "loss/crossentropy": 1.3267207443714142,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2536827567964792,
      "step": 375
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 30.5,
      "grad_norm_var": 2.7051432291666666,
      "learning_rate": 9.903926402016153e-05,
      "loss": 6.5394,
      "loss/crossentropy": 1.119832620024681,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10435830242931843,
      "step": 376
    },
    {
      "epoch": 0.06283333333333334,
      "grad_norm": 30.125,
      "grad_norm_var": 2.5697916666666667,
      "learning_rate": 9.903414984551179e-05,
      "loss": 7.5438,
      "loss/crossentropy": 2.038603186607361,
      "loss/hidden": 3.78515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.322290800511837,
      "step": 377
    },
    {
      "epoch": 0.063,
      "grad_norm": 33.0,
      "grad_norm_var": 2.816666666666667,
      "learning_rate": 9.902902222787175e-05,
      "loss": 7.1061,
      "loss/crossentropy": 1.7512010633945465,
      "loss/hidden": 3.67578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3207052852958441,
      "step": 378
    },
    {
      "epoch": 0.06316666666666666,
      "grad_norm": 31.625,
      "grad_norm_var": 2.4872395833333334,
      "learning_rate": 9.902388116864722e-05,
      "loss": 6.8527,
      "loss/crossentropy": 1.269251748919487,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12383817881345749,
      "step": 379
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 2.8686848958333333,
      "learning_rate": 9.901872666924764e-05,
      "loss": 7.2741,
      "loss/crossentropy": 1.2731651365756989,
      "loss/hidden": 3.83984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23384994268417358,
      "step": 380
    },
    {
      "epoch": 0.0635,
      "grad_norm": 31.75,
      "grad_norm_var": 2.7895833333333333,
      "learning_rate": 9.901355873108609e-05,
      "loss": 7.0535,
      "loss/crossentropy": 1.5953963994979858,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23109585791826248,
      "step": 381
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 28.375,
      "grad_norm_var": 3.285872395833333,
      "learning_rate": 9.900837735557947e-05,
      "loss": 6.5947,
      "loss/crossentropy": 1.602350801229477,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13890548422932625,
      "step": 382
    },
    {
      "epoch": 0.06383333333333334,
      "grad_norm": 29.875,
      "grad_norm_var": 3.218489583333333,
      "learning_rate": 9.900318254414821e-05,
      "loss": 6.936,
      "loss/crossentropy": 1.5561874359846115,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23637470044195652,
      "step": 383
    },
    {
      "epoch": 0.064,
      "grad_norm": 31.25,
      "grad_norm_var": 2.6083333333333334,
      "learning_rate": 9.899797429821656e-05,
      "loss": 7.0894,
      "loss/crossentropy": 1.3163021504878998,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16271806322038174,
      "step": 384
    },
    {
      "epoch": 0.06416666666666666,
      "grad_norm": 29.75,
      "grad_norm_var": 2.6405598958333334,
      "learning_rate": 9.899275261921234e-05,
      "loss": 6.5898,
      "loss/crossentropy": 1.5003906786441803,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16999328136444092,
      "step": 385
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 32.0,
      "grad_norm_var": 2.7353515625,
      "learning_rate": 9.898751750856713e-05,
      "loss": 7.3537,
      "loss/crossentropy": 1.761914700269699,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21671501360833645,
      "step": 386
    },
    {
      "epoch": 0.0645,
      "grad_norm": 31.5,
      "grad_norm_var": 2.4400390625,
      "learning_rate": 9.898226896771619e-05,
      "loss": 7.0966,
      "loss/crossentropy": 1.324119359254837,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24070443212985992,
      "step": 387
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 32.0,
      "grad_norm_var": 2.3427083333333334,
      "learning_rate": 9.897700699809837e-05,
      "loss": 7.329,
      "loss/crossentropy": 1.9189965426921844,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16512704640626907,
      "step": 388
    },
    {
      "epoch": 0.06483333333333334,
      "grad_norm": 31.375,
      "grad_norm_var": 2.3427083333333334,
      "learning_rate": 9.897173160115632e-05,
      "loss": 6.7596,
      "loss/crossentropy": 1.5462406650185585,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12559622339904308,
      "step": 389
    },
    {
      "epoch": 0.065,
      "grad_norm": 30.0,
      "grad_norm_var": 1.7997395833333334,
      "learning_rate": 9.896644277833631e-05,
      "loss": 6.4505,
      "loss/crossentropy": 1.1322835385799408,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18489011749625206,
      "step": 390
    },
    {
      "epoch": 0.06516666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 1.5728515625,
      "learning_rate": 9.896114053108829e-05,
      "loss": 7.0024,
      "loss/crossentropy": 1.5260199159383774,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2132732141762972,
      "step": 391
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 2.0650390625,
      "learning_rate": 9.895582486086592e-05,
      "loss": 6.2697,
      "loss/crossentropy": 1.1537235230207443,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14999711327254772,
      "step": 392
    },
    {
      "epoch": 0.0655,
      "grad_norm": 31.5,
      "grad_norm_var": 2.0872395833333335,
      "learning_rate": 9.89504957691265e-05,
      "loss": 7.4023,
      "loss/crossentropy": 1.409236192703247,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1763436421751976,
      "step": 393
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 28.75,
      "grad_norm_var": 1.9322916666666667,
      "learning_rate": 9.894515325733103e-05,
      "loss": 6.6669,
      "loss/crossentropy": 0.7334737330675125,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12552095763385296,
      "step": 394
    },
    {
      "epoch": 0.06583333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 2.1947265625,
      "learning_rate": 9.893979732694421e-05,
      "loss": 6.563,
      "loss/crossentropy": 1.4535393714904785,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14764047786593437,
      "step": 395
    },
    {
      "epoch": 0.066,
      "grad_norm": 31.875,
      "grad_norm_var": 2.183333333333333,
      "learning_rate": 9.89344279794344e-05,
      "loss": 7.1506,
      "loss/crossentropy": 2.3290280997753143,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1923549324274063,
      "step": 396
    },
    {
      "epoch": 0.06616666666666667,
      "grad_norm": 33.25,
      "grad_norm_var": 2.5864583333333333,
      "learning_rate": 9.892904521627361e-05,
      "loss": 7.2726,
      "loss/crossentropy": 1.7218973338603973,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2068917229771614,
      "step": 397
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 2.2577473958333334,
      "learning_rate": 9.892364903893759e-05,
      "loss": 6.9218,
      "loss/crossentropy": 1.2974925339221954,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15329620987176895,
      "step": 398
    },
    {
      "epoch": 0.0665,
      "grad_norm": 30.875,
      "grad_norm_var": 2.2150390625,
      "learning_rate": 9.891823944890568e-05,
      "loss": 7.1408,
      "loss/crossentropy": 1.6945496201515198,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1738334558904171,
      "step": 399
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 2.4018229166666667,
      "learning_rate": 9.8912816447661e-05,
      "loss": 7.0689,
      "loss/crossentropy": 1.1989670246839523,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17318839952349663,
      "step": 400
    },
    {
      "epoch": 0.06683333333333333,
      "grad_norm": 37.5,
      "grad_norm_var": 5.3,
      "learning_rate": 9.890738003669029e-05,
      "loss": 7.0358,
      "loss/crossentropy": 1.6337324529886246,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25416150875389576,
      "step": 401
    },
    {
      "epoch": 0.067,
      "grad_norm": 31.75,
      "grad_norm_var": 5.27265625,
      "learning_rate": 9.890193021748395e-05,
      "loss": 7.1105,
      "loss/crossentropy": 1.3696629405021667,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23377813398838043,
      "step": 402
    },
    {
      "epoch": 0.06716666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 5.294791666666667,
      "learning_rate": 9.88964669915361e-05,
      "loss": 7.3575,
      "loss/crossentropy": 0.8983005583286285,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17355326376855373,
      "step": 403
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 5.294791666666667,
      "learning_rate": 9.889099036034451e-05,
      "loss": 7.4992,
      "loss/crossentropy": 1.9310307800769806,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17338347807526588,
      "step": 404
    },
    {
      "epoch": 0.0675,
      "grad_norm": 33.5,
      "grad_norm_var": 5.692122395833334,
      "learning_rate": 9.888550032541059e-05,
      "loss": 7.5245,
      "loss/crossentropy": 1.7606293559074402,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15558410063385963,
      "step": 405
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 44.0,
      "grad_norm_var": 15.885872395833333,
      "learning_rate": 9.887999688823955e-05,
      "loss": 6.9123,
      "loss/crossentropy": 1.4918632507324219,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20198907144367695,
      "step": 406
    },
    {
      "epoch": 0.06783333333333333,
      "grad_norm": 31.625,
      "grad_norm_var": 15.82890625,
      "learning_rate": 9.88744800503401e-05,
      "loss": 6.3646,
      "loss/crossentropy": 1.2554514855146408,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17770635895431042,
      "step": 407
    },
    {
      "epoch": 0.068,
      "grad_norm": 29.125,
      "grad_norm_var": 15.3056640625,
      "learning_rate": 9.886894981322476e-05,
      "loss": 6.7323,
      "loss/crossentropy": 1.3313074856996536,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13258123397827148,
      "step": 408
    },
    {
      "epoch": 0.06816666666666667,
      "grad_norm": 29.125,
      "grad_norm_var": 15.84375,
      "learning_rate": 9.886340617840968e-05,
      "loss": 6.8192,
      "loss/crossentropy": 1.4146481305360794,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15282718185335398,
      "step": 409
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 15.29140625,
      "learning_rate": 9.885784914741465e-05,
      "loss": 7.2462,
      "loss/crossentropy": 1.262852057814598,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1464645303785801,
      "step": 410
    },
    {
      "epoch": 0.0685,
      "grad_norm": 31.875,
      "grad_norm_var": 14.138997395833334,
      "learning_rate": 9.88522787217632e-05,
      "loss": 6.7425,
      "loss/crossentropy": 1.6671670973300934,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2631005682051182,
      "step": 411
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 27.375,
      "grad_norm_var": 15.653059895833334,
      "learning_rate": 9.884669490298244e-05,
      "loss": 6.8382,
      "loss/crossentropy": 1.6557044088840485,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.140958396717906,
      "step": 412
    },
    {
      "epoch": 0.06883333333333333,
      "grad_norm": 32.5,
      "grad_norm_var": 15.563997395833333,
      "learning_rate": 9.884109769260325e-05,
      "loss": 7.6609,
      "loss/crossentropy": 0.9135521650314331,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19201525300741196,
      "step": 413
    },
    {
      "epoch": 0.069,
      "grad_norm": 30.5,
      "grad_norm_var": 15.563997395833333,
      "learning_rate": 9.883548709216013e-05,
      "loss": 6.6332,
      "loss/crossentropy": 1.3997588455677032,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13156344182789326,
      "step": 414
    },
    {
      "epoch": 0.06916666666666667,
      "grad_norm": 32.75,
      "grad_norm_var": 15.512239583333333,
      "learning_rate": 9.882986310319124e-05,
      "loss": 7.1636,
      "loss/crossentropy": 1.7076705694198608,
      "loss/hidden": 3.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25658633559942245,
      "step": 415
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 29.75,
      "grad_norm_var": 15.186393229166667,
      "learning_rate": 9.882422572723844e-05,
      "loss": 6.8606,
      "loss/crossentropy": 1.3504041358828545,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2513937735930085,
      "step": 416
    },
    {
      "epoch": 0.0695,
      "grad_norm": 29.375,
      "grad_norm_var": 13.497916666666667,
      "learning_rate": 9.881857496584726e-05,
      "loss": 6.7591,
      "loss/crossentropy": 1.1982027888298035,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1371591743081808,
      "step": 417
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 13.5931640625,
      "learning_rate": 9.881291082056685e-05,
      "loss": 6.6236,
      "loss/crossentropy": 1.4953482449054718,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2729326821863651,
      "step": 418
    },
    {
      "epoch": 0.06983333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 13.4759765625,
      "learning_rate": 9.880723329295012e-05,
      "loss": 6.9131,
      "loss/crossentropy": 1.4245893955230713,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15015526488423347,
      "step": 419
    },
    {
      "epoch": 0.07,
      "grad_norm": 30.375,
      "grad_norm_var": 13.561458333333333,
      "learning_rate": 9.880154238455356e-05,
      "loss": 6.7411,
      "loss/crossentropy": 1.4112870395183563,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16381575912237167,
      "step": 420
    },
    {
      "epoch": 0.07016666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 13.303059895833334,
      "learning_rate": 9.879583809693738e-05,
      "loss": 7.1319,
      "loss/crossentropy": 1.6169283092021942,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14410164579749107,
      "step": 421
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 1.9593098958333333,
      "learning_rate": 9.879012043166542e-05,
      "loss": 6.8012,
      "loss/crossentropy": 1.3054140955209732,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15814785845577717,
      "step": 422
    },
    {
      "epoch": 0.0705,
      "grad_norm": 30.625,
      "grad_norm_var": 1.8728515625,
      "learning_rate": 9.878438939030526e-05,
      "loss": 6.5904,
      "loss/crossentropy": 1.4737870246171951,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17665542662143707,
      "step": 423
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 26.375,
      "grad_norm_var": 2.8296223958333333,
      "learning_rate": 9.877864497442804e-05,
      "loss": 6.497,
      "loss/crossentropy": 1.4228816032409668,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19815989956259727,
      "step": 424
    },
    {
      "epoch": 0.07083333333333333,
      "grad_norm": 29.75,
      "grad_norm_var": 2.7583333333333333,
      "learning_rate": 9.877288718560866e-05,
      "loss": 7.0911,
      "loss/crossentropy": 2.074735075235367,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24289842694997787,
      "step": 425
    },
    {
      "epoch": 0.071,
      "grad_norm": 27.75,
      "grad_norm_var": 3.162239583333333,
      "learning_rate": 9.876711602542563e-05,
      "loss": 7.1676,
      "loss/crossentropy": 1.2838065922260284,
      "loss/hidden": 3.62109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24612978007644415,
      "step": 426
    },
    {
      "epoch": 0.07116666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 3.2046223958333333,
      "learning_rate": 9.876133149546118e-05,
      "loss": 6.6919,
      "loss/crossentropy": 1.8741240799427032,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16576944291591644,
      "step": 427
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 2.7639973958333335,
      "learning_rate": 9.875553359730114e-05,
      "loss": 6.7182,
      "loss/crossentropy": 1.4090934842824936,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15427778661251068,
      "step": 428
    },
    {
      "epoch": 0.0715,
      "grad_norm": 32.75,
      "grad_norm_var": 2.8499348958333335,
      "learning_rate": 9.874972233253504e-05,
      "loss": 6.7471,
      "loss/crossentropy": 1.103910744190216,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14564213017001748,
      "step": 429
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 31.75,
      "grad_norm_var": 3.0218098958333335,
      "learning_rate": 9.874389770275607e-05,
      "loss": 7.2498,
      "loss/crossentropy": 1.8716143667697906,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.289576917886734,
      "step": 430
    },
    {
      "epoch": 0.07183333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 2.6025390625,
      "learning_rate": 9.87380597095611e-05,
      "loss": 7.1361,
      "loss/crossentropy": 1.1144326478242874,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12110078148543835,
      "step": 431
    },
    {
      "epoch": 0.072,
      "grad_norm": 29.75,
      "grad_norm_var": 2.6025390625,
      "learning_rate": 9.873220835455064e-05,
      "loss": 6.771,
      "loss/crossentropy": 1.6715168803930283,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13846534118056297,
      "step": 432
    },
    {
      "epoch": 0.07216666666666667,
      "grad_norm": 34.25,
      "grad_norm_var": 3.66640625,
      "learning_rate": 9.872634363932887e-05,
      "loss": 7.3403,
      "loss/crossentropy": 1.8598685264587402,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17878054454922676,
      "step": 433
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 3.81640625,
      "learning_rate": 9.872046556550363e-05,
      "loss": 6.9061,
      "loss/crossentropy": 1.5577319860458374,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.150806475430727,
      "step": 434
    },
    {
      "epoch": 0.0725,
      "grad_norm": 31.125,
      "grad_norm_var": 3.7301432291666665,
      "learning_rate": 9.871457413468644e-05,
      "loss": 6.7873,
      "loss/crossentropy": 1.6065486669540405,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1471869796514511,
      "step": 435
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 3.738541666666667,
      "learning_rate": 9.870866934849248e-05,
      "loss": 7.392,
      "loss/crossentropy": 1.7273681610822678,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2536742892116308,
      "step": 436
    },
    {
      "epoch": 0.07283333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 3.887955729166667,
      "learning_rate": 9.870275120854054e-05,
      "loss": 6.7686,
      "loss/crossentropy": 2.0005056262016296,
      "loss/hidden": 3.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23111211135983467,
      "step": 437
    },
    {
      "epoch": 0.073,
      "grad_norm": 29.25,
      "grad_norm_var": 3.9535807291666667,
      "learning_rate": 9.869681971645315e-05,
      "loss": 7.4992,
      "loss/crossentropy": 1.8039406090974808,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28976285830140114,
      "step": 438
    },
    {
      "epoch": 0.07316666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 3.9416015625,
      "learning_rate": 9.869087487385644e-05,
      "loss": 6.8613,
      "loss/crossentropy": 1.982006013393402,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1841346099972725,
      "step": 439
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 28.625,
      "grad_norm_var": 3.1166015625,
      "learning_rate": 9.868491668238025e-05,
      "loss": 6.8652,
      "loss/crossentropy": 1.5234146118164062,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17372388020157814,
      "step": 440
    },
    {
      "epoch": 0.0735,
      "grad_norm": 34.25,
      "grad_norm_var": 4.0400390625,
      "learning_rate": 9.867894514365802e-05,
      "loss": 7.6485,
      "loss/crossentropy": 1.2764847427606583,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2595882900059223,
      "step": 441
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 3.7666015625,
      "learning_rate": 9.867296025932688e-05,
      "loss": 7.3161,
      "loss/crossentropy": 1.551239237189293,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16433005779981613,
      "step": 442
    },
    {
      "epoch": 0.07383333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 3.6728515625,
      "learning_rate": 9.866696203102766e-05,
      "loss": 7.177,
      "loss/crossentropy": 1.9006485342979431,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18515821173787117,
      "step": 443
    },
    {
      "epoch": 0.074,
      "grad_norm": 29.5,
      "grad_norm_var": 3.6958333333333333,
      "learning_rate": 9.866095046040478e-05,
      "loss": 6.5369,
      "loss/crossentropy": 1.1699100732803345,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16365684941411018,
      "step": 444
    },
    {
      "epoch": 0.07416666666666667,
      "grad_norm": 33.0,
      "grad_norm_var": 3.76015625,
      "learning_rate": 9.865492554910633e-05,
      "loss": 7.1591,
      "loss/crossentropy": 1.692724883556366,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18517207354307175,
      "step": 445
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 3.790625,
      "learning_rate": 9.86488872987841e-05,
      "loss": 7.1471,
      "loss/crossentropy": 1.5410718321800232,
      "loss/hidden": 4.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.43903179466724396,
      "step": 446
    },
    {
      "epoch": 0.0745,
      "grad_norm": 29.125,
      "grad_norm_var": 4.0025390625,
      "learning_rate": 9.864283571109352e-05,
      "loss": 6.5643,
      "loss/crossentropy": 1.3042651116847992,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13341313041746616,
      "step": 447
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 4.0712890625,
      "learning_rate": 9.863677078769362e-05,
      "loss": 7.4753,
      "loss/crossentropy": 1.3810160607099533,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23434478230774403,
      "step": 448
    },
    {
      "epoch": 0.07483333333333334,
      "grad_norm": 29.0,
      "grad_norm_var": 3.5353515625,
      "learning_rate": 9.863069253024719e-05,
      "loss": 7.2343,
      "loss/crossentropy": 1.5376935005187988,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23124074935913086,
      "step": 449
    },
    {
      "epoch": 0.075,
      "grad_norm": 30.375,
      "grad_norm_var": 3.4400390625,
      "learning_rate": 9.862460094042056e-05,
      "loss": 7.0098,
      "loss/crossentropy": 1.751096397638321,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1434621810913086,
      "step": 450
    },
    {
      "epoch": 0.07516666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 3.440625,
      "learning_rate": 9.861849601988383e-05,
      "loss": 6.6323,
      "loss/crossentropy": 1.1928651630878448,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16096126288175583,
      "step": 451
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 28.25,
      "grad_norm_var": 3.7583333333333333,
      "learning_rate": 9.861237777031068e-05,
      "loss": 7.0513,
      "loss/crossentropy": 1.9867673516273499,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16949284449219704,
      "step": 452
    },
    {
      "epoch": 0.0755,
      "grad_norm": 30.375,
      "grad_norm_var": 3.5712890625,
      "learning_rate": 9.860624619337844e-05,
      "loss": 6.9948,
      "loss/crossentropy": 1.2133909314870834,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18272900208830833,
      "step": 453
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 3.6979166666666665,
      "learning_rate": 9.860010129076813e-05,
      "loss": 6.8924,
      "loss/crossentropy": 1.5619240701198578,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15395177155733109,
      "step": 454
    },
    {
      "epoch": 0.07583333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 3.7223307291666665,
      "learning_rate": 9.859394306416444e-05,
      "loss": 7.0382,
      "loss/crossentropy": 1.4500148221850395,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19516615942120552,
      "step": 455
    },
    {
      "epoch": 0.076,
      "grad_norm": 33.25,
      "grad_norm_var": 3.9559895833333334,
      "learning_rate": 9.858777151525564e-05,
      "loss": 7.3597,
      "loss/crossentropy": 1.2372301891446114,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.223042793571949,
      "step": 456
    },
    {
      "epoch": 0.07616666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 3.2733723958333334,
      "learning_rate": 9.85815866457337e-05,
      "loss": 6.7725,
      "loss/crossentropy": 1.7923309803009033,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2751024030148983,
      "step": 457
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 30.625,
      "grad_norm_var": 2.787239583333333,
      "learning_rate": 9.857538845729426e-05,
      "loss": 6.6334,
      "loss/crossentropy": 1.5725050419569016,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15925869904458523,
      "step": 458
    },
    {
      "epoch": 0.0765,
      "grad_norm": 30.375,
      "grad_norm_var": 2.5160807291666667,
      "learning_rate": 9.856917695163658e-05,
      "loss": 6.9434,
      "loss/crossentropy": 1.7009003162384033,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16625344939529896,
      "step": 459
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 31.25,
      "grad_norm_var": 2.512434895833333,
      "learning_rate": 9.856295213046357e-05,
      "loss": 6.8745,
      "loss/crossentropy": 1.5608884245157242,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2525358907878399,
      "step": 460
    },
    {
      "epoch": 0.07683333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 2.0747395833333333,
      "learning_rate": 9.855671399548181e-05,
      "loss": 6.8753,
      "loss/crossentropy": 1.5073769092559814,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20055905729532242,
      "step": 461
    },
    {
      "epoch": 0.077,
      "grad_norm": 29.25,
      "grad_norm_var": 1.9,
      "learning_rate": 9.855046254840151e-05,
      "loss": 6.6672,
      "loss/crossentropy": 1.9303827285766602,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20459270849823952,
      "step": 462
    },
    {
      "epoch": 0.07716666666666666,
      "grad_norm": 30.25,
      "grad_norm_var": 1.8384765625,
      "learning_rate": 9.854419779093655e-05,
      "loss": 6.918,
      "loss/crossentropy": 1.4022010415792465,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14251694455742836,
      "step": 463
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 1.4431640625,
      "learning_rate": 9.853791972480445e-05,
      "loss": 6.733,
      "loss/crossentropy": 1.7563574463129044,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1708853840827942,
      "step": 464
    },
    {
      "epoch": 0.0775,
      "grad_norm": 32.0,
      "grad_norm_var": 1.6212890625,
      "learning_rate": 9.853162835172637e-05,
      "loss": 6.8478,
      "loss/crossentropy": 1.4509409219026566,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14121680706739426,
      "step": 465
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 29.75,
      "grad_norm_var": 1.6268229166666666,
      "learning_rate": 9.852532367342713e-05,
      "loss": 7.066,
      "loss/crossentropy": 2.1067994236946106,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24858925491571426,
      "step": 466
    },
    {
      "epoch": 0.07783333333333334,
      "grad_norm": 32.0,
      "grad_norm_var": 1.84765625,
      "learning_rate": 9.851900569163519e-05,
      "loss": 7.0774,
      "loss/crossentropy": 1.1014457046985626,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1381321232765913,
      "step": 467
    },
    {
      "epoch": 0.078,
      "grad_norm": 30.25,
      "grad_norm_var": 1.5684895833333334,
      "learning_rate": 9.851267440808265e-05,
      "loss": 6.965,
      "loss/crossentropy": 1.9848509430885315,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15665691532194614,
      "step": 468
    },
    {
      "epoch": 0.07816666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 1.5780598958333334,
      "learning_rate": 9.85063298245053e-05,
      "loss": 7.4537,
      "loss/crossentropy": 1.7907701879739761,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3415554091334343,
      "step": 469
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 1.7489583333333334,
      "learning_rate": 9.84999719426425e-05,
      "loss": 7.0107,
      "loss/crossentropy": 1.4050543904304504,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2011774256825447,
      "step": 470
    },
    {
      "epoch": 0.0785,
      "grad_norm": 29.0,
      "grad_norm_var": 1.8747395833333333,
      "learning_rate": 9.849360076423734e-05,
      "loss": 6.8379,
      "loss/crossentropy": 1.291910782456398,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23814310878515244,
      "step": 471
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 28.5,
      "grad_norm_var": 1.6125,
      "learning_rate": 9.84872162910365e-05,
      "loss": 7.0224,
      "loss/crossentropy": 1.6638221144676208,
      "loss/hidden": 3.80078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2528918646275997,
      "step": 472
    },
    {
      "epoch": 0.07883333333333334,
      "grad_norm": 31.125,
      "grad_norm_var": 1.440625,
      "learning_rate": 9.84808185247903e-05,
      "loss": 7.0542,
      "loss/crossentropy": 1.4460849463939667,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24226966872811317,
      "step": 473
    },
    {
      "epoch": 0.079,
      "grad_norm": 33.75,
      "grad_norm_var": 2.116080729166667,
      "learning_rate": 9.847440746725275e-05,
      "loss": 6.921,
      "loss/crossentropy": 1.8123798668384552,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.191888689994812,
      "step": 474
    },
    {
      "epoch": 0.07916666666666666,
      "grad_norm": 33.75,
      "grad_norm_var": 2.6979166666666665,
      "learning_rate": 9.846798312018146e-05,
      "loss": 7.5232,
      "loss/crossentropy": 1.6415761709213257,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24300210550427437,
      "step": 475
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 31.625,
      "grad_norm_var": 2.725455729166667,
      "learning_rate": 9.846154548533773e-05,
      "loss": 7.0933,
      "loss/crossentropy": 1.9737498462200165,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20842399820685387,
      "step": 476
    },
    {
      "epoch": 0.0795,
      "grad_norm": 33.0,
      "grad_norm_var": 2.8643229166666666,
      "learning_rate": 9.845509456448643e-05,
      "loss": 6.9684,
      "loss/crossentropy": 1.5572169423103333,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19147998467087746,
      "step": 477
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 30.375,
      "grad_norm_var": 2.6645182291666667,
      "learning_rate": 9.844863035939615e-05,
      "loss": 6.9128,
      "loss/crossentropy": 1.906806856393814,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15526464208960533,
      "step": 478
    },
    {
      "epoch": 0.07983333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 2.76640625,
      "learning_rate": 9.844215287183909e-05,
      "loss": 7.2578,
      "loss/crossentropy": 1.443288266658783,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16811441257596016,
      "step": 479
    },
    {
      "epoch": 0.08,
      "grad_norm": 30.375,
      "grad_norm_var": 2.674934895833333,
      "learning_rate": 9.843566210359106e-05,
      "loss": 7.1386,
      "loss/crossentropy": 2.162033826112747,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22076943516731262,
      "step": 480
    },
    {
      "epoch": 0.08016666666666666,
      "grad_norm": 28.875,
      "grad_norm_var": 2.943489583333333,
      "learning_rate": 9.842915805643155e-05,
      "loss": 6.9895,
      "loss/crossentropy": 1.6815131306648254,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1633237786591053,
      "step": 481
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 2.8374348958333333,
      "learning_rate": 9.842264073214371e-05,
      "loss": 6.6895,
      "loss/crossentropy": 1.4824548959732056,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20978729613125324,
      "step": 482
    },
    {
      "epoch": 0.0805,
      "grad_norm": 29.5,
      "grad_norm_var": 2.912955729166667,
      "learning_rate": 9.841611013251429e-05,
      "loss": 6.8164,
      "loss/crossentropy": 1.4602741301059723,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17982185631990433,
      "step": 483
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 29.125,
      "grad_norm_var": 3.0893229166666667,
      "learning_rate": 9.840956625933367e-05,
      "loss": 6.8987,
      "loss/crossentropy": 1.7982778251171112,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1877780705690384,
      "step": 484
    },
    {
      "epoch": 0.08083333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 3.4666015625,
      "learning_rate": 9.840300911439591e-05,
      "loss": 6.735,
      "loss/crossentropy": 1.3495407849550247,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15540699288249016,
      "step": 485
    },
    {
      "epoch": 0.081,
      "grad_norm": 34.25,
      "grad_norm_var": 3.9509765625,
      "learning_rate": 9.839643869949866e-05,
      "loss": 7.5219,
      "loss/crossentropy": 1.48193821310997,
      "loss/hidden": 3.77734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577380947768688,
      "step": 486
    },
    {
      "epoch": 0.08116666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 3.9509765625,
      "learning_rate": 9.838985501644328e-05,
      "loss": 6.7139,
      "loss/crossentropy": 1.7966694235801697,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1714860461652279,
      "step": 487
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 3.7603515625,
      "learning_rate": 9.83832580670347e-05,
      "loss": 7.1478,
      "loss/crossentropy": 1.7598281800746918,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23178521916270256,
      "step": 488
    },
    {
      "epoch": 0.0815,
      "grad_norm": 27.0,
      "grad_norm_var": 4.64765625,
      "learning_rate": 9.837664785308149e-05,
      "loss": 6.5713,
      "loss/crossentropy": 1.6064825356006622,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1570918019860983,
      "step": 489
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 3.9181640625,
      "learning_rate": 9.837002437639593e-05,
      "loss": 6.8044,
      "loss/crossentropy": 1.4402455165982246,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23276809975504875,
      "step": 490
    },
    {
      "epoch": 0.08183333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 3.1497395833333335,
      "learning_rate": 9.836338763879385e-05,
      "loss": 6.35,
      "loss/crossentropy": 1.475183218717575,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15859464183449745,
      "step": 491
    },
    {
      "epoch": 0.082,
      "grad_norm": 31.0,
      "grad_norm_var": 3.0426432291666665,
      "learning_rate": 9.835673764209474e-05,
      "loss": 7.1277,
      "loss/crossentropy": 1.522533044219017,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.31567465886473656,
      "step": 492
    },
    {
      "epoch": 0.08216666666666667,
      "grad_norm": 27.0,
      "grad_norm_var": 2.8988932291666667,
      "learning_rate": 9.835007438812177e-05,
      "loss": 6.6873,
      "loss/crossentropy": 2.2898610830307007,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1842830590903759,
      "step": 493
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 32.75,
      "grad_norm_var": 3.486458333333333,
      "learning_rate": 9.834339787870166e-05,
      "loss": 7.2161,
      "loss/crossentropy": 1.3005068749189377,
      "loss/hidden": 3.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24435850605368614,
      "step": 494
    },
    {
      "epoch": 0.0825,
      "grad_norm": 31.0,
      "grad_norm_var": 3.5759765625,
      "learning_rate": 9.833670811566485e-05,
      "loss": 6.838,
      "loss/crossentropy": 1.2712122946977615,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13630807399749756,
      "step": 495
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 3.596809895833333,
      "learning_rate": 9.833000510084537e-05,
      "loss": 6.9043,
      "loss/crossentropy": 1.7596306204795837,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14436211995780468,
      "step": 496
    },
    {
      "epoch": 0.08283333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 3.5552083333333333,
      "learning_rate": 9.832328883608088e-05,
      "loss": 6.6913,
      "loss/crossentropy": 1.151959091424942,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13815506733953953,
      "step": 497
    },
    {
      "epoch": 0.083,
      "grad_norm": 30.5,
      "grad_norm_var": 3.5155598958333334,
      "learning_rate": 9.83165593232127e-05,
      "loss": 6.9965,
      "loss/crossentropy": 1.3583546876907349,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16475296951830387,
      "step": 498
    },
    {
      "epoch": 0.08316666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 3.51015625,
      "learning_rate": 9.830981656408574e-05,
      "loss": 6.7634,
      "loss/crossentropy": 1.8273972570896149,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17411424219608307,
      "step": 499
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 3.480208333333333,
      "learning_rate": 9.830306056054858e-05,
      "loss": 6.4987,
      "loss/crossentropy": 1.2338118851184845,
      "loss/hidden": 3.75,
      "loss/jsd": 0.0,
      "loss/logits": 0.30939680337905884,
      "step": 500
    },
    {
      "epoch": 0.0835,
      "grad_norm": 30.375,
      "grad_norm_var": 3.3052083333333333,
      "learning_rate": 9.829629131445342e-05,
      "loss": 7.0907,
      "loss/crossentropy": 1.6119868755340576,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2798030972480774,
      "step": 501
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 29.0,
      "grad_norm_var": 2.1184895833333335,
      "learning_rate": 9.828950882765608e-05,
      "loss": 6.2711,
      "loss/crossentropy": 1.2915617376565933,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13018281571567059,
      "step": 502
    },
    {
      "epoch": 0.08383333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 2.1837890625,
      "learning_rate": 9.828271310201601e-05,
      "loss": 7.0456,
      "loss/crossentropy": 1.2496111392974854,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14296716824173927,
      "step": 503
    },
    {
      "epoch": 0.084,
      "grad_norm": 30.75,
      "grad_norm_var": 2.1947265625,
      "learning_rate": 9.827590413939632e-05,
      "loss": 6.7848,
      "loss/crossentropy": 1.1799578815698624,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21814516186714172,
      "step": 504
    },
    {
      "epoch": 0.08416666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 1.8910807291666667,
      "learning_rate": 9.82690819416637e-05,
      "loss": 7.0063,
      "loss/crossentropy": 2.227379620075226,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2798748090863228,
      "step": 505
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 1.8910807291666667,
      "learning_rate": 9.826224651068852e-05,
      "loss": 6.9504,
      "loss/crossentropy": 1.7532093524932861,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20848191529512405,
      "step": 506
    },
    {
      "epoch": 0.0845,
      "grad_norm": 31.125,
      "grad_norm_var": 1.8181640625,
      "learning_rate": 9.825539784834472e-05,
      "loss": 7.0495,
      "loss/crossentropy": 1.6463024020195007,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18096379563212395,
      "step": 507
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 1.8697265625,
      "learning_rate": 9.824853595650991e-05,
      "loss": 6.4,
      "loss/crossentropy": 1.6303430795669556,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16679994016885757,
      "step": 508
    },
    {
      "epoch": 0.08483333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 1.34765625,
      "learning_rate": 9.824166083706534e-05,
      "loss": 6.1906,
      "loss/crossentropy": 1.5004529505968094,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18870088830590248,
      "step": 509
    },
    {
      "epoch": 0.085,
      "grad_norm": 28.875,
      "grad_norm_var": 1.1639973958333334,
      "learning_rate": 9.823477249189586e-05,
      "loss": 6.8114,
      "loss/crossentropy": 1.3908627331256866,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15263560600578785,
      "step": 510
    },
    {
      "epoch": 0.08516666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 1.3622395833333334,
      "learning_rate": 9.822787092288991e-05,
      "loss": 6.8574,
      "loss/crossentropy": 2.0620186924934387,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27069373801350594,
      "step": 511
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 1.4686848958333334,
      "learning_rate": 9.822095613193962e-05,
      "loss": 7.0702,
      "loss/crossentropy": 1.7053555250167847,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1921213436871767,
      "step": 512
    },
    {
      "epoch": 0.0855,
      "grad_norm": 30.125,
      "grad_norm_var": 1.42265625,
      "learning_rate": 9.821402812094073e-05,
      "loss": 6.8986,
      "loss/crossentropy": 1.9131797850131989,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14682536479085684,
      "step": 513
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 1.7052083333333334,
      "learning_rate": 9.820708689179259e-05,
      "loss": 6.9649,
      "loss/crossentropy": 1.5448258519172668,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14751841872930527,
      "step": 514
    },
    {
      "epoch": 0.08583333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 1.7052083333333334,
      "learning_rate": 9.820013244639816e-05,
      "loss": 6.9054,
      "loss/crossentropy": 0.8975181132555008,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09918954316526651,
      "step": 515
    },
    {
      "epoch": 0.086,
      "grad_norm": 28.25,
      "grad_norm_var": 1.9431640625,
      "learning_rate": 9.819316478666405e-05,
      "loss": 6.7323,
      "loss/crossentropy": 1.1570946723222733,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17046009004116058,
      "step": 516
    },
    {
      "epoch": 0.08616666666666667,
      "grad_norm": 28.5,
      "grad_norm_var": 2.090625,
      "learning_rate": 9.81861839145005e-05,
      "loss": 6.6729,
      "loss/crossentropy": 1.2703944444656372,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17309994250535965,
      "step": 517
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 2.3309895833333334,
      "learning_rate": 9.817918983182132e-05,
      "loss": 7.2607,
      "loss/crossentropy": 1.4812899976968765,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20999731495976448,
      "step": 518
    },
    {
      "epoch": 0.0865,
      "grad_norm": 29.25,
      "grad_norm_var": 2.3124348958333334,
      "learning_rate": 9.8172182540544e-05,
      "loss": 7.0058,
      "loss/crossentropy": 1.1661194860935211,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1877425778657198,
      "step": 519
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 2.3583333333333334,
      "learning_rate": 9.816516204258963e-05,
      "loss": 6.9387,
      "loss/crossentropy": 1.927243947982788,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16112736612558365,
      "step": 520
    },
    {
      "epoch": 0.08683333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 1.8994140625,
      "learning_rate": 9.815812833988291e-05,
      "loss": 6.8382,
      "loss/crossentropy": 1.5174863189458847,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17156189493834972,
      "step": 521
    },
    {
      "epoch": 0.087,
      "grad_norm": 30.25,
      "grad_norm_var": 1.890625,
      "learning_rate": 9.815108143435218e-05,
      "loss": 6.6661,
      "loss/crossentropy": 1.4303490817546844,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21909217163920403,
      "step": 522
    },
    {
      "epoch": 0.08716666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 1.9139973958333334,
      "learning_rate": 9.814402132792939e-05,
      "loss": 7.4279,
      "loss/crossentropy": 1.4629042595624924,
      "loss/hidden": 3.74609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19645161274820566,
      "step": 523
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 31.625,
      "grad_norm_var": 1.9434895833333334,
      "learning_rate": 9.81369480225501e-05,
      "loss": 7.3962,
      "loss/crossentropy": 1.8141767233610153,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2287716306746006,
      "step": 524
    },
    {
      "epoch": 0.0875,
      "grad_norm": 28.0,
      "grad_norm_var": 2.0233723958333334,
      "learning_rate": 9.812986152015348e-05,
      "loss": 6.9655,
      "loss/crossentropy": 1.3640852272510529,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14019519835710526,
      "step": 525
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 1.99375,
      "learning_rate": 9.812276182268236e-05,
      "loss": 7.3055,
      "loss/crossentropy": 1.4165369719266891,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15033666044473648,
      "step": 526
    },
    {
      "epoch": 0.08783333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 2.4056640625,
      "learning_rate": 9.811564893208318e-05,
      "loss": 6.8433,
      "loss/crossentropy": 1.1786036044359207,
      "loss/hidden": 3.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16844666376709938,
      "step": 527
    },
    {
      "epoch": 0.088,
      "grad_norm": 32.25,
      "grad_norm_var": 2.5113932291666665,
      "learning_rate": 9.810852285030593e-05,
      "loss": 6.9332,
      "loss/crossentropy": 1.6334620118141174,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21338831633329391,
      "step": 528
    },
    {
      "epoch": 0.08816666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 2.5113932291666665,
      "learning_rate": 9.81013835793043e-05,
      "loss": 6.9617,
      "loss/crossentropy": 1.8668213188648224,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1473287157714367,
      "step": 529
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 31.5,
      "grad_norm_var": 2.3598307291666667,
      "learning_rate": 9.809423112103554e-05,
      "loss": 7.1205,
      "loss/crossentropy": 1.5200925767421722,
      "loss/hidden": 3.76953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22000214457511902,
      "step": 530
    },
    {
      "epoch": 0.0885,
      "grad_norm": 30.625,
      "grad_norm_var": 2.3275390625,
      "learning_rate": 9.808706547746057e-05,
      "loss": 6.9948,
      "loss/crossentropy": 1.4339255094528198,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16505714319646358,
      "step": 531
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 2.403059895833333,
      "learning_rate": 9.807988665054386e-05,
      "loss": 6.8232,
      "loss/crossentropy": 2.044094979763031,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17992260307073593,
      "step": 532
    },
    {
      "epoch": 0.08883333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 2.1660807291666666,
      "learning_rate": 9.807269464225355e-05,
      "loss": 7.3613,
      "loss/crossentropy": 1.8550164997577667,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18196892365813255,
      "step": 533
    },
    {
      "epoch": 0.089,
      "grad_norm": 31.0,
      "grad_norm_var": 1.9785807291666666,
      "learning_rate": 9.806548945456134e-05,
      "loss": 6.6134,
      "loss/crossentropy": 1.6432620882987976,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13885372690856457,
      "step": 534
    },
    {
      "epoch": 0.08916666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 1.959375,
      "learning_rate": 9.80582710894426e-05,
      "loss": 6.7517,
      "loss/crossentropy": 1.702562391757965,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17485880386084318,
      "step": 535
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 1.9541015625,
      "learning_rate": 9.805103954887627e-05,
      "loss": 7.1787,
      "loss/crossentropy": 1.9431041926145554,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1696106381714344,
      "step": 536
    },
    {
      "epoch": 0.0895,
      "grad_norm": 31.25,
      "grad_norm_var": 1.95,
      "learning_rate": 9.804379483484494e-05,
      "loss": 7.5377,
      "loss/crossentropy": 1.7971654832363129,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30418267473578453,
      "step": 537
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 2.190625,
      "learning_rate": 9.803653694933476e-05,
      "loss": 7.3215,
      "loss/crossentropy": 1.9498747289180756,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19328440725803375,
      "step": 538
    },
    {
      "epoch": 0.08983333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 2.3046223958333334,
      "learning_rate": 9.802926589433553e-05,
      "loss": 6.5449,
      "loss/crossentropy": 1.51683808863163,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20039740949869156,
      "step": 539
    },
    {
      "epoch": 0.09,
      "grad_norm": 29.0,
      "grad_norm_var": 2.349739583333333,
      "learning_rate": 9.802198167184067e-05,
      "loss": 6.3769,
      "loss/crossentropy": 1.4991832077503204,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.14776822179555893,
      "step": 540
    },
    {
      "epoch": 0.09016666666666667,
      "grad_norm": 34.25,
      "grad_norm_var": 2.825,
      "learning_rate": 9.801468428384716e-05,
      "loss": 6.9081,
      "loss/crossentropy": 1.2094965279102325,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15462427772581577,
      "step": 541
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 31.25,
      "grad_norm_var": 2.83515625,
      "learning_rate": 9.800737373235565e-05,
      "loss": 6.8153,
      "loss/crossentropy": 1.5440810024738312,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18239294737577438,
      "step": 542
    },
    {
      "epoch": 0.0905,
      "grad_norm": 28.125,
      "grad_norm_var": 2.8884765625,
      "learning_rate": 9.800005001937034e-05,
      "loss": 6.9232,
      "loss/crossentropy": 1.8635855913162231,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21322701126337051,
      "step": 543
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 31.5,
      "grad_norm_var": 2.7478515625,
      "learning_rate": 9.799271314689908e-05,
      "loss": 7.2039,
      "loss/crossentropy": 1.5228805541992188,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2353954017162323,
      "step": 544
    },
    {
      "epoch": 0.09083333333333334,
      "grad_norm": 34.25,
      "grad_norm_var": 3.63515625,
      "learning_rate": 9.798536311695334e-05,
      "loss": 6.512,
      "loss/crossentropy": 1.5062799155712128,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1575067937374115,
      "step": 545
    },
    {
      "epoch": 0.091,
      "grad_norm": 30.75,
      "grad_norm_var": 3.590625,
      "learning_rate": 9.797799993154814e-05,
      "loss": 7.3783,
      "loss/crossentropy": 1.3743330240249634,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14204004779458046,
      "step": 546
    },
    {
      "epoch": 0.09116666666666666,
      "grad_norm": 28.75,
      "grad_norm_var": 3.8181640625,
      "learning_rate": 9.797062359270215e-05,
      "loss": 6.4564,
      "loss/crossentropy": 1.2686700522899628,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11861040443181992,
      "step": 547
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 3.361458333333333,
      "learning_rate": 9.796323410243763e-05,
      "loss": 6.7514,
      "loss/crossentropy": 1.763284057378769,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16353006660938263,
      "step": 548
    },
    {
      "epoch": 0.0915,
      "grad_norm": 31.0,
      "grad_norm_var": 3.361458333333333,
      "learning_rate": 9.795583146278046e-05,
      "loss": 7.052,
      "loss/crossentropy": 1.4608117491006851,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1339084878563881,
      "step": 549
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 30.375,
      "grad_norm_var": 3.362434895833333,
      "learning_rate": 9.794841567576011e-05,
      "loss": 7.4853,
      "loss/crossentropy": 1.9210692346096039,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3668474480509758,
      "step": 550
    },
    {
      "epoch": 0.09183333333333334,
      "grad_norm": 31.5,
      "grad_norm_var": 3.275,
      "learning_rate": 9.794098674340965e-05,
      "loss": 7.2024,
      "loss/crossentropy": 1.3585729598999023,
      "loss/hidden": 3.67578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17329660430550575,
      "step": 551
    },
    {
      "epoch": 0.092,
      "grad_norm": 27.0,
      "grad_norm_var": 3.99140625,
      "learning_rate": 9.793354466776579e-05,
      "loss": 6.6092,
      "loss/crossentropy": 1.609390527009964,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24672024510800838,
      "step": 552
    },
    {
      "epoch": 0.09216666666666666,
      "grad_norm": 31.25,
      "grad_norm_var": 3.99140625,
      "learning_rate": 9.79260894508688e-05,
      "loss": 7.04,
      "loss/crossentropy": 1.8825242817401886,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19359325990080833,
      "step": 553
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 29.5,
      "grad_norm_var": 3.853125,
      "learning_rate": 9.791862109476257e-05,
      "loss": 6.8277,
      "loss/crossentropy": 1.3447879999876022,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13356898352503777,
      "step": 554
    },
    {
      "epoch": 0.0925,
      "grad_norm": 28.625,
      "grad_norm_var": 3.9625,
      "learning_rate": 9.791113960149458e-05,
      "loss": 6.8456,
      "loss/crossentropy": 1.9514881372451782,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21370084583759308,
      "step": 555
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 3.9625,
      "learning_rate": 9.790364497311597e-05,
      "loss": 6.7079,
      "loss/crossentropy": 1.3238005712628365,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12908729072660208,
      "step": 556
    },
    {
      "epoch": 0.09283333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 2.978125,
      "learning_rate": 9.789613721168139e-05,
      "loss": 6.6304,
      "loss/crossentropy": 1.558670699596405,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13811413943767548,
      "step": 557
    },
    {
      "epoch": 0.093,
      "grad_norm": 32.5,
      "grad_norm_var": 3.24765625,
      "learning_rate": 9.788861631924913e-05,
      "loss": 7.1054,
      "loss/crossentropy": 2.224619686603546,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21757641062140465,
      "step": 558
    },
    {
      "epoch": 0.09316666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 2.9184895833333333,
      "learning_rate": 9.788108229788111e-05,
      "loss": 7.1799,
      "loss/crossentropy": 1.8788108825683594,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18427220731973648,
      "step": 559
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 2.8530598958333333,
      "learning_rate": 9.787353514964284e-05,
      "loss": 7.0331,
      "loss/crossentropy": 1.7641720548272133,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19019095040857792,
      "step": 560
    },
    {
      "epoch": 0.0935,
      "grad_norm": 26.375,
      "grad_norm_var": 2.6684895833333333,
      "learning_rate": 9.786597487660337e-05,
      "loss": 6.7162,
      "loss/crossentropy": 1.8242340385913849,
      "loss/hidden": 3.73046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25750827230513096,
      "step": 561
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 29.875,
      "grad_norm_var": 2.616080729166667,
      "learning_rate": 9.785840148083543e-05,
      "loss": 6.7623,
      "loss/crossentropy": 1.6919041872024536,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13569016009569168,
      "step": 562
    },
    {
      "epoch": 0.09383333333333334,
      "grad_norm": 30.75,
      "grad_norm_var": 2.5764973958333335,
      "learning_rate": 9.785081496441527e-05,
      "loss": 7.2596,
      "loss/crossentropy": 1.72784423828125,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19006014801561832,
      "step": 563
    },
    {
      "epoch": 0.094,
      "grad_norm": 28.5,
      "grad_norm_var": 2.6395833333333334,
      "learning_rate": 9.784321532942282e-05,
      "loss": 6.6004,
      "loss/crossentropy": 1.566937267780304,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1701590158045292,
      "step": 564
    },
    {
      "epoch": 0.09416666666666666,
      "grad_norm": 30.25,
      "grad_norm_var": 2.5559895833333335,
      "learning_rate": 9.783560257794154e-05,
      "loss": 7.1836,
      "loss/crossentropy": 1.3668065667152405,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1645987294614315,
      "step": 565
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 31.625,
      "grad_norm_var": 2.7552083333333335,
      "learning_rate": 9.78279767120585e-05,
      "loss": 7.1728,
      "loss/crossentropy": 1.3751739487051964,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1458847690373659,
      "step": 566
    },
    {
      "epoch": 0.0945,
      "grad_norm": 30.25,
      "grad_norm_var": 2.5768229166666665,
      "learning_rate": 9.782033773386439e-05,
      "loss": 7.1971,
      "loss/crossentropy": 1.93217933177948,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2505273334681988,
      "step": 567
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 29.125,
      "grad_norm_var": 2.075455729166667,
      "learning_rate": 9.781268564545348e-05,
      "loss": 6.9163,
      "loss/crossentropy": 1.3366051390767097,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2988725043833256,
      "step": 568
    },
    {
      "epoch": 0.09483333333333334,
      "grad_norm": 27.875,
      "grad_norm_var": 2.1791666666666667,
      "learning_rate": 9.780502044892362e-05,
      "loss": 6.5801,
      "loss/crossentropy": 1.4976085722446442,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14795389771461487,
      "step": 569
    },
    {
      "epoch": 0.095,
      "grad_norm": 27.625,
      "grad_norm_var": 2.4457682291666667,
      "learning_rate": 9.779734214637628e-05,
      "loss": 6.4807,
      "loss/crossentropy": 1.67276331782341,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15900277346372604,
      "step": 570
    },
    {
      "epoch": 0.09516666666666666,
      "grad_norm": 30.625,
      "grad_norm_var": 2.4436848958333335,
      "learning_rate": 9.778965073991651e-05,
      "loss": 6.9812,
      "loss/crossentropy": 1.4228438585996628,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1732054352760315,
      "step": 571
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 29.5,
      "grad_norm_var": 2.412955729166667,
      "learning_rate": 9.778194623165296e-05,
      "loss": 6.6781,
      "loss/crossentropy": 1.465393453836441,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16653447039425373,
      "step": 572
    },
    {
      "epoch": 0.0955,
      "grad_norm": 30.125,
      "grad_norm_var": 2.4229166666666666,
      "learning_rate": 9.777422862369783e-05,
      "loss": 6.727,
      "loss/crossentropy": 1.8058487474918365,
      "loss/hidden": 3.72265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22924640774726868,
      "step": 573
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 30.5,
      "grad_norm_var": 1.9395833333333334,
      "learning_rate": 9.776649791816698e-05,
      "loss": 7.5235,
      "loss/crossentropy": 1.7399717271327972,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19607891328632832,
      "step": 574
    },
    {
      "epoch": 0.09583333333333334,
      "grad_norm": 30.25,
      "grad_norm_var": 1.9488932291666667,
      "learning_rate": 9.77587541171798e-05,
      "loss": 7.0177,
      "loss/crossentropy": 1.519953191280365,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15953503549098969,
      "step": 575
    },
    {
      "epoch": 0.096,
      "grad_norm": 30.125,
      "grad_norm_var": 1.8598307291666667,
      "learning_rate": 9.775099722285935e-05,
      "loss": 7.1901,
      "loss/crossentropy": 1.9360006749629974,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17414483055472374,
      "step": 576
    },
    {
      "epoch": 0.09616666666666666,
      "grad_norm": 31.5,
      "grad_norm_var": 1.3072916666666667,
      "learning_rate": 9.774322723733216e-05,
      "loss": 7.2844,
      "loss/crossentropy": 1.4809782207012177,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16507546417415142,
      "step": 577
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 1.3739583333333334,
      "learning_rate": 9.773544416272845e-05,
      "loss": 6.9057,
      "loss/crossentropy": 1.7025932371616364,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2140498273074627,
      "step": 578
    },
    {
      "epoch": 0.0965,
      "grad_norm": 35.5,
      "grad_norm_var": 3.3580729166666665,
      "learning_rate": 9.772764800118199e-05,
      "loss": 6.8644,
      "loss/crossentropy": 1.443876400589943,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23979828134179115,
      "step": 579
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 31.75,
      "grad_norm_var": 3.3072916666666665,
      "learning_rate": 9.771983875483013e-05,
      "loss": 7.0165,
      "loss/crossentropy": 1.5318384170532227,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1742076575756073,
      "step": 580
    },
    {
      "epoch": 0.09683333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 3.7291666666666665,
      "learning_rate": 9.771201642581385e-05,
      "loss": 6.9728,
      "loss/crossentropy": 2.00956591963768,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17072244361042976,
      "step": 581
    },
    {
      "epoch": 0.097,
      "grad_norm": 29.625,
      "grad_norm_var": 3.595833333333333,
      "learning_rate": 9.770418101627765e-05,
      "loss": 7.431,
      "loss/crossentropy": 2.0086843073368073,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20463511534035206,
      "step": 582
    },
    {
      "epoch": 0.09716666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 3.698958333333333,
      "learning_rate": 9.769633252836969e-05,
      "loss": 6.8939,
      "loss/crossentropy": 1.2146107405424118,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15556911751627922,
      "step": 583
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 3.937239583333333,
      "learning_rate": 9.768847096424164e-05,
      "loss": 6.6847,
      "loss/crossentropy": 1.3093099147081375,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1486276388168335,
      "step": 584
    },
    {
      "epoch": 0.0975,
      "grad_norm": 31.375,
      "grad_norm_var": 3.7622395833333333,
      "learning_rate": 9.76805963260488e-05,
      "loss": 6.9212,
      "loss/crossentropy": 1.5321282744407654,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18583380058407784,
      "step": 585
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 3.323372395833333,
      "learning_rate": 9.767270861595005e-05,
      "loss": 6.6329,
      "loss/crossentropy": 1.4445045590400696,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14285002881661057,
      "step": 586
    },
    {
      "epoch": 0.09783333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 3.393684895833333,
      "learning_rate": 9.766480783610788e-05,
      "loss": 6.4554,
      "loss/crossentropy": 1.6248749047517776,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1326998956501484,
      "step": 587
    },
    {
      "epoch": 0.098,
      "grad_norm": 29.0,
      "grad_norm_var": 3.4546223958333333,
      "learning_rate": 9.765689398868831e-05,
      "loss": 6.8885,
      "loss/crossentropy": 1.5625443756580353,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19499482214450836,
      "step": 588
    },
    {
      "epoch": 0.09816666666666667,
      "grad_norm": 31.125,
      "grad_norm_var": 3.5139973958333335,
      "learning_rate": 9.764896707586096e-05,
      "loss": 7.162,
      "loss/crossentropy": 1.857871800661087,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18508696928620338,
      "step": 589
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 33.25,
      "grad_norm_var": 4.092643229166667,
      "learning_rate": 9.764102709979902e-05,
      "loss": 6.9312,
      "loss/crossentropy": 1.6804062724113464,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15879181027412415,
      "step": 590
    },
    {
      "epoch": 0.0985,
      "grad_norm": 29.625,
      "grad_norm_var": 4.128125,
      "learning_rate": 9.763307406267932e-05,
      "loss": 6.902,
      "loss/crossentropy": 1.4155396074056625,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17896759510040283,
      "step": 591
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 4.225,
      "learning_rate": 9.76251079666822e-05,
      "loss": 7.221,
      "loss/crossentropy": 1.1623346209526062,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11757522448897362,
      "step": 592
    },
    {
      "epoch": 0.09883333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 4.148372395833333,
      "learning_rate": 9.761712881399164e-05,
      "loss": 6.7943,
      "loss/crossentropy": 1.711197167634964,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20673281326889992,
      "step": 593
    },
    {
      "epoch": 0.099,
      "grad_norm": 29.75,
      "grad_norm_var": 4.023958333333334,
      "learning_rate": 9.760913660679515e-05,
      "loss": 6.6294,
      "loss/crossentropy": 1.412598729133606,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3168126614764333,
      "step": 594
    },
    {
      "epoch": 0.09916666666666667,
      "grad_norm": 29.0,
      "grad_norm_var": 2.25,
      "learning_rate": 9.760113134728384e-05,
      "loss": 6.8201,
      "loss/crossentropy": 1.5064578652381897,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24883772060275078,
      "step": 595
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 2.0809895833333334,
      "learning_rate": 9.75931130376524e-05,
      "loss": 6.7601,
      "loss/crossentropy": 1.9312743097543716,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19404222816228867,
      "step": 596
    },
    {
      "epoch": 0.0995,
      "grad_norm": 30.25,
      "grad_norm_var": 1.77890625,
      "learning_rate": 9.75850816800991e-05,
      "loss": 7.3074,
      "loss/crossentropy": 1.9680878818035126,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2916663810610771,
      "step": 597
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 1.7733723958333334,
      "learning_rate": 9.757703727682574e-05,
      "loss": 6.8996,
      "loss/crossentropy": 1.8550788760185242,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1608690246939659,
      "step": 598
    },
    {
      "epoch": 0.09983333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 1.6676432291666667,
      "learning_rate": 9.756897983003781e-05,
      "loss": 6.9309,
      "loss/crossentropy": 1.9774325788021088,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1924036145210266,
      "step": 599
    },
    {
      "epoch": 0.1,
      "grad_norm": 30.125,
      "grad_norm_var": 1.3067057291666666,
      "learning_rate": 9.756090934194427e-05,
      "loss": 7.0654,
      "loss/crossentropy": 1.9172890186309814,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17722957953810692,
      "step": 600
    },
    {
      "epoch": 0.10016666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 1.2330729166666667,
      "learning_rate": 9.755282581475769e-05,
      "loss": 6.8526,
      "loss/crossentropy": 1.6295377165079117,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15426835790276527,
      "step": 601
    },
    {
      "epoch": 0.10033333333333333,
      "grad_norm": 27.375,
      "grad_norm_var": 1.7197265625,
      "learning_rate": 9.75447292506942e-05,
      "loss": 6.655,
      "loss/crossentropy": 1.492895856499672,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13759666681289673,
      "step": 602
    },
    {
      "epoch": 0.1005,
      "grad_norm": 30.25,
      "grad_norm_var": 1.66875,
      "learning_rate": 9.753661965197354e-05,
      "loss": 6.9816,
      "loss/crossentropy": 1.730408102273941,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20357651636004448,
      "step": 603
    },
    {
      "epoch": 0.10066666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 1.6046223958333334,
      "learning_rate": 9.752849702081901e-05,
      "loss": 7.0638,
      "loss/crossentropy": 1.7239017188549042,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1713139358907938,
      "step": 604
    },
    {
      "epoch": 0.10083333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 1.72890625,
      "learning_rate": 9.752036135945744e-05,
      "loss": 6.9032,
      "loss/crossentropy": 1.9123197048902512,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.166269407607615,
      "step": 605
    },
    {
      "epoch": 0.101,
      "grad_norm": 31.625,
      "grad_norm_var": 1.1728515625,
      "learning_rate": 9.751221267011929e-05,
      "loss": 7.1609,
      "loss/crossentropy": 2.311406910419464,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22842303290963173,
      "step": 606
    },
    {
      "epoch": 0.10116666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 1.2093098958333333,
      "learning_rate": 9.750405095503859e-05,
      "loss": 6.8101,
      "loss/crossentropy": 1.530705913901329,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22688306868076324,
      "step": 607
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 33.0,
      "grad_norm_var": 1.646875,
      "learning_rate": 9.749587621645288e-05,
      "loss": 7.5102,
      "loss/crossentropy": 1.8076139986515045,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30030296742916107,
      "step": 608
    },
    {
      "epoch": 0.1015,
      "grad_norm": 28.375,
      "grad_norm_var": 1.8018229166666666,
      "learning_rate": 9.748768845660334e-05,
      "loss": 6.7849,
      "loss/crossentropy": 1.4822484999895096,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1463693156838417,
      "step": 609
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 1.87890625,
      "learning_rate": 9.74794876777347e-05,
      "loss": 6.8185,
      "loss/crossentropy": 1.566762924194336,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1515646893531084,
      "step": 610
    },
    {
      "epoch": 0.10183333333333333,
      "grad_norm": 28.625,
      "grad_norm_var": 1.9275390625,
      "learning_rate": 9.74712738820952e-05,
      "loss": 6.5295,
      "loss/crossentropy": 1.6448956429958344,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21347195468842983,
      "step": 611
    },
    {
      "epoch": 0.102,
      "grad_norm": 31.25,
      "grad_norm_var": 2.0119140625,
      "learning_rate": 9.746304707193675e-05,
      "loss": 7.4048,
      "loss/crossentropy": 1.5197457373142242,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21838144212961197,
      "step": 612
    },
    {
      "epoch": 0.10216666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 2.14765625,
      "learning_rate": 9.745480724951473e-05,
      "loss": 6.4885,
      "loss/crossentropy": 2.393069565296173,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19103804975748062,
      "step": 613
    },
    {
      "epoch": 0.10233333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 2.5184895833333334,
      "learning_rate": 9.744655441708818e-05,
      "loss": 7.4833,
      "loss/crossentropy": 1.794210433959961,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2325542066246271,
      "step": 614
    },
    {
      "epoch": 0.1025,
      "grad_norm": 28.375,
      "grad_norm_var": 2.6369140625,
      "learning_rate": 9.743828857691963e-05,
      "loss": 6.4373,
      "loss/crossentropy": 1.2132785096764565,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12143177725374699,
      "step": 615
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 2.62890625,
      "learning_rate": 9.743000973127523e-05,
      "loss": 7.0124,
      "loss/crossentropy": 1.3035457134246826,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1357813635841012,
      "step": 616
    },
    {
      "epoch": 0.10283333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 2.6625,
      "learning_rate": 9.742171788242466e-05,
      "loss": 6.5431,
      "loss/crossentropy": 0.8840593248605728,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15165851637721062,
      "step": 617
    },
    {
      "epoch": 0.103,
      "grad_norm": 31.125,
      "grad_norm_var": 2.32265625,
      "learning_rate": 9.741341303264118e-05,
      "loss": 6.7935,
      "loss/crossentropy": 1.244262933731079,
      "loss/hidden": 4.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20905006304383278,
      "step": 618
    },
    {
      "epoch": 0.10316666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 2.403580729166667,
      "learning_rate": 9.74050951842016e-05,
      "loss": 6.6221,
      "loss/crossentropy": 1.4201457425951958,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12143450789153576,
      "step": 619
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 2.4559895833333334,
      "learning_rate": 9.739676433938633e-05,
      "loss": 6.8997,
      "loss/crossentropy": 1.5559433475136757,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13031989242881536,
      "step": 620
    },
    {
      "epoch": 0.1035,
      "grad_norm": 28.75,
      "grad_norm_var": 2.36015625,
      "learning_rate": 9.73884205004793e-05,
      "loss": 6.892,
      "loss/crossentropy": 1.5828931331634521,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13859030604362488,
      "step": 621
    },
    {
      "epoch": 0.10366666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 2.1997395833333333,
      "learning_rate": 9.7380063669768e-05,
      "loss": 6.6631,
      "loss/crossentropy": 1.3110764995217323,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1283620810136199,
      "step": 622
    },
    {
      "epoch": 0.10383333333333333,
      "grad_norm": 31.625,
      "grad_norm_var": 2.36015625,
      "learning_rate": 9.737169384954355e-05,
      "loss": 7.5041,
      "loss/crossentropy": 1.8889169991016388,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20347655937075615,
      "step": 623
    },
    {
      "epoch": 0.104,
      "grad_norm": 30.25,
      "grad_norm_var": 1.715625,
      "learning_rate": 9.736331104210056e-05,
      "loss": 7.0787,
      "loss/crossentropy": 2.0271048545837402,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1943119689822197,
      "step": 624
    },
    {
      "epoch": 0.10416666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 2.0056640625,
      "learning_rate": 9.735491524973722e-05,
      "loss": 7.2658,
      "loss/crossentropy": 1.3105893656611443,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17542754113674164,
      "step": 625
    },
    {
      "epoch": 0.10433333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 1.9353515625,
      "learning_rate": 9.73465064747553e-05,
      "loss": 6.9306,
      "loss/crossentropy": 1.5623179972171783,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35115011036396027,
      "step": 626
    },
    {
      "epoch": 0.1045,
      "grad_norm": 29.5,
      "grad_norm_var": 1.8145833333333334,
      "learning_rate": 9.73380847194601e-05,
      "loss": 6.618,
      "loss/crossentropy": 1.7431139945983887,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23764119669795036,
      "step": 627
    },
    {
      "epoch": 0.10466666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 2.0552083333333333,
      "learning_rate": 9.732964998616046e-05,
      "loss": 6.587,
      "loss/crossentropy": 1.249927893280983,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11416234821081161,
      "step": 628
    },
    {
      "epoch": 0.10483333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 1.8921223958333333,
      "learning_rate": 9.732120227716888e-05,
      "loss": 6.9894,
      "loss/crossentropy": 1.6706857830286026,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.280877910554409,
      "step": 629
    },
    {
      "epoch": 0.105,
      "grad_norm": 26.75,
      "grad_norm_var": 2.1499348958333333,
      "learning_rate": 9.73127415948013e-05,
      "loss": 6.6645,
      "loss/crossentropy": 1.8794518113136292,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25239719450473785,
      "step": 630
    },
    {
      "epoch": 0.10516666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 2.074934895833333,
      "learning_rate": 9.730426794137727e-05,
      "loss": 7.0315,
      "loss/crossentropy": 1.941453456878662,
      "loss/hidden": 3.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23865931853652,
      "step": 631
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 2.1171223958333334,
      "learning_rate": 9.72957813192199e-05,
      "loss": 7.1967,
      "loss/crossentropy": 1.1591122299432755,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2066329289227724,
      "step": 632
    },
    {
      "epoch": 0.1055,
      "grad_norm": 27.125,
      "grad_norm_var": 2.502083333333333,
      "learning_rate": 9.728728173065585e-05,
      "loss": 6.8588,
      "loss/crossentropy": 1.926354318857193,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3170504793524742,
      "step": 633
    },
    {
      "epoch": 0.10566666666666667,
      "grad_norm": 30.75,
      "grad_norm_var": 2.432747395833333,
      "learning_rate": 9.72787691780153e-05,
      "loss": 6.9414,
      "loss/crossentropy": 1.741186648607254,
      "loss/hidden": 3.66015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19436799362301826,
      "step": 634
    },
    {
      "epoch": 0.10583333333333333,
      "grad_norm": 30.125,
      "grad_norm_var": 2.4197265625,
      "learning_rate": 9.727024366363206e-05,
      "loss": 6.8866,
      "loss/crossentropy": 1.432238832116127,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22247987799346447,
      "step": 635
    },
    {
      "epoch": 0.106,
      "grad_norm": 28.875,
      "grad_norm_var": 2.4309895833333335,
      "learning_rate": 9.726170518984341e-05,
      "loss": 6.7905,
      "loss/crossentropy": 1.2945048660039902,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16999693773686886,
      "step": 636
    },
    {
      "epoch": 0.10616666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 2.5520833333333335,
      "learning_rate": 9.725315375899024e-05,
      "loss": 6.5599,
      "loss/crossentropy": 1.464924231171608,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20916100591421127,
      "step": 637
    },
    {
      "epoch": 0.10633333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 2.5885416666666665,
      "learning_rate": 9.724458937341698e-05,
      "loss": 6.6968,
      "loss/crossentropy": 1.3260242938995361,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21571195125579834,
      "step": 638
    },
    {
      "epoch": 0.1065,
      "grad_norm": 28.375,
      "grad_norm_var": 2.287239583333333,
      "learning_rate": 9.723601203547158e-05,
      "loss": 6.9984,
      "loss/crossentropy": 1.5926786959171295,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3045806996524334,
      "step": 639
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 2.25625,
      "learning_rate": 9.722742174750558e-05,
      "loss": 6.7535,
      "loss/crossentropy": 1.588733658194542,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2000904083251953,
      "step": 640
    },
    {
      "epoch": 0.10683333333333334,
      "grad_norm": 29.75,
      "grad_norm_var": 1.5143229166666667,
      "learning_rate": 9.721881851187406e-05,
      "loss": 6.9981,
      "loss/crossentropy": 2.038671374320984,
      "loss/hidden": 3.62109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22879015281796455,
      "step": 641
    },
    {
      "epoch": 0.107,
      "grad_norm": 30.5,
      "grad_norm_var": 1.6510416666666667,
      "learning_rate": 9.721020233093563e-05,
      "loss": 7.0265,
      "loss/crossentropy": 1.8578952550888062,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3181113712489605,
      "step": 642
    },
    {
      "epoch": 0.10716666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 1.7093098958333333,
      "learning_rate": 9.72015732070525e-05,
      "loss": 7.1423,
      "loss/crossentropy": 1.2508052438497543,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14286888763308525,
      "step": 643
    },
    {
      "epoch": 0.10733333333333334,
      "grad_norm": 27.75,
      "grad_norm_var": 1.7093098958333333,
      "learning_rate": 9.719293114259033e-05,
      "loss": 6.7903,
      "loss/crossentropy": 1.6175063848495483,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18509873375296593,
      "step": 644
    },
    {
      "epoch": 0.1075,
      "grad_norm": 27.0,
      "grad_norm_var": 1.8853515625,
      "learning_rate": 9.718427613991848e-05,
      "loss": 6.8594,
      "loss/crossentropy": 2.0574215948581696,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17839450761675835,
      "step": 645
    },
    {
      "epoch": 0.10766666666666666,
      "grad_norm": 32.5,
      "grad_norm_var": 2.2806640625,
      "learning_rate": 9.717560820140969e-05,
      "loss": 6.9529,
      "loss/crossentropy": 1.7327706515789032,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20203590393066406,
      "step": 646
    },
    {
      "epoch": 0.10783333333333334,
      "grad_norm": 26.75,
      "grad_norm_var": 2.52890625,
      "learning_rate": 9.716692732944035e-05,
      "loss": 6.6285,
      "loss/crossentropy": 2.002866104245186,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1876381952315569,
      "step": 647
    },
    {
      "epoch": 0.108,
      "grad_norm": 28.125,
      "grad_norm_var": 2.5822265625,
      "learning_rate": 9.715823352639037e-05,
      "loss": 6.8543,
      "loss/crossentropy": 1.0742419362068176,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13539068680256605,
      "step": 648
    },
    {
      "epoch": 0.10816666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 2.33515625,
      "learning_rate": 9.714952679464323e-05,
      "loss": 6.6677,
      "loss/crossentropy": 1.1316107213497162,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20465175807476044,
      "step": 649
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 3.14375,
      "learning_rate": 9.71408071365859e-05,
      "loss": 7.1131,
      "loss/crossentropy": 1.1828127279877663,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12344163469970226,
      "step": 650
    },
    {
      "epoch": 0.1085,
      "grad_norm": 28.125,
      "grad_norm_var": 3.160416666666667,
      "learning_rate": 9.713207455460894e-05,
      "loss": 6.9142,
      "loss/crossentropy": 1.5287613421678543,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2282132599502802,
      "step": 651
    },
    {
      "epoch": 0.10866666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 3.17265625,
      "learning_rate": 9.71233290511064e-05,
      "loss": 6.8428,
      "loss/crossentropy": 1.3678704053163528,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18871070258319378,
      "step": 652
    },
    {
      "epoch": 0.10883333333333334,
      "grad_norm": 30.75,
      "grad_norm_var": 3.238541666666667,
      "learning_rate": 9.711457062847595e-05,
      "loss": 7.1566,
      "loss/crossentropy": 1.1779525876045227,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14346816204488277,
      "step": 653
    },
    {
      "epoch": 0.109,
      "grad_norm": 32.25,
      "grad_norm_var": 3.6660807291666666,
      "learning_rate": 9.710579928911876e-05,
      "loss": 7.0187,
      "loss/crossentropy": 1.165409579873085,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14943919517099857,
      "step": 654
    },
    {
      "epoch": 0.10916666666666666,
      "grad_norm": 31.625,
      "grad_norm_var": 3.8218098958333333,
      "learning_rate": 9.709701503543954e-05,
      "loss": 6.9463,
      "loss/crossentropy": 1.7063288986682892,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17271865159273148,
      "step": 655
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 28.5,
      "grad_norm_var": 3.910872395833333,
      "learning_rate": 9.708821786984652e-05,
      "loss": 6.9349,
      "loss/crossentropy": 1.4682232439517975,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20218270272016525,
      "step": 656
    },
    {
      "epoch": 0.1095,
      "grad_norm": 30.375,
      "grad_norm_var": 3.94375,
      "learning_rate": 9.707940779475151e-05,
      "loss": 6.979,
      "loss/crossentropy": 2.069106310606003,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2026902660727501,
      "step": 657
    },
    {
      "epoch": 0.10966666666666666,
      "grad_norm": 29.5,
      "grad_norm_var": 3.8979166666666667,
      "learning_rate": 9.707058481256985e-05,
      "loss": 6.8815,
      "loss/crossentropy": 1.8183580487966537,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22271856293082237,
      "step": 658
    },
    {
      "epoch": 0.10983333333333334,
      "grad_norm": 28.5,
      "grad_norm_var": 3.9546223958333333,
      "learning_rate": 9.706174892572039e-05,
      "loss": 6.2977,
      "loss/crossentropy": 1.6013105809688568,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13599575497210026,
      "step": 659
    },
    {
      "epoch": 0.11,
      "grad_norm": 29.0,
      "grad_norm_var": 3.756705729166667,
      "learning_rate": 9.705290013662556e-05,
      "loss": 6.631,
      "loss/crossentropy": 1.3786100298166275,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18141034804284573,
      "step": 660
    },
    {
      "epoch": 0.11016666666666666,
      "grad_norm": 27.5,
      "grad_norm_var": 3.598893229166667,
      "learning_rate": 9.704403844771128e-05,
      "loss": 6.7207,
      "loss/crossentropy": 1.2611496448516846,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23525800928473473,
      "step": 661
    },
    {
      "epoch": 0.11033333333333334,
      "grad_norm": 27.625,
      "grad_norm_var": 3.220572916666667,
      "learning_rate": 9.703516386140705e-05,
      "loss": 6.3873,
      "loss/crossentropy": 1.2649259716272354,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12177464924752712,
      "step": 662
    },
    {
      "epoch": 0.1105,
      "grad_norm": 30.375,
      "grad_norm_var": 2.795768229166667,
      "learning_rate": 9.70262763801459e-05,
      "loss": 7.6091,
      "loss/crossentropy": 1.9886409044265747,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20045031234622002,
      "step": 663
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 2.6768229166666666,
      "learning_rate": 9.701737600636436e-05,
      "loss": 7.0348,
      "loss/crossentropy": 2.0670722126960754,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25915420427918434,
      "step": 664
    },
    {
      "epoch": 0.11083333333333334,
      "grad_norm": 29.5,
      "grad_norm_var": 2.6518229166666667,
      "learning_rate": 9.700846274250251e-05,
      "loss": 6.9435,
      "loss/crossentropy": 1.2922873795032501,
      "loss/hidden": 3.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3342493027448654,
      "step": 665
    },
    {
      "epoch": 0.111,
      "grad_norm": 28.875,
      "grad_norm_var": 1.8676432291666667,
      "learning_rate": 9.699953659100401e-05,
      "loss": 7.0355,
      "loss/crossentropy": 1.8357878625392914,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25074972212314606,
      "step": 666
    },
    {
      "epoch": 0.11116666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 1.76875,
      "learning_rate": 9.699059755431598e-05,
      "loss": 7.0087,
      "loss/crossentropy": 1.8910188376903534,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1865641139447689,
      "step": 667
    },
    {
      "epoch": 0.11133333333333334,
      "grad_norm": 30.25,
      "grad_norm_var": 1.7577473958333334,
      "learning_rate": 9.698164563488914e-05,
      "loss": 6.9317,
      "loss/crossentropy": 1.6376636326313019,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32860966958105564,
      "step": 668
    },
    {
      "epoch": 0.1115,
      "grad_norm": 30.375,
      "grad_norm_var": 1.7059895833333334,
      "learning_rate": 9.697268083517767e-05,
      "loss": 6.826,
      "loss/crossentropy": 1.811766117811203,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15397534891963005,
      "step": 669
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 28.0,
      "grad_norm_var": 1.2854166666666667,
      "learning_rate": 9.696370315763936e-05,
      "loss": 6.5573,
      "loss/crossentropy": 1.1196317374706268,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12236335687339306,
      "step": 670
    },
    {
      "epoch": 0.11183333333333334,
      "grad_norm": 29.25,
      "grad_norm_var": 0.8858723958333333,
      "learning_rate": 9.695471260473545e-05,
      "loss": 6.4967,
      "loss/crossentropy": 1.5364763289690018,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12572124414145947,
      "step": 671
    },
    {
      "epoch": 0.112,
      "grad_norm": 27.5,
      "grad_norm_var": 1.0285807291666667,
      "learning_rate": 9.69457091789308e-05,
      "loss": 6.9021,
      "loss/crossentropy": 1.548076406121254,
      "loss/hidden": 3.82421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19756012596189976,
      "step": 672
    },
    {
      "epoch": 0.11216666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 0.9018229166666667,
      "learning_rate": 9.693669288269372e-05,
      "loss": 7.1784,
      "loss/crossentropy": 1.3275788128376007,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17808063328266144,
      "step": 673
    },
    {
      "epoch": 0.11233333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 0.8988932291666667,
      "learning_rate": 9.692766371849606e-05,
      "loss": 6.564,
      "loss/crossentropy": 1.3597323894500732,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13040512800216675,
      "step": 674
    },
    {
      "epoch": 0.1125,
      "grad_norm": 31.75,
      "grad_norm_var": 1.3931640625,
      "learning_rate": 9.691862168881325e-05,
      "loss": 6.83,
      "loss/crossentropy": 1.1135968118906021,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16545339487493038,
      "step": 675
    },
    {
      "epoch": 0.11266666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 1.3942057291666667,
      "learning_rate": 9.690956679612421e-05,
      "loss": 7.2353,
      "loss/crossentropy": 1.4192567318677902,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1604620646685362,
      "step": 676
    },
    {
      "epoch": 0.11283333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 1.3030598958333333,
      "learning_rate": 9.690049904291139e-05,
      "loss": 6.7055,
      "loss/crossentropy": 1.5826443284749985,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13827670831233263,
      "step": 677
    },
    {
      "epoch": 0.113,
      "grad_norm": 30.0,
      "grad_norm_var": 1.178125,
      "learning_rate": 9.689141843166074e-05,
      "loss": 6.9351,
      "loss/crossentropy": 1.8830396234989166,
      "loss/hidden": 3.76953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2651614472270012,
      "step": 678
    },
    {
      "epoch": 0.11316666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 1.1455729166666666,
      "learning_rate": 9.688232496486178e-05,
      "loss": 6.8014,
      "loss/crossentropy": 1.044035404920578,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17703981511294842,
      "step": 679
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 1.140625,
      "learning_rate": 9.687321864500755e-05,
      "loss": 6.8278,
      "loss/crossentropy": 1.6375316381454468,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15793989598751068,
      "step": 680
    },
    {
      "epoch": 0.1135,
      "grad_norm": 29.375,
      "grad_norm_var": 1.1379557291666667,
      "learning_rate": 9.686409947459458e-05,
      "loss": 7.328,
      "loss/crossentropy": 1.8119606971740723,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16568780690431595,
      "step": 681
    },
    {
      "epoch": 0.11366666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 1.4942057291666666,
      "learning_rate": 9.685496745612295e-05,
      "loss": 6.2698,
      "loss/crossentropy": 1.6398979425430298,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16278844699263573,
      "step": 682
    },
    {
      "epoch": 0.11383333333333333,
      "grad_norm": 28.625,
      "grad_norm_var": 1.5104166666666667,
      "learning_rate": 9.684582259209624e-05,
      "loss": 6.3844,
      "loss/crossentropy": 1.6580571979284286,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15163831412792206,
      "step": 683
    },
    {
      "epoch": 0.114,
      "grad_norm": 33.5,
      "grad_norm_var": 2.658072916666667,
      "learning_rate": 9.683666488502158e-05,
      "loss": 7.7771,
      "loss/crossentropy": 1.6030221581459045,
      "loss/hidden": 3.69140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2512742020189762,
      "step": 684
    },
    {
      "epoch": 0.11416666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 2.6416015625,
      "learning_rate": 9.682749433740962e-05,
      "loss": 6.8587,
      "loss/crossentropy": 2.0054213404655457,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20447374135255814,
      "step": 685
    },
    {
      "epoch": 0.11433333333333333,
      "grad_norm": 29.375,
      "grad_norm_var": 2.517708333333333,
      "learning_rate": 9.68183109517745e-05,
      "loss": 6.6522,
      "loss/crossentropy": 1.5510950908064842,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15018807910382748,
      "step": 686
    },
    {
      "epoch": 0.1145,
      "grad_norm": 31.75,
      "grad_norm_var": 2.85625,
      "learning_rate": 9.68091147306339e-05,
      "loss": 7.1964,
      "loss/crossentropy": 1.603594422340393,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19394610077142715,
      "step": 687
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 2.55625,
      "learning_rate": 9.6799905676509e-05,
      "loss": 6.596,
      "loss/crossentropy": 1.203146532177925,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13622648641467094,
      "step": 688
    },
    {
      "epoch": 0.11483333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 2.66015625,
      "learning_rate": 9.679068379192456e-05,
      "loss": 6.8174,
      "loss/crossentropy": 1.8890211880207062,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19486655294895172,
      "step": 689
    },
    {
      "epoch": 0.115,
      "grad_norm": 29.125,
      "grad_norm_var": 2.56875,
      "learning_rate": 9.678144907940876e-05,
      "loss": 6.5261,
      "loss/crossentropy": 1.2591911479830742,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15090861823409796,
      "step": 690
    },
    {
      "epoch": 0.11516666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 2.4416015625,
      "learning_rate": 9.677220154149337e-05,
      "loss": 6.9695,
      "loss/crossentropy": 1.5569715201854706,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15242954529821873,
      "step": 691
    },
    {
      "epoch": 0.11533333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 2.4572265625,
      "learning_rate": 9.676294118071367e-05,
      "loss": 7.225,
      "loss/crossentropy": 1.8722420632839203,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18725543096661568,
      "step": 692
    },
    {
      "epoch": 0.1155,
      "grad_norm": 29.875,
      "grad_norm_var": 2.30390625,
      "learning_rate": 9.675366799960841e-05,
      "loss": 6.6473,
      "loss/crossentropy": 1.6560204923152924,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21664336323738098,
      "step": 693
    },
    {
      "epoch": 0.11566666666666667,
      "grad_norm": 30.375,
      "grad_norm_var": 2.3322265625,
      "learning_rate": 9.674438200071991e-05,
      "loss": 6.4056,
      "loss/crossentropy": 1.1548308283090591,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11235202103853226,
      "step": 694
    },
    {
      "epoch": 0.11583333333333333,
      "grad_norm": 33.5,
      "grad_norm_var": 3.265625,
      "learning_rate": 9.6735083186594e-05,
      "loss": 7.151,
      "loss/crossentropy": 1.9906552731990814,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2601942904293537,
      "step": 695
    },
    {
      "epoch": 0.116,
      "grad_norm": 29.5,
      "grad_norm_var": 3.249739583333333,
      "learning_rate": 9.672577155977993e-05,
      "loss": 7.2406,
      "loss/crossentropy": 2.064489871263504,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23205005750060081,
      "step": 696
    },
    {
      "epoch": 0.11616666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 3.2561848958333335,
      "learning_rate": 9.671644712283061e-05,
      "loss": 7.1376,
      "loss/crossentropy": 1.980436235666275,
      "loss/hidden": 3.62109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2317683883011341,
      "step": 697
    },
    {
      "epoch": 0.11633333333333333,
      "grad_norm": 29.375,
      "grad_norm_var": 2.6285807291666665,
      "learning_rate": 9.670710987830233e-05,
      "loss": 7.002,
      "loss/crossentropy": 1.6101481318473816,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2259971722960472,
      "step": 698
    },
    {
      "epoch": 0.1165,
      "grad_norm": 30.125,
      "grad_norm_var": 2.4770182291666667,
      "learning_rate": 9.669775982875501e-05,
      "loss": 6.5709,
      "loss/crossentropy": 1.5695571601390839,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20522866770625114,
      "step": 699
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 1.6931640625,
      "learning_rate": 9.668839697675196e-05,
      "loss": 6.8714,
      "loss/crossentropy": 1.5800593048334122,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.13942819274961948,
      "step": 700
    },
    {
      "epoch": 0.11683333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 2.1400390625,
      "learning_rate": 9.667902132486009e-05,
      "loss": 7.086,
      "loss/crossentropy": 1.6381309926509857,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20893165469169617,
      "step": 701
    },
    {
      "epoch": 0.117,
      "grad_norm": 27.75,
      "grad_norm_var": 2.39140625,
      "learning_rate": 9.666963287564979e-05,
      "loss": 6.7993,
      "loss/crossentropy": 1.406240090727806,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14155222102999687,
      "step": 702
    },
    {
      "epoch": 0.11716666666666667,
      "grad_norm": 27.625,
      "grad_norm_var": 2.3119140625,
      "learning_rate": 9.666023163169493e-05,
      "loss": 6.8117,
      "loss/crossentropy": 1.5503928065299988,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22186162695288658,
      "step": 703
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 31.875,
      "grad_norm_var": 2.691666666666667,
      "learning_rate": 9.665081759557295e-05,
      "loss": 6.8223,
      "loss/crossentropy": 1.3800048977136612,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14740336686372757,
      "step": 704
    },
    {
      "epoch": 0.1175,
      "grad_norm": 29.25,
      "grad_norm_var": 2.5791666666666666,
      "learning_rate": 9.664139076986473e-05,
      "loss": 6.8227,
      "loss/crossentropy": 1.8590564131736755,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2021271251142025,
      "step": 705
    },
    {
      "epoch": 0.11766666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 2.981184895833333,
      "learning_rate": 9.663195115715471e-05,
      "loss": 6.9499,
      "loss/crossentropy": 1.4088309109210968,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2622120473533869,
      "step": 706
    },
    {
      "epoch": 0.11783333333333333,
      "grad_norm": 30.625,
      "grad_norm_var": 2.7405598958333335,
      "learning_rate": 9.66224987600308e-05,
      "loss": 6.8124,
      "loss/crossentropy": 0.7446690201759338,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08213549666106701,
      "step": 707
    },
    {
      "epoch": 0.118,
      "grad_norm": 29.125,
      "grad_norm_var": 2.7875,
      "learning_rate": 9.661303358108445e-05,
      "loss": 6.7138,
      "loss/crossentropy": 1.4749462604522705,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12841501459479332,
      "step": 708
    },
    {
      "epoch": 0.11816666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 2.8583333333333334,
      "learning_rate": 9.660355562291055e-05,
      "loss": 6.2732,
      "loss/crossentropy": 1.4664273858070374,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18284995667636395,
      "step": 709
    },
    {
      "epoch": 0.11833333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 2.8421223958333335,
      "learning_rate": 9.659406488810759e-05,
      "loss": 6.935,
      "loss/crossentropy": 1.71576888859272,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1478842906653881,
      "step": 710
    },
    {
      "epoch": 0.1185,
      "grad_norm": 28.75,
      "grad_norm_var": 1.9416015625,
      "learning_rate": 9.658456137927745e-05,
      "loss": 6.4814,
      "loss/crossentropy": 1.682497650384903,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2495732717216015,
      "step": 711
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 1.9968098958333333,
      "learning_rate": 9.657504509902562e-05,
      "loss": 6.7867,
      "loss/crossentropy": 1.3865531384944916,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19834261015057564,
      "step": 712
    },
    {
      "epoch": 0.11883333333333333,
      "grad_norm": 30.25,
      "grad_norm_var": 1.9712890625,
      "learning_rate": 9.656551604996102e-05,
      "loss": 6.6116,
      "loss/crossentropy": 0.7168354988098145,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15031130611896515,
      "step": 713
    },
    {
      "epoch": 0.119,
      "grad_norm": 32.0,
      "grad_norm_var": 2.32265625,
      "learning_rate": 9.655597423469609e-05,
      "loss": 6.8321,
      "loss/crossentropy": 1.9286990463733673,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3007762059569359,
      "step": 714
    },
    {
      "epoch": 0.11916666666666667,
      "grad_norm": 41.75,
      "grad_norm_var": 11.3259765625,
      "learning_rate": 9.654641965584678e-05,
      "loss": 7.197,
      "loss/crossentropy": 1.7300785183906555,
      "loss/hidden": 3.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2913442552089691,
      "step": 715
    },
    {
      "epoch": 0.11933333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 11.47890625,
      "learning_rate": 9.653685231603256e-05,
      "loss": 6.6237,
      "loss/crossentropy": 1.163270428776741,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15404702350497246,
      "step": 716
    },
    {
      "epoch": 0.1195,
      "grad_norm": 30.0,
      "grad_norm_var": 10.788541666666667,
      "learning_rate": 9.652727221787631e-05,
      "loss": 7.0861,
      "loss/crossentropy": 2.2192281931638718,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23627253249287605,
      "step": 717
    },
    {
      "epoch": 0.11966666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 10.788541666666667,
      "learning_rate": 9.65176793640045e-05,
      "loss": 6.326,
      "loss/crossentropy": 0.9741474464535713,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10810017958283424,
      "step": 718
    },
    {
      "epoch": 0.11983333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 11.67265625,
      "learning_rate": 9.650807375704708e-05,
      "loss": 6.5607,
      "loss/crossentropy": 1.051061324775219,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13475926592946053,
      "step": 719
    },
    {
      "epoch": 0.12,
      "grad_norm": 29.75,
      "grad_norm_var": 11.560872395833334,
      "learning_rate": 9.649845539963747e-05,
      "loss": 7.3885,
      "loss/crossentropy": 1.7970368564128876,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30203753150999546,
      "step": 720
    },
    {
      "epoch": 0.12016666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 11.495247395833333,
      "learning_rate": 9.648882429441257e-05,
      "loss": 6.5989,
      "loss/crossentropy": 0.8426260724663734,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08113336376845837,
      "step": 721
    },
    {
      "epoch": 0.12033333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 11.285416666666666,
      "learning_rate": 9.647918044401285e-05,
      "loss": 7.1849,
      "loss/crossentropy": 1.6168367713689804,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25180529057979584,
      "step": 722
    },
    {
      "epoch": 0.1205,
      "grad_norm": 28.0,
      "grad_norm_var": 11.628580729166666,
      "learning_rate": 9.646952385108218e-05,
      "loss": 6.2459,
      "loss/crossentropy": 1.617216557264328,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19698919728398323,
      "step": 723
    },
    {
      "epoch": 0.12066666666666667,
      "grad_norm": 30.625,
      "grad_norm_var": 11.552018229166666,
      "learning_rate": 9.645985451826803e-05,
      "loss": 6.6805,
      "loss/crossentropy": 1.2977196872234344,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14982175081968307,
      "step": 724
    },
    {
      "epoch": 0.12083333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 11.508268229166667,
      "learning_rate": 9.645017244822123e-05,
      "loss": 6.8615,
      "loss/crossentropy": 1.3951329737901688,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1752911787480116,
      "step": 725
    },
    {
      "epoch": 0.121,
      "grad_norm": 28.25,
      "grad_norm_var": 11.7744140625,
      "learning_rate": 9.644047764359622e-05,
      "loss": 6.7321,
      "loss/crossentropy": 1.494904488325119,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1937835942953825,
      "step": 726
    },
    {
      "epoch": 0.12116666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 11.751041666666667,
      "learning_rate": 9.643077010705087e-05,
      "loss": 6.6861,
      "loss/crossentropy": 1.0755391269922256,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15914678946137428,
      "step": 727
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 12.047916666666667,
      "learning_rate": 9.642104984124656e-05,
      "loss": 6.609,
      "loss/crossentropy": 1.1384456008672714,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1375688686966896,
      "step": 728
    },
    {
      "epoch": 0.1215,
      "grad_norm": 28.0,
      "grad_norm_var": 12.308072916666667,
      "learning_rate": 9.641131684884817e-05,
      "loss": 6.8089,
      "loss/crossentropy": 1.7485393583774567,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1841743802651763,
      "step": 729
    },
    {
      "epoch": 0.12166666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 12.008268229166667,
      "learning_rate": 9.640157113252403e-05,
      "loss": 6.8773,
      "loss/crossentropy": 1.3851639330387115,
      "loss/hidden": 3.84765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21244927495718002,
      "step": 730
    },
    {
      "epoch": 0.12183333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 1.8655598958333333,
      "learning_rate": 9.6391812694946e-05,
      "loss": 6.6945,
      "loss/crossentropy": 2.034461110830307,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16909070312976837,
      "step": 731
    },
    {
      "epoch": 0.122,
      "grad_norm": 28.5,
      "grad_norm_var": 1.8802083333333333,
      "learning_rate": 9.63820415387894e-05,
      "loss": 6.5646,
      "loss/crossentropy": 1.626416176557541,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23018508031964302,
      "step": 732
    },
    {
      "epoch": 0.12216666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 1.8186848958333333,
      "learning_rate": 9.637225766673307e-05,
      "loss": 7.168,
      "loss/crossentropy": 1.2721869349479675,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27399044297635555,
      "step": 733
    },
    {
      "epoch": 0.12233333333333334,
      "grad_norm": 29.25,
      "grad_norm_var": 1.7233723958333333,
      "learning_rate": 9.636246108145929e-05,
      "loss": 6.7627,
      "loss/crossentropy": 2.161185532808304,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2517819069325924,
      "step": 734
    },
    {
      "epoch": 0.1225,
      "grad_norm": 30.875,
      "grad_norm_var": 1.1869140625,
      "learning_rate": 9.635265178565385e-05,
      "loss": 7.3394,
      "loss/crossentropy": 1.9593259394168854,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23115667700767517,
      "step": 735
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 1.2046223958333333,
      "learning_rate": 9.634282978200604e-05,
      "loss": 6.818,
      "loss/crossentropy": 2.4617882668972015,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2561354413628578,
      "step": 736
    },
    {
      "epoch": 0.12283333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 1.6749348958333334,
      "learning_rate": 9.63329950732086e-05,
      "loss": 6.6859,
      "loss/crossentropy": 1.8943971395492554,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19631916657090187,
      "step": 737
    },
    {
      "epoch": 0.123,
      "grad_norm": 30.125,
      "grad_norm_var": 1.5671223958333333,
      "learning_rate": 9.632314766195781e-05,
      "loss": 6.9489,
      "loss/crossentropy": 2.0378142297267914,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15763233974575996,
      "step": 738
    },
    {
      "epoch": 0.12316666666666666,
      "grad_norm": 28.0,
      "grad_norm_var": 1.5671223958333333,
      "learning_rate": 9.631328755095333e-05,
      "loss": 6.8251,
      "loss/crossentropy": 1.8512370437383652,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1793438456952572,
      "step": 739
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 1.4723307291666667,
      "learning_rate": 9.630341474289842e-05,
      "loss": 6.3814,
      "loss/crossentropy": 1.370538242161274,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18280507531017065,
      "step": 740
    },
    {
      "epoch": 0.1235,
      "grad_norm": 29.75,
      "grad_norm_var": 1.4830729166666667,
      "learning_rate": 9.629352924049975e-05,
      "loss": 6.7228,
      "loss/crossentropy": 2.3160256445407867,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17024001106619835,
      "step": 741
    },
    {
      "epoch": 0.12366666666666666,
      "grad_norm": 26.875,
      "grad_norm_var": 1.7988932291666666,
      "learning_rate": 9.628363104646747e-05,
      "loss": 6.1821,
      "loss/crossentropy": 1.5081074684858322,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16622129827737808,
      "step": 742
    },
    {
      "epoch": 0.12383333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 1.8059895833333333,
      "learning_rate": 9.627372016351524e-05,
      "loss": 6.5492,
      "loss/crossentropy": 1.3975093811750412,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15924087166786194,
      "step": 743
    },
    {
      "epoch": 0.124,
      "grad_norm": 30.75,
      "grad_norm_var": 1.8260416666666666,
      "learning_rate": 9.626379659436017e-05,
      "loss": 6.8219,
      "loss/crossentropy": 1.901090830564499,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1702580563724041,
      "step": 744
    },
    {
      "epoch": 0.12416666666666666,
      "grad_norm": 27.375,
      "grad_norm_var": 1.9676432291666666,
      "learning_rate": 9.62538603417229e-05,
      "loss": 6.5135,
      "loss/crossentropy": 1.7890234887599945,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1815632525831461,
      "step": 745
    },
    {
      "epoch": 0.12433333333333334,
      "grad_norm": 29.5,
      "grad_norm_var": 1.92890625,
      "learning_rate": 9.624391140832749e-05,
      "loss": 7.0427,
      "loss/crossentropy": 1.2604841142892838,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21951996721327305,
      "step": 746
    },
    {
      "epoch": 0.1245,
      "grad_norm": 28.25,
      "grad_norm_var": 1.9830729166666667,
      "learning_rate": 9.623394979690147e-05,
      "loss": 6.661,
      "loss/crossentropy": 1.4802487045526505,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14423799887299538,
      "step": 747
    },
    {
      "epoch": 0.12466666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 2.4635416666666665,
      "learning_rate": 9.622397551017592e-05,
      "loss": 7.041,
      "loss/crossentropy": 1.2775348275899887,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19484638050198555,
      "step": 748
    },
    {
      "epoch": 0.12483333333333334,
      "grad_norm": 28.0,
      "grad_norm_var": 2.6103515625,
      "learning_rate": 9.62139885508853e-05,
      "loss": 7.014,
      "loss/crossentropy": 1.925628885626793,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19798103347420692,
      "step": 749
    },
    {
      "epoch": 0.125,
      "grad_norm": 28.625,
      "grad_norm_var": 2.6510416666666665,
      "learning_rate": 9.620398892176762e-05,
      "loss": 6.8329,
      "loss/crossentropy": 1.1196279376745224,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10725859738886356,
      "step": 750
    },
    {
      "epoch": 0.12516666666666668,
      "grad_norm": 28.375,
      "grad_norm_var": 2.5520833333333335,
      "learning_rate": 9.619397662556435e-05,
      "loss": 6.6299,
      "loss/crossentropy": 1.1663732826709747,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20117589458823204,
      "step": 751
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 32.25,
      "grad_norm_var": 3.093489583333333,
      "learning_rate": 9.618395166502037e-05,
      "loss": 7.3826,
      "loss/crossentropy": 1.6024877727031708,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16880478337407112,
      "step": 752
    },
    {
      "epoch": 0.1255,
      "grad_norm": 31.5,
      "grad_norm_var": 2.74140625,
      "learning_rate": 9.617391404288412e-05,
      "loss": 6.9638,
      "loss/crossentropy": 1.6815844774246216,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15550420247018337,
      "step": 753
    },
    {
      "epoch": 0.12566666666666668,
      "grad_norm": 27.25,
      "grad_norm_var": 2.9525390625,
      "learning_rate": 9.616386376190745e-05,
      "loss": 6.327,
      "loss/crossentropy": 1.329882264137268,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13500298745930195,
      "step": 754
    },
    {
      "epoch": 0.12583333333333332,
      "grad_norm": 28.875,
      "grad_norm_var": 2.86640625,
      "learning_rate": 9.615380082484571e-05,
      "loss": 7.2015,
      "loss/crossentropy": 1.3013105019927025,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17569159716367722,
      "step": 755
    },
    {
      "epoch": 0.126,
      "grad_norm": 30.0,
      "grad_norm_var": 2.8962890625,
      "learning_rate": 9.614372523445771e-05,
      "loss": 6.6609,
      "loss/crossentropy": 1.6127808392047882,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1659044213593006,
      "step": 756
    },
    {
      "epoch": 0.12616666666666668,
      "grad_norm": 30.25,
      "grad_norm_var": 2.9436848958333335,
      "learning_rate": 9.613363699350575e-05,
      "loss": 6.886,
      "loss/crossentropy": 1.0334024354815483,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17941672634333372,
      "step": 757
    },
    {
      "epoch": 0.12633333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 2.7080729166666666,
      "learning_rate": 9.612353610475555e-05,
      "loss": 6.2095,
      "loss/crossentropy": 1.0988683477044106,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14567056391388178,
      "step": 758
    },
    {
      "epoch": 0.1265,
      "grad_norm": 31.25,
      "grad_norm_var": 2.8955729166666666,
      "learning_rate": 9.611342257097632e-05,
      "loss": 7.148,
      "loss/crossentropy": 1.6511463522911072,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20340903103351593,
      "step": 759
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 27.375,
      "grad_norm_var": 3.052018229166667,
      "learning_rate": 9.610329639494076e-05,
      "loss": 6.4546,
      "loss/crossentropy": 1.1347185745835304,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10608388483524323,
      "step": 760
    },
    {
      "epoch": 0.12683333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 2.789322916666667,
      "learning_rate": 9.609315757942503e-05,
      "loss": 6.6186,
      "loss/crossentropy": 1.6999226212501526,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19528476521372795,
      "step": 761
    },
    {
      "epoch": 0.127,
      "grad_norm": 30.625,
      "grad_norm_var": 2.880143229166667,
      "learning_rate": 9.608300612720873e-05,
      "loss": 7.0733,
      "loss/crossentropy": 1.3845355212688446,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20608391612768173,
      "step": 762
    },
    {
      "epoch": 0.12716666666666668,
      "grad_norm": 26.625,
      "grad_norm_var": 3.314322916666667,
      "learning_rate": 9.607284204107493e-05,
      "loss": 6.9627,
      "loss/crossentropy": 1.2844055891036987,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2255815453827381,
      "step": 763
    },
    {
      "epoch": 0.12733333333333333,
      "grad_norm": 26.625,
      "grad_norm_var": 3.147330729166667,
      "learning_rate": 9.606266532381018e-05,
      "loss": 6.9287,
      "loss/crossentropy": 1.5335675477981567,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1263347789645195,
      "step": 764
    },
    {
      "epoch": 0.1275,
      "grad_norm": 28.25,
      "grad_norm_var": 3.1166015625,
      "learning_rate": 9.605247597820448e-05,
      "loss": 6.9739,
      "loss/crossentropy": 1.8695217669010162,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1747262366116047,
      "step": 765
    },
    {
      "epoch": 0.12766666666666668,
      "grad_norm": 29.5,
      "grad_norm_var": 3.1143229166666666,
      "learning_rate": 9.604227400705133e-05,
      "loss": 6.4636,
      "loss/crossentropy": 1.3276889026165009,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11597120389342308,
      "step": 766
    },
    {
      "epoch": 0.12783333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 3.0863932291666667,
      "learning_rate": 9.603205941314758e-05,
      "loss": 6.2796,
      "loss/crossentropy": 1.057211548089981,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10299487039446831,
      "step": 767
    },
    {
      "epoch": 0.128,
      "grad_norm": 29.0,
      "grad_norm_var": 2.395768229166667,
      "learning_rate": 9.602183219929371e-05,
      "loss": 6.704,
      "loss/crossentropy": 1.7421257197856903,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20691610127687454,
      "step": 768
    },
    {
      "epoch": 0.12816666666666668,
      "grad_norm": 29.125,
      "grad_norm_var": 1.934375,
      "learning_rate": 9.601159236829352e-05,
      "loss": 6.8235,
      "loss/crossentropy": 1.439538598060608,
      "loss/hidden": 3.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22591623291373253,
      "step": 769
    },
    {
      "epoch": 0.12833333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 1.7712890625,
      "learning_rate": 9.600133992295433e-05,
      "loss": 6.5832,
      "loss/crossentropy": 1.238479107618332,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1591899823397398,
      "step": 770
    },
    {
      "epoch": 0.1285,
      "grad_norm": 30.5,
      "grad_norm_var": 1.93125,
      "learning_rate": 9.599107486608689e-05,
      "loss": 7.1446,
      "loss/crossentropy": 1.714221179485321,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14866385608911514,
      "step": 771
    },
    {
      "epoch": 0.12866666666666668,
      "grad_norm": 30.25,
      "grad_norm_var": 1.9684895833333333,
      "learning_rate": 9.598079720050544e-05,
      "loss": 6.8982,
      "loss/crossentropy": 1.3181781768798828,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16883035376667976,
      "step": 772
    },
    {
      "epoch": 0.12883333333333333,
      "grad_norm": 31.75,
      "grad_norm_var": 2.3559895833333333,
      "learning_rate": 9.597050692902765e-05,
      "loss": 6.9636,
      "loss/crossentropy": 1.5021403431892395,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16215253993868828,
      "step": 773
    },
    {
      "epoch": 0.129,
      "grad_norm": 29.375,
      "grad_norm_var": 2.2264973958333334,
      "learning_rate": 9.596020405447466e-05,
      "loss": 6.8601,
      "loss/crossentropy": 1.1908520609140396,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17125163599848747,
      "step": 774
    },
    {
      "epoch": 0.12916666666666668,
      "grad_norm": 26.625,
      "grad_norm_var": 2.3059895833333335,
      "learning_rate": 9.594988857967106e-05,
      "loss": 6.7215,
      "loss/crossentropy": 0.911146990954876,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15889035165309906,
      "step": 775
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 2.2583333333333333,
      "learning_rate": 9.593956050744492e-05,
      "loss": 6.8107,
      "loss/crossentropy": 1.6832085251808167,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23193244636058807,
      "step": 776
    },
    {
      "epoch": 0.1295,
      "grad_norm": 29.125,
      "grad_norm_var": 2.2541015625,
      "learning_rate": 9.59292198406277e-05,
      "loss": 6.6668,
      "loss/crossentropy": 1.5619841068983078,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16906663961708546,
      "step": 777
    },
    {
      "epoch": 0.12966666666666668,
      "grad_norm": 29.75,
      "grad_norm_var": 2.1041666666666665,
      "learning_rate": 9.591886658205438e-05,
      "loss": 6.9829,
      "loss/crossentropy": 1.7919222116470337,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19456206634640694,
      "step": 778
    },
    {
      "epoch": 0.12983333333333333,
      "grad_norm": 31.5,
      "grad_norm_var": 2.1270182291666666,
      "learning_rate": 9.590850073456336e-05,
      "loss": 8.0128,
      "loss/crossentropy": 2.312351554632187,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23978988081216812,
      "step": 779
    },
    {
      "epoch": 0.13,
      "grad_norm": 31.125,
      "grad_norm_var": 1.8598307291666667,
      "learning_rate": 9.589812230099649e-05,
      "loss": 7.2349,
      "loss/crossentropy": 1.8043695986270905,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17244477570056915,
      "step": 780
    },
    {
      "epoch": 0.13016666666666668,
      "grad_norm": 29.625,
      "grad_norm_var": 1.7559895833333334,
      "learning_rate": 9.588773128419906e-05,
      "loss": 6.6837,
      "loss/crossentropy": 1.2657390087842941,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1250052247196436,
      "step": 781
    },
    {
      "epoch": 0.13033333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 1.7958333333333334,
      "learning_rate": 9.587732768701986e-05,
      "loss": 6.5026,
      "loss/crossentropy": 1.3608160316944122,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19106113724410534,
      "step": 782
    },
    {
      "epoch": 0.1305,
      "grad_norm": 31.375,
      "grad_norm_var": 1.9639973958333334,
      "learning_rate": 9.586691151231107e-05,
      "loss": 6.8022,
      "loss/crossentropy": 1.209273800253868,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1794354785233736,
      "step": 783
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 35.25,
      "grad_norm_var": 3.8520182291666667,
      "learning_rate": 9.585648276292836e-05,
      "loss": 7.2437,
      "loss/crossentropy": 1.7829331159591675,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30202513188123703,
      "step": 784
    },
    {
      "epoch": 0.13083333333333333,
      "grad_norm": 33.75,
      "grad_norm_var": 4.615625,
      "learning_rate": 9.584604144173083e-05,
      "loss": 6.6887,
      "loss/crossentropy": 1.2763479948043823,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13859128206968307,
      "step": 785
    },
    {
      "epoch": 0.131,
      "grad_norm": 32.25,
      "grad_norm_var": 4.7181640625,
      "learning_rate": 9.5835587551581e-05,
      "loss": 6.6243,
      "loss/crossentropy": 1.6887988448143005,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21134157478809357,
      "step": 786
    },
    {
      "epoch": 0.13116666666666665,
      "grad_norm": 29.375,
      "grad_norm_var": 4.803125,
      "learning_rate": 9.58251210953449e-05,
      "loss": 6.591,
      "loss/crossentropy": 1.6435635685920715,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1841796226799488,
      "step": 787
    },
    {
      "epoch": 0.13133333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 4.804166666666666,
      "learning_rate": 9.581464207589195e-05,
      "loss": 6.7774,
      "loss/crossentropy": 1.5818364322185516,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2561847046017647,
      "step": 788
    },
    {
      "epoch": 0.1315,
      "grad_norm": 26.375,
      "grad_norm_var": 5.713997395833333,
      "learning_rate": 9.580415049609503e-05,
      "loss": 6.982,
      "loss/crossentropy": 2.383569300174713,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1847519651055336,
      "step": 789
    },
    {
      "epoch": 0.13166666666666665,
      "grad_norm": 30.375,
      "grad_norm_var": 5.6712890625,
      "learning_rate": 9.579364635883048e-05,
      "loss": 6.4862,
      "loss/crossentropy": 1.369117945432663,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13245585188269615,
      "step": 790
    },
    {
      "epoch": 0.13183333333333333,
      "grad_norm": 30.875,
      "grad_norm_var": 4.759309895833334,
      "learning_rate": 9.578312966697807e-05,
      "loss": 7.1771,
      "loss/crossentropy": 2.042441338300705,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22358595207333565,
      "step": 791
    },
    {
      "epoch": 0.132,
      "grad_norm": 30.875,
      "grad_norm_var": 4.177018229166666,
      "learning_rate": 9.577260042342097e-05,
      "loss": 6.8503,
      "loss/crossentropy": 1.5456407964229584,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15839309990406036,
      "step": 792
    },
    {
      "epoch": 0.13216666666666665,
      "grad_norm": 30.0,
      "grad_norm_var": 4.041666666666667,
      "learning_rate": 9.576205863104588e-05,
      "loss": 6.7188,
      "loss/crossentropy": 1.8247463256120682,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1572584118694067,
      "step": 793
    },
    {
      "epoch": 0.13233333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 4.6072265625,
      "learning_rate": 9.575150429274287e-05,
      "loss": 6.7608,
      "loss/crossentropy": 1.0372321158647537,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14176041074097157,
      "step": 794
    },
    {
      "epoch": 0.1325,
      "grad_norm": 26.25,
      "grad_norm_var": 5.7119140625,
      "learning_rate": 9.574093741140549e-05,
      "loss": 6.6846,
      "loss/crossentropy": 1.240045703947544,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14266852848231792,
      "step": 795
    },
    {
      "epoch": 0.13266666666666665,
      "grad_norm": 30.375,
      "grad_norm_var": 5.6634765625,
      "learning_rate": 9.573035798993069e-05,
      "loss": 6.9076,
      "loss/crossentropy": 1.8248577117919922,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23838410340249538,
      "step": 796
    },
    {
      "epoch": 0.13283333333333333,
      "grad_norm": 4177526784.0,
      "grad_norm_var": 1.0907331111261569e+18,
      "learning_rate": 9.571976603121888e-05,
      "loss": 7.2423,
      "loss/crossentropy": 1.316101610660553,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2635743021965027,
      "step": 797
    },
    {
      "epoch": 0.133,
      "grad_norm": 37.75,
      "grad_norm_var": 1.0907331108128424e+18,
      "learning_rate": 9.570916153817391e-05,
      "loss": 6.223,
      "loss/crossentropy": 1.5232540667057037,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1748909205198288,
      "step": 798
    },
    {
      "epoch": 0.13316666666666666,
      "grad_norm": 33.25,
      "grad_norm_var": 1.0907331107475685e+18,
      "learning_rate": 9.569854451370307e-05,
      "loss": 6.7389,
      "loss/crossentropy": 1.303069368004799,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25480288080871105,
      "step": 799
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 36.25,
      "grad_norm_var": 1.0907331107127558e+18,
      "learning_rate": 9.568791496071706e-05,
      "loss": 7.1203,
      "loss/crossentropy": 1.5637471973896027,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16657356172800064,
      "step": 800
    },
    {
      "epoch": 0.1335,
      "grad_norm": 32.0,
      "grad_norm_var": 1.0907331107736781e+18,
      "learning_rate": 9.567727288213005e-05,
      "loss": 6.4694,
      "loss/crossentropy": 1.200748085975647,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10192291811108589,
      "step": 801
    },
    {
      "epoch": 0.13366666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 1.090733110817194e+18,
      "learning_rate": 9.56666182808596e-05,
      "loss": 6.7045,
      "loss/crossentropy": 1.2447317093610764,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1798014249652624,
      "step": 802
    },
    {
      "epoch": 0.13383333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 1.0907331108215456e+18,
      "learning_rate": 9.565595115982678e-05,
      "loss": 6.9973,
      "loss/crossentropy": 1.0941070914268494,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20473548583686352,
      "step": 803
    },
    {
      "epoch": 0.134,
      "grad_norm": 30.25,
      "grad_norm_var": 1.090733110838952e+18,
      "learning_rate": 9.5645271521956e-05,
      "loss": 6.9191,
      "loss/crossentropy": 1.1080967336893082,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13076345063745975,
      "step": 804
    },
    {
      "epoch": 0.13416666666666666,
      "grad_norm": 28.25,
      "grad_norm_var": 1.0907331107736781e+18,
      "learning_rate": 9.563457937017515e-05,
      "loss": 6.3146,
      "loss/crossentropy": 1.2985542491078377,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18152809981256723,
      "step": 805
    },
    {
      "epoch": 0.13433333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 1.0907331108824678e+18,
      "learning_rate": 9.562387470741554e-05,
      "loss": 6.3556,
      "loss/crossentropy": 1.5479900687932968,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15538710355758667,
      "step": 806
    },
    {
      "epoch": 0.1345,
      "grad_norm": 28.625,
      "grad_norm_var": 1.0907331109607964e+18,
      "learning_rate": 9.561315753661194e-05,
      "loss": 7.2221,
      "loss/crossentropy": 1.285927951335907,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2129192315042019,
      "step": 807
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 29.75,
      "grad_norm_var": 1.0907331109999608e+18,
      "learning_rate": 9.560242786070249e-05,
      "loss": 6.9297,
      "loss/crossentropy": 1.8271296620368958,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20804137364029884,
      "step": 808
    },
    {
      "epoch": 0.13483333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 1.0907331111435633e+18,
      "learning_rate": 9.55916856826288e-05,
      "loss": 6.2083,
      "loss/crossentropy": 1.7633541822433472,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1793544664978981,
      "step": 809
    },
    {
      "epoch": 0.135,
      "grad_norm": 30.75,
      "grad_norm_var": 1.0907331110347735e+18,
      "learning_rate": 9.558093100533591e-05,
      "loss": 6.6219,
      "loss/crossentropy": 1.89547860622406,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18614793568849564,
      "step": 810
    },
    {
      "epoch": 0.13516666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 1.0907331108737646e+18,
      "learning_rate": 9.557016383177227e-05,
      "loss": 6.849,
      "loss/crossentropy": 1.5208584070205688,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16671922616660595,
      "step": 811
    },
    {
      "epoch": 0.13533333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 1.0907331108911711e+18,
      "learning_rate": 9.555938416488977e-05,
      "loss": 6.7214,
      "loss/crossentropy": 1.7651298642158508,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20645348727703094,
      "step": 812
    },
    {
      "epoch": 0.1355,
      "grad_norm": 30.125,
      "grad_norm_var": 9.2353515625,
      "learning_rate": 9.55485920076437e-05,
      "loss": 7.0837,
      "loss/crossentropy": 0.8462116047739983,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12763971276581287,
      "step": 813
    },
    {
      "epoch": 0.13566666666666666,
      "grad_norm": 31.625,
      "grad_norm_var": 5.81875,
      "learning_rate": 9.553778736299279e-05,
      "loss": 6.8846,
      "loss/crossentropy": 1.8222520351409912,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15145867317914963,
      "step": 814
    },
    {
      "epoch": 0.13583333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 6.02265625,
      "learning_rate": 9.552697023389922e-05,
      "loss": 6.3034,
      "loss/crossentropy": 1.5191392451524734,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1477720383554697,
      "step": 815
    },
    {
      "epoch": 0.136,
      "grad_norm": 25.625,
      "grad_norm_var": 4.069205729166667,
      "learning_rate": 9.551614062332856e-05,
      "loss": 6.3766,
      "loss/crossentropy": 1.2401023209095001,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1795745911076665,
      "step": 816
    },
    {
      "epoch": 0.13616666666666666,
      "grad_norm": 27.375,
      "grad_norm_var": 3.6958333333333333,
      "learning_rate": 9.550529853424979e-05,
      "loss": 6.3193,
      "loss/crossentropy": 1.1493524312973022,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13225699588656425,
      "step": 817
    },
    {
      "epoch": 0.13633333333333333,
      "grad_norm": 29.0,
      "grad_norm_var": 3.3958333333333335,
      "learning_rate": 9.549444396963534e-05,
      "loss": 7.074,
      "loss/crossentropy": 1.3883174806833267,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1946331448853016,
      "step": 818
    },
    {
      "epoch": 0.1365,
      "grad_norm": 28.625,
      "grad_norm_var": 3.3837890625,
      "learning_rate": 9.548357693246105e-05,
      "loss": 6.8662,
      "loss/crossentropy": 1.4820697605609894,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1775229312479496,
      "step": 819
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 3.2353515625,
      "learning_rate": 9.547269742570619e-05,
      "loss": 6.7228,
      "loss/crossentropy": 1.665278211236,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15727989003062248,
      "step": 820
    },
    {
      "epoch": 0.13683333333333333,
      "grad_norm": 31.0,
      "grad_norm_var": 3.5447265625,
      "learning_rate": 9.546180545235344e-05,
      "loss": 6.7407,
      "loss/crossentropy": 1.2566642463207245,
      "loss/hidden": 3.67578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18570634350180626,
      "step": 821
    },
    {
      "epoch": 0.137,
      "grad_norm": 29.0,
      "grad_norm_var": 3.3587890625,
      "learning_rate": 9.545090101538887e-05,
      "loss": 6.8989,
      "loss/crossentropy": 1.448990821838379,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20253212377429008,
      "step": 822
    },
    {
      "epoch": 0.13716666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 3.3587890625,
      "learning_rate": 9.543998411780201e-05,
      "loss": 7.0963,
      "loss/crossentropy": 1.3227804154157639,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15900520235300064,
      "step": 823
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 3.3181640625,
      "learning_rate": 9.54290547625858e-05,
      "loss": 6.8576,
      "loss/crossentropy": 1.068933516740799,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12162080220878124,
      "step": 824
    },
    {
      "epoch": 0.1375,
      "grad_norm": 29.875,
      "grad_norm_var": 2.6973307291666666,
      "learning_rate": 9.541811295273656e-05,
      "loss": 6.8121,
      "loss/crossentropy": 1.1542446911334991,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15490317158401012,
      "step": 825
    },
    {
      "epoch": 0.13766666666666666,
      "grad_norm": 29.125,
      "grad_norm_var": 2.51875,
      "learning_rate": 9.540715869125407e-05,
      "loss": 6.9212,
      "loss/crossentropy": 1.4736111089587212,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14284480456262827,
      "step": 826
    },
    {
      "epoch": 0.13783333333333334,
      "grad_norm": 30.75,
      "grad_norm_var": 2.489518229166667,
      "learning_rate": 9.53961919811415e-05,
      "loss": 6.842,
      "loss/crossentropy": 1.7014836072921753,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17102410830557346,
      "step": 827
    },
    {
      "epoch": 0.138,
      "grad_norm": 30.375,
      "grad_norm_var": 2.559830729166667,
      "learning_rate": 9.538521282540542e-05,
      "loss": 6.5574,
      "loss/crossentropy": 1.2606604620814323,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17054615262895823,
      "step": 828
    },
    {
      "epoch": 0.13816666666666666,
      "grad_norm": 28.875,
      "grad_norm_var": 2.4843098958333334,
      "learning_rate": 9.537422122705585e-05,
      "loss": 6.4654,
      "loss/crossentropy": 1.3435598015785217,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11619688849896193,
      "step": 829
    },
    {
      "epoch": 0.13833333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 2.028580729166667,
      "learning_rate": 9.536321718910619e-05,
      "loss": 6.3738,
      "loss/crossentropy": 1.076637014746666,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10972944647073746,
      "step": 830
    },
    {
      "epoch": 0.1385,
      "grad_norm": 29.875,
      "grad_norm_var": 1.7104166666666667,
      "learning_rate": 9.535220071457325e-05,
      "loss": 6.6418,
      "loss/crossentropy": 1.7037672102451324,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20552153512835503,
      "step": 831
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 0.9379557291666667,
      "learning_rate": 9.534117180647728e-05,
      "loss": 6.547,
      "loss/crossentropy": 1.7507948279380798,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20301245152950287,
      "step": 832
    },
    {
      "epoch": 0.13883333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 1.4916666666666667,
      "learning_rate": 9.533013046784189e-05,
      "loss": 6.952,
      "loss/crossentropy": 1.8267524242401123,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16741746850311756,
      "step": 833
    },
    {
      "epoch": 0.139,
      "grad_norm": 28.25,
      "grad_norm_var": 1.5893229166666667,
      "learning_rate": 9.531907670169415e-05,
      "loss": 6.6224,
      "loss/crossentropy": 1.732950508594513,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18124941363930702,
      "step": 834
    },
    {
      "epoch": 0.13916666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 1.5504557291666667,
      "learning_rate": 9.530801051106449e-05,
      "loss": 6.8669,
      "loss/crossentropy": 1.1107327789068222,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16977784968912601,
      "step": 835
    },
    {
      "epoch": 0.13933333333333334,
      "grad_norm": 29.125,
      "grad_norm_var": 1.54140625,
      "learning_rate": 9.52969318989868e-05,
      "loss": 6.7344,
      "loss/crossentropy": 1.324594423174858,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14172261767089367,
      "step": 836
    },
    {
      "epoch": 0.1395,
      "grad_norm": 29.5,
      "grad_norm_var": 1.40390625,
      "learning_rate": 9.528584086849832e-05,
      "loss": 6.7147,
      "loss/crossentropy": 1.3007304072380066,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11234837584197521,
      "step": 837
    },
    {
      "epoch": 0.13966666666666666,
      "grad_norm": 30.0,
      "grad_norm_var": 1.39765625,
      "learning_rate": 9.527473742263973e-05,
      "loss": 6.7973,
      "loss/crossentropy": 1.5427119061350822,
      "loss/hidden": 3.82421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24523010104894638,
      "step": 838
    },
    {
      "epoch": 0.13983333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 1.4768229166666667,
      "learning_rate": 9.526362156445507e-05,
      "loss": 6.6099,
      "loss/crossentropy": 1.4119697362184525,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17216363549232483,
      "step": 839
    },
    {
      "epoch": 0.14,
      "grad_norm": 33.0,
      "grad_norm_var": 2.154166666666667,
      "learning_rate": 9.525249329699188e-05,
      "loss": 7.2271,
      "loss/crossentropy": 1.9238676130771637,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23542418703436852,
      "step": 840
    },
    {
      "epoch": 0.14016666666666666,
      "grad_norm": 31.125,
      "grad_norm_var": 2.2622395833333333,
      "learning_rate": 9.524135262330098e-05,
      "loss": 7.499,
      "loss/crossentropy": 2.2861229181289673,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19216257333755493,
      "step": 841
    },
    {
      "epoch": 0.14033333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 2.4268229166666666,
      "learning_rate": 9.523019954643669e-05,
      "loss": 6.5638,
      "loss/crossentropy": 1.3084105104207993,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12469115294516087,
      "step": 842
    },
    {
      "epoch": 0.1405,
      "grad_norm": 29.375,
      "grad_norm_var": 2.3759765625,
      "learning_rate": 9.521903406945664e-05,
      "loss": 6.8629,
      "loss/crossentropy": 1.6192159950733185,
      "loss/hidden": 3.76953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20565154030919075,
      "step": 843
    },
    {
      "epoch": 0.14066666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 2.3587890625,
      "learning_rate": 9.520785619542196e-05,
      "loss": 6.7475,
      "loss/crossentropy": 1.7351672053337097,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1903889775276184,
      "step": 844
    },
    {
      "epoch": 0.14083333333333334,
      "grad_norm": 32.25,
      "grad_norm_var": 2.6875,
      "learning_rate": 9.519666592739709e-05,
      "loss": 6.9226,
      "loss/crossentropy": 1.676860898733139,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17689999006688595,
      "step": 845
    },
    {
      "epoch": 0.141,
      "grad_norm": 29.25,
      "grad_norm_var": 2.4947265625,
      "learning_rate": 9.518546326844993e-05,
      "loss": 6.9766,
      "loss/crossentropy": 2.105147272348404,
      "loss/hidden": 3.85546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26574863865971565,
      "step": 846
    },
    {
      "epoch": 0.14116666666666666,
      "grad_norm": 29.375,
      "grad_norm_var": 2.5192057291666665,
      "learning_rate": 9.517424822165175e-05,
      "loss": 6.7578,
      "loss/crossentropy": 1.2014988660812378,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22761327400803566,
      "step": 847
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 28.625,
      "grad_norm_var": 2.633072916666667,
      "learning_rate": 9.516302079007719e-05,
      "loss": 7.1276,
      "loss/crossentropy": 1.5993420332670212,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2370535023510456,
      "step": 848
    },
    {
      "epoch": 0.1415,
      "grad_norm": 30.0,
      "grad_norm_var": 1.9518229166666667,
      "learning_rate": 9.515178097680437e-05,
      "loss": 6.9106,
      "loss/crossentropy": 1.61234450340271,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22792143002152443,
      "step": 849
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 30.625,
      "grad_norm_var": 1.8442057291666667,
      "learning_rate": 9.51405287849147e-05,
      "loss": 6.9403,
      "loss/crossentropy": 1.6368253529071808,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2259569726884365,
      "step": 850
    },
    {
      "epoch": 0.14183333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 2.004622395833333,
      "learning_rate": 9.512926421749304e-05,
      "loss": 6.9868,
      "loss/crossentropy": 1.7041020095348358,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19391244649887085,
      "step": 851
    },
    {
      "epoch": 0.142,
      "grad_norm": 29.375,
      "grad_norm_var": 1.9785807291666666,
      "learning_rate": 9.511798727762764e-05,
      "loss": 6.4189,
      "loss/crossentropy": 1.373700737953186,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15583642199635506,
      "step": 852
    },
    {
      "epoch": 0.14216666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 2.0004557291666667,
      "learning_rate": 9.510669796841014e-05,
      "loss": 6.9529,
      "loss/crossentropy": 1.485058069229126,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2598130479454994,
      "step": 853
    },
    {
      "epoch": 0.14233333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 2.0104166666666665,
      "learning_rate": 9.509539629293558e-05,
      "loss": 6.7833,
      "loss/crossentropy": 1.528167724609375,
      "loss/hidden": 3.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.35026970505714417,
      "step": 854
    },
    {
      "epoch": 0.1425,
      "grad_norm": 31.5,
      "grad_norm_var": 1.8785807291666667,
      "learning_rate": 9.508408225430237e-05,
      "loss": 6.6249,
      "loss/crossentropy": 1.8074993342161179,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17642150819301605,
      "step": 855
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 1.3910807291666667,
      "learning_rate": 9.507275585561229e-05,
      "loss": 6.9863,
      "loss/crossentropy": 1.498419925570488,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14689111337065697,
      "step": 856
    },
    {
      "epoch": 0.14283333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 1.4879557291666667,
      "learning_rate": 9.506141709997057e-05,
      "loss": 6.565,
      "loss/crossentropy": 1.1097244322299957,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13454408384859562,
      "step": 857
    },
    {
      "epoch": 0.143,
      "grad_norm": 28.5,
      "grad_norm_var": 1.4143229166666667,
      "learning_rate": 9.505006599048579e-05,
      "loss": 6.8645,
      "loss/crossentropy": 2.0309173464775085,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21611754968762398,
      "step": 858
    },
    {
      "epoch": 0.14316666666666666,
      "grad_norm": 26.625,
      "grad_norm_var": 2.0416666666666665,
      "learning_rate": 9.503870253026991e-05,
      "loss": 6.9038,
      "loss/crossentropy": 1.1781870126724243,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13299256563186646,
      "step": 859
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 27.625,
      "grad_norm_var": 2.265625,
      "learning_rate": 9.50273267224383e-05,
      "loss": 6.5733,
      "loss/crossentropy": 1.3335058093070984,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12909270077943802,
      "step": 860
    },
    {
      "epoch": 0.1435,
      "grad_norm": 29.375,
      "grad_norm_var": 1.7160807291666667,
      "learning_rate": 9.501593857010969e-05,
      "loss": 6.4952,
      "loss/crossentropy": 1.3636210933327675,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1412863340228796,
      "step": 861
    },
    {
      "epoch": 0.14366666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 1.8488932291666667,
      "learning_rate": 9.50045380764062e-05,
      "loss": 6.9494,
      "loss/crossentropy": 1.5361263453960419,
      "loss/hidden": 3.69140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25922345742583275,
      "step": 862
    },
    {
      "epoch": 0.14383333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 1.8739583333333334,
      "learning_rate": 9.499312524445336e-05,
      "loss": 7.1393,
      "loss/crossentropy": 1.6427059173583984,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17301714606583118,
      "step": 863
    },
    {
      "epoch": 0.144,
      "grad_norm": 29.125,
      "grad_norm_var": 1.8416666666666666,
      "learning_rate": 9.498170007738005e-05,
      "loss": 6.7791,
      "loss/crossentropy": 1.8128132969141006,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15439187735319138,
      "step": 864
    },
    {
      "epoch": 0.14416666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 2.1186848958333333,
      "learning_rate": 9.497026257831855e-05,
      "loss": 6.5659,
      "loss/crossentropy": 2.2501683235168457,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21063398197293282,
      "step": 865
    },
    {
      "epoch": 0.14433333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 1.9905598958333333,
      "learning_rate": 9.495881275040453e-05,
      "loss": 6.6395,
      "loss/crossentropy": 1.250039003789425,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12767360918223858,
      "step": 866
    },
    {
      "epoch": 0.1445,
      "grad_norm": 29.625,
      "grad_norm_var": 1.53125,
      "learning_rate": 9.494735059677699e-05,
      "loss": 6.7208,
      "loss/crossentropy": 1.3687303513288498,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21333901584148407,
      "step": 867
    },
    {
      "epoch": 0.14466666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 1.6572265625,
      "learning_rate": 9.493587612057837e-05,
      "loss": 6.4006,
      "loss/crossentropy": 1.7404839247465134,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1315847784280777,
      "step": 868
    },
    {
      "epoch": 0.14483333333333334,
      "grad_norm": 28.625,
      "grad_norm_var": 1.6510416666666667,
      "learning_rate": 9.492438932495444e-05,
      "loss": 6.8423,
      "loss/crossentropy": 1.8640455901622772,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18806974962353706,
      "step": 869
    },
    {
      "epoch": 0.145,
      "grad_norm": 31.75,
      "grad_norm_var": 2.1546223958333335,
      "learning_rate": 9.491289021305441e-05,
      "loss": 7.3314,
      "loss/crossentropy": 2.117801755666733,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2098713479936123,
      "step": 870
    },
    {
      "epoch": 0.14516666666666667,
      "grad_norm": 28.125,
      "grad_norm_var": 1.7309895833333333,
      "learning_rate": 9.490137878803079e-05,
      "loss": 6.7026,
      "loss/crossentropy": 0.8712976723909378,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19407054781913757,
      "step": 871
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 2.0093098958333333,
      "learning_rate": 9.488985505303951e-05,
      "loss": 6.7614,
      "loss/crossentropy": 1.5071170665323734,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20746826520189643,
      "step": 872
    },
    {
      "epoch": 0.1455,
      "grad_norm": 30.25,
      "grad_norm_var": 2.0768229166666665,
      "learning_rate": 9.487831901123988e-05,
      "loss": 6.8808,
      "loss/crossentropy": 1.5924786031246185,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23435182869434357,
      "step": 873
    },
    {
      "epoch": 0.14566666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 2.097916666666667,
      "learning_rate": 9.486677066579456e-05,
      "loss": 6.7799,
      "loss/crossentropy": 1.5978667587041855,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14294573664665222,
      "step": 874
    },
    {
      "epoch": 0.14583333333333334,
      "grad_norm": 29.375,
      "grad_norm_var": 1.6997395833333333,
      "learning_rate": 9.485521001986962e-05,
      "loss": 6.7737,
      "loss/crossentropy": 1.509243592619896,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1823038011789322,
      "step": 875
    },
    {
      "epoch": 0.146,
      "grad_norm": 30.0,
      "grad_norm_var": 1.5624348958333334,
      "learning_rate": 9.484363707663442e-05,
      "loss": 6.6774,
      "loss/crossentropy": 1.0428966879844666,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17252317816019058,
      "step": 876
    },
    {
      "epoch": 0.14616666666666667,
      "grad_norm": 31.25,
      "grad_norm_var": 1.7958333333333334,
      "learning_rate": 9.483205183926181e-05,
      "loss": 6.588,
      "loss/crossentropy": 0.949081763625145,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10428016912192106,
      "step": 877
    },
    {
      "epoch": 0.14633333333333334,
      "grad_norm": 28.25,
      "grad_norm_var": 1.7489583333333334,
      "learning_rate": 9.48204543109279e-05,
      "loss": 6.8537,
      "loss/crossentropy": 1.753394454717636,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21356584876775742,
      "step": 878
    },
    {
      "epoch": 0.1465,
      "grad_norm": 29.375,
      "grad_norm_var": 1.7291015625,
      "learning_rate": 9.480884449481225e-05,
      "loss": 6.8986,
      "loss/crossentropy": 1.2782315462827682,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15598896704614162,
      "step": 879
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 27.0,
      "grad_norm_var": 2.066666666666667,
      "learning_rate": 9.479722239409775e-05,
      "loss": 6.6731,
      "loss/crossentropy": 1.4414279013872147,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15914863720536232,
      "step": 880
    },
    {
      "epoch": 0.14683333333333334,
      "grad_norm": 29.25,
      "grad_norm_var": 1.7645182291666666,
      "learning_rate": 9.478558801197065e-05,
      "loss": 6.6562,
      "loss/crossentropy": 1.2711293995380402,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13687402941286564,
      "step": 881
    },
    {
      "epoch": 0.147,
      "grad_norm": 28.75,
      "grad_norm_var": 1.7768229166666667,
      "learning_rate": 9.47739413516206e-05,
      "loss": 6.571,
      "loss/crossentropy": 1.1690870523452759,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1315490622073412,
      "step": 882
    },
    {
      "epoch": 0.14716666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 1.934375,
      "learning_rate": 9.476228241624059e-05,
      "loss": 7.6772,
      "loss/crossentropy": 1.6540156453847885,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19950690492987633,
      "step": 883
    },
    {
      "epoch": 0.14733333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 1.6942057291666666,
      "learning_rate": 9.475061120902698e-05,
      "loss": 6.6939,
      "loss/crossentropy": 1.4847566783428192,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1577866580337286,
      "step": 884
    },
    {
      "epoch": 0.1475,
      "grad_norm": 30.375,
      "grad_norm_var": 1.6869140625,
      "learning_rate": 9.473892773317952e-05,
      "loss": 6.7253,
      "loss/crossentropy": 1.3767812550067902,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2304423786699772,
      "step": 885
    },
    {
      "epoch": 0.14766666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 1.5895182291666667,
      "learning_rate": 9.472723199190125e-05,
      "loss": 6.7192,
      "loss/crossentropy": 1.6085245311260223,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16864492185413837,
      "step": 886
    },
    {
      "epoch": 0.14783333333333334,
      "grad_norm": 27.75,
      "grad_norm_var": 1.6580729166666666,
      "learning_rate": 9.47155239883987e-05,
      "loss": 6.7612,
      "loss/crossentropy": 1.3260292783379555,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14614624343812466,
      "step": 887
    },
    {
      "epoch": 0.148,
      "grad_norm": 29.5,
      "grad_norm_var": 1.4869140625,
      "learning_rate": 9.470380372588162e-05,
      "loss": 6.8686,
      "loss/crossentropy": 1.4136118963360786,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24818306602537632,
      "step": 888
    },
    {
      "epoch": 0.14816666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 1.5785807291666667,
      "learning_rate": 9.46920712075632e-05,
      "loss": 6.8164,
      "loss/crossentropy": 1.8791348934173584,
      "loss/hidden": 4.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27732761949300766,
      "step": 889
    },
    {
      "epoch": 0.14833333333333334,
      "grad_norm": 30.25,
      "grad_norm_var": 1.6181640625,
      "learning_rate": 9.468032643665998e-05,
      "loss": 6.5978,
      "loss/crossentropy": 1.3766923397779465,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14428966492414474,
      "step": 890
    },
    {
      "epoch": 0.1485,
      "grad_norm": 29.375,
      "grad_norm_var": 1.6181640625,
      "learning_rate": 9.466856941639188e-05,
      "loss": 6.7711,
      "loss/crossentropy": 1.2270091325044632,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16888568736612797,
      "step": 891
    },
    {
      "epoch": 0.14866666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 1.5764973958333333,
      "learning_rate": 9.465680014998213e-05,
      "loss": 7.069,
      "loss/crossentropy": 1.7997345924377441,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17343921586871147,
      "step": 892
    },
    {
      "epoch": 0.14883333333333335,
      "grad_norm": 30.5,
      "grad_norm_var": 1.3952473958333333,
      "learning_rate": 9.464501864065735e-05,
      "loss": 6.9376,
      "loss/crossentropy": 1.4494410380721092,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29051431082189083,
      "step": 893
    },
    {
      "epoch": 0.149,
      "grad_norm": 29.625,
      "grad_norm_var": 1.36875,
      "learning_rate": 9.46332248916475e-05,
      "loss": 6.652,
      "loss/crossentropy": 1.5664034485816956,
      "loss/hidden": 3.6875,
      "loss/jsd": 0.0,
      "loss/logits": 0.35951946675777435,
      "step": 894
    },
    {
      "epoch": 0.14916666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 1.61015625,
      "learning_rate": 9.46214189061859e-05,
      "loss": 6.356,
      "loss/crossentropy": 1.777071237564087,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22660009935498238,
      "step": 895
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 25.5,
      "grad_norm_var": 2.14765625,
      "learning_rate": 9.460960068750924e-05,
      "loss": 6.7566,
      "loss/crossentropy": 1.2509669959545135,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1698252372443676,
      "step": 896
    },
    {
      "epoch": 0.1495,
      "grad_norm": 28.375,
      "grad_norm_var": 2.153580729166667,
      "learning_rate": 9.459777023885755e-05,
      "loss": 6.7189,
      "loss/crossentropy": 1.807364284992218,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18868035450577736,
      "step": 897
    },
    {
      "epoch": 0.14966666666666667,
      "grad_norm": 28.625,
      "grad_norm_var": 2.155989583333333,
      "learning_rate": 9.458592756347419e-05,
      "loss": 6.9761,
      "loss/crossentropy": 1.522624596953392,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12400520220398903,
      "step": 898
    },
    {
      "epoch": 0.14983333333333335,
      "grad_norm": 28.875,
      "grad_norm_var": 1.86015625,
      "learning_rate": 9.457407266460593e-05,
      "loss": 6.648,
      "loss/crossentropy": 1.2911832630634308,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16489013843238354,
      "step": 899
    },
    {
      "epoch": 0.15,
      "grad_norm": 30.875,
      "grad_norm_var": 2.111458333333333,
      "learning_rate": 9.456220554550285e-05,
      "loss": 7.0601,
      "loss/crossentropy": 2.048378899693489,
      "loss/hidden": 3.72265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25268127024173737,
      "step": 900
    },
    {
      "epoch": 0.15016666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 1.9311848958333333,
      "learning_rate": 9.45503262094184e-05,
      "loss": 6.5816,
      "loss/crossentropy": 1.9151304364204407,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1854175217449665,
      "step": 901
    },
    {
      "epoch": 0.15033333333333335,
      "grad_norm": 28.375,
      "grad_norm_var": 1.84140625,
      "learning_rate": 9.453843465960933e-05,
      "loss": 6.5712,
      "loss/crossentropy": 1.3903828710317612,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12931624799966812,
      "step": 902
    },
    {
      "epoch": 0.1505,
      "grad_norm": 29.375,
      "grad_norm_var": 1.7931640625,
      "learning_rate": 9.45265308993358e-05,
      "loss": 6.6937,
      "loss/crossentropy": 0.884873166680336,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2095654346048832,
      "step": 903
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 1.9103515625,
      "learning_rate": 9.451461493186129e-05,
      "loss": 6.4043,
      "loss/crossentropy": 1.432923972606659,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.1620604507625103,
      "step": 904
    },
    {
      "epoch": 0.15083333333333335,
      "grad_norm": 32.25,
      "grad_norm_var": 2.5634765625,
      "learning_rate": 9.450268676045262e-05,
      "loss": 7.1785,
      "loss/crossentropy": 1.5224296301603317,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21086937934160233,
      "step": 905
    },
    {
      "epoch": 0.151,
      "grad_norm": 27.625,
      "grad_norm_var": 2.55390625,
      "learning_rate": 9.449074638837999e-05,
      "loss": 6.8505,
      "loss/crossentropy": 2.0315501987934113,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1887502819299698,
      "step": 906
    },
    {
      "epoch": 0.15116666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 2.55390625,
      "learning_rate": 9.447879381891692e-05,
      "loss": 6.8196,
      "loss/crossentropy": 2.0016221404075623,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21317322179675102,
      "step": 907
    },
    {
      "epoch": 0.15133333333333332,
      "grad_norm": 28.625,
      "grad_norm_var": 2.5561848958333333,
      "learning_rate": 9.446682905534023e-05,
      "loss": 6.6458,
      "loss/crossentropy": 1.3033087104558945,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18597162887454033,
      "step": 908
    },
    {
      "epoch": 0.1515,
      "grad_norm": 27.25,
      "grad_norm_var": 2.4884765625,
      "learning_rate": 9.445485210093017e-05,
      "loss": 6.8986,
      "loss/crossentropy": 1.48745097219944,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17175030894577503,
      "step": 909
    },
    {
      "epoch": 0.15166666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 2.47265625,
      "learning_rate": 9.444286295897028e-05,
      "loss": 6.796,
      "loss/crossentropy": 1.6483173668384552,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1788303665816784,
      "step": 910
    },
    {
      "epoch": 0.15183333333333332,
      "grad_norm": 28.125,
      "grad_norm_var": 2.3372395833333335,
      "learning_rate": 9.443086163274745e-05,
      "loss": 7.2361,
      "loss/crossentropy": 1.427602395415306,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25849100202322006,
      "step": 911
    },
    {
      "epoch": 0.152,
      "grad_norm": 27.625,
      "grad_norm_var": 1.7207682291666666,
      "learning_rate": 9.44188481255519e-05,
      "loss": 6.928,
      "loss/crossentropy": 1.5816201120615005,
      "loss/hidden": 3.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30472470447421074,
      "step": 912
    },
    {
      "epoch": 0.15216666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 1.8643229166666666,
      "learning_rate": 9.440682244067724e-05,
      "loss": 6.9598,
      "loss/crossentropy": 1.9130527079105377,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2092103734612465,
      "step": 913
    },
    {
      "epoch": 0.15233333333333332,
      "grad_norm": 27.625,
      "grad_norm_var": 1.94140625,
      "learning_rate": 9.439478458142033e-05,
      "loss": 6.9606,
      "loss/crossentropy": 1.0294331312179565,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15341288968920708,
      "step": 914
    },
    {
      "epoch": 0.1525,
      "grad_norm": 29.0,
      "grad_norm_var": 1.9457682291666667,
      "learning_rate": 9.438273455108144e-05,
      "loss": 6.7431,
      "loss/crossentropy": 1.5968154817819595,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1610046774148941,
      "step": 915
    },
    {
      "epoch": 0.15266666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 1.9457682291666667,
      "learning_rate": 9.437067235296418e-05,
      "loss": 7.1008,
      "loss/crossentropy": 1.4984619095921516,
      "loss/hidden": 3.74609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18942087143659592,
      "step": 916
    },
    {
      "epoch": 0.15283333333333332,
      "grad_norm": 32.75,
      "grad_norm_var": 2.983268229166667,
      "learning_rate": 9.43585979903754e-05,
      "loss": 7.1829,
      "loss/crossentropy": 1.5713898837566376,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1644783318042755,
      "step": 917
    },
    {
      "epoch": 0.153,
      "grad_norm": 28.75,
      "grad_norm_var": 2.9643229166666667,
      "learning_rate": 9.434651146662543e-05,
      "loss": 6.81,
      "loss/crossentropy": 1.022684097290039,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16458085924386978,
      "step": 918
    },
    {
      "epoch": 0.15316666666666667,
      "grad_norm": 32.25,
      "grad_norm_var": 3.6426432291666666,
      "learning_rate": 9.433441278502783e-05,
      "loss": 7.3599,
      "loss/crossentropy": 1.779938131570816,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.33398906514048576,
      "step": 919
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 29.75,
      "grad_norm_var": 3.4056640625,
      "learning_rate": 9.43223019488995e-05,
      "loss": 7.3089,
      "loss/crossentropy": 1.5696324706077576,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16729436069726944,
      "step": 920
    },
    {
      "epoch": 0.1535,
      "grad_norm": 30.75,
      "grad_norm_var": 2.9541015625,
      "learning_rate": 9.431017896156074e-05,
      "loss": 7.0047,
      "loss/crossentropy": 1.3372326716780663,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17373233661055565,
      "step": 921
    },
    {
      "epoch": 0.15366666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 2.7791015625,
      "learning_rate": 9.42980438263351e-05,
      "loss": 6.863,
      "loss/crossentropy": 1.808920294046402,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24913391843438148,
      "step": 922
    },
    {
      "epoch": 0.15383333333333332,
      "grad_norm": 30.0,
      "grad_norm_var": 2.809375,
      "learning_rate": 9.428589654654951e-05,
      "loss": 6.683,
      "loss/crossentropy": 1.5314701944589615,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14396323077380657,
      "step": 923
    },
    {
      "epoch": 0.154,
      "grad_norm": 30.375,
      "grad_norm_var": 2.8330729166666666,
      "learning_rate": 9.42737371255342e-05,
      "loss": 6.6809,
      "loss/crossentropy": 1.5369913876056671,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1440065409988165,
      "step": 924
    },
    {
      "epoch": 0.15416666666666667,
      "grad_norm": 27.625,
      "grad_norm_var": 2.731705729166667,
      "learning_rate": 9.426156556662276e-05,
      "loss": 6.6101,
      "loss/crossentropy": 1.5807256698608398,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15959331579506397,
      "step": 925
    },
    {
      "epoch": 0.15433333333333332,
      "grad_norm": 29.25,
      "grad_norm_var": 2.7348307291666667,
      "learning_rate": 9.42493818731521e-05,
      "loss": 6.7241,
      "loss/crossentropy": 1.9071035385131836,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2186364307999611,
      "step": 926
    },
    {
      "epoch": 0.1545,
      "grad_norm": 29.5,
      "grad_norm_var": 2.6080729166666665,
      "learning_rate": 9.423718604846243e-05,
      "loss": 7.0448,
      "loss/crossentropy": 1.6829068064689636,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26727957278490067,
      "step": 927
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 29.125,
      "grad_norm_var": 2.3643229166666666,
      "learning_rate": 9.422497809589731e-05,
      "loss": 7.1008,
      "loss/crossentropy": 1.8336281776428223,
      "loss/hidden": 3.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2665562555193901,
      "step": 928
    },
    {
      "epoch": 0.15483333333333332,
      "grad_norm": 28.625,
      "grad_norm_var": 2.044205729166667,
      "learning_rate": 9.421275801880362e-05,
      "loss": 6.7488,
      "loss/crossentropy": 1.202999860048294,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1640343815088272,
      "step": 929
    },
    {
      "epoch": 0.155,
      "grad_norm": 26.875,
      "grad_norm_var": 2.2895182291666667,
      "learning_rate": 9.420052582053157e-05,
      "loss": 6.3745,
      "loss/crossentropy": 0.9804428443312645,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1364411050453782,
      "step": 930
    },
    {
      "epoch": 0.15516666666666667,
      "grad_norm": 30.875,
      "grad_norm_var": 2.3393229166666667,
      "learning_rate": 9.418828150443469e-05,
      "loss": 7.3503,
      "loss/crossentropy": 1.0129078775644302,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3142009563744068,
      "step": 931
    },
    {
      "epoch": 0.15533333333333332,
      "grad_norm": 27.75,
      "grad_norm_var": 2.5004557291666667,
      "learning_rate": 9.417602507386981e-05,
      "loss": 6.3487,
      "loss/crossentropy": 1.5488710403442383,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13036078214645386,
      "step": 932
    },
    {
      "epoch": 0.1555,
      "grad_norm": 27.875,
      "grad_norm_var": 1.9393229166666666,
      "learning_rate": 9.416375653219709e-05,
      "loss": 6.5817,
      "loss/crossentropy": 0.9361780658364296,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1352296294644475,
      "step": 933
    },
    {
      "epoch": 0.15566666666666668,
      "grad_norm": 27.25,
      "grad_norm_var": 2.189322916666667,
      "learning_rate": 9.415147588278005e-05,
      "loss": 6.886,
      "loss/crossentropy": 1.7425316870212555,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15156837925314903,
      "step": 934
    },
    {
      "epoch": 0.15583333333333332,
      "grad_norm": 25.875,
      "grad_norm_var": 2.139518229166667,
      "learning_rate": 9.413918312898551e-05,
      "loss": 6.7067,
      "loss/crossentropy": 1.8844291865825653,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15378071926534176,
      "step": 935
    },
    {
      "epoch": 0.156,
      "grad_norm": 30.375,
      "grad_norm_var": 2.2427083333333333,
      "learning_rate": 9.412687827418356e-05,
      "loss": 6.555,
      "loss/crossentropy": 1.3648638874292374,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20318766683340073,
      "step": 936
    },
    {
      "epoch": 0.15616666666666668,
      "grad_norm": 29.375,
      "grad_norm_var": 2.0113932291666665,
      "learning_rate": 9.411456132174767e-05,
      "loss": 6.8804,
      "loss/crossentropy": 0.8283918276429176,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09471303224563599,
      "step": 937
    },
    {
      "epoch": 0.15633333333333332,
      "grad_norm": 27.375,
      "grad_norm_var": 2.096809895833333,
      "learning_rate": 9.410223227505459e-05,
      "loss": 6.8104,
      "loss/crossentropy": 2.2247671484947205,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.159748837351799,
      "step": 938
    },
    {
      "epoch": 0.1565,
      "grad_norm": 27.75,
      "grad_norm_var": 2.003059895833333,
      "learning_rate": 9.408989113748442e-05,
      "loss": 6.5397,
      "loss/crossentropy": 1.5369086861610413,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13781077414751053,
      "step": 939
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 31.125,
      "grad_norm_var": 2.2264973958333334,
      "learning_rate": 9.407753791242051e-05,
      "loss": 6.4877,
      "loss/crossentropy": 1.2110577672719955,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12467943131923676,
      "step": 940
    },
    {
      "epoch": 0.15683333333333332,
      "grad_norm": 28.75,
      "grad_norm_var": 2.1684895833333333,
      "learning_rate": 9.40651726032496e-05,
      "loss": 7.0721,
      "loss/crossentropy": 1.717575654387474,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16085078194737434,
      "step": 941
    },
    {
      "epoch": 0.157,
      "grad_norm": 31.125,
      "grad_norm_var": 2.5483723958333333,
      "learning_rate": 9.405279521336173e-05,
      "loss": 7.1052,
      "loss/crossentropy": 1.2131355553865433,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16941608116030693,
      "step": 942
    },
    {
      "epoch": 0.15716666666666668,
      "grad_norm": 27.5,
      "grad_norm_var": 2.5921223958333335,
      "learning_rate": 9.404040574615018e-05,
      "loss": 6.6737,
      "loss/crossentropy": 1.4986532032489777,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24445821717381477,
      "step": 943
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 2.5921223958333335,
      "learning_rate": 9.402800420501164e-05,
      "loss": 6.9161,
      "loss/crossentropy": 1.035700723528862,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11124230176210403,
      "step": 944
    },
    {
      "epoch": 0.1575,
      "grad_norm": 25.875,
      "grad_norm_var": 3.0561848958333333,
      "learning_rate": 9.401559059334601e-05,
      "loss": 6.0012,
      "loss/crossentropy": 1.1177880614995956,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17776408419013023,
      "step": 945
    },
    {
      "epoch": 0.15766666666666668,
      "grad_norm": 30.375,
      "grad_norm_var": 3.0962890625,
      "learning_rate": 9.400316491455661e-05,
      "loss": 6.8133,
      "loss/crossentropy": 1.3670192509889603,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18806476704776287,
      "step": 946
    },
    {
      "epoch": 0.15783333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 2.74765625,
      "learning_rate": 9.399072717204995e-05,
      "loss": 6.6337,
      "loss/crossentropy": 2.049343913793564,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19486809894442558,
      "step": 947
    },
    {
      "epoch": 0.158,
      "grad_norm": 28.5,
      "grad_norm_var": 2.70625,
      "learning_rate": 9.397827736923596e-05,
      "loss": 6.8354,
      "loss/crossentropy": 1.4676995277404785,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22139647649601102,
      "step": 948
    },
    {
      "epoch": 0.15816666666666668,
      "grad_norm": 31.125,
      "grad_norm_var": 3.068489583333333,
      "learning_rate": 9.396581550952781e-05,
      "loss": 7.1093,
      "loss/crossentropy": 1.7508991807699203,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14620482921600342,
      "step": 949
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 2.9520833333333334,
      "learning_rate": 9.395334159634199e-05,
      "loss": 6.5735,
      "loss/crossentropy": 1.998562604188919,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17252274602651596,
      "step": 950
    },
    {
      "epoch": 0.1585,
      "grad_norm": 30.5,
      "grad_norm_var": 2.4775390625,
      "learning_rate": 9.394085563309827e-05,
      "loss": 6.9826,
      "loss/crossentropy": 1.6761377900838852,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.152450829744339,
      "step": 951
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 27.875,
      "grad_norm_var": 2.4436848958333335,
      "learning_rate": 9.392835762321977e-05,
      "loss": 6.7069,
      "loss/crossentropy": 1.9230597019195557,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18309792131185532,
      "step": 952
    },
    {
      "epoch": 0.15883333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 2.4322916666666665,
      "learning_rate": 9.391584757013289e-05,
      "loss": 6.6781,
      "loss/crossentropy": 2.1945230662822723,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1544794701039791,
      "step": 953
    },
    {
      "epoch": 0.159,
      "grad_norm": 27.375,
      "grad_norm_var": 2.4322916666666665,
      "learning_rate": 9.390332547726733e-05,
      "loss": 6.4855,
      "loss/crossentropy": 1.84402334690094,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16222894191741943,
      "step": 954
    },
    {
      "epoch": 0.15916666666666668,
      "grad_norm": 28.375,
      "grad_norm_var": 2.3603515625,
      "learning_rate": 9.389079134805609e-05,
      "loss": 6.7115,
      "loss/crossentropy": 1.1176575869321823,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1567247435450554,
      "step": 955
    },
    {
      "epoch": 0.15933333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 2.0337890625,
      "learning_rate": 9.387824518593546e-05,
      "loss": 6.8158,
      "loss/crossentropy": 2.139141410589218,
      "loss/hidden": 3.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2895619533956051,
      "step": 956
    },
    {
      "epoch": 0.1595,
      "grad_norm": 29.0,
      "grad_norm_var": 2.0369140625,
      "learning_rate": 9.386568699434508e-05,
      "loss": 6.8399,
      "loss/crossentropy": 1.9488290548324585,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18183168396353722,
      "step": 957
    },
    {
      "epoch": 0.15966666666666668,
      "grad_norm": 32.0,
      "grad_norm_var": 2.357291666666667,
      "learning_rate": 9.385311677672781e-05,
      "loss": 7.3172,
      "loss/crossentropy": 1.1987807005643845,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1368956658989191,
      "step": 958
    },
    {
      "epoch": 0.15983333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 2.2483723958333335,
      "learning_rate": 9.384053453652986e-05,
      "loss": 6.7999,
      "loss/crossentropy": 2.046382397413254,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18021916970610619,
      "step": 959
    },
    {
      "epoch": 0.16,
      "grad_norm": 27.75,
      "grad_norm_var": 2.325,
      "learning_rate": 9.382794027720073e-05,
      "loss": 6.5911,
      "loss/crossentropy": 1.4518917500972748,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.137871028855443,
      "step": 960
    },
    {
      "epoch": 0.16016666666666668,
      "grad_norm": 27.0,
      "grad_norm_var": 1.9634765625,
      "learning_rate": 9.381533400219318e-05,
      "loss": 6.4323,
      "loss/crossentropy": 1.4430282711982727,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12539849989116192,
      "step": 961
    },
    {
      "epoch": 0.16033333333333333,
      "grad_norm": 31.125,
      "grad_norm_var": 2.1478515625,
      "learning_rate": 9.380271571496334e-05,
      "loss": 6.7533,
      "loss/crossentropy": 1.4864182621240616,
      "loss/hidden": 3.69140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21022829227149487,
      "step": 962
    },
    {
      "epoch": 0.1605,
      "grad_norm": 29.5,
      "grad_norm_var": 2.1650390625,
      "learning_rate": 9.379008541897054e-05,
      "loss": 7.4136,
      "loss/crossentropy": 1.9163076877593994,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26462791860103607,
      "step": 963
    },
    {
      "epoch": 0.16066666666666668,
      "grad_norm": 26.75,
      "grad_norm_var": 2.467643229166667,
      "learning_rate": 9.377744311767746e-05,
      "loss": 6.4287,
      "loss/crossentropy": 1.5390331447124481,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1931270845234394,
      "step": 964
    },
    {
      "epoch": 0.16083333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 2.363541666666667,
      "learning_rate": 9.376478881455009e-05,
      "loss": 6.6009,
      "loss/crossentropy": 1.6977374702692032,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1623922735452652,
      "step": 965
    },
    {
      "epoch": 0.161,
      "grad_norm": 29.125,
      "grad_norm_var": 2.3160807291666665,
      "learning_rate": 9.375212251305763e-05,
      "loss": 6.3185,
      "loss/crossentropy": 0.9074634611606598,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21587281860411167,
      "step": 966
    },
    {
      "epoch": 0.16116666666666668,
      "grad_norm": 28.25,
      "grad_norm_var": 2.1567057291666667,
      "learning_rate": 9.373944421667265e-05,
      "loss": 6.8387,
      "loss/crossentropy": 1.536196306347847,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12623077537864447,
      "step": 967
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 28.625,
      "grad_norm_var": 2.1020182291666667,
      "learning_rate": 9.372675392887096e-05,
      "loss": 6.8656,
      "loss/crossentropy": 2.036444216966629,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15584169328212738,
      "step": 968
    },
    {
      "epoch": 0.1615,
      "grad_norm": 28.25,
      "grad_norm_var": 2.122330729166667,
      "learning_rate": 9.371405165313169e-05,
      "loss": 7.0526,
      "loss/crossentropy": 1.2288314998149872,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20249300450086594,
      "step": 969
    },
    {
      "epoch": 0.16166666666666665,
      "grad_norm": 29.25,
      "grad_norm_var": 1.9885416666666667,
      "learning_rate": 9.370133739293723e-05,
      "loss": 6.4385,
      "loss/crossentropy": 1.4051976948976517,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26594360545277596,
      "step": 970
    },
    {
      "epoch": 0.16183333333333333,
      "grad_norm": 31.5,
      "grad_norm_var": 2.3775390625,
      "learning_rate": 9.368861115177327e-05,
      "loss": 7.4186,
      "loss/crossentropy": 1.9679397344589233,
      "loss/hidden": 4.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.30216044932603836,
      "step": 971
    },
    {
      "epoch": 0.162,
      "grad_norm": 27.5,
      "grad_norm_var": 2.51015625,
      "learning_rate": 9.367587293312878e-05,
      "loss": 6.3767,
      "loss/crossentropy": 1.4228357076644897,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12103093415498734,
      "step": 972
    },
    {
      "epoch": 0.16216666666666665,
      "grad_norm": 31.5,
      "grad_norm_var": 2.88515625,
      "learning_rate": 9.366312274049602e-05,
      "loss": 7.139,
      "loss/crossentropy": 1.3934602439403534,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16450956650078297,
      "step": 973
    },
    {
      "epoch": 0.16233333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 2.444205729166667,
      "learning_rate": 9.36503605773705e-05,
      "loss": 7.1216,
      "loss/crossentropy": 1.4134599715471268,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16329437587410212,
      "step": 974
    },
    {
      "epoch": 0.1625,
      "grad_norm": 27.125,
      "grad_norm_var": 2.662955729166667,
      "learning_rate": 9.36375864472511e-05,
      "loss": 6.2965,
      "loss/crossentropy": 0.9992646798491478,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10369177348911762,
      "step": 975
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 26.875,
      "grad_norm_var": 2.859375,
      "learning_rate": 9.362480035363986e-05,
      "loss": 6.6671,
      "loss/crossentropy": 1.825451374053955,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1982804238796234,
      "step": 976
    },
    {
      "epoch": 0.16283333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 2.6775390625,
      "learning_rate": 9.36120023000422e-05,
      "loss": 6.6047,
      "loss/crossentropy": 0.8018264323472977,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1146076861768961,
      "step": 977
    },
    {
      "epoch": 0.163,
      "grad_norm": 30.875,
      "grad_norm_var": 2.6113932291666666,
      "learning_rate": 9.359919228996674e-05,
      "loss": 7.3768,
      "loss/crossentropy": 2.1425884664058685,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18394936248660088,
      "step": 978
    },
    {
      "epoch": 0.16316666666666665,
      "grad_norm": 30.125,
      "grad_norm_var": 2.6768229166666666,
      "learning_rate": 9.358637032692545e-05,
      "loss": 6.6483,
      "loss/crossentropy": 1.8683583438396454,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19553732126951218,
      "step": 979
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 2.539322916666667,
      "learning_rate": 9.357353641443354e-05,
      "loss": 6.6568,
      "loss/crossentropy": 1.1269803941249847,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12698210403323174,
      "step": 980
    },
    {
      "epoch": 0.1635,
      "grad_norm": 27.25,
      "grad_norm_var": 2.5247395833333335,
      "learning_rate": 9.356069055600948e-05,
      "loss": 6.7423,
      "loss/crossentropy": 1.7101454734802246,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2579207345843315,
      "step": 981
    },
    {
      "epoch": 0.16366666666666665,
      "grad_norm": 29.25,
      "grad_norm_var": 2.530143229166667,
      "learning_rate": 9.354783275517504e-05,
      "loss": 6.978,
      "loss/crossentropy": 1.6930875182151794,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18442372232675552,
      "step": 982
    },
    {
      "epoch": 0.16383333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 2.6059895833333333,
      "learning_rate": 9.353496301545529e-05,
      "loss": 6.0959,
      "loss/crossentropy": 2.0503551065921783,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1571796014904976,
      "step": 983
    },
    {
      "epoch": 0.164,
      "grad_norm": 32.25,
      "grad_norm_var": 3.3291015625,
      "learning_rate": 9.352208134037851e-05,
      "loss": 6.9039,
      "loss/crossentropy": 2.170955538749695,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1941094473004341,
      "step": 984
    },
    {
      "epoch": 0.16416666666666666,
      "grad_norm": 30.75,
      "grad_norm_var": 3.4514973958333335,
      "learning_rate": 9.35091877334763e-05,
      "loss": 7.1528,
      "loss/crossentropy": 1.5367806255817413,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18657927587628365,
      "step": 985
    },
    {
      "epoch": 0.16433333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 3.4518229166666665,
      "learning_rate": 9.349628219828349e-05,
      "loss": 6.7108,
      "loss/crossentropy": 0.8706261143088341,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11337267328053713,
      "step": 986
    },
    {
      "epoch": 0.1645,
      "grad_norm": 28.75,
      "grad_norm_var": 3.082291666666667,
      "learning_rate": 9.348336473833823e-05,
      "loss": 6.5357,
      "loss/crossentropy": 1.13887557387352,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1355858026072383,
      "step": 987
    },
    {
      "epoch": 0.16466666666666666,
      "grad_norm": 29.125,
      "grad_norm_var": 2.9155598958333333,
      "learning_rate": 9.347043535718192e-05,
      "loss": 6.5553,
      "loss/crossentropy": 1.5605327934026718,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13332156650722027,
      "step": 988
    },
    {
      "epoch": 0.16483333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 2.7030598958333334,
      "learning_rate": 9.34574940583592e-05,
      "loss": 7.0307,
      "loss/crossentropy": 2.0721123665571213,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20332932844758034,
      "step": 989
    },
    {
      "epoch": 0.165,
      "grad_norm": 29.25,
      "grad_norm_var": 2.5559895833333335,
      "learning_rate": 9.344454084541803e-05,
      "loss": 7.2336,
      "loss/crossentropy": 1.893361508846283,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17474518530070782,
      "step": 990
    },
    {
      "epoch": 0.16516666666666666,
      "grad_norm": 31.375,
      "grad_norm_var": 2.7375,
      "learning_rate": 9.343157572190957e-05,
      "loss": 6.8883,
      "loss/crossentropy": 1.6536499708890915,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1391207305714488,
      "step": 991
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 2.408072916666667,
      "learning_rate": 9.341859869138831e-05,
      "loss": 6.7059,
      "loss/crossentropy": 0.8432480245828629,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09941447153687477,
      "step": 992
    },
    {
      "epoch": 0.1655,
      "grad_norm": 28.875,
      "grad_norm_var": 2.289322916666667,
      "learning_rate": 9.340560975741197e-05,
      "loss": 6.9982,
      "loss/crossentropy": 2.248078227043152,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19019538909196854,
      "step": 993
    },
    {
      "epoch": 0.16566666666666666,
      "grad_norm": 29.125,
      "grad_norm_var": 2.1125,
      "learning_rate": 9.339260892354153e-05,
      "loss": 6.7605,
      "loss/crossentropy": 1.3738857507705688,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.140726363286376,
      "step": 994
    },
    {
      "epoch": 0.16583333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 2.3,
      "learning_rate": 9.337959619334125e-05,
      "loss": 7.0867,
      "loss/crossentropy": 1.4559247940778732,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16540184617042542,
      "step": 995
    },
    {
      "epoch": 0.166,
      "grad_norm": 27.375,
      "grad_norm_var": 2.2718098958333335,
      "learning_rate": 9.336657157037866e-05,
      "loss": 6.4514,
      "loss/crossentropy": 1.8479040265083313,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15281882509589195,
      "step": 996
    },
    {
      "epoch": 0.16616666666666666,
      "grad_norm": 31.875,
      "grad_norm_var": 2.5247395833333335,
      "learning_rate": 9.33535350582245e-05,
      "loss": 7.0539,
      "loss/crossentropy": 1.9026743173599243,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1550293043255806,
      "step": 997
    },
    {
      "epoch": 0.16633333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 2.6302083333333335,
      "learning_rate": 9.334048666045285e-05,
      "loss": 6.5069,
      "loss/crossentropy": 1.2742085456848145,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16048939153552055,
      "step": 998
    },
    {
      "epoch": 0.1665,
      "grad_norm": 30.25,
      "grad_norm_var": 2.503059895833333,
      "learning_rate": 9.332742638064094e-05,
      "loss": 7.0699,
      "loss/crossentropy": 2.0430028438568115,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16402114555239677,
      "step": 999
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 28.375,
      "grad_norm_var": 1.96015625,
      "learning_rate": 9.331435422236938e-05,
      "loss": 6.8397,
      "loss/crossentropy": 1.5021632313728333,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24582071229815483,
      "step": 1000
    },
    {
      "epoch": 0.16683333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 1.8202473958333334,
      "learning_rate": 9.330127018922194e-05,
      "loss": 6.9787,
      "loss/crossentropy": 1.2862660512328148,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1655043950304389,
      "step": 1001
    },
    {
      "epoch": 0.167,
      "grad_norm": 29.0,
      "grad_norm_var": 1.8205729166666667,
      "learning_rate": 9.328817428478569e-05,
      "loss": 6.551,
      "loss/crossentropy": 1.8244322463870049,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1513009099289775,
      "step": 1002
    },
    {
      "epoch": 0.16716666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 2.0098307291666666,
      "learning_rate": 9.327506651265095e-05,
      "loss": 7.0498,
      "loss/crossentropy": 1.703669548034668,
      "loss/hidden": 3.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2555901035666466,
      "step": 1003
    },
    {
      "epoch": 0.16733333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 2.559375,
      "learning_rate": 9.32619468764113e-05,
      "loss": 6.4082,
      "loss/crossentropy": 1.5771573781967163,
      "loss/hidden": 3.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2212020792067051,
      "step": 1004
    },
    {
      "epoch": 0.1675,
      "grad_norm": 29.75,
      "grad_norm_var": 2.35625,
      "learning_rate": 9.324881537966354e-05,
      "loss": 6.5945,
      "loss/crossentropy": 2.1410138607025146,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18434720113873482,
      "step": 1005
    },
    {
      "epoch": 0.16766666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 2.411393229166667,
      "learning_rate": 9.323567202600776e-05,
      "loss": 6.6545,
      "loss/crossentropy": 1.1437709033489227,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1774177122861147,
      "step": 1006
    },
    {
      "epoch": 0.16783333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 2.138541666666667,
      "learning_rate": 9.322251681904728e-05,
      "loss": 6.7476,
      "loss/crossentropy": 1.3867665529251099,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23731738328933716,
      "step": 1007
    },
    {
      "epoch": 0.168,
      "grad_norm": 30.875,
      "grad_norm_var": 2.314322916666667,
      "learning_rate": 9.320934976238867e-05,
      "loss": 6.8831,
      "loss/crossentropy": 1.3709579110145569,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15835164114832878,
      "step": 1008
    },
    {
      "epoch": 0.16816666666666666,
      "grad_norm": 30.625,
      "grad_norm_var": 2.421875,
      "learning_rate": 9.319617085964176e-05,
      "loss": 6.555,
      "loss/crossentropy": 1.3165605813264847,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22091330960392952,
      "step": 1009
    },
    {
      "epoch": 0.16833333333333333,
      "grad_norm": 29.375,
      "grad_norm_var": 2.4184895833333333,
      "learning_rate": 9.318298011441964e-05,
      "loss": 6.8214,
      "loss/crossentropy": 1.665429800748825,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17766010761260986,
      "step": 1010
    },
    {
      "epoch": 0.1685,
      "grad_norm": 27.875,
      "grad_norm_var": 2.230208333333333,
      "learning_rate": 9.316977753033859e-05,
      "loss": 6.5599,
      "loss/crossentropy": 1.6475956588983536,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18197769299149513,
      "step": 1011
    },
    {
      "epoch": 0.16866666666666666,
      "grad_norm": 25.875,
      "grad_norm_var": 2.777083333333333,
      "learning_rate": 9.31565631110182e-05,
      "loss": 6.5457,
      "loss/crossentropy": 1.4782060533761978,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1904252003878355,
      "step": 1012
    },
    {
      "epoch": 0.16883333333333334,
      "grad_norm": 29.625,
      "grad_norm_var": 2.3247395833333333,
      "learning_rate": 9.314333686008125e-05,
      "loss": 6.8884,
      "loss/crossentropy": 1.7327529937028885,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31483493745326996,
      "step": 1013
    },
    {
      "epoch": 0.169,
      "grad_norm": 29.625,
      "grad_norm_var": 2.2358723958333333,
      "learning_rate": 9.313009878115381e-05,
      "loss": 6.7042,
      "loss/crossentropy": 1.6143233627080917,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18221945315599442,
      "step": 1014
    },
    {
      "epoch": 0.16916666666666666,
      "grad_norm": 28.375,
      "grad_norm_var": 2.2114583333333333,
      "learning_rate": 9.31168488778652e-05,
      "loss": 6.4314,
      "loss/crossentropy": 1.290844403207302,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09984238259494305,
      "step": 1015
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 2.175,
      "learning_rate": 9.310358715384793e-05,
      "loss": 6.2406,
      "loss/crossentropy": 1.1085650324821472,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17697811871767044,
      "step": 1016
    },
    {
      "epoch": 0.1695,
      "grad_norm": 27.375,
      "grad_norm_var": 2.3364583333333333,
      "learning_rate": 9.309031361273775e-05,
      "loss": 6.3544,
      "loss/crossentropy": 1.3015744537115097,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11535845696926117,
      "step": 1017
    },
    {
      "epoch": 0.16966666666666666,
      "grad_norm": 26.75,
      "grad_norm_var": 2.662239583333333,
      "learning_rate": 9.307702825817373e-05,
      "loss": 6.5172,
      "loss/crossentropy": 1.759951412677765,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18253059312701225,
      "step": 1018
    },
    {
      "epoch": 0.16983333333333334,
      "grad_norm": 27.375,
      "grad_norm_var": 2.501822916666667,
      "learning_rate": 9.306373109379809e-05,
      "loss": 6.0286,
      "loss/crossentropy": 0.70027294754982,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09618740063160658,
      "step": 1019
    },
    {
      "epoch": 0.17,
      "grad_norm": 25.25,
      "grad_norm_var": 2.8872395833333333,
      "learning_rate": 9.305042212325634e-05,
      "loss": 6.7102,
      "loss/crossentropy": 1.299631044268608,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22817913629114628,
      "step": 1020
    },
    {
      "epoch": 0.17016666666666666,
      "grad_norm": 30.375,
      "grad_norm_var": 3.006705729166667,
      "learning_rate": 9.30371013501972e-05,
      "loss": 7.0757,
      "loss/crossentropy": 1.1401289254426956,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16579823568463326,
      "step": 1021
    },
    {
      "epoch": 0.17033333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 2.8629557291666665,
      "learning_rate": 9.302376877827263e-05,
      "loss": 6.6939,
      "loss/crossentropy": 1.1806171089410782,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15253576263785362,
      "step": 1022
    },
    {
      "epoch": 0.1705,
      "grad_norm": 29.375,
      "grad_norm_var": 2.7643229166666665,
      "learning_rate": 9.301042441113783e-05,
      "loss": 7.164,
      "loss/crossentropy": 1.7891227304935455,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1749817430973053,
      "step": 1023
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 2.8051432291666667,
      "learning_rate": 9.299706825245126e-05,
      "loss": 6.8655,
      "loss/crossentropy": 1.7026661485433578,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14925392344594002,
      "step": 1024
    },
    {
      "epoch": 0.17083333333333334,
      "grad_norm": 29.25,
      "grad_norm_var": 2.5322916666666666,
      "learning_rate": 9.298370030587456e-05,
      "loss": 6.6227,
      "loss/crossentropy": 1.6058360189199448,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18634888343513012,
      "step": 1025
    },
    {
      "epoch": 0.171,
      "grad_norm": 28.375,
      "grad_norm_var": 2.465625,
      "learning_rate": 9.297032057507264e-05,
      "loss": 6.9121,
      "loss/crossentropy": 1.4227608889341354,
      "loss/hidden": 3.73828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20639438182115555,
      "step": 1026
    },
    {
      "epoch": 0.17116666666666666,
      "grad_norm": 25.375,
      "grad_norm_var": 3.0125,
      "learning_rate": 9.295692906371363e-05,
      "loss": 6.3686,
      "loss/crossentropy": 1.4738323539495468,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1534047992900014,
      "step": 1027
    },
    {
      "epoch": 0.17133333333333334,
      "grad_norm": 29.25,
      "grad_norm_var": 2.6837890625,
      "learning_rate": 9.294352577546888e-05,
      "loss": 6.7086,
      "loss/crossentropy": 1.8850750923156738,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17676223628222942,
      "step": 1028
    },
    {
      "epoch": 0.1715,
      "grad_norm": 28.625,
      "grad_norm_var": 2.582747395833333,
      "learning_rate": 9.293011071401298e-05,
      "loss": 6.4771,
      "loss/crossentropy": 1.3900472968816757,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15907294303178787,
      "step": 1029
    },
    {
      "epoch": 0.17166666666666666,
      "grad_norm": 26.125,
      "grad_norm_var": 2.746809895833333,
      "learning_rate": 9.291668388302374e-05,
      "loss": 6.3026,
      "loss/crossentropy": 1.7207022309303284,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16812225244939327,
      "step": 1030
    },
    {
      "epoch": 0.17183333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 2.7796223958333335,
      "learning_rate": 9.290324528618224e-05,
      "loss": 6.737,
      "loss/crossentropy": 1.1087007820606232,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15751628205180168,
      "step": 1031
    },
    {
      "epoch": 0.172,
      "grad_norm": 29.375,
      "grad_norm_var": 2.8436848958333334,
      "learning_rate": 9.28897949271727e-05,
      "loss": 7.1036,
      "loss/crossentropy": 1.5463591516017914,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22198307141661644,
      "step": 1032
    },
    {
      "epoch": 0.17216666666666666,
      "grad_norm": 30.5,
      "grad_norm_var": 3.11875,
      "learning_rate": 9.287633280968261e-05,
      "loss": 6.7399,
      "loss/crossentropy": 1.8197236359119415,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14384458400309086,
      "step": 1033
    },
    {
      "epoch": 0.17233333333333334,
      "grad_norm": 28.375,
      "grad_norm_var": 2.9317057291666666,
      "learning_rate": 9.286285893740274e-05,
      "loss": 6.9903,
      "loss/crossentropy": 1.4223038405179977,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11996994912624359,
      "step": 1034
    },
    {
      "epoch": 0.1725,
      "grad_norm": 28.625,
      "grad_norm_var": 2.8457682291666666,
      "learning_rate": 9.284937331402697e-05,
      "loss": 6.5254,
      "loss/crossentropy": 1.8838764131069183,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16456597298383713,
      "step": 1035
    },
    {
      "epoch": 0.17266666666666666,
      "grad_norm": 28.25,
      "grad_norm_var": 2.0863932291666667,
      "learning_rate": 9.283587594325249e-05,
      "loss": 7.2951,
      "loss/crossentropy": 1.690007284283638,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1627235785126686,
      "step": 1036
    },
    {
      "epoch": 0.17283333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 2.50390625,
      "learning_rate": 9.282236682877967e-05,
      "loss": 6.7527,
      "loss/crossentropy": 1.6431153267621994,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1587188020348549,
      "step": 1037
    },
    {
      "epoch": 0.173,
      "grad_norm": 30.5,
      "grad_norm_var": 2.6337890625,
      "learning_rate": 9.280884597431212e-05,
      "loss": 6.8026,
      "loss/crossentropy": 1.761688381433487,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28126591071486473,
      "step": 1038
    },
    {
      "epoch": 0.17316666666666666,
      "grad_norm": 29.5,
      "grad_norm_var": 2.64140625,
      "learning_rate": 9.279531338355666e-05,
      "loss": 6.8327,
      "loss/crossentropy": 1.7254878282546997,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23531349375844002,
      "step": 1039
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 32.5,
      "grad_norm_var": 3.18515625,
      "learning_rate": 9.27817690602233e-05,
      "loss": 7.1946,
      "loss/crossentropy": 1.578020840883255,
      "loss/hidden": 3.69140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24730910547077656,
      "step": 1040
    },
    {
      "epoch": 0.1735,
      "grad_norm": 28.375,
      "grad_norm_var": 3.2129557291666666,
      "learning_rate": 9.276821300802534e-05,
      "loss": 6.5041,
      "loss/crossentropy": 1.6880528777837753,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17321892082691193,
      "step": 1041
    },
    {
      "epoch": 0.17366666666666666,
      "grad_norm": 27.625,
      "grad_norm_var": 3.3129557291666667,
      "learning_rate": 9.27546452306792e-05,
      "loss": 6.369,
      "loss/crossentropy": 1.6766884177923203,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24857143685221672,
      "step": 1042
    },
    {
      "epoch": 0.17383333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 2.3978515625,
      "learning_rate": 9.274106573190459e-05,
      "loss": 6.7366,
      "loss/crossentropy": 1.4286645650863647,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17977101914584637,
      "step": 1043
    },
    {
      "epoch": 0.174,
      "grad_norm": 27.125,
      "grad_norm_var": 2.6645833333333333,
      "learning_rate": 9.272747451542441e-05,
      "loss": 6.2943,
      "loss/crossentropy": 1.0265646129846573,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13961484655737877,
      "step": 1044
    },
    {
      "epoch": 0.17416666666666666,
      "grad_norm": 28.0,
      "grad_norm_var": 2.725455729166667,
      "learning_rate": 9.271387158496476e-05,
      "loss": 6.9447,
      "loss/crossentropy": 1.6943024098873138,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2832085192203522,
      "step": 1045
    },
    {
      "epoch": 0.17433333333333334,
      "grad_norm": 29.125,
      "grad_norm_var": 2.1285807291666665,
      "learning_rate": 9.270025694425497e-05,
      "loss": 7.1521,
      "loss/crossentropy": 1.3861359506845474,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2078065276145935,
      "step": 1046
    },
    {
      "epoch": 0.1745,
      "grad_norm": 28.125,
      "grad_norm_var": 2.1973307291666666,
      "learning_rate": 9.268663059702753e-05,
      "loss": 6.6814,
      "loss/crossentropy": 0.8704834654927254,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10470980685204268,
      "step": 1047
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 30.25,
      "grad_norm_var": 2.269791666666667,
      "learning_rate": 9.267299254701824e-05,
      "loss": 6.7021,
      "loss/crossentropy": 1.3742065727710724,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1371091976761818,
      "step": 1048
    },
    {
      "epoch": 0.17483333333333334,
      "grad_norm": 33.0,
      "grad_norm_var": 3.0875,
      "learning_rate": 9.265934279796602e-05,
      "loss": 7.4382,
      "loss/crossentropy": 1.875411033630371,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2505655810236931,
      "step": 1049
    },
    {
      "epoch": 0.175,
      "grad_norm": 31.375,
      "grad_norm_var": 3.25,
      "learning_rate": 9.264568135361302e-05,
      "loss": 6.8456,
      "loss/crossentropy": 1.2539885640144348,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18397588655352592,
      "step": 1050
    },
    {
      "epoch": 0.17516666666666666,
      "grad_norm": 31.125,
      "grad_norm_var": 3.328125,
      "learning_rate": 9.263200821770461e-05,
      "loss": 7.1828,
      "loss/crossentropy": 1.8055228888988495,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19033204391598701,
      "step": 1051
    },
    {
      "epoch": 0.17533333333333334,
      "grad_norm": 29.875,
      "grad_norm_var": 3.174934895833333,
      "learning_rate": 9.261832339398938e-05,
      "loss": 6.8599,
      "loss/crossentropy": 2.30813068151474,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1916029490530491,
      "step": 1052
    },
    {
      "epoch": 0.1755,
      "grad_norm": 28.375,
      "grad_norm_var": 3.0184895833333334,
      "learning_rate": 9.260462688621905e-05,
      "loss": 6.3348,
      "loss/crossentropy": 1.7150506675243378,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15869835764169693,
      "step": 1053
    },
    {
      "epoch": 0.17566666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 3.0184895833333334,
      "learning_rate": 9.259091869814864e-05,
      "loss": 6.7278,
      "loss/crossentropy": 1.5105496421456337,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18605177477002144,
      "step": 1054
    },
    {
      "epoch": 0.17583333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 3.064583333333333,
      "learning_rate": 9.257719883353631e-05,
      "loss": 6.3432,
      "loss/crossentropy": 1.0289728492498398,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13243985548615456,
      "step": 1055
    },
    {
      "epoch": 0.176,
      "grad_norm": 30.5,
      "grad_norm_var": 2.53125,
      "learning_rate": 9.256346729614342e-05,
      "loss": 7.0523,
      "loss/crossentropy": 1.4567533880472183,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14434895291924477,
      "step": 1056
    },
    {
      "epoch": 0.17616666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 2.4853515625,
      "learning_rate": 9.254972408973461e-05,
      "loss": 6.9902,
      "loss/crossentropy": 1.5392310470342636,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1923016645014286,
      "step": 1057
    },
    {
      "epoch": 0.17633333333333334,
      "grad_norm": 27.0,
      "grad_norm_var": 2.6705729166666665,
      "learning_rate": 9.253596921807759e-05,
      "loss": 6.607,
      "loss/crossentropy": 1.7072811126708984,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15615876764059067,
      "step": 1058
    },
    {
      "epoch": 0.1765,
      "grad_norm": 26.5,
      "grad_norm_var": 3.2259765625,
      "learning_rate": 9.252220268494337e-05,
      "loss": 6.7976,
      "loss/crossentropy": 1.2664166390895844,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20431069657206535,
      "step": 1059
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 2.8942057291666665,
      "learning_rate": 9.250842449410611e-05,
      "loss": 6.3915,
      "loss/crossentropy": 1.7454079389572144,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16402440890669823,
      "step": 1060
    },
    {
      "epoch": 0.17683333333333334,
      "grad_norm": 28.25,
      "grad_norm_var": 2.848893229166667,
      "learning_rate": 9.249463464934321e-05,
      "loss": 6.7293,
      "loss/crossentropy": 0.8675141632556915,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.10183609277009964,
      "step": 1061
    },
    {
      "epoch": 0.177,
      "grad_norm": 26.25,
      "grad_norm_var": 3.50625,
      "learning_rate": 9.248083315443518e-05,
      "loss": 6.311,
      "loss/crossentropy": 1.3239275515079498,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1458367221057415,
      "step": 1062
    },
    {
      "epoch": 0.17716666666666667,
      "grad_norm": 27.375,
      "grad_norm_var": 3.66015625,
      "learning_rate": 9.246702001316583e-05,
      "loss": 6.8022,
      "loss/crossentropy": 1.54161936044693,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20145102217793465,
      "step": 1063
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 27.625,
      "grad_norm_var": 3.7462890625,
      "learning_rate": 9.245319522932209e-05,
      "loss": 6.7071,
      "loss/crossentropy": 1.0704002380371094,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1460615172982216,
      "step": 1064
    },
    {
      "epoch": 0.1775,
      "grad_norm": 29.25,
      "grad_norm_var": 2.6759765625,
      "learning_rate": 9.24393588066941e-05,
      "loss": 6.828,
      "loss/crossentropy": 1.2201762646436691,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12776055745780468,
      "step": 1065
    },
    {
      "epoch": 0.17766666666666667,
      "grad_norm": 28.625,
      "grad_norm_var": 2.2291015625,
      "learning_rate": 9.242551074907519e-05,
      "loss": 7.0489,
      "loss/crossentropy": 1.1659608334302902,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12117037083953619,
      "step": 1066
    },
    {
      "epoch": 0.17783333333333334,
      "grad_norm": 28.0,
      "grad_norm_var": 1.8270833333333334,
      "learning_rate": 9.241165106026189e-05,
      "loss": 6.9507,
      "loss/crossentropy": 1.7780919075012207,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18536414206027985,
      "step": 1067
    },
    {
      "epoch": 0.178,
      "grad_norm": 28.0,
      "grad_norm_var": 1.7030598958333334,
      "learning_rate": 9.239777974405393e-05,
      "loss": 6.4759,
      "loss/crossentropy": 1.3345106691122055,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12685726210474968,
      "step": 1068
    },
    {
      "epoch": 0.17816666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 1.7645182291666666,
      "learning_rate": 9.238389680425416e-05,
      "loss": 6.8943,
      "loss/crossentropy": 2.1657201945781708,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16807297617197037,
      "step": 1069
    },
    {
      "epoch": 0.17833333333333334,
      "grad_norm": 26.75,
      "grad_norm_var": 1.6160807291666666,
      "learning_rate": 9.237000224466872e-05,
      "loss": 6.7557,
      "loss/crossentropy": 1.762036293745041,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24878711998462677,
      "step": 1070
    },
    {
      "epoch": 0.1785,
      "grad_norm": 28.25,
      "grad_norm_var": 1.5957682291666666,
      "learning_rate": 9.235609606910687e-05,
      "loss": 6.7522,
      "loss/crossentropy": 1.821693480014801,
      "loss/hidden": 3.76171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3557448387145996,
      "step": 1071
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 1.3268229166666667,
      "learning_rate": 9.234217828138104e-05,
      "loss": 7.1196,
      "loss/crossentropy": 1.8081410229206085,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20041708461940289,
      "step": 1072
    },
    {
      "epoch": 0.17883333333333334,
      "grad_norm": 28.375,
      "grad_norm_var": 1.0113932291666667,
      "learning_rate": 9.23282488853069e-05,
      "loss": 6.2645,
      "loss/crossentropy": 1.2684693336486816,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14612330868840218,
      "step": 1073
    },
    {
      "epoch": 0.179,
      "grad_norm": 29.375,
      "grad_norm_var": 1.0497395833333334,
      "learning_rate": 9.231430788470326e-05,
      "loss": 6.3198,
      "loss/crossentropy": 1.3656416982412338,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1677461415529251,
      "step": 1074
    },
    {
      "epoch": 0.17916666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 0.9764973958333333,
      "learning_rate": 9.230035528339211e-05,
      "loss": 6.5185,
      "loss/crossentropy": 1.0957149416208267,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1348528154194355,
      "step": 1075
    },
    {
      "epoch": 0.17933333333333334,
      "grad_norm": 29.875,
      "grad_norm_var": 1.1337890625,
      "learning_rate": 9.228639108519868e-05,
      "loss": 7.3823,
      "loss/crossentropy": 1.8525986969470978,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17726282589137554,
      "step": 1076
    },
    {
      "epoch": 0.1795,
      "grad_norm": 34.75,
      "grad_norm_var": 3.7947265625,
      "learning_rate": 9.227241529395127e-05,
      "loss": 6.1566,
      "loss/crossentropy": 1.348332166671753,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18071135319769382,
      "step": 1077
    },
    {
      "epoch": 0.17966666666666667,
      "grad_norm": 29.875,
      "grad_norm_var": 3.4643229166666667,
      "learning_rate": 9.225842791348149e-05,
      "loss": 6.563,
      "loss/crossentropy": 1.061979040503502,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.15336202550679445,
      "step": 1078
    },
    {
      "epoch": 0.17983333333333335,
      "grad_norm": 27.75,
      "grad_norm_var": 3.3988932291666667,
      "learning_rate": 9.224442894762401e-05,
      "loss": 6.5426,
      "loss/crossentropy": 1.5598224252462387,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.21232370659708977,
      "step": 1079
    },
    {
      "epoch": 0.18,
      "grad_norm": 28.5,
      "grad_norm_var": 3.3,
      "learning_rate": 9.223041840021674e-05,
      "loss": 6.7749,
      "loss/crossentropy": 1.7184421867132187,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15667770244181156,
      "step": 1080
    },
    {
      "epoch": 0.18016666666666667,
      "grad_norm": 31.0,
      "grad_norm_var": 3.564322916666667,
      "learning_rate": 9.221639627510076e-05,
      "loss": 6.6496,
      "loss/crossentropy": 1.9194800555706024,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19381767511367798,
      "step": 1081
    },
    {
      "epoch": 0.18033333333333335,
      "grad_norm": 29.125,
      "grad_norm_var": 3.5518229166666666,
      "learning_rate": 9.220236257612031e-05,
      "loss": 6.8568,
      "loss/crossentropy": 1.6562037765979767,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19203035160899162,
      "step": 1082
    },
    {
      "epoch": 0.1805,
      "grad_norm": 32.25,
      "grad_norm_var": 4.069791666666666,
      "learning_rate": 9.21883173071228e-05,
      "loss": 6.8741,
      "loss/crossentropy": 1.8158580362796783,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.178849708288908,
      "step": 1083
    },
    {
      "epoch": 0.18066666666666667,
      "grad_norm": 43.0,
      "grad_norm_var": 15.444791666666667,
      "learning_rate": 9.217426047195882e-05,
      "loss": 6.9982,
      "loss/crossentropy": 1.7587174326181412,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20827142894268036,
      "step": 1084
    },
    {
      "epoch": 0.18083333333333335,
      "grad_norm": 28.125,
      "grad_norm_var": 15.693489583333333,
      "learning_rate": 9.216019207448217e-05,
      "loss": 6.5129,
      "loss/crossentropy": 1.8337259590625763,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1768171191215515,
      "step": 1085
    },
    {
      "epoch": 0.181,
      "grad_norm": 27.75,
      "grad_norm_var": 15.295572916666666,
      "learning_rate": 9.214611211854974e-05,
      "loss": 6.5272,
      "loss/crossentropy": 2.1704297438263893,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15514697041362524,
      "step": 1086
    },
    {
      "epoch": 0.18116666666666667,
      "grad_norm": 31.625,
      "grad_norm_var": 15.100455729166667,
      "learning_rate": 9.213202060802161e-05,
      "loss": 6.8904,
      "loss/crossentropy": 1.6175484359264374,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18295736238360405,
      "step": 1087
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 26.625,
      "grad_norm_var": 15.977018229166667,
      "learning_rate": 9.21179175467611e-05,
      "loss": 6.6092,
      "loss/crossentropy": 0.8297821581363678,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13756988383829594,
      "step": 1088
    },
    {
      "epoch": 0.1815,
      "grad_norm": 36.0,
      "grad_norm_var": 17.648958333333333,
      "learning_rate": 9.210380293863462e-05,
      "loss": 6.7444,
      "loss/crossentropy": 1.4588651955127716,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.195820190012455,
      "step": 1089
    },
    {
      "epoch": 0.18166666666666667,
      "grad_norm": 33.5,
      "grad_norm_var": 17.938997395833333,
      "learning_rate": 9.208967678751177e-05,
      "loss": 6.7921,
      "loss/crossentropy": 1.406354010105133,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12879913859069347,
      "step": 1090
    },
    {
      "epoch": 0.18183333333333335,
      "grad_norm": 28.375,
      "grad_norm_var": 17.246809895833334,
      "learning_rate": 9.207553909726531e-05,
      "loss": 6.7435,
      "loss/crossentropy": 1.4283540695905685,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21265421621501446,
      "step": 1091
    },
    {
      "epoch": 0.182,
      "grad_norm": 28.25,
      "grad_norm_var": 17.684375,
      "learning_rate": 9.206138987177118e-05,
      "loss": 6.6358,
      "loss/crossentropy": 1.9023324400186539,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23484686017036438,
      "step": 1092
    },
    {
      "epoch": 0.18216666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 16.784830729166668,
      "learning_rate": 9.204722911490846e-05,
      "loss": 6.7327,
      "loss/crossentropy": 1.3453277945518494,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20566649548709393,
      "step": 1093
    },
    {
      "epoch": 0.18233333333333332,
      "grad_norm": 29.25,
      "grad_norm_var": 16.87890625,
      "learning_rate": 9.20330568305594e-05,
      "loss": 6.7803,
      "loss/crossentropy": 1.8893288373947144,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2047295831143856,
      "step": 1094
    },
    {
      "epoch": 0.1825,
      "grad_norm": 26.5,
      "grad_norm_var": 17.463541666666668,
      "learning_rate": 9.201887302260943e-05,
      "loss": 7.0077,
      "loss/crossentropy": 2.0443789064884186,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.37492508813738823,
      "step": 1095
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 17.174934895833335,
      "learning_rate": 9.20046776949471e-05,
      "loss": 6.8071,
      "loss/crossentropy": 1.9399181604385376,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2062360793352127,
      "step": 1096
    },
    {
      "epoch": 0.18283333333333332,
      "grad_norm": 28.5,
      "grad_norm_var": 17.463997395833335,
      "learning_rate": 9.199047085146415e-05,
      "loss": 7.0174,
      "loss/crossentropy": 2.3190993070602417,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16586605831980705,
      "step": 1097
    },
    {
      "epoch": 0.183,
      "grad_norm": 27.5,
      "grad_norm_var": 17.935416666666665,
      "learning_rate": 9.197625249605546e-05,
      "loss": 6.8453,
      "loss/crossentropy": 1.9766651391983032,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23800357058644295,
      "step": 1098
    },
    {
      "epoch": 0.18316666666666667,
      "grad_norm": 27.625,
      "grad_norm_var": 18.154622395833332,
      "learning_rate": 9.196202263261908e-05,
      "loss": 6.2618,
      "loss/crossentropy": 1.3636380434036255,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2844836488366127,
      "step": 1099
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 30.25,
      "grad_norm_var": 6.467122395833333,
      "learning_rate": 9.194778126505621e-05,
      "loss": 6.6721,
      "loss/crossentropy": 1.7554650008678436,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19685994274914265,
      "step": 1100
    },
    {
      "epoch": 0.1835,
      "grad_norm": 29.75,
      "grad_norm_var": 6.36640625,
      "learning_rate": 9.193352839727121e-05,
      "loss": 6.508,
      "loss/crossentropy": 1.418417051434517,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1817461997270584,
      "step": 1101
    },
    {
      "epoch": 0.18366666666666667,
      "grad_norm": 30.125,
      "grad_norm_var": 6.179622395833333,
      "learning_rate": 9.191926403317155e-05,
      "loss": 6.7888,
      "loss/crossentropy": 1.9059070199728012,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17574192211031914,
      "step": 1102
    },
    {
      "epoch": 0.18383333333333332,
      "grad_norm": 27.25,
      "grad_norm_var": 6.195572916666666,
      "learning_rate": 9.190498817666793e-05,
      "loss": 6.7849,
      "loss/crossentropy": 1.3170613497495651,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21735167875885963,
      "step": 1103
    },
    {
      "epoch": 0.184,
      "grad_norm": 28.625,
      "grad_norm_var": 5.724739583333333,
      "learning_rate": 9.189070083167411e-05,
      "loss": 6.7249,
      "loss/crossentropy": 1.7239506840705872,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22732261009514332,
      "step": 1104
    },
    {
      "epoch": 0.18416666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 2.699934895833333,
      "learning_rate": 9.18764020021071e-05,
      "loss": 7.4892,
      "loss/crossentropy": 2.229788452386856,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24073180928826332,
      "step": 1105
    },
    {
      "epoch": 0.18433333333333332,
      "grad_norm": 30.25,
      "grad_norm_var": 1.4337890625,
      "learning_rate": 9.186209169188695e-05,
      "loss": 6.3854,
      "loss/crossentropy": 1.439317725598812,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14441492035984993,
      "step": 1106
    },
    {
      "epoch": 0.1845,
      "grad_norm": 29.375,
      "grad_norm_var": 1.4327473958333334,
      "learning_rate": 9.184776990493695e-05,
      "loss": 6.6847,
      "loss/crossentropy": 1.704232081770897,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1967526078224182,
      "step": 1107
    },
    {
      "epoch": 0.18466666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 1.4747395833333334,
      "learning_rate": 9.183343664518348e-05,
      "loss": 6.3027,
      "loss/crossentropy": 1.175614818930626,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13120904564857483,
      "step": 1108
    },
    {
      "epoch": 0.18483333333333332,
      "grad_norm": 26.25,
      "grad_norm_var": 1.8561848958333333,
      "learning_rate": 9.181909191655612e-05,
      "loss": 7.0494,
      "loss/crossentropy": 1.6754688024520874,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1912320740520954,
      "step": 1109
    },
    {
      "epoch": 0.185,
      "grad_norm": 25.125,
      "grad_norm_var": 2.6059895833333333,
      "learning_rate": 9.180473572298751e-05,
      "loss": 6.5747,
      "loss/crossentropy": 1.5051643997430801,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10529914731159806,
      "step": 1110
    },
    {
      "epoch": 0.18516666666666667,
      "grad_norm": 29.625,
      "grad_norm_var": 2.4155598958333333,
      "learning_rate": 9.179036806841353e-05,
      "loss": 6.7311,
      "loss/crossentropy": 1.602803036570549,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18250281177461147,
      "step": 1111
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 30.125,
      "grad_norm_var": 2.4155598958333333,
      "learning_rate": 9.177598895677309e-05,
      "loss": 6.9634,
      "loss/crossentropy": 1.5102469325065613,
      "loss/hidden": 3.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3009185716509819,
      "step": 1112
    },
    {
      "epoch": 0.1855,
      "grad_norm": 29.25,
      "grad_norm_var": 2.4389973958333333,
      "learning_rate": 9.176159839200838e-05,
      "loss": 6.4181,
      "loss/crossentropy": 1.632187157869339,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15377922169864178,
      "step": 1113
    },
    {
      "epoch": 0.18566666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 2.3510416666666667,
      "learning_rate": 9.17471963780646e-05,
      "loss": 6.5475,
      "loss/crossentropy": 1.6477246582508087,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13139150105416775,
      "step": 1114
    },
    {
      "epoch": 0.18583333333333332,
      "grad_norm": 30.5,
      "grad_norm_var": 2.448372395833333,
      "learning_rate": 9.173278291889015e-05,
      "loss": 6.7408,
      "loss/crossentropy": 1.353840321302414,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23572589084506035,
      "step": 1115
    },
    {
      "epoch": 0.186,
      "grad_norm": 27.5,
      "grad_norm_var": 2.4254557291666665,
      "learning_rate": 9.171835801843658e-05,
      "loss": 6.6785,
      "loss/crossentropy": 1.3895253986120224,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16994834505021572,
      "step": 1116
    },
    {
      "epoch": 0.18616666666666667,
      "grad_norm": 30.5,
      "grad_norm_var": 2.5629557291666667,
      "learning_rate": 9.170392168065857e-05,
      "loss": 6.7035,
      "loss/crossentropy": 1.8727948367595673,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2386951968073845,
      "step": 1117
    },
    {
      "epoch": 0.18633333333333332,
      "grad_norm": 28.5,
      "grad_norm_var": 2.43515625,
      "learning_rate": 9.168947390951388e-05,
      "loss": 6.6923,
      "loss/crossentropy": 1.233549326658249,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13183335401117802,
      "step": 1118
    },
    {
      "epoch": 0.1865,
      "grad_norm": 27.25,
      "grad_norm_var": 2.43515625,
      "learning_rate": 9.167501470896349e-05,
      "loss": 6.4367,
      "loss/crossentropy": 1.3284440636634827,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12750062718987465,
      "step": 1119
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 31.625,
      "grad_norm_var": 2.97890625,
      "learning_rate": 9.166054408297145e-05,
      "loss": 7.1919,
      "loss/crossentropy": 2.2246187031269073,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1881609559059143,
      "step": 1120
    },
    {
      "epoch": 0.18683333333333332,
      "grad_norm": 28.625,
      "grad_norm_var": 2.939322916666667,
      "learning_rate": 9.164606203550497e-05,
      "loss": 6.7847,
      "loss/crossentropy": 1.483774647116661,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2637944780290127,
      "step": 1121
    },
    {
      "epoch": 0.187,
      "grad_norm": 29.0,
      "grad_norm_var": 2.794791666666667,
      "learning_rate": 9.16315685705344e-05,
      "loss": 6.9156,
      "loss/crossentropy": 2.547579824924469,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29180193692445755,
      "step": 1122
    },
    {
      "epoch": 0.18716666666666668,
      "grad_norm": 27.875,
      "grad_norm_var": 2.8041666666666667,
      "learning_rate": 9.161706369203317e-05,
      "loss": 6.6665,
      "loss/crossentropy": 1.3284527510404587,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22660033591091633,
      "step": 1123
    },
    {
      "epoch": 0.18733333333333332,
      "grad_norm": 26.875,
      "grad_norm_var": 2.966666666666667,
      "learning_rate": 9.160254740397791e-05,
      "loss": 6.6604,
      "loss/crossentropy": 1.7407826334238052,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1453867368400097,
      "step": 1124
    },
    {
      "epoch": 0.1875,
      "grad_norm": 26.875,
      "grad_norm_var": 2.7983723958333333,
      "learning_rate": 9.158801971034832e-05,
      "loss": 6.4418,
      "loss/crossentropy": 1.4215179234743118,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13300453312695026,
      "step": 1125
    },
    {
      "epoch": 0.18766666666666668,
      "grad_norm": 27.0,
      "grad_norm_var": 2.1489583333333333,
      "learning_rate": 9.157348061512727e-05,
      "loss": 6.3674,
      "loss/crossentropy": 1.196425050497055,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12883343547582626,
      "step": 1126
    },
    {
      "epoch": 0.18783333333333332,
      "grad_norm": 28.125,
      "grad_norm_var": 2.1083333333333334,
      "learning_rate": 9.15589301223007e-05,
      "loss": 6.5302,
      "loss/crossentropy": 0.9842760860919952,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11342811957001686,
      "step": 1127
    },
    {
      "epoch": 0.188,
      "grad_norm": 28.875,
      "grad_norm_var": 1.9559895833333334,
      "learning_rate": 9.154436823585777e-05,
      "loss": 6.5862,
      "loss/crossentropy": 1.5646549314260483,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.211781557649374,
      "step": 1128
    },
    {
      "epoch": 0.18816666666666668,
      "grad_norm": 25.875,
      "grad_norm_var": 2.3514973958333334,
      "learning_rate": 9.152979495979063e-05,
      "loss": 6.7477,
      "loss/crossentropy": 1.2287218123674393,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24197194911539555,
      "step": 1129
    },
    {
      "epoch": 0.18833333333333332,
      "grad_norm": 28.0,
      "grad_norm_var": 2.3583333333333334,
      "learning_rate": 9.151521029809469e-05,
      "loss": 6.4685,
      "loss/crossentropy": 0.9807814359664917,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20455237291753292,
      "step": 1130
    },
    {
      "epoch": 0.1885,
      "grad_norm": 26.75,
      "grad_norm_var": 2.1434895833333334,
      "learning_rate": 9.150061425476838e-05,
      "loss": 6.5694,
      "loss/crossentropy": 1.7335754111409187,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11938268970698118,
      "step": 1131
    },
    {
      "epoch": 0.18866666666666668,
      "grad_norm": 29.5,
      "grad_norm_var": 2.2393229166666666,
      "learning_rate": 9.14860068338133e-05,
      "loss": 6.7335,
      "loss/crossentropy": 1.0469383150339127,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19568204693496227,
      "step": 1132
    },
    {
      "epoch": 0.18883333333333333,
      "grad_norm": 26.375,
      "grad_norm_var": 2.0395182291666667,
      "learning_rate": 9.147138803923416e-05,
      "loss": 6.4101,
      "loss/crossentropy": 1.400108441710472,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16938790678977966,
      "step": 1133
    },
    {
      "epoch": 0.189,
      "grad_norm": 29.125,
      "grad_norm_var": 2.11015625,
      "learning_rate": 9.145675787503878e-05,
      "loss": 6.4386,
      "loss/crossentropy": 1.6609979271888733,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21109462156891823,
      "step": 1134
    },
    {
      "epoch": 0.18916666666666668,
      "grad_norm": 28.375,
      "grad_norm_var": 2.0791015625,
      "learning_rate": 9.14421163452381e-05,
      "loss": 6.9789,
      "loss/crossentropy": 1.4032050222158432,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1367554683238268,
      "step": 1135
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 1.62265625,
      "learning_rate": 9.142746345384619e-05,
      "loss": 7.2695,
      "loss/crossentropy": 1.9446362257003784,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2847407441586256,
      "step": 1136
    },
    {
      "epoch": 0.1895,
      "grad_norm": 28.125,
      "grad_norm_var": 1.5955729166666666,
      "learning_rate": 9.141279920488021e-05,
      "loss": 6.4097,
      "loss/crossentropy": 1.5586843192577362,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23947792127728462,
      "step": 1137
    },
    {
      "epoch": 0.18966666666666668,
      "grad_norm": 28.25,
      "grad_norm_var": 1.5260416666666667,
      "learning_rate": 9.139812360236046e-05,
      "loss": 6.8643,
      "loss/crossentropy": 1.4375022053718567,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14979300647974014,
      "step": 1138
    },
    {
      "epoch": 0.18983333333333333,
      "grad_norm": 30.5,
      "grad_norm_var": 1.9457682291666667,
      "learning_rate": 9.138343665031033e-05,
      "loss": 7.0323,
      "loss/crossentropy": 2.1014698147773743,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2438003458082676,
      "step": 1139
    },
    {
      "epoch": 0.19,
      "grad_norm": 29.0,
      "grad_norm_var": 1.8893229166666667,
      "learning_rate": 9.136873835275633e-05,
      "loss": 6.4694,
      "loss/crossentropy": 1.7500245869159698,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22757063433527946,
      "step": 1140
    },
    {
      "epoch": 0.19016666666666668,
      "grad_norm": 29.5,
      "grad_norm_var": 1.8551432291666667,
      "learning_rate": 9.135402871372808e-05,
      "loss": 6.6971,
      "loss/crossentropy": 1.8896842002868652,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21483681350946426,
      "step": 1141
    },
    {
      "epoch": 0.19033333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 1.8134765625,
      "learning_rate": 9.133930773725834e-05,
      "loss": 6.5363,
      "loss/crossentropy": 1.075780563056469,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1016013901680708,
      "step": 1142
    },
    {
      "epoch": 0.1905,
      "grad_norm": 29.75,
      "grad_norm_var": 1.92265625,
      "learning_rate": 9.132457542738292e-05,
      "loss": 6.8569,
      "loss/crossentropy": 1.4011684656143188,
      "loss/hidden": 4.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1438417974859476,
      "step": 1143
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 27.125,
      "grad_norm_var": 2.0229166666666667,
      "learning_rate": 9.130983178814077e-05,
      "loss": 6.7067,
      "loss/crossentropy": 1.2498696893453598,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17606077156960964,
      "step": 1144
    },
    {
      "epoch": 0.19083333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 1.9434895833333334,
      "learning_rate": 9.129507682357394e-05,
      "loss": 6.6912,
      "loss/crossentropy": 1.0827951952815056,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1887818519026041,
      "step": 1145
    },
    {
      "epoch": 0.191,
      "grad_norm": 28.625,
      "grad_norm_var": 1.9353515625,
      "learning_rate": 9.128031053772759e-05,
      "loss": 6.7258,
      "loss/crossentropy": 1.3786602169275284,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13905745558440685,
      "step": 1146
    },
    {
      "epoch": 0.19116666666666668,
      "grad_norm": 30.625,
      "grad_norm_var": 2.005989583333333,
      "learning_rate": 9.126553293464998e-05,
      "loss": 6.7825,
      "loss/crossentropy": 1.7173727452754974,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1754875760525465,
      "step": 1147
    },
    {
      "epoch": 0.19133333333333333,
      "grad_norm": 29.75,
      "grad_norm_var": 2.0375,
      "learning_rate": 9.125074401839249e-05,
      "loss": 6.7077,
      "loss/crossentropy": 1.3831033259630203,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1177002526819706,
      "step": 1148
    },
    {
      "epoch": 0.1915,
      "grad_norm": 27.75,
      "grad_norm_var": 1.7317057291666667,
      "learning_rate": 9.123594379300955e-05,
      "loss": 6.2903,
      "loss/crossentropy": 1.2398637905716896,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11419546976685524,
      "step": 1149
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 31.625,
      "grad_norm_var": 2.239518229166667,
      "learning_rate": 9.122113226255877e-05,
      "loss": 7.1381,
      "loss/crossentropy": 1.5385432243347168,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20141547359526157,
      "step": 1150
    },
    {
      "epoch": 0.19183333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 2.2181640625,
      "learning_rate": 9.120630943110077e-05,
      "loss": 6.9889,
      "loss/crossentropy": 1.968285232782364,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22922252863645554,
      "step": 1151
    },
    {
      "epoch": 0.192,
      "grad_norm": 28.75,
      "grad_norm_var": 2.0504557291666665,
      "learning_rate": 9.119147530269937e-05,
      "loss": 6.4616,
      "loss/crossentropy": 1.6147977262735367,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22360694780945778,
      "step": 1152
    },
    {
      "epoch": 0.19216666666666668,
      "grad_norm": 28.125,
      "grad_norm_var": 2.0504557291666665,
      "learning_rate": 9.117662988142138e-05,
      "loss": 6.6606,
      "loss/crossentropy": 1.3119268715381622,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15336495265364647,
      "step": 1153
    },
    {
      "epoch": 0.19233333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 2.145768229166667,
      "learning_rate": 9.116177317133676e-05,
      "loss": 6.4666,
      "loss/crossentropy": 1.5752292722463608,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12842294573783875,
      "step": 1154
    },
    {
      "epoch": 0.1925,
      "grad_norm": 30.375,
      "grad_norm_var": 2.1184895833333335,
      "learning_rate": 9.114690517651859e-05,
      "loss": 6.7643,
      "loss/crossentropy": 1.7045340538024902,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16367618553340435,
      "step": 1155
    },
    {
      "epoch": 0.19266666666666668,
      "grad_norm": 27.0,
      "grad_norm_var": 2.314322916666667,
      "learning_rate": 9.1132025901043e-05,
      "loss": 6.8107,
      "loss/crossentropy": 1.4380560964345932,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20478954166173935,
      "step": 1156
    },
    {
      "epoch": 0.19283333333333333,
      "grad_norm": 31.375,
      "grad_norm_var": 2.741080729166667,
      "learning_rate": 9.111713534898922e-05,
      "loss": 7.2648,
      "loss/crossentropy": 1.8873392343521118,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2218952253460884,
      "step": 1157
    },
    {
      "epoch": 0.193,
      "grad_norm": 27.125,
      "grad_norm_var": 2.767708333333333,
      "learning_rate": 9.110223352443958e-05,
      "loss": 6.6598,
      "loss/crossentropy": 1.3560119718313217,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1457577794790268,
      "step": 1158
    },
    {
      "epoch": 0.19316666666666665,
      "grad_norm": 25.5,
      "grad_norm_var": 3.34765625,
      "learning_rate": 9.108732043147952e-05,
      "loss": 6.387,
      "loss/crossentropy": 1.8567863702774048,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.189379021525383,
      "step": 1159
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 28.125,
      "grad_norm_var": 3.224739583333333,
      "learning_rate": 9.107239607419753e-05,
      "loss": 6.9686,
      "loss/crossentropy": 1.6484321355819702,
      "loss/hidden": 3.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22876212559640408,
      "step": 1160
    },
    {
      "epoch": 0.1935,
      "grad_norm": 26.375,
      "grad_norm_var": 3.146875,
      "learning_rate": 9.105746045668521e-05,
      "loss": 6.8195,
      "loss/crossentropy": 1.8834514319896698,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1649310365319252,
      "step": 1161
    },
    {
      "epoch": 0.19366666666666665,
      "grad_norm": 28.5,
      "grad_norm_var": 3.147330729166667,
      "learning_rate": 9.104251358303724e-05,
      "loss": 6.5509,
      "loss/crossentropy": 1.2517316043376923,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14421220496296883,
      "step": 1162
    },
    {
      "epoch": 0.19383333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 2.851822916666667,
      "learning_rate": 9.102755545735141e-05,
      "loss": 6.9415,
      "loss/crossentropy": 1.566934511065483,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16994167864322662,
      "step": 1163
    },
    {
      "epoch": 0.194,
      "grad_norm": 30.375,
      "grad_norm_var": 2.9843098958333334,
      "learning_rate": 9.101258608372856e-05,
      "loss": 6.7779,
      "loss/crossentropy": 1.2031786739826202,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1660716887563467,
      "step": 1164
    },
    {
      "epoch": 0.19416666666666665,
      "grad_norm": 31.5,
      "grad_norm_var": 3.4921223958333334,
      "learning_rate": 9.099760546627261e-05,
      "loss": 6.8136,
      "loss/crossentropy": 1.7103138267993927,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14589514583349228,
      "step": 1165
    },
    {
      "epoch": 0.19433333333333333,
      "grad_norm": 30.375,
      "grad_norm_var": 3.106705729166667,
      "learning_rate": 9.098261360909064e-05,
      "loss": 6.9035,
      "loss/crossentropy": 1.2733410149812698,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13349948450922966,
      "step": 1166
    },
    {
      "epoch": 0.1945,
      "grad_norm": 25.5,
      "grad_norm_var": 3.716666666666667,
      "learning_rate": 9.096761051629268e-05,
      "loss": 6.2888,
      "loss/crossentropy": 1.850477620959282,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18535355478525162,
      "step": 1167
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 29.75,
      "grad_norm_var": 3.8208333333333333,
      "learning_rate": 9.095259619199197e-05,
      "loss": 7.0673,
      "loss/crossentropy": 1.661905825138092,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16752731800079346,
      "step": 1168
    },
    {
      "epoch": 0.19483333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 3.815559895833333,
      "learning_rate": 9.093757064030473e-05,
      "loss": 7.0351,
      "loss/crossentropy": 1.4530473500490189,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1607332043349743,
      "step": 1169
    },
    {
      "epoch": 0.195,
      "grad_norm": 27.5,
      "grad_norm_var": 3.815559895833333,
      "learning_rate": 9.092253386535032e-05,
      "loss": 6.7947,
      "loss/crossentropy": 1.9012523591518402,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24264705926179886,
      "step": 1170
    },
    {
      "epoch": 0.19516666666666665,
      "grad_norm": 28.25,
      "grad_norm_var": 3.56875,
      "learning_rate": 9.090748587125118e-05,
      "loss": 6.4319,
      "loss/crossentropy": 1.2599057853221893,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13274476863443851,
      "step": 1171
    },
    {
      "epoch": 0.19533333333333333,
      "grad_norm": 29.375,
      "grad_norm_var": 3.4858723958333333,
      "learning_rate": 9.089242666213276e-05,
      "loss": 6.709,
      "loss/crossentropy": 1.3363978862762451,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22091389633715153,
      "step": 1172
    },
    {
      "epoch": 0.1955,
      "grad_norm": 27.875,
      "grad_norm_var": 2.920768229166667,
      "learning_rate": 9.087735624212365e-05,
      "loss": 6.4208,
      "loss/crossentropy": 0.8140209168195724,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14398249424993992,
      "step": 1173
    },
    {
      "epoch": 0.19566666666666666,
      "grad_norm": 27.875,
      "grad_norm_var": 2.8379557291666666,
      "learning_rate": 9.08622746153555e-05,
      "loss": 6.5416,
      "loss/crossentropy": 1.64599147439003,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13100099749863148,
      "step": 1174
    },
    {
      "epoch": 0.19583333333333333,
      "grad_norm": 32.25,
      "grad_norm_var": 3.1192057291666666,
      "learning_rate": 9.084718178596301e-05,
      "loss": 7.3333,
      "loss/crossentropy": 1.9611361026763916,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16890819370746613,
      "step": 1175
    },
    {
      "epoch": 0.196,
      "grad_norm": 26.25,
      "grad_norm_var": 3.5010416666666666,
      "learning_rate": 9.083207775808396e-05,
      "loss": 6.6961,
      "loss/crossentropy": 1.419433519244194,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13947676308453083,
      "step": 1176
    },
    {
      "epoch": 0.19616666666666666,
      "grad_norm": 28.625,
      "grad_norm_var": 3.133072916666667,
      "learning_rate": 9.081696253585921e-05,
      "loss": 6.1697,
      "loss/crossentropy": 1.317748561501503,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15072812139987946,
      "step": 1177
    },
    {
      "epoch": 0.19633333333333333,
      "grad_norm": 28.125,
      "grad_norm_var": 3.1567057291666667,
      "learning_rate": 9.080183612343268e-05,
      "loss": 6.7164,
      "loss/crossentropy": 1.3343005925416946,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1475490778684616,
      "step": 1178
    },
    {
      "epoch": 0.1965,
      "grad_norm": 29.875,
      "grad_norm_var": 3.224739583333333,
      "learning_rate": 9.078669852495138e-05,
      "loss": 6.6116,
      "loss/crossentropy": 1.3958501517772675,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19039911031723022,
      "step": 1179
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 26.625,
      "grad_norm_var": 3.345833333333333,
      "learning_rate": 9.077154974456534e-05,
      "loss": 6.5651,
      "loss/crossentropy": 1.6107353270053864,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17827985808253288,
      "step": 1180
    },
    {
      "epoch": 0.19683333333333333,
      "grad_norm": 25.75,
      "grad_norm_var": 3.2080729166666666,
      "learning_rate": 9.075638978642771e-05,
      "loss": 6.1706,
      "loss/crossentropy": 1.153374306857586,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09518537670373917,
      "step": 1181
    },
    {
      "epoch": 0.197,
      "grad_norm": 29.5,
      "grad_norm_var": 3.0098307291666666,
      "learning_rate": 9.074121865469467e-05,
      "loss": 6.6373,
      "loss/crossentropy": 1.1229224801063538,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.143198374658823,
      "step": 1182
    },
    {
      "epoch": 0.19716666666666666,
      "grad_norm": 29.875,
      "grad_norm_var": 2.624739583333333,
      "learning_rate": 9.072603635352548e-05,
      "loss": 6.803,
      "loss/crossentropy": 1.1446676403284073,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20634750649333,
      "step": 1183
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 2.593489583333333,
      "learning_rate": 9.071084288708243e-05,
      "loss": 6.7214,
      "loss/crossentropy": 1.3592483848333359,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12259738147258759,
      "step": 1184
    },
    {
      "epoch": 0.1975,
      "grad_norm": 27.25,
      "grad_norm_var": 2.66640625,
      "learning_rate": 9.069563825953092e-05,
      "loss": 6.3755,
      "loss/crossentropy": 0.930594339966774,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09236075170338154,
      "step": 1185
    },
    {
      "epoch": 0.19766666666666666,
      "grad_norm": 27.125,
      "grad_norm_var": 2.7134765625,
      "learning_rate": 9.068042247503936e-05,
      "loss": 6.6205,
      "loss/crossentropy": 1.8010877966880798,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2238609902560711,
      "step": 1186
    },
    {
      "epoch": 0.19783333333333333,
      "grad_norm": 27.0,
      "grad_norm_var": 2.809830729166667,
      "learning_rate": 9.066519553777926e-05,
      "loss": 6.6321,
      "loss/crossentropy": 1.4810826033353806,
      "loss/hidden": 3.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1963069550693035,
      "step": 1187
    },
    {
      "epoch": 0.198,
      "grad_norm": 28.75,
      "grad_norm_var": 2.7333333333333334,
      "learning_rate": 9.064995745192518e-05,
      "loss": 6.9062,
      "loss/crossentropy": 1.7429955452680588,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20512964576482773,
      "step": 1188
    },
    {
      "epoch": 0.19816666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 2.974739583333333,
      "learning_rate": 9.06347082216547e-05,
      "loss": 6.9706,
      "loss/crossentropy": 1.5064394623041153,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.13919940404593945,
      "step": 1189
    },
    {
      "epoch": 0.19833333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 3.003059895833333,
      "learning_rate": 9.061944785114851e-05,
      "loss": 6.6419,
      "loss/crossentropy": 1.9997592568397522,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24072296917438507,
      "step": 1190
    },
    {
      "epoch": 0.1985,
      "grad_norm": 26.125,
      "grad_norm_var": 2.0747395833333333,
      "learning_rate": 9.060417634459031e-05,
      "loss": 6.1881,
      "loss/crossentropy": 1.072800636291504,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11856809444725513,
      "step": 1191
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 26.75,
      "grad_norm_var": 1.9830729166666667,
      "learning_rate": 9.058889370616689e-05,
      "loss": 6.0493,
      "loss/crossentropy": 1.301239162683487,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11753997579216957,
      "step": 1192
    },
    {
      "epoch": 0.19883333333333333,
      "grad_norm": 31.625,
      "grad_norm_var": 2.8393229166666667,
      "learning_rate": 9.057359994006806e-05,
      "loss": 7.1586,
      "loss/crossentropy": 1.8825919032096863,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.168900016695261,
      "step": 1193
    },
    {
      "epoch": 0.199,
      "grad_norm": 26.125,
      "grad_norm_var": 3.0768229166666665,
      "learning_rate": 9.055829505048667e-05,
      "loss": 6.5576,
      "loss/crossentropy": 1.4147628545761108,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14477220736443996,
      "step": 1194
    },
    {
      "epoch": 0.19916666666666666,
      "grad_norm": 29.625,
      "grad_norm_var": 3.0166666666666666,
      "learning_rate": 9.054297904161868e-05,
      "loss": 7.0073,
      "loss/crossentropy": 1.7706734985113144,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19512862339615822,
      "step": 1195
    },
    {
      "epoch": 0.19933333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 2.8955729166666666,
      "learning_rate": 9.052765191766304e-05,
      "loss": 6.8255,
      "loss/crossentropy": 1.1627454906702042,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10302140191197395,
      "step": 1196
    },
    {
      "epoch": 0.1995,
      "grad_norm": 27.125,
      "grad_norm_var": 2.598372395833333,
      "learning_rate": 9.051231368282177e-05,
      "loss": 6.1381,
      "loss/crossentropy": 1.7248927056789398,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14499239809811115,
      "step": 1197
    },
    {
      "epoch": 0.19966666666666666,
      "grad_norm": 28.0,
      "grad_norm_var": 2.4593098958333335,
      "learning_rate": 9.049696434129994e-05,
      "loss": 6.8588,
      "loss/crossentropy": 1.5471692085266113,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18744614906609058,
      "step": 1198
    },
    {
      "epoch": 0.19983333333333334,
      "grad_norm": 29.25,
      "grad_norm_var": 2.328125,
      "learning_rate": 9.048160389730566e-05,
      "loss": 6.7448,
      "loss/crossentropy": 1.419817790389061,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1421039178967476,
      "step": 1199
    },
    {
      "epoch": 0.2,
      "grad_norm": 28.375,
      "grad_norm_var": 2.2994140625,
      "learning_rate": 9.046623235505007e-05,
      "loss": 6.6168,
      "loss/crossentropy": 1.5587895065546036,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1169568095356226,
      "step": 1200
    },
    {
      "epoch": 0.20016666666666666,
      "grad_norm": 27.375,
      "grad_norm_var": 2.287239583333333,
      "learning_rate": 9.045084971874738e-05,
      "loss": 6.9286,
      "loss/crossentropy": 1.6890553534030914,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13997517712414265,
      "step": 1201
    },
    {
      "epoch": 0.20033333333333334,
      "grad_norm": 26.75,
      "grad_norm_var": 2.3421223958333335,
      "learning_rate": 9.043545599261481e-05,
      "loss": 6.3552,
      "loss/crossentropy": 1.7470484524965286,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17869875393807888,
      "step": 1202
    },
    {
      "epoch": 0.2005,
      "grad_norm": 26.25,
      "grad_norm_var": 2.479622395833333,
      "learning_rate": 9.042005118087267e-05,
      "loss": 6.5288,
      "loss/crossentropy": 1.701821357011795,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14979557134211063,
      "step": 1203
    },
    {
      "epoch": 0.20066666666666666,
      "grad_norm": 32.25,
      "grad_norm_var": 3.606184895833333,
      "learning_rate": 9.040463528774423e-05,
      "loss": 6.9567,
      "loss/crossentropy": 1.4951329976320267,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24193494021892548,
      "step": 1204
    },
    {
      "epoch": 0.20083333333333334,
      "grad_norm": 30.875,
      "grad_norm_var": 3.8343098958333335,
      "learning_rate": 9.038920831745587e-05,
      "loss": 6.8274,
      "loss/crossentropy": 2.0322689712047577,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15476682782173157,
      "step": 1205
    },
    {
      "epoch": 0.201,
      "grad_norm": 28.625,
      "grad_norm_var": 3.8020833333333335,
      "learning_rate": 9.0373770274237e-05,
      "loss": 6.6209,
      "loss/crossentropy": 1.497676894068718,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1388947144150734,
      "step": 1206
    },
    {
      "epoch": 0.20116666666666666,
      "grad_norm": 28.25,
      "grad_norm_var": 3.4645182291666665,
      "learning_rate": 9.035832116232001e-05,
      "loss": 6.4037,
      "loss/crossentropy": 1.248465672135353,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16754697728902102,
      "step": 1207
    },
    {
      "epoch": 0.20133333333333334,
      "grad_norm": 27.125,
      "grad_norm_var": 3.388541666666667,
      "learning_rate": 9.03428609859404e-05,
      "loss": 6.0206,
      "loss/crossentropy": 0.5909055694937706,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08574395999312401,
      "step": 1208
    },
    {
      "epoch": 0.2015,
      "grad_norm": 26.25,
      "grad_norm_var": 2.9322265625,
      "learning_rate": 9.032738974933664e-05,
      "loss": 6.6539,
      "loss/crossentropy": 1.3955488801002502,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21347402036190033,
      "step": 1209
    },
    {
      "epoch": 0.20166666666666666,
      "grad_norm": 28.0,
      "grad_norm_var": 2.65,
      "learning_rate": 9.031190745675024e-05,
      "loss": 6.6029,
      "loss/crossentropy": 1.8016868829727173,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15900519117712975,
      "step": 1210
    },
    {
      "epoch": 0.20183333333333334,
      "grad_norm": 28.375,
      "grad_norm_var": 2.5184895833333334,
      "learning_rate": 9.029641411242579e-05,
      "loss": 6.8054,
      "loss/crossentropy": 1.5825860798358917,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20401453599333763,
      "step": 1211
    },
    {
      "epoch": 0.202,
      "grad_norm": 31.0,
      "grad_norm_var": 3.005143229166667,
      "learning_rate": 9.028090972061088e-05,
      "loss": 6.9967,
      "loss/crossentropy": 1.3594131767749786,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1763775832951069,
      "step": 1212
    },
    {
      "epoch": 0.20216666666666666,
      "grad_norm": 29.5,
      "grad_norm_var": 2.9643229166666667,
      "learning_rate": 9.02653942855561e-05,
      "loss": 6.8733,
      "loss/crossentropy": 2.009831130504608,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19624514132738113,
      "step": 1213
    },
    {
      "epoch": 0.20233333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 2.9567057291666665,
      "learning_rate": 9.024986781151512e-05,
      "loss": 7.0479,
      "loss/crossentropy": 1.5291010439395905,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24753132835030556,
      "step": 1214
    },
    {
      "epoch": 0.2025,
      "grad_norm": 26.125,
      "grad_norm_var": 3.2643229166666665,
      "learning_rate": 9.023433030274459e-05,
      "loss": 6.971,
      "loss/crossentropy": 1.1791229546070099,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24390131048858166,
      "step": 1215
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 26.125,
      "grad_norm_var": 3.566666666666667,
      "learning_rate": 9.021878176350423e-05,
      "loss": 7.0674,
      "loss/crossentropy": 1.4992656409740448,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14316371455788612,
      "step": 1216
    },
    {
      "epoch": 0.20283333333333334,
      "grad_norm": 29.5,
      "grad_norm_var": 3.6186848958333333,
      "learning_rate": 9.020322219805674e-05,
      "loss": 6.9972,
      "loss/crossentropy": 2.2822020053863525,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20745661109685898,
      "step": 1217
    },
    {
      "epoch": 0.203,
      "grad_norm": 29.75,
      "grad_norm_var": 3.5530598958333335,
      "learning_rate": 9.018765161066787e-05,
      "loss": 7.1042,
      "loss/crossentropy": 2.0620460212230682,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2415241003036499,
      "step": 1218
    },
    {
      "epoch": 0.20316666666666666,
      "grad_norm": 30.875,
      "grad_norm_var": 3.49765625,
      "learning_rate": 9.017207000560639e-05,
      "loss": 6.8128,
      "loss/crossentropy": 1.655750960111618,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2676118575036526,
      "step": 1219
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 29.0,
      "grad_norm_var": 2.6614583333333335,
      "learning_rate": 9.015647738714408e-05,
      "loss": 6.692,
      "loss/crossentropy": 1.2279730141162872,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16738798841834068,
      "step": 1220
    },
    {
      "epoch": 0.2035,
      "grad_norm": 27.5,
      "grad_norm_var": 2.346809895833333,
      "learning_rate": 9.014087375955573e-05,
      "loss": 6.615,
      "loss/crossentropy": 1.3126295655965805,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1448457706719637,
      "step": 1221
    },
    {
      "epoch": 0.20366666666666666,
      "grad_norm": 28.875,
      "grad_norm_var": 2.3587890625,
      "learning_rate": 9.012525912711918e-05,
      "loss": 6.8934,
      "loss/crossentropy": 1.359935849905014,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.207577807828784,
      "step": 1222
    },
    {
      "epoch": 0.20383333333333334,
      "grad_norm": 26.75,
      "grad_norm_var": 2.5291015625,
      "learning_rate": 9.010963349411529e-05,
      "loss": 6.6074,
      "loss/crossentropy": 1.4897202253341675,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1723779635503888,
      "step": 1223
    },
    {
      "epoch": 0.204,
      "grad_norm": 26.5,
      "grad_norm_var": 2.6518229166666667,
      "learning_rate": 9.009399686482787e-05,
      "loss": 6.6729,
      "loss/crossentropy": 2.1506561040878296,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21321503818035126,
      "step": 1224
    },
    {
      "epoch": 0.20416666666666666,
      "grad_norm": 31.875,
      "grad_norm_var": 3.1176432291666667,
      "learning_rate": 9.007834924354383e-05,
      "loss": 6.7883,
      "loss/crossentropy": 1.533318668603897,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1673147864639759,
      "step": 1225
    },
    {
      "epoch": 0.20433333333333334,
      "grad_norm": 31.375,
      "grad_norm_var": 3.5518229166666666,
      "learning_rate": 9.006269063455304e-05,
      "loss": 6.9214,
      "loss/crossentropy": 1.954908162355423,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2034966889768839,
      "step": 1226
    },
    {
      "epoch": 0.2045,
      "grad_norm": 29.375,
      "grad_norm_var": 3.55390625,
      "learning_rate": 9.00470210421484e-05,
      "loss": 6.8735,
      "loss/crossentropy": 1.4537492394447327,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15034646075218916,
      "step": 1227
    },
    {
      "epoch": 0.20466666666666666,
      "grad_norm": 28.5,
      "grad_norm_var": 3.24140625,
      "learning_rate": 9.003134047062579e-05,
      "loss": 7.0833,
      "loss/crossentropy": 1.2051249742507935,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21681534126400948,
      "step": 1228
    },
    {
      "epoch": 0.20483333333333334,
      "grad_norm": 27.125,
      "grad_norm_var": 3.3514973958333334,
      "learning_rate": 9.001564892428415e-05,
      "loss": 6.7004,
      "loss/crossentropy": 1.9723464846611023,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14291589241474867,
      "step": 1229
    },
    {
      "epoch": 0.205,
      "grad_norm": 26.625,
      "grad_norm_var": 3.5843098958333335,
      "learning_rate": 8.999994640742543e-05,
      "loss": 6.3032,
      "loss/crossentropy": 1.516051322221756,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19862085580825806,
      "step": 1230
    },
    {
      "epoch": 0.20516666666666666,
      "grad_norm": 28.125,
      "grad_norm_var": 3.2030598958333334,
      "learning_rate": 8.998423292435454e-05,
      "loss": 6.4676,
      "loss/crossentropy": 1.1445068717002869,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13811507262289524,
      "step": 1231
    },
    {
      "epoch": 0.20533333333333334,
      "grad_norm": 27.5,
      "grad_norm_var": 2.8643229166666666,
      "learning_rate": 8.996850847937941e-05,
      "loss": 6.4963,
      "loss/crossentropy": 1.399800255894661,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16321530006825924,
      "step": 1232
    },
    {
      "epoch": 0.2055,
      "grad_norm": 30.625,
      "grad_norm_var": 3.0629557291666667,
      "learning_rate": 8.995277307681099e-05,
      "loss": 6.7221,
      "loss/crossentropy": 1.0423889011144638,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17177395336329937,
      "step": 1233
    },
    {
      "epoch": 0.20566666666666666,
      "grad_norm": 29.25,
      "grad_norm_var": 3.0134765625,
      "learning_rate": 8.993702672096324e-05,
      "loss": 6.4469,
      "loss/crossentropy": 1.5280451029539108,
      "loss/hidden": 3.75390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26041166856884956,
      "step": 1234
    },
    {
      "epoch": 0.20583333333333334,
      "grad_norm": 27.75,
      "grad_norm_var": 2.73515625,
      "learning_rate": 8.992126941615313e-05,
      "loss": 6.9393,
      "loss/crossentropy": 1.480648934841156,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.227988688275218,
      "step": 1235
    },
    {
      "epoch": 0.206,
      "grad_norm": 27.375,
      "grad_norm_var": 2.802018229166667,
      "learning_rate": 8.990550116670057e-05,
      "loss": 6.5075,
      "loss/crossentropy": 1.583464339375496,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20366531237959862,
      "step": 1236
    },
    {
      "epoch": 0.20616666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 2.7535807291666665,
      "learning_rate": 8.988972197692855e-05,
      "loss": 6.8314,
      "loss/crossentropy": 1.8470201790332794,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26271121203899384,
      "step": 1237
    },
    {
      "epoch": 0.20633333333333334,
      "grad_norm": 27.5,
      "grad_norm_var": 2.81015625,
      "learning_rate": 8.987393185116302e-05,
      "loss": 6.6978,
      "loss/crossentropy": 1.4702500626444817,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13370383717119694,
      "step": 1238
    },
    {
      "epoch": 0.2065,
      "grad_norm": 28.0,
      "grad_norm_var": 2.6239583333333334,
      "learning_rate": 8.985813079373292e-05,
      "loss": 6.6726,
      "loss/crossentropy": 1.3550107330083847,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.244224788621068,
      "step": 1239
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 2.3358723958333334,
      "learning_rate": 8.98423188089702e-05,
      "loss": 6.7607,
      "loss/crossentropy": 1.8079198896884918,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14915229566395283,
      "step": 1240
    },
    {
      "epoch": 0.20683333333333334,
      "grad_norm": 28.75,
      "grad_norm_var": 1.6018229166666667,
      "learning_rate": 8.982649590120982e-05,
      "loss": 6.9855,
      "loss/crossentropy": 1.9233669936656952,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2114737443625927,
      "step": 1241
    },
    {
      "epoch": 0.207,
      "grad_norm": 31.625,
      "grad_norm_var": 1.703125,
      "learning_rate": 8.981066207478971e-05,
      "loss": 7.1926,
      "loss/crossentropy": 1.9067326784133911,
      "loss/hidden": 3.8125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30099838972091675,
      "step": 1242
    },
    {
      "epoch": 0.20716666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 1.6718098958333334,
      "learning_rate": 8.97948173340508e-05,
      "loss": 6.7338,
      "loss/crossentropy": 1.430239051580429,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17893367540091276,
      "step": 1243
    },
    {
      "epoch": 0.20733333333333334,
      "grad_norm": 25.75,
      "grad_norm_var": 2.0957682291666666,
      "learning_rate": 8.977896168333702e-05,
      "loss": 6.5617,
      "loss/crossentropy": 1.4219672679901123,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1239619292318821,
      "step": 1244
    },
    {
      "epoch": 0.2075,
      "grad_norm": 26.75,
      "grad_norm_var": 2.158072916666667,
      "learning_rate": 8.976309512699528e-05,
      "loss": 6.2839,
      "loss/crossentropy": 1.5226720422506332,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21036674082279205,
      "step": 1245
    },
    {
      "epoch": 0.20766666666666667,
      "grad_norm": 30.25,
      "grad_norm_var": 2.231705729166667,
      "learning_rate": 8.97472176693755e-05,
      "loss": 6.8114,
      "loss/crossentropy": 1.7841049432754517,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.29534048587083817,
      "step": 1246
    },
    {
      "epoch": 0.20783333333333334,
      "grad_norm": 30.0,
      "grad_norm_var": 2.383072916666667,
      "learning_rate": 8.973132931483057e-05,
      "loss": 6.8929,
      "loss/crossentropy": 1.5661884546279907,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14548476226627827,
      "step": 1247
    },
    {
      "epoch": 0.208,
      "grad_norm": 26.125,
      "grad_norm_var": 2.6874348958333334,
      "learning_rate": 8.971543006771636e-05,
      "loss": 6.3195,
      "loss/crossentropy": 1.2170061022043228,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15822157263755798,
      "step": 1248
    },
    {
      "epoch": 0.20816666666666667,
      "grad_norm": 26.125,
      "grad_norm_var": 2.635872395833333,
      "learning_rate": 8.969951993239177e-05,
      "loss": 6.6852,
      "loss/crossentropy": 2.0130717903375626,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15568870678544044,
      "step": 1249
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 30.375,
      "grad_norm_var": 2.8802083333333335,
      "learning_rate": 8.968359891321862e-05,
      "loss": 6.6418,
      "loss/crossentropy": 1.6311540305614471,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22847135923802853,
      "step": 1250
    },
    {
      "epoch": 0.2085,
      "grad_norm": 27.875,
      "grad_norm_var": 2.8733723958333335,
      "learning_rate": 8.966766701456177e-05,
      "loss": 6.6833,
      "loss/crossentropy": 1.5942027270793915,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18262358382344246,
      "step": 1251
    },
    {
      "epoch": 0.20866666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 2.8322265625,
      "learning_rate": 8.965172424078902e-05,
      "loss": 6.8973,
      "loss/crossentropy": 1.8061284124851227,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1853354275226593,
      "step": 1252
    },
    {
      "epoch": 0.20883333333333334,
      "grad_norm": 24.125,
      "grad_norm_var": 3.83515625,
      "learning_rate": 8.963577059627118e-05,
      "loss": 6.106,
      "loss/crossentropy": 1.568946361541748,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1581588964909315,
      "step": 1253
    },
    {
      "epoch": 0.209,
      "grad_norm": 28.125,
      "grad_norm_var": 3.8218098958333333,
      "learning_rate": 8.961980608538203e-05,
      "loss": 6.487,
      "loss/crossentropy": 1.403021089732647,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16708368621766567,
      "step": 1254
    },
    {
      "epoch": 0.20916666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 3.8577473958333335,
      "learning_rate": 8.960383071249836e-05,
      "loss": 6.6891,
      "loss/crossentropy": 1.3967433869838715,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2843403536826372,
      "step": 1255
    },
    {
      "epoch": 0.20933333333333334,
      "grad_norm": 29.5,
      "grad_norm_var": 3.9872395833333334,
      "learning_rate": 8.958784448199987e-05,
      "loss": 6.8028,
      "loss/crossentropy": 1.620072603225708,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22326701134443283,
      "step": 1256
    },
    {
      "epoch": 0.2095,
      "grad_norm": 26.25,
      "grad_norm_var": 4.164322916666666,
      "learning_rate": 8.95718473982693e-05,
      "loss": 6.5015,
      "loss/crossentropy": 1.4531026035547256,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17697684653103352,
      "step": 1257
    },
    {
      "epoch": 0.20966666666666667,
      "grad_norm": 30.0,
      "grad_norm_var": 3.5337890625,
      "learning_rate": 8.955583946569233e-05,
      "loss": 6.8476,
      "loss/crossentropy": 1.7197735011577606,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2148963138461113,
      "step": 1258
    },
    {
      "epoch": 0.20983333333333334,
      "grad_norm": 30.0,
      "grad_norm_var": 3.8197265625,
      "learning_rate": 8.95398206886576e-05,
      "loss": 6.4826,
      "loss/crossentropy": 1.7892868220806122,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16583251394331455,
      "step": 1259
    },
    {
      "epoch": 0.21,
      "grad_norm": 26.5,
      "grad_norm_var": 3.6306640625,
      "learning_rate": 8.95237910715568e-05,
      "loss": 6.651,
      "loss/crossentropy": 1.4422977268695831,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1798603367060423,
      "step": 1260
    },
    {
      "epoch": 0.21016666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 3.5916015625,
      "learning_rate": 8.950775061878453e-05,
      "loss": 7.2244,
      "loss/crossentropy": 1.7096526324748993,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16561134532094002,
      "step": 1261
    },
    {
      "epoch": 0.21033333333333334,
      "grad_norm": 28.875,
      "grad_norm_var": 3.3330729166666666,
      "learning_rate": 8.949169933473833e-05,
      "loss": 6.1272,
      "loss/crossentropy": 1.789107620716095,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23020472191274166,
      "step": 1262
    },
    {
      "epoch": 0.2105,
      "grad_norm": 29.0,
      "grad_norm_var": 3.1434895833333334,
      "learning_rate": 8.94756372238188e-05,
      "loss": 6.7733,
      "loss/crossentropy": 1.6946524679660797,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18876988068223,
      "step": 1263
    },
    {
      "epoch": 0.21066666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 2.970833333333333,
      "learning_rate": 8.945956429042943e-05,
      "loss": 6.9426,
      "loss/crossentropy": 1.4046456217765808,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13317753560841084,
      "step": 1264
    },
    {
      "epoch": 0.21083333333333334,
      "grad_norm": 27.75,
      "grad_norm_var": 2.6754557291666665,
      "learning_rate": 8.944348053897671e-05,
      "loss": 6.5402,
      "loss/crossentropy": 0.9884390383958817,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13939815573394299,
      "step": 1265
    },
    {
      "epoch": 0.211,
      "grad_norm": 25.625,
      "grad_norm_var": 2.8041015625,
      "learning_rate": 8.94273859738701e-05,
      "loss": 6.4565,
      "loss/crossentropy": 1.5082050412893295,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14231885317713022,
      "step": 1266
    },
    {
      "epoch": 0.21116666666666667,
      "grad_norm": 29.125,
      "grad_norm_var": 2.871809895833333,
      "learning_rate": 8.941128059952201e-05,
      "loss": 6.6774,
      "loss/crossentropy": 1.5060864835977554,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21303267404437065,
      "step": 1267
    },
    {
      "epoch": 0.21133333333333335,
      "grad_norm": 29.125,
      "grad_norm_var": 2.926497395833333,
      "learning_rate": 8.939516442034781e-05,
      "loss": 6.7261,
      "loss/crossentropy": 1.6655118465423584,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2032595369964838,
      "step": 1268
    },
    {
      "epoch": 0.2115,
      "grad_norm": 30.75,
      "grad_norm_var": 2.060416666666667,
      "learning_rate": 8.937903744076587e-05,
      "loss": 6.9514,
      "loss/crossentropy": 1.3730367943644524,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1651359535753727,
      "step": 1269
    },
    {
      "epoch": 0.21166666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 2.1666015625,
      "learning_rate": 8.936289966519746e-05,
      "loss": 6.4229,
      "loss/crossentropy": 1.5105050131678581,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12962303683161736,
      "step": 1270
    },
    {
      "epoch": 0.21183333333333335,
      "grad_norm": 27.0,
      "grad_norm_var": 2.3160807291666665,
      "learning_rate": 8.934675109806688e-05,
      "loss": 6.6139,
      "loss/crossentropy": 1.4867517203092575,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14812249317765236,
      "step": 1271
    },
    {
      "epoch": 0.212,
      "grad_norm": 27.5,
      "grad_norm_var": 2.2889973958333334,
      "learning_rate": 8.933059174380131e-05,
      "loss": 6.6925,
      "loss/crossentropy": 1.6140912473201752,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15693258680403233,
      "step": 1272
    },
    {
      "epoch": 0.21216666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 1.9843098958333334,
      "learning_rate": 8.931442160683094e-05,
      "loss": 6.6233,
      "loss/crossentropy": 1.8490241765975952,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15286258608102798,
      "step": 1273
    },
    {
      "epoch": 0.21233333333333335,
      "grad_norm": 28.125,
      "grad_norm_var": 1.8270833333333334,
      "learning_rate": 8.929824069158894e-05,
      "loss": 6.8251,
      "loss/crossentropy": 2.088714152574539,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23050561919808388,
      "step": 1274
    },
    {
      "epoch": 0.2125,
      "grad_norm": 27.25,
      "grad_norm_var": 1.70390625,
      "learning_rate": 8.928204900251136e-05,
      "loss": 6.7779,
      "loss/crossentropy": 1.9452691078186035,
      "loss/hidden": 3.69140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22901257127523422,
      "step": 1275
    },
    {
      "epoch": 0.21266666666666667,
      "grad_norm": 27.375,
      "grad_norm_var": 1.5530598958333333,
      "learning_rate": 8.926584654403724e-05,
      "loss": 6.6702,
      "loss/crossentropy": 1.5190252363681793,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13852976262569427,
      "step": 1276
    },
    {
      "epoch": 0.21283333333333335,
      "grad_norm": 30.375,
      "grad_norm_var": 1.7809895833333333,
      "learning_rate": 8.924963332060863e-05,
      "loss": 6.9777,
      "loss/crossentropy": 1.794594019651413,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20917383581399918,
      "step": 1277
    },
    {
      "epoch": 0.213,
      "grad_norm": 28.5,
      "grad_norm_var": 1.7624348958333333,
      "learning_rate": 8.92334093366704e-05,
      "loss": 6.4988,
      "loss/crossentropy": 1.4154766499996185,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14726585149765015,
      "step": 1278
    },
    {
      "epoch": 0.21316666666666667,
      "grad_norm": 26.25,
      "grad_norm_var": 1.9801432291666667,
      "learning_rate": 8.92171745966705e-05,
      "loss": 6.366,
      "loss/crossentropy": 1.1493876725435257,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.146550964564085,
      "step": 1279
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 24.375,
      "grad_norm_var": 2.7145182291666665,
      "learning_rate": 8.920092910505977e-05,
      "loss": 6.1353,
      "loss/crossentropy": 1.7373376786708832,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.227845910936594,
      "step": 1280
    },
    {
      "epoch": 0.2135,
      "grad_norm": 27.25,
      "grad_norm_var": 2.7348307291666667,
      "learning_rate": 8.9184672866292e-05,
      "loss": 6.5413,
      "loss/crossentropy": 1.9140368103981018,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15690459683537483,
      "step": 1281
    },
    {
      "epoch": 0.21366666666666667,
      "grad_norm": 28.125,
      "grad_norm_var": 2.4041015625,
      "learning_rate": 8.916840588482392e-05,
      "loss": 6.9562,
      "loss/crossentropy": 1.494169995188713,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16009102202951908,
      "step": 1282
    },
    {
      "epoch": 0.21383333333333332,
      "grad_norm": 33.5,
      "grad_norm_var": 4.288541666666666,
      "learning_rate": 8.915212816511522e-05,
      "loss": 6.643,
      "loss/crossentropy": 1.3504605740308762,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21957111731171608,
      "step": 1283
    },
    {
      "epoch": 0.214,
      "grad_norm": 29.125,
      "grad_norm_var": 4.288541666666666,
      "learning_rate": 8.913583971162852e-05,
      "loss": 6.5445,
      "loss/crossentropy": 1.2965871542692184,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12222297862172127,
      "step": 1284
    },
    {
      "epoch": 0.21416666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 3.872916666666667,
      "learning_rate": 8.91195405288294e-05,
      "loss": 6.579,
      "loss/crossentropy": 1.5752321183681488,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14281318429857492,
      "step": 1285
    },
    {
      "epoch": 0.21433333333333332,
      "grad_norm": 29.0,
      "grad_norm_var": 3.8893229166666665,
      "learning_rate": 8.910323062118639e-05,
      "loss": 7.0323,
      "loss/crossentropy": 1.4949658513069153,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16509484313428402,
      "step": 1286
    },
    {
      "epoch": 0.2145,
      "grad_norm": 28.125,
      "grad_norm_var": 3.802018229166667,
      "learning_rate": 8.908690999317093e-05,
      "loss": 6.4651,
      "loss/crossentropy": 1.3085608631372452,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20192678831517696,
      "step": 1287
    },
    {
      "epoch": 0.21466666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 3.7692057291666665,
      "learning_rate": 8.90705786492574e-05,
      "loss": 6.6848,
      "loss/crossentropy": 1.3476620092988014,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1465138727799058,
      "step": 1288
    },
    {
      "epoch": 0.21483333333333332,
      "grad_norm": 29.625,
      "grad_norm_var": 3.878125,
      "learning_rate": 8.905423659392316e-05,
      "loss": 6.8042,
      "loss/crossentropy": 2.4582173228263855,
      "loss/hidden": 3.6796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2926645949482918,
      "step": 1289
    },
    {
      "epoch": 0.215,
      "grad_norm": 28.75,
      "grad_norm_var": 3.889518229166667,
      "learning_rate": 8.903788383164846e-05,
      "loss": 6.3778,
      "loss/crossentropy": 1.2794660851359367,
      "loss/hidden": 4.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13370629120618105,
      "step": 1290
    },
    {
      "epoch": 0.21516666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 3.817643229166667,
      "learning_rate": 8.90215203669165e-05,
      "loss": 6.4129,
      "loss/crossentropy": 1.329623505473137,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14849168248474598,
      "step": 1291
    },
    {
      "epoch": 0.21533333333333332,
      "grad_norm": 28.25,
      "grad_norm_var": 3.749739583333333,
      "learning_rate": 8.90051462042134e-05,
      "loss": 6.7661,
      "loss/crossentropy": 1.570767730474472,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1540008969604969,
      "step": 1292
    },
    {
      "epoch": 0.2155,
      "grad_norm": 28.625,
      "grad_norm_var": 3.4854166666666666,
      "learning_rate": 8.898876134802826e-05,
      "loss": 6.6013,
      "loss/crossentropy": 1.551586925983429,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17839442566037178,
      "step": 1293
    },
    {
      "epoch": 0.21566666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 3.5035807291666665,
      "learning_rate": 8.897236580285308e-05,
      "loss": 6.9122,
      "loss/crossentropy": 1.8895243406295776,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2788575664162636,
      "step": 1294
    },
    {
      "epoch": 0.21583333333333332,
      "grad_norm": 28.875,
      "grad_norm_var": 3.2041666666666666,
      "learning_rate": 8.895595957318277e-05,
      "loss": 6.6273,
      "loss/crossentropy": 1.9386364817619324,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17969312146306038,
      "step": 1295
    },
    {
      "epoch": 0.216,
      "grad_norm": 28.125,
      "grad_norm_var": 2.0205729166666666,
      "learning_rate": 8.893954266351521e-05,
      "loss": 6.902,
      "loss/crossentropy": 2.3904253244400024,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3370712846517563,
      "step": 1296
    },
    {
      "epoch": 0.21616666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 1.9072916666666666,
      "learning_rate": 8.892311507835119e-05,
      "loss": 6.6135,
      "loss/crossentropy": 1.9212593138217926,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19454152137041092,
      "step": 1297
    },
    {
      "epoch": 0.21633333333333332,
      "grad_norm": 33.0,
      "grad_norm_var": 2.966080729166667,
      "learning_rate": 8.890667682219439e-05,
      "loss": 6.391,
      "loss/crossentropy": 1.2680547535419464,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15469966176897287,
      "step": 1298
    },
    {
      "epoch": 0.2165,
      "grad_norm": 31.375,
      "grad_norm_var": 1.99765625,
      "learning_rate": 8.889022789955151e-05,
      "loss": 6.7694,
      "loss/crossentropy": 0.947092667222023,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2506480235606432,
      "step": 1299
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 28.5,
      "grad_norm_var": 2.0077473958333334,
      "learning_rate": 8.887376831493205e-05,
      "loss": 6.2312,
      "loss/crossentropy": 1.2545424699783325,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1264524646103382,
      "step": 1300
    },
    {
      "epoch": 0.21683333333333332,
      "grad_norm": 28.125,
      "grad_norm_var": 1.8614583333333334,
      "learning_rate": 8.885729807284856e-05,
      "loss": 7.0381,
      "loss/crossentropy": 1.5879648625850677,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1830308400094509,
      "step": 1301
    },
    {
      "epoch": 0.217,
      "grad_norm": 28.125,
      "grad_norm_var": 1.9056640625,
      "learning_rate": 8.88408171778164e-05,
      "loss": 6.9969,
      "loss/crossentropy": 1.4587052762508392,
      "loss/hidden": 4.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.37913890182971954,
      "step": 1302
    },
    {
      "epoch": 0.21716666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 1.9358723958333333,
      "learning_rate": 8.882432563435393e-05,
      "loss": 6.8227,
      "loss/crossentropy": 1.5047251284122467,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15007029846310616,
      "step": 1303
    },
    {
      "epoch": 0.21733333333333332,
      "grad_norm": 28.0,
      "grad_norm_var": 1.9613932291666667,
      "learning_rate": 8.88078234469824e-05,
      "loss": 6.3828,
      "loss/crossentropy": 1.6883456259965897,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13623754680156708,
      "step": 1304
    },
    {
      "epoch": 0.2175,
      "grad_norm": 27.25,
      "grad_norm_var": 2.07890625,
      "learning_rate": 8.879131062022598e-05,
      "loss": 6.6566,
      "loss/crossentropy": 1.5751657485961914,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22802406549453735,
      "step": 1305
    },
    {
      "epoch": 0.21766666666666667,
      "grad_norm": 61.0,
      "grad_norm_var": 67.15,
      "learning_rate": 8.877478715861173e-05,
      "loss": 6.668,
      "loss/crossentropy": 2.0652737617492676,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16132371872663498,
      "step": 1306
    },
    {
      "epoch": 0.21783333333333332,
      "grad_norm": 28.25,
      "grad_norm_var": 67.06223958333334,
      "learning_rate": 8.875825306666968e-05,
      "loss": 6.5068,
      "loss/crossentropy": 1.9428893029689789,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19048425182700157,
      "step": 1307
    },
    {
      "epoch": 0.218,
      "grad_norm": 28.0,
      "grad_norm_var": 67.15,
      "learning_rate": 8.874170834893272e-05,
      "loss": 6.529,
      "loss/crossentropy": 1.4067817330360413,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13130534626543522,
      "step": 1308
    },
    {
      "epoch": 0.21816666666666668,
      "grad_norm": 25.125,
      "grad_norm_var": 68.90729166666667,
      "learning_rate": 8.872515300993669e-05,
      "loss": 6.2013,
      "loss/crossentropy": 1.3501994907855988,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1739630363881588,
      "step": 1309
    },
    {
      "epoch": 0.21833333333333332,
      "grad_norm": 26.5,
      "grad_norm_var": 69.78430989583333,
      "learning_rate": 8.870858705422033e-05,
      "loss": 6.6856,
      "loss/crossentropy": 2.0368079841136932,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19387321919202805,
      "step": 1310
    },
    {
      "epoch": 0.2185,
      "grad_norm": 27.375,
      "grad_norm_var": 70.22649739583333,
      "learning_rate": 8.869201048632532e-05,
      "loss": 6.4329,
      "loss/crossentropy": 1.5729725360870361,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16083178110420704,
      "step": 1311
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 28.125,
      "grad_norm_var": 70.22649739583333,
      "learning_rate": 8.867542331079617e-05,
      "loss": 6.4391,
      "loss/crossentropy": 1.4303375333547592,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19543035700917244,
      "step": 1312
    },
    {
      "epoch": 0.21883333333333332,
      "grad_norm": 29.375,
      "grad_norm_var": 69.925,
      "learning_rate": 8.865882553218037e-05,
      "loss": 6.8722,
      "loss/crossentropy": 1.5897773951292038,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1667669340968132,
      "step": 1313
    },
    {
      "epoch": 0.219,
      "grad_norm": 28.5,
      "grad_norm_var": 69.615625,
      "learning_rate": 8.864221715502829e-05,
      "loss": 6.3114,
      "loss/crossentropy": 1.2462688088417053,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2083086036145687,
      "step": 1314
    },
    {
      "epoch": 0.21916666666666668,
      "grad_norm": 28.25,
      "grad_norm_var": 69.69212239583334,
      "learning_rate": 8.862559818389322e-05,
      "loss": 6.6176,
      "loss/crossentropy": 1.4975986778736115,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14409909583628178,
      "step": 1315
    },
    {
      "epoch": 0.21933333333333332,
      "grad_norm": 30.25,
      "grad_norm_var": 69.5572265625,
      "learning_rate": 8.860896862333134e-05,
      "loss": 6.9355,
      "loss/crossentropy": 1.6909880936145782,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2077299915254116,
      "step": 1316
    },
    {
      "epoch": 0.2195,
      "grad_norm": 28.25,
      "grad_norm_var": 69.52682291666666,
      "learning_rate": 8.859232847790175e-05,
      "loss": 6.2975,
      "loss/crossentropy": 1.7112976908683777,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21853592619299889,
      "step": 1317
    },
    {
      "epoch": 0.21966666666666668,
      "grad_norm": 28.375,
      "grad_norm_var": 69.46770833333333,
      "learning_rate": 8.857567775216643e-05,
      "loss": 6.6071,
      "loss/crossentropy": 1.5232578814029694,
      "loss/hidden": 3.62109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2179286815226078,
      "step": 1318
    },
    {
      "epoch": 0.21983333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 69.33958333333334,
      "learning_rate": 8.855901645069026e-05,
      "loss": 6.1688,
      "loss/crossentropy": 1.058205395936966,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10036487132310867,
      "step": 1319
    },
    {
      "epoch": 0.22,
      "grad_norm": 27.625,
      "grad_norm_var": 69.45149739583333,
      "learning_rate": 8.854234457804105e-05,
      "loss": 6.9218,
      "loss/crossentropy": 1.6375434398651123,
      "loss/hidden": 3.62890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2968744896352291,
      "step": 1320
    },
    {
      "epoch": 0.22016666666666668,
      "grad_norm": 25.875,
      "grad_norm_var": 70.08098958333333,
      "learning_rate": 8.852566213878947e-05,
      "loss": 6.3333,
      "loss/crossentropy": 1.4782972186803818,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26145337522029877,
      "step": 1321
    },
    {
      "epoch": 0.22033333333333333,
      "grad_norm": 28.125,
      "grad_norm_var": 1.5400390625,
      "learning_rate": 8.850896913750911e-05,
      "loss": 6.6795,
      "loss/crossentropy": 1.3669453859329224,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15520895645022392,
      "step": 1322
    },
    {
      "epoch": 0.2205,
      "grad_norm": 29.375,
      "grad_norm_var": 1.671875,
      "learning_rate": 8.849226557877646e-05,
      "loss": 6.381,
      "loss/crossentropy": 0.62733593583107,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.06343139801174402,
      "step": 1323
    },
    {
      "epoch": 0.22066666666666668,
      "grad_norm": 28.125,
      "grad_norm_var": 1.6733723958333333,
      "learning_rate": 8.84755514671709e-05,
      "loss": 6.7212,
      "loss/crossentropy": 1.4413825124502182,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16148651763796806,
      "step": 1324
    },
    {
      "epoch": 0.22083333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 1.0978515625,
      "learning_rate": 8.845882680727469e-05,
      "loss": 6.3931,
      "loss/crossentropy": 1.3144546374678612,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1098860977217555,
      "step": 1325
    },
    {
      "epoch": 0.221,
      "grad_norm": 29.5,
      "grad_norm_var": 0.9884765625,
      "learning_rate": 8.844209160367299e-05,
      "loss": 6.4334,
      "loss/crossentropy": 1.5615183413028717,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14797941967844963,
      "step": 1326
    },
    {
      "epoch": 0.22116666666666668,
      "grad_norm": 28.625,
      "grad_norm_var": 0.9207682291666667,
      "learning_rate": 8.842534586095383e-05,
      "loss": 7.3761,
      "loss/crossentropy": 1.8021913468837738,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30935032293200493,
      "step": 1327
    },
    {
      "epoch": 0.22133333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 1.1552083333333334,
      "learning_rate": 8.840858958370819e-05,
      "loss": 6.6065,
      "loss/crossentropy": 1.3574145883321762,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1361311562359333,
      "step": 1328
    },
    {
      "epoch": 0.2215,
      "grad_norm": 26.75,
      "grad_norm_var": 1.2249348958333333,
      "learning_rate": 8.839182277652989e-05,
      "loss": 7.2034,
      "loss/crossentropy": 2.0402421951293945,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20759042352437973,
      "step": 1329
    },
    {
      "epoch": 0.22166666666666668,
      "grad_norm": 28.0,
      "grad_norm_var": 1.2192057291666667,
      "learning_rate": 8.837504544401561e-05,
      "loss": 6.8273,
      "loss/crossentropy": 1.333353579044342,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14028004556894302,
      "step": 1330
    },
    {
      "epoch": 0.22183333333333333,
      "grad_norm": 29.125,
      "grad_norm_var": 1.27890625,
      "learning_rate": 8.8358257590765e-05,
      "loss": 6.6867,
      "loss/crossentropy": 1.4103537499904633,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1657029865309596,
      "step": 1331
    },
    {
      "epoch": 0.222,
      "grad_norm": 28.75,
      "grad_norm_var": 1.01015625,
      "learning_rate": 8.834145922138049e-05,
      "loss": 6.5112,
      "loss/crossentropy": 1.5350777506828308,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.13068307749927044,
      "step": 1332
    },
    {
      "epoch": 0.22216666666666668,
      "grad_norm": 27.625,
      "grad_norm_var": 1.0228515625,
      "learning_rate": 8.832465034046749e-05,
      "loss": 6.6084,
      "loss/crossentropy": 1.8636922538280487,
      "loss/hidden": 3.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2078309953212738,
      "step": 1333
    },
    {
      "epoch": 0.22233333333333333,
      "grad_norm": 32.0,
      "grad_norm_var": 1.99140625,
      "learning_rate": 8.830783095263425e-05,
      "loss": 7.034,
      "loss/crossentropy": 1.598654717206955,
      "loss/hidden": 3.73046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.30865925922989845,
      "step": 1334
    },
    {
      "epoch": 0.2225,
      "grad_norm": 28.375,
      "grad_norm_var": 1.99140625,
      "learning_rate": 8.829100106249189e-05,
      "loss": 6.3653,
      "loss/crossentropy": 1.1344598531723022,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1316494233906269,
      "step": 1335
    },
    {
      "epoch": 0.22266666666666668,
      "grad_norm": 28.0,
      "grad_norm_var": 1.9666015625,
      "learning_rate": 8.827416067465441e-05,
      "loss": 6.9004,
      "loss/crossentropy": 1.759160429239273,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21815275400877,
      "step": 1336
    },
    {
      "epoch": 0.22283333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 1.6364583333333333,
      "learning_rate": 8.825730979373872e-05,
      "loss": 6.7587,
      "loss/crossentropy": 2.0076573491096497,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15654901042580605,
      "step": 1337
    },
    {
      "epoch": 0.223,
      "grad_norm": 28.125,
      "grad_norm_var": 1.6364583333333333,
      "learning_rate": 8.824044842436456e-05,
      "loss": 6.4088,
      "loss/crossentropy": 1.6686158776283264,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13004953786730766,
      "step": 1338
    },
    {
      "epoch": 0.22316666666666668,
      "grad_norm": 26.5,
      "grad_norm_var": 1.7817057291666667,
      "learning_rate": 8.822357657115459e-05,
      "loss": 5.8659,
      "loss/crossentropy": 0.9902602061629295,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09084746427834034,
      "step": 1339
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 3.18125,
      "learning_rate": 8.82066942387343e-05,
      "loss": 6.3085,
      "loss/crossentropy": 1.19401353597641,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11941441148519516,
      "step": 1340
    },
    {
      "epoch": 0.2235,
      "grad_norm": 26.625,
      "grad_norm_var": 3.2705729166666666,
      "learning_rate": 8.818980143173213e-05,
      "loss": 6.7438,
      "loss/crossentropy": 2.108260899782181,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.198447797447443,
      "step": 1341
    },
    {
      "epoch": 0.22366666666666668,
      "grad_norm": 27.25,
      "grad_norm_var": 3.0854166666666667,
      "learning_rate": 8.817289815477928e-05,
      "loss": 6.7452,
      "loss/crossentropy": 1.3883316740393639,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15109186992049217,
      "step": 1342
    },
    {
      "epoch": 0.22383333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 3.2426432291666667,
      "learning_rate": 8.815598441250987e-05,
      "loss": 6.9428,
      "loss/crossentropy": 1.3261938244104385,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15241075679659843,
      "step": 1343
    },
    {
      "epoch": 0.224,
      "grad_norm": 25.75,
      "grad_norm_var": 3.4020182291666665,
      "learning_rate": 8.813906020956097e-05,
      "loss": 6.541,
      "loss/crossentropy": 1.0693974867463112,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12422368861734867,
      "step": 1344
    },
    {
      "epoch": 0.22416666666666665,
      "grad_norm": 25.75,
      "grad_norm_var": 3.590559895833333,
      "learning_rate": 8.81221255505724e-05,
      "loss": 6.11,
      "loss/crossentropy": 1.3504291325807571,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14698335714638233,
      "step": 1345
    },
    {
      "epoch": 0.22433333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 3.5822265625,
      "learning_rate": 8.810518044018689e-05,
      "loss": 6.881,
      "loss/crossentropy": 1.6281023919582367,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1453680656850338,
      "step": 1346
    },
    {
      "epoch": 0.2245,
      "grad_norm": 28.625,
      "grad_norm_var": 3.497330729166667,
      "learning_rate": 8.808822488305005e-05,
      "loss": 6.6608,
      "loss/crossentropy": 1.4724755585193634,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19075221847742796,
      "step": 1347
    },
    {
      "epoch": 0.22466666666666665,
      "grad_norm": 29.125,
      "grad_norm_var": 3.564322916666667,
      "learning_rate": 8.807125888381035e-05,
      "loss": 6.6406,
      "loss/crossentropy": 1.9415532946586609,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19600216299295425,
      "step": 1348
    },
    {
      "epoch": 0.22483333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 3.5900390625,
      "learning_rate": 8.80542824471191e-05,
      "loss": 6.5504,
      "loss/crossentropy": 1.7943297624588013,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14495110884308815,
      "step": 1349
    },
    {
      "epoch": 0.225,
      "grad_norm": 26.0,
      "grad_norm_var": 2.3587890625,
      "learning_rate": 8.803729557763047e-05,
      "loss": 6.583,
      "loss/crossentropy": 1.585892304778099,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15496612340211868,
      "step": 1350
    },
    {
      "epoch": 0.22516666666666665,
      "grad_norm": 29.125,
      "grad_norm_var": 2.5041015625,
      "learning_rate": 8.802029828000156e-05,
      "loss": 6.8792,
      "loss/crossentropy": 1.1976583451032639,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12264487985521555,
      "step": 1351
    },
    {
      "epoch": 0.22533333333333333,
      "grad_norm": 26.625,
      "grad_norm_var": 2.49765625,
      "learning_rate": 8.800329055889223e-05,
      "loss": 6.5882,
      "loss/crossentropy": 1.3212222456932068,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10740573238581419,
      "step": 1352
    },
    {
      "epoch": 0.2255,
      "grad_norm": 27.125,
      "grad_norm_var": 2.4983723958333335,
      "learning_rate": 8.798627241896524e-05,
      "loss": 6.7388,
      "loss/crossentropy": 2.1766937971115112,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20083113759756088,
      "step": 1353
    },
    {
      "epoch": 0.22566666666666665,
      "grad_norm": 28.0,
      "grad_norm_var": 2.484375,
      "learning_rate": 8.796924386488624e-05,
      "loss": 6.7047,
      "loss/crossentropy": 1.630198821425438,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1088574668392539,
      "step": 1354
    },
    {
      "epoch": 0.22583333333333333,
      "grad_norm": 27.0,
      "grad_norm_var": 2.4520833333333334,
      "learning_rate": 8.795220490132369e-05,
      "loss": 6.6013,
      "loss/crossentropy": 1.257098838686943,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1477007195353508,
      "step": 1355
    },
    {
      "epoch": 0.226,
      "grad_norm": 26.0,
      "grad_norm_var": 1.5927083333333334,
      "learning_rate": 8.793515553294891e-05,
      "loss": 6.2652,
      "loss/crossentropy": 1.1517640799283981,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17172394320368767,
      "step": 1356
    },
    {
      "epoch": 0.22616666666666665,
      "grad_norm": 28.125,
      "grad_norm_var": 1.5770833333333334,
      "learning_rate": 8.79180957644361e-05,
      "loss": 6.3652,
      "loss/crossentropy": 1.5562289357185364,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31990334391593933,
      "step": 1357
    },
    {
      "epoch": 0.22633333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 2.051041666666667,
      "learning_rate": 8.790102560046227e-05,
      "loss": 6.0902,
      "loss/crossentropy": 1.7950303554534912,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22284463047981262,
      "step": 1358
    },
    {
      "epoch": 0.2265,
      "grad_norm": 30.125,
      "grad_norm_var": 2.255143229166667,
      "learning_rate": 8.788394504570732e-05,
      "loss": 6.8729,
      "loss/crossentropy": 1.338299036026001,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1761884856969118,
      "step": 1359
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 27.375,
      "grad_norm_var": 2.06640625,
      "learning_rate": 8.786685410485398e-05,
      "loss": 6.7353,
      "loss/crossentropy": 1.3051201850175858,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18960629776120186,
      "step": 1360
    },
    {
      "epoch": 0.22683333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 1.8625,
      "learning_rate": 8.784975278258783e-05,
      "loss": 6.4355,
      "loss/crossentropy": 1.1859900504350662,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.136919679120183,
      "step": 1361
    },
    {
      "epoch": 0.227,
      "grad_norm": 27.25,
      "grad_norm_var": 1.8697916666666667,
      "learning_rate": 8.783264108359728e-05,
      "loss": 6.6016,
      "loss/crossentropy": 1.6561327278614044,
      "loss/hidden": 3.83984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.28435977548360825,
      "step": 1362
    },
    {
      "epoch": 0.22716666666666666,
      "grad_norm": 27.0,
      "grad_norm_var": 1.8113932291666666,
      "learning_rate": 8.78155190125736e-05,
      "loss": 6.0377,
      "loss/crossentropy": 1.2676357477903366,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13790716975927353,
      "step": 1363
    },
    {
      "epoch": 0.22733333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 1.62265625,
      "learning_rate": 8.779838657421092e-05,
      "loss": 6.1669,
      "loss/crossentropy": 1.3378489539027214,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1295567862689495,
      "step": 1364
    },
    {
      "epoch": 0.2275,
      "grad_norm": 30.0,
      "grad_norm_var": 2.0145833333333334,
      "learning_rate": 8.778124377320618e-05,
      "loss": 6.8036,
      "loss/crossentropy": 2.2961465716362,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18548791483044624,
      "step": 1365
    },
    {
      "epoch": 0.22766666666666666,
      "grad_norm": 28.125,
      "grad_norm_var": 1.8718098958333333,
      "learning_rate": 8.776409061425919e-05,
      "loss": 6.2881,
      "loss/crossentropy": 1.2985191643238068,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13449012115597725,
      "step": 1366
    },
    {
      "epoch": 0.22783333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 1.7139973958333334,
      "learning_rate": 8.774692710207257e-05,
      "loss": 6.5953,
      "loss/crossentropy": 1.0388475880026817,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11377880908548832,
      "step": 1367
    },
    {
      "epoch": 0.228,
      "grad_norm": 27.875,
      "grad_norm_var": 1.6593098958333334,
      "learning_rate": 8.772975324135179e-05,
      "loss": 6.3785,
      "loss/crossentropy": 0.9511722177267075,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09341735392808914,
      "step": 1368
    },
    {
      "epoch": 0.22816666666666666,
      "grad_norm": 28.375,
      "grad_norm_var": 1.6749348958333334,
      "learning_rate": 8.771256903680519e-05,
      "loss": 6.6922,
      "loss/crossentropy": 1.429678276181221,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20660696923732758,
      "step": 1369
    },
    {
      "epoch": 0.22833333333333333,
      "grad_norm": 26.875,
      "grad_norm_var": 1.7083333333333333,
      "learning_rate": 8.769537449314391e-05,
      "loss": 6.3573,
      "loss/crossentropy": 1.4579046368598938,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2587745487689972,
      "step": 1370
    },
    {
      "epoch": 0.2285,
      "grad_norm": 26.625,
      "grad_norm_var": 1.7483723958333333,
      "learning_rate": 8.76781696150819e-05,
      "loss": 6.4696,
      "loss/crossentropy": 1.2540282979607582,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26700376253575087,
      "step": 1371
    },
    {
      "epoch": 0.22866666666666666,
      "grad_norm": 27.875,
      "grad_norm_var": 1.5677083333333333,
      "learning_rate": 8.766095440733601e-05,
      "loss": 6.8604,
      "loss/crossentropy": 1.6994609534740448,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19905509427189827,
      "step": 1372
    },
    {
      "epoch": 0.22883333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 1.5561848958333333,
      "learning_rate": 8.764372887462586e-05,
      "loss": 6.6942,
      "loss/crossentropy": 1.8636305034160614,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2452586479485035,
      "step": 1373
    },
    {
      "epoch": 0.229,
      "grad_norm": 28.75,
      "grad_norm_var": 0.9853515625,
      "learning_rate": 8.762649302167395e-05,
      "loss": 7.1421,
      "loss/crossentropy": 2.502372086048126,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.21404139325022697,
      "step": 1374
    },
    {
      "epoch": 0.22916666666666666,
      "grad_norm": 27.625,
      "grad_norm_var": 0.6494140625,
      "learning_rate": 8.760924685320557e-05,
      "loss": 6.3204,
      "loss/crossentropy": 1.6386250108480453,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2121148481965065,
      "step": 1375
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 0.7455729166666667,
      "learning_rate": 8.759199037394887e-05,
      "loss": 6.2754,
      "loss/crossentropy": 0.8101483061909676,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13781879469752312,
      "step": 1376
    },
    {
      "epoch": 0.2295,
      "grad_norm": 28.75,
      "grad_norm_var": 0.8072916666666666,
      "learning_rate": 8.757472358863481e-05,
      "loss": 6.8081,
      "loss/crossentropy": 1.4773345291614532,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1636052243411541,
      "step": 1377
    },
    {
      "epoch": 0.22966666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 1.1202473958333334,
      "learning_rate": 8.755744650199716e-05,
      "loss": 7.2161,
      "loss/crossentropy": 1.087226115167141,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14092607703059912,
      "step": 1378
    },
    {
      "epoch": 0.22983333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 1.2145833333333333,
      "learning_rate": 8.754015911877255e-05,
      "loss": 7.0857,
      "loss/crossentropy": 1.4208160042762756,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15992657095193863,
      "step": 1379
    },
    {
      "epoch": 0.23,
      "grad_norm": 27.375,
      "grad_norm_var": 1.2259765625,
      "learning_rate": 8.752286144370041e-05,
      "loss": 6.3116,
      "loss/crossentropy": 1.2512414306402206,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1318049468100071,
      "step": 1380
    },
    {
      "epoch": 0.23016666666666666,
      "grad_norm": 27.5,
      "grad_norm_var": 0.9889973958333333,
      "learning_rate": 8.750555348152298e-05,
      "loss": 6.6642,
      "loss/crossentropy": 1.007347248494625,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13616536371409893,
      "step": 1381
    },
    {
      "epoch": 0.23033333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 1.2247395833333334,
      "learning_rate": 8.748823523698535e-05,
      "loss": 6.3399,
      "loss/crossentropy": 1.5809184312820435,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12614354118704796,
      "step": 1382
    },
    {
      "epoch": 0.2305,
      "grad_norm": 26.875,
      "grad_norm_var": 1.2802083333333334,
      "learning_rate": 8.747090671483542e-05,
      "loss": 6.587,
      "loss/crossentropy": 1.1127055883407593,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12591952504590154,
      "step": 1383
    },
    {
      "epoch": 0.23066666666666666,
      "grad_norm": 25.375,
      "grad_norm_var": 1.6395833333333334,
      "learning_rate": 8.745356791982391e-05,
      "loss": 6.5432,
      "loss/crossentropy": 0.7250919938087463,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11801298521459103,
      "step": 1384
    },
    {
      "epoch": 0.23083333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 1.7093098958333333,
      "learning_rate": 8.74362188567043e-05,
      "loss": 6.4521,
      "loss/crossentropy": 1.3951380848884583,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12724317610263824,
      "step": 1385
    },
    {
      "epoch": 0.231,
      "grad_norm": 29.0,
      "grad_norm_var": 1.8166666666666667,
      "learning_rate": 8.741885953023301e-05,
      "loss": 6.6342,
      "loss/crossentropy": 1.5546142607927322,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15518338978290558,
      "step": 1386
    },
    {
      "epoch": 0.23116666666666666,
      "grad_norm": 29.625,
      "grad_norm_var": 1.9791666666666667,
      "learning_rate": 8.740148994516912e-05,
      "loss": 7.0334,
      "loss/crossentropy": 1.6840177774429321,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2906576320528984,
      "step": 1387
    },
    {
      "epoch": 0.23133333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 1.98515625,
      "learning_rate": 8.738411010627466e-05,
      "loss": 6.9206,
      "loss/crossentropy": 1.3421642929315567,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21450426429510117,
      "step": 1388
    },
    {
      "epoch": 0.2315,
      "grad_norm": 28.5,
      "grad_norm_var": 2.0125,
      "learning_rate": 8.736672001831438e-05,
      "loss": 6.9608,
      "loss/crossentropy": 1.2448264062404633,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1828536745160818,
      "step": 1389
    },
    {
      "epoch": 0.23166666666666666,
      "grad_norm": 28.125,
      "grad_norm_var": 1.9639973958333334,
      "learning_rate": 8.734931968605589e-05,
      "loss": 6.4951,
      "loss/crossentropy": 1.0161764919757843,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09913336299359798,
      "step": 1390
    },
    {
      "epoch": 0.23183333333333334,
      "grad_norm": 29.875,
      "grad_norm_var": 2.2171223958333335,
      "learning_rate": 8.733190911426958e-05,
      "loss": 7.5304,
      "loss/crossentropy": 1.8381727933883667,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22387774847447872,
      "step": 1391
    },
    {
      "epoch": 0.232,
      "grad_norm": 28.375,
      "grad_norm_var": 2.0677083333333335,
      "learning_rate": 8.731448830772864e-05,
      "loss": 6.5824,
      "loss/crossentropy": 1.2965693026781082,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18344127014279366,
      "step": 1392
    },
    {
      "epoch": 0.23216666666666666,
      "grad_norm": 26.875,
      "grad_norm_var": 2.1233723958333335,
      "learning_rate": 8.729705727120911e-05,
      "loss": 5.9351,
      "loss/crossentropy": 1.2470285519957542,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.17037468776106834,
      "step": 1393
    },
    {
      "epoch": 0.23233333333333334,
      "grad_norm": 26.625,
      "grad_norm_var": 1.8863932291666667,
      "learning_rate": 8.72796160094898e-05,
      "loss": 6.486,
      "loss/crossentropy": 1.7774807810783386,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16827407479286194,
      "step": 1394
    },
    {
      "epoch": 0.2325,
      "grad_norm": 31.75,
      "grad_norm_var": 2.69765625,
      "learning_rate": 8.726216452735232e-05,
      "loss": 7.0892,
      "loss/crossentropy": 1.477794349193573,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20362269133329391,
      "step": 1395
    },
    {
      "epoch": 0.23266666666666666,
      "grad_norm": 48.0,
      "grad_norm_var": 27.8666015625,
      "learning_rate": 8.724470282958111e-05,
      "loss": 7.069,
      "loss/crossentropy": 1.7263435125350952,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20600185170769691,
      "step": 1396
    },
    {
      "epoch": 0.23283333333333334,
      "grad_norm": 42.25,
      "grad_norm_var": 38.16087239583333,
      "learning_rate": 8.722723092096338e-05,
      "loss": 6.7116,
      "loss/crossentropy": 0.8946850746870041,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11208548210561275,
      "step": 1397
    },
    {
      "epoch": 0.233,
      "grad_norm": 28.0,
      "grad_norm_var": 37.31712239583333,
      "learning_rate": 8.720974880628916e-05,
      "loss": 6.4923,
      "loss/crossentropy": 2.1065716445446014,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17256246134638786,
      "step": 1398
    },
    {
      "epoch": 0.23316666666666666,
      "grad_norm": 26.375,
      "grad_norm_var": 37.55618489583333,
      "learning_rate": 8.719225649035126e-05,
      "loss": 6.3393,
      "loss/crossentropy": 1.664988398551941,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2271974589675665,
      "step": 1399
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 29.375,
      "grad_norm_var": 35.9853515625,
      "learning_rate": 8.717475397794531e-05,
      "loss": 7.2177,
      "loss/crossentropy": 2.2505394220352173,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22215315327048302,
      "step": 1400
    },
    {
      "epoch": 0.2335,
      "grad_norm": 26.125,
      "grad_norm_var": 36.05625,
      "learning_rate": 8.715724127386972e-05,
      "loss": 6.1959,
      "loss/crossentropy": 1.873531699180603,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16248880326747894,
      "step": 1401
    },
    {
      "epoch": 0.23366666666666666,
      "grad_norm": 29.5,
      "grad_norm_var": 35.97604166666667,
      "learning_rate": 8.713971838292569e-05,
      "loss": 6.2601,
      "loss/crossentropy": 0.9897870719432831,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14599628001451492,
      "step": 1402
    },
    {
      "epoch": 0.23383333333333334,
      "grad_norm": 28.625,
      "grad_norm_var": 36.151041666666664,
      "learning_rate": 8.712218530991723e-05,
      "loss": 6.7,
      "loss/crossentropy": 1.483601376414299,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16519050300121307,
      "step": 1403
    },
    {
      "epoch": 0.234,
      "grad_norm": 26.5,
      "grad_norm_var": 36.8103515625,
      "learning_rate": 8.710464205965112e-05,
      "loss": 6.7339,
      "loss/crossentropy": 2.0020012259483337,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16443980112671852,
      "step": 1404
    },
    {
      "epoch": 0.23416666666666666,
      "grad_norm": 26.5,
      "grad_norm_var": 37.5416015625,
      "learning_rate": 8.708708863693697e-05,
      "loss": 6.761,
      "loss/crossentropy": 1.2835683301091194,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13632741570472717,
      "step": 1405
    },
    {
      "epoch": 0.23433333333333334,
      "grad_norm": 27.875,
      "grad_norm_var": 37.61399739583333,
      "learning_rate": 8.706952504658712e-05,
      "loss": 6.4228,
      "loss/crossentropy": 1.7721076607704163,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1346228215843439,
      "step": 1406
    },
    {
      "epoch": 0.2345,
      "grad_norm": 28.875,
      "grad_norm_var": 37.7150390625,
      "learning_rate": 8.705195129341672e-05,
      "loss": 6.7091,
      "loss/crossentropy": 1.6065224409103394,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13542147167026997,
      "step": 1407
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 26.75,
      "grad_norm_var": 38.25416666666667,
      "learning_rate": 8.703436738224375e-05,
      "loss": 6.5667,
      "loss/crossentropy": 1.2467619329690933,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.1695778239518404,
      "step": 1408
    },
    {
      "epoch": 0.23483333333333334,
      "grad_norm": 25.75,
      "grad_norm_var": 38.80201822916667,
      "learning_rate": 8.701677331788891e-05,
      "loss": 6.1433,
      "loss/crossentropy": 1.6390111446380615,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13177541457116604,
      "step": 1409
    },
    {
      "epoch": 0.235,
      "grad_norm": 26.0,
      "grad_norm_var": 39.10182291666667,
      "learning_rate": 8.699916910517573e-05,
      "loss": 6.4737,
      "loss/crossentropy": 1.3608596995472908,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13710680603981018,
      "step": 1410
    },
    {
      "epoch": 0.23516666666666666,
      "grad_norm": 26.875,
      "grad_norm_var": 39.378580729166664,
      "learning_rate": 8.69815547489305e-05,
      "loss": 6.5518,
      "loss/crossentropy": 1.4065961092710495,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19469621777534485,
      "step": 1411
    },
    {
      "epoch": 0.23533333333333334,
      "grad_norm": 28.5,
      "grad_norm_var": 15.267643229166667,
      "learning_rate": 8.696393025398229e-05,
      "loss": 6.8396,
      "loss/crossentropy": 1.4624530673027039,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17353084683418274,
      "step": 1412
    },
    {
      "epoch": 0.2355,
      "grad_norm": 30.5,
      "grad_norm_var": 2.1468098958333335,
      "learning_rate": 8.694629562516294e-05,
      "loss": 6.7204,
      "loss/crossentropy": 0.9706991761922836,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18376579880714417,
      "step": 1413
    },
    {
      "epoch": 0.23566666666666666,
      "grad_norm": 28.0,
      "grad_norm_var": 2.1468098958333335,
      "learning_rate": 8.692865086730713e-05,
      "loss": 6.4183,
      "loss/crossentropy": 1.6739065647125244,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19507576152682304,
      "step": 1414
    },
    {
      "epoch": 0.23583333333333334,
      "grad_norm": 27.125,
      "grad_norm_var": 2.0561848958333333,
      "learning_rate": 8.69109959852522e-05,
      "loss": 6.0193,
      "loss/crossentropy": 1.0993403047323227,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14124910533428192,
      "step": 1415
    },
    {
      "epoch": 0.236,
      "grad_norm": 31.875,
      "grad_norm_var": 3.0119140625,
      "learning_rate": 8.689333098383842e-05,
      "loss": 7.2071,
      "loss/crossentropy": 1.5422320663928986,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22851193323731422,
      "step": 1416
    },
    {
      "epoch": 0.23616666666666666,
      "grad_norm": 28.0,
      "grad_norm_var": 2.80390625,
      "learning_rate": 8.68756558679087e-05,
      "loss": 7.0285,
      "loss/crossentropy": 1.507189080119133,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15467006340622902,
      "step": 1417
    },
    {
      "epoch": 0.23633333333333334,
      "grad_norm": 28.375,
      "grad_norm_var": 2.6509765625,
      "learning_rate": 8.685797064230878e-05,
      "loss": 6.6319,
      "loss/crossentropy": 1.0455129817128181,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21261783316731453,
      "step": 1418
    },
    {
      "epoch": 0.2365,
      "grad_norm": 25.25,
      "grad_norm_var": 3.02890625,
      "learning_rate": 8.684027531188717e-05,
      "loss": 6.2786,
      "loss/crossentropy": 1.625629723072052,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16640848852694035,
      "step": 1419
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 25.375,
      "grad_norm_var": 3.2837890625,
      "learning_rate": 8.682256988149513e-05,
      "loss": 6.2535,
      "loss/crossentropy": 0.8649746030569077,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11157290264964104,
      "step": 1420
    },
    {
      "epoch": 0.23683333333333334,
      "grad_norm": 29.875,
      "grad_norm_var": 3.5,
      "learning_rate": 8.680485435598673e-05,
      "loss": 6.9396,
      "loss/crossentropy": 1.6679367423057556,
      "loss/hidden": 3.7265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2635684050619602,
      "step": 1421
    },
    {
      "epoch": 0.237,
      "grad_norm": 29.125,
      "grad_norm_var": 3.6080729166666665,
      "learning_rate": 8.678712874021874e-05,
      "loss": 6.7282,
      "loss/crossentropy": 1.8865498304367065,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15791157633066177,
      "step": 1422
    },
    {
      "epoch": 0.23716666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 4.169205729166666,
      "learning_rate": 8.67693930390508e-05,
      "loss": 6.9616,
      "loss/crossentropy": 1.1163372993469238,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.1212550587952137,
      "step": 1423
    },
    {
      "epoch": 0.23733333333333334,
      "grad_norm": 26.5,
      "grad_norm_var": 4.215559895833334,
      "learning_rate": 8.67516472573452e-05,
      "loss": 6.669,
      "loss/crossentropy": 1.8877412974834442,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2065545618534088,
      "step": 1424
    },
    {
      "epoch": 0.2375,
      "grad_norm": 29.125,
      "grad_norm_var": 3.9114583333333335,
      "learning_rate": 8.673389139996708e-05,
      "loss": 7.0207,
      "loss/crossentropy": 1.8748036921024323,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.23519740626215935,
      "step": 1425
    },
    {
      "epoch": 0.23766666666666666,
      "grad_norm": 28.375,
      "grad_norm_var": 3.561393229166667,
      "learning_rate": 8.671612547178428e-05,
      "loss": 6.6573,
      "loss/crossentropy": 1.9420278072357178,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14979233592748642,
      "step": 1426
    },
    {
      "epoch": 0.23783333333333334,
      "grad_norm": 27.0,
      "grad_norm_var": 3.5375,
      "learning_rate": 8.669834947766746e-05,
      "loss": 6.5476,
      "loss/crossentropy": 1.1937883496284485,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12786134146153927,
      "step": 1427
    },
    {
      "epoch": 0.238,
      "grad_norm": 25.625,
      "grad_norm_var": 4.006184895833333,
      "learning_rate": 8.668056342248998e-05,
      "loss": 6.5543,
      "loss/crossentropy": 1.714748054742813,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30871666595339775,
      "step": 1428
    },
    {
      "epoch": 0.23816666666666667,
      "grad_norm": 25.625,
      "grad_norm_var": 3.9934895833333335,
      "learning_rate": 8.666276731112801e-05,
      "loss": 6.4467,
      "loss/crossentropy": 1.2653475105762482,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15050562098622322,
      "step": 1429
    },
    {
      "epoch": 0.23833333333333334,
      "grad_norm": 28.5,
      "grad_norm_var": 4.01640625,
      "learning_rate": 8.664496114846044e-05,
      "loss": 6.8582,
      "loss/crossentropy": 1.4219676703214645,
      "loss/hidden": 3.77734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.30174621753394604,
      "step": 1430
    },
    {
      "epoch": 0.2385,
      "grad_norm": 28.25,
      "grad_norm_var": 3.9759765625,
      "learning_rate": 8.662714493936895e-05,
      "loss": 6.5823,
      "loss/crossentropy": 1.614340752363205,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3149548228830099,
      "step": 1431
    },
    {
      "epoch": 0.23866666666666667,
      "grad_norm": 29.875,
      "grad_norm_var": 3.190559895833333,
      "learning_rate": 8.660931868873793e-05,
      "loss": 6.8286,
      "loss/crossentropy": 1.9330060482025146,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18058581091463566,
      "step": 1432
    },
    {
      "epoch": 0.23883333333333334,
      "grad_norm": 27.125,
      "grad_norm_var": 3.222916666666667,
      "learning_rate": 8.659148240145456e-05,
      "loss": 6.7451,
      "loss/crossentropy": 1.2989310398697853,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14274989068508148,
      "step": 1433
    },
    {
      "epoch": 0.239,
      "grad_norm": 26.875,
      "grad_norm_var": 3.2510416666666666,
      "learning_rate": 8.657363608240876e-05,
      "loss": 6.5724,
      "loss/crossentropy": 1.5316192209720612,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2787708677351475,
      "step": 1434
    },
    {
      "epoch": 0.23916666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 2.934375,
      "learning_rate": 8.655577973649321e-05,
      "loss": 6.5145,
      "loss/crossentropy": 1.2776052355766296,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13015793077647686,
      "step": 1435
    },
    {
      "epoch": 0.23933333333333334,
      "grad_norm": 27.25,
      "grad_norm_var": 2.5056640625,
      "learning_rate": 8.653791336860331e-05,
      "loss": 6.4311,
      "loss/crossentropy": 1.6798433512449265,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17383023910224438,
      "step": 1436
    },
    {
      "epoch": 0.2395,
      "grad_norm": 25.75,
      "grad_norm_var": 2.58515625,
      "learning_rate": 8.652003698363724e-05,
      "loss": 6.6174,
      "loss/crossentropy": 1.4651916921138763,
      "loss/hidden": 3.83984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1780383065342903,
      "step": 1437
    },
    {
      "epoch": 0.23966666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 2.6587890625,
      "learning_rate": 8.65021505864959e-05,
      "loss": 6.8334,
      "loss/crossentropy": 1.892525464296341,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1596686877310276,
      "step": 1438
    },
    {
      "epoch": 0.23983333333333334,
      "grad_norm": 29.5,
      "grad_norm_var": 2.1697265625,
      "learning_rate": 8.648425418208294e-05,
      "loss": 6.8679,
      "loss/crossentropy": 2.040474846959114,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20210164785385132,
      "step": 1439
    },
    {
      "epoch": 0.24,
      "grad_norm": 25.875,
      "grad_norm_var": 2.298958333333333,
      "learning_rate": 8.64663477753048e-05,
      "loss": 6.6918,
      "loss/crossentropy": 1.7955405712127686,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1639818660914898,
      "step": 1440
    },
    {
      "epoch": 0.24016666666666667,
      "grad_norm": 25.75,
      "grad_norm_var": 2.378059895833333,
      "learning_rate": 8.644843137107059e-05,
      "loss": 6.3101,
      "loss/crossentropy": 0.5650833696126938,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08515303116291761,
      "step": 1441
    },
    {
      "epoch": 0.24033333333333334,
      "grad_norm": 27.375,
      "grad_norm_var": 2.324934895833333,
      "learning_rate": 8.64305049742922e-05,
      "loss": 6.7586,
      "loss/crossentropy": 1.5652510523796082,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1574523150920868,
      "step": 1442
    },
    {
      "epoch": 0.2405,
      "grad_norm": 27.75,
      "grad_norm_var": 2.315559895833333,
      "learning_rate": 8.641256858988424e-05,
      "loss": 6.4876,
      "loss/crossentropy": 1.1279072016477585,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11717881634831429,
      "step": 1443
    },
    {
      "epoch": 0.24066666666666667,
      "grad_norm": 28.125,
      "grad_norm_var": 2.0837890625,
      "learning_rate": 8.639462222276409e-05,
      "loss": 6.6409,
      "loss/crossentropy": 1.9791463762521744,
      "loss/hidden": 3.7109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25130971893668175,
      "step": 1444
    },
    {
      "epoch": 0.24083333333333334,
      "grad_norm": 29.125,
      "grad_norm_var": 1.9051432291666666,
      "learning_rate": 8.637666587785184e-05,
      "loss": 6.8855,
      "loss/crossentropy": 1.1411218345165253,
      "loss/hidden": 3.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2683944068849087,
      "step": 1445
    },
    {
      "epoch": 0.241,
      "grad_norm": 28.375,
      "grad_norm_var": 1.8955729166666666,
      "learning_rate": 8.635869956007034e-05,
      "loss": 6.665,
      "loss/crossentropy": 1.7378800809383392,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15992150828242302,
      "step": 1446
    },
    {
      "epoch": 0.24116666666666667,
      "grad_norm": 29.25,
      "grad_norm_var": 2.01015625,
      "learning_rate": 8.634072327434515e-05,
      "loss": 7.1293,
      "loss/crossentropy": 1.4358764290809631,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15003103949129581,
      "step": 1447
    },
    {
      "epoch": 0.24133333333333334,
      "grad_norm": 27.625,
      "grad_norm_var": 1.740625,
      "learning_rate": 8.632273702560456e-05,
      "loss": 6.1288,
      "loss/crossentropy": 1.080620415508747,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1031667897477746,
      "step": 1448
    },
    {
      "epoch": 0.2415,
      "grad_norm": 26.625,
      "grad_norm_var": 1.8,
      "learning_rate": 8.630474081877959e-05,
      "loss": 6.2774,
      "loss/crossentropy": 1.6144116818904877,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16698753461241722,
      "step": 1449
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 27.375,
      "grad_norm_var": 1.7572916666666667,
      "learning_rate": 8.628673465880404e-05,
      "loss": 7.0422,
      "loss/crossentropy": 1.8665052950382233,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23085599392652512,
      "step": 1450
    },
    {
      "epoch": 0.24183333333333334,
      "grad_norm": 27.125,
      "grad_norm_var": 1.6233723958333333,
      "learning_rate": 8.626871855061438e-05,
      "loss": 6.5599,
      "loss/crossentropy": 1.7175267785787582,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18754492234438658,
      "step": 1451
    },
    {
      "epoch": 0.242,
      "grad_norm": 24.5,
      "grad_norm_var": 2.2421223958333334,
      "learning_rate": 8.625069249914983e-05,
      "loss": 6.3063,
      "loss/crossentropy": 1.725325345993042,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16669025272130966,
      "step": 1452
    },
    {
      "epoch": 0.24216666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 2.133072916666667,
      "learning_rate": 8.623265650935234e-05,
      "loss": 6.5514,
      "loss/crossentropy": 1.4349830448627472,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1410666275769472,
      "step": 1453
    },
    {
      "epoch": 0.24233333333333335,
      "grad_norm": 27.25,
      "grad_norm_var": 1.9010416666666667,
      "learning_rate": 8.621461058616656e-05,
      "loss": 6.6931,
      "loss/crossentropy": 1.1172820925712585,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13138745725154877,
      "step": 1454
    },
    {
      "epoch": 0.2425,
      "grad_norm": 26.25,
      "grad_norm_var": 1.7080729166666666,
      "learning_rate": 8.61965547345399e-05,
      "loss": 6.785,
      "loss/crossentropy": 1.7667811810970306,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21809161081910133,
      "step": 1455
    },
    {
      "epoch": 0.24266666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 1.8535807291666666,
      "learning_rate": 8.617848895942247e-05,
      "loss": 6.5124,
      "loss/crossentropy": 1.2851376980543137,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.13383415527641773,
      "step": 1456
    },
    {
      "epoch": 0.24283333333333335,
      "grad_norm": 30.5,
      "grad_norm_var": 2.2889973958333334,
      "learning_rate": 8.616041326576711e-05,
      "loss": 7.2151,
      "loss/crossentropy": 1.7675953954458237,
      "loss/hidden": 3.62109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21555189229547977,
      "step": 1457
    },
    {
      "epoch": 0.243,
      "grad_norm": 29.5,
      "grad_norm_var": 2.511458333333333,
      "learning_rate": 8.614232765852935e-05,
      "loss": 6.9415,
      "loss/crossentropy": 1.381210833787918,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15031128376722336,
      "step": 1458
    },
    {
      "epoch": 0.24316666666666667,
      "grad_norm": 26.375,
      "grad_norm_var": 2.623893229166667,
      "learning_rate": 8.612423214266749e-05,
      "loss": 6.7962,
      "loss/crossentropy": 1.4190790355205536,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13622170314192772,
      "step": 1459
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 29.125,
      "grad_norm_var": 2.7520182291666666,
      "learning_rate": 8.610612672314251e-05,
      "loss": 6.4547,
      "loss/crossentropy": 1.1637745425105095,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10563442297279835,
      "step": 1460
    },
    {
      "epoch": 0.2435,
      "grad_norm": 30.0,
      "grad_norm_var": 2.966666666666667,
      "learning_rate": 8.608801140491811e-05,
      "loss": 7.0044,
      "loss/crossentropy": 1.416961282491684,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.37132324278354645,
      "step": 1461
    },
    {
      "epoch": 0.24366666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 3.0122395833333333,
      "learning_rate": 8.606988619296071e-05,
      "loss": 6.0629,
      "loss/crossentropy": 1.3706672191619873,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21816697902977467,
      "step": 1462
    },
    {
      "epoch": 0.24383333333333335,
      "grad_norm": 27.875,
      "grad_norm_var": 2.8353515625,
      "learning_rate": 8.605175109223944e-05,
      "loss": 6.8633,
      "loss/crossentropy": 1.5820597410202026,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15302826836705208,
      "step": 1463
    },
    {
      "epoch": 0.244,
      "grad_norm": 26.75,
      "grad_norm_var": 2.875,
      "learning_rate": 8.603360610772612e-05,
      "loss": 6.6699,
      "loss/crossentropy": 1.60914845764637,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14544443879276514,
      "step": 1464
    },
    {
      "epoch": 0.24416666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 2.8207682291666667,
      "learning_rate": 8.601545124439535e-05,
      "loss": 6.8595,
      "loss/crossentropy": 1.425622507929802,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16824879124760628,
      "step": 1465
    },
    {
      "epoch": 0.24433333333333335,
      "grad_norm": 24.375,
      "grad_norm_var": 3.4551432291666666,
      "learning_rate": 8.599728650722434e-05,
      "loss": 6.6193,
      "loss/crossentropy": 1.1695657521486282,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1581933069974184,
      "step": 1466
    },
    {
      "epoch": 0.2445,
      "grad_norm": 29.0,
      "grad_norm_var": 3.6143229166666666,
      "learning_rate": 8.597911190119308e-05,
      "loss": 6.4004,
      "loss/crossentropy": 1.8788322508335114,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17071765288710594,
      "step": 1467
    },
    {
      "epoch": 0.24466666666666667,
      "grad_norm": 28.625,
      "grad_norm_var": 3.036393229166667,
      "learning_rate": 8.596092743128423e-05,
      "loss": 6.368,
      "loss/crossentropy": 1.4089144319295883,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13847163692116737,
      "step": 1468
    },
    {
      "epoch": 0.24483333333333332,
      "grad_norm": 29.375,
      "grad_norm_var": 3.1275390625,
      "learning_rate": 8.594273310248318e-05,
      "loss": 6.7572,
      "loss/crossentropy": 1.813026711344719,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14645719900727272,
      "step": 1469
    },
    {
      "epoch": 0.245,
      "grad_norm": 28.875,
      "grad_norm_var": 3.1791666666666667,
      "learning_rate": 8.592452891977798e-05,
      "loss": 6.9163,
      "loss/crossentropy": 1.781123161315918,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18610691279172897,
      "step": 1470
    },
    {
      "epoch": 0.24516666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 3.106705729166667,
      "learning_rate": 8.590631488815944e-05,
      "loss": 6.3807,
      "loss/crossentropy": 1.2462878674268723,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29503070190548897,
      "step": 1471
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 25.75,
      "grad_norm_var": 2.9457682291666667,
      "learning_rate": 8.588809101262103e-05,
      "loss": 6.2511,
      "loss/crossentropy": 1.6031096130609512,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14661357551813126,
      "step": 1472
    },
    {
      "epoch": 0.2455,
      "grad_norm": 41.75,
      "grad_norm_var": 14.711393229166667,
      "learning_rate": 8.586985729815894e-05,
      "loss": 6.7183,
      "loss/crossentropy": 1.0402020961046219,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12379540130496025,
      "step": 1473
    },
    {
      "epoch": 0.24566666666666667,
      "grad_norm": 29.5,
      "grad_norm_var": 14.711393229166667,
      "learning_rate": 8.585161374977202e-05,
      "loss": 6.6548,
      "loss/crossentropy": 1.3159151673316956,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2661251872777939,
      "step": 1474
    },
    {
      "epoch": 0.24583333333333332,
      "grad_norm": 30.25,
      "grad_norm_var": 14.483333333333333,
      "learning_rate": 8.583336037246186e-05,
      "loss": 6.6913,
      "loss/crossentropy": 2.057922273874283,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19244837015867233,
      "step": 1475
    },
    {
      "epoch": 0.246,
      "grad_norm": 29.25,
      "grad_norm_var": 14.4884765625,
      "learning_rate": 8.581509717123273e-05,
      "loss": 6.9276,
      "loss/crossentropy": 1.516150802373886,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21403126791119576,
      "step": 1476
    },
    {
      "epoch": 0.24616666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 14.576822916666666,
      "learning_rate": 8.579682415109156e-05,
      "loss": 6.662,
      "loss/crossentropy": 1.8057073950767517,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1675437092781067,
      "step": 1477
    },
    {
      "epoch": 0.24633333333333332,
      "grad_norm": 27.5,
      "grad_norm_var": 14.3822265625,
      "learning_rate": 8.577854131704805e-05,
      "loss": 6.5819,
      "loss/crossentropy": 1.2052525877952576,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13884278573095798,
      "step": 1478
    },
    {
      "epoch": 0.2465,
      "grad_norm": 27.0,
      "grad_norm_var": 14.533072916666667,
      "learning_rate": 8.576024867411451e-05,
      "loss": 6.9713,
      "loss/crossentropy": 1.7933558970689774,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1717188023030758,
      "step": 1479
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 14.444205729166667,
      "learning_rate": 8.574194622730599e-05,
      "loss": 6.6939,
      "loss/crossentropy": 0.9968490228056908,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2076979111880064,
      "step": 1480
    },
    {
      "epoch": 0.24683333333333332,
      "grad_norm": 27.5,
      "grad_norm_var": 14.444205729166667,
      "learning_rate": 8.572363398164017e-05,
      "loss": 6.4582,
      "loss/crossentropy": 1.9966690838336945,
      "loss/hidden": 3.83984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20982542261481285,
      "step": 1481
    },
    {
      "epoch": 0.247,
      "grad_norm": 24.875,
      "grad_norm_var": 14.1697265625,
      "learning_rate": 8.57053119421375e-05,
      "loss": 6.2283,
      "loss/crossentropy": 1.6232264339923859,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18004275485873222,
      "step": 1482
    },
    {
      "epoch": 0.24716666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 14.2125,
      "learning_rate": 8.568698011382107e-05,
      "loss": 6.7395,
      "loss/crossentropy": 1.7975391894578934,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2155589796602726,
      "step": 1483
    },
    {
      "epoch": 0.24733333333333332,
      "grad_norm": 28.625,
      "grad_norm_var": 14.2125,
      "learning_rate": 8.566863850171663e-05,
      "loss": 6.397,
      "loss/crossentropy": 1.1899760961532593,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08900888357311487,
      "step": 1484
    },
    {
      "epoch": 0.2475,
      "grad_norm": 27.75,
      "grad_norm_var": 14.228580729166667,
      "learning_rate": 8.565028711085265e-05,
      "loss": 6.5848,
      "loss/crossentropy": 1.4124999642372131,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13817033730447292,
      "step": 1485
    },
    {
      "epoch": 0.24766666666666667,
      "grad_norm": 25.0,
      "grad_norm_var": 15.017708333333333,
      "learning_rate": 8.563192594626027e-05,
      "loss": 6.339,
      "loss/crossentropy": 1.0481770262122154,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1259062048047781,
      "step": 1486
    },
    {
      "epoch": 0.24783333333333332,
      "grad_norm": 26.25,
      "grad_norm_var": 15.112434895833333,
      "learning_rate": 8.56135550129733e-05,
      "loss": 6.4469,
      "loss/crossentropy": 1.5840249508619308,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1716774683445692,
      "step": 1487
    },
    {
      "epoch": 0.248,
      "grad_norm": 26.75,
      "grad_norm_var": 14.8322265625,
      "learning_rate": 8.559517431602824e-05,
      "loss": 6.842,
      "loss/crossentropy": 0.8972706943750381,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08874005638062954,
      "step": 1488
    },
    {
      "epoch": 0.24816666666666667,
      "grad_norm": 28.125,
      "grad_norm_var": 2.1510416666666665,
      "learning_rate": 8.557678386046428e-05,
      "loss": 6.7739,
      "loss/crossentropy": 1.2846410125494003,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12155664712190628,
      "step": 1489
    },
    {
      "epoch": 0.24833333333333332,
      "grad_norm": 26.625,
      "grad_norm_var": 1.9129557291666666,
      "learning_rate": 8.555838365132323e-05,
      "loss": 6.5773,
      "loss/crossentropy": 1.2601376175880432,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17203301936388016,
      "step": 1490
    },
    {
      "epoch": 0.2485,
      "grad_norm": 26.375,
      "grad_norm_var": 1.35390625,
      "learning_rate": 8.553997369364963e-05,
      "loss": 6.124,
      "loss/crossentropy": 1.2514343559741974,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15664827451109886,
      "step": 1491
    },
    {
      "epoch": 0.24866666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 1.0796223958333333,
      "learning_rate": 8.552155399249067e-05,
      "loss": 6.4607,
      "loss/crossentropy": 1.7554165720939636,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.221330925822258,
      "step": 1492
    },
    {
      "epoch": 0.24883333333333332,
      "grad_norm": 29.75,
      "grad_norm_var": 1.5458333333333334,
      "learning_rate": 8.550312455289625e-05,
      "loss": 6.8281,
      "loss/crossentropy": 2.2296034395694733,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20713848248124123,
      "step": 1493
    },
    {
      "epoch": 0.249,
      "grad_norm": 28.625,
      "grad_norm_var": 1.6718098958333334,
      "learning_rate": 8.548468537991884e-05,
      "loss": 6.7593,
      "loss/crossentropy": 1.497247964143753,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1915741879492998,
      "step": 1494
    },
    {
      "epoch": 0.24916666666666668,
      "grad_norm": 27.125,
      "grad_norm_var": 1.6684895833333333,
      "learning_rate": 8.54662364786137e-05,
      "loss": 6.6278,
      "loss/crossentropy": 1.8613238036632538,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21113219112157822,
      "step": 1495
    },
    {
      "epoch": 0.24933333333333332,
      "grad_norm": 27.125,
      "grad_norm_var": 1.6684895833333333,
      "learning_rate": 8.544777785403868e-05,
      "loss": 6.4625,
      "loss/crossentropy": 1.6610347032546997,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19034357741475105,
      "step": 1496
    },
    {
      "epoch": 0.2495,
      "grad_norm": 28.5,
      "grad_norm_var": 1.7622395833333333,
      "learning_rate": 8.542930951125432e-05,
      "loss": 7.0141,
      "loss/crossentropy": 1.4421517550945282,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2027395162731409,
      "step": 1497
    },
    {
      "epoch": 0.24966666666666668,
      "grad_norm": 30.0,
      "grad_norm_var": 1.7275390625,
      "learning_rate": 8.54108314553238e-05,
      "loss": 6.5817,
      "loss/crossentropy": 1.3464898318052292,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15230842307209969,
      "step": 1498
    },
    {
      "epoch": 0.24983333333333332,
      "grad_norm": 27.75,
      "grad_norm_var": 1.7247395833333334,
      "learning_rate": 8.539234369131301e-05,
      "loss": 6.9008,
      "loss/crossentropy": 1.9422021210193634,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26393208652734756,
      "step": 1499
    },
    {
      "epoch": 0.25,
      "grad_norm": 27.625,
      "grad_norm_var": 1.6559895833333333,
      "learning_rate": 8.53738462242905e-05,
      "loss": 6.9373,
      "loss/crossentropy": 2.0168758928775787,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15413923747837543,
      "step": 1500
    },
    {
      "epoch": 0.25016666666666665,
      "grad_norm": 26.625,
      "grad_norm_var": 1.7093098958333333,
      "learning_rate": 8.535533905932738e-05,
      "loss": 6.423,
      "loss/crossentropy": 1.4030412063002586,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12419278174638748,
      "step": 1501
    },
    {
      "epoch": 0.25033333333333335,
      "grad_norm": 24.5,
      "grad_norm_var": 1.8921223958333333,
      "learning_rate": 8.533682220149756e-05,
      "loss": 6.2275,
      "loss/crossentropy": 0.926719531416893,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09100574813783169,
      "step": 1502
    },
    {
      "epoch": 0.2505,
      "grad_norm": 25.125,
      "grad_norm_var": 2.1552083333333334,
      "learning_rate": 8.53182956558775e-05,
      "loss": 6.4744,
      "loss/crossentropy": 1.3639208525419235,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16878987848758698,
      "step": 1503
    },
    {
      "epoch": 0.25066666666666665,
      "grad_norm": 26.875,
      "grad_norm_var": 2.145247395833333,
      "learning_rate": 8.52997594275464e-05,
      "loss": 6.6772,
      "loss/crossentropy": 1.8602468371391296,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13869531266391277,
      "step": 1504
    },
    {
      "epoch": 0.25083333333333335,
      "grad_norm": 28.875,
      "grad_norm_var": 2.2514973958333333,
      "learning_rate": 8.528121352158604e-05,
      "loss": 6.5704,
      "loss/crossentropy": 1.6041803359985352,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23281598649919033,
      "step": 1505
    },
    {
      "epoch": 0.251,
      "grad_norm": 27.125,
      "grad_norm_var": 2.2113932291666667,
      "learning_rate": 8.526265794308089e-05,
      "loss": 6.3723,
      "loss/crossentropy": 1.3392663225531578,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12616676976904273,
      "step": 1506
    },
    {
      "epoch": 0.25116666666666665,
      "grad_norm": 28.5,
      "grad_norm_var": 2.1770833333333335,
      "learning_rate": 8.524409269711807e-05,
      "loss": 6.7154,
      "loss/crossentropy": 1.6676813066005707,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1752212531864643,
      "step": 1507
    },
    {
      "epoch": 0.25133333333333335,
      "grad_norm": 25.5,
      "grad_norm_var": 2.450455729166667,
      "learning_rate": 8.522551778878736e-05,
      "loss": 6.6563,
      "loss/crossentropy": 1.745051771402359,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2105657234787941,
      "step": 1508
    },
    {
      "epoch": 0.2515,
      "grad_norm": 27.5,
      "grad_norm_var": 2.084830729166667,
      "learning_rate": 8.520693322318116e-05,
      "loss": 6.6398,
      "loss/crossentropy": 2.4637134671211243,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1597395446151495,
      "step": 1509
    },
    {
      "epoch": 0.25166666666666665,
      "grad_norm": 24.375,
      "grad_norm_var": 2.483268229166667,
      "learning_rate": 8.518833900539454e-05,
      "loss": 6.0827,
      "loss/crossentropy": 1.3924775123596191,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.16528458893299103,
      "step": 1510
    },
    {
      "epoch": 0.25183333333333335,
      "grad_norm": 26.75,
      "grad_norm_var": 2.4893229166666666,
      "learning_rate": 8.516973514052519e-05,
      "loss": 6.2832,
      "loss/crossentropy": 1.815467745065689,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2593645825982094,
      "step": 1511
    },
    {
      "epoch": 0.252,
      "grad_norm": 26.75,
      "grad_norm_var": 2.4942057291666666,
      "learning_rate": 8.515112163367351e-05,
      "loss": 6.5399,
      "loss/crossentropy": 1.6005598306655884,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17654068022966385,
      "step": 1512
    },
    {
      "epoch": 0.25216666666666665,
      "grad_norm": 25.625,
      "grad_norm_var": 2.4447916666666667,
      "learning_rate": 8.513249848994246e-05,
      "loss": 6.2656,
      "loss/crossentropy": 1.3193487524986267,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14158409647643566,
      "step": 1513
    },
    {
      "epoch": 0.25233333333333335,
      "grad_norm": 27.125,
      "grad_norm_var": 1.7514973958333333,
      "learning_rate": 8.511386571443771e-05,
      "loss": 6.4974,
      "loss/crossentropy": 1.1420286148786545,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1334729939699173,
      "step": 1514
    },
    {
      "epoch": 0.2525,
      "grad_norm": 26.875,
      "grad_norm_var": 1.67265625,
      "learning_rate": 8.50952233122675e-05,
      "loss": 6.8007,
      "loss/crossentropy": 1.6864759176969528,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16594232432544231,
      "step": 1515
    },
    {
      "epoch": 0.25266666666666665,
      "grad_norm": 31.625,
      "grad_norm_var": 3.2143229166666667,
      "learning_rate": 8.50765712885428e-05,
      "loss": 6.81,
      "loss/crossentropy": 1.8061297535896301,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15173273161053658,
      "step": 1516
    },
    {
      "epoch": 0.25283333333333335,
      "grad_norm": 4362076160.0,
      "grad_norm_var": 1.189231761948672e+18,
      "learning_rate": 8.505790964837713e-05,
      "loss": 6.6166,
      "loss/crossentropy": 1.3777007535099983,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13933608774095774,
      "step": 1517
    },
    {
      "epoch": 0.253,
      "grad_norm": 32.5,
      "grad_norm_var": 1.189231761657867e+18,
      "learning_rate": 8.503923839688667e-05,
      "loss": 6.5272,
      "loss/crossentropy": 1.1747866570949554,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1295059323310852,
      "step": 1518
    },
    {
      "epoch": 0.25316666666666665,
      "grad_norm": 31.5,
      "grad_norm_var": 1.1892317614261317e+18,
      "learning_rate": 8.502055753919032e-05,
      "loss": 6.4421,
      "loss/crossentropy": 1.1869618147611618,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1322761494666338,
      "step": 1519
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 29.0,
      "grad_norm_var": 1.1892317613488865e+18,
      "learning_rate": 8.500186708040949e-05,
      "loss": 6.7006,
      "loss/crossentropy": 1.3832582533359528,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17695295624434948,
      "step": 1520
    },
    {
      "epoch": 0.2535,
      "grad_norm": 27.375,
      "grad_norm_var": 1.1892317614034125e+18,
      "learning_rate": 8.498316702566828e-05,
      "loss": 7.0269,
      "loss/crossentropy": 1.9856608510017395,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19019784405827522,
      "step": 1521
    },
    {
      "epoch": 0.25366666666666665,
      "grad_norm": 26.125,
      "grad_norm_var": 1.1892317614397632e+18,
      "learning_rate": 8.496445738009342e-05,
      "loss": 6.4003,
      "loss/crossentropy": 1.2322729229927063,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14161593653261662,
      "step": 1522
    },
    {
      "epoch": 0.25383333333333336,
      "grad_norm": 28.5,
      "grad_norm_var": 1.1892317614397632e+18,
      "learning_rate": 8.494573814881426e-05,
      "loss": 6.7585,
      "loss/crossentropy": 1.3647176027297974,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23197595309466124,
      "step": 1523
    },
    {
      "epoch": 0.254,
      "grad_norm": 28.125,
      "grad_norm_var": 1.1892317613443428e+18,
      "learning_rate": 8.49270093369628e-05,
      "loss": 6.4966,
      "loss/crossentropy": 1.4593277126550674,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12590165250003338,
      "step": 1524
    },
    {
      "epoch": 0.25416666666666665,
      "grad_norm": 54.5,
      "grad_norm_var": 1.1892317603628756e+18,
      "learning_rate": 8.490827094967363e-05,
      "loss": 6.9594,
      "loss/crossentropy": 1.4991252273321152,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15912701189517975,
      "step": 1525
    },
    {
      "epoch": 0.25433333333333336,
      "grad_norm": 30.0,
      "grad_norm_var": 1.1892317601584033e+18,
      "learning_rate": 8.488952299208401e-05,
      "loss": 6.8981,
      "loss/crossentropy": 1.668123185634613,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17216939851641655,
      "step": 1526
    },
    {
      "epoch": 0.2545,
      "grad_norm": 28.625,
      "grad_norm_var": 1.189231760090246e+18,
      "learning_rate": 8.487076546933378e-05,
      "loss": 6.4686,
      "loss/crossentropy": 1.8503113985061646,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17350387945771217,
      "step": 1527
    },
    {
      "epoch": 0.25466666666666665,
      "grad_norm": 41.5,
      "grad_norm_var": 1.189231759554074e+18,
      "learning_rate": 8.485199838656543e-05,
      "loss": 6.1896,
      "loss/crossentropy": 1.2597735971212387,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20131279900670052,
      "step": 1528
    },
    {
      "epoch": 0.25483333333333336,
      "grad_norm": 26.75,
      "grad_norm_var": 1.1892317595131796e+18,
      "learning_rate": 8.483322174892404e-05,
      "loss": 6.4049,
      "loss/crossentropy": 1.3848628252744675,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15812037885189056,
      "step": 1529
    },
    {
      "epoch": 0.255,
      "grad_norm": 29.125,
      "grad_norm_var": 1.1892317594404782e+18,
      "learning_rate": 8.481443556155735e-05,
      "loss": 6.8139,
      "loss/crossentropy": 1.1715636402368546,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18708932399749756,
      "step": 1530
    },
    {
      "epoch": 0.25516666666666665,
      "grad_norm": 28.875,
      "grad_norm_var": 1.189231759367777e+18,
      "learning_rate": 8.479563982961571e-05,
      "loss": 6.8292,
      "loss/crossentropy": 1.2184790670871735,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.09692073054611683,
      "step": 1531
    },
    {
      "epoch": 0.25533333333333336,
      "grad_norm": 33.75,
      "grad_norm_var": 1.1892317592905318e+18,
      "learning_rate": 8.477683455825207e-05,
      "loss": 6.6891,
      "loss/crossentropy": 1.6362611651420593,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13843068294227123,
      "step": 1532
    },
    {
      "epoch": 0.2555,
      "grad_norm": 28.125,
      "grad_norm_var": 50.97337239583333,
      "learning_rate": 8.4758019752622e-05,
      "loss": 6.7058,
      "loss/crossentropy": 1.6494111716747284,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1929592378437519,
      "step": 1533
    },
    {
      "epoch": 0.25566666666666665,
      "grad_norm": 26.75,
      "grad_norm_var": 52.291080729166666,
      "learning_rate": 8.473919541788366e-05,
      "loss": 6.274,
      "loss/crossentropy": 1.3822196274995804,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18195270374417305,
      "step": 1534
    },
    {
      "epoch": 0.25583333333333336,
      "grad_norm": 27.5,
      "grad_norm_var": 53.1119140625,
      "learning_rate": 8.472036155919791e-05,
      "loss": 6.731,
      "loss/crossentropy": 1.2519934549927711,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10057607851922512,
      "step": 1535
    },
    {
      "epoch": 0.256,
      "grad_norm": 38.5,
      "grad_norm_var": 56.328059895833334,
      "learning_rate": 8.470151818172809e-05,
      "loss": 6.7967,
      "loss/crossentropy": 1.737927407026291,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22391091287136078,
      "step": 1536
    },
    {
      "epoch": 0.25616666666666665,
      "grad_norm": 24.875,
      "grad_norm_var": 58.0962890625,
      "learning_rate": 8.468266529064025e-05,
      "loss": 6.1896,
      "loss/crossentropy": 1.3031770437955856,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12873683124780655,
      "step": 1537
    },
    {
      "epoch": 0.25633333333333336,
      "grad_norm": 23.875,
      "grad_norm_var": 59.9806640625,
      "learning_rate": 8.466380289110303e-05,
      "loss": 5.8714,
      "loss/crossentropy": 1.1562596336007118,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15082458686083555,
      "step": 1538
    },
    {
      "epoch": 0.2565,
      "grad_norm": 26.75,
      "grad_norm_var": 60.804622395833334,
      "learning_rate": 8.464493098828763e-05,
      "loss": 6.41,
      "loss/crossentropy": 1.9813059270381927,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17487092316150665,
      "step": 1539
    },
    {
      "epoch": 0.25666666666666665,
      "grad_norm": 25.25,
      "grad_norm_var": 62.462239583333336,
      "learning_rate": 8.462604958736793e-05,
      "loss": 6.0257,
      "loss/crossentropy": 1.2350340336561203,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13172156736254692,
      "step": 1540
    },
    {
      "epoch": 0.25683333333333336,
      "grad_norm": 27.75,
      "grad_norm_var": 23.089583333333334,
      "learning_rate": 8.460715869352035e-05,
      "loss": 6.6258,
      "loss/crossentropy": 1.2772248834371567,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18044393695890903,
      "step": 1541
    },
    {
      "epoch": 0.257,
      "grad_norm": 39.25,
      "grad_norm_var": 29.362239583333334,
      "learning_rate": 8.458825831192392e-05,
      "loss": 5.978,
      "loss/crossentropy": 1.04556904733181,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1417969260364771,
      "step": 1542
    },
    {
      "epoch": 0.25716666666666665,
      "grad_norm": 30.625,
      "grad_norm_var": 29.29140625,
      "learning_rate": 8.456934844776032e-05,
      "loss": 7.0604,
      "loss/crossentropy": 1.921929270029068,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22601721063256264,
      "step": 1543
    },
    {
      "epoch": 0.25733333333333336,
      "grad_norm": 27.5,
      "grad_norm_var": 19.987239583333334,
      "learning_rate": 8.455042910621379e-05,
      "loss": 6.2624,
      "loss/crossentropy": 0.8490016311407089,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08929689973592758,
      "step": 1544
    },
    {
      "epoch": 0.2575,
      "grad_norm": 26.875,
      "grad_norm_var": 19.9494140625,
      "learning_rate": 8.453150029247114e-05,
      "loss": 6.6527,
      "loss/crossentropy": 1.2423966974020004,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20903770253062248,
      "step": 1545
    },
    {
      "epoch": 0.25766666666666665,
      "grad_norm": 24.75,
      "grad_norm_var": 21.122916666666665,
      "learning_rate": 8.451256201172186e-05,
      "loss": 6.319,
      "loss/crossentropy": 1.611857533454895,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19947092235088348,
      "step": 1546
    },
    {
      "epoch": 0.25783333333333336,
      "grad_norm": 25.0,
      "grad_norm_var": 22.0291015625,
      "learning_rate": 8.449361426915797e-05,
      "loss": 6.5528,
      "loss/crossentropy": 1.5101568177342415,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1427165437489748,
      "step": 1547
    },
    {
      "epoch": 0.258,
      "grad_norm": 28.125,
      "grad_norm_var": 20.121875,
      "learning_rate": 8.447465706997408e-05,
      "loss": 6.5579,
      "loss/crossentropy": 1.8341155499219894,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1619478166103363,
      "step": 1548
    },
    {
      "epoch": 0.25816666666666666,
      "grad_norm": 27.25,
      "grad_norm_var": 20.1806640625,
      "learning_rate": 8.445569041936743e-05,
      "loss": 6.5625,
      "loss/crossentropy": 1.8451082110404968,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2067696861922741,
      "step": 1549
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 27.125,
      "grad_norm_var": 20.11875,
      "learning_rate": 8.443671432253784e-05,
      "loss": 6.5914,
      "loss/crossentropy": 1.3312060832977295,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1642481330782175,
      "step": 1550
    },
    {
      "epoch": 0.2585,
      "grad_norm": 30.625,
      "grad_norm_var": 20.442643229166666,
      "learning_rate": 8.44177287846877e-05,
      "loss": 6.6404,
      "loss/crossentropy": 1.4000188559293747,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24680931121110916,
      "step": 1551
    },
    {
      "epoch": 0.25866666666666666,
      "grad_norm": 24.625,
      "grad_norm_var": 13.758072916666666,
      "learning_rate": 8.439873381102203e-05,
      "loss": 6.1384,
      "loss/crossentropy": 1.4691539406776428,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13326716050505638,
      "step": 1552
    },
    {
      "epoch": 0.25883333333333336,
      "grad_norm": 28.375,
      "grad_norm_var": 13.29140625,
      "learning_rate": 8.437972940674838e-05,
      "loss": 6.8103,
      "loss/crossentropy": 1.243903011083603,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1517253126949072,
      "step": 1553
    },
    {
      "epoch": 0.259,
      "grad_norm": 23.875,
      "grad_norm_var": 13.29140625,
      "learning_rate": 8.436071557707692e-05,
      "loss": 6.3399,
      "loss/crossentropy": 1.2234562933444977,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16726651415228844,
      "step": 1554
    },
    {
      "epoch": 0.25916666666666666,
      "grad_norm": 26.25,
      "grad_norm_var": 13.37265625,
      "learning_rate": 8.434169232722043e-05,
      "loss": 6.2494,
      "loss/crossentropy": 1.3654979467391968,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16484334878623486,
      "step": 1555
    },
    {
      "epoch": 0.25933333333333336,
      "grad_norm": 26.75,
      "grad_norm_var": 13.02265625,
      "learning_rate": 8.432265966239419e-05,
      "loss": 7.0852,
      "loss/crossentropy": 2.001293331384659,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19069082662463188,
      "step": 1556
    },
    {
      "epoch": 0.2595,
      "grad_norm": 29.5,
      "grad_norm_var": 13.203125,
      "learning_rate": 8.430361758781616e-05,
      "loss": 6.7866,
      "loss/crossentropy": 2.1050551533699036,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24255291372537613,
      "step": 1557
    },
    {
      "epoch": 0.25966666666666666,
      "grad_norm": 27.375,
      "grad_norm_var": 4.0556640625,
      "learning_rate": 8.42845661087068e-05,
      "loss": 6.5634,
      "loss/crossentropy": 1.4958145320415497,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2499004602432251,
      "step": 1558
    },
    {
      "epoch": 0.25983333333333336,
      "grad_norm": 24.625,
      "grad_norm_var": 3.5369140625,
      "learning_rate": 8.42655052302892e-05,
      "loss": 5.9745,
      "loss/crossentropy": 1.2098843902349472,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11175981163978577,
      "step": 1559
    },
    {
      "epoch": 0.26,
      "grad_norm": 28.75,
      "grad_norm_var": 3.753059895833333,
      "learning_rate": 8.424643495778902e-05,
      "loss": 6.377,
      "loss/crossentropy": 1.6902850717306137,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17755519971251488,
      "step": 1560
    },
    {
      "epoch": 0.26016666666666666,
      "grad_norm": 26.125,
      "grad_norm_var": 3.7874348958333335,
      "learning_rate": 8.422735529643444e-05,
      "loss": 6.1022,
      "loss/crossentropy": 1.4672711193561554,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11636890098452568,
      "step": 1561
    },
    {
      "epoch": 0.26033333333333336,
      "grad_norm": 27.125,
      "grad_norm_var": 3.484375,
      "learning_rate": 8.42082662514563e-05,
      "loss": 6.988,
      "loss/crossentropy": 1.8623914122581482,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18818616680800915,
      "step": 1562
    },
    {
      "epoch": 0.2605,
      "grad_norm": 27.0,
      "grad_norm_var": 3.209375,
      "learning_rate": 8.418916782808795e-05,
      "loss": 6.2558,
      "loss/crossentropy": 1.8625478744506836,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19597026705741882,
      "step": 1563
    },
    {
      "epoch": 0.26066666666666666,
      "grad_norm": 30.125,
      "grad_norm_var": 3.734375,
      "learning_rate": 8.417006003156532e-05,
      "loss": 6.8321,
      "loss/crossentropy": 1.1682617217302322,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2345657404512167,
      "step": 1564
    },
    {
      "epoch": 0.2608333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 3.8926432291666666,
      "learning_rate": 8.415094286712694e-05,
      "loss": 6.4499,
      "loss/crossentropy": 1.6742401123046875,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13021016493439674,
      "step": 1565
    },
    {
      "epoch": 0.261,
      "grad_norm": 28.875,
      "grad_norm_var": 4.085872395833333,
      "learning_rate": 8.413181634001391e-05,
      "loss": 6.7084,
      "loss/crossentropy": 1.5285805314779282,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1491610729135573,
      "step": 1566
    },
    {
      "epoch": 0.26116666666666666,
      "grad_norm": 31.75,
      "grad_norm_var": 4.674739583333333,
      "learning_rate": 8.411268045546983e-05,
      "loss": 6.8492,
      "loss/crossentropy": 1.7009564563632011,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1385979875922203,
      "step": 1567
    },
    {
      "epoch": 0.2613333333333333,
      "grad_norm": 28.125,
      "grad_norm_var": 4.193489583333333,
      "learning_rate": 8.409353521874093e-05,
      "loss": 6.4426,
      "loss/crossentropy": 1.229106530547142,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11261659115552902,
      "step": 1568
    },
    {
      "epoch": 0.2615,
      "grad_norm": 25.0,
      "grad_norm_var": 4.518684895833333,
      "learning_rate": 8.4074380635076e-05,
      "loss": 6.1533,
      "loss/crossentropy": 1.7832941710948944,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17035359889268875,
      "step": 1569
    },
    {
      "epoch": 0.26166666666666666,
      "grad_norm": 25.25,
      "grad_norm_var": 4.008072916666666,
      "learning_rate": 8.405521670972634e-05,
      "loss": 6.6411,
      "loss/crossentropy": 1.351745367050171,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11264829337596893,
      "step": 1570
    },
    {
      "epoch": 0.2618333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 3.9184895833333333,
      "learning_rate": 8.40360434479459e-05,
      "loss": 6.5477,
      "loss/crossentropy": 1.6367198377847672,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14650331810116768,
      "step": 1571
    },
    {
      "epoch": 0.262,
      "grad_norm": 24.875,
      "grad_norm_var": 4.313997395833334,
      "learning_rate": 8.40168608549911e-05,
      "loss": 6.2995,
      "loss/crossentropy": 0.9696106985211372,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12367397360503674,
      "step": 1572
    },
    {
      "epoch": 0.26216666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 4.1853515625,
      "learning_rate": 8.399766893612096e-05,
      "loss": 6.4659,
      "loss/crossentropy": 1.5791050642728806,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18380821123719215,
      "step": 1573
    },
    {
      "epoch": 0.2623333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 4.25390625,
      "learning_rate": 8.397846769659707e-05,
      "loss": 6.3502,
      "loss/crossentropy": 1.3836457431316376,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17323687486350536,
      "step": 1574
    },
    {
      "epoch": 0.2625,
      "grad_norm": 25.25,
      "grad_norm_var": 4.060872395833333,
      "learning_rate": 8.395925714168356e-05,
      "loss": 6.447,
      "loss/crossentropy": 1.28899946808815,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12180336937308311,
      "step": 1575
    },
    {
      "epoch": 0.26266666666666666,
      "grad_norm": 27.625,
      "grad_norm_var": 3.9184895833333333,
      "learning_rate": 8.39400372766471e-05,
      "loss": 6.2646,
      "loss/crossentropy": 0.9761116281151772,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20371597120538354,
      "step": 1576
    },
    {
      "epoch": 0.2628333333333333,
      "grad_norm": 38.75,
      "grad_norm_var": 12.065559895833333,
      "learning_rate": 8.392080810675691e-05,
      "loss": 6.7719,
      "loss/crossentropy": 1.8322997987270355,
      "loss/hidden": 3.59375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23163571022450924,
      "step": 1577
    },
    {
      "epoch": 0.263,
      "grad_norm": 26.25,
      "grad_norm_var": 12.214583333333334,
      "learning_rate": 8.390156963728482e-05,
      "loss": 6.1365,
      "loss/crossentropy": 1.194678246974945,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2539881942793727,
      "step": 1578
    },
    {
      "epoch": 0.26316666666666666,
      "grad_norm": 23.875,
      "grad_norm_var": 13.215559895833334,
      "learning_rate": 8.388232187350512e-05,
      "loss": 6.0593,
      "loss/crossentropy": 1.3664326220750809,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10707986168563366,
      "step": 1579
    },
    {
      "epoch": 0.2633333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 12.864322916666667,
      "learning_rate": 8.386306482069473e-05,
      "loss": 6.8437,
      "loss/crossentropy": 1.850177824497223,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17907489091157913,
      "step": 1580
    },
    {
      "epoch": 0.2635,
      "grad_norm": 27.75,
      "grad_norm_var": 12.575455729166666,
      "learning_rate": 8.384379848413304e-05,
      "loss": 6.6427,
      "loss/crossentropy": 1.733255460858345,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1370087955147028,
      "step": 1581
    },
    {
      "epoch": 0.26366666666666666,
      "grad_norm": 26.75,
      "grad_norm_var": 12.545572916666666,
      "learning_rate": 8.382452286910206e-05,
      "loss": 6.2584,
      "loss/crossentropy": 1.3558062016963959,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13898317702114582,
      "step": 1582
    },
    {
      "epoch": 0.2638333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 11.35390625,
      "learning_rate": 8.380523798088631e-05,
      "loss": 6.7305,
      "loss/crossentropy": 1.2056031823158264,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10830382723361254,
      "step": 1583
    },
    {
      "epoch": 0.264,
      "grad_norm": 26.75,
      "grad_norm_var": 11.337434895833333,
      "learning_rate": 8.378594382477282e-05,
      "loss": 6.6729,
      "loss/crossentropy": 2.236360639333725,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25125929713249207,
      "step": 1584
    },
    {
      "epoch": 0.26416666666666666,
      "grad_norm": 24.75,
      "grad_norm_var": 11.4181640625,
      "learning_rate": 8.376664040605122e-05,
      "loss": 6.386,
      "loss/crossentropy": 0.9779779016971588,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11395659483969212,
      "step": 1585
    },
    {
      "epoch": 0.2643333333333333,
      "grad_norm": 26.625,
      "grad_norm_var": 11.1625,
      "learning_rate": 8.374732773001366e-05,
      "loss": 6.3123,
      "loss/crossentropy": 1.4567594081163406,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17596044018864632,
      "step": 1586
    },
    {
      "epoch": 0.2645,
      "grad_norm": 35.5,
      "grad_norm_var": 15.27890625,
      "learning_rate": 8.372800580195479e-05,
      "loss": 6.7364,
      "loss/crossentropy": 1.9195697903633118,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16548319160938263,
      "step": 1587
    },
    {
      "epoch": 0.26466666666666666,
      "grad_norm": 30.5,
      "grad_norm_var": 14.9947265625,
      "learning_rate": 8.370867462717183e-05,
      "loss": 6.7132,
      "loss/crossentropy": 1.2127940505743027,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09943809919059277,
      "step": 1588
    },
    {
      "epoch": 0.2648333333333333,
      "grad_norm": 26.875,
      "grad_norm_var": 15.062239583333334,
      "learning_rate": 8.368933421096454e-05,
      "loss": 6.7852,
      "loss/crossentropy": 0.9601086676120758,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11084135621786118,
      "step": 1589
    },
    {
      "epoch": 0.265,
      "grad_norm": 24.625,
      "grad_norm_var": 15.630143229166666,
      "learning_rate": 8.366998455863522e-05,
      "loss": 6.333,
      "loss/crossentropy": 1.4967469424009323,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1625440139323473,
      "step": 1590
    },
    {
      "epoch": 0.26516666666666666,
      "grad_norm": 26.0,
      "grad_norm_var": 15.389518229166667,
      "learning_rate": 8.365062567548867e-05,
      "loss": 6.2864,
      "loss/crossentropy": 1.6240037083625793,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15611721575260162,
      "step": 1591
    },
    {
      "epoch": 0.2653333333333333,
      "grad_norm": 30.0,
      "grad_norm_var": 15.605989583333333,
      "learning_rate": 8.363125756683223e-05,
      "loss": 6.6876,
      "loss/crossentropy": 1.5841274857521057,
      "loss/hidden": 3.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2983058914542198,
      "step": 1592
    },
    {
      "epoch": 0.2655,
      "grad_norm": 24.875,
      "grad_norm_var": 8.126497395833333,
      "learning_rate": 8.361188023797582e-05,
      "loss": 6.6541,
      "loss/crossentropy": 1.7854099571704865,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14649183489382267,
      "step": 1593
    },
    {
      "epoch": 0.26566666666666666,
      "grad_norm": 28.25,
      "grad_norm_var": 8.0869140625,
      "learning_rate": 8.359249369423177e-05,
      "loss": 6.2296,
      "loss/crossentropy": 1.119899682700634,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12407440692186356,
      "step": 1594
    },
    {
      "epoch": 0.2658333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 7.1931640625,
      "learning_rate": 8.357309794091507e-05,
      "loss": 6.3103,
      "loss/crossentropy": 1.140097290277481,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11549050640314817,
      "step": 1595
    },
    {
      "epoch": 0.266,
      "grad_norm": 28.125,
      "grad_norm_var": 7.16015625,
      "learning_rate": 8.355369298334316e-05,
      "loss": 6.7788,
      "loss/crossentropy": 1.529033437371254,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21456463262438774,
      "step": 1596
    },
    {
      "epoch": 0.26616666666666666,
      "grad_norm": 26.625,
      "grad_norm_var": 7.2228515625,
      "learning_rate": 8.3534278826836e-05,
      "loss": 6.7892,
      "loss/crossentropy": 1.5850271880626678,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.130172586068511,
      "step": 1597
    },
    {
      "epoch": 0.2663333333333333,
      "grad_norm": 25.25,
      "grad_norm_var": 7.5275390625,
      "learning_rate": 8.351485547671613e-05,
      "loss": 6.3052,
      "loss/crossentropy": 1.7502561509609222,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15570508502423763,
      "step": 1598
    },
    {
      "epoch": 0.2665,
      "grad_norm": 25.125,
      "grad_norm_var": 7.8625,
      "learning_rate": 8.349542293830855e-05,
      "loss": 6.2877,
      "loss/crossentropy": 1.6792922914028168,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23954294063150883,
      "step": 1599
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 29.0,
      "grad_norm_var": 8.01015625,
      "learning_rate": 8.347598121694078e-05,
      "loss": 6.6913,
      "loss/crossentropy": 1.8723644018173218,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20333952084183693,
      "step": 1600
    },
    {
      "epoch": 0.2668333333333333,
      "grad_norm": 28.5,
      "grad_norm_var": 7.5375,
      "learning_rate": 8.345653031794292e-05,
      "loss": 7.1074,
      "loss/crossentropy": 1.974313199520111,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.148883655667305,
      "step": 1601
    },
    {
      "epoch": 0.267,
      "grad_norm": 26.375,
      "grad_norm_var": 7.576822916666667,
      "learning_rate": 8.343707024664751e-05,
      "loss": 6.6407,
      "loss/crossentropy": 1.3841271996498108,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16643064469099045,
      "step": 1602
    },
    {
      "epoch": 0.26716666666666666,
      "grad_norm": 27.5,
      "grad_norm_var": 3.226822916666667,
      "learning_rate": 8.341760100838965e-05,
      "loss": 6.6656,
      "loss/crossentropy": 1.0456174314022064,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13179867714643478,
      "step": 1603
    },
    {
      "epoch": 0.2673333333333333,
      "grad_norm": 28.875,
      "grad_norm_var": 2.670768229166667,
      "learning_rate": 8.339812260850696e-05,
      "loss": 7.5224,
      "loss/crossentropy": 2.02323842048645,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26648833230137825,
      "step": 1604
    },
    {
      "epoch": 0.2675,
      "grad_norm": 27.125,
      "grad_norm_var": 2.6681640625,
      "learning_rate": 8.337863505233953e-05,
      "loss": 6.3042,
      "loss/crossentropy": 1.5908322036266327,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1915053054690361,
      "step": 1605
    },
    {
      "epoch": 0.26766666666666666,
      "grad_norm": 26.25,
      "grad_norm_var": 2.3,
      "learning_rate": 8.335913834522999e-05,
      "loss": 6.3944,
      "loss/crossentropy": 1.5703306943178177,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13484930247068405,
      "step": 1606
    },
    {
      "epoch": 0.2678333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 2.2643229166666665,
      "learning_rate": 8.333963249252348e-05,
      "loss": 6.2017,
      "loss/crossentropy": 1.5306211411952972,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24524124339222908,
      "step": 1607
    },
    {
      "epoch": 0.268,
      "grad_norm": 26.5,
      "grad_norm_var": 1.7247395833333334,
      "learning_rate": 8.332011749956763e-05,
      "loss": 6.6625,
      "loss/crossentropy": 2.0105501264333725,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19223702698946,
      "step": 1608
    },
    {
      "epoch": 0.26816666666666666,
      "grad_norm": 28.875,
      "grad_norm_var": 1.5997395833333334,
      "learning_rate": 8.330059337171258e-05,
      "loss": 6.4999,
      "loss/crossentropy": 1.5219484716653824,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13616113737225533,
      "step": 1609
    },
    {
      "epoch": 0.2683333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 1.79765625,
      "learning_rate": 8.328106011431101e-05,
      "loss": 6.7819,
      "loss/crossentropy": 1.3084082007408142,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22154392953962088,
      "step": 1610
    },
    {
      "epoch": 0.2685,
      "grad_norm": 30.125,
      "grad_norm_var": 2.29140625,
      "learning_rate": 8.326151773271804e-05,
      "loss": 6.8103,
      "loss/crossentropy": 1.229638785123825,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20553592592477798,
      "step": 1611
    },
    {
      "epoch": 0.26866666666666666,
      "grad_norm": 26.125,
      "grad_norm_var": 2.3705729166666667,
      "learning_rate": 8.324196623229135e-05,
      "loss": 6.2954,
      "loss/crossentropy": 1.427354633808136,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14054181426763535,
      "step": 1612
    },
    {
      "epoch": 0.2688333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 2.559830729166667,
      "learning_rate": 8.322240561839109e-05,
      "loss": 6.4815,
      "loss/crossentropy": 1.7224322333931923,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16631003841757774,
      "step": 1613
    },
    {
      "epoch": 0.269,
      "grad_norm": 27.25,
      "grad_norm_var": 2.2660807291666667,
      "learning_rate": 8.32028358963799e-05,
      "loss": 6.5355,
      "loss/crossentropy": 1.6903588771820068,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13924129493534565,
      "step": 1614
    },
    {
      "epoch": 0.26916666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 1.89375,
      "learning_rate": 8.318325707162293e-05,
      "loss": 6.9817,
      "loss/crossentropy": 1.8187223076820374,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17342381179332733,
      "step": 1615
    },
    {
      "epoch": 0.2693333333333333,
      "grad_norm": 25.75,
      "grad_norm_var": 1.9309895833333333,
      "learning_rate": 8.316366914948783e-05,
      "loss": 6.5086,
      "loss/crossentropy": 1.3641190081834793,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.18485832773149014,
      "step": 1616
    },
    {
      "epoch": 0.2695,
      "grad_norm": 25.625,
      "grad_norm_var": 2.0103515625,
      "learning_rate": 8.314407213534476e-05,
      "loss": 6.2474,
      "loss/crossentropy": 1.3395388424396515,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13723072689026594,
      "step": 1617
    },
    {
      "epoch": 0.26966666666666667,
      "grad_norm": 25.75,
      "grad_norm_var": 2.101822916666667,
      "learning_rate": 8.312446603456632e-05,
      "loss": 6.5276,
      "loss/crossentropy": 1.1821232289075851,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1599526572972536,
      "step": 1618
    },
    {
      "epoch": 0.2698333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 2.1889973958333333,
      "learning_rate": 8.310485085252767e-05,
      "loss": 6.6453,
      "loss/crossentropy": 1.1522404998540878,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11603707447648048,
      "step": 1619
    },
    {
      "epoch": 0.27,
      "grad_norm": 27.0,
      "grad_norm_var": 1.9497395833333333,
      "learning_rate": 8.308522659460641e-05,
      "loss": 6.1391,
      "loss/crossentropy": 1.7048717737197876,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26493560522794724,
      "step": 1620
    },
    {
      "epoch": 0.27016666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 1.9497395833333333,
      "learning_rate": 8.306559326618259e-05,
      "loss": 6.9394,
      "loss/crossentropy": 1.5971474349498749,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23606881871819496,
      "step": 1621
    },
    {
      "epoch": 0.2703333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 2.224739583333333,
      "learning_rate": 8.304595087263889e-05,
      "loss": 6.1608,
      "loss/crossentropy": 1.8884839713573456,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1541367694735527,
      "step": 1622
    },
    {
      "epoch": 0.2705,
      "grad_norm": 29.25,
      "grad_norm_var": 2.5559895833333335,
      "learning_rate": 8.30262994193603e-05,
      "loss": 6.8455,
      "loss/crossentropy": 1.5760976076126099,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1386857032775879,
      "step": 1623
    },
    {
      "epoch": 0.27066666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 2.8677083333333333,
      "learning_rate": 8.300663891173443e-05,
      "loss": 6.61,
      "loss/crossentropy": 1.636210411787033,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14123854786157608,
      "step": 1624
    },
    {
      "epoch": 0.2708333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 2.5921223958333335,
      "learning_rate": 8.298696935515132e-05,
      "loss": 6.5315,
      "loss/crossentropy": 1.2037115097045898,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13143595308065414,
      "step": 1625
    },
    {
      "epoch": 0.271,
      "grad_norm": 26.0,
      "grad_norm_var": 2.1791015625,
      "learning_rate": 8.296729075500344e-05,
      "loss": 6.4103,
      "loss/crossentropy": 1.3744913935661316,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16979750245809555,
      "step": 1626
    },
    {
      "epoch": 0.27116666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 1.365625,
      "learning_rate": 8.294760311668586e-05,
      "loss": 6.4506,
      "loss/crossentropy": 1.196798488497734,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1543511599302292,
      "step": 1627
    },
    {
      "epoch": 0.2713333333333333,
      "grad_norm": 25.75,
      "grad_norm_var": 1.3884765625,
      "learning_rate": 8.2927906445596e-05,
      "loss": 6.4978,
      "loss/crossentropy": 1.481429547071457,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17183401808142662,
      "step": 1628
    },
    {
      "epoch": 0.2715,
      "grad_norm": 28.875,
      "grad_norm_var": 1.703125,
      "learning_rate": 8.290820074713384e-05,
      "loss": 6.4526,
      "loss/crossentropy": 1.618128389120102,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21382078900933266,
      "step": 1629
    },
    {
      "epoch": 0.27166666666666667,
      "grad_norm": 28.5,
      "grad_norm_var": 1.91015625,
      "learning_rate": 8.28884860267018e-05,
      "loss": 6.5838,
      "loss/crossentropy": 2.148876816034317,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19500019028782845,
      "step": 1630
    },
    {
      "epoch": 0.2718333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 1.8622395833333334,
      "learning_rate": 8.28687622897048e-05,
      "loss": 5.9952,
      "loss/crossentropy": 1.6788550913333893,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1563299372792244,
      "step": 1631
    },
    {
      "epoch": 0.272,
      "grad_norm": 28.875,
      "grad_norm_var": 2.114518229166667,
      "learning_rate": 8.284902954155019e-05,
      "loss": 6.8839,
      "loss/crossentropy": 1.2067348659038544,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16382478922605515,
      "step": 1632
    },
    {
      "epoch": 0.27216666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 2.3,
      "learning_rate": 8.282928778764783e-05,
      "loss": 6.1469,
      "loss/crossentropy": 1.2932213842868805,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14870959147810936,
      "step": 1633
    },
    {
      "epoch": 0.2723333333333333,
      "grad_norm": 26.375,
      "grad_norm_var": 2.241080729166667,
      "learning_rate": 8.280953703341004e-05,
      "loss": 6.2526,
      "loss/crossentropy": 0.8585210591554642,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14180009625852108,
      "step": 1634
    },
    {
      "epoch": 0.2725,
      "grad_norm": 27.0,
      "grad_norm_var": 2.1830729166666667,
      "learning_rate": 8.278977728425157e-05,
      "loss": 6.8247,
      "loss/crossentropy": 2.1694380342960358,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2599971890449524,
      "step": 1635
    },
    {
      "epoch": 0.27266666666666667,
      "grad_norm": 26.75,
      "grad_norm_var": 2.1822916666666665,
      "learning_rate": 8.27700085455897e-05,
      "loss": 6.3411,
      "loss/crossentropy": 1.5276328772306442,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20902734249830246,
      "step": 1636
    },
    {
      "epoch": 0.2728333333333333,
      "grad_norm": 25.75,
      "grad_norm_var": 2.248893229166667,
      "learning_rate": 8.275023082284413e-05,
      "loss": 6.6245,
      "loss/crossentropy": 2.339494287967682,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16161833330988884,
      "step": 1637
    },
    {
      "epoch": 0.273,
      "grad_norm": 25.875,
      "grad_norm_var": 2.0268229166666667,
      "learning_rate": 8.273044412143704e-05,
      "loss": 6.8519,
      "loss/crossentropy": 1.2134160548448563,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12258456461131573,
      "step": 1638
    },
    {
      "epoch": 0.27316666666666667,
      "grad_norm": 28.125,
      "grad_norm_var": 1.7426432291666667,
      "learning_rate": 8.271064844679306e-05,
      "loss": 6.5726,
      "loss/crossentropy": 1.2051786482334137,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2356526292860508,
      "step": 1639
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 1.5934895833333333,
      "learning_rate": 8.269084380433929e-05,
      "loss": 6.3446,
      "loss/crossentropy": 1.6763530224561691,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22781694680452347,
      "step": 1640
    },
    {
      "epoch": 0.2735,
      "grad_norm": 28.75,
      "grad_norm_var": 1.7809895833333333,
      "learning_rate": 8.267103019950529e-05,
      "loss": 7.0837,
      "loss/crossentropy": 1.754968911409378,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14769989624619484,
      "step": 1641
    },
    {
      "epoch": 0.27366666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 1.846875,
      "learning_rate": 8.265120763772303e-05,
      "loss": 6.7462,
      "loss/crossentropy": 1.3203455954790115,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17968839779496193,
      "step": 1642
    },
    {
      "epoch": 0.2738333333333333,
      "grad_norm": 25.25,
      "grad_norm_var": 2.09765625,
      "learning_rate": 8.263137612442706e-05,
      "loss": 6.4217,
      "loss/crossentropy": 1.823981136083603,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.16684725135564804,
      "step": 1643
    },
    {
      "epoch": 0.274,
      "grad_norm": 25.875,
      "grad_norm_var": 2.075455729166667,
      "learning_rate": 8.261153566505424e-05,
      "loss": 6.4205,
      "loss/crossentropy": 1.4490568339824677,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14278194680809975,
      "step": 1644
    },
    {
      "epoch": 0.27416666666666667,
      "grad_norm": 26.75,
      "grad_norm_var": 1.8684895833333333,
      "learning_rate": 8.259168626504395e-05,
      "loss": 6.6623,
      "loss/crossentropy": 1.949517160654068,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16612081229686737,
      "step": 1645
    },
    {
      "epoch": 0.2743333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 1.7135416666666667,
      "learning_rate": 8.257182792983802e-05,
      "loss": 6.8077,
      "loss/crossentropy": 1.3662299513816833,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13424787670373917,
      "step": 1646
    },
    {
      "epoch": 0.2745,
      "grad_norm": 25.375,
      "grad_norm_var": 1.8535807291666666,
      "learning_rate": 8.255196066488075e-05,
      "loss": 6.3715,
      "loss/crossentropy": 1.7718872725963593,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11640601232647896,
      "step": 1647
    },
    {
      "epoch": 0.27466666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 1.8270182291666666,
      "learning_rate": 8.253208447561882e-05,
      "loss": 6.1833,
      "loss/crossentropy": 1.5564922764897346,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1758194393478334,
      "step": 1648
    },
    {
      "epoch": 0.2748333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 1.6625,
      "learning_rate": 8.251219936750144e-05,
      "loss": 6.1891,
      "loss/crossentropy": 1.59621924161911,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20559540763497353,
      "step": 1649
    },
    {
      "epoch": 0.275,
      "grad_norm": 26.875,
      "grad_norm_var": 1.6614583333333333,
      "learning_rate": 8.249230534598021e-05,
      "loss": 6.5536,
      "loss/crossentropy": 1.4750879406929016,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15503276512026787,
      "step": 1650
    },
    {
      "epoch": 0.27516666666666667,
      "grad_norm": 25.0,
      "grad_norm_var": 1.8197916666666667,
      "learning_rate": 8.247240241650918e-05,
      "loss": 6.18,
      "loss/crossentropy": 1.089761197566986,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12325790617614985,
      "step": 1651
    },
    {
      "epoch": 0.2753333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 2.283333333333333,
      "learning_rate": 8.245249058454487e-05,
      "loss": 6.6376,
      "loss/crossentropy": 1.4199354499578476,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1404520981013775,
      "step": 1652
    },
    {
      "epoch": 0.2755,
      "grad_norm": 28.5,
      "grad_norm_var": 2.412239583333333,
      "learning_rate": 8.243256985554621e-05,
      "loss": 6.5786,
      "loss/crossentropy": 1.7468246966600418,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18941262364387512,
      "step": 1653
    },
    {
      "epoch": 0.27566666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 2.343489583333333,
      "learning_rate": 8.241264023497457e-05,
      "loss": 6.3791,
      "loss/crossentropy": 1.655304729938507,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2107965499162674,
      "step": 1654
    },
    {
      "epoch": 0.2758333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 2.298958333333333,
      "learning_rate": 8.239270172829379e-05,
      "loss": 6.2451,
      "loss/crossentropy": 2.322205126285553,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20676938816905022,
      "step": 1655
    },
    {
      "epoch": 0.276,
      "grad_norm": 27.75,
      "grad_norm_var": 2.190559895833333,
      "learning_rate": 8.237275434097012e-05,
      "loss": 6.6079,
      "loss/crossentropy": 1.137220598757267,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13325241953134537,
      "step": 1656
    },
    {
      "epoch": 0.27616666666666667,
      "grad_norm": 26.75,
      "grad_norm_var": 1.9051432291666666,
      "learning_rate": 8.235279807847223e-05,
      "loss": 6.2816,
      "loss/crossentropy": 1.6288244128227234,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15651296451687813,
      "step": 1657
    },
    {
      "epoch": 0.2763333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 1.6080729166666667,
      "learning_rate": 8.233283294627125e-05,
      "loss": 6.381,
      "loss/crossentropy": 1.3976692855358124,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1365256905555725,
      "step": 1658
    },
    {
      "epoch": 0.2765,
      "grad_norm": 37.75,
      "grad_norm_var": 9.264322916666666,
      "learning_rate": 8.231285894984076e-05,
      "loss": 6.7407,
      "loss/crossentropy": 1.2789996713399887,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23060336709022522,
      "step": 1659
    },
    {
      "epoch": 0.27666666666666667,
      "grad_norm": 29.75,
      "grad_norm_var": 9.4681640625,
      "learning_rate": 8.22928760946567e-05,
      "loss": 6.846,
      "loss/crossentropy": 1.5556926429271698,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17659665271639824,
      "step": 1660
    },
    {
      "epoch": 0.2768333333333333,
      "grad_norm": 30.75,
      "grad_norm_var": 10.047330729166667,
      "learning_rate": 8.227288438619754e-05,
      "loss": 6.8995,
      "loss/crossentropy": 2.1362548172473907,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25567465275526047,
      "step": 1661
    },
    {
      "epoch": 0.277,
      "grad_norm": 27.375,
      "grad_norm_var": 9.98515625,
      "learning_rate": 8.225288382994407e-05,
      "loss": 6.3478,
      "loss/crossentropy": 1.5700103342533112,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13714691624045372,
      "step": 1662
    },
    {
      "epoch": 0.2771666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 9.5572265625,
      "learning_rate": 8.223287443137957e-05,
      "loss": 6.7144,
      "loss/crossentropy": 1.6021295487880707,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16361736506223679,
      "step": 1663
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 8.825455729166666,
      "learning_rate": 8.221285619598975e-05,
      "loss": 6.5565,
      "loss/crossentropy": 1.6454369276762009,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17043303325772285,
      "step": 1664
    },
    {
      "epoch": 0.2775,
      "grad_norm": 28.25,
      "grad_norm_var": 8.372916666666667,
      "learning_rate": 8.21928291292627e-05,
      "loss": 6.7848,
      "loss/crossentropy": 1.7023286670446396,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20277707651257515,
      "step": 1665
    },
    {
      "epoch": 0.2776666666666667,
      "grad_norm": 27.375,
      "grad_norm_var": 8.292708333333334,
      "learning_rate": 8.217279323668895e-05,
      "loss": 6.8649,
      "loss/crossentropy": 1.3222306594252586,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17969263438135386,
      "step": 1666
    },
    {
      "epoch": 0.2778333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 8.0384765625,
      "learning_rate": 8.215274852376147e-05,
      "loss": 6.1491,
      "loss/crossentropy": 1.8724027872085571,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12196112424135208,
      "step": 1667
    },
    {
      "epoch": 0.278,
      "grad_norm": 23.75,
      "grad_norm_var": 9.2931640625,
      "learning_rate": 8.213269499597565e-05,
      "loss": 5.8931,
      "loss/crossentropy": 1.1713724061846733,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12717099487781525,
      "step": 1668
    },
    {
      "epoch": 0.2781666666666667,
      "grad_norm": 28.0,
      "grad_norm_var": 9.278059895833334,
      "learning_rate": 8.211263265882923e-05,
      "loss": 6.9227,
      "loss/crossentropy": 1.6045489609241486,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17086264491081238,
      "step": 1669
    },
    {
      "epoch": 0.2783333333333333,
      "grad_norm": 28.75,
      "grad_norm_var": 9.214583333333334,
      "learning_rate": 8.209256151782243e-05,
      "loss": 6.7527,
      "loss/crossentropy": 1.3341772854328156,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1483191940933466,
      "step": 1670
    },
    {
      "epoch": 0.2785,
      "grad_norm": 27.375,
      "grad_norm_var": 8.905208333333333,
      "learning_rate": 8.207248157845791e-05,
      "loss": 6.2651,
      "loss/crossentropy": 1.860980048775673,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11668968573212624,
      "step": 1671
    },
    {
      "epoch": 0.2786666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 9.054622395833333,
      "learning_rate": 8.205239284624062e-05,
      "loss": 6.6759,
      "loss/crossentropy": 1.6459452509880066,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22845373675227165,
      "step": 1672
    },
    {
      "epoch": 0.2788333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 9.6775390625,
      "learning_rate": 8.203229532667807e-05,
      "loss": 6.4217,
      "loss/crossentropy": 1.53298020362854,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1260205153375864,
      "step": 1673
    },
    {
      "epoch": 0.279,
      "grad_norm": 27.875,
      "grad_norm_var": 9.6228515625,
      "learning_rate": 8.201218902528009e-05,
      "loss": 6.4527,
      "loss/crossentropy": 1.869560956954956,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19912932440638542,
      "step": 1674
    },
    {
      "epoch": 0.2791666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 3.2556640625,
      "learning_rate": 8.199207394755893e-05,
      "loss": 6.0211,
      "loss/crossentropy": 1.2897258251905441,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20842219702899456,
      "step": 1675
    },
    {
      "epoch": 0.2793333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 2.840625,
      "learning_rate": 8.197195009902924e-05,
      "loss": 6.7164,
      "loss/crossentropy": 1.6986341327428818,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21361364796757698,
      "step": 1676
    },
    {
      "epoch": 0.2795,
      "grad_norm": 25.125,
      "grad_norm_var": 2.1228515625,
      "learning_rate": 8.195181748520811e-05,
      "loss": 6.538,
      "loss/crossentropy": 1.6305998861789703,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2566416822373867,
      "step": 1677
    },
    {
      "epoch": 0.2796666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 2.4572265625,
      "learning_rate": 8.193167611161499e-05,
      "loss": 5.9843,
      "loss/crossentropy": 1.6780350655317307,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17056487873196602,
      "step": 1678
    },
    {
      "epoch": 0.2798333333333333,
      "grad_norm": 27.375,
      "grad_norm_var": 2.36640625,
      "learning_rate": 8.191152598377178e-05,
      "loss": 7.0966,
      "loss/crossentropy": 1.5251629650592804,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20536588318645954,
      "step": 1679
    },
    {
      "epoch": 0.28,
      "grad_norm": 25.375,
      "grad_norm_var": 2.4302083333333333,
      "learning_rate": 8.189136710720272e-05,
      "loss": 6.4033,
      "loss/crossentropy": 1.704188033938408,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11363850720226765,
      "step": 1680
    },
    {
      "epoch": 0.2801666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 2.249739583333333,
      "learning_rate": 8.18711994874345e-05,
      "loss": 6.3669,
      "loss/crossentropy": 1.5498753786087036,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13964795740321279,
      "step": 1681
    },
    {
      "epoch": 0.2803333333333333,
      "grad_norm": 24.5,
      "grad_norm_var": 2.3530598958333333,
      "learning_rate": 8.185102312999617e-05,
      "loss": 6.105,
      "loss/crossentropy": 1.3350743502378464,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15579680539667606,
      "step": 1682
    },
    {
      "epoch": 0.2805,
      "grad_norm": 29.25,
      "grad_norm_var": 2.9364583333333334,
      "learning_rate": 8.183083804041921e-05,
      "loss": 6.9201,
      "loss/crossentropy": 1.4282542169094086,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19400536641478539,
      "step": 1683
    },
    {
      "epoch": 0.2806666666666667,
      "grad_norm": 25.375,
      "grad_norm_var": 2.5395182291666667,
      "learning_rate": 8.181064422423748e-05,
      "loss": 6.295,
      "loss/crossentropy": 1.6156925559043884,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12244082801043987,
      "step": 1684
    },
    {
      "epoch": 0.2808333333333333,
      "grad_norm": 26.875,
      "grad_norm_var": 2.3854166666666665,
      "learning_rate": 8.179044168698721e-05,
      "loss": 6.7027,
      "loss/crossentropy": 2.2172724902629852,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16203631088137627,
      "step": 1685
    },
    {
      "epoch": 0.281,
      "grad_norm": 23.875,
      "grad_norm_var": 2.327018229166667,
      "learning_rate": 8.177023043420705e-05,
      "loss": 6.33,
      "loss/crossentropy": 1.400356575846672,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11868741922080517,
      "step": 1686
    },
    {
      "epoch": 0.2811666666666667,
      "grad_norm": 35.0,
      "grad_norm_var": 7.287239583333333,
      "learning_rate": 8.175001047143804e-05,
      "loss": 6.6259,
      "loss/crossentropy": 2.0223781168460846,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17344199120998383,
      "step": 1687
    },
    {
      "epoch": 0.2813333333333333,
      "grad_norm": 29.25,
      "grad_norm_var": 7.745247395833333,
      "learning_rate": 8.172978180422358e-05,
      "loss": 6.7435,
      "loss/crossentropy": 1.1300409510731697,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15298896189779043,
      "step": 1688
    },
    {
      "epoch": 0.2815,
      "grad_norm": 26.0,
      "grad_norm_var": 7.516080729166666,
      "learning_rate": 8.170954443810948e-05,
      "loss": 6.4089,
      "loss/crossentropy": 1.867250233888626,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18279875442385674,
      "step": 1689
    },
    {
      "epoch": 0.2816666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 7.566666666666666,
      "learning_rate": 8.168929837864395e-05,
      "loss": 6.4647,
      "loss/crossentropy": 1.1209526397287846,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09244260424748063,
      "step": 1690
    },
    {
      "epoch": 0.2818333333333333,
      "grad_norm": 28.25,
      "grad_norm_var": 7.579166666666667,
      "learning_rate": 8.16690436313775e-05,
      "loss": 6.7581,
      "loss/crossentropy": 1.2715392410755157,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13625416904687881,
      "step": 1691
    },
    {
      "epoch": 0.282,
      "grad_norm": 24.625,
      "grad_norm_var": 7.816666666666666,
      "learning_rate": 8.164878020186317e-05,
      "loss": 6.1189,
      "loss/crossentropy": 1.3640960454940796,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11034796759486198,
      "step": 1692
    },
    {
      "epoch": 0.2821666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 7.792643229166667,
      "learning_rate": 8.162850809565623e-05,
      "loss": 6.5202,
      "loss/crossentropy": 1.6748483180999756,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27111995220184326,
      "step": 1693
    },
    {
      "epoch": 0.2823333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 7.4572265625,
      "learning_rate": 8.160822731831441e-05,
      "loss": 6.4408,
      "loss/crossentropy": 2.241428554058075,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1700704414397478,
      "step": 1694
    },
    {
      "epoch": 0.2825,
      "grad_norm": 25.375,
      "grad_norm_var": 7.5384765625,
      "learning_rate": 8.158793787539782e-05,
      "loss": 6.2016,
      "loss/crossentropy": 1.798877015709877,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1579480841755867,
      "step": 1695
    },
    {
      "epoch": 0.2826666666666667,
      "grad_norm": 25.375,
      "grad_norm_var": 7.5384765625,
      "learning_rate": 8.156763977246889e-05,
      "loss": 6.2518,
      "loss/crossentropy": 1.4084021598100662,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14755032770335674,
      "step": 1696
    },
    {
      "epoch": 0.2828333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 7.452018229166667,
      "learning_rate": 8.154733301509248e-05,
      "loss": 6.7187,
      "loss/crossentropy": 1.2295970767736435,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15269313007593155,
      "step": 1697
    },
    {
      "epoch": 0.283,
      "grad_norm": 28.375,
      "grad_norm_var": 7.264322916666667,
      "learning_rate": 8.152701760883581e-05,
      "loss": 6.7106,
      "loss/crossentropy": 1.2212089449167252,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10710981115698814,
      "step": 1698
    },
    {
      "epoch": 0.2831666666666667,
      "grad_norm": 27.0,
      "grad_norm_var": 6.882291666666666,
      "learning_rate": 8.150669355926846e-05,
      "loss": 6.5067,
      "loss/crossentropy": 1.7339929342269897,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17183758690953255,
      "step": 1699
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 28.625,
      "grad_norm_var": 6.933072916666666,
      "learning_rate": 8.148636087196237e-05,
      "loss": 6.8658,
      "loss/crossentropy": 2.0025227665901184,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1932712383568287,
      "step": 1700
    },
    {
      "epoch": 0.2835,
      "grad_norm": 26.375,
      "grad_norm_var": 6.955989583333333,
      "learning_rate": 8.146601955249188e-05,
      "loss": 6.5164,
      "loss/crossentropy": 1.7747209072113037,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17721500620245934,
      "step": 1701
    },
    {
      "epoch": 0.2836666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 6.366080729166667,
      "learning_rate": 8.144566960643367e-05,
      "loss": 6.445,
      "loss/crossentropy": 0.9415745139122009,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07015350181609392,
      "step": 1702
    },
    {
      "epoch": 0.2838333333333333,
      "grad_norm": 29.5,
      "grad_norm_var": 2.4530598958333334,
      "learning_rate": 8.142531103936678e-05,
      "loss": 6.6023,
      "loss/crossentropy": 1.7318656668066978,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1300593465566635,
      "step": 1703
    },
    {
      "epoch": 0.284,
      "grad_norm": 22.875,
      "grad_norm_var": 2.861458333333333,
      "learning_rate": 8.140494385687265e-05,
      "loss": 5.9511,
      "loss/crossentropy": 1.8381174504756927,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.162352429702878,
      "step": 1704
    },
    {
      "epoch": 0.2841666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 2.8692057291666666,
      "learning_rate": 8.138456806453503e-05,
      "loss": 6.4049,
      "loss/crossentropy": 1.34805366396904,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13075863756239414,
      "step": 1705
    },
    {
      "epoch": 0.2843333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 3.084830729166667,
      "learning_rate": 8.136418366794008e-05,
      "loss": 6.319,
      "loss/crossentropy": 1.459059625864029,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11154993809759617,
      "step": 1706
    },
    {
      "epoch": 0.2845,
      "grad_norm": 24.5,
      "grad_norm_var": 3.006705729166667,
      "learning_rate": 8.13437906726763e-05,
      "loss": 6.4387,
      "loss/crossentropy": 1.59040267765522,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1609763242304325,
      "step": 1707
    },
    {
      "epoch": 0.2846666666666667,
      "grad_norm": 26.25,
      "grad_norm_var": 2.851822916666667,
      "learning_rate": 8.132338908433454e-05,
      "loss": 6.3896,
      "loss/crossentropy": 0.9835031479597092,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1490474995225668,
      "step": 1708
    },
    {
      "epoch": 0.2848333333333333,
      "grad_norm": 28.125,
      "grad_norm_var": 3.003059895833333,
      "learning_rate": 8.130297890850802e-05,
      "loss": 6.7328,
      "loss/crossentropy": 1.6215149462223053,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19060637801885605,
      "step": 1709
    },
    {
      "epoch": 0.285,
      "grad_norm": 26.875,
      "grad_norm_var": 3.012434895833333,
      "learning_rate": 8.128256015079229e-05,
      "loss": 6.3302,
      "loss/crossentropy": 1.2029203176498413,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1370858997106552,
      "step": 1710
    },
    {
      "epoch": 0.2851666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 2.968489583333333,
      "learning_rate": 8.126213281678528e-05,
      "loss": 6.8607,
      "loss/crossentropy": 1.386208288371563,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21757697314023972,
      "step": 1711
    },
    {
      "epoch": 0.2853333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 2.968489583333333,
      "learning_rate": 8.124169691208723e-05,
      "loss": 6.4853,
      "loss/crossentropy": 2.022136479616165,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23764223605394363,
      "step": 1712
    },
    {
      "epoch": 0.2855,
      "grad_norm": 24.375,
      "grad_norm_var": 3.3082682291666665,
      "learning_rate": 8.122125244230079e-05,
      "loss": 6.0407,
      "loss/crossentropy": 1.2282831519842148,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16151340305805206,
      "step": 1713
    },
    {
      "epoch": 0.2856666666666667,
      "grad_norm": 26.25,
      "grad_norm_var": 3.0791666666666666,
      "learning_rate": 8.120079941303094e-05,
      "loss": 6.4671,
      "loss/crossentropy": 1.2770699262619019,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20052243396639824,
      "step": 1714
    },
    {
      "epoch": 0.28583333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 3.811393229166667,
      "learning_rate": 8.118033782988496e-05,
      "loss": 6.6145,
      "loss/crossentropy": 0.705689087510109,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07864415924996138,
      "step": 1715
    },
    {
      "epoch": 0.286,
      "grad_norm": 29.375,
      "grad_norm_var": 4.047330729166666,
      "learning_rate": 8.115986769847252e-05,
      "loss": 6.6003,
      "loss/crossentropy": 1.7134449481964111,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19462409429252148,
      "step": 1716
    },
    {
      "epoch": 0.2861666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 4.061458333333333,
      "learning_rate": 8.113938902440564e-05,
      "loss": 6.7364,
      "loss/crossentropy": 1.8991410434246063,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14321943186223507,
      "step": 1717
    },
    {
      "epoch": 0.28633333333333333,
      "grad_norm": 26.375,
      "grad_norm_var": 4.034309895833333,
      "learning_rate": 8.111890181329863e-05,
      "loss": 6.6163,
      "loss/crossentropy": 1.3636438250541687,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16221468150615692,
      "step": 1718
    },
    {
      "epoch": 0.2865,
      "grad_norm": 25.875,
      "grad_norm_var": 3.52265625,
      "learning_rate": 8.109840607076821e-05,
      "loss": 6.3513,
      "loss/crossentropy": 1.256602942943573,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20821137353777885,
      "step": 1719
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 25.875,
      "grad_norm_var": 2.62890625,
      "learning_rate": 8.107790180243338e-05,
      "loss": 6.6699,
      "loss/crossentropy": 1.7374268770217896,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16650890931487083,
      "step": 1720
    },
    {
      "epoch": 0.28683333333333333,
      "grad_norm": 25.25,
      "grad_norm_var": 2.756705729166667,
      "learning_rate": 8.105738901391552e-05,
      "loss": 6.488,
      "loss/crossentropy": 1.6735858917236328,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17187855020165443,
      "step": 1721
    },
    {
      "epoch": 0.287,
      "grad_norm": 27.5,
      "grad_norm_var": 2.3978515625,
      "learning_rate": 8.103686771083831e-05,
      "loss": 6.5816,
      "loss/crossentropy": 1.6326270401477814,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13067574799060822,
      "step": 1722
    },
    {
      "epoch": 0.2871666666666667,
      "grad_norm": 27.625,
      "grad_norm_var": 2.0479166666666666,
      "learning_rate": 8.101633789882781e-05,
      "loss": 6.2152,
      "loss/crossentropy": 1.4857535660266876,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15544962510466576,
      "step": 1723
    },
    {
      "epoch": 0.28733333333333333,
      "grad_norm": 28.0,
      "grad_norm_var": 2.064322916666667,
      "learning_rate": 8.099579958351235e-05,
      "loss": 6.4505,
      "loss/crossentropy": 1.534998044371605,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14404334872961044,
      "step": 1724
    },
    {
      "epoch": 0.2875,
      "grad_norm": 26.0,
      "grad_norm_var": 2.0587890625,
      "learning_rate": 8.097525277052264e-05,
      "loss": 6.1291,
      "loss/crossentropy": 1.4534046351909637,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1526658609509468,
      "step": 1725
    },
    {
      "epoch": 0.2876666666666667,
      "grad_norm": 27.625,
      "grad_norm_var": 2.0837890625,
      "learning_rate": 8.095469746549172e-05,
      "loss": 6.5274,
      "loss/crossentropy": 1.9695439636707306,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18964740447700024,
      "step": 1726
    },
    {
      "epoch": 0.28783333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 2.2223307291666665,
      "learning_rate": 8.093413367405489e-05,
      "loss": 6.5136,
      "loss/crossentropy": 1.164928138256073,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13709484552964568,
      "step": 1727
    },
    {
      "epoch": 0.288,
      "grad_norm": 27.25,
      "grad_norm_var": 2.1666666666666665,
      "learning_rate": 8.091356140184991e-05,
      "loss": 6.5013,
      "loss/crossentropy": 0.9563533067703247,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1406487450003624,
      "step": 1728
    },
    {
      "epoch": 0.2881666666666667,
      "grad_norm": 26.25,
      "grad_norm_var": 1.7613932291666667,
      "learning_rate": 8.089298065451672e-05,
      "loss": 6.4944,
      "loss/crossentropy": 1.8267393708229065,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24176055938005447,
      "step": 1729
    },
    {
      "epoch": 0.28833333333333333,
      "grad_norm": 27.0,
      "grad_norm_var": 1.7223307291666667,
      "learning_rate": 8.087239143769768e-05,
      "loss": 6.2706,
      "loss/crossentropy": 1.5068450272083282,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17829317040741444,
      "step": 1730
    },
    {
      "epoch": 0.2885,
      "grad_norm": 26.875,
      "grad_norm_var": 1.1504557291666666,
      "learning_rate": 8.085179375703744e-05,
      "loss": 6.3447,
      "loss/crossentropy": 0.6840021386742592,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09808410704135895,
      "step": 1731
    },
    {
      "epoch": 0.2886666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 0.7268229166666667,
      "learning_rate": 8.083118761818295e-05,
      "loss": 6.2977,
      "loss/crossentropy": 1.4680070132017136,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2003943156450987,
      "step": 1732
    },
    {
      "epoch": 0.28883333333333333,
      "grad_norm": 27.0,
      "grad_norm_var": 0.7104166666666667,
      "learning_rate": 8.081057302678352e-05,
      "loss": 6.4703,
      "loss/crossentropy": 1.6793077364563942,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12762292474508286,
      "step": 1733
    },
    {
      "epoch": 0.289,
      "grad_norm": 27.0,
      "grad_norm_var": 0.7139973958333333,
      "learning_rate": 8.078994998849076e-05,
      "loss": 6.0544,
      "loss/crossentropy": 1.674924522638321,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12003491073846817,
      "step": 1734
    },
    {
      "epoch": 0.2891666666666667,
      "grad_norm": 26.5,
      "grad_norm_var": 0.67265625,
      "learning_rate": 8.076931850895859e-05,
      "loss": 6.761,
      "loss/crossentropy": 1.4618712961673737,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13911530375480652,
      "step": 1735
    },
    {
      "epoch": 0.28933333333333333,
      "grad_norm": 29.625,
      "grad_norm_var": 1.1375,
      "learning_rate": 8.074867859384322e-05,
      "loss": 6.864,
      "loss/crossentropy": 1.2650126516819,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12331366911530495,
      "step": 1736
    },
    {
      "epoch": 0.2895,
      "grad_norm": 26.25,
      "grad_norm_var": 0.975,
      "learning_rate": 8.072803024880322e-05,
      "loss": 6.4534,
      "loss/crossentropy": 1.5010119080543518,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12273932807147503,
      "step": 1737
    },
    {
      "epoch": 0.2896666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 1.2643229166666667,
      "learning_rate": 8.070737347949947e-05,
      "loss": 6.5734,
      "loss/crossentropy": 1.2331020385026932,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14210047386586666,
      "step": 1738
    },
    {
      "epoch": 0.28983333333333333,
      "grad_norm": 27.5,
      "grad_norm_var": 1.2520182291666666,
      "learning_rate": 8.068670829159511e-05,
      "loss": 6.5426,
      "loss/crossentropy": 2.061487466096878,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18562847934663296,
      "step": 1739
    },
    {
      "epoch": 0.29,
      "grad_norm": 26.625,
      "grad_norm_var": 1.15390625,
      "learning_rate": 8.066603469075564e-05,
      "loss": 6.9365,
      "loss/crossentropy": 1.7315274775028229,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18126662634313107,
      "step": 1740
    },
    {
      "epoch": 0.2901666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 1.14765625,
      "learning_rate": 8.064535268264883e-05,
      "loss": 6.6233,
      "loss/crossentropy": 1.6371970251202583,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23528031632304192,
      "step": 1741
    },
    {
      "epoch": 0.29033333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 1.14765625,
      "learning_rate": 8.062466227294477e-05,
      "loss": 6.7399,
      "loss/crossentropy": 1.3356368094682693,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23707100003957748,
      "step": 1742
    },
    {
      "epoch": 0.2905,
      "grad_norm": 27.25,
      "grad_norm_var": 1.0291666666666666,
      "learning_rate": 8.060396346731587e-05,
      "loss": 6.8194,
      "loss/crossentropy": 1.7589203417301178,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16239910200238228,
      "step": 1743
    },
    {
      "epoch": 0.2906666666666667,
      "grad_norm": 28.875,
      "grad_norm_var": 1.2619140625,
      "learning_rate": 8.058325627143681e-05,
      "loss": 6.4502,
      "loss/crossentropy": 1.591295599937439,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19966844655573368,
      "step": 1744
    },
    {
      "epoch": 0.29083333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 1.2619140625,
      "learning_rate": 8.056254069098459e-05,
      "loss": 6.463,
      "loss/crossentropy": 1.9710794389247894,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16523264348506927,
      "step": 1745
    },
    {
      "epoch": 0.291,
      "grad_norm": 26.5,
      "grad_norm_var": 1.2801432291666666,
      "learning_rate": 8.05418167316385e-05,
      "loss": 6.6769,
      "loss/crossentropy": 1.5565124452114105,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19607799127697945,
      "step": 1746
    },
    {
      "epoch": 0.2911666666666667,
      "grad_norm": 28.125,
      "grad_norm_var": 1.3556640625,
      "learning_rate": 8.052108439908013e-05,
      "loss": 6.7603,
      "loss/crossentropy": 1.780187577009201,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15015039592981339,
      "step": 1747
    },
    {
      "epoch": 0.29133333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 1.271875,
      "learning_rate": 8.050034369899337e-05,
      "loss": 6.5149,
      "loss/crossentropy": 1.2236396819353104,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11750190891325474,
      "step": 1748
    },
    {
      "epoch": 0.2915,
      "grad_norm": 27.5,
      "grad_norm_var": 1.2770833333333333,
      "learning_rate": 8.04795946370644e-05,
      "loss": 6.6239,
      "loss/crossentropy": 1.2788297533988953,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13053389266133308,
      "step": 1749
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 1.2952473958333333,
      "learning_rate": 8.04588372189817e-05,
      "loss": 5.9622,
      "loss/crossentropy": 1.1857105791568756,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16278855875134468,
      "step": 1750
    },
    {
      "epoch": 0.29183333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 1.2822265625,
      "learning_rate": 8.043807145043604e-05,
      "loss": 6.3428,
      "loss/crossentropy": 1.0286138355731964,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.162134924903512,
      "step": 1751
    },
    {
      "epoch": 0.292,
      "grad_norm": 24.625,
      "grad_norm_var": 1.2561848958333333,
      "learning_rate": 8.041729733712045e-05,
      "loss": 6.3891,
      "loss/crossentropy": 1.474233716726303,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18093383312225342,
      "step": 1752
    },
    {
      "epoch": 0.2921666666666667,
      "grad_norm": 26.125,
      "grad_norm_var": 1.2684895833333334,
      "learning_rate": 8.039651488473028e-05,
      "loss": 6.6086,
      "loss/crossentropy": 1.9393830597400665,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16801822558045387,
      "step": 1753
    },
    {
      "epoch": 0.29233333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 1.2684895833333334,
      "learning_rate": 8.037572409896315e-05,
      "loss": 6.0165,
      "loss/crossentropy": 1.1125195175409317,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14247208461165428,
      "step": 1754
    },
    {
      "epoch": 0.2925,
      "grad_norm": 24.0,
      "grad_norm_var": 1.7643229166666667,
      "learning_rate": 8.0354924985519e-05,
      "loss": 6.1801,
      "loss/crossentropy": 1.8784036189317703,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13121195137500763,
      "step": 1755
    },
    {
      "epoch": 0.2926666666666667,
      "grad_norm": 25.375,
      "grad_norm_var": 1.875,
      "learning_rate": 8.033411755009999e-05,
      "loss": 6.0551,
      "loss/crossentropy": 1.4668779373168945,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12251794151961803,
      "step": 1756
    },
    {
      "epoch": 0.29283333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 1.82265625,
      "learning_rate": 8.031330179841062e-05,
      "loss": 6.2527,
      "loss/crossentropy": 0.960818275809288,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09816616401076317,
      "step": 1757
    },
    {
      "epoch": 0.293,
      "grad_norm": 29.625,
      "grad_norm_var": 2.351822916666667,
      "learning_rate": 8.029247773615764e-05,
      "loss": 6.7504,
      "loss/crossentropy": 1.881619244813919,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1748347170650959,
      "step": 1758
    },
    {
      "epoch": 0.2931666666666667,
      "grad_norm": 28.75,
      "grad_norm_var": 2.601822916666667,
      "learning_rate": 8.027164536905008e-05,
      "loss": 6.5377,
      "loss/crossentropy": 1.3765027970075607,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13398028910160065,
      "step": 1759
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 27.25,
      "grad_norm_var": 2.3166015625,
      "learning_rate": 8.025080470279924e-05,
      "loss": 6.656,
      "loss/crossentropy": 2.0068330615758896,
      "loss/hidden": 3.69140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21021978929638863,
      "step": 1760
    },
    {
      "epoch": 0.2935,
      "grad_norm": 27.5,
      "grad_norm_var": 2.3400390625,
      "learning_rate": 8.022995574311876e-05,
      "loss": 6.8367,
      "loss/crossentropy": 1.4760197699069977,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23727067932486534,
      "step": 1761
    },
    {
      "epoch": 0.2936666666666667,
      "grad_norm": 27.5,
      "grad_norm_var": 2.366080729166667,
      "learning_rate": 8.020909849572444e-05,
      "loss": 6.2134,
      "loss/crossentropy": 2.564862221479416,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1808963194489479,
      "step": 1762
    },
    {
      "epoch": 0.29383333333333334,
      "grad_norm": 28.625,
      "grad_norm_var": 2.467643229166667,
      "learning_rate": 8.018823296633441e-05,
      "loss": 6.9278,
      "loss/crossentropy": 1.4544070810079575,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2306374479085207,
      "step": 1763
    },
    {
      "epoch": 0.294,
      "grad_norm": 29.0,
      "grad_norm_var": 2.751822916666667,
      "learning_rate": 8.016735916066913e-05,
      "loss": 6.6822,
      "loss/crossentropy": 1.4069459438323975,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18433349765837193,
      "step": 1764
    },
    {
      "epoch": 0.2941666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 3.8354166666666667,
      "learning_rate": 8.014647708445124e-05,
      "loss": 5.9026,
      "loss/crossentropy": 1.4110225439071655,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14669842272996902,
      "step": 1765
    },
    {
      "epoch": 0.29433333333333334,
      "grad_norm": 27.375,
      "grad_norm_var": 3.8643229166666666,
      "learning_rate": 8.012558674340566e-05,
      "loss": 6.2119,
      "loss/crossentropy": 1.3153589367866516,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14798353984951973,
      "step": 1766
    },
    {
      "epoch": 0.2945,
      "grad_norm": 27.625,
      "grad_norm_var": 3.848372395833333,
      "learning_rate": 8.010468814325964e-05,
      "loss": 6.7078,
      "loss/crossentropy": 1.047652706503868,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14315370097756386,
      "step": 1767
    },
    {
      "epoch": 0.2946666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 3.5978515625,
      "learning_rate": 8.008378128974262e-05,
      "loss": 6.7981,
      "loss/crossentropy": 1.613780677318573,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25304109044373035,
      "step": 1768
    },
    {
      "epoch": 0.29483333333333334,
      "grad_norm": 24.375,
      "grad_norm_var": 3.9770182291666667,
      "learning_rate": 8.006286618858635e-05,
      "loss": 6.1878,
      "loss/crossentropy": 1.6416444182395935,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13193977810442448,
      "step": 1769
    },
    {
      "epoch": 0.295,
      "grad_norm": 23.75,
      "grad_norm_var": 4.315559895833333,
      "learning_rate": 8.004194284552477e-05,
      "loss": 6.2519,
      "loss/crossentropy": 1.581135168671608,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11294459365308285,
      "step": 1770
    },
    {
      "epoch": 0.2951666666666667,
      "grad_norm": 32.5,
      "grad_norm_var": 5.7056640625,
      "learning_rate": 8.002101126629421e-05,
      "loss": 7.1182,
      "loss/crossentropy": 2.08039990067482,
      "loss/hidden": 3.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.257803812623024,
      "step": 1771
    },
    {
      "epoch": 0.29533333333333334,
      "grad_norm": 26.5,
      "grad_norm_var": 5.49765625,
      "learning_rate": 8.000007145663312e-05,
      "loss": 6.5124,
      "loss/crossentropy": 1.7909472584724426,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21027473732829094,
      "step": 1772
    },
    {
      "epoch": 0.2955,
      "grad_norm": 27.0,
      "grad_norm_var": 5.48125,
      "learning_rate": 7.997912342228232e-05,
      "loss": 6.5355,
      "loss/crossentropy": 1.297078013420105,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1581488400697708,
      "step": 1773
    },
    {
      "epoch": 0.2956666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 5.1384765625,
      "learning_rate": 7.99581671689848e-05,
      "loss": 6.2334,
      "loss/crossentropy": 1.3412351608276367,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2025449462234974,
      "step": 1774
    },
    {
      "epoch": 0.29583333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 6.2978515625,
      "learning_rate": 7.993720270248584e-05,
      "loss": 6.4776,
      "loss/crossentropy": 1.4673235714435577,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1532964836806059,
      "step": 1775
    },
    {
      "epoch": 0.296,
      "grad_norm": 29.0,
      "grad_norm_var": 6.443684895833333,
      "learning_rate": 7.991623002853296e-05,
      "loss": 6.469,
      "loss/crossentropy": 1.1405130997300148,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1286987140774727,
      "step": 1776
    },
    {
      "epoch": 0.2961666666666667,
      "grad_norm": 29.0,
      "grad_norm_var": 6.573372395833333,
      "learning_rate": 7.989524915287595e-05,
      "loss": 7.0811,
      "loss/crossentropy": 1.386097103357315,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16061494871973991,
      "step": 1777
    },
    {
      "epoch": 0.29633333333333334,
      "grad_norm": 26.125,
      "grad_norm_var": 6.71875,
      "learning_rate": 7.987426008126683e-05,
      "loss": 6.0542,
      "loss/crossentropy": 1.760521948337555,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18958137556910515,
      "step": 1778
    },
    {
      "epoch": 0.2965,
      "grad_norm": 27.875,
      "grad_norm_var": 6.64765625,
      "learning_rate": 7.985326281945989e-05,
      "loss": 6.9317,
      "loss/crossentropy": 1.645604282617569,
      "loss/hidden": 3.80078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.32877641171216965,
      "step": 1779
    },
    {
      "epoch": 0.2966666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 7.069205729166667,
      "learning_rate": 7.983225737321163e-05,
      "loss": 6.0512,
      "loss/crossentropy": 1.0108902752399445,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14840376935899258,
      "step": 1780
    },
    {
      "epoch": 0.29683333333333334,
      "grad_norm": 26.625,
      "grad_norm_var": 5.694791666666666,
      "learning_rate": 7.98112437482808e-05,
      "loss": 6.6746,
      "loss/crossentropy": 1.5815895348787308,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19548891857266426,
      "step": 1781
    },
    {
      "epoch": 0.297,
      "grad_norm": 28.625,
      "grad_norm_var": 5.776822916666666,
      "learning_rate": 7.979022195042842e-05,
      "loss": 6.7206,
      "loss/crossentropy": 1.7035427242517471,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1873407606035471,
      "step": 1782
    },
    {
      "epoch": 0.2971666666666667,
      "grad_norm": 28.625,
      "grad_norm_var": 5.849739583333333,
      "learning_rate": 7.976919198541776e-05,
      "loss": 6.5586,
      "loss/crossentropy": 1.5671730041503906,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16458377614617348,
      "step": 1783
    },
    {
      "epoch": 0.29733333333333334,
      "grad_norm": 28.125,
      "grad_norm_var": 5.8625,
      "learning_rate": 7.974815385901426e-05,
      "loss": 6.5158,
      "loss/crossentropy": 1.3500420153141022,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13635024055838585,
      "step": 1784
    },
    {
      "epoch": 0.2975,
      "grad_norm": 24.125,
      "grad_norm_var": 5.974739583333333,
      "learning_rate": 7.972710757698567e-05,
      "loss": 6.0873,
      "loss/crossentropy": 1.2957044690847397,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09067535400390625,
      "step": 1785
    },
    {
      "epoch": 0.2976666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 5.623958333333333,
      "learning_rate": 7.970605314510194e-05,
      "loss": 6.2344,
      "loss/crossentropy": 1.358672022819519,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.239708811044693,
      "step": 1786
    },
    {
      "epoch": 0.29783333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 5.268489583333333,
      "learning_rate": 7.968499056913524e-05,
      "loss": 6.0454,
      "loss/crossentropy": 1.1282762587070465,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09060000814497471,
      "step": 1787
    },
    {
      "epoch": 0.298,
      "grad_norm": 25.125,
      "grad_norm_var": 5.4869140625,
      "learning_rate": 7.966391985486003e-05,
      "loss": 6.6858,
      "loss/crossentropy": 1.781815230846405,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18372655287384987,
      "step": 1788
    },
    {
      "epoch": 0.2981666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 5.544205729166666,
      "learning_rate": 7.964284100805297e-05,
      "loss": 6.735,
      "loss/crossentropy": 1.3905943930149078,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23225440457463264,
      "step": 1789
    },
    {
      "epoch": 0.29833333333333334,
      "grad_norm": 24.625,
      "grad_norm_var": 5.799739583333333,
      "learning_rate": 7.96217540344929e-05,
      "loss": 6.2843,
      "loss/crossentropy": 1.9590551406145096,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18367251940071583,
      "step": 1790
    },
    {
      "epoch": 0.2985,
      "grad_norm": 27.875,
      "grad_norm_var": 4.1306640625,
      "learning_rate": 7.960065893996098e-05,
      "loss": 6.3292,
      "loss/crossentropy": 1.605180263519287,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18637590110301971,
      "step": 1791
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 3.715625,
      "learning_rate": 7.957955573024052e-05,
      "loss": 6.2751,
      "loss/crossentropy": 1.7973419725894928,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14722765982151031,
      "step": 1792
    },
    {
      "epoch": 0.29883333333333334,
      "grad_norm": 26.0,
      "grad_norm_var": 3.215625,
      "learning_rate": 7.95584444111171e-05,
      "loss": 6.6446,
      "loss/crossentropy": 1.5896763503551483,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1403478067368269,
      "step": 1793
    },
    {
      "epoch": 0.299,
      "grad_norm": 27.5,
      "grad_norm_var": 3.3280598958333334,
      "learning_rate": 7.95373249883785e-05,
      "loss": 6.5739,
      "loss/crossentropy": 1.9001854956150055,
      "loss/hidden": 3.640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22470081970095634,
      "step": 1794
    },
    {
      "epoch": 0.2991666666666667,
      "grad_norm": 6408896512.0,
      "grad_norm_var": 2.5671221354096317e+18,
      "learning_rate": 7.951619746781474e-05,
      "loss": 7.1923,
      "loss/crossentropy": 2.1498090028762817,
      "loss/hidden": 6.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32943011447787285,
      "step": 1795
    },
    {
      "epoch": 0.29933333333333334,
      "grad_norm": 34.25,
      "grad_norm_var": 2.567122134882233e+18,
      "learning_rate": 7.949506185521802e-05,
      "loss": 6.7547,
      "loss/crossentropy": 1.0805221498012543,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1237840848043561,
      "step": 1796
    },
    {
      "epoch": 0.2995,
      "grad_norm": 31.0,
      "grad_norm_var": 2.5671221346485755e+18,
      "learning_rate": 7.947391815638284e-05,
      "loss": 6.6611,
      "loss/crossentropy": 2.0383740961551666,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17835279554128647,
      "step": 1797
    },
    {
      "epoch": 0.2996666666666667,
      "grad_norm": 26.25,
      "grad_norm_var": 2.567122134775418e+18,
      "learning_rate": 7.945276637710582e-05,
      "loss": 6.4153,
      "loss/crossentropy": 1.6993253529071808,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3014073744416237,
      "step": 1798
    },
    {
      "epoch": 0.29983333333333334,
      "grad_norm": 25.75,
      "grad_norm_var": 2.5671221349289646e+18,
      "learning_rate": 7.943160652318585e-05,
      "loss": 6.3668,
      "loss/crossentropy": 1.5742650628089905,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16767333820462227,
      "step": 1799
    },
    {
      "epoch": 0.3,
      "grad_norm": 27.25,
      "grad_norm_var": 2.567122134975696e+18,
      "learning_rate": 7.941043860042403e-05,
      "loss": 6.331,
      "loss/crossentropy": 1.8069534599781036,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24792053177952766,
      "step": 1800
    },
    {
      "epoch": 0.3001666666666667,
      "grad_norm": 23.625,
      "grad_norm_var": 2.5671221350024e+18,
      "learning_rate": 7.938926261462366e-05,
      "loss": 6.2342,
      "loss/crossentropy": 1.0832974091172218,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10927399434149265,
      "step": 1801
    },
    {
      "epoch": 0.30033333333333334,
      "grad_norm": 26.375,
      "grad_norm_var": 2.5671221349022607e+18,
      "learning_rate": 7.936807857159026e-05,
      "loss": 6.7035,
      "loss/crossentropy": 1.6718868017196655,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16467371210455894,
      "step": 1802
    },
    {
      "epoch": 0.3005,
      "grad_norm": 27.5,
      "grad_norm_var": 2.5671221346485755e+18,
      "learning_rate": 7.934688647713158e-05,
      "loss": 6.8929,
      "loss/crossentropy": 2.2081165313720703,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.17353184521198273,
      "step": 1803
    },
    {
      "epoch": 0.3006666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 2.567122134668603e+18,
      "learning_rate": 7.932568633705752e-05,
      "loss": 6.3388,
      "loss/crossentropy": 0.8409457728266716,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08156785555183887,
      "step": 1804
    },
    {
      "epoch": 0.30083333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 2.5671221348622054e+18,
      "learning_rate": 7.930447815718022e-05,
      "loss": 6.1252,
      "loss/crossentropy": 1.269652098417282,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12972666136920452,
      "step": 1805
    },
    {
      "epoch": 0.301,
      "grad_norm": 28.0,
      "grad_norm_var": 2.567122134681955e+18,
      "learning_rate": 7.928326194331404e-05,
      "loss": 6.2914,
      "loss/crossentropy": 0.919536791741848,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1664884351193905,
      "step": 1806
    },
    {
      "epoch": 0.3011666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 2.5671221348622054e+18,
      "learning_rate": 7.926203770127552e-05,
      "loss": 6.57,
      "loss/crossentropy": 1.2009000331163406,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12875444488599896,
      "step": 1807
    },
    {
      "epoch": 0.30133333333333334,
      "grad_norm": 28.625,
      "grad_norm_var": 2.567122134782094e+18,
      "learning_rate": 7.924080543688337e-05,
      "loss": 6.5496,
      "loss/crossentropy": 1.196403868496418,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14112555235624313,
      "step": 1808
    },
    {
      "epoch": 0.3015,
      "grad_norm": 27.875,
      "grad_norm_var": 2.567122134681955e+18,
      "learning_rate": 7.921956515595861e-05,
      "loss": 6.6477,
      "loss/crossentropy": 1.5183096826076508,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25990092381834984,
      "step": 1809
    },
    {
      "epoch": 0.3016666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 2.5671221347153347e+18,
      "learning_rate": 7.919831686432433e-05,
      "loss": 6.8476,
      "loss/crossentropy": 1.5886277109384537,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18553652241826057,
      "step": 1810
    },
    {
      "epoch": 0.30183333333333334,
      "grad_norm": 24.75,
      "grad_norm_var": 8.31015625,
      "learning_rate": 7.917706056780587e-05,
      "loss": 6.238,
      "loss/crossentropy": 1.0148934796452522,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09379838779568672,
      "step": 1811
    },
    {
      "epoch": 0.302,
      "grad_norm": 24.75,
      "grad_norm_var": 4.589322916666666,
      "learning_rate": 7.915579627223079e-05,
      "loss": 6.6423,
      "loss/crossentropy": 1.0143003314733505,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10569844581186771,
      "step": 1812
    },
    {
      "epoch": 0.30216666666666664,
      "grad_norm": 24.25,
      "grad_norm_var": 3.176041666666667,
      "learning_rate": 7.913452398342881e-05,
      "loss": 6.4593,
      "loss/crossentropy": 1.60957869887352,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17155874334275723,
      "step": 1813
    },
    {
      "epoch": 0.30233333333333334,
      "grad_norm": 25.625,
      "grad_norm_var": 3.1666015625,
      "learning_rate": 7.911324370723183e-05,
      "loss": 6.1152,
      "loss/crossentropy": 1.5737018585205078,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17441192269325256,
      "step": 1814
    },
    {
      "epoch": 0.3025,
      "grad_norm": 27.875,
      "grad_norm_var": 3.433333333333333,
      "learning_rate": 7.909195544947398e-05,
      "loss": 6.6598,
      "loss/crossentropy": 1.7213964462280273,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2511589825153351,
      "step": 1815
    },
    {
      "epoch": 0.30266666666666664,
      "grad_norm": 26.25,
      "grad_norm_var": 3.3208333333333333,
      "learning_rate": 7.907065921599154e-05,
      "loss": 6.5811,
      "loss/crossentropy": 1.8362173736095428,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19294562935829163,
      "step": 1816
    },
    {
      "epoch": 0.30283333333333334,
      "grad_norm": 27.625,
      "grad_norm_var": 3.120833333333333,
      "learning_rate": 7.9049355012623e-05,
      "loss": 6.435,
      "loss/crossentropy": 1.4664649963378906,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16518542543053627,
      "step": 1817
    },
    {
      "epoch": 0.303,
      "grad_norm": 24.125,
      "grad_norm_var": 3.3622395833333334,
      "learning_rate": 7.902804284520903e-05,
      "loss": 6.2792,
      "loss/crossentropy": 2.1789761781692505,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1664630975574255,
      "step": 1818
    },
    {
      "epoch": 0.30316666666666664,
      "grad_norm": 28.125,
      "grad_norm_var": 3.512955729166667,
      "learning_rate": 7.900672271959247e-05,
      "loss": 6.821,
      "loss/crossentropy": 2.0341483652591705,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2923608161509037,
      "step": 1819
    },
    {
      "epoch": 0.30333333333333334,
      "grad_norm": 27.0,
      "grad_norm_var": 3.4473307291666666,
      "learning_rate": 7.898539464161838e-05,
      "loss": 6.6761,
      "loss/crossentropy": 1.9393551647663116,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25565091148018837,
      "step": 1820
    },
    {
      "epoch": 0.3035,
      "grad_norm": 26.875,
      "grad_norm_var": 2.4395182291666666,
      "learning_rate": 7.896405861713394e-05,
      "loss": 6.3848,
      "loss/crossentropy": 1.046747848391533,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12378543987870216,
      "step": 1821
    },
    {
      "epoch": 0.30366666666666664,
      "grad_norm": 27.125,
      "grad_norm_var": 2.3059895833333335,
      "learning_rate": 7.894271465198857e-05,
      "loss": 6.6549,
      "loss/crossentropy": 1.3154726698994637,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12605149671435356,
      "step": 1822
    },
    {
      "epoch": 0.30383333333333334,
      "grad_norm": 25.125,
      "grad_norm_var": 2.1728515625,
      "learning_rate": 7.892136275203383e-05,
      "loss": 6.224,
      "loss/crossentropy": 1.3829431384801865,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11828980594873428,
      "step": 1823
    },
    {
      "epoch": 0.304,
      "grad_norm": 28.0,
      "grad_norm_var": 2.0143229166666665,
      "learning_rate": 7.890000292312346e-05,
      "loss": 6.3587,
      "loss/crossentropy": 0.8525128811597824,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08960277959704399,
      "step": 1824
    },
    {
      "epoch": 0.30416666666666664,
      "grad_norm": 26.25,
      "grad_norm_var": 1.8577473958333333,
      "learning_rate": 7.887863517111338e-05,
      "loss": 6.5897,
      "loss/crossentropy": 1.4181907325983047,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17713713832199574,
      "step": 1825
    },
    {
      "epoch": 0.30433333333333334,
      "grad_norm": 29.375,
      "grad_norm_var": 2.4436848958333335,
      "learning_rate": 7.88572595018617e-05,
      "loss": 6.8242,
      "loss/crossentropy": 1.2928383871912956,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12669945321977139,
      "step": 1826
    },
    {
      "epoch": 0.3045,
      "grad_norm": 25.875,
      "grad_norm_var": 2.2684895833333334,
      "learning_rate": 7.883587592122863e-05,
      "loss": 6.2948,
      "loss/crossentropy": 1.237380012869835,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1380482241511345,
      "step": 1827
    },
    {
      "epoch": 0.30466666666666664,
      "grad_norm": 25.625,
      "grad_norm_var": 2.1103515625,
      "learning_rate": 7.881448443507664e-05,
      "loss": 6.3056,
      "loss/crossentropy": 1.4298370033502579,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19418893568217754,
      "step": 1828
    },
    {
      "epoch": 0.30483333333333335,
      "grad_norm": 25.75,
      "grad_norm_var": 1.7869140625,
      "learning_rate": 7.879308504927035e-05,
      "loss": 6.4656,
      "loss/crossentropy": 2.142209440469742,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29572315886616707,
      "step": 1829
    },
    {
      "epoch": 0.305,
      "grad_norm": 26.125,
      "grad_norm_var": 1.7332682291666666,
      "learning_rate": 7.877167776967645e-05,
      "loss": 6.7122,
      "loss/crossentropy": 1.8007521629333496,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20245215110480785,
      "step": 1830
    },
    {
      "epoch": 0.30516666666666664,
      "grad_norm": 27.0,
      "grad_norm_var": 1.6434895833333334,
      "learning_rate": 7.875026260216393e-05,
      "loss": 6.3127,
      "loss/crossentropy": 1.238753080368042,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15646503865718842,
      "step": 1831
    },
    {
      "epoch": 0.30533333333333335,
      "grad_norm": 25.375,
      "grad_norm_var": 1.7369140625,
      "learning_rate": 7.872883955260387e-05,
      "loss": 6.3482,
      "loss/crossentropy": 2.4605717062950134,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17422811686992645,
      "step": 1832
    },
    {
      "epoch": 0.3055,
      "grad_norm": 27.0,
      "grad_norm_var": 1.6747395833333334,
      "learning_rate": 7.87074086268695e-05,
      "loss": 6.7203,
      "loss/crossentropy": 1.5636233538389206,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1645506266504526,
      "step": 1833
    },
    {
      "epoch": 0.30566666666666664,
      "grad_norm": 25.25,
      "grad_norm_var": 1.3905598958333334,
      "learning_rate": 7.868596983083623e-05,
      "loss": 6.2717,
      "loss/crossentropy": 1.3363309055566788,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16017024964094162,
      "step": 1834
    },
    {
      "epoch": 0.30583333333333335,
      "grad_norm": 25.75,
      "grad_norm_var": 1.265625,
      "learning_rate": 7.866452317038164e-05,
      "loss": 6.4717,
      "loss/crossentropy": 1.3597393333911896,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24192249029874802,
      "step": 1835
    },
    {
      "epoch": 0.306,
      "grad_norm": 26.0,
      "grad_norm_var": 1.2572916666666667,
      "learning_rate": 7.864306865138545e-05,
      "loss": 6.3713,
      "loss/crossentropy": 2.0953482687473297,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17437477968633175,
      "step": 1836
    },
    {
      "epoch": 0.30616666666666664,
      "grad_norm": 23.5,
      "grad_norm_var": 1.7582682291666667,
      "learning_rate": 7.862160627972955e-05,
      "loss": 6.0975,
      "loss/crossentropy": 1.5605383813381195,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1994226761162281,
      "step": 1837
    },
    {
      "epoch": 0.30633333333333335,
      "grad_norm": 28.5,
      "grad_norm_var": 2.046875,
      "learning_rate": 7.860013606129796e-05,
      "loss": 6.5668,
      "loss/crossentropy": 1.7478504478931427,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14831626787781715,
      "step": 1838
    },
    {
      "epoch": 0.3065,
      "grad_norm": 25.0,
      "grad_norm_var": 2.067122395833333,
      "learning_rate": 7.857865800197684e-05,
      "loss": 6.4458,
      "loss/crossentropy": 1.0507306307554245,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13380114827305079,
      "step": 1839
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 25.5,
      "grad_norm_var": 1.8822265625,
      "learning_rate": 7.855717210765456e-05,
      "loss": 6.455,
      "loss/crossentropy": 1.7240546941757202,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20109525695443153,
      "step": 1840
    },
    {
      "epoch": 0.30683333333333335,
      "grad_norm": 27.75,
      "grad_norm_var": 2.0494140625,
      "learning_rate": 7.85356783842216e-05,
      "loss": 6.6225,
      "loss/crossentropy": 1.9693889617919922,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21837937459349632,
      "step": 1841
    },
    {
      "epoch": 0.307,
      "grad_norm": 25.625,
      "grad_norm_var": 1.3462890625,
      "learning_rate": 7.851417683757053e-05,
      "loss": 6.4929,
      "loss/crossentropy": 1.919701337814331,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.15016796812415123,
      "step": 1842
    },
    {
      "epoch": 0.30716666666666664,
      "grad_norm": 26.5,
      "grad_norm_var": 1.3622395833333334,
      "learning_rate": 7.849266747359619e-05,
      "loss": 6.8308,
      "loss/crossentropy": 1.6118244975805283,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20529415644705296,
      "step": 1843
    },
    {
      "epoch": 0.30733333333333335,
      "grad_norm": 25.0,
      "grad_norm_var": 1.4192057291666667,
      "learning_rate": 7.847115029819547e-05,
      "loss": 6.4478,
      "loss/crossentropy": 1.3020363003015518,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12500270456075668,
      "step": 1844
    },
    {
      "epoch": 0.3075,
      "grad_norm": 26.5,
      "grad_norm_var": 1.4317057291666666,
      "learning_rate": 7.84496253172674e-05,
      "loss": 6.7033,
      "loss/crossentropy": 1.2071290761232376,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16696172766387463,
      "step": 1845
    },
    {
      "epoch": 0.30766666666666664,
      "grad_norm": 25.25,
      "grad_norm_var": 1.4677083333333334,
      "learning_rate": 7.84280925367132e-05,
      "loss": 6.5151,
      "loss/crossentropy": 1.4631052911281586,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18882737681269646,
      "step": 1846
    },
    {
      "epoch": 0.30783333333333335,
      "grad_norm": 28.0,
      "grad_norm_var": 1.6677083333333333,
      "learning_rate": 7.84065519624362e-05,
      "loss": 7.026,
      "loss/crossentropy": 2.259757697582245,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.192843746393919,
      "step": 1847
    },
    {
      "epoch": 0.308,
      "grad_norm": 26.625,
      "grad_norm_var": 1.6559895833333333,
      "learning_rate": 7.838500360034188e-05,
      "loss": 6.1788,
      "loss/crossentropy": 1.2726633250713348,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1777363307774067,
      "step": 1848
    },
    {
      "epoch": 0.30816666666666664,
      "grad_norm": 23.625,
      "grad_norm_var": 1.9671223958333333,
      "learning_rate": 7.836344745633783e-05,
      "loss": 6.3957,
      "loss/crossentropy": 1.7389848679304123,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16802443750202656,
      "step": 1849
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 26.0,
      "grad_norm_var": 1.9374348958333334,
      "learning_rate": 7.83418835363338e-05,
      "loss": 6.6081,
      "loss/crossentropy": 1.580287128686905,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17671324871480465,
      "step": 1850
    },
    {
      "epoch": 0.3085,
      "grad_norm": 24.25,
      "grad_norm_var": 2.1171223958333334,
      "learning_rate": 7.832031184624164e-05,
      "loss": 6.0687,
      "loss/crossentropy": 1.1475929617881775,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.126324862241745,
      "step": 1851
    },
    {
      "epoch": 0.30866666666666664,
      "grad_norm": 26.625,
      "grad_norm_var": 2.15390625,
      "learning_rate": 7.829873239197538e-05,
      "loss": 6.6017,
      "loss/crossentropy": 2.1429725289344788,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23913269490003586,
      "step": 1852
    },
    {
      "epoch": 0.30883333333333335,
      "grad_norm": 26.0,
      "grad_norm_var": 1.74765625,
      "learning_rate": 7.827714517945115e-05,
      "loss": 6.771,
      "loss/crossentropy": 1.3311758264899254,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12895291671156883,
      "step": 1853
    },
    {
      "epoch": 0.309,
      "grad_norm": 27.125,
      "grad_norm_var": 1.4160807291666666,
      "learning_rate": 7.825555021458716e-05,
      "loss": 6.7071,
      "loss/crossentropy": 1.272746354341507,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21288197487592697,
      "step": 1854
    },
    {
      "epoch": 0.30916666666666665,
      "grad_norm": 25.625,
      "grad_norm_var": 1.3604166666666666,
      "learning_rate": 7.823394750330387e-05,
      "loss": 6.6636,
      "loss/crossentropy": 2.123755916953087,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14926998503506184,
      "step": 1855
    },
    {
      "epoch": 0.30933333333333335,
      "grad_norm": 26.875,
      "grad_norm_var": 1.3869140625,
      "learning_rate": 7.821233705152371e-05,
      "loss": 6.3081,
      "loss/crossentropy": 1.1460856795310974,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11831165105104446,
      "step": 1856
    },
    {
      "epoch": 0.3095,
      "grad_norm": 27.75,
      "grad_norm_var": 1.3869140625,
      "learning_rate": 7.819071886517134e-05,
      "loss": 6.8787,
      "loss/crossentropy": 1.1290220320224762,
      "loss/hidden": 3.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2073416095227003,
      "step": 1857
    },
    {
      "epoch": 0.30966666666666665,
      "grad_norm": 23.625,
      "grad_norm_var": 1.7598307291666666,
      "learning_rate": 7.816909295017352e-05,
      "loss": 6.0213,
      "loss/crossentropy": 1.3497294038534164,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12365151569247246,
      "step": 1858
    },
    {
      "epoch": 0.30983333333333335,
      "grad_norm": 26.625,
      "grad_norm_var": 1.7697916666666667,
      "learning_rate": 7.81474593124591e-05,
      "loss": 6.2203,
      "loss/crossentropy": 1.2937806993722916,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13160284096375108,
      "step": 1859
    },
    {
      "epoch": 0.31,
      "grad_norm": 26.25,
      "grad_norm_var": 1.7059895833333334,
      "learning_rate": 7.812581795795907e-05,
      "loss": 6.2279,
      "loss/crossentropy": 1.8884514570236206,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20325405150651932,
      "step": 1860
    },
    {
      "epoch": 0.31016666666666665,
      "grad_norm": 25.375,
      "grad_norm_var": 1.7171223958333333,
      "learning_rate": 7.810416889260653e-05,
      "loss": 6.2427,
      "loss/crossentropy": 1.5505582392215729,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13619203492999077,
      "step": 1861
    },
    {
      "epoch": 0.31033333333333335,
      "grad_norm": 27.5,
      "grad_norm_var": 1.8155598958333334,
      "learning_rate": 7.80825121223367e-05,
      "loss": 7.0282,
      "loss/crossentropy": 1.8412186950445175,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1582876518368721,
      "step": 1862
    },
    {
      "epoch": 0.3105,
      "grad_norm": 27.25,
      "grad_norm_var": 1.6624348958333333,
      "learning_rate": 7.80608476530869e-05,
      "loss": 6.4361,
      "loss/crossentropy": 1.3256421834230423,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1557693425565958,
      "step": 1863
    },
    {
      "epoch": 0.31066666666666665,
      "grad_norm": 25.125,
      "grad_norm_var": 1.6921223958333333,
      "learning_rate": 7.803917549079655e-05,
      "loss": 6.2038,
      "loss/crossentropy": 1.6339230090379715,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1802824381738901,
      "step": 1864
    },
    {
      "epoch": 0.31083333333333335,
      "grad_norm": 25.125,
      "grad_norm_var": 1.3624348958333334,
      "learning_rate": 7.801749564140724e-05,
      "loss": 6.6307,
      "loss/crossentropy": 1.5514553636312485,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11378040164709091,
      "step": 1865
    },
    {
      "epoch": 0.311,
      "grad_norm": 26.5,
      "grad_norm_var": 1.3733723958333333,
      "learning_rate": 7.799580811086258e-05,
      "loss": 6.7113,
      "loss/crossentropy": 1.5972132235765457,
      "loss/hidden": 3.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.30467648059129715,
      "step": 1866
    },
    {
      "epoch": 0.31116666666666665,
      "grad_norm": 28.375,
      "grad_norm_var": 1.4184895833333333,
      "learning_rate": 7.797411290510835e-05,
      "loss": 6.3771,
      "loss/crossentropy": 1.295072615146637,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14648963510990143,
      "step": 1867
    },
    {
      "epoch": 0.31133333333333335,
      "grad_norm": 25.5,
      "grad_norm_var": 1.4577473958333333,
      "learning_rate": 7.795241003009241e-05,
      "loss": 6.3109,
      "loss/crossentropy": 1.1807305663824081,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1505681350827217,
      "step": 1868
    },
    {
      "epoch": 0.3115,
      "grad_norm": 27.375,
      "grad_norm_var": 1.5229166666666667,
      "learning_rate": 7.793069949176473e-05,
      "loss": 7.0231,
      "loss/crossentropy": 1.5879820436239243,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2128017395734787,
      "step": 1869
    },
    {
      "epoch": 0.31166666666666665,
      "grad_norm": 25.0,
      "grad_norm_var": 1.5926432291666666,
      "learning_rate": 7.790898129607738e-05,
      "loss": 6.1057,
      "loss/crossentropy": 1.324481725692749,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13999750092625618,
      "step": 1870
    },
    {
      "epoch": 0.31183333333333335,
      "grad_norm": 28.25,
      "grad_norm_var": 1.8072916666666667,
      "learning_rate": 7.788725544898452e-05,
      "loss": 6.4336,
      "loss/crossentropy": 1.0379912182688713,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09183950256556273,
      "step": 1871
    },
    {
      "epoch": 0.312,
      "grad_norm": 26.625,
      "grad_norm_var": 1.7955729166666667,
      "learning_rate": 7.78655219564424e-05,
      "loss": 6.4524,
      "loss/crossentropy": 1.538333684206009,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12575656548142433,
      "step": 1872
    },
    {
      "epoch": 0.31216666666666665,
      "grad_norm": 26.5,
      "grad_norm_var": 1.6666666666666667,
      "learning_rate": 7.784378082440941e-05,
      "loss": 6.4221,
      "loss/crossentropy": 1.8402161598205566,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18546854704618454,
      "step": 1873
    },
    {
      "epoch": 0.31233333333333335,
      "grad_norm": 26.0,
      "grad_norm_var": 1.1681640625,
      "learning_rate": 7.782203205884598e-05,
      "loss": 6.6287,
      "loss/crossentropy": 1.447823904454708,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11326228268444538,
      "step": 1874
    },
    {
      "epoch": 0.3125,
      "grad_norm": 24.5,
      "grad_norm_var": 1.40390625,
      "learning_rate": 7.780027566571465e-05,
      "loss": 6.2397,
      "loss/crossentropy": 1.87068110704422,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1607346385717392,
      "step": 1875
    },
    {
      "epoch": 0.31266666666666665,
      "grad_norm": 28.0,
      "grad_norm_var": 1.5770833333333334,
      "learning_rate": 7.777851165098012e-05,
      "loss": 6.7472,
      "loss/crossentropy": 1.9179079830646515,
      "loss/hidden": 3.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19811002910137177,
      "step": 1876
    },
    {
      "epoch": 0.31283333333333335,
      "grad_norm": 24.875,
      "grad_norm_var": 1.6635416666666667,
      "learning_rate": 7.775674002060905e-05,
      "loss": 6.3514,
      "loss/crossentropy": 1.3205182254314423,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13965397514402866,
      "step": 1877
    },
    {
      "epoch": 0.313,
      "grad_norm": 28.25,
      "grad_norm_var": 1.8080729166666667,
      "learning_rate": 7.773496078057028e-05,
      "loss": 6.3118,
      "loss/crossentropy": 1.3714709877967834,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1656615175306797,
      "step": 1878
    },
    {
      "epoch": 0.31316666666666665,
      "grad_norm": 25.0,
      "grad_norm_var": 1.8854166666666667,
      "learning_rate": 7.771317393683471e-05,
      "loss": 6.5127,
      "loss/crossentropy": 1.2658039927482605,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09252388961613178,
      "step": 1879
    },
    {
      "epoch": 0.31333333333333335,
      "grad_norm": 24.0,
      "grad_norm_var": 2.1426432291666666,
      "learning_rate": 7.769137949537532e-05,
      "loss": 6.4282,
      "loss/crossentropy": 1.9153670966625214,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21619888022542,
      "step": 1880
    },
    {
      "epoch": 0.3135,
      "grad_norm": 27.25,
      "grad_norm_var": 2.1083333333333334,
      "learning_rate": 7.766957746216721e-05,
      "loss": 6.6214,
      "loss/crossentropy": 1.9913443624973297,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1960178092122078,
      "step": 1881
    },
    {
      "epoch": 0.31366666666666665,
      "grad_norm": 28.625,
      "grad_norm_var": 2.4259765625,
      "learning_rate": 7.764776784318751e-05,
      "loss": 6.7529,
      "loss/crossentropy": 2.0023012459278107,
      "loss/hidden": 3.64453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23548029735684395,
      "step": 1882
    },
    {
      "epoch": 0.31383333333333335,
      "grad_norm": 27.375,
      "grad_norm_var": 2.239518229166667,
      "learning_rate": 7.762595064441542e-05,
      "loss": 6.6397,
      "loss/crossentropy": 2.1164674758911133,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21258943900465965,
      "step": 1883
    },
    {
      "epoch": 0.314,
      "grad_norm": 24.75,
      "grad_norm_var": 2.3692057291666666,
      "learning_rate": 7.76041258718323e-05,
      "loss": 6.1556,
      "loss/crossentropy": 1.4157161712646484,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1337559726089239,
      "step": 1884
    },
    {
      "epoch": 0.31416666666666665,
      "grad_norm": 27.125,
      "grad_norm_var": 2.340559895833333,
      "learning_rate": 7.758229353142152e-05,
      "loss": 6.6223,
      "loss/crossentropy": 1.4183429181575775,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12671282701194286,
      "step": 1885
    },
    {
      "epoch": 0.31433333333333335,
      "grad_norm": 24.875,
      "grad_norm_var": 2.3645833333333335,
      "learning_rate": 7.756045362916853e-05,
      "loss": 5.9262,
      "loss/crossentropy": 1.421977013349533,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12829083390533924,
      "step": 1886
    },
    {
      "epoch": 0.3145,
      "grad_norm": 24.125,
      "grad_norm_var": 2.3968098958333335,
      "learning_rate": 7.753860617106086e-05,
      "loss": 6.7611,
      "loss/crossentropy": 1.9478589296340942,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19985918700695038,
      "step": 1887
    },
    {
      "epoch": 0.31466666666666665,
      "grad_norm": 24.75,
      "grad_norm_var": 2.4895833333333335,
      "learning_rate": 7.751675116308812e-05,
      "loss": 6.2293,
      "loss/crossentropy": 0.9526519030332565,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12802209705114365,
      "step": 1888
    },
    {
      "epoch": 0.31483333333333335,
      "grad_norm": 25.0,
      "grad_norm_var": 2.5302083333333334,
      "learning_rate": 7.7494888611242e-05,
      "loss": 6.3645,
      "loss/crossentropy": 1.7581877708435059,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19176558405160904,
      "step": 1889
    },
    {
      "epoch": 0.315,
      "grad_norm": 25.25,
      "grad_norm_var": 2.5559895833333335,
      "learning_rate": 7.747301852151621e-05,
      "loss": 6.2565,
      "loss/crossentropy": 1.375806987285614,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12717818468809128,
      "step": 1890
    },
    {
      "epoch": 0.31516666666666665,
      "grad_norm": 26.0,
      "grad_norm_var": 2.4247395833333334,
      "learning_rate": 7.74511408999066e-05,
      "loss": 6.37,
      "loss/crossentropy": 1.313630610704422,
      "loss/hidden": 3.66015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10268084704875946,
      "step": 1891
    },
    {
      "epoch": 0.31533333333333335,
      "grad_norm": 26.5,
      "grad_norm_var": 2.155989583333333,
      "learning_rate": 7.7429255752411e-05,
      "loss": 6.3582,
      "loss/crossentropy": 1.595801293849945,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1375584239140153,
      "step": 1892
    },
    {
      "epoch": 0.3155,
      "grad_norm": 27.0,
      "grad_norm_var": 2.159309895833333,
      "learning_rate": 7.740736308502938e-05,
      "loss": 6.1422,
      "loss/crossentropy": 1.9210147261619568,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1734856776893139,
      "step": 1893
    },
    {
      "epoch": 0.31566666666666665,
      "grad_norm": 24.375,
      "grad_norm_var": 1.93125,
      "learning_rate": 7.738546290376373e-05,
      "loss": 6.1822,
      "loss/crossentropy": 1.2764112129807472,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10514301294460893,
      "step": 1894
    },
    {
      "epoch": 0.31583333333333335,
      "grad_norm": 26.875,
      "grad_norm_var": 1.9634765625,
      "learning_rate": 7.736355521461811e-05,
      "loss": 6.73,
      "loss/crossentropy": 1.3645439743995667,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17711367085576057,
      "step": 1895
    },
    {
      "epoch": 0.316,
      "grad_norm": 26.875,
      "grad_norm_var": 1.7643229166666667,
      "learning_rate": 7.734164002359863e-05,
      "loss": 6.2444,
      "loss/crossentropy": 1.286956861615181,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1195491487160325,
      "step": 1896
    },
    {
      "epoch": 0.31616666666666665,
      "grad_norm": 25.625,
      "grad_norm_var": 1.6686848958333333,
      "learning_rate": 7.731971733671346e-05,
      "loss": 6.1124,
      "loss/crossentropy": 1.4985006153583527,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2696618605405092,
      "step": 1897
    },
    {
      "epoch": 0.31633333333333336,
      "grad_norm": 26.875,
      "grad_norm_var": 1.2348307291666667,
      "learning_rate": 7.729778715997284e-05,
      "loss": 6.2936,
      "loss/crossentropy": 0.9917602837085724,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13795838318765163,
      "step": 1898
    },
    {
      "epoch": 0.3165,
      "grad_norm": 25.5,
      "grad_norm_var": 1.0697916666666667,
      "learning_rate": 7.727584949938907e-05,
      "loss": 6.5076,
      "loss/crossentropy": 1.3462112173438072,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13541871309280396,
      "step": 1899
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 27.375,
      "grad_norm_var": 1.1613932291666667,
      "learning_rate": 7.725390436097643e-05,
      "loss": 6.207,
      "loss/crossentropy": 1.4423311352729797,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21663590148091316,
      "step": 1900
    },
    {
      "epoch": 0.31683333333333336,
      "grad_norm": 25.75,
      "grad_norm_var": 1.0518229166666666,
      "learning_rate": 7.723195175075136e-05,
      "loss": 6.069,
      "loss/crossentropy": 1.1143035739660263,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13193629682064056,
      "step": 1901
    },
    {
      "epoch": 0.317,
      "grad_norm": 25.75,
      "grad_norm_var": 0.9921223958333333,
      "learning_rate": 7.720999167473227e-05,
      "loss": 6.2683,
      "loss/crossentropy": 1.0505619198083878,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11662804149091244,
      "step": 1902
    },
    {
      "epoch": 0.31716666666666665,
      "grad_norm": 33.0,
      "grad_norm_var": 3.871875,
      "learning_rate": 7.718802413893963e-05,
      "loss": 6.9684,
      "loss/crossentropy": 1.5587396919727325,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20114586129784584,
      "step": 1903
    },
    {
      "epoch": 0.31733333333333336,
      "grad_norm": 26.125,
      "grad_norm_var": 3.686393229166667,
      "learning_rate": 7.716604914939598e-05,
      "loss": 6.2411,
      "loss/crossentropy": 1.4164672195911407,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12767393980175257,
      "step": 1904
    },
    {
      "epoch": 0.3175,
      "grad_norm": 26.125,
      "grad_norm_var": 3.5416666666666665,
      "learning_rate": 7.714406671212589e-05,
      "loss": 6.9527,
      "loss/crossentropy": 1.6486473083496094,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1878268513828516,
      "step": 1905
    },
    {
      "epoch": 0.31766666666666665,
      "grad_norm": 24.75,
      "grad_norm_var": 3.644791666666667,
      "learning_rate": 7.712207683315594e-05,
      "loss": 6.4158,
      "loss/crossentropy": 1.164580836892128,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1938272463157773,
      "step": 1906
    },
    {
      "epoch": 0.31783333333333336,
      "grad_norm": 23.0,
      "grad_norm_var": 4.419791666666667,
      "learning_rate": 7.710007951851481e-05,
      "loss": 6.2314,
      "loss/crossentropy": 1.6975385248661041,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12435791827738285,
      "step": 1907
    },
    {
      "epoch": 0.318,
      "grad_norm": 26.25,
      "grad_norm_var": 4.418489583333334,
      "learning_rate": 7.707807477423319e-05,
      "loss": 6.7084,
      "loss/crossentropy": 2.0439485013484955,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13873123191297054,
      "step": 1908
    },
    {
      "epoch": 0.31816666666666665,
      "grad_norm": 26.0,
      "grad_norm_var": 4.39140625,
      "learning_rate": 7.705606260634379e-05,
      "loss": 6.3084,
      "loss/crossentropy": 1.9195210337638855,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16824555397033691,
      "step": 1909
    },
    {
      "epoch": 0.31833333333333336,
      "grad_norm": 25.0,
      "grad_norm_var": 4.258268229166666,
      "learning_rate": 7.703404302088138e-05,
      "loss": 5.9442,
      "loss/crossentropy": 1.4394736289978027,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.148159084841609,
      "step": 1910
    },
    {
      "epoch": 0.3185,
      "grad_norm": 25.75,
      "grad_norm_var": 4.251822916666667,
      "learning_rate": 7.701201602388276e-05,
      "loss": 6.2713,
      "loss/crossentropy": 1.2391781955957413,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15659042447805405,
      "step": 1911
    },
    {
      "epoch": 0.31866666666666665,
      "grad_norm": 28.125,
      "grad_norm_var": 4.45625,
      "learning_rate": 7.698998162138673e-05,
      "loss": 6.354,
      "loss/crossentropy": 1.7924777567386627,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15180748887360096,
      "step": 1912
    },
    {
      "epoch": 0.31883333333333336,
      "grad_norm": 26.625,
      "grad_norm_var": 4.427083333333333,
      "learning_rate": 7.696793981943417e-05,
      "loss": 6.7418,
      "loss/crossentropy": 1.4420042484998703,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1826731665059924,
      "step": 1913
    },
    {
      "epoch": 0.319,
      "grad_norm": 24.375,
      "grad_norm_var": 4.651041666666667,
      "learning_rate": 7.694589062406796e-05,
      "loss": 6.2945,
      "loss/crossentropy": 1.643314927816391,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1626468040049076,
      "step": 1914
    },
    {
      "epoch": 0.31916666666666665,
      "grad_norm": 26.75,
      "grad_norm_var": 4.62890625,
      "learning_rate": 7.692383404133301e-05,
      "loss": 6.3934,
      "loss/crossentropy": 1.2791866958141327,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16720141470432281,
      "step": 1915
    },
    {
      "epoch": 0.31933333333333336,
      "grad_norm": 24.5,
      "grad_norm_var": 4.7322265625,
      "learning_rate": 7.690177007727625e-05,
      "loss": 6.2058,
      "loss/crossentropy": 1.4310691952705383,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16014227829873562,
      "step": 1916
    },
    {
      "epoch": 0.3195,
      "grad_norm": 27.25,
      "grad_norm_var": 4.7994140625,
      "learning_rate": 7.687969873794667e-05,
      "loss": 6.695,
      "loss/crossentropy": 1.2179763466119766,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16675520688295364,
      "step": 1917
    },
    {
      "epoch": 0.31966666666666665,
      "grad_norm": 29.75,
      "grad_norm_var": 5.553580729166667,
      "learning_rate": 7.685762002939523e-05,
      "loss": 6.6029,
      "loss/crossentropy": 1.2701485753059387,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11678503267467022,
      "step": 1918
    },
    {
      "epoch": 0.31983333333333336,
      "grad_norm": 27.875,
      "grad_norm_var": 2.726822916666667,
      "learning_rate": 7.683553395767492e-05,
      "loss": 6.9142,
      "loss/crossentropy": 1.4391902685165405,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.141116825863719,
      "step": 1919
    },
    {
      "epoch": 0.32,
      "grad_norm": 28.25,
      "grad_norm_var": 3.004622395833333,
      "learning_rate": 7.681344052884077e-05,
      "loss": 6.7391,
      "loss/crossentropy": 1.7268415987491608,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19017089530825615,
      "step": 1920
    },
    {
      "epoch": 0.32016666666666665,
      "grad_norm": 27.375,
      "grad_norm_var": 3.0775390625,
      "learning_rate": 7.679133974894983e-05,
      "loss": 6.8914,
      "loss/crossentropy": 2.178110897541046,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19218476489186287,
      "step": 1921
    },
    {
      "epoch": 0.32033333333333336,
      "grad_norm": 25.125,
      "grad_norm_var": 3.00625,
      "learning_rate": 7.676923162406115e-05,
      "loss": 6.3706,
      "loss/crossentropy": 1.1894247233867645,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18001854792237282,
      "step": 1922
    },
    {
      "epoch": 0.3205,
      "grad_norm": 26.625,
      "grad_norm_var": 2.1962890625,
      "learning_rate": 7.674711616023581e-05,
      "loss": 6.4039,
      "loss/crossentropy": 1.5494977235794067,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15634138695895672,
      "step": 1923
    },
    {
      "epoch": 0.32066666666666666,
      "grad_norm": 26.75,
      "grad_norm_var": 2.1884765625,
      "learning_rate": 7.672499336353687e-05,
      "loss": 6.5562,
      "loss/crossentropy": 1.5956921577453613,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21293289214372635,
      "step": 1924
    },
    {
      "epoch": 0.32083333333333336,
      "grad_norm": 24.5,
      "grad_norm_var": 2.4556640625,
      "learning_rate": 7.670286324002944e-05,
      "loss": 6.3067,
      "loss/crossentropy": 1.5231582522392273,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15446319803595543,
      "step": 1925
    },
    {
      "epoch": 0.321,
      "grad_norm": 41.0,
      "grad_norm_var": 15.172330729166667,
      "learning_rate": 7.668072579578058e-05,
      "loss": 6.78,
      "loss/crossentropy": 1.3537965267896652,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1880318894982338,
      "step": 1926
    },
    {
      "epoch": 0.32116666666666666,
      "grad_norm": 28.875,
      "grad_norm_var": 15.037239583333333,
      "learning_rate": 7.665858103685944e-05,
      "loss": 6.1524,
      "loss/crossentropy": 1.3253830820322037,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09621228277683258,
      "step": 1927
    },
    {
      "epoch": 0.32133333333333336,
      "grad_norm": 27.875,
      "grad_norm_var": 15.028125,
      "learning_rate": 7.663642896933712e-05,
      "loss": 6.4819,
      "loss/crossentropy": 1.6501772999763489,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.231500755995512,
      "step": 1928
    },
    {
      "epoch": 0.3215,
      "grad_norm": 27.5,
      "grad_norm_var": 14.948372395833333,
      "learning_rate": 7.66142695992867e-05,
      "loss": 6.596,
      "loss/crossentropy": 1.375167578458786,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11396941542625427,
      "step": 1929
    },
    {
      "epoch": 0.32166666666666666,
      "grad_norm": 27.25,
      "grad_norm_var": 14.162239583333333,
      "learning_rate": 7.659210293278334e-05,
      "loss": 6.3975,
      "loss/crossentropy": 1.6278154253959656,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2192364428192377,
      "step": 1930
    },
    {
      "epoch": 0.32183333333333336,
      "grad_norm": 26.375,
      "grad_norm_var": 14.231184895833334,
      "learning_rate": 7.656992897590414e-05,
      "loss": 6.595,
      "loss/crossentropy": 1.3742298930883408,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12720617931336164,
      "step": 1931
    },
    {
      "epoch": 0.322,
      "grad_norm": 26.375,
      "grad_norm_var": 13.593489583333334,
      "learning_rate": 7.654774773472823e-05,
      "loss": 6.2011,
      "loss/crossentropy": 1.7735658288002014,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17184998467564583,
      "step": 1932
    },
    {
      "epoch": 0.32216666666666666,
      "grad_norm": 26.125,
      "grad_norm_var": 13.792122395833333,
      "learning_rate": 7.65255592153367e-05,
      "loss": 6.2184,
      "loss/crossentropy": 1.8436724245548248,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17776019871234894,
      "step": 1933
    },
    {
      "epoch": 0.32233333333333336,
      "grad_norm": 25.875,
      "grad_norm_var": 13.814322916666667,
      "learning_rate": 7.650336342381269e-05,
      "loss": 6.1072,
      "loss/crossentropy": 1.1867903620004654,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1665213666856289,
      "step": 1934
    },
    {
      "epoch": 0.3225,
      "grad_norm": 23.375,
      "grad_norm_var": 14.995572916666667,
      "learning_rate": 7.648116036624126e-05,
      "loss": 6.5229,
      "loss/crossentropy": 1.2136850953102112,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11723973229527473,
      "step": 1935
    },
    {
      "epoch": 0.32266666666666666,
      "grad_norm": 24.125,
      "grad_norm_var": 15.620768229166666,
      "learning_rate": 7.645895004870954e-05,
      "loss": 6.3716,
      "loss/crossentropy": 1.7954025566577911,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14210795238614082,
      "step": 1936
    },
    {
      "epoch": 0.32283333333333336,
      "grad_norm": 26.5,
      "grad_norm_var": 15.64765625,
      "learning_rate": 7.643673247730658e-05,
      "loss": 6.3718,
      "loss/crossentropy": 1.3012201935052872,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18409869819879532,
      "step": 1937
    },
    {
      "epoch": 0.323,
      "grad_norm": 25.75,
      "grad_norm_var": 15.5041015625,
      "learning_rate": 7.64145076581235e-05,
      "loss": 6.4638,
      "loss/crossentropy": 1.5930643379688263,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1491758320480585,
      "step": 1938
    },
    {
      "epoch": 0.32316666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 15.9869140625,
      "learning_rate": 7.639227559725332e-05,
      "loss": 6.3902,
      "loss/crossentropy": 1.3990869522094727,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15044845081865788,
      "step": 1939
    },
    {
      "epoch": 0.3233333333333333,
      "grad_norm": 25.375,
      "grad_norm_var": 16.158072916666665,
      "learning_rate": 7.637003630079111e-05,
      "loss": 5.9661,
      "loss/crossentropy": 1.3771826028823853,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1573531161993742,
      "step": 1940
    },
    {
      "epoch": 0.3235,
      "grad_norm": 23.5,
      "grad_norm_var": 16.54765625,
      "learning_rate": 7.634778977483389e-05,
      "loss": 5.9605,
      "loss/crossentropy": 1.3241405487060547,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13419854640960693,
      "step": 1941
    },
    {
      "epoch": 0.32366666666666666,
      "grad_norm": 23.5,
      "grad_norm_var": 2.76640625,
      "learning_rate": 7.632553602548065e-05,
      "loss": 5.8775,
      "loss/crossentropy": 1.3533181101083755,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12711031548678875,
      "step": 1942
    },
    {
      "epoch": 0.3238333333333333,
      "grad_norm": 24.875,
      "grad_norm_var": 2.124739583333333,
      "learning_rate": 7.630327505883242e-05,
      "loss": 6.5926,
      "loss/crossentropy": 1.1828708052635193,
      "loss/hidden": 3.75390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25145961344242096,
      "step": 1943
    },
    {
      "epoch": 0.324,
      "grad_norm": 25.625,
      "grad_norm_var": 1.7427083333333333,
      "learning_rate": 7.628100688099215e-05,
      "loss": 6.8952,
      "loss/crossentropy": 1.120570808649063,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27618863247334957,
      "step": 1944
    },
    {
      "epoch": 0.32416666666666666,
      "grad_norm": 25.875,
      "grad_norm_var": 1.4541015625,
      "learning_rate": 7.62587314980648e-05,
      "loss": 6.5664,
      "loss/crossentropy": 1.1782270669937134,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11352577339857817,
      "step": 1945
    },
    {
      "epoch": 0.3243333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 1.5994140625,
      "learning_rate": 7.623644891615727e-05,
      "loss": 6.3751,
      "loss/crossentropy": 1.2841320484876633,
      "loss/hidden": 3.70703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1850954368710518,
      "step": 1946
    },
    {
      "epoch": 0.3245,
      "grad_norm": 31.375,
      "grad_norm_var": 3.854622395833333,
      "learning_rate": 7.621415914137846e-05,
      "loss": 7.1795,
      "loss/crossentropy": 1.727049320936203,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16083285585045815,
      "step": 1947
    },
    {
      "epoch": 0.32466666666666666,
      "grad_norm": 27.375,
      "grad_norm_var": 4.013997395833333,
      "learning_rate": 7.619186217983924e-05,
      "loss": 6.5735,
      "loss/crossentropy": 1.2679304331541061,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21421366184949875,
      "step": 1948
    },
    {
      "epoch": 0.3248333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 4.17890625,
      "learning_rate": 7.616955803765249e-05,
      "loss": 6.6339,
      "loss/crossentropy": 1.2826143652200699,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1158591378480196,
      "step": 1949
    },
    {
      "epoch": 0.325,
      "grad_norm": 25.25,
      "grad_norm_var": 4.178580729166667,
      "learning_rate": 7.614724672093296e-05,
      "loss": 6.329,
      "loss/crossentropy": 1.2010756433010101,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.162882711738348,
      "step": 1950
    },
    {
      "epoch": 0.32516666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 3.9525390625,
      "learning_rate": 7.612492823579745e-05,
      "loss": 6.4501,
      "loss/crossentropy": 1.4341825097799301,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10451747477054596,
      "step": 1951
    },
    {
      "epoch": 0.3253333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 3.803125,
      "learning_rate": 7.61026025883647e-05,
      "loss": 6.2596,
      "loss/crossentropy": 1.3979451805353165,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2629561945796013,
      "step": 1952
    },
    {
      "epoch": 0.3255,
      "grad_norm": 27.625,
      "grad_norm_var": 3.9994140625,
      "learning_rate": 7.60802697847554e-05,
      "loss": 6.7116,
      "loss/crossentropy": 1.3776356428861618,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10853162780404091,
      "step": 1953
    },
    {
      "epoch": 0.32566666666666666,
      "grad_norm": 25.875,
      "grad_norm_var": 3.999739583333333,
      "learning_rate": 7.605792983109222e-05,
      "loss": 6.3798,
      "loss/crossentropy": 1.2861874103546143,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14763324335217476,
      "step": 1954
    },
    {
      "epoch": 0.3258333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 3.951041666666667,
      "learning_rate": 7.60355827334998e-05,
      "loss": 6.2447,
      "loss/crossentropy": 1.6014887690544128,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1440642587840557,
      "step": 1955
    },
    {
      "epoch": 0.326,
      "grad_norm": 24.875,
      "grad_norm_var": 4.00625,
      "learning_rate": 7.60132284981047e-05,
      "loss": 5.9239,
      "loss/crossentropy": 1.4988811761140823,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1265989039093256,
      "step": 1956
    },
    {
      "epoch": 0.32616666666666666,
      "grad_norm": 24.125,
      "grad_norm_var": 3.8275390625,
      "learning_rate": 7.599086713103547e-05,
      "loss": 6.2312,
      "loss/crossentropy": 1.4320566207170486,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10050812736153603,
      "step": 1957
    },
    {
      "epoch": 0.3263333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 3.6150390625,
      "learning_rate": 7.596849863842263e-05,
      "loss": 6.1595,
      "loss/crossentropy": 1.0710847079753876,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15653483383357525,
      "step": 1958
    },
    {
      "epoch": 0.3265,
      "grad_norm": 24.75,
      "grad_norm_var": 3.63515625,
      "learning_rate": 7.594612302639859e-05,
      "loss": 6.3477,
      "loss/crossentropy": 1.452481895685196,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1926157921552658,
      "step": 1959
    },
    {
      "epoch": 0.32666666666666666,
      "grad_norm": 23.25,
      "grad_norm_var": 4.111393229166667,
      "learning_rate": 7.592374030109777e-05,
      "loss": 6.2755,
      "loss/crossentropy": 1.5255981087684631,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11009975895285606,
      "step": 1960
    },
    {
      "epoch": 0.3268333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 4.145768229166666,
      "learning_rate": 7.590135046865651e-05,
      "loss": 6.3481,
      "loss/crossentropy": 1.5504071563482285,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13940811716020107,
      "step": 1961
    },
    {
      "epoch": 0.327,
      "grad_norm": 26.75,
      "grad_norm_var": 3.9509765625,
      "learning_rate": 7.587895353521314e-05,
      "loss": 6.4289,
      "loss/crossentropy": 1.4041942059993744,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1428377777338028,
      "step": 1962
    },
    {
      "epoch": 0.32716666666666666,
      "grad_norm": 24.875,
      "grad_norm_var": 1.7233723958333333,
      "learning_rate": 7.585654950690786e-05,
      "loss": 6.467,
      "loss/crossentropy": 1.6645765453577042,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1239413321018219,
      "step": 1963
    },
    {
      "epoch": 0.3273333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 1.4327473958333334,
      "learning_rate": 7.58341383898829e-05,
      "loss": 6.3363,
      "loss/crossentropy": 1.437987893819809,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15620095655322075,
      "step": 1964
    },
    {
      "epoch": 0.3275,
      "grad_norm": 25.125,
      "grad_norm_var": 1.3302083333333334,
      "learning_rate": 7.581172019028238e-05,
      "loss": 5.9472,
      "loss/crossentropy": 1.605808474123478,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1253122929483652,
      "step": 1965
    },
    {
      "epoch": 0.32766666666666666,
      "grad_norm": 27.5,
      "grad_norm_var": 1.6372395833333333,
      "learning_rate": 7.578929491425238e-05,
      "loss": 6.6689,
      "loss/crossentropy": 1.294993743300438,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13339629210531712,
      "step": 1966
    },
    {
      "epoch": 0.3278333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 1.5593098958333333,
      "learning_rate": 7.576686256794091e-05,
      "loss": 6.2132,
      "loss/crossentropy": 2.2327435314655304,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17829161509871483,
      "step": 1967
    },
    {
      "epoch": 0.328,
      "grad_norm": 26.375,
      "grad_norm_var": 1.5934895833333333,
      "learning_rate": 7.574442315749793e-05,
      "loss": 6.4249,
      "loss/crossentropy": 1.466038852930069,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19742033816874027,
      "step": 1968
    },
    {
      "epoch": 0.32816666666666666,
      "grad_norm": 23.625,
      "grad_norm_var": 1.4684895833333333,
      "learning_rate": 7.572197668907532e-05,
      "loss": 6.4226,
      "loss/crossentropy": 1.8144182711839676,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20674077793955803,
      "step": 1969
    },
    {
      "epoch": 0.3283333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 1.4927083333333333,
      "learning_rate": 7.569952316882694e-05,
      "loss": 6.2174,
      "loss/crossentropy": 1.3762106895446777,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1315699713304639,
      "step": 1970
    },
    {
      "epoch": 0.3285,
      "grad_norm": 26.375,
      "grad_norm_var": 1.3434895833333333,
      "learning_rate": 7.567706260290851e-05,
      "loss": 6.4584,
      "loss/crossentropy": 1.0963778346776962,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18599781021475792,
      "step": 1971
    },
    {
      "epoch": 0.32866666666666666,
      "grad_norm": 24.625,
      "grad_norm_var": 1.359375,
      "learning_rate": 7.565459499747775e-05,
      "loss": 5.9722,
      "loss/crossentropy": 1.5091693997383118,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2419084869325161,
      "step": 1972
    },
    {
      "epoch": 0.3288333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 1.3268229166666667,
      "learning_rate": 7.563212035869425e-05,
      "loss": 6.2622,
      "loss/crossentropy": 1.4423122555017471,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15351855754852295,
      "step": 1973
    },
    {
      "epoch": 0.329,
      "grad_norm": 27.125,
      "grad_norm_var": 1.4660807291666667,
      "learning_rate": 7.56096386927196e-05,
      "loss": 6.3567,
      "loss/crossentropy": 2.25230872631073,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19635501876473427,
      "step": 1974
    },
    {
      "epoch": 0.32916666666666666,
      "grad_norm": 26.625,
      "grad_norm_var": 1.5197916666666667,
      "learning_rate": 7.558715000571726e-05,
      "loss": 6.6388,
      "loss/crossentropy": 1.3071192353963852,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14108655788004398,
      "step": 1975
    },
    {
      "epoch": 0.3293333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 1.4499348958333333,
      "learning_rate": 7.55646543038526e-05,
      "loss": 6.7195,
      "loss/crossentropy": 1.2048006281256676,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12995907431468368,
      "step": 1976
    },
    {
      "epoch": 0.3295,
      "grad_norm": 26.0,
      "grad_norm_var": 1.4166666666666667,
      "learning_rate": 7.5542151593293e-05,
      "loss": 6.4977,
      "loss/crossentropy": 1.1852080002427101,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10718733165413141,
      "step": 1977
    },
    {
      "epoch": 0.32966666666666666,
      "grad_norm": 29.375,
      "grad_norm_var": 2.153580729166667,
      "learning_rate": 7.551964188020766e-05,
      "loss": 6.5545,
      "loss/crossentropy": 1.4078846126794815,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1846070997416973,
      "step": 1978
    },
    {
      "epoch": 0.3298333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 2.0809895833333334,
      "learning_rate": 7.549712517076777e-05,
      "loss": 6.3851,
      "loss/crossentropy": 2.0256086885929108,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1983210016041994,
      "step": 1979
    },
    {
      "epoch": 0.33,
      "grad_norm": 25.0,
      "grad_norm_var": 2.0978515625,
      "learning_rate": 7.547460147114641e-05,
      "loss": 6.0587,
      "loss/crossentropy": 1.5401402115821838,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12004663981497288,
      "step": 1980
    },
    {
      "epoch": 0.33016666666666666,
      "grad_norm": 26.5,
      "grad_norm_var": 2.042708333333333,
      "learning_rate": 7.545207078751857e-05,
      "loss": 6.3717,
      "loss/crossentropy": 1.78058473020792,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18446800578385592,
      "step": 1981
    },
    {
      "epoch": 0.3303333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 1.9145182291666667,
      "learning_rate": 7.542953312606117e-05,
      "loss": 6.5679,
      "loss/crossentropy": 1.3367803692817688,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15712000243365765,
      "step": 1982
    },
    {
      "epoch": 0.3305,
      "grad_norm": 26.125,
      "grad_norm_var": 1.89140625,
      "learning_rate": 7.540698849295305e-05,
      "loss": 6.6764,
      "loss/crossentropy": 1.5010664910078049,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13286457024514675,
      "step": 1983
    },
    {
      "epoch": 0.33066666666666666,
      "grad_norm": 27.125,
      "grad_norm_var": 1.953125,
      "learning_rate": 7.538443689437492e-05,
      "loss": 6.6207,
      "loss/crossentropy": 1.2388575226068497,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16265138238668442,
      "step": 1984
    },
    {
      "epoch": 0.3308333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 1.5041015625,
      "learning_rate": 7.536187833650947e-05,
      "loss": 6.6566,
      "loss/crossentropy": 1.2816483676433563,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10099411942064762,
      "step": 1985
    },
    {
      "epoch": 0.331,
      "grad_norm": 26.375,
      "grad_norm_var": 1.5020182291666666,
      "learning_rate": 7.53393128255412e-05,
      "loss": 6.8827,
      "loss/crossentropy": 0.948730118572712,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3065859228372574,
      "step": 1986
    },
    {
      "epoch": 0.33116666666666666,
      "grad_norm": 26.5,
      "grad_norm_var": 1.50390625,
      "learning_rate": 7.531674036765662e-05,
      "loss": 6.8775,
      "loss/crossentropy": 1.9316487163305283,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15175139717757702,
      "step": 1987
    },
    {
      "epoch": 0.3313333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 1.30390625,
      "learning_rate": 7.52941609690441e-05,
      "loss": 6.6747,
      "loss/crossentropy": 1.6824732720851898,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19663692638278008,
      "step": 1988
    },
    {
      "epoch": 0.3315,
      "grad_norm": 28.25,
      "grad_norm_var": 1.1848307291666667,
      "learning_rate": 7.52715746358939e-05,
      "loss": 6.503,
      "loss/crossentropy": 1.5091774463653564,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.29703205451369286,
      "step": 1989
    },
    {
      "epoch": 0.33166666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 1.1947916666666667,
      "learning_rate": 7.524898137439814e-05,
      "loss": 6.4472,
      "loss/crossentropy": 1.7559304237365723,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24768796935677528,
      "step": 1990
    },
    {
      "epoch": 0.3318333333333333,
      "grad_norm": 26.5,
      "grad_norm_var": 1.1952473958333334,
      "learning_rate": 7.522638119075096e-05,
      "loss": 6.5614,
      "loss/crossentropy": 0.6225664392113686,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.06071426905691624,
      "step": 1991
    },
    {
      "epoch": 0.332,
      "grad_norm": 25.625,
      "grad_norm_var": 1.1249348958333334,
      "learning_rate": 7.520377409114831e-05,
      "loss": 6.2228,
      "loss/crossentropy": 1.62913578748703,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1353142112493515,
      "step": 1992
    },
    {
      "epoch": 0.33216666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 1.1483723958333334,
      "learning_rate": 7.518116008178805e-05,
      "loss": 6.7077,
      "loss/crossentropy": 1.8163381218910217,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14655482582747936,
      "step": 1993
    },
    {
      "epoch": 0.3323333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1643229166666667,
      "learning_rate": 7.515853916886993e-05,
      "loss": 6.268,
      "loss/crossentropy": 1.3509615659713745,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1473417840898037,
      "step": 1994
    },
    {
      "epoch": 0.3325,
      "grad_norm": 26.5,
      "grad_norm_var": 1.14140625,
      "learning_rate": 7.513591135859561e-05,
      "loss": 6.6178,
      "loss/crossentropy": 1.7216495871543884,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15290702134370804,
      "step": 1995
    },
    {
      "epoch": 0.33266666666666667,
      "grad_norm": 25.875,
      "grad_norm_var": 1.0488932291666666,
      "learning_rate": 7.511327665716863e-05,
      "loss": 6.3424,
      "loss/crossentropy": 1.327872171998024,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15156515128910542,
      "step": 1996
    },
    {
      "epoch": 0.3328333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.9791666666666667,
      "learning_rate": 7.509063507079443e-05,
      "loss": 6.1078,
      "loss/crossentropy": 1.865316480398178,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16528227180242538,
      "step": 1997
    },
    {
      "epoch": 0.333,
      "grad_norm": 25.5,
      "grad_norm_var": 1.9931640625,
      "learning_rate": 7.506798660568031e-05,
      "loss": 6.4771,
      "loss/crossentropy": 1.3237116634845734,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15546652302145958,
      "step": 1998
    },
    {
      "epoch": 0.33316666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 2.12265625,
      "learning_rate": 7.50453312680355e-05,
      "loss": 6.2661,
      "loss/crossentropy": 1.6104268431663513,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18106029368937016,
      "step": 1999
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 25.75,
      "grad_norm_var": 2.0087890625,
      "learning_rate": 7.502266906407107e-05,
      "loss": 6.5924,
      "loss/crossentropy": 1.7930181920528412,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1696604359894991,
      "step": 2000
    },
    {
      "epoch": 0.3335,
      "grad_norm": 26.25,
      "grad_norm_var": 2.020247395833333,
      "learning_rate": 7.500000000000001e-05,
      "loss": 6.6853,
      "loss/crossentropy": 2.254548519849777,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18794983252882957,
      "step": 2001
    },
    {
      "epoch": 0.33366666666666667,
      "grad_norm": 26.375,
      "grad_norm_var": 2.020247395833333,
      "learning_rate": 7.497732408203715e-05,
      "loss": 6.4681,
      "loss/crossentropy": 1.5472011864185333,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1366941761225462,
      "step": 2002
    },
    {
      "epoch": 0.3338333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 2.0478515625,
      "learning_rate": 7.495464131639924e-05,
      "loss": 6.5754,
      "loss/crossentropy": 1.2550005912780762,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1152479350566864,
      "step": 2003
    },
    {
      "epoch": 0.334,
      "grad_norm": 26.25,
      "grad_norm_var": 2.0541666666666667,
      "learning_rate": 7.493195170930487e-05,
      "loss": 6.8227,
      "loss/crossentropy": 1.6245986372232437,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17800006829202175,
      "step": 2004
    },
    {
      "epoch": 0.33416666666666667,
      "grad_norm": 27.75,
      "grad_norm_var": 1.9072916666666666,
      "learning_rate": 7.490925526697455e-05,
      "loss": 6.5429,
      "loss/crossentropy": 1.5166893601417542,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16558409295976162,
      "step": 2005
    },
    {
      "epoch": 0.3343333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 1.9296223958333334,
      "learning_rate": 7.488655199563062e-05,
      "loss": 6.4614,
      "loss/crossentropy": 1.6232553720474243,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1568867191672325,
      "step": 2006
    },
    {
      "epoch": 0.3345,
      "grad_norm": 25.5,
      "grad_norm_var": 1.8889973958333333,
      "learning_rate": 7.48638419014973e-05,
      "loss": 6.4418,
      "loss/crossentropy": 1.6690722703933716,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21814085356891155,
      "step": 2007
    },
    {
      "epoch": 0.33466666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 1.9462890625,
      "learning_rate": 7.484112499080072e-05,
      "loss": 6.7802,
      "loss/crossentropy": 1.4397798478603363,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16427025757730007,
      "step": 2008
    },
    {
      "epoch": 0.3348333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 1.84375,
      "learning_rate": 7.481840126976885e-05,
      "loss": 6.2927,
      "loss/crossentropy": 0.7487172484397888,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09113035164773464,
      "step": 2009
    },
    {
      "epoch": 0.335,
      "grad_norm": 25.125,
      "grad_norm_var": 1.4853515625,
      "learning_rate": 7.47956707446315e-05,
      "loss": 6.4996,
      "loss/crossentropy": 2.0255235731601715,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2005392648279667,
      "step": 2010
    },
    {
      "epoch": 0.33516666666666667,
      "grad_norm": 27.625,
      "grad_norm_var": 1.6875,
      "learning_rate": 7.477293342162039e-05,
      "loss": 6.6226,
      "loss/crossentropy": 1.6639786064624786,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15765325725078583,
      "step": 2011
    },
    {
      "epoch": 0.3353333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 1.6900390625,
      "learning_rate": 7.475018930696907e-05,
      "loss": 6.035,
      "loss/crossentropy": 1.2658820450305939,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12132590543478727,
      "step": 2012
    },
    {
      "epoch": 0.3355,
      "grad_norm": 27.375,
      "grad_norm_var": 1.0181640625,
      "learning_rate": 7.472743840691299e-05,
      "loss": 6.7428,
      "loss/crossentropy": 2.048977270722389,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16746572125703096,
      "step": 2013
    },
    {
      "epoch": 0.33566666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 1.0375,
      "learning_rate": 7.470468072768941e-05,
      "loss": 7.0208,
      "loss/crossentropy": 1.3276058584451675,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21104982774704695,
      "step": 2014
    },
    {
      "epoch": 0.3358333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.23515625,
      "learning_rate": 7.468191627553753e-05,
      "loss": 6.3782,
      "loss/crossentropy": 1.5453597009181976,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21846425160765648,
      "step": 2015
    },
    {
      "epoch": 0.336,
      "grad_norm": 24.875,
      "grad_norm_var": 1.3212890625,
      "learning_rate": 7.465914505669829e-05,
      "loss": 6.7247,
      "loss/crossentropy": 1.8607490062713623,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14689349383115768,
      "step": 2016
    },
    {
      "epoch": 0.33616666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 1.3645833333333333,
      "learning_rate": 7.463636707741458e-05,
      "loss": 6.785,
      "loss/crossentropy": 1.4967177957296371,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1642151139676571,
      "step": 2017
    },
    {
      "epoch": 0.3363333333333333,
      "grad_norm": 26.625,
      "grad_norm_var": 1.37890625,
      "learning_rate": 7.461358234393112e-05,
      "loss": 7.1174,
      "loss/crossentropy": 2.3437540233135223,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2513565607368946,
      "step": 2018
    },
    {
      "epoch": 0.3365,
      "grad_norm": 24.375,
      "grad_norm_var": 1.5186848958333334,
      "learning_rate": 7.459079086249445e-05,
      "loss": 6.3555,
      "loss/crossentropy": 1.8122957050800323,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1943572610616684,
      "step": 2019
    },
    {
      "epoch": 0.33666666666666667,
      "grad_norm": 26.875,
      "grad_norm_var": 1.5697916666666667,
      "learning_rate": 7.456799263935302e-05,
      "loss": 6.5363,
      "loss/crossentropy": 1.0602791160345078,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1403679233044386,
      "step": 2020
    },
    {
      "epoch": 0.3368333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 1.3488932291666667,
      "learning_rate": 7.454518768075704e-05,
      "loss": 6.4419,
      "loss/crossentropy": 1.702712595462799,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17821167781949043,
      "step": 2021
    },
    {
      "epoch": 0.337,
      "grad_norm": 26.125,
      "grad_norm_var": 1.3124348958333334,
      "learning_rate": 7.452237599295867e-05,
      "loss": 6.5188,
      "loss/crossentropy": 1.983144372701645,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28775354474782944,
      "step": 2022
    },
    {
      "epoch": 0.33716666666666667,
      "grad_norm": 25.375,
      "grad_norm_var": 1.3205729166666667,
      "learning_rate": 7.449955758221183e-05,
      "loss": 6.0988,
      "loss/crossentropy": 1.6538090407848358,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2779662422835827,
      "step": 2023
    },
    {
      "epoch": 0.3373333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 1.3205729166666667,
      "learning_rate": 7.447673245477234e-05,
      "loss": 6.495,
      "loss/crossentropy": 1.0405467301607132,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12163243675604463,
      "step": 2024
    },
    {
      "epoch": 0.3375,
      "grad_norm": 25.75,
      "grad_norm_var": 1.2192057291666667,
      "learning_rate": 7.445390061689782e-05,
      "loss": 6.702,
      "loss/crossentropy": 1.357138842344284,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1722542755305767,
      "step": 2025
    },
    {
      "epoch": 0.33766666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.4457682291666667,
      "learning_rate": 7.443106207484776e-05,
      "loss": 6.3305,
      "loss/crossentropy": 1.6206847429275513,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16679300740361214,
      "step": 2026
    },
    {
      "epoch": 0.3378333333333333,
      "grad_norm": 25.0,
      "grad_norm_var": 1.2447916666666667,
      "learning_rate": 7.440821683488346e-05,
      "loss": 6.536,
      "loss/crossentropy": 1.7391394674777985,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17768418975174427,
      "step": 2027
    },
    {
      "epoch": 0.338,
      "grad_norm": 24.0,
      "grad_norm_var": 1.4166666666666667,
      "learning_rate": 7.438536490326808e-05,
      "loss": 6.0003,
      "loss/crossentropy": 1.360397145152092,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18480316549539566,
      "step": 2028
    },
    {
      "epoch": 0.33816666666666667,
      "grad_norm": 27.375,
      "grad_norm_var": 1.4166666666666667,
      "learning_rate": 7.436250628626662e-05,
      "loss": 6.676,
      "loss/crossentropy": 2.0646270513534546,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19706391543149948,
      "step": 2029
    },
    {
      "epoch": 0.3383333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 1.3317057291666667,
      "learning_rate": 7.433964099014587e-05,
      "loss": 6.5604,
      "loss/crossentropy": 1.872211217880249,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1577222514897585,
      "step": 2030
    },
    {
      "epoch": 0.3385,
      "grad_norm": 33.5,
      "grad_norm_var": 4.967643229166667,
      "learning_rate": 7.431676902117452e-05,
      "loss": 6.5137,
      "loss/crossentropy": 1.37758569419384,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1304109375923872,
      "step": 2031
    },
    {
      "epoch": 0.33866666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 5.067122395833334,
      "learning_rate": 7.429389038562303e-05,
      "loss": 6.395,
      "loss/crossentropy": 1.1431060805916786,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10771634336560965,
      "step": 2032
    },
    {
      "epoch": 0.3388333333333333,
      "grad_norm": 26.75,
      "grad_norm_var": 5.055208333333334,
      "learning_rate": 7.42710050897637e-05,
      "loss": 6.2013,
      "loss/crossentropy": 0.9726374670863152,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09651538170874119,
      "step": 2033
    },
    {
      "epoch": 0.339,
      "grad_norm": 27.125,
      "grad_norm_var": 5.10625,
      "learning_rate": 7.424811313987068e-05,
      "loss": 6.1388,
      "loss/crossentropy": 1.8291078954935074,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14456154219806194,
      "step": 2034
    },
    {
      "epoch": 0.33916666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 5.2025390625,
      "learning_rate": 7.42252145422199e-05,
      "loss": 6.025,
      "loss/crossentropy": 0.940466471016407,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1358796041458845,
      "step": 2035
    },
    {
      "epoch": 0.3393333333333333,
      "grad_norm": 26.375,
      "grad_norm_var": 5.1666015625,
      "learning_rate": 7.420230930308917e-05,
      "loss": 6.2391,
      "loss/crossentropy": 1.1578224748373032,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14375442266464233,
      "step": 2036
    },
    {
      "epoch": 0.3395,
      "grad_norm": 24.375,
      "grad_norm_var": 5.345247395833334,
      "learning_rate": 7.417939742875808e-05,
      "loss": 6.5148,
      "loss/crossentropy": 1.9144222438335419,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19973907247185707,
      "step": 2037
    },
    {
      "epoch": 0.3396666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 5.645833333333333,
      "learning_rate": 7.415647892550804e-05,
      "loss": 6.1835,
      "loss/crossentropy": 1.3962139338254929,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15771019458770752,
      "step": 2038
    },
    {
      "epoch": 0.3398333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 5.642643229166667,
      "learning_rate": 7.41335537996223e-05,
      "loss": 6.765,
      "loss/crossentropy": 1.35826376080513,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1402108483016491,
      "step": 2039
    },
    {
      "epoch": 0.34,
      "grad_norm": 24.875,
      "grad_norm_var": 5.6712890625,
      "learning_rate": 7.411062205738594e-05,
      "loss": 6.4259,
      "loss/crossentropy": 0.9575423672795296,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1076277969405055,
      "step": 2040
    },
    {
      "epoch": 0.3401666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 5.948372395833333,
      "learning_rate": 7.408768370508576e-05,
      "loss": 6.1288,
      "loss/crossentropy": 1.4740761369466782,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13229124806821346,
      "step": 2041
    },
    {
      "epoch": 0.3403333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 5.948372395833333,
      "learning_rate": 7.40647387490105e-05,
      "loss": 6.6093,
      "loss/crossentropy": 1.532645732164383,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1355065293610096,
      "step": 2042
    },
    {
      "epoch": 0.3405,
      "grad_norm": 24.375,
      "grad_norm_var": 6.033333333333333,
      "learning_rate": 7.404178719545063e-05,
      "loss": 6.2872,
      "loss/crossentropy": 1.447757601737976,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16011513955891132,
      "step": 2043
    },
    {
      "epoch": 0.3406666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 6.093489583333334,
      "learning_rate": 7.401882905069843e-05,
      "loss": 6.1512,
      "loss/crossentropy": 1.6423096358776093,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2037220001220703,
      "step": 2044
    },
    {
      "epoch": 0.3408333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 6.520572916666667,
      "learning_rate": 7.399586432104804e-05,
      "loss": 5.5767,
      "loss/crossentropy": 1.2328914552927017,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15211664699018002,
      "step": 2045
    },
    {
      "epoch": 0.341,
      "grad_norm": 24.125,
      "grad_norm_var": 6.550455729166667,
      "learning_rate": 7.397289301279533e-05,
      "loss": 6.1352,
      "loss/crossentropy": 1.3195256888866425,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17658653296530247,
      "step": 2046
    },
    {
      "epoch": 0.3411666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 1.7018229166666667,
      "learning_rate": 7.394991513223806e-05,
      "loss": 5.8644,
      "loss/crossentropy": 1.2624150812625885,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13504065480083227,
      "step": 2047
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 25.0,
      "grad_norm_var": 1.7041015625,
      "learning_rate": 7.392693068567571e-05,
      "loss": 6.5726,
      "loss/crossentropy": 1.1198607385158539,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15476332232356071,
      "step": 2048
    },
    {
      "epoch": 0.3415,
      "grad_norm": 23.375,
      "grad_norm_var": 1.484375,
      "learning_rate": 7.390393967940962e-05,
      "loss": 6.2921,
      "loss/crossentropy": 1.319820836186409,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21960353665053844,
      "step": 2049
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 27.875,
      "grad_norm_var": 1.78515625,
      "learning_rate": 7.388094211974287e-05,
      "loss": 6.399,
      "loss/crossentropy": 1.8906813710927963,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15590496733784676,
      "step": 2050
    },
    {
      "epoch": 0.3418333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 2.3572265625,
      "learning_rate": 7.385793801298042e-05,
      "loss": 6.6587,
      "loss/crossentropy": 2.1284677386283875,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.2884773947298527,
      "step": 2051
    },
    {
      "epoch": 0.342,
      "grad_norm": 28.75,
      "grad_norm_var": 3.226822916666667,
      "learning_rate": 7.383492736542895e-05,
      "loss": 6.6549,
      "loss/crossentropy": 1.1273644790053368,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.141436786390841,
      "step": 2052
    },
    {
      "epoch": 0.3421666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 3.2135416666666665,
      "learning_rate": 7.381191018339696e-05,
      "loss": 5.9836,
      "loss/crossentropy": 1.3310924917459488,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10780161432921886,
      "step": 2053
    },
    {
      "epoch": 0.3423333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 3.1681640625,
      "learning_rate": 7.378888647319474e-05,
      "loss": 6.6396,
      "loss/crossentropy": 1.5492748022079468,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13633034750819206,
      "step": 2054
    },
    {
      "epoch": 0.3425,
      "grad_norm": 25.375,
      "grad_norm_var": 3.0747395833333333,
      "learning_rate": 7.376585624113437e-05,
      "loss": 6.3987,
      "loss/crossentropy": 1.3345090448856354,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14338783733546734,
      "step": 2055
    },
    {
      "epoch": 0.3426666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 3.075,
      "learning_rate": 7.374281949352973e-05,
      "loss": 5.8869,
      "loss/crossentropy": 0.735186830163002,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10924943722784519,
      "step": 2056
    },
    {
      "epoch": 0.3428333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 2.970833333333333,
      "learning_rate": 7.371977623669647e-05,
      "loss": 6.2894,
      "loss/crossentropy": 0.946521706879139,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1121279839426279,
      "step": 2057
    },
    {
      "epoch": 0.343,
      "grad_norm": 24.875,
      "grad_norm_var": 2.875,
      "learning_rate": 7.369672647695202e-05,
      "loss": 6.4116,
      "loss/crossentropy": 0.9796743094921112,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12075681239366531,
      "step": 2058
    },
    {
      "epoch": 0.3431666666666667,
      "grad_norm": 25.625,
      "grad_norm_var": 2.84765625,
      "learning_rate": 7.36736702206156e-05,
      "loss": 6.6306,
      "loss/crossentropy": 1.9116479754447937,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15848513692617416,
      "step": 2059
    },
    {
      "epoch": 0.3433333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 2.803125,
      "learning_rate": 7.365060747400824e-05,
      "loss": 5.9928,
      "loss/crossentropy": 1.1580714583396912,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10187970846891403,
      "step": 2060
    },
    {
      "epoch": 0.3435,
      "grad_norm": 24.5,
      "grad_norm_var": 2.2796223958333335,
      "learning_rate": 7.362753824345272e-05,
      "loss": 6.5199,
      "loss/crossentropy": 1.468303605914116,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1299179382622242,
      "step": 2061
    },
    {
      "epoch": 0.3436666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 2.1747395833333334,
      "learning_rate": 7.360446253527355e-05,
      "loss": 6.5519,
      "loss/crossentropy": 2.053788870573044,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20386878214776516,
      "step": 2062
    },
    {
      "epoch": 0.3438333333333333,
      "grad_norm": 24.5,
      "grad_norm_var": 2.1186848958333333,
      "learning_rate": 7.358138035579711e-05,
      "loss": 6.603,
      "loss/crossentropy": 1.516444355249405,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19017252698540688,
      "step": 2063
    },
    {
      "epoch": 0.344,
      "grad_norm": 27.375,
      "grad_norm_var": 2.330208333333333,
      "learning_rate": 7.355829171135153e-05,
      "loss": 6.4432,
      "loss/crossentropy": 1.9500724375247955,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16180790215730667,
      "step": 2064
    },
    {
      "epoch": 0.3441666666666667,
      "grad_norm": 29.875,
      "grad_norm_var": 3.0479166666666666,
      "learning_rate": 7.353519660826665e-05,
      "loss": 6.7284,
      "loss/crossentropy": 1.4887724220752716,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1809433065354824,
      "step": 2065
    },
    {
      "epoch": 0.3443333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 3.0176432291666666,
      "learning_rate": 7.351209505287412e-05,
      "loss": 6.5517,
      "loss/crossentropy": 1.3793807178735733,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18661054223775864,
      "step": 2066
    },
    {
      "epoch": 0.3445,
      "grad_norm": 26.375,
      "grad_norm_var": 2.8431640625,
      "learning_rate": 7.34889870515074e-05,
      "loss": 6.1522,
      "loss/crossentropy": 1.4959595054388046,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13126321136951447,
      "step": 2067
    },
    {
      "epoch": 0.3446666666666667,
      "grad_norm": 26.5,
      "grad_norm_var": 2.3087890625,
      "learning_rate": 7.346587261050165e-05,
      "loss": 6.9206,
      "loss/crossentropy": 1.5054858922958374,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15100262500345707,
      "step": 2068
    },
    {
      "epoch": 0.3448333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 2.22265625,
      "learning_rate": 7.344275173619385e-05,
      "loss": 6.714,
      "loss/crossentropy": 2.0645424723625183,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1504767220467329,
      "step": 2069
    },
    {
      "epoch": 0.345,
      "grad_norm": 26.625,
      "grad_norm_var": 2.2625,
      "learning_rate": 7.34196244349227e-05,
      "loss": 6.2995,
      "loss/crossentropy": 1.0209644883871078,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07980777695775032,
      "step": 2070
    },
    {
      "epoch": 0.3451666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 2.255143229166667,
      "learning_rate": 7.339649071302867e-05,
      "loss": 6.0914,
      "loss/crossentropy": 0.9387282580137253,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15073097869753838,
      "step": 2071
    },
    {
      "epoch": 0.3453333333333333,
      "grad_norm": 26.875,
      "grad_norm_var": 2.2697265625,
      "learning_rate": 7.337335057685404e-05,
      "loss": 6.6897,
      "loss/crossentropy": 2.301289290189743,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1555800996720791,
      "step": 2072
    },
    {
      "epoch": 0.3455,
      "grad_norm": 25.5,
      "grad_norm_var": 2.1806640625,
      "learning_rate": 7.335020403274278e-05,
      "loss": 6.2857,
      "loss/crossentropy": 1.4303410649299622,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17372306063771248,
      "step": 2073
    },
    {
      "epoch": 0.3456666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 2.5122395833333333,
      "learning_rate": 7.332705108704064e-05,
      "loss": 6.3477,
      "loss/crossentropy": 2.0350736379623413,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16502073407173157,
      "step": 2074
    },
    {
      "epoch": 0.3458333333333333,
      "grad_norm": 25.375,
      "grad_norm_var": 2.527083333333333,
      "learning_rate": 7.330389174609515e-05,
      "loss": 6.5783,
      "loss/crossentropy": 1.204217091202736,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23496807366609573,
      "step": 2075
    },
    {
      "epoch": 0.346,
      "grad_norm": 25.5,
      "grad_norm_var": 2.2802083333333334,
      "learning_rate": 7.328072601625557e-05,
      "loss": 6.2706,
      "loss/crossentropy": 1.2463089525699615,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13645096123218536,
      "step": 2076
    },
    {
      "epoch": 0.3461666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 2.2330729166666665,
      "learning_rate": 7.325755390387292e-05,
      "loss": 6.6614,
      "loss/crossentropy": 2.233774185180664,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16026505827903748,
      "step": 2077
    },
    {
      "epoch": 0.3463333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 2.3238932291666665,
      "learning_rate": 7.323437541529996e-05,
      "loss": 6.2747,
      "loss/crossentropy": 1.5675099939107895,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14439714513719082,
      "step": 2078
    },
    {
      "epoch": 0.3465,
      "grad_norm": 25.0,
      "grad_norm_var": 2.238997395833333,
      "learning_rate": 7.32111905568912e-05,
      "loss": 6.597,
      "loss/crossentropy": 1.566147044301033,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2070610597729683,
      "step": 2079
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 25.75,
      "grad_norm_var": 2.1145833333333335,
      "learning_rate": 7.318799933500291e-05,
      "loss": 6.511,
      "loss/crossentropy": 1.0351751297712326,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16430101543664932,
      "step": 2080
    },
    {
      "epoch": 0.3468333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 1.0139973958333333,
      "learning_rate": 7.316480175599309e-05,
      "loss": 6.2213,
      "loss/crossentropy": 1.196278639137745,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1361120529472828,
      "step": 2081
    },
    {
      "epoch": 0.347,
      "grad_norm": 28.75,
      "grad_norm_var": 1.3546223958333334,
      "learning_rate": 7.314159782622149e-05,
      "loss": 6.9565,
      "loss/crossentropy": 0.9685052782297134,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2789497822523117,
      "step": 2082
    },
    {
      "epoch": 0.3471666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.5291015625,
      "learning_rate": 7.311838755204959e-05,
      "loss": 6.4791,
      "loss/crossentropy": 1.4025519639253616,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19438900612294674,
      "step": 2083
    },
    {
      "epoch": 0.3473333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 1.4827473958333333,
      "learning_rate": 7.309517093984063e-05,
      "loss": 6.4143,
      "loss/crossentropy": 1.6259815990924835,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1760217472910881,
      "step": 2084
    },
    {
      "epoch": 0.3475,
      "grad_norm": 24.875,
      "grad_norm_var": 1.5104166666666667,
      "learning_rate": 7.307194799595958e-05,
      "loss": 6.4808,
      "loss/crossentropy": 1.8225041329860687,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1597402673214674,
      "step": 2085
    },
    {
      "epoch": 0.3476666666666667,
      "grad_norm": 27.25,
      "grad_norm_var": 1.6285807291666667,
      "learning_rate": 7.304871872677312e-05,
      "loss": 6.7475,
      "loss/crossentropy": 1.635858565568924,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17438735254108906,
      "step": 2086
    },
    {
      "epoch": 0.3478333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 1.75390625,
      "learning_rate": 7.30254831386497e-05,
      "loss": 6.3008,
      "loss/crossentropy": 2.235389322042465,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21120165288448334,
      "step": 2087
    },
    {
      "epoch": 0.348,
      "grad_norm": 27.25,
      "grad_norm_var": 1.8337890625,
      "learning_rate": 7.30022412379595e-05,
      "loss": 6.8324,
      "loss/crossentropy": 2.1784474551677704,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22978319600224495,
      "step": 2088
    },
    {
      "epoch": 0.3481666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 1.8337890625,
      "learning_rate": 7.297899303107441e-05,
      "loss": 6.8122,
      "loss/crossentropy": 1.4490180909633636,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18124259635806084,
      "step": 2089
    },
    {
      "epoch": 0.34833333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 1.5705729166666667,
      "learning_rate": 7.295573852436803e-05,
      "loss": 6.6766,
      "loss/crossentropy": 1.676790401339531,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1643376275897026,
      "step": 2090
    },
    {
      "epoch": 0.3485,
      "grad_norm": 25.25,
      "grad_norm_var": 1.5749348958333333,
      "learning_rate": 7.293247772421576e-05,
      "loss": 6.3059,
      "loss/crossentropy": 1.3203185498714447,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12811829708516598,
      "step": 2091
    },
    {
      "epoch": 0.3486666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 1.6309895833333334,
      "learning_rate": 7.290921063699465e-05,
      "loss": 6.4961,
      "loss/crossentropy": 2.099524885416031,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22247199714183807,
      "step": 2092
    },
    {
      "epoch": 0.34883333333333333,
      "grad_norm": 25.0,
      "grad_norm_var": 1.609375,
      "learning_rate": 7.28859372690835e-05,
      "loss": 6.2242,
      "loss/crossentropy": 1.703721433877945,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14235972240567207,
      "step": 2093
    },
    {
      "epoch": 0.349,
      "grad_norm": 25.875,
      "grad_norm_var": 1.5559895833333333,
      "learning_rate": 7.286265762686287e-05,
      "loss": 6.6944,
      "loss/crossentropy": 2.5278759002685547,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19361069425940514,
      "step": 2094
    },
    {
      "epoch": 0.3491666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 1.5952473958333333,
      "learning_rate": 7.283937171671498e-05,
      "loss": 6.3081,
      "loss/crossentropy": 1.294118344783783,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14704673923552036,
      "step": 2095
    },
    {
      "epoch": 0.34933333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 1.5934895833333333,
      "learning_rate": 7.28160795450238e-05,
      "loss": 6.4611,
      "loss/crossentropy": 1.18325275182724,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10956531669944525,
      "step": 2096
    },
    {
      "epoch": 0.3495,
      "grad_norm": 26.5,
      "grad_norm_var": 1.6455729166666666,
      "learning_rate": 7.279278111817501e-05,
      "loss": 6.5724,
      "loss/crossentropy": 1.8291121423244476,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31464676558971405,
      "step": 2097
    },
    {
      "epoch": 0.3496666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 0.9639973958333333,
      "learning_rate": 7.2769476442556e-05,
      "loss": 6.3467,
      "loss/crossentropy": 1.5818838477134705,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16059700399637222,
      "step": 2098
    },
    {
      "epoch": 0.34983333333333333,
      "grad_norm": 26.0,
      "grad_norm_var": 0.81015625,
      "learning_rate": 7.274616552455589e-05,
      "loss": 6.995,
      "loss/crossentropy": 2.1779424846172333,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20389820635318756,
      "step": 2099
    },
    {
      "epoch": 0.35,
      "grad_norm": 27.625,
      "grad_norm_var": 1.0733723958333334,
      "learning_rate": 7.272284837056549e-05,
      "loss": 6.6899,
      "loss/crossentropy": 1.99515900015831,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2316904552280903,
      "step": 2100
    },
    {
      "epoch": 0.3501666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 1.1030598958333333,
      "learning_rate": 7.269952498697734e-05,
      "loss": 6.286,
      "loss/crossentropy": 1.635018229484558,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.14872408285737038,
      "step": 2101
    },
    {
      "epoch": 0.35033333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 0.9677083333333333,
      "learning_rate": 7.267619538018568e-05,
      "loss": 6.4425,
      "loss/crossentropy": 1.6493850648403168,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1802327111363411,
      "step": 2102
    },
    {
      "epoch": 0.3505,
      "grad_norm": 25.25,
      "grad_norm_var": 0.8452473958333333,
      "learning_rate": 7.265285955658645e-05,
      "loss": 6.1765,
      "loss/crossentropy": 1.3293437063694,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14337629452347755,
      "step": 2103
    },
    {
      "epoch": 0.3506666666666667,
      "grad_norm": 25.625,
      "grad_norm_var": 0.6395833333333333,
      "learning_rate": 7.262951752257728e-05,
      "loss": 6.5427,
      "loss/crossentropy": 2.0819090604782104,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1567770093679428,
      "step": 2104
    },
    {
      "epoch": 0.35083333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 0.6684895833333333,
      "learning_rate": 7.260616928455754e-05,
      "loss": 6.163,
      "loss/crossentropy": 1.5334153026342392,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13770345225930214,
      "step": 2105
    },
    {
      "epoch": 0.351,
      "grad_norm": 24.75,
      "grad_norm_var": 0.6905598958333333,
      "learning_rate": 7.258281484892829e-05,
      "loss": 6.5862,
      "loss/crossentropy": 1.5847267359495163,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20477010123431683,
      "step": 2106
    },
    {
      "epoch": 0.3511666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 0.6934895833333333,
      "learning_rate": 7.255945422209227e-05,
      "loss": 6.2252,
      "loss/crossentropy": 1.0851683616638184,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1460659857839346,
      "step": 2107
    },
    {
      "epoch": 0.35133333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 0.7791015625,
      "learning_rate": 7.253608741045391e-05,
      "loss": 6.3117,
      "loss/crossentropy": 1.2493304908275604,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21792140789330006,
      "step": 2108
    },
    {
      "epoch": 0.3515,
      "grad_norm": 26.5,
      "grad_norm_var": 0.8556640625,
      "learning_rate": 7.251271442041938e-05,
      "loss": 6.4874,
      "loss/crossentropy": 1.731768861413002,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14041067566722631,
      "step": 2109
    },
    {
      "epoch": 0.3516666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.0622395833333333,
      "learning_rate": 7.248933525839651e-05,
      "loss": 5.9062,
      "loss/crossentropy": 1.696493312716484,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12317219749093056,
      "step": 2110
    },
    {
      "epoch": 0.35183333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 1.2374348958333334,
      "learning_rate": 7.246594993079482e-05,
      "loss": 6.3623,
      "loss/crossentropy": 1.356092318892479,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13602804066613317,
      "step": 2111
    },
    {
      "epoch": 0.352,
      "grad_norm": 23.25,
      "grad_norm_var": 1.45390625,
      "learning_rate": 7.244255844402557e-05,
      "loss": 6.1369,
      "loss/crossentropy": 1.8075868785381317,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1707022227346897,
      "step": 2112
    },
    {
      "epoch": 0.3521666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 1.3056640625,
      "learning_rate": 7.241916080450163e-05,
      "loss": 6.37,
      "loss/crossentropy": 1.2924707680940628,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12523273564875126,
      "step": 2113
    },
    {
      "epoch": 0.35233333333333333,
      "grad_norm": 26.375,
      "grad_norm_var": 1.4306640625,
      "learning_rate": 7.239575701863758e-05,
      "loss": 6.6641,
      "loss/crossentropy": 2.1116667687892914,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18151173368096352,
      "step": 2114
    },
    {
      "epoch": 0.3525,
      "grad_norm": 27.125,
      "grad_norm_var": 1.65390625,
      "learning_rate": 7.237234709284975e-05,
      "loss": 6.5585,
      "loss/crossentropy": 1.8064931631088257,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15356514230370522,
      "step": 2115
    },
    {
      "epoch": 0.3526666666666667,
      "grad_norm": 24.25,
      "grad_norm_var": 1.2337890625,
      "learning_rate": 7.234893103355607e-05,
      "loss": 6.1604,
      "loss/crossentropy": 1.6059147417545319,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1656467691063881,
      "step": 2116
    },
    {
      "epoch": 0.35283333333333333,
      "grad_norm": 24.875,
      "grad_norm_var": 1.2285807291666666,
      "learning_rate": 7.232550884717617e-05,
      "loss": 6.1894,
      "loss/crossentropy": 1.2508351802825928,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.20565029606223106,
      "step": 2117
    },
    {
      "epoch": 0.353,
      "grad_norm": 23.875,
      "grad_norm_var": 1.2926432291666667,
      "learning_rate": 7.230208054013144e-05,
      "loss": 6.4468,
      "loss/crossentropy": 1.9123449474573135,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1513944137841463,
      "step": 2118
    },
    {
      "epoch": 0.3531666666666667,
      "grad_norm": 28.25,
      "grad_norm_var": 2.0082682291666667,
      "learning_rate": 7.227864611884483e-05,
      "loss": 6.283,
      "loss/crossentropy": 1.3711878210306168,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12422642484307289,
      "step": 2119
    },
    {
      "epoch": 0.35333333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 1.9858723958333333,
      "learning_rate": 7.225520558974101e-05,
      "loss": 6.3418,
      "loss/crossentropy": 1.577699452638626,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14933530613780022,
      "step": 2120
    },
    {
      "epoch": 0.3535,
      "grad_norm": 23.625,
      "grad_norm_var": 2.1059895833333333,
      "learning_rate": 7.223175895924638e-05,
      "loss": 6.0123,
      "loss/crossentropy": 1.43889120221138,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12383865565061569,
      "step": 2121
    },
    {
      "epoch": 0.3536666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 2.195572916666667,
      "learning_rate": 7.220830623378893e-05,
      "loss": 6.2933,
      "loss/crossentropy": 1.6707587391138077,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12483302131295204,
      "step": 2122
    },
    {
      "epoch": 0.35383333333333333,
      "grad_norm": 24.5,
      "grad_norm_var": 2.200455729166667,
      "learning_rate": 7.218484741979838e-05,
      "loss": 6.6414,
      "loss/crossentropy": 1.5115027874708176,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14025087654590607,
      "step": 2123
    },
    {
      "epoch": 0.354,
      "grad_norm": 25.375,
      "grad_norm_var": 2.1625,
      "learning_rate": 7.216138252370609e-05,
      "loss": 6.5272,
      "loss/crossentropy": 0.8813129514455795,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16446390002965927,
      "step": 2124
    },
    {
      "epoch": 0.3541666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 2.1712890625,
      "learning_rate": 7.21379115519451e-05,
      "loss": 6.1058,
      "loss/crossentropy": 1.6469712555408478,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16059293039143085,
      "step": 2125
    },
    {
      "epoch": 0.35433333333333333,
      "grad_norm": 27.875,
      "grad_norm_var": 2.652083333333333,
      "learning_rate": 7.211443451095007e-05,
      "loss": 6.6637,
      "loss/crossentropy": 1.2421512454748154,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17077083326876163,
      "step": 2126
    },
    {
      "epoch": 0.3545,
      "grad_norm": 27.0,
      "grad_norm_var": 2.7177083333333334,
      "learning_rate": 7.209095140715741e-05,
      "loss": 6.6439,
      "loss/crossentropy": 1.439358964562416,
      "loss/hidden": 3.58984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19313569739460945,
      "step": 2127
    },
    {
      "epoch": 0.3546666666666667,
      "grad_norm": 26.5,
      "grad_norm_var": 2.5247395833333335,
      "learning_rate": 7.206746224700513e-05,
      "loss": 6.4743,
      "loss/crossentropy": 0.8573123812675476,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1311497688293457,
      "step": 2128
    },
    {
      "epoch": 0.35483333333333333,
      "grad_norm": 27.625,
      "grad_norm_var": 2.81640625,
      "learning_rate": 7.204396703693294e-05,
      "loss": 6.1563,
      "loss/crossentropy": 1.3559307008981705,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17008488066494465,
      "step": 2129
    },
    {
      "epoch": 0.355,
      "grad_norm": 27.125,
      "grad_norm_var": 2.93125,
      "learning_rate": 7.202046578338214e-05,
      "loss": 6.4081,
      "loss/crossentropy": 1.9209454655647278,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.193295169621706,
      "step": 2130
    },
    {
      "epoch": 0.3551666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 2.7759765625,
      "learning_rate": 7.199695849279576e-05,
      "loss": 6.3576,
      "loss/crossentropy": 1.5725038349628448,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22985109686851501,
      "step": 2131
    },
    {
      "epoch": 0.35533333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 3.04375,
      "learning_rate": 7.197344517161846e-05,
      "loss": 6.2953,
      "loss/crossentropy": 2.169693201780319,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13692422583699226,
      "step": 2132
    },
    {
      "epoch": 0.3555,
      "grad_norm": 24.25,
      "grad_norm_var": 3.1150390625,
      "learning_rate": 7.194992582629654e-05,
      "loss": 6.315,
      "loss/crossentropy": 1.6246918737888336,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20228200778365135,
      "step": 2133
    },
    {
      "epoch": 0.3556666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 2.965625,
      "learning_rate": 7.192640046327795e-05,
      "loss": 5.9393,
      "loss/crossentropy": 1.1971787810325623,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13210347667336464,
      "step": 2134
    },
    {
      "epoch": 0.35583333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 2.4625,
      "learning_rate": 7.190286908901234e-05,
      "loss": 6.7364,
      "loss/crossentropy": 1.4462400674819946,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16840087063610554,
      "step": 2135
    },
    {
      "epoch": 0.356,
      "grad_norm": 27.0,
      "grad_norm_var": 2.6353515625,
      "learning_rate": 7.187933170995094e-05,
      "loss": 6.6335,
      "loss/crossentropy": 1.4640312045812607,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20460499450564384,
      "step": 2136
    },
    {
      "epoch": 0.3561666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 2.47265625,
      "learning_rate": 7.185578833254664e-05,
      "loss": 6.2412,
      "loss/crossentropy": 1.3396121561527252,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24686910025775433,
      "step": 2137
    },
    {
      "epoch": 0.35633333333333334,
      "grad_norm": 28.625,
      "grad_norm_var": 2.8306640625,
      "learning_rate": 7.183223896325404e-05,
      "loss": 6.9714,
      "loss/crossentropy": 1.304390624165535,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09887832868844271,
      "step": 2138
    },
    {
      "epoch": 0.3565,
      "grad_norm": 26.5,
      "grad_norm_var": 2.7369140625,
      "learning_rate": 7.18086836085293e-05,
      "loss": 6.9694,
      "loss/crossentropy": 1.968567430973053,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21577246487140656,
      "step": 2139
    },
    {
      "epoch": 0.3566666666666667,
      "grad_norm": 28.375,
      "grad_norm_var": 3.0837890625,
      "learning_rate": 7.178512227483027e-05,
      "loss": 6.8,
      "loss/crossentropy": 1.071502760052681,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17898064106702805,
      "step": 2140
    },
    {
      "epoch": 0.35683333333333334,
      "grad_norm": 26.375,
      "grad_norm_var": 2.4541015625,
      "learning_rate": 7.176155496861638e-05,
      "loss": 6.6621,
      "loss/crossentropy": 2.1758844554424286,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16392355039715767,
      "step": 2141
    },
    {
      "epoch": 0.357,
      "grad_norm": 23.25,
      "grad_norm_var": 2.82265625,
      "learning_rate": 7.17379816963488e-05,
      "loss": 6.2865,
      "loss/crossentropy": 1.1372596770524979,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09655275661498308,
      "step": 2142
    },
    {
      "epoch": 0.3571666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 2.7962890625,
      "learning_rate": 7.171440246449024e-05,
      "loss": 6.4391,
      "loss/crossentropy": 2.077265501022339,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22107884474098682,
      "step": 2143
    },
    {
      "epoch": 0.35733333333333334,
      "grad_norm": 25.875,
      "grad_norm_var": 2.7705729166666666,
      "learning_rate": 7.169081727950509e-05,
      "loss": 6.3824,
      "loss/crossentropy": 1.917134404182434,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18462300673127174,
      "step": 2144
    },
    {
      "epoch": 0.3575,
      "grad_norm": 23.75,
      "grad_norm_var": 2.7968098958333334,
      "learning_rate": 7.166722614785937e-05,
      "loss": 6.2861,
      "loss/crossentropy": 1.159701131284237,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13046432565897703,
      "step": 2145
    },
    {
      "epoch": 0.3576666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 2.8893229166666665,
      "learning_rate": 7.164362907602072e-05,
      "loss": 6.4135,
      "loss/crossentropy": 1.908433198928833,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23581706918776035,
      "step": 2146
    },
    {
      "epoch": 0.35783333333333334,
      "grad_norm": 23.125,
      "grad_norm_var": 3.2113932291666667,
      "learning_rate": 7.162002607045838e-05,
      "loss": 6.2506,
      "loss/crossentropy": 1.3457779437303543,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1181199662387371,
      "step": 2147
    },
    {
      "epoch": 0.358,
      "grad_norm": 26.25,
      "grad_norm_var": 2.9330729166666667,
      "learning_rate": 7.159641713764329e-05,
      "loss": 6.6336,
      "loss/crossentropy": 1.6581422686576843,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22892947494983673,
      "step": 2148
    },
    {
      "epoch": 0.3581666666666667,
      "grad_norm": 25.75,
      "grad_norm_var": 2.8330729166666666,
      "learning_rate": 7.157280228404795e-05,
      "loss": 6.3323,
      "loss/crossentropy": 1.8187077045440674,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1490636169910431,
      "step": 2149
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 24.875,
      "grad_norm_var": 2.8442057291666667,
      "learning_rate": 7.154918151614653e-05,
      "loss": 6.4815,
      "loss/crossentropy": 1.089523583650589,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12863101344555616,
      "step": 2150
    },
    {
      "epoch": 0.3585,
      "grad_norm": 36.5,
      "grad_norm_var": 10.334830729166667,
      "learning_rate": 7.152555484041476e-05,
      "loss": 6.4132,
      "loss/crossentropy": 1.8334980607032776,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1672510877251625,
      "step": 2151
    },
    {
      "epoch": 0.3586666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 10.4375,
      "learning_rate": 7.150192226333007e-05,
      "loss": 6.1503,
      "loss/crossentropy": 1.1742160022258759,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15653837658464909,
      "step": 2152
    },
    {
      "epoch": 0.35883333333333334,
      "grad_norm": 26.75,
      "grad_norm_var": 10.28515625,
      "learning_rate": 7.147828379137142e-05,
      "loss": 6.5658,
      "loss/crossentropy": 1.5104528740048409,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1130983866751194,
      "step": 2153
    },
    {
      "epoch": 0.359,
      "grad_norm": 27.625,
      "grad_norm_var": 10.024739583333334,
      "learning_rate": 7.145463943101946e-05,
      "loss": 6.2773,
      "loss/crossentropy": 1.410354197025299,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1554566826671362,
      "step": 2154
    },
    {
      "epoch": 0.3591666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 10.039322916666666,
      "learning_rate": 7.143098918875643e-05,
      "loss": 6.2427,
      "loss/crossentropy": 1.4410718083381653,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19013636000454426,
      "step": 2155
    },
    {
      "epoch": 0.35933333333333334,
      "grad_norm": 24.75,
      "grad_norm_var": 9.750455729166667,
      "learning_rate": 7.140733307106615e-05,
      "loss": 6.3726,
      "loss/crossentropy": 2.1068616658449173,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18215878307819366,
      "step": 2156
    },
    {
      "epoch": 0.3595,
      "grad_norm": 24.25,
      "grad_norm_var": 9.884375,
      "learning_rate": 7.138367108443411e-05,
      "loss": 6.2139,
      "loss/crossentropy": 1.5023860484361649,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.174374807626009,
      "step": 2157
    },
    {
      "epoch": 0.3596666666666667,
      "grad_norm": 24.875,
      "grad_norm_var": 9.514518229166667,
      "learning_rate": 7.136000323534735e-05,
      "loss": 6.1308,
      "loss/crossentropy": 1.2661718875169754,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11370100826025009,
      "step": 2158
    },
    {
      "epoch": 0.35983333333333334,
      "grad_norm": 25.0,
      "grad_norm_var": 9.527083333333334,
      "learning_rate": 7.133632953029457e-05,
      "loss": 6.2598,
      "loss/crossentropy": 1.4998142719268799,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15391533263027668,
      "step": 2159
    },
    {
      "epoch": 0.36,
      "grad_norm": 26.5,
      "grad_norm_var": 9.556705729166667,
      "learning_rate": 7.131264997576604e-05,
      "loss": 6.7176,
      "loss/crossentropy": 1.268602192401886,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0989929772913456,
      "step": 2160
    },
    {
      "epoch": 0.3601666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 9.490559895833334,
      "learning_rate": 7.128896457825364e-05,
      "loss": 6.4979,
      "loss/crossentropy": 1.9025264084339142,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13896254636347294,
      "step": 2161
    },
    {
      "epoch": 0.36033333333333334,
      "grad_norm": 25.375,
      "grad_norm_var": 9.118489583333334,
      "learning_rate": 7.126527334425086e-05,
      "loss": 6.3418,
      "loss/crossentropy": 1.2585598677396774,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16038289293646812,
      "step": 2162
    },
    {
      "epoch": 0.3605,
      "grad_norm": 25.75,
      "grad_norm_var": 8.548372395833333,
      "learning_rate": 7.124157628025278e-05,
      "loss": 6.5247,
      "loss/crossentropy": 1.6544573307037354,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14427639357745647,
      "step": 2163
    },
    {
      "epoch": 0.3606666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 8.716080729166666,
      "learning_rate": 7.12178733927561e-05,
      "loss": 6.4437,
      "loss/crossentropy": 1.594163328409195,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17001710832118988,
      "step": 2164
    },
    {
      "epoch": 0.36083333333333334,
      "grad_norm": 26.125,
      "grad_norm_var": 8.710416666666667,
      "learning_rate": 7.119416468825908e-05,
      "loss": 6.3206,
      "loss/crossentropy": 1.258611485362053,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13321016356348991,
      "step": 2165
    },
    {
      "epoch": 0.361,
      "grad_norm": 25.75,
      "grad_norm_var": 8.6197265625,
      "learning_rate": 7.117045017326162e-05,
      "loss": 6.5653,
      "loss/crossentropy": 1.7593506872653961,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15247052907943726,
      "step": 2166
    },
    {
      "epoch": 0.3611666666666667,
      "grad_norm": 26.375,
      "grad_norm_var": 1.01015625,
      "learning_rate": 7.114672985426516e-05,
      "loss": 6.4326,
      "loss/crossentropy": 1.785620391368866,
      "loss/hidden": 3.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1983339823782444,
      "step": 2167
    },
    {
      "epoch": 0.36133333333333334,
      "grad_norm": 23.5,
      "grad_norm_var": 1.2181640625,
      "learning_rate": 7.112300373777279e-05,
      "loss": 6.2165,
      "loss/crossentropy": 0.8714535534381866,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11622252874076366,
      "step": 2168
    },
    {
      "epoch": 0.3615,
      "grad_norm": 22.0,
      "grad_norm_var": 1.7822265625,
      "learning_rate": 7.109927183028914e-05,
      "loss": 6.0213,
      "loss/crossentropy": 1.338595375418663,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14965590089559555,
      "step": 2169
    },
    {
      "epoch": 0.3616666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 1.3416015625,
      "learning_rate": 7.107553413832047e-05,
      "loss": 5.8642,
      "loss/crossentropy": 1.4863041639328003,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16500614024698734,
      "step": 2170
    },
    {
      "epoch": 0.36183333333333334,
      "grad_norm": 26.25,
      "grad_norm_var": 1.4337890625,
      "learning_rate": 7.105179066837456e-05,
      "loss": 6.3971,
      "loss/crossentropy": 1.9714933037757874,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2161382921040058,
      "step": 2171
    },
    {
      "epoch": 0.362,
      "grad_norm": 24.875,
      "grad_norm_var": 1.4309895833333333,
      "learning_rate": 7.102804142696085e-05,
      "loss": 6.2166,
      "loss/crossentropy": 1.4301041662693024,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12860921397805214,
      "step": 2172
    },
    {
      "epoch": 0.3621666666666667,
      "grad_norm": 25.0,
      "grad_norm_var": 1.3927083333333334,
      "learning_rate": 7.100428642059033e-05,
      "loss": 6.4192,
      "loss/crossentropy": 1.5484662652015686,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18176797591149807,
      "step": 2173
    },
    {
      "epoch": 0.36233333333333334,
      "grad_norm": 26.625,
      "grad_norm_var": 1.54765625,
      "learning_rate": 7.098052565577553e-05,
      "loss": 6.3571,
      "loss/crossentropy": 1.7421440929174423,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1489432081580162,
      "step": 2174
    },
    {
      "epoch": 0.3625,
      "grad_norm": 27.625,
      "grad_norm_var": 1.9291015625,
      "learning_rate": 7.095675913903067e-05,
      "loss": 6.9133,
      "loss/crossentropy": 1.2481993734836578,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24905757047235966,
      "step": 2175
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 26.5,
      "grad_norm_var": 1.9291015625,
      "learning_rate": 7.09329868768714e-05,
      "loss": 6.4902,
      "loss/crossentropy": 0.8798205778002739,
      "loss/hidden": 2.84765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09972808882594109,
      "step": 2176
    },
    {
      "epoch": 0.36283333333333334,
      "grad_norm": 24.625,
      "grad_norm_var": 1.8447916666666666,
      "learning_rate": 7.090920887581506e-05,
      "loss": 6.4658,
      "loss/crossentropy": 1.6556984782218933,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19024936482310295,
      "step": 2177
    },
    {
      "epoch": 0.363,
      "grad_norm": 29.0,
      "grad_norm_var": 2.6811848958333333,
      "learning_rate": 7.088542514238055e-05,
      "loss": 6.9086,
      "loss/crossentropy": 1.3979274183511734,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20643511693924665,
      "step": 2178
    },
    {
      "epoch": 0.3631666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 2.832291666666667,
      "learning_rate": 7.086163568308828e-05,
      "loss": 6.6988,
      "loss/crossentropy": 1.324306845664978,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1275169439613819,
      "step": 2179
    },
    {
      "epoch": 0.36333333333333334,
      "grad_norm": 24.625,
      "grad_norm_var": 2.8139973958333333,
      "learning_rate": 7.083784050446023e-05,
      "loss": 6.4006,
      "loss/crossentropy": 1.4283403158187866,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17379915714263916,
      "step": 2180
    },
    {
      "epoch": 0.3635,
      "grad_norm": 26.5,
      "grad_norm_var": 2.845833333333333,
      "learning_rate": 7.081403961302006e-05,
      "loss": 6.3689,
      "loss/crossentropy": 1.6026076972484589,
      "loss/hidden": 3.703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2768453508615494,
      "step": 2181
    },
    {
      "epoch": 0.3636666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 2.857291666666667,
      "learning_rate": 7.079023301529287e-05,
      "loss": 6.1128,
      "loss/crossentropy": 1.387670710682869,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19046571012586355,
      "step": 2182
    },
    {
      "epoch": 0.36383333333333334,
      "grad_norm": 27.5,
      "grad_norm_var": 3.044205729166667,
      "learning_rate": 7.07664207178054e-05,
      "loss": 5.9739,
      "loss/crossentropy": 0.5307977460324764,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10158245475031435,
      "step": 2183
    },
    {
      "epoch": 0.364,
      "grad_norm": 26.0,
      "grad_norm_var": 2.692643229166667,
      "learning_rate": 7.07426027270859e-05,
      "loss": 6.4416,
      "loss/crossentropy": 1.3674616515636444,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18880320712924004,
      "step": 2184
    },
    {
      "epoch": 0.3641666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 1.68515625,
      "learning_rate": 7.071877904966423e-05,
      "loss": 6.5853,
      "loss/crossentropy": 1.3670069575309753,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22806836664676666,
      "step": 2185
    },
    {
      "epoch": 0.36433333333333334,
      "grad_norm": 24.0,
      "grad_norm_var": 1.8306640625,
      "learning_rate": 7.069494969207174e-05,
      "loss": 6.1997,
      "loss/crossentropy": 1.2616102695465088,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.15109087154269218,
      "step": 2186
    },
    {
      "epoch": 0.3645,
      "grad_norm": 23.0,
      "grad_norm_var": 2.3994140625,
      "learning_rate": 7.067111466084145e-05,
      "loss": 6.0025,
      "loss/crossentropy": 1.087126113474369,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10303945653140545,
      "step": 2187
    },
    {
      "epoch": 0.36466666666666664,
      "grad_norm": 26.125,
      "grad_norm_var": 2.3369140625,
      "learning_rate": 7.064727396250783e-05,
      "loss": 6.4623,
      "loss/crossentropy": 1.2370976358652115,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16265286691486835,
      "step": 2188
    },
    {
      "epoch": 0.36483333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 2.97890625,
      "learning_rate": 7.062342760360696e-05,
      "loss": 6.1524,
      "loss/crossentropy": 1.7638957798480988,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1428994843736291,
      "step": 2189
    },
    {
      "epoch": 0.365,
      "grad_norm": 25.375,
      "grad_norm_var": 2.933333333333333,
      "learning_rate": 7.059957559067645e-05,
      "loss": 6.4051,
      "loss/crossentropy": 1.8785708546638489,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17133928649127483,
      "step": 2190
    },
    {
      "epoch": 0.36516666666666664,
      "grad_norm": 29.875,
      "grad_norm_var": 3.8309895833333334,
      "learning_rate": 7.057571793025544e-05,
      "loss": 6.7753,
      "loss/crossentropy": 2.072440415620804,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15387500450015068,
      "step": 2191
    },
    {
      "epoch": 0.36533333333333334,
      "grad_norm": 23.875,
      "grad_norm_var": 4.026497395833333,
      "learning_rate": 7.055185462888468e-05,
      "loss": 6.348,
      "loss/crossentropy": 1.3395399302244186,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13578440435230732,
      "step": 2192
    },
    {
      "epoch": 0.3655,
      "grad_norm": 24.5,
      "grad_norm_var": 4.044791666666667,
      "learning_rate": 7.05279856931064e-05,
      "loss": 6.4164,
      "loss/crossentropy": 1.4623360633850098,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17635064385831356,
      "step": 2193
    },
    {
      "epoch": 0.36566666666666664,
      "grad_norm": 23.375,
      "grad_norm_var": 3.514518229166667,
      "learning_rate": 7.050411112946442e-05,
      "loss": 6.1877,
      "loss/crossentropy": 1.5474084615707397,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16338032856583595,
      "step": 2194
    },
    {
      "epoch": 0.36583333333333334,
      "grad_norm": 24.625,
      "grad_norm_var": 3.2983723958333333,
      "learning_rate": 7.048023094450411e-05,
      "loss": 6.5132,
      "loss/crossentropy": 1.4788868576288223,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20830772444605827,
      "step": 2195
    },
    {
      "epoch": 0.366,
      "grad_norm": 25.5,
      "grad_norm_var": 3.28515625,
      "learning_rate": 7.045634514477229e-05,
      "loss": 6.3731,
      "loss/crossentropy": 1.3641767650842667,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14250504970550537,
      "step": 2196
    },
    {
      "epoch": 0.36616666666666664,
      "grad_norm": 24.5,
      "grad_norm_var": 3.189322916666667,
      "learning_rate": 7.043245373681747e-05,
      "loss": 6.1136,
      "loss/crossentropy": 0.8714599609375,
      "loss/hidden": 2.73828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10206838417798281,
      "step": 2197
    },
    {
      "epoch": 0.36633333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 3.4541666666666666,
      "learning_rate": 7.040855672718954e-05,
      "loss": 6.1111,
      "loss/crossentropy": 1.5874639749526978,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13877604342997074,
      "step": 2198
    },
    {
      "epoch": 0.3665,
      "grad_norm": 26.0,
      "grad_norm_var": 3.082291666666667,
      "learning_rate": 7.038465412244005e-05,
      "loss": 6.3315,
      "loss/crossentropy": 0.8231774121522903,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1541031263768673,
      "step": 2199
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 24.875,
      "grad_norm_var": 2.9879557291666665,
      "learning_rate": 7.036074592912203e-05,
      "loss": 6.4183,
      "loss/crossentropy": 0.863393135368824,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16333164647221565,
      "step": 2200
    },
    {
      "epoch": 0.36683333333333334,
      "grad_norm": 24.5,
      "grad_norm_var": 2.9830729166666665,
      "learning_rate": 7.033683215379002e-05,
      "loss": 6.5196,
      "loss/crossentropy": 1.207871451973915,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1445398759096861,
      "step": 2201
    },
    {
      "epoch": 0.367,
      "grad_norm": 27.625,
      "grad_norm_var": 3.4494140625,
      "learning_rate": 7.031291280300012e-05,
      "loss": 6.33,
      "loss/crossentropy": 1.5204015374183655,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12728233449161053,
      "step": 2202
    },
    {
      "epoch": 0.36716666666666664,
      "grad_norm": 24.375,
      "grad_norm_var": 3.2080729166666666,
      "learning_rate": 7.028898788331e-05,
      "loss": 6.5303,
      "loss/crossentropy": 1.7808352261781693,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1525455340743065,
      "step": 2203
    },
    {
      "epoch": 0.36733333333333335,
      "grad_norm": 25.25,
      "grad_norm_var": 3.130143229166667,
      "learning_rate": 7.026505740127878e-05,
      "loss": 6.3536,
      "loss/crossentropy": 1.4621290266513824,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13675129041075706,
      "step": 2204
    },
    {
      "epoch": 0.3675,
      "grad_norm": 26.875,
      "grad_norm_var": 2.9176432291666665,
      "learning_rate": 7.024112136346712e-05,
      "loss": 6.3574,
      "loss/crossentropy": 1.5200950503349304,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1332196593284607,
      "step": 2205
    },
    {
      "epoch": 0.36766666666666664,
      "grad_norm": 24.125,
      "grad_norm_var": 2.9957682291666665,
      "learning_rate": 7.021717977643726e-05,
      "loss": 6.4572,
      "loss/crossentropy": 1.3923613876104355,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1775439828634262,
      "step": 2206
    },
    {
      "epoch": 0.36783333333333335,
      "grad_norm": 24.125,
      "grad_norm_var": 1.4624348958333333,
      "learning_rate": 7.019323264675289e-05,
      "loss": 5.9651,
      "loss/crossentropy": 1.3438909351825714,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11351734399795532,
      "step": 2207
    },
    {
      "epoch": 0.368,
      "grad_norm": 26.75,
      "grad_norm_var": 1.6166666666666667,
      "learning_rate": 7.016927998097926e-05,
      "loss": 6.6709,
      "loss/crossentropy": 1.7507257163524628,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1588374264538288,
      "step": 2208
    },
    {
      "epoch": 0.36816666666666664,
      "grad_norm": 25.875,
      "grad_norm_var": 1.6431640625,
      "learning_rate": 7.014532178568314e-05,
      "loss": 6.3551,
      "loss/crossentropy": 1.51715786755085,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1766318790614605,
      "step": 2209
    },
    {
      "epoch": 0.36833333333333335,
      "grad_norm": 24.5,
      "grad_norm_var": 1.465625,
      "learning_rate": 7.01213580674328e-05,
      "loss": 6.1568,
      "loss/crossentropy": 1.3024535477161407,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11402487475425005,
      "step": 2210
    },
    {
      "epoch": 0.3685,
      "grad_norm": 26.0,
      "grad_norm_var": 1.4863932291666666,
      "learning_rate": 7.009738883279802e-05,
      "loss": 6.5787,
      "loss/crossentropy": 1.6728750169277191,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1588129848241806,
      "step": 2211
    },
    {
      "epoch": 0.36866666666666664,
      "grad_norm": 25.375,
      "grad_norm_var": 1.4830729166666667,
      "learning_rate": 7.007341408835011e-05,
      "loss": 6.6866,
      "loss/crossentropy": 2.142987012863159,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25219765678048134,
      "step": 2212
    },
    {
      "epoch": 0.36883333333333335,
      "grad_norm": 24.375,
      "grad_norm_var": 1.4962890625,
      "learning_rate": 7.004943384066187e-05,
      "loss": 6.4456,
      "loss/crossentropy": 1.581127867102623,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12654046528041363,
      "step": 2213
    },
    {
      "epoch": 0.369,
      "grad_norm": 24.25,
      "grad_norm_var": 1.2228515625,
      "learning_rate": 7.002544809630764e-05,
      "loss": 6.5952,
      "loss/crossentropy": 1.9275536686182022,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13961204141378403,
      "step": 2214
    },
    {
      "epoch": 0.36916666666666664,
      "grad_norm": 24.625,
      "grad_norm_var": 1.2135416666666667,
      "learning_rate": 7.000145686186324e-05,
      "loss": 6.5685,
      "loss/crossentropy": 1.1995730847120285,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1618651282042265,
      "step": 2215
    },
    {
      "epoch": 0.36933333333333335,
      "grad_norm": 23.0,
      "grad_norm_var": 1.5192057291666667,
      "learning_rate": 6.997746014390601e-05,
      "loss": 6.2222,
      "loss/crossentropy": 1.853044867515564,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13063572347164154,
      "step": 2216
    },
    {
      "epoch": 0.3695,
      "grad_norm": 27.875,
      "grad_norm_var": 1.9604166666666667,
      "learning_rate": 6.995345794901477e-05,
      "loss": 7.0264,
      "loss/crossentropy": 1.8490284979343414,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14048022404313087,
      "step": 2217
    },
    {
      "epoch": 0.36966666666666664,
      "grad_norm": 24.375,
      "grad_norm_var": 1.6184895833333333,
      "learning_rate": 6.992945028376987e-05,
      "loss": 6.5456,
      "loss/crossentropy": 1.5040290802717209,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1711017992347479,
      "step": 2218
    },
    {
      "epoch": 0.36983333333333335,
      "grad_norm": 24.0,
      "grad_norm_var": 1.6639973958333334,
      "learning_rate": 6.990543715475314e-05,
      "loss": 6.0694,
      "loss/crossentropy": 0.9924885481595993,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11798238009214401,
      "step": 2219
    },
    {
      "epoch": 0.37,
      "grad_norm": 26.625,
      "grad_norm_var": 1.8122395833333333,
      "learning_rate": 6.988141856854791e-05,
      "loss": 6.7118,
      "loss/crossentropy": 1.6358452439308167,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12435738369822502,
      "step": 2220
    },
    {
      "epoch": 0.37016666666666664,
      "grad_norm": 22.625,
      "grad_norm_var": 1.9760416666666667,
      "learning_rate": 6.985739453173903e-05,
      "loss": 5.8928,
      "loss/crossentropy": 1.5799519196152687,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13083867402747273,
      "step": 2221
    },
    {
      "epoch": 0.37033333333333335,
      "grad_norm": 25.0,
      "grad_norm_var": 1.9327473958333334,
      "learning_rate": 6.983336505091283e-05,
      "loss": 6.5254,
      "loss/crossentropy": 1.943335622549057,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14738299325108528,
      "step": 2222
    },
    {
      "epoch": 0.3705,
      "grad_norm": 24.375,
      "grad_norm_var": 1.9087890625,
      "learning_rate": 6.980933013265709e-05,
      "loss": 6.2466,
      "loss/crossentropy": 1.1755053400993347,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13703683018684387,
      "step": 2223
    },
    {
      "epoch": 0.37066666666666664,
      "grad_norm": 23.0,
      "grad_norm_var": 1.9009765625,
      "learning_rate": 6.978528978356117e-05,
      "loss": 6.4169,
      "loss/crossentropy": 1.386157974600792,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11652003787457943,
      "step": 2224
    },
    {
      "epoch": 0.37083333333333335,
      "grad_norm": 22.0,
      "grad_norm_var": 2.254166666666667,
      "learning_rate": 6.976124401021583e-05,
      "loss": 5.9374,
      "loss/crossentropy": 1.2325734049081802,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13489751145243645,
      "step": 2225
    },
    {
      "epoch": 0.371,
      "grad_norm": 25.875,
      "grad_norm_var": 2.372330729166667,
      "learning_rate": 6.973719281921335e-05,
      "loss": 6.6025,
      "loss/crossentropy": 1.5557450652122498,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19411426037549973,
      "step": 2226
    },
    {
      "epoch": 0.37116666666666664,
      "grad_norm": 25.25,
      "grad_norm_var": 2.2660807291666667,
      "learning_rate": 6.971313621714756e-05,
      "loss": 6.4104,
      "loss/crossentropy": 1.4249838292598724,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13508295640349388,
      "step": 2227
    },
    {
      "epoch": 0.37133333333333335,
      "grad_norm": 25.875,
      "grad_norm_var": 2.3374348958333333,
      "learning_rate": 6.968907421061365e-05,
      "loss": 6.1554,
      "loss/crossentropy": 1.3274939805269241,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13686312921345234,
      "step": 2228
    },
    {
      "epoch": 0.3715,
      "grad_norm": 24.5,
      "grad_norm_var": 2.33515625,
      "learning_rate": 6.966500680620837e-05,
      "loss": 6.7625,
      "loss/crossentropy": 1.660152330994606,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21430788561701775,
      "step": 2229
    },
    {
      "epoch": 0.37166666666666665,
      "grad_norm": 25.875,
      "grad_norm_var": 2.4291015625,
      "learning_rate": 6.964093401052996e-05,
      "loss": 6.4028,
      "loss/crossentropy": 1.4022200554609299,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1375807635486126,
      "step": 2230
    },
    {
      "epoch": 0.37183333333333335,
      "grad_norm": 25.5,
      "grad_norm_var": 2.470572916666667,
      "learning_rate": 6.961685583017808e-05,
      "loss": 6.5561,
      "loss/crossentropy": 1.6307024210691452,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22948284819722176,
      "step": 2231
    },
    {
      "epoch": 0.372,
      "grad_norm": 23.625,
      "grad_norm_var": 2.350455729166667,
      "learning_rate": 6.959277227175393e-05,
      "loss": 6.2045,
      "loss/crossentropy": 1.3995700627565384,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1704973503947258,
      "step": 2232
    },
    {
      "epoch": 0.37216666666666665,
      "grad_norm": 25.0,
      "grad_norm_var": 1.678125,
      "learning_rate": 6.956868334186013e-05,
      "loss": 6.3362,
      "loss/crossentropy": 1.5090824365615845,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1205856017768383,
      "step": 2233
    },
    {
      "epoch": 0.37233333333333335,
      "grad_norm": 24.625,
      "grad_norm_var": 1.6747395833333334,
      "learning_rate": 6.954458904710082e-05,
      "loss": 6.4675,
      "loss/crossentropy": 1.4239701181650162,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1461448036134243,
      "step": 2234
    },
    {
      "epoch": 0.3725,
      "grad_norm": 25.125,
      "grad_norm_var": 1.6624348958333333,
      "learning_rate": 6.952048939408156e-05,
      "loss": 6.6341,
      "loss/crossentropy": 1.4091529250144958,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.15812012553215027,
      "step": 2235
    },
    {
      "epoch": 0.37266666666666665,
      "grad_norm": 25.625,
      "grad_norm_var": 1.4655598958333333,
      "learning_rate": 6.949638438940942e-05,
      "loss": 6.4512,
      "loss/crossentropy": 1.6465047299861908,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14221988804638386,
      "step": 2236
    },
    {
      "epoch": 0.37283333333333335,
      "grad_norm": 29.625,
      "grad_norm_var": 2.668684895833333,
      "learning_rate": 6.947227403969293e-05,
      "loss": 6.5646,
      "loss/crossentropy": 1.3426501899957657,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10997241735458374,
      "step": 2237
    },
    {
      "epoch": 0.373,
      "grad_norm": 27.375,
      "grad_norm_var": 3.00390625,
      "learning_rate": 6.944815835154209e-05,
      "loss": 6.5798,
      "loss/crossentropy": 1.7556410431861877,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18617917597293854,
      "step": 2238
    },
    {
      "epoch": 0.37316666666666665,
      "grad_norm": 23.75,
      "grad_norm_var": 3.0973307291666665,
      "learning_rate": 6.942403733156832e-05,
      "loss": 5.7404,
      "loss/crossentropy": 1.3335686028003693,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13277831114828587,
      "step": 2239
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 23.875,
      "grad_norm_var": 2.892708333333333,
      "learning_rate": 6.939991098638454e-05,
      "loss": 6.3449,
      "loss/crossentropy": 1.823632687330246,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13773693144321442,
      "step": 2240
    },
    {
      "epoch": 0.3735,
      "grad_norm": 24.25,
      "grad_norm_var": 2.2434895833333335,
      "learning_rate": 6.937577932260515e-05,
      "loss": 6.3617,
      "loss/crossentropy": 1.7326274514198303,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11720362305641174,
      "step": 2241
    },
    {
      "epoch": 0.37366666666666665,
      "grad_norm": 22.5,
      "grad_norm_var": 2.723372395833333,
      "learning_rate": 6.935164234684597e-05,
      "loss": 6.2152,
      "loss/crossentropy": 1.4667069613933563,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14212648011744022,
      "step": 2242
    },
    {
      "epoch": 0.37383333333333335,
      "grad_norm": 23.75,
      "grad_norm_var": 2.8436848958333334,
      "learning_rate": 6.932750006572428e-05,
      "loss": 6.1577,
      "loss/crossentropy": 0.98869489133358,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14736487437039614,
      "step": 2243
    },
    {
      "epoch": 0.374,
      "grad_norm": 25.5,
      "grad_norm_var": 2.8114583333333334,
      "learning_rate": 6.930335248585884e-05,
      "loss": 6.4296,
      "loss/crossentropy": 1.3301588892936707,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14350592903792858,
      "step": 2244
    },
    {
      "epoch": 0.37416666666666665,
      "grad_norm": 26.375,
      "grad_norm_var": 2.8983723958333334,
      "learning_rate": 6.927919961386984e-05,
      "loss": 6.3173,
      "loss/crossentropy": 1.7577000334858894,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.135706746019423,
      "step": 2245
    },
    {
      "epoch": 0.37433333333333335,
      "grad_norm": 26.0,
      "grad_norm_var": 2.9114583333333335,
      "learning_rate": 6.925504145637891e-05,
      "loss": 6.9055,
      "loss/crossentropy": 2.1910010278224945,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2138848416507244,
      "step": 2246
    },
    {
      "epoch": 0.3745,
      "grad_norm": 23.125,
      "grad_norm_var": 3.155143229166667,
      "learning_rate": 6.923087802000916e-05,
      "loss": 6.3314,
      "loss/crossentropy": 0.795680820941925,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09912990406155586,
      "step": 2247
    },
    {
      "epoch": 0.37466666666666665,
      "grad_norm": 25.125,
      "grad_norm_var": 3.0192057291666665,
      "learning_rate": 6.920670931138513e-05,
      "loss": 6.2944,
      "loss/crossentropy": 1.787492223083973,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14574198052287102,
      "step": 2248
    },
    {
      "epoch": 0.37483333333333335,
      "grad_norm": 22.625,
      "grad_norm_var": 3.40390625,
      "learning_rate": 6.918253533713282e-05,
      "loss": 6.008,
      "loss/crossentropy": 1.7181293070316315,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15822270512580872,
      "step": 2249
    },
    {
      "epoch": 0.375,
      "grad_norm": 23.875,
      "grad_norm_var": 3.471875,
      "learning_rate": 6.915835610387965e-05,
      "loss": 6.2649,
      "loss/crossentropy": 2.03793066740036,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.154938455671072,
      "step": 2250
    },
    {
      "epoch": 0.37516666666666665,
      "grad_norm": 24.625,
      "grad_norm_var": 3.472916666666667,
      "learning_rate": 6.91341716182545e-05,
      "loss": 6.4657,
      "loss/crossentropy": 1.2670919597148895,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1279898602515459,
      "step": 2251
    },
    {
      "epoch": 0.37533333333333335,
      "grad_norm": 22.0,
      "grad_norm_var": 3.9317057291666666,
      "learning_rate": 6.910998188688767e-05,
      "loss": 6.2091,
      "loss/crossentropy": 1.6173971742391586,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15235824510455132,
      "step": 2252
    },
    {
      "epoch": 0.3755,
      "grad_norm": 26.5,
      "grad_norm_var": 2.468489583333333,
      "learning_rate": 6.908578691641092e-05,
      "loss": 6.4936,
      "loss/crossentropy": 1.172368511557579,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17304642032831907,
      "step": 2253
    },
    {
      "epoch": 0.37566666666666665,
      "grad_norm": 25.625,
      "grad_norm_var": 1.978125,
      "learning_rate": 6.906158671345746e-05,
      "loss": 6.8383,
      "loss/crossentropy": 1.5523466616868973,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17300083301961422,
      "step": 2254
    },
    {
      "epoch": 0.37583333333333335,
      "grad_norm": 26.25,
      "grad_norm_var": 2.1708333333333334,
      "learning_rate": 6.903738128466188e-05,
      "loss": 6.0273,
      "loss/crossentropy": 1.608825445175171,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12405486591160297,
      "step": 2255
    },
    {
      "epoch": 0.376,
      "grad_norm": 24.125,
      "grad_norm_var": 2.15390625,
      "learning_rate": 6.901317063666025e-05,
      "loss": 6.448,
      "loss/crossentropy": 1.507879614830017,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21747487783432007,
      "step": 2256
    },
    {
      "epoch": 0.37616666666666665,
      "grad_norm": 25.625,
      "grad_norm_var": 2.223372395833333,
      "learning_rate": 6.898895477609007e-05,
      "loss": 6.1722,
      "loss/crossentropy": 1.6335009932518005,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25240323320031166,
      "step": 2257
    },
    {
      "epoch": 0.37633333333333335,
      "grad_norm": 24.375,
      "grad_norm_var": 1.9177083333333333,
      "learning_rate": 6.896473370959022e-05,
      "loss": 6.0418,
      "loss/crossentropy": 1.5709076076745987,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14123642444610596,
      "step": 2258
    },
    {
      "epoch": 0.3765,
      "grad_norm": 23.75,
      "grad_norm_var": 1.9177083333333333,
      "learning_rate": 6.894050744380108e-05,
      "loss": 5.9531,
      "loss/crossentropy": 1.8440133333206177,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.13546188361942768,
      "step": 2259
    },
    {
      "epoch": 0.37666666666666665,
      "grad_norm": 26.5,
      "grad_norm_var": 2.084375,
      "learning_rate": 6.891627598536439e-05,
      "loss": 6.6715,
      "loss/crossentropy": 1.6654558032751083,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19031012430787086,
      "step": 2260
    },
    {
      "epoch": 0.37683333333333335,
      "grad_norm": 26.875,
      "grad_norm_var": 2.20625,
      "learning_rate": 6.889203934092336e-05,
      "loss": 6.587,
      "loss/crossentropy": 1.812813013792038,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13771687634289265,
      "step": 2261
    },
    {
      "epoch": 0.377,
      "grad_norm": 24.875,
      "grad_norm_var": 2.1072265625,
      "learning_rate": 6.88677975171226e-05,
      "loss": 6.1855,
      "loss/crossentropy": 1.4633534252643585,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1748151071369648,
      "step": 2262
    },
    {
      "epoch": 0.37716666666666665,
      "grad_norm": 23.875,
      "grad_norm_var": 1.9806640625,
      "learning_rate": 6.884355052060814e-05,
      "loss": 6.2839,
      "loss/crossentropy": 1.7607673108577728,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13766559585928917,
      "step": 2263
    },
    {
      "epoch": 0.37733333333333335,
      "grad_norm": 24.5,
      "grad_norm_var": 1.9770833333333333,
      "learning_rate": 6.881929835802743e-05,
      "loss": 6.5342,
      "loss/crossentropy": 1.8943599313497543,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19600976072251797,
      "step": 2264
    },
    {
      "epoch": 0.3775,
      "grad_norm": 24.75,
      "grad_norm_var": 1.6572265625,
      "learning_rate": 6.879504103602935e-05,
      "loss": 6.3784,
      "loss/crossentropy": 1.838453233242035,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1410357803106308,
      "step": 2265
    },
    {
      "epoch": 0.37766666666666665,
      "grad_norm": 24.25,
      "grad_norm_var": 1.615625,
      "learning_rate": 6.877077856126416e-05,
      "loss": 6.2354,
      "loss/crossentropy": 1.8403472602367401,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1852562502026558,
      "step": 2266
    },
    {
      "epoch": 0.37783333333333335,
      "grad_norm": 27.375,
      "grad_norm_var": 1.98515625,
      "learning_rate": 6.874651094038358e-05,
      "loss": 6.4796,
      "loss/crossentropy": 0.801806628704071,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12704364024102688,
      "step": 2267
    },
    {
      "epoch": 0.378,
      "grad_norm": 27.625,
      "grad_norm_var": 1.6541015625,
      "learning_rate": 6.872223818004068e-05,
      "loss": 6.8193,
      "loss/crossentropy": 1.7541231513023376,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18493172153830528,
      "step": 2268
    },
    {
      "epoch": 0.37816666666666665,
      "grad_norm": 26.125,
      "grad_norm_var": 1.609375,
      "learning_rate": 6.869796028689001e-05,
      "loss": 6.0857,
      "loss/crossentropy": 1.859960287809372,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16966117173433304,
      "step": 2269
    },
    {
      "epoch": 0.37833333333333335,
      "grad_norm": 22.875,
      "grad_norm_var": 2.001822916666667,
      "learning_rate": 6.86736772675875e-05,
      "loss": 6.2101,
      "loss/crossentropy": 1.5301483869552612,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14734849520027637,
      "step": 2270
    },
    {
      "epoch": 0.3785,
      "grad_norm": 26.25,
      "grad_norm_var": 2.001822916666667,
      "learning_rate": 6.864938912879046e-05,
      "loss": 6.438,
      "loss/crossentropy": 1.3838298916816711,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16918839700520039,
      "step": 2271
    },
    {
      "epoch": 0.37866666666666665,
      "grad_norm": 23.75,
      "grad_norm_var": 2.0660807291666665,
      "learning_rate": 6.86250958771576e-05,
      "loss": 5.74,
      "loss/crossentropy": 2.026167631149292,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14909141696989536,
      "step": 2272
    },
    {
      "epoch": 0.37883333333333336,
      "grad_norm": 22.75,
      "grad_norm_var": 2.423958333333333,
      "learning_rate": 6.860079751934908e-05,
      "loss": 5.9325,
      "loss/crossentropy": 1.7698305547237396,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12089833430945873,
      "step": 2273
    },
    {
      "epoch": 0.379,
      "grad_norm": 24.0,
      "grad_norm_var": 2.465559895833333,
      "learning_rate": 6.857649406202641e-05,
      "loss": 6.0998,
      "loss/crossentropy": 1.0653876960277557,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1175973042845726,
      "step": 2274
    },
    {
      "epoch": 0.37916666666666665,
      "grad_norm": 24.5,
      "grad_norm_var": 2.3749348958333334,
      "learning_rate": 6.855218551185255e-05,
      "loss": 6.5142,
      "loss/crossentropy": 1.4300329834222794,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13254323229193687,
      "step": 2275
    },
    {
      "epoch": 0.37933333333333336,
      "grad_norm": 26.625,
      "grad_norm_var": 2.4,
      "learning_rate": 6.852787187549182e-05,
      "loss": 6.4897,
      "loss/crossentropy": 1.7952606230974197,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16681456938385963,
      "step": 2276
    },
    {
      "epoch": 0.3795,
      "grad_norm": 23.875,
      "grad_norm_var": 2.2375,
      "learning_rate": 6.850355315960992e-05,
      "loss": 6.2139,
      "loss/crossentropy": 1.165999636054039,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09024603851139545,
      "step": 2277
    },
    {
      "epoch": 0.37966666666666665,
      "grad_norm": 27.25,
      "grad_norm_var": 2.5900390625,
      "learning_rate": 6.847922937087399e-05,
      "loss": 6.7937,
      "loss/crossentropy": 1.5974475890398026,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13225875794887543,
      "step": 2278
    },
    {
      "epoch": 0.37983333333333336,
      "grad_norm": 25.0,
      "grad_norm_var": 2.496875,
      "learning_rate": 6.845490051595252e-05,
      "loss": 6.6813,
      "loss/crossentropy": 2.0735898315906525,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14541645534336567,
      "step": 2279
    },
    {
      "epoch": 0.38,
      "grad_norm": 26.375,
      "grad_norm_var": 2.5681640625,
      "learning_rate": 6.843056660151537e-05,
      "loss": 6.3139,
      "loss/crossentropy": 1.3043985068798065,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08976585231721401,
      "step": 2280
    },
    {
      "epoch": 0.38016666666666665,
      "grad_norm": 23.75,
      "grad_norm_var": 2.692122395833333,
      "learning_rate": 6.840622763423391e-05,
      "loss": 5.9881,
      "loss/crossentropy": 1.1782773435115814,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14440335519611835,
      "step": 2281
    },
    {
      "epoch": 0.38033333333333336,
      "grad_norm": 23.375,
      "grad_norm_var": 2.8447916666666666,
      "learning_rate": 6.838188362078073e-05,
      "loss": 6.169,
      "loss/crossentropy": 1.0983184278011322,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16601810976862907,
      "step": 2282
    },
    {
      "epoch": 0.3805,
      "grad_norm": 22.875,
      "grad_norm_var": 2.7416666666666667,
      "learning_rate": 6.83575345678299e-05,
      "loss": 6.0821,
      "loss/crossentropy": 1.61832794547081,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14867182075977325,
      "step": 2283
    },
    {
      "epoch": 0.38066666666666665,
      "grad_norm": 23.875,
      "grad_norm_var": 2.2143229166666667,
      "learning_rate": 6.833318048205684e-05,
      "loss": 5.7587,
      "loss/crossentropy": 1.5113036334514618,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1388192865997553,
      "step": 2284
    },
    {
      "epoch": 0.38083333333333336,
      "grad_norm": 24.0,
      "grad_norm_var": 2.0582682291666665,
      "learning_rate": 6.830882137013839e-05,
      "loss": 6.4466,
      "loss/crossentropy": 1.4950740337371826,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1191925760358572,
      "step": 2285
    },
    {
      "epoch": 0.381,
      "grad_norm": 23.5,
      "grad_norm_var": 1.9518229166666667,
      "learning_rate": 6.828445723875272e-05,
      "loss": 6.3308,
      "loss/crossentropy": 1.8582755327224731,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1708774548023939,
      "step": 2286
    },
    {
      "epoch": 0.38116666666666665,
      "grad_norm": 25.125,
      "grad_norm_var": 1.7660807291666667,
      "learning_rate": 6.82600880945794e-05,
      "loss": 6.2076,
      "loss/crossentropy": 1.5718626379966736,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12986981123685837,
      "step": 2287
    },
    {
      "epoch": 0.38133333333333336,
      "grad_norm": 26.375,
      "grad_norm_var": 1.9643229166666667,
      "learning_rate": 6.823571394429936e-05,
      "loss": 6.6648,
      "loss/crossentropy": 1.137211188673973,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10430894326418638,
      "step": 2288
    },
    {
      "epoch": 0.3815,
      "grad_norm": 23.25,
      "grad_norm_var": 1.8580729166666667,
      "learning_rate": 6.821133479459492e-05,
      "loss": 6.3495,
      "loss/crossentropy": 2.1503835916519165,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24340156465768814,
      "step": 2289
    },
    {
      "epoch": 0.38166666666666665,
      "grad_norm": 24.25,
      "grad_norm_var": 1.8416666666666666,
      "learning_rate": 6.818695065214975e-05,
      "loss": 6.1857,
      "loss/crossentropy": 1.6303592920303345,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12807480990886688,
      "step": 2290
    },
    {
      "epoch": 0.38183333333333336,
      "grad_norm": 26.875,
      "grad_norm_var": 2.1546223958333335,
      "learning_rate": 6.816256152364892e-05,
      "loss": 6.4077,
      "loss/crossentropy": 1.7191534042358398,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15641206875443459,
      "step": 2291
    },
    {
      "epoch": 0.382,
      "grad_norm": 26.125,
      "grad_norm_var": 2.0468098958333334,
      "learning_rate": 6.813816741577885e-05,
      "loss": 6.7499,
      "loss/crossentropy": 1.4888925403356552,
      "loss/hidden": 3.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16953854821622372,
      "step": 2292
    },
    {
      "epoch": 0.38216666666666665,
      "grad_norm": 26.5,
      "grad_norm_var": 2.173958333333333,
      "learning_rate": 6.811376833522729e-05,
      "loss": 6.4479,
      "loss/crossentropy": 1.5966739356517792,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1866503320634365,
      "step": 2293
    },
    {
      "epoch": 0.38233333333333336,
      "grad_norm": 26.25,
      "grad_norm_var": 1.9239583333333334,
      "learning_rate": 6.808936428868343e-05,
      "loss": 6.699,
      "loss/crossentropy": 1.580144688487053,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1582990512251854,
      "step": 2294
    },
    {
      "epoch": 0.3825,
      "grad_norm": 24.375,
      "grad_norm_var": 1.9353515625,
      "learning_rate": 6.806495528283771e-05,
      "loss": 6.4067,
      "loss/crossentropy": 1.06708325445652,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14496350567787886,
      "step": 2295
    },
    {
      "epoch": 0.38266666666666665,
      "grad_norm": 25.5,
      "grad_norm_var": 1.8,
      "learning_rate": 6.80405413243821e-05,
      "loss": 6.2819,
      "loss/crossentropy": 0.9258319959044456,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10711364913731813,
      "step": 2296
    },
    {
      "epoch": 0.38283333333333336,
      "grad_norm": 25.5,
      "grad_norm_var": 1.7580729166666667,
      "learning_rate": 6.801612242000974e-05,
      "loss": 6.2904,
      "loss/crossentropy": 0.9230049178004265,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18298947997391224,
      "step": 2297
    },
    {
      "epoch": 0.383,
      "grad_norm": 23.375,
      "grad_norm_var": 1.7580729166666667,
      "learning_rate": 6.799169857641524e-05,
      "loss": 6.114,
      "loss/crossentropy": 1.6423896253108978,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18293014727532864,
      "step": 2298
    },
    {
      "epoch": 0.38316666666666666,
      "grad_norm": 25.0,
      "grad_norm_var": 1.4780598958333333,
      "learning_rate": 6.796726980029454e-05,
      "loss": 6.1329,
      "loss/crossentropy": 1.5220632553100586,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16316071338951588,
      "step": 2299
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 22.125,
      "grad_norm_var": 1.9301432291666667,
      "learning_rate": 6.794283609834492e-05,
      "loss": 5.7659,
      "loss/crossentropy": 1.131604254245758,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09432084765285254,
      "step": 2300
    },
    {
      "epoch": 0.3835,
      "grad_norm": 22.125,
      "grad_norm_var": 2.3705729166666667,
      "learning_rate": 6.7918397477265e-05,
      "loss": 6.1206,
      "loss/crossentropy": 1.921332336962223,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13595037022605538,
      "step": 2301
    },
    {
      "epoch": 0.38366666666666666,
      "grad_norm": 25.875,
      "grad_norm_var": 2.3223307291666666,
      "learning_rate": 6.789395394375482e-05,
      "loss": 6.7881,
      "loss/crossentropy": 1.4905254542827606,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19649392366409302,
      "step": 2302
    },
    {
      "epoch": 0.38383333333333336,
      "grad_norm": 26.625,
      "grad_norm_var": 2.505143229166667,
      "learning_rate": 6.786950550451567e-05,
      "loss": 6.6681,
      "loss/crossentropy": 2.119611918926239,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14862509071826935,
      "step": 2303
    },
    {
      "epoch": 0.384,
      "grad_norm": 23.375,
      "grad_norm_var": 2.520768229166667,
      "learning_rate": 6.784505216625023e-05,
      "loss": 6.4377,
      "loss/crossentropy": 2.0503658950328827,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2193143367767334,
      "step": 2304
    },
    {
      "epoch": 0.38416666666666666,
      "grad_norm": 24.5,
      "grad_norm_var": 2.356705729166667,
      "learning_rate": 6.782059393566253e-05,
      "loss": 6.0373,
      "loss/crossentropy": 1.0383297353982925,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10918692406266928,
      "step": 2305
    },
    {
      "epoch": 0.38433333333333336,
      "grad_norm": 24.0,
      "grad_norm_var": 2.3822265625,
      "learning_rate": 6.779613081945795e-05,
      "loss": 6.1629,
      "loss/crossentropy": 1.7409656271338463,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13121315836906433,
      "step": 2306
    },
    {
      "epoch": 0.3845,
      "grad_norm": 23.25,
      "grad_norm_var": 2.240625,
      "learning_rate": 6.777166282434315e-05,
      "loss": 6.0454,
      "loss/crossentropy": 1.782427340745926,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16198664158582687,
      "step": 2307
    },
    {
      "epoch": 0.38466666666666666,
      "grad_norm": 24.5,
      "grad_norm_var": 2.0874348958333333,
      "learning_rate": 6.774718995702621e-05,
      "loss": 6.0281,
      "loss/crossentropy": 1.242196574807167,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.088523605838418,
      "step": 2308
    },
    {
      "epoch": 0.38483333333333336,
      "grad_norm": 24.375,
      "grad_norm_var": 1.8184895833333334,
      "learning_rate": 6.772271222421649e-05,
      "loss": 6.5905,
      "loss/crossentropy": 2.3674582839012146,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2259717434644699,
      "step": 2309
    },
    {
      "epoch": 0.385,
      "grad_norm": 24.375,
      "grad_norm_var": 1.5811848958333334,
      "learning_rate": 6.769822963262468e-05,
      "loss": 6.5554,
      "loss/crossentropy": 1.4702720046043396,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12994804978370667,
      "step": 2310
    },
    {
      "epoch": 0.38516666666666666,
      "grad_norm": 28.75,
      "grad_norm_var": 2.818489583333333,
      "learning_rate": 6.767374218896286e-05,
      "loss": 7.1735,
      "loss/crossentropy": 1.5744959712028503,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20064250752329826,
      "step": 2311
    },
    {
      "epoch": 0.38533333333333336,
      "grad_norm": 24.875,
      "grad_norm_var": 2.7660807291666667,
      "learning_rate": 6.764924989994438e-05,
      "loss": 6.4115,
      "loss/crossentropy": 1.403779298067093,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20353647880256176,
      "step": 2312
    },
    {
      "epoch": 0.3855,
      "grad_norm": 26.875,
      "grad_norm_var": 3.060416666666667,
      "learning_rate": 6.762475277228392e-05,
      "loss": 6.4251,
      "loss/crossentropy": 1.4095077812671661,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.249435193836689,
      "step": 2313
    },
    {
      "epoch": 0.38566666666666666,
      "grad_norm": 25.25,
      "grad_norm_var": 2.967643229166667,
      "learning_rate": 6.760025081269756e-05,
      "loss": 6.542,
      "loss/crossentropy": 1.5096279233694077,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16594281792640686,
      "step": 2314
    },
    {
      "epoch": 0.3858333333333333,
      "grad_norm": 25.375,
      "grad_norm_var": 2.9893229166666666,
      "learning_rate": 6.75757440279026e-05,
      "loss": 6.3898,
      "loss/crossentropy": 1.7864914238452911,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17436958476901054,
      "step": 2315
    },
    {
      "epoch": 0.386,
      "grad_norm": 25.75,
      "grad_norm_var": 2.534309895833333,
      "learning_rate": 6.755123242461774e-05,
      "loss": 6.4193,
      "loss/crossentropy": 1.2991434931755066,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12389271333813667,
      "step": 2316
    },
    {
      "epoch": 0.38616666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 1.9905598958333333,
      "learning_rate": 6.752671600956295e-05,
      "loss": 6.2856,
      "loss/crossentropy": 1.4949834793806076,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19427824020385742,
      "step": 2317
    },
    {
      "epoch": 0.3863333333333333,
      "grad_norm": 25.75,
      "grad_norm_var": 1.9791666666666667,
      "learning_rate": 6.750219478945958e-05,
      "loss": 6.0792,
      "loss/crossentropy": 1.3481974005699158,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13702242635190487,
      "step": 2318
    },
    {
      "epoch": 0.3865,
      "grad_norm": 25.125,
      "grad_norm_var": 1.8197916666666667,
      "learning_rate": 6.747766877103024e-05,
      "loss": 6.1759,
      "loss/crossentropy": 1.604232281446457,
      "loss/hidden": 3.6328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26235484797507524,
      "step": 2319
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 24.75,
      "grad_norm_var": 1.6343098958333333,
      "learning_rate": 6.745313796099889e-05,
      "loss": 6.4543,
      "loss/crossentropy": 2.050272136926651,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1679855715483427,
      "step": 2320
    },
    {
      "epoch": 0.3868333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.7311848958333333,
      "learning_rate": 6.742860236609077e-05,
      "loss": 6.3294,
      "loss/crossentropy": 1.3139444887638092,
      "loss/hidden": 2.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08697455935180187,
      "step": 2321
    },
    {
      "epoch": 0.387,
      "grad_norm": 23.875,
      "grad_norm_var": 1.75,
      "learning_rate": 6.740406199303246e-05,
      "loss": 6.6513,
      "loss/crossentropy": 1.8375218212604523,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23321825824677944,
      "step": 2322
    },
    {
      "epoch": 0.38716666666666666,
      "grad_norm": 23.25,
      "grad_norm_var": 1.75,
      "learning_rate": 6.737951684855185e-05,
      "loss": 6.2787,
      "loss/crossentropy": 1.747210144996643,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16009037010371685,
      "step": 2323
    },
    {
      "epoch": 0.3873333333333333,
      "grad_norm": 26.875,
      "grad_norm_var": 1.9244140625,
      "learning_rate": 6.735496693937814e-05,
      "loss": 6.2293,
      "loss/crossentropy": 1.6350303888320923,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13096780329942703,
      "step": 2324
    },
    {
      "epoch": 0.3875,
      "grad_norm": 24.875,
      "grad_norm_var": 1.8843098958333333,
      "learning_rate": 6.733041227224181e-05,
      "loss": 6.0739,
      "loss/crossentropy": 1.9946771562099457,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16185756586492062,
      "step": 2325
    },
    {
      "epoch": 0.38766666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 2.2372395833333334,
      "learning_rate": 6.730585285387465e-05,
      "loss": 6.1009,
      "loss/crossentropy": 1.4609839618206024,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15081025287508965,
      "step": 2326
    },
    {
      "epoch": 0.3878333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 1.3280598958333334,
      "learning_rate": 6.728128869100979e-05,
      "loss": 5.9649,
      "loss/crossentropy": 1.5153269246220589,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12348505668342113,
      "step": 2327
    },
    {
      "epoch": 0.388,
      "grad_norm": 25.875,
      "grad_norm_var": 1.3916015625,
      "learning_rate": 6.725671979038163e-05,
      "loss": 6.5056,
      "loss/crossentropy": 1.651802122592926,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14171636663377285,
      "step": 2328
    },
    {
      "epoch": 0.38816666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 1.38515625,
      "learning_rate": 6.723214615872585e-05,
      "loss": 6.2279,
      "loss/crossentropy": 2.0296255350112915,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1877274513244629,
      "step": 2329
    },
    {
      "epoch": 0.3883333333333333,
      "grad_norm": 27.75,
      "grad_norm_var": 1.9684895833333333,
      "learning_rate": 6.72075678027795e-05,
      "loss": 6.5143,
      "loss/crossentropy": 1.5317539423704147,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15916377864778042,
      "step": 2330
    },
    {
      "epoch": 0.3885,
      "grad_norm": 24.25,
      "grad_norm_var": 1.9655598958333333,
      "learning_rate": 6.718298472928082e-05,
      "loss": 6.4343,
      "loss/crossentropy": 1.693368211388588,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15353419817984104,
      "step": 2331
    },
    {
      "epoch": 0.38866666666666666,
      "grad_norm": 23.625,
      "grad_norm_var": 1.9666666666666666,
      "learning_rate": 6.715839694496942e-05,
      "loss": 5.9551,
      "loss/crossentropy": 1.37234228849411,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11015813425183296,
      "step": 2332
    },
    {
      "epoch": 0.3888333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 2.1306640625,
      "learning_rate": 6.713380445658618e-05,
      "loss": 5.849,
      "loss/crossentropy": 1.3934024274349213,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13429152593016624,
      "step": 2333
    },
    {
      "epoch": 0.389,
      "grad_norm": 24.125,
      "grad_norm_var": 2.033333333333333,
      "learning_rate": 6.710920727087329e-05,
      "loss": 6.2725,
      "loss/crossentropy": 1.6075193732976913,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19870962388813496,
      "step": 2334
    },
    {
      "epoch": 0.38916666666666666,
      "grad_norm": 31.0,
      "grad_norm_var": 4.7291015625,
      "learning_rate": 6.708460539457418e-05,
      "loss": 6.2347,
      "loss/crossentropy": 1.9684203565120697,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1478764545172453,
      "step": 2335
    },
    {
      "epoch": 0.3893333333333333,
      "grad_norm": 29.875,
      "grad_norm_var": 6.333333333333333,
      "learning_rate": 6.70599988344336e-05,
      "loss": 6.4038,
      "loss/crossentropy": 1.5045353472232819,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11849776655435562,
      "step": 2336
    },
    {
      "epoch": 0.3895,
      "grad_norm": 26.875,
      "grad_norm_var": 6.370768229166667,
      "learning_rate": 6.70353875971976e-05,
      "loss": 6.2654,
      "loss/crossentropy": 1.181287169456482,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12646345980465412,
      "step": 2337
    },
    {
      "epoch": 0.38966666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 7.373372395833333,
      "learning_rate": 6.701077168961345e-05,
      "loss": 6.0417,
      "loss/crossentropy": 1.363198846578598,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12252145074307919,
      "step": 2338
    },
    {
      "epoch": 0.3898333333333333,
      "grad_norm": 25.0,
      "grad_norm_var": 7.121809895833334,
      "learning_rate": 6.698615111842978e-05,
      "loss": 6.5734,
      "loss/crossentropy": 0.932259775698185,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08631771430373192,
      "step": 2339
    },
    {
      "epoch": 0.39,
      "grad_norm": 23.875,
      "grad_norm_var": 7.037434895833333,
      "learning_rate": 6.696152589039644e-05,
      "loss": 6.587,
      "loss/crossentropy": 1.7623524069786072,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1974336877465248,
      "step": 2340
    },
    {
      "epoch": 0.39016666666666666,
      "grad_norm": 24.875,
      "grad_norm_var": 7.037434895833333,
      "learning_rate": 6.693689601226458e-05,
      "loss": 6.5955,
      "loss/crossentropy": 1.5155688971281052,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21304316446185112,
      "step": 2341
    },
    {
      "epoch": 0.3903333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 7.906184895833333,
      "learning_rate": 6.691226149078662e-05,
      "loss": 5.7796,
      "loss/crossentropy": 1.0984641015529633,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11498931981623173,
      "step": 2342
    },
    {
      "epoch": 0.3905,
      "grad_norm": 24.125,
      "grad_norm_var": 7.9291015625,
      "learning_rate": 6.688762233271624e-05,
      "loss": 6.2447,
      "loss/crossentropy": 1.393724039196968,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15506870672106743,
      "step": 2343
    },
    {
      "epoch": 0.39066666666666666,
      "grad_norm": 34.0,
      "grad_norm_var": 13.079166666666667,
      "learning_rate": 6.686297854480843e-05,
      "loss": 6.3526,
      "loss/crossentropy": 1.0868170112371445,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2011883994564414,
      "step": 2344
    },
    {
      "epoch": 0.3908333333333333,
      "grad_norm": 32.75,
      "grad_norm_var": 15.745833333333334,
      "learning_rate": 6.683833013381941e-05,
      "loss": 6.4472,
      "loss/crossentropy": 1.5959357917308807,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15718941017985344,
      "step": 2345
    },
    {
      "epoch": 0.391,
      "grad_norm": 25.0,
      "grad_norm_var": 15.599739583333333,
      "learning_rate": 6.68136771065067e-05,
      "loss": 6.259,
      "loss/crossentropy": 1.1929219141602516,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13799449242651463,
      "step": 2346
    },
    {
      "epoch": 0.39116666666666666,
      "grad_norm": 24.125,
      "grad_norm_var": 15.628059895833333,
      "learning_rate": 6.678901946962903e-05,
      "loss": 6.4042,
      "loss/crossentropy": 1.66932612657547,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16517252288758755,
      "step": 2347
    },
    {
      "epoch": 0.3913333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 15.556705729166667,
      "learning_rate": 6.676435722994647e-05,
      "loss": 6.3557,
      "loss/crossentropy": 1.6570624113082886,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15443123131990433,
      "step": 2348
    },
    {
      "epoch": 0.3915,
      "grad_norm": 23.625,
      "grad_norm_var": 15.339583333333334,
      "learning_rate": 6.67396903942203e-05,
      "loss": 6.665,
      "loss/crossentropy": 1.4635154902935028,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15931718051433563,
      "step": 2349
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 23.875,
      "grad_norm_var": 15.40390625,
      "learning_rate": 6.671501896921304e-05,
      "loss": 6.3382,
      "loss/crossentropy": 1.7686852365732193,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16430029086768627,
      "step": 2350
    },
    {
      "epoch": 0.3918333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 14.028580729166666,
      "learning_rate": 6.669034296168855e-05,
      "loss": 5.9173,
      "loss/crossentropy": 1.566952407360077,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15155568346381187,
      "step": 2351
    },
    {
      "epoch": 0.392,
      "grad_norm": 24.875,
      "grad_norm_var": 12.617122395833333,
      "learning_rate": 6.666566237841187e-05,
      "loss": 6.3667,
      "loss/crossentropy": 1.8179608285427094,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15278057008981705,
      "step": 2352
    },
    {
      "epoch": 0.39216666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 12.4166015625,
      "learning_rate": 6.664097722614934e-05,
      "loss": 6.4783,
      "loss/crossentropy": 1.2902492731809616,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21915177255868912,
      "step": 2353
    },
    {
      "epoch": 0.3923333333333333,
      "grad_norm": 25.25,
      "grad_norm_var": 11.37890625,
      "learning_rate": 6.661628751166851e-05,
      "loss": 5.9678,
      "loss/crossentropy": 1.1819853484630585,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11071628332138062,
      "step": 2354
    },
    {
      "epoch": 0.3925,
      "grad_norm": 23.25,
      "grad_norm_var": 11.617708333333333,
      "learning_rate": 6.659159324173823e-05,
      "loss": 6.0086,
      "loss/crossentropy": 1.374154806137085,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1405642256140709,
      "step": 2355
    },
    {
      "epoch": 0.39266666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 11.552083333333334,
      "learning_rate": 6.656689442312855e-05,
      "loss": 6.5399,
      "loss/crossentropy": 1.0776085555553436,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09721137955784798,
      "step": 2356
    },
    {
      "epoch": 0.3928333333333333,
      "grad_norm": 23.375,
      "grad_norm_var": 11.742708333333333,
      "learning_rate": 6.654219106261082e-05,
      "loss": 6.2717,
      "loss/crossentropy": 1.5254899710416794,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1966080367565155,
      "step": 2357
    },
    {
      "epoch": 0.393,
      "grad_norm": 24.625,
      "grad_norm_var": 10.469205729166667,
      "learning_rate": 6.651748316695759e-05,
      "loss": 6.6641,
      "loss/crossentropy": 1.4047425091266632,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12954316660761833,
      "step": 2358
    },
    {
      "epoch": 0.39316666666666666,
      "grad_norm": 24.0,
      "grad_norm_var": 10.489322916666667,
      "learning_rate": 6.649277074294264e-05,
      "loss": 6.166,
      "loss/crossentropy": 1.5079704821109772,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17900222074240446,
      "step": 2359
    },
    {
      "epoch": 0.3933333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 5.070247395833333,
      "learning_rate": 6.646805379734108e-05,
      "loss": 6.1448,
      "loss/crossentropy": 1.3258932828903198,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12795666977763176,
      "step": 2360
    },
    {
      "epoch": 0.3935,
      "grad_norm": 22.875,
      "grad_norm_var": 0.5184895833333333,
      "learning_rate": 6.644333233692916e-05,
      "loss": 6.0921,
      "loss/crossentropy": 1.673359289765358,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14288020133972168,
      "step": 2361
    },
    {
      "epoch": 0.39366666666666666,
      "grad_norm": 26.375,
      "grad_norm_var": 0.8113932291666667,
      "learning_rate": 6.641860636848442e-05,
      "loss": 6.2855,
      "loss/crossentropy": 1.1405226439237595,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09126087464392185,
      "step": 2362
    },
    {
      "epoch": 0.3938333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 0.8749348958333333,
      "learning_rate": 6.639387589878566e-05,
      "loss": 6.0895,
      "loss/crossentropy": 1.401291087269783,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10712478123605251,
      "step": 2363
    },
    {
      "epoch": 0.394,
      "grad_norm": 22.75,
      "grad_norm_var": 0.9833333333333333,
      "learning_rate": 6.63691409346128e-05,
      "loss": 6.1393,
      "loss/crossentropy": 1.7397255450487137,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1413915604352951,
      "step": 2364
    },
    {
      "epoch": 0.39416666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 0.9747395833333333,
      "learning_rate": 6.634440148274713e-05,
      "loss": 6.1913,
      "loss/crossentropy": 1.8294032514095306,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20492157340049744,
      "step": 2365
    },
    {
      "epoch": 0.3943333333333333,
      "grad_norm": 24.875,
      "grad_norm_var": 1.0184895833333334,
      "learning_rate": 6.63196575499711e-05,
      "loss": 6.56,
      "loss/crossentropy": 1.6706174910068512,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14684387110173702,
      "step": 2366
    },
    {
      "epoch": 0.3945,
      "grad_norm": 25.75,
      "grad_norm_var": 1.0738932291666667,
      "learning_rate": 6.629490914306839e-05,
      "loss": 6.7294,
      "loss/crossentropy": 1.6823353916406631,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18121299520134926,
      "step": 2367
    },
    {
      "epoch": 0.39466666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 1.1593098958333334,
      "learning_rate": 6.627015626882392e-05,
      "loss": 6.1597,
      "loss/crossentropy": 1.7030486166477203,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15237822197377682,
      "step": 2368
    },
    {
      "epoch": 0.3948333333333333,
      "grad_norm": 26.625,
      "grad_norm_var": 1.5483723958333333,
      "learning_rate": 6.624539893402382e-05,
      "loss": 6.0845,
      "loss/crossentropy": 1.501220703125,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16468347236514091,
      "step": 2369
    },
    {
      "epoch": 0.395,
      "grad_norm": 24.625,
      "grad_norm_var": 1.49140625,
      "learning_rate": 6.62206371454555e-05,
      "loss": 6.6337,
      "loss/crossentropy": 1.096113920211792,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13141755014657974,
      "step": 2370
    },
    {
      "epoch": 0.39516666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.4625,
      "learning_rate": 6.619587090990748e-05,
      "loss": 6.3961,
      "loss/crossentropy": 1.4805337935686111,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12689106538891792,
      "step": 2371
    },
    {
      "epoch": 0.3953333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 1.5809895833333334,
      "learning_rate": 6.61711002341696e-05,
      "loss": 6.5594,
      "loss/crossentropy": 1.6438981592655182,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12943896371871233,
      "step": 2372
    },
    {
      "epoch": 0.3955,
      "grad_norm": 25.375,
      "grad_norm_var": 1.5768229166666667,
      "learning_rate": 6.614632512503288e-05,
      "loss": 6.4594,
      "loss/crossentropy": 1.5849829614162445,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18672660924494267,
      "step": 2373
    },
    {
      "epoch": 0.39566666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.6301432291666667,
      "learning_rate": 6.612154558928955e-05,
      "loss": 6.4377,
      "loss/crossentropy": 1.5433131903409958,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14061331003904343,
      "step": 2374
    },
    {
      "epoch": 0.3958333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 1.72265625,
      "learning_rate": 6.609676163373306e-05,
      "loss": 6.1837,
      "loss/crossentropy": 1.2987777143716812,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12780243717134,
      "step": 2375
    },
    {
      "epoch": 0.396,
      "grad_norm": 24.875,
      "grad_norm_var": 1.74140625,
      "learning_rate": 6.607197326515808e-05,
      "loss": 6.4008,
      "loss/crossentropy": 1.6777179837226868,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17100448533892632,
      "step": 2376
    },
    {
      "epoch": 0.39616666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.6059895833333333,
      "learning_rate": 6.604718049036048e-05,
      "loss": 6.2404,
      "loss/crossentropy": 1.5612024366855621,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14783240295946598,
      "step": 2377
    },
    {
      "epoch": 0.3963333333333333,
      "grad_norm": 26.375,
      "grad_norm_var": 1.6059895833333333,
      "learning_rate": 6.602238331613732e-05,
      "loss": 6.5834,
      "loss/crossentropy": 1.4660016000270844,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13854211755096912,
      "step": 2378
    },
    {
      "epoch": 0.3965,
      "grad_norm": 34.75,
      "grad_norm_var": 8.042122395833333,
      "learning_rate": 6.599758174928693e-05,
      "loss": 5.8378,
      "loss/crossentropy": 1.1285820603370667,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10297996364533901,
      "step": 2379
    },
    {
      "epoch": 0.39666666666666667,
      "grad_norm": 25.625,
      "grad_norm_var": 7.639322916666667,
      "learning_rate": 6.597277579660876e-05,
      "loss": 6.33,
      "loss/crossentropy": 1.4224080741405487,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1720057725906372,
      "step": 2380
    },
    {
      "epoch": 0.3968333333333333,
      "grad_norm": 25.875,
      "grad_norm_var": 7.501822916666667,
      "learning_rate": 6.594796546490351e-05,
      "loss": 6.3197,
      "loss/crossentropy": 1.5383311361074448,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.153999175876379,
      "step": 2381
    },
    {
      "epoch": 0.397,
      "grad_norm": 25.375,
      "grad_norm_var": 7.47890625,
      "learning_rate": 6.592315076097307e-05,
      "loss": 6.2343,
      "loss/crossentropy": 1.1512521654367447,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0993927987292409,
      "step": 2382
    },
    {
      "epoch": 0.39716666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 7.473958333333333,
      "learning_rate": 6.589833169162054e-05,
      "loss": 6.6073,
      "loss/crossentropy": 2.0126633644104004,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.2373063862323761,
      "step": 2383
    },
    {
      "epoch": 0.3973333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 7.045247395833333,
      "learning_rate": 6.587350826365023e-05,
      "loss": 6.235,
      "loss/crossentropy": 1.4064753949642181,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1249151173979044,
      "step": 2384
    },
    {
      "epoch": 0.3975,
      "grad_norm": 24.25,
      "grad_norm_var": 7.06875,
      "learning_rate": 6.58486804838676e-05,
      "loss": 6.249,
      "loss/crossentropy": 1.7272909283638,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.176227618008852,
      "step": 2385
    },
    {
      "epoch": 0.39766666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 7.138541666666667,
      "learning_rate": 6.582384835907931e-05,
      "loss": 6.4749,
      "loss/crossentropy": 2.2248896658420563,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1903270948678255,
      "step": 2386
    },
    {
      "epoch": 0.3978333333333333,
      "grad_norm": 26.125,
      "grad_norm_var": 6.902018229166667,
      "learning_rate": 6.579901189609325e-05,
      "loss": 6.5896,
      "loss/crossentropy": 1.3033775240182877,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17595062963664532,
      "step": 2387
    },
    {
      "epoch": 0.398,
      "grad_norm": 23.25,
      "grad_norm_var": 7.237239583333333,
      "learning_rate": 6.577417110171848e-05,
      "loss": 6.3509,
      "loss/crossentropy": 1.1727436482906342,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1483312752097845,
      "step": 2388
    },
    {
      "epoch": 0.39816666666666667,
      "grad_norm": 25.875,
      "grad_norm_var": 7.249739583333334,
      "learning_rate": 6.574932598276525e-05,
      "loss": 6.3411,
      "loss/crossentropy": 1.5403781086206436,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21308624744415283,
      "step": 2389
    },
    {
      "epoch": 0.3983333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 7.249739583333334,
      "learning_rate": 6.572447654604497e-05,
      "loss": 5.9297,
      "loss/crossentropy": 1.7189098298549652,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16853742860257626,
      "step": 2390
    },
    {
      "epoch": 0.3985,
      "grad_norm": 20.875,
      "grad_norm_var": 8.264583333333333,
      "learning_rate": 6.569962279837026e-05,
      "loss": 5.7669,
      "loss/crossentropy": 1.1881512999534607,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12577491393312812,
      "step": 2391
    },
    {
      "epoch": 0.39866666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 8.7556640625,
      "learning_rate": 6.567476474655491e-05,
      "loss": 6.0892,
      "loss/crossentropy": 1.1526888012886047,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1341408547013998,
      "step": 2392
    },
    {
      "epoch": 0.3988333333333333,
      "grad_norm": 23.375,
      "grad_norm_var": 8.8572265625,
      "learning_rate": 6.564990239741391e-05,
      "loss": 6.4171,
      "loss/crossentropy": 1.5417361110448837,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.112406300380826,
      "step": 2393
    },
    {
      "epoch": 0.399,
      "grad_norm": 25.125,
      "grad_norm_var": 8.7478515625,
      "learning_rate": 6.562503575776342e-05,
      "loss": 6.8277,
      "loss/crossentropy": 2.326013743877411,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2647797390818596,
      "step": 2394
    },
    {
      "epoch": 0.39916666666666667,
      "grad_norm": 2365587456.0,
      "grad_norm_var": 3.497502435315287e+17,
      "learning_rate": 6.560016483442075e-05,
      "loss": 6.212,
      "loss/crossentropy": 0.9266500025987625,
      "loss/hidden": 5.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13236150331795216,
      "step": 2395
    },
    {
      "epoch": 0.3993333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 3.497502435635627e+17,
      "learning_rate": 6.557528963420442e-05,
      "loss": 6.1741,
      "loss/crossentropy": 1.3046036213636398,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18505308497697115,
      "step": 2396
    },
    {
      "epoch": 0.3995,
      "grad_norm": 24.375,
      "grad_norm_var": 3.4975024359313254e+17,
      "learning_rate": 6.55504101639341e-05,
      "loss": 6.1151,
      "loss/crossentropy": 1.5327530354261398,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1342363953590393,
      "step": 2397
    },
    {
      "epoch": 0.39966666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 3.497502436054533e+17,
      "learning_rate": 6.552552643043061e-05,
      "loss": 6.1002,
      "loss/crossentropy": 1.391834244132042,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14900442957878113,
      "step": 2398
    },
    {
      "epoch": 0.3998333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 3.497502436227023e+17,
      "learning_rate": 6.550063844051602e-05,
      "loss": 6.5169,
      "loss/crossentropy": 1.024109959602356,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15144344605505466,
      "step": 2399
    },
    {
      "epoch": 0.4,
      "grad_norm": 26.75,
      "grad_norm_var": 3.497502435832759e+17,
      "learning_rate": 6.54757462010135e-05,
      "loss": 6.1544,
      "loss/crossentropy": 1.6790904104709625,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19327320717275143,
      "step": 2400
    },
    {
      "epoch": 0.40016666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 3.497502435980608e+17,
      "learning_rate": 6.545084971874738e-05,
      "loss": 6.4139,
      "loss/crossentropy": 1.6118097603321075,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13425116799771786,
      "step": 2401
    },
    {
      "epoch": 0.4003333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 3.4975024362023814e+17,
      "learning_rate": 6.542594900054318e-05,
      "loss": 6.1419,
      "loss/crossentropy": 1.4389804154634476,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13263123854994774,
      "step": 2402
    },
    {
      "epoch": 0.4005,
      "grad_norm": 27.0,
      "grad_norm_var": 3.497502436029891e+17,
      "learning_rate": 6.540104405322757e-05,
      "loss": 6.5443,
      "loss/crossentropy": 1.3400057703256607,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18327298946678638,
      "step": 2403
    },
    {
      "epoch": 0.40066666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 3.4975024357588346e+17,
      "learning_rate": 6.537613488362837e-05,
      "loss": 6.4159,
      "loss/crossentropy": 1.2486377954483032,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11063463240861893,
      "step": 2404
    },
    {
      "epoch": 0.4008333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 3.497502436128457e+17,
      "learning_rate": 6.53512214985746e-05,
      "loss": 6.3519,
      "loss/crossentropy": 1.439194232225418,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15578019991517067,
      "step": 2405
    },
    {
      "epoch": 0.401,
      "grad_norm": 24.375,
      "grad_norm_var": 3.497502435955967e+17,
      "learning_rate": 6.53263039048964e-05,
      "loss": 6.319,
      "loss/crossentropy": 1.590122640132904,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2398673128336668,
      "step": 2406
    },
    {
      "epoch": 0.40116666666666667,
      "grad_norm": 24.25,
      "grad_norm_var": 3.497502435290645e+17,
      "learning_rate": 6.530138210942505e-05,
      "loss": 6.4923,
      "loss/crossentropy": 1.7487193644046783,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.30547843500971794,
      "step": 2407
    },
    {
      "epoch": 0.4013333333333333,
      "grad_norm": 23.375,
      "grad_norm_var": 3.497502435118154e+17,
      "learning_rate": 6.5276456118993e-05,
      "loss": 6.2195,
      "loss/crossentropy": 1.0435855239629745,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1432834155857563,
      "step": 2408
    },
    {
      "epoch": 0.4015,
      "grad_norm": 25.5,
      "grad_norm_var": 3.4975024346992486e+17,
      "learning_rate": 6.52515259404339e-05,
      "loss": 6.2707,
      "loss/crossentropy": 1.3789910227060318,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.101121686398983,
      "step": 2409
    },
    {
      "epoch": 0.40166666666666667,
      "grad_norm": 25.875,
      "grad_norm_var": 3.497502434551399e+17,
      "learning_rate": 6.522659158058242e-05,
      "loss": 6.7935,
      "loss/crossentropy": 1.6301210671663284,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1761169657111168,
      "step": 2410
    },
    {
      "epoch": 0.4018333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.559375,
      "learning_rate": 6.520165304627452e-05,
      "loss": 6.1112,
      "loss/crossentropy": 1.547809362411499,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19274058565497398,
      "step": 2411
    },
    {
      "epoch": 0.402,
      "grad_norm": 24.375,
      "grad_norm_var": 1.5416015625,
      "learning_rate": 6.517671034434723e-05,
      "loss": 6.3111,
      "loss/crossentropy": 1.5346874594688416,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11406940035521984,
      "step": 2412
    },
    {
      "epoch": 0.4021666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 1.5809895833333334,
      "learning_rate": 6.515176348163871e-05,
      "loss": 6.3263,
      "loss/crossentropy": 1.9831947088241577,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2029823586344719,
      "step": 2413
    },
    {
      "epoch": 0.4023333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.9296223958333334,
      "learning_rate": 6.51268124649883e-05,
      "loss": 6.0403,
      "loss/crossentropy": 1.4858247190713882,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11468932870775461,
      "step": 2414
    },
    {
      "epoch": 0.4025,
      "grad_norm": 26.25,
      "grad_norm_var": 2.15390625,
      "learning_rate": 6.510185730123646e-05,
      "loss": 6.3326,
      "loss/crossentropy": 1.4023515954613686,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14681215584278107,
      "step": 2415
    },
    {
      "epoch": 0.4026666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 1.7806640625,
      "learning_rate": 6.507689799722478e-05,
      "loss": 6.7431,
      "loss/crossentropy": 2.779541790485382,
      "loss/hidden": 3.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2577054649591446,
      "step": 2416
    },
    {
      "epoch": 0.4028333333333333,
      "grad_norm": 25.25,
      "grad_norm_var": 1.7879557291666666,
      "learning_rate": 6.505193455979603e-05,
      "loss": 6.5566,
      "loss/crossentropy": 1.5302736163139343,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18888639099895954,
      "step": 2417
    },
    {
      "epoch": 0.403,
      "grad_norm": 25.875,
      "grad_norm_var": 1.7684895833333334,
      "learning_rate": 6.502696699579405e-05,
      "loss": 6.2245,
      "loss/crossentropy": 1.8283655941486359,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20260064676404,
      "step": 2418
    },
    {
      "epoch": 0.4031666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 1.3518229166666667,
      "learning_rate": 6.500199531206382e-05,
      "loss": 6.5889,
      "loss/crossentropy": 1.9672166407108307,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2013261429965496,
      "step": 2419
    },
    {
      "epoch": 0.4033333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 1.4004557291666666,
      "learning_rate": 6.49770195154515e-05,
      "loss": 6.6096,
      "loss/crossentropy": 1.2610590904951096,
      "loss/hidden": 3.78125,
      "loss/jsd": 0.0,
      "loss/logits": 0.31995141692459583,
      "step": 2420
    },
    {
      "epoch": 0.4035,
      "grad_norm": 26.0,
      "grad_norm_var": 1.5567057291666666,
      "learning_rate": 6.495203961280434e-05,
      "loss": 6.9797,
      "loss/crossentropy": 1.545331746339798,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2087397351861,
      "step": 2421
    },
    {
      "epoch": 0.4036666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 1.5639973958333333,
      "learning_rate": 6.492705561097073e-05,
      "loss": 6.5026,
      "loss/crossentropy": 1.3143714368343353,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10666258446872234,
      "step": 2422
    },
    {
      "epoch": 0.4038333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 1.5639973958333333,
      "learning_rate": 6.490206751680014e-05,
      "loss": 6.0961,
      "loss/crossentropy": 0.9779310077428818,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13365685008466244,
      "step": 2423
    },
    {
      "epoch": 0.404,
      "grad_norm": 23.375,
      "grad_norm_var": 1.5639973958333333,
      "learning_rate": 6.487707533714324e-05,
      "loss": 6.4973,
      "loss/crossentropy": 1.8900304734706879,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15683192387223244,
      "step": 2424
    },
    {
      "epoch": 0.4041666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 1.5208333333333333,
      "learning_rate": 6.485207907885175e-05,
      "loss": 6.1095,
      "loss/crossentropy": 1.2345799654722214,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11165574379265308,
      "step": 2425
    },
    {
      "epoch": 0.4043333333333333,
      "grad_norm": 24.5,
      "grad_norm_var": 1.3754557291666667,
      "learning_rate": 6.482707874877854e-05,
      "loss": 6.3898,
      "loss/crossentropy": 1.7947169095277786,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16019159276038408,
      "step": 2426
    },
    {
      "epoch": 0.4045,
      "grad_norm": 23.5,
      "grad_norm_var": 1.1910807291666667,
      "learning_rate": 6.480207435377762e-05,
      "loss": 6.5622,
      "loss/crossentropy": 1.7186946719884872,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13867093995213509,
      "step": 2427
    },
    {
      "epoch": 0.4046666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 1.2223307291666667,
      "learning_rate": 6.477706590070406e-05,
      "loss": 6.8647,
      "loss/crossentropy": 1.3046303912997246,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17668646899983287,
      "step": 2428
    },
    {
      "epoch": 0.4048333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 1.2499348958333334,
      "learning_rate": 6.475205339641407e-05,
      "loss": 6.4476,
      "loss/crossentropy": 2.086016297340393,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21822345443069935,
      "step": 2429
    },
    {
      "epoch": 0.405,
      "grad_norm": 22.125,
      "grad_norm_var": 1.2499348958333334,
      "learning_rate": 6.472703684776497e-05,
      "loss": 6.2606,
      "loss/crossentropy": 1.4418908655643463,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1819968819618225,
      "step": 2430
    },
    {
      "epoch": 0.4051666666666667,
      "grad_norm": 25.75,
      "grad_norm_var": 1.1452473958333333,
      "learning_rate": 6.47020162616152e-05,
      "loss": 6.5404,
      "loss/crossentropy": 1.9276243150234222,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2130051739513874,
      "step": 2431
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 1.1452473958333333,
      "learning_rate": 6.467699164482428e-05,
      "loss": 6.4666,
      "loss/crossentropy": 1.5734452158212662,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14278513565659523,
      "step": 2432
    },
    {
      "epoch": 0.4055,
      "grad_norm": 25.0,
      "grad_norm_var": 1.1212890625,
      "learning_rate": 6.465196300425287e-05,
      "loss": 6.4744,
      "loss/crossentropy": 1.4114852547645569,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2969229519367218,
      "step": 2433
    },
    {
      "epoch": 0.4056666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 1.0525390625,
      "learning_rate": 6.462693034676271e-05,
      "loss": 6.2698,
      "loss/crossentropy": 2.131927639245987,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25296247005462646,
      "step": 2434
    },
    {
      "epoch": 0.4058333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 1.1583333333333334,
      "learning_rate": 6.460189367921663e-05,
      "loss": 6.28,
      "loss/crossentropy": 0.7846536934375763,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0838285037316382,
      "step": 2435
    },
    {
      "epoch": 0.406,
      "grad_norm": 28.875,
      "grad_norm_var": 2.5160807291666667,
      "learning_rate": 6.457685300847858e-05,
      "loss": 6.3261,
      "loss/crossentropy": 1.0556977689266205,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20533090643584728,
      "step": 2436
    },
    {
      "epoch": 0.4061666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 2.3520833333333333,
      "learning_rate": 6.455180834141359e-05,
      "loss": 6.058,
      "loss/crossentropy": 1.7638696432113647,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1440450306981802,
      "step": 2437
    },
    {
      "epoch": 0.4063333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 3.3393229166666667,
      "learning_rate": 6.452675968488783e-05,
      "loss": 6.8327,
      "loss/crossentropy": 1.7350185215473175,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1409746166318655,
      "step": 2438
    },
    {
      "epoch": 0.4065,
      "grad_norm": 25.0,
      "grad_norm_var": 3.3354166666666667,
      "learning_rate": 6.450170704576852e-05,
      "loss": 6.124,
      "loss/crossentropy": 1.1034295856952667,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14311401173472404,
      "step": 2439
    },
    {
      "epoch": 0.4066666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 3.2457682291666665,
      "learning_rate": 6.447665043092396e-05,
      "loss": 6.2405,
      "loss/crossentropy": 1.093212641775608,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09843064611777663,
      "step": 2440
    },
    {
      "epoch": 0.4068333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 3.8692057291666666,
      "learning_rate": 6.445158984722358e-05,
      "loss": 5.9262,
      "loss/crossentropy": 1.520668238401413,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20593515038490295,
      "step": 2441
    },
    {
      "epoch": 0.407,
      "grad_norm": 23.125,
      "grad_norm_var": 4.005989583333333,
      "learning_rate": 6.442652530153789e-05,
      "loss": 5.9793,
      "loss/crossentropy": 1.096451811492443,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19666719809174538,
      "step": 2442
    },
    {
      "epoch": 0.4071666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 4.1150390625,
      "learning_rate": 6.440145680073847e-05,
      "loss": 6.1133,
      "loss/crossentropy": 1.502399355173111,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22773417085409164,
      "step": 2443
    },
    {
      "epoch": 0.4073333333333333,
      "grad_norm": 26.25,
      "grad_norm_var": 4.29140625,
      "learning_rate": 6.437638435169798e-05,
      "loss": 6.3117,
      "loss/crossentropy": 1.3373063802719116,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16414591297507286,
      "step": 2444
    },
    {
      "epoch": 0.4075,
      "grad_norm": 22.875,
      "grad_norm_var": 4.403059895833334,
      "learning_rate": 6.435130796129018e-05,
      "loss": 6.0383,
      "loss/crossentropy": 1.3462236374616623,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13492626138031483,
      "step": 2445
    },
    {
      "epoch": 0.4076666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 4.004622395833334,
      "learning_rate": 6.432622763638993e-05,
      "loss": 6.2539,
      "loss/crossentropy": 2.040767729282379,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18865633383393288,
      "step": 2446
    },
    {
      "epoch": 0.4078333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 3.948958333333333,
      "learning_rate": 6.43011433838731e-05,
      "loss": 5.9216,
      "loss/crossentropy": 1.6349280923604965,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18408730626106262,
      "step": 2447
    },
    {
      "epoch": 0.408,
      "grad_norm": 22.75,
      "grad_norm_var": 4.1416015625,
      "learning_rate": 6.42760552106167e-05,
      "loss": 6.0772,
      "loss/crossentropy": 1.2413724213838577,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16028348356485367,
      "step": 2448
    },
    {
      "epoch": 0.4081666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 4.1712890625,
      "learning_rate": 6.42509631234988e-05,
      "loss": 6.0206,
      "loss/crossentropy": 1.2837131172418594,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24850348010659218,
      "step": 2449
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 4.192708333333333,
      "learning_rate": 6.422586712939855e-05,
      "loss": 6.2652,
      "loss/crossentropy": 1.55172798037529,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13049978855997324,
      "step": 2450
    },
    {
      "epoch": 0.4085,
      "grad_norm": 24.125,
      "grad_norm_var": 4.045572916666667,
      "learning_rate": 6.420076723519614e-05,
      "loss": 6.007,
      "loss/crossentropy": 1.4298850893974304,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13422773592174053,
      "step": 2451
    },
    {
      "epoch": 0.4086666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 2.7535807291666665,
      "learning_rate": 6.417566344777285e-05,
      "loss": 6.2019,
      "loss/crossentropy": 1.3242433965206146,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12518342956900597,
      "step": 2452
    },
    {
      "epoch": 0.4088333333333333,
      "grad_norm": 27.125,
      "grad_norm_var": 3.3395182291666665,
      "learning_rate": 6.415055577401102e-05,
      "loss": 6.4484,
      "loss/crossentropy": 1.301595851778984,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12656385079026222,
      "step": 2453
    },
    {
      "epoch": 0.409,
      "grad_norm": 21.875,
      "grad_norm_var": 2.3577473958333335,
      "learning_rate": 6.412544422079407e-05,
      "loss": 6.1229,
      "loss/crossentropy": 1.4577016532421112,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16516878455877304,
      "step": 2454
    },
    {
      "epoch": 0.4091666666666667,
      "grad_norm": 25.875,
      "grad_norm_var": 2.546875,
      "learning_rate": 6.410032879500647e-05,
      "loss": 6.3317,
      "loss/crossentropy": 1.317693829536438,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22952160239219666,
      "step": 2455
    },
    {
      "epoch": 0.4093333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 2.575455729166667,
      "learning_rate": 6.407520950353377e-05,
      "loss": 6.4307,
      "loss/crossentropy": 1.0729835778474808,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09949563816189766,
      "step": 2456
    },
    {
      "epoch": 0.4095,
      "grad_norm": 22.75,
      "grad_norm_var": 2.320572916666667,
      "learning_rate": 6.405008635326257e-05,
      "loss": 6.2229,
      "loss/crossentropy": 1.087120771408081,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14454064890742302,
      "step": 2457
    },
    {
      "epoch": 0.4096666666666667,
      "grad_norm": 24.25,
      "grad_norm_var": 2.280143229166667,
      "learning_rate": 6.402495935108048e-05,
      "loss": 6.34,
      "loss/crossentropy": 1.9201853573322296,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16498057171702385,
      "step": 2458
    },
    {
      "epoch": 0.4098333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 2.2108723958333334,
      "learning_rate": 6.399982850387624e-05,
      "loss": 6.1985,
      "loss/crossentropy": 1.3851343393325806,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11430753953754902,
      "step": 2459
    },
    {
      "epoch": 0.41,
      "grad_norm": 24.625,
      "grad_norm_var": 1.9104166666666667,
      "learning_rate": 6.397469381853964e-05,
      "loss": 6.4888,
      "loss/crossentropy": 1.7477004528045654,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16885743290185928,
      "step": 2460
    },
    {
      "epoch": 0.4101666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.8410807291666667,
      "learning_rate": 6.394955530196147e-05,
      "loss": 6.0646,
      "loss/crossentropy": 1.0850218832492828,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09746995940804482,
      "step": 2461
    },
    {
      "epoch": 0.4103333333333333,
      "grad_norm": 25.0,
      "grad_norm_var": 1.8934895833333334,
      "learning_rate": 6.392441296103358e-05,
      "loss": 6.7327,
      "loss/crossentropy": 1.2479372918605804,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14498190209269524,
      "step": 2462
    },
    {
      "epoch": 0.4105,
      "grad_norm": 21.75,
      "grad_norm_var": 2.233268229166667,
      "learning_rate": 6.389926680264892e-05,
      "loss": 5.9067,
      "loss/crossentropy": 1.873861938714981,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13797247782349586,
      "step": 2463
    },
    {
      "epoch": 0.4106666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 2.1973307291666666,
      "learning_rate": 6.387411683370144e-05,
      "loss": 6.2798,
      "loss/crossentropy": 0.9913386851549149,
      "loss/hidden": 3.63671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10614860989153385,
      "step": 2464
    },
    {
      "epoch": 0.41083333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 2.3212890625,
      "learning_rate": 6.384896306108612e-05,
      "loss": 6.1998,
      "loss/crossentropy": 1.4829485416412354,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11794429086148739,
      "step": 2465
    },
    {
      "epoch": 0.411,
      "grad_norm": 23.125,
      "grad_norm_var": 2.3072916666666665,
      "learning_rate": 6.382380549169905e-05,
      "loss": 6.245,
      "loss/crossentropy": 1.0088957697153091,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10669437609612942,
      "step": 2466
    },
    {
      "epoch": 0.4111666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 2.3051432291666667,
      "learning_rate": 6.37986441324373e-05,
      "loss": 6.171,
      "loss/crossentropy": 1.2144797593355179,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3242440316826105,
      "step": 2467
    },
    {
      "epoch": 0.41133333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 2.2270182291666667,
      "learning_rate": 6.377347899019899e-05,
      "loss": 6.0493,
      "loss/crossentropy": 1.3382283747196198,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1394311785697937,
      "step": 2468
    },
    {
      "epoch": 0.4115,
      "grad_norm": 20.75,
      "grad_norm_var": 2.051041666666667,
      "learning_rate": 6.374831007188332e-05,
      "loss": 5.992,
      "loss/crossentropy": 1.4361133575439453,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20218068733811378,
      "step": 2469
    },
    {
      "epoch": 0.4116666666666667,
      "grad_norm": 25.125,
      "grad_norm_var": 1.9934895833333333,
      "learning_rate": 6.372313738439044e-05,
      "loss": 6.2734,
      "loss/crossentropy": 1.1884324103593826,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11720110848546028,
      "step": 2470
    },
    {
      "epoch": 0.41183333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 1.6947265625,
      "learning_rate": 6.369796093462164e-05,
      "loss": 6.1477,
      "loss/crossentropy": 1.3747271001338959,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.103553906083107,
      "step": 2471
    },
    {
      "epoch": 0.412,
      "grad_norm": 25.75,
      "grad_norm_var": 1.72890625,
      "learning_rate": 6.367278072947914e-05,
      "loss": 6.1319,
      "loss/crossentropy": 1.384967491030693,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.34629470482468605,
      "step": 2472
    },
    {
      "epoch": 0.4121666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8806640625,
      "learning_rate": 6.364759677586627e-05,
      "loss": 5.8347,
      "loss/crossentropy": 1.4573614746332169,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.109523581340909,
      "step": 2473
    },
    {
      "epoch": 0.41233333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.8884765625,
      "learning_rate": 6.362240908068733e-05,
      "loss": 5.8325,
      "loss/crossentropy": 1.8945288211107254,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1263766549527645,
      "step": 2474
    },
    {
      "epoch": 0.4125,
      "grad_norm": 27.75,
      "grad_norm_var": 2.970833333333333,
      "learning_rate": 6.35972176508477e-05,
      "loss": 6.7173,
      "loss/crossentropy": 1.5520969331264496,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26105963811278343,
      "step": 2475
    },
    {
      "epoch": 0.4126666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 3.073372395833333,
      "learning_rate": 6.357202249325371e-05,
      "loss": 6.3517,
      "loss/crossentropy": 1.6677480340003967,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1557067446410656,
      "step": 2476
    },
    {
      "epoch": 0.41283333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 3.189322916666667,
      "learning_rate": 6.35468236148128e-05,
      "loss": 6.4652,
      "loss/crossentropy": 1.7273097932338715,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19955328851938248,
      "step": 2477
    },
    {
      "epoch": 0.413,
      "grad_norm": 26.75,
      "grad_norm_var": 3.654166666666667,
      "learning_rate": 6.352162102243337e-05,
      "loss": 6.5241,
      "loss/crossentropy": 1.8425409495830536,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1962371040135622,
      "step": 2478
    },
    {
      "epoch": 0.4131666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 3.319205729166667,
      "learning_rate": 6.349641472302483e-05,
      "loss": 6.1874,
      "loss/crossentropy": 1.4049703776836395,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.278559148311615,
      "step": 2479
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 3.2348307291666667,
      "learning_rate": 6.347120472349764e-05,
      "loss": 6.519,
      "loss/crossentropy": 1.9591356217861176,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1780125293880701,
      "step": 2480
    },
    {
      "epoch": 0.4135,
      "grad_norm": 25.875,
      "grad_norm_var": 3.1979166666666665,
      "learning_rate": 6.344599103076329e-05,
      "loss": 6.588,
      "loss/crossentropy": 1.3838130682706833,
      "loss/hidden": 3.69921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18157716281712055,
      "step": 2481
    },
    {
      "epoch": 0.4136666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 3.2692057291666665,
      "learning_rate": 6.342077365173423e-05,
      "loss": 6.0335,
      "loss/crossentropy": 1.0974299311637878,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.106237574480474,
      "step": 2482
    },
    {
      "epoch": 0.41383333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 3.4671223958333335,
      "learning_rate": 6.339555259332398e-05,
      "loss": 6.2926,
      "loss/crossentropy": 1.6749544739723206,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15636694058775902,
      "step": 2483
    },
    {
      "epoch": 0.414,
      "grad_norm": 23.75,
      "grad_norm_var": 3.4452473958333334,
      "learning_rate": 6.337032786244699e-05,
      "loss": 5.7991,
      "loss/crossentropy": 1.292873740196228,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12878602370619774,
      "step": 2484
    },
    {
      "epoch": 0.4141666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.9530598958333334,
      "learning_rate": 6.334509946601879e-05,
      "loss": 6.1303,
      "loss/crossentropy": 0.7193106636404991,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07445552991703153,
      "step": 2485
    },
    {
      "epoch": 0.41433333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 2.9530598958333334,
      "learning_rate": 6.331986741095588e-05,
      "loss": 6.3011,
      "loss/crossentropy": 1.3775773793458939,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13107342272996902,
      "step": 2486
    },
    {
      "epoch": 0.4145,
      "grad_norm": 22.875,
      "grad_norm_var": 3.0927083333333334,
      "learning_rate": 6.329463170417578e-05,
      "loss": 6.1369,
      "loss/crossentropy": 1.1691612601280212,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13662818633019924,
      "step": 2487
    },
    {
      "epoch": 0.4146666666666667,
      "grad_norm": 23.625,
      "grad_norm_var": 2.9587890625,
      "learning_rate": 6.3269392352597e-05,
      "loss": 6.2,
      "loss/crossentropy": 1.1415780782699585,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25281079672276974,
      "step": 2488
    },
    {
      "epoch": 0.41483333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 2.596875,
      "learning_rate": 6.324414936313904e-05,
      "loss": 6.2653,
      "loss/crossentropy": 1.7078245878219604,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18835700117051601,
      "step": 2489
    },
    {
      "epoch": 0.415,
      "grad_norm": 23.75,
      "grad_norm_var": 2.455208333333333,
      "learning_rate": 6.321890274272243e-05,
      "loss": 6.1775,
      "loss/crossentropy": 1.435978651046753,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17033137939870358,
      "step": 2490
    },
    {
      "epoch": 0.4151666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.6337890625,
      "learning_rate": 6.319365249826865e-05,
      "loss": 6.5244,
      "loss/crossentropy": 1.3469487428665161,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11297174356877804,
      "step": 2491
    },
    {
      "epoch": 0.41533333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.765625,
      "learning_rate": 6.31683986367002e-05,
      "loss": 6.0015,
      "loss/crossentropy": 1.2653349488973618,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12172811478376389,
      "step": 2492
    },
    {
      "epoch": 0.4155,
      "grad_norm": 22.25,
      "grad_norm_var": 1.8150390625,
      "learning_rate": 6.31431411649406e-05,
      "loss": 5.8593,
      "loss/crossentropy": 1.039123147726059,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11017825733870268,
      "step": 2493
    },
    {
      "epoch": 0.4156666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 1.21015625,
      "learning_rate": 6.311788008991432e-05,
      "loss": 5.9167,
      "loss/crossentropy": 1.5618784874677658,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09597750101238489,
      "step": 2494
    },
    {
      "epoch": 0.41583333333333333,
      "grad_norm": 24.5,
      "grad_norm_var": 1.2244140625,
      "learning_rate": 6.309261541854678e-05,
      "loss": 6.2242,
      "loss/crossentropy": 1.3881058394908905,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15742355212569237,
      "step": 2495
    },
    {
      "epoch": 0.416,
      "grad_norm": 24.0,
      "grad_norm_var": 1.2244140625,
      "learning_rate": 6.306734715776447e-05,
      "loss": 6.1609,
      "loss/crossentropy": 1.4504806995391846,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15950419008731842,
      "step": 2496
    },
    {
      "epoch": 0.4161666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 0.8580729166666666,
      "learning_rate": 6.304207531449486e-05,
      "loss": 6.4079,
      "loss/crossentropy": 1.3764778822660446,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12276783771812916,
      "step": 2497
    },
    {
      "epoch": 0.41633333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 0.8268229166666666,
      "learning_rate": 6.301679989566631e-05,
      "loss": 6.4288,
      "loss/crossentropy": 1.5116752833127975,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13895714655518532,
      "step": 2498
    },
    {
      "epoch": 0.4165,
      "grad_norm": 23.75,
      "grad_norm_var": 0.7604166666666666,
      "learning_rate": 6.299152090820823e-05,
      "loss": 6.528,
      "loss/crossentropy": 1.7716830968856812,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.18248125165700912,
      "step": 2499
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 0.8268229166666666,
      "learning_rate": 6.296623835905105e-05,
      "loss": 6.0682,
      "loss/crossentropy": 1.5898503363132477,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15741974487900734,
      "step": 2500
    },
    {
      "epoch": 0.41683333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 0.7014973958333334,
      "learning_rate": 6.294095225512603e-05,
      "loss": 6.2204,
      "loss/crossentropy": 1.2525849342346191,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09376714192330837,
      "step": 2501
    },
    {
      "epoch": 0.417,
      "grad_norm": 23.75,
      "grad_norm_var": 0.52890625,
      "learning_rate": 6.29156626033656e-05,
      "loss": 6.3729,
      "loss/crossentropy": 1.8127537071704865,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25437297485768795,
      "step": 2502
    },
    {
      "epoch": 0.4171666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 0.7572265625,
      "learning_rate": 6.2890369410703e-05,
      "loss": 6.5732,
      "loss/crossentropy": 1.5940327644348145,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1348867006599903,
      "step": 2503
    },
    {
      "epoch": 0.41733333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 0.9468098958333333,
      "learning_rate": 6.286507268407251e-05,
      "loss": 5.78,
      "loss/crossentropy": 1.2995488047599792,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1194656528532505,
      "step": 2504
    },
    {
      "epoch": 0.4175,
      "grad_norm": 23.75,
      "grad_norm_var": 0.9343098958333333,
      "learning_rate": 6.283977243040939e-05,
      "loss": 6.1048,
      "loss/crossentropy": 1.3715640679001808,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11506656184792519,
      "step": 2505
    },
    {
      "epoch": 0.4176666666666667,
      "grad_norm": 24.875,
      "grad_norm_var": 1.0520833333333333,
      "learning_rate": 6.281446865664984e-05,
      "loss": 6.3802,
      "loss/crossentropy": 1.469757318496704,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2340540736913681,
      "step": 2506
    },
    {
      "epoch": 0.41783333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1.0504557291666667,
      "learning_rate": 6.278916136973103e-05,
      "loss": 6.2305,
      "loss/crossentropy": 0.9847623705863953,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10246947035193443,
      "step": 2507
    },
    {
      "epoch": 0.418,
      "grad_norm": 26.625,
      "grad_norm_var": 1.4770182291666667,
      "learning_rate": 6.276385057659108e-05,
      "loss": 6.3935,
      "loss/crossentropy": 1.2880738526582718,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23229382187128067,
      "step": 2508
    },
    {
      "epoch": 0.4181666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 1.3229166666666667,
      "learning_rate": 6.273853628416911e-05,
      "loss": 6.3891,
      "loss/crossentropy": 1.317028984427452,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22696666792035103,
      "step": 2509
    },
    {
      "epoch": 0.41833333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 1.3080729166666667,
      "learning_rate": 6.271321849940518e-05,
      "loss": 6.3077,
      "loss/crossentropy": 1.8627448678016663,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20317603275179863,
      "step": 2510
    },
    {
      "epoch": 0.4185,
      "grad_norm": 24.375,
      "grad_norm_var": 1.2978515625,
      "learning_rate": 6.268789722924029e-05,
      "loss": 6.2545,
      "loss/crossentropy": 1.7893638610839844,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1300711240619421,
      "step": 2511
    },
    {
      "epoch": 0.4186666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 1.5957682291666666,
      "learning_rate": 6.266257248061641e-05,
      "loss": 6.4564,
      "loss/crossentropy": 1.8211309015750885,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1459017526358366,
      "step": 2512
    },
    {
      "epoch": 0.41883333333333334,
      "grad_norm": 24.0,
      "grad_norm_var": 1.5931640625,
      "learning_rate": 6.263724426047647e-05,
      "loss": 6.2947,
      "loss/crossentropy": 1.1457300931215286,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11548482999205589,
      "step": 2513
    },
    {
      "epoch": 0.419,
      "grad_norm": 25.0,
      "grad_norm_var": 1.6186848958333333,
      "learning_rate": 6.261191257576435e-05,
      "loss": 6.4999,
      "loss/crossentropy": 1.2465559095144272,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1277855159714818,
      "step": 2514
    },
    {
      "epoch": 0.4191666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 1.61640625,
      "learning_rate": 6.258657743342486e-05,
      "loss": 6.6441,
      "loss/crossentropy": 1.9190801084041595,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19732549041509628,
      "step": 2515
    },
    {
      "epoch": 0.41933333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 1.6739583333333334,
      "learning_rate": 6.256123884040378e-05,
      "loss": 5.8792,
      "loss/crossentropy": 1.052063688635826,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12784816324710846,
      "step": 2516
    },
    {
      "epoch": 0.4195,
      "grad_norm": 25.625,
      "grad_norm_var": 1.6997395833333333,
      "learning_rate": 6.253589680364785e-05,
      "loss": 6.4285,
      "loss/crossentropy": 1.68435637652874,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25182827934622765,
      "step": 2517
    },
    {
      "epoch": 0.4196666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 1.7497395833333333,
      "learning_rate": 6.251055133010468e-05,
      "loss": 6.2238,
      "loss/crossentropy": 1.436424732208252,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15865883603692055,
      "step": 2518
    },
    {
      "epoch": 0.41983333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.8921223958333333,
      "learning_rate": 6.248520242672292e-05,
      "loss": 5.999,
      "loss/crossentropy": 1.3747486472129822,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11959332879632711,
      "step": 2519
    },
    {
      "epoch": 0.42,
      "grad_norm": 25.875,
      "grad_norm_var": 1.7462890625,
      "learning_rate": 6.245985010045213e-05,
      "loss": 6.3577,
      "loss/crossentropy": 1.7590843737125397,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.333301343023777,
      "step": 2520
    },
    {
      "epoch": 0.4201666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 2.096875,
      "learning_rate": 6.243449435824276e-05,
      "loss": 6.2658,
      "loss/crossentropy": 1.8130252063274384,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15553641691803932,
      "step": 2521
    },
    {
      "epoch": 0.42033333333333334,
      "grad_norm": 23.75,
      "grad_norm_var": 2.0681640625,
      "learning_rate": 6.240913520704621e-05,
      "loss": 6.3933,
      "loss/crossentropy": 1.0941186249256134,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07740003056824207,
      "step": 2522
    },
    {
      "epoch": 0.4205,
      "grad_norm": 24.875,
      "grad_norm_var": 2.0520833333333335,
      "learning_rate": 6.238377265381489e-05,
      "loss": 6.4242,
      "loss/crossentropy": 1.663233458995819,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15184666216373444,
      "step": 2523
    },
    {
      "epoch": 0.4206666666666667,
      "grad_norm": 25.875,
      "grad_norm_var": 1.8434895833333333,
      "learning_rate": 6.235840670550204e-05,
      "loss": 6.7209,
      "loss/crossentropy": 1.8074398934841156,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15832320228219032,
      "step": 2524
    },
    {
      "epoch": 0.42083333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 2.06875,
      "learning_rate": 6.233303736906193e-05,
      "loss": 6.1156,
      "loss/crossentropy": 1.269854947924614,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13580039329826832,
      "step": 2525
    },
    {
      "epoch": 0.421,
      "grad_norm": 22.5,
      "grad_norm_var": 2.2134765625,
      "learning_rate": 6.230766465144967e-05,
      "loss": 6.2697,
      "loss/crossentropy": 0.9783824682235718,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09359278157353401,
      "step": 2526
    },
    {
      "epoch": 0.4211666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.2775390625,
      "learning_rate": 6.228228855962133e-05,
      "loss": 6.3251,
      "loss/crossentropy": 1.4216694831848145,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1470397561788559,
      "step": 2527
    },
    {
      "epoch": 0.42133333333333334,
      "grad_norm": 25.0,
      "grad_norm_var": 2.059830729166667,
      "learning_rate": 6.225690910053392e-05,
      "loss": 6.1425,
      "loss/crossentropy": 1.2991306707262993,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1147156972438097,
      "step": 2528
    },
    {
      "epoch": 0.4215,
      "grad_norm": 22.75,
      "grad_norm_var": 2.130143229166667,
      "learning_rate": 6.223152628114537e-05,
      "loss": 6.1598,
      "loss/crossentropy": 1.1895804852247238,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1634167693555355,
      "step": 2529
    },
    {
      "epoch": 0.4216666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 2.0270182291666665,
      "learning_rate": 6.220614010841453e-05,
      "loss": 6.4312,
      "loss/crossentropy": 1.311209037899971,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1474601812660694,
      "step": 2530
    },
    {
      "epoch": 0.42183333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 2.0205729166666666,
      "learning_rate": 6.218075058930113e-05,
      "loss": 5.8315,
      "loss/crossentropy": 0.9995871186256409,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09341881144791842,
      "step": 2531
    },
    {
      "epoch": 0.422,
      "grad_norm": 20.75,
      "grad_norm_var": 2.4330729166666667,
      "learning_rate": 6.215535773076588e-05,
      "loss": 6.1144,
      "loss/crossentropy": 1.9459985792636871,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1546429293230176,
      "step": 2532
    },
    {
      "epoch": 0.4221666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 2.1322916666666667,
      "learning_rate": 6.212996153977037e-05,
      "loss": 6.363,
      "loss/crossentropy": 0.9893196374177933,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07155358232557774,
      "step": 2533
    },
    {
      "epoch": 0.42233333333333334,
      "grad_norm": 26.125,
      "grad_norm_var": 2.588997395833333,
      "learning_rate": 6.210456202327711e-05,
      "loss": 6.7076,
      "loss/crossentropy": 1.5409258604049683,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12606719881296158,
      "step": 2534
    },
    {
      "epoch": 0.4225,
      "grad_norm": 23.125,
      "grad_norm_var": 2.4567057291666665,
      "learning_rate": 6.207915918824952e-05,
      "loss": 5.8858,
      "loss/crossentropy": 1.4467021524906158,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12188317626714706,
      "step": 2535
    },
    {
      "epoch": 0.4226666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 2.1393229166666665,
      "learning_rate": 6.205375304165194e-05,
      "loss": 6.3606,
      "loss/crossentropy": 1.3916781544685364,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09452739916741848,
      "step": 2536
    },
    {
      "epoch": 0.42283333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 1.9681640625,
      "learning_rate": 6.202834359044959e-05,
      "loss": 6.054,
      "loss/crossentropy": 1.1821209490299225,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14379706047475338,
      "step": 2537
    },
    {
      "epoch": 0.423,
      "grad_norm": 28.0,
      "grad_norm_var": 3.2166015625,
      "learning_rate": 6.200293084160863e-05,
      "loss": 6.4646,
      "loss/crossentropy": 1.2505353391170502,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1729828491806984,
      "step": 2538
    },
    {
      "epoch": 0.4231666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 3.2119140625,
      "learning_rate": 6.19775148020961e-05,
      "loss": 6.1839,
      "loss/crossentropy": 1.6577544808387756,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18048740178346634,
      "step": 2539
    },
    {
      "epoch": 0.42333333333333334,
      "grad_norm": 23.5,
      "grad_norm_var": 2.8643229166666666,
      "learning_rate": 6.195209547887995e-05,
      "loss": 6.2343,
      "loss/crossentropy": 1.5412819534540176,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1234739925712347,
      "step": 2540
    },
    {
      "epoch": 0.4235,
      "grad_norm": 22.0,
      "grad_norm_var": 2.8884765625,
      "learning_rate": 6.192667287892905e-05,
      "loss": 5.898,
      "loss/crossentropy": 1.4802681803703308,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14775159489363432,
      "step": 2541
    },
    {
      "epoch": 0.4236666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 3.4072265625,
      "learning_rate": 6.190124700921312e-05,
      "loss": 6.0139,
      "loss/crossentropy": 1.6739386022090912,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16637386195361614,
      "step": 2542
    },
    {
      "epoch": 0.42383333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 3.4931640625,
      "learning_rate": 6.187581787670285e-05,
      "loss": 6.0653,
      "loss/crossentropy": 1.0011612921953201,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12481043487787247,
      "step": 2543
    },
    {
      "epoch": 0.424,
      "grad_norm": 22.75,
      "grad_norm_var": 3.3103515625,
      "learning_rate": 6.185038548836974e-05,
      "loss": 6.086,
      "loss/crossentropy": 0.7274805679917336,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0690291989594698,
      "step": 2544
    },
    {
      "epoch": 0.4241666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 3.6197265625,
      "learning_rate": 6.182494985118624e-05,
      "loss": 6.1483,
      "loss/crossentropy": 1.3540417551994324,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14978989958763123,
      "step": 2545
    },
    {
      "epoch": 0.42433333333333334,
      "grad_norm": 25.375,
      "grad_norm_var": 3.85390625,
      "learning_rate": 6.179951097212566e-05,
      "loss": 6.3939,
      "loss/crossentropy": 1.7312314212322235,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2601427808403969,
      "step": 2546
    },
    {
      "epoch": 0.4245,
      "grad_norm": 25.5,
      "grad_norm_var": 4.093489583333334,
      "learning_rate": 6.177406885816224e-05,
      "loss": 6.3765,
      "loss/crossentropy": 1.3100353330373764,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12417937070131302,
      "step": 2547
    },
    {
      "epoch": 0.4246666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 3.6389973958333335,
      "learning_rate": 6.174862351627108e-05,
      "loss": 6.1445,
      "loss/crossentropy": 1.284039318561554,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13739351741969585,
      "step": 2548
    },
    {
      "epoch": 0.42483333333333334,
      "grad_norm": 26.75,
      "grad_norm_var": 4.218489583333334,
      "learning_rate": 6.172317495342812e-05,
      "loss": 6.494,
      "loss/crossentropy": 1.3195591196417809,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24228399619460106,
      "step": 2549
    },
    {
      "epoch": 0.425,
      "grad_norm": 25.125,
      "grad_norm_var": 3.9830729166666665,
      "learning_rate": 6.169772317661027e-05,
      "loss": 6.4105,
      "loss/crossentropy": 1.340935230255127,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20994831714779139,
      "step": 2550
    },
    {
      "epoch": 0.4251666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 3.9957682291666665,
      "learning_rate": 6.167226819279528e-05,
      "loss": 6.5622,
      "loss/crossentropy": 1.7288085222244263,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15882048197090626,
      "step": 2551
    },
    {
      "epoch": 0.42533333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 4.01640625,
      "learning_rate": 6.164681000896175e-05,
      "loss": 5.7754,
      "loss/crossentropy": 1.7385322749614716,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16325237043201923,
      "step": 2552
    },
    {
      "epoch": 0.4255,
      "grad_norm": 23.5,
      "grad_norm_var": 3.997916666666667,
      "learning_rate": 6.16213486320892e-05,
      "loss": 6.1632,
      "loss/crossentropy": 1.3192472904920578,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16522234492003918,
      "step": 2553
    },
    {
      "epoch": 0.4256666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 2.83125,
      "learning_rate": 6.159588406915803e-05,
      "loss": 6.4189,
      "loss/crossentropy": 1.8931413888931274,
      "loss/hidden": 3.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2143918238580227,
      "step": 2554
    },
    {
      "epoch": 0.42583333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 2.83125,
      "learning_rate": 6.157041632714945e-05,
      "loss": 6.0377,
      "loss/crossentropy": 0.8654054254293442,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.06627086130902171,
      "step": 2555
    },
    {
      "epoch": 0.426,
      "grad_norm": 26.25,
      "grad_norm_var": 3.23515625,
      "learning_rate": 6.154494541304561e-05,
      "loss": 6.3405,
      "loss/crossentropy": 1.360731765627861,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14037784934043884,
      "step": 2556
    },
    {
      "epoch": 0.4261666666666667,
      "grad_norm": 25.625,
      "grad_norm_var": 3.1577473958333333,
      "learning_rate": 6.151947133382954e-05,
      "loss": 6.6739,
      "loss/crossentropy": 1.85639488697052,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2024678811430931,
      "step": 2557
    },
    {
      "epoch": 0.42633333333333334,
      "grad_norm": 23.625,
      "grad_norm_var": 2.2739583333333333,
      "learning_rate": 6.149399409648504e-05,
      "loss": 5.9855,
      "loss/crossentropy": 1.3484688699245453,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1829105280339718,
      "step": 2558
    },
    {
      "epoch": 0.4265,
      "grad_norm": 25.625,
      "grad_norm_var": 2.033333333333333,
      "learning_rate": 6.146851370799689e-05,
      "loss": 6.0516,
      "loss/crossentropy": 1.4213378205895424,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17435179743915796,
      "step": 2559
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 1.8393229166666667,
      "learning_rate": 6.144303017535066e-05,
      "loss": 6.2248,
      "loss/crossentropy": 1.0615995153784752,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12524797208607197,
      "step": 2560
    },
    {
      "epoch": 0.42683333333333334,
      "grad_norm": 24.875,
      "grad_norm_var": 1.7869140625,
      "learning_rate": 6.141754350553279e-05,
      "loss": 6.3238,
      "loss/crossentropy": 1.7585140764713287,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24584519863128662,
      "step": 2561
    },
    {
      "epoch": 0.427,
      "grad_norm": 24.625,
      "grad_norm_var": 1.7384765625,
      "learning_rate": 6.139205370553063e-05,
      "loss": 6.4821,
      "loss/crossentropy": 1.6848424524068832,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14054510742425919,
      "step": 2562
    },
    {
      "epoch": 0.42716666666666664,
      "grad_norm": 21.125,
      "grad_norm_var": 2.346875,
      "learning_rate": 6.136656078233232e-05,
      "loss": 6.1118,
      "loss/crossentropy": 1.660455971956253,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17826382257044315,
      "step": 2563
    },
    {
      "epoch": 0.42733333333333334,
      "grad_norm": 4043309056.0,
      "grad_norm_var": 1.0217717453431155e+18,
      "learning_rate": 6.134106474292693e-05,
      "loss": 6.9448,
      "loss/crossentropy": 2.0812155455350876,
      "loss/hidden": 5.73046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22651581093668938,
      "step": 2564
    },
    {
      "epoch": 0.4275,
      "grad_norm": 26.125,
      "grad_norm_var": 1.0217717453641745e+18,
      "learning_rate": 6.13155655943043e-05,
      "loss": 6.1044,
      "loss/crossentropy": 1.3799222111701965,
      "loss/hidden": 3.59765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18647802248597145,
      "step": 2565
    },
    {
      "epoch": 0.42766666666666664,
      "grad_norm": 26.875,
      "grad_norm_var": 1.0217717453052095e+18,
      "learning_rate": 6.12900633434552e-05,
      "loss": 6.5722,
      "loss/crossentropy": 1.3380894660949707,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14334889687597752,
      "step": 2566
    },
    {
      "epoch": 0.42783333333333334,
      "grad_norm": 24.75,
      "grad_norm_var": 1.0217717453052095e+18,
      "learning_rate": 6.126455799737118e-05,
      "loss": 6.5898,
      "loss/crossentropy": 1.6226060688495636,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15834910608828068,
      "step": 2567
    },
    {
      "epoch": 0.428,
      "grad_norm": 22.625,
      "grad_norm_var": 1.0217717453052095e+18,
      "learning_rate": 6.123904956304471e-05,
      "loss": 6.1132,
      "loss/crossentropy": 1.342695489525795,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13118777610361576,
      "step": 2568
    },
    {
      "epoch": 0.42816666666666664,
      "grad_norm": 21.125,
      "grad_norm_var": 1.0217717453852334e+18,
      "learning_rate": 6.121353804746907e-05,
      "loss": 5.7012,
      "loss/crossentropy": 1.5940137803554535,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15812034904956818,
      "step": 2569
    },
    {
      "epoch": 0.42833333333333334,
      "grad_norm": 26.5,
      "grad_norm_var": 1.0217717453009978e+18,
      "learning_rate": 6.118802345763836e-05,
      "loss": 6.55,
      "loss/crossentropy": 1.9881504476070404,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1505908090621233,
      "step": 2570
    },
    {
      "epoch": 0.4285,
      "grad_norm": 28.0,
      "grad_norm_var": 1.0217717451198912e+18,
      "learning_rate": 6.116250580054757e-05,
      "loss": 6.4327,
      "loss/crossentropy": 0.6763896271586418,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12858235277235508,
      "step": 2571
    },
    {
      "epoch": 0.42866666666666664,
      "grad_norm": 24.75,
      "grad_norm_var": 1.0217717451704325e+18,
      "learning_rate": 6.113698508319251e-05,
      "loss": 6.6327,
      "loss/crossentropy": 1.348088413476944,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24616029392927885,
      "step": 2572
    },
    {
      "epoch": 0.42883333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 1.0217717452462446e+18,
      "learning_rate": 6.111146131256983e-05,
      "loss": 6.3529,
      "loss/crossentropy": 1.6582640260457993,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15844700671732426,
      "step": 2573
    },
    {
      "epoch": 0.429,
      "grad_norm": 25.375,
      "grad_norm_var": 1.0217717451872796e+18,
      "learning_rate": 6.1085934495677e-05,
      "loss": 6.2704,
      "loss/crossentropy": 1.67288139462471,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15320381708443165,
      "step": 2574
    },
    {
      "epoch": 0.42916666666666664,
      "grad_norm": 24.25,
      "grad_norm_var": 1.0217717452336092e+18,
      "learning_rate": 6.106040463951237e-05,
      "loss": 6.2483,
      "loss/crossentropy": 2.233457922935486,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21564815193414688,
      "step": 2575
    },
    {
      "epoch": 0.42933333333333334,
      "grad_norm": 23.625,
      "grad_norm_var": 1.0217717452462446e+18,
      "learning_rate": 6.103487175107507e-05,
      "loss": 6.2646,
      "loss/crossentropy": 0.8208579868078232,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09375445544719696,
      "step": 2576
    },
    {
      "epoch": 0.4295,
      "grad_norm": 26.25,
      "grad_norm_var": 1.021771745199915e+18,
      "learning_rate": 6.100933583736508e-05,
      "loss": 6.539,
      "loss/crossentropy": 1.629982054233551,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1439266875386238,
      "step": 2577
    },
    {
      "epoch": 0.42966666666666664,
      "grad_norm": 21.75,
      "grad_norm_var": 1.0217717452967859e+18,
      "learning_rate": 6.098379690538325e-05,
      "loss": 5.7553,
      "loss/crossentropy": 1.4124604761600494,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11499970406293869,
      "step": 2578
    },
    {
      "epoch": 0.42983333333333335,
      "grad_norm": 23.625,
      "grad_norm_var": 1.0217717452125504e+18,
      "learning_rate": 6.095825496213119e-05,
      "loss": 6.1532,
      "loss/crossentropy": 1.1251867786049843,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14846902526915073,
      "step": 2579
    },
    {
      "epoch": 0.43,
      "grad_norm": 24.625,
      "grad_norm_var": 3.5775390625,
      "learning_rate": 6.0932710014611394e-05,
      "loss": 6.4673,
      "loss/crossentropy": 1.8314282298088074,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14118878915905952,
      "step": 2580
    },
    {
      "epoch": 0.43016666666666664,
      "grad_norm": 23.75,
      "grad_norm_var": 3.44765625,
      "learning_rate": 6.090716206982714e-05,
      "loss": 6.4451,
      "loss/crossentropy": 1.8499515503644943,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18924779072403908,
      "step": 2581
    },
    {
      "epoch": 0.43033333333333335,
      "grad_norm": 21.875,
      "grad_norm_var": 3.3955729166666666,
      "learning_rate": 6.0881611134782546e-05,
      "loss": 6.3921,
      "loss/crossentropy": 1.728837326169014,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22268365696072578,
      "step": 2582
    },
    {
      "epoch": 0.4305,
      "grad_norm": 25.625,
      "grad_norm_var": 3.514518229166667,
      "learning_rate": 6.085605721648252e-05,
      "loss": 6.6231,
      "loss/crossentropy": 2.168146640062332,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14980296790599823,
      "step": 2583
    },
    {
      "epoch": 0.43066666666666664,
      "grad_norm": 23.125,
      "grad_norm_var": 3.4254557291666665,
      "learning_rate": 6.083050032193286e-05,
      "loss": 6.3356,
      "loss/crossentropy": 1.3228579014539719,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10430808365345001,
      "step": 2584
    },
    {
      "epoch": 0.43083333333333335,
      "grad_norm": 24.625,
      "grad_norm_var": 2.7436848958333333,
      "learning_rate": 6.080494045814011e-05,
      "loss": 6.495,
      "loss/crossentropy": 1.362004280090332,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1747174710035324,
      "step": 2585
    },
    {
      "epoch": 0.431,
      "grad_norm": 24.25,
      "grad_norm_var": 2.4436848958333335,
      "learning_rate": 6.077937763211166e-05,
      "loss": 6.3741,
      "loss/crossentropy": 1.5497280657291412,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3072430491447449,
      "step": 2586
    },
    {
      "epoch": 0.43116666666666664,
      "grad_norm": 22.625,
      "grad_norm_var": 1.6010416666666667,
      "learning_rate": 6.075381185085568e-05,
      "loss": 6.1312,
      "loss/crossentropy": 1.659162163734436,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15980572998523712,
      "step": 2587
    },
    {
      "epoch": 0.43133333333333335,
      "grad_norm": 29.125,
      "grad_norm_var": 3.253059895833333,
      "learning_rate": 6.072824312138119e-05,
      "loss": 7.0043,
      "loss/crossentropy": 1.870418667793274,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2266669049859047,
      "step": 2588
    },
    {
      "epoch": 0.4315,
      "grad_norm": 25.75,
      "grad_norm_var": 3.3309895833333334,
      "learning_rate": 6.0702671450698e-05,
      "loss": 6.6762,
      "loss/crossentropy": 1.3626176714897156,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1649141162633896,
      "step": 2589
    },
    {
      "epoch": 0.43166666666666664,
      "grad_norm": 25.375,
      "grad_norm_var": 3.3309895833333334,
      "learning_rate": 6.067709684581675e-05,
      "loss": 5.9175,
      "loss/crossentropy": 1.624818593263626,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23640208318829536,
      "step": 2590
    },
    {
      "epoch": 0.43183333333333335,
      "grad_norm": 24.875,
      "grad_norm_var": 3.3436848958333334,
      "learning_rate": 6.0651519313748836e-05,
      "loss": 6.5991,
      "loss/crossentropy": 1.2949375659227371,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09993973933160305,
      "step": 2591
    },
    {
      "epoch": 0.432,
      "grad_norm": 25.25,
      "grad_norm_var": 3.334375,
      "learning_rate": 6.062593886150649e-05,
      "loss": 5.9665,
      "loss/crossentropy": 1.37143624573946,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13011345453560352,
      "step": 2592
    },
    {
      "epoch": 0.43216666666666664,
      "grad_norm": 24.0,
      "grad_norm_var": 3.13515625,
      "learning_rate": 6.0600355496102745e-05,
      "loss": 6.6772,
      "loss/crossentropy": 1.5273012220859528,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.220138780772686,
      "step": 2593
    },
    {
      "epoch": 0.43233333333333335,
      "grad_norm": 22.875,
      "grad_norm_var": 2.8181640625,
      "learning_rate": 6.0574769224551406e-05,
      "loss": 5.9416,
      "loss/crossentropy": 1.2637767493724823,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19965140707790852,
      "step": 2594
    },
    {
      "epoch": 0.4325,
      "grad_norm": 26.625,
      "grad_norm_var": 3.0462890625,
      "learning_rate": 6.054918005386712e-05,
      "loss": 6.3081,
      "loss/crossentropy": 1.2521100342273712,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17501444183290005,
      "step": 2595
    },
    {
      "epoch": 0.43266666666666664,
      "grad_norm": 22.875,
      "grad_norm_var": 3.2431640625,
      "learning_rate": 6.052358799106528e-05,
      "loss": 6.149,
      "loss/crossentropy": 1.22871994972229,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19331823848187923,
      "step": 2596
    },
    {
      "epoch": 0.43283333333333335,
      "grad_norm": 23.25,
      "grad_norm_var": 3.311393229166667,
      "learning_rate": 6.049799304316214e-05,
      "loss": 6.0567,
      "loss/crossentropy": 1.6287366896867752,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11396118625998497,
      "step": 2597
    },
    {
      "epoch": 0.433,
      "grad_norm": 22.25,
      "grad_norm_var": 3.1885416666666666,
      "learning_rate": 6.0472395217174627e-05,
      "loss": 5.7795,
      "loss/crossentropy": 1.3138379603624344,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1153500434011221,
      "step": 2598
    },
    {
      "epoch": 0.43316666666666664,
      "grad_norm": 22.0,
      "grad_norm_var": 3.481184895833333,
      "learning_rate": 6.0446794520120584e-05,
      "loss": 6.0291,
      "loss/crossentropy": 1.3815634548664093,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1199768278747797,
      "step": 2599
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 23.25,
      "grad_norm_var": 3.4625,
      "learning_rate": 6.042119095901859e-05,
      "loss": 5.7644,
      "loss/crossentropy": 1.075792670249939,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0793567281216383,
      "step": 2600
    },
    {
      "epoch": 0.4335,
      "grad_norm": 23.375,
      "grad_norm_var": 3.508072916666667,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 6.2388,
      "loss/crossentropy": 1.2100846618413925,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2909061498939991,
      "step": 2601
    },
    {
      "epoch": 0.43366666666666664,
      "grad_norm": 25.5,
      "grad_norm_var": 3.6083333333333334,
      "learning_rate": 6.03699752727489e-05,
      "loss": 6.6153,
      "loss/crossentropy": 1.9732543230056763,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2477557398378849,
      "step": 2602
    },
    {
      "epoch": 0.43383333333333335,
      "grad_norm": 23.125,
      "grad_norm_var": 3.511458333333333,
      "learning_rate": 6.03443631616223e-05,
      "loss": 6.3013,
      "loss/crossentropy": 1.336529679596424,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19164590537548065,
      "step": 2603
    },
    {
      "epoch": 0.434,
      "grad_norm": 22.125,
      "grad_norm_var": 2.111458333333333,
      "learning_rate": 6.031874821452985e-05,
      "loss": 6.1716,
      "loss/crossentropy": 1.95159250497818,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15323145873844624,
      "step": 2604
    },
    {
      "epoch": 0.43416666666666665,
      "grad_norm": 23.75,
      "grad_norm_var": 1.8697916666666667,
      "learning_rate": 6.029313043849407e-05,
      "loss": 6.2941,
      "loss/crossentropy": 1.485568881034851,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19983739778399467,
      "step": 2605
    },
    {
      "epoch": 0.43433333333333335,
      "grad_norm": 23.75,
      "grad_norm_var": 1.6895182291666666,
      "learning_rate": 6.026750984053821e-05,
      "loss": 6.1345,
      "loss/crossentropy": 1.4562150686979294,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12553473003208637,
      "step": 2606
    },
    {
      "epoch": 0.4345,
      "grad_norm": 24.5,
      "grad_norm_var": 1.6385416666666666,
      "learning_rate": 6.024188642768628e-05,
      "loss": 6.1442,
      "loss/crossentropy": 1.4747317135334015,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15570824965834618,
      "step": 2607
    },
    {
      "epoch": 0.43466666666666665,
      "grad_norm": 23.875,
      "grad_norm_var": 1.4645182291666667,
      "learning_rate": 6.021626020696311e-05,
      "loss": 6.577,
      "loss/crossentropy": 1.4066885337233543,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15801712311804295,
      "step": 2608
    },
    {
      "epoch": 0.43483333333333335,
      "grad_norm": 24.75,
      "grad_norm_var": 1.5426432291666667,
      "learning_rate": 6.019063118539425e-05,
      "loss": 6.0048,
      "loss/crossentropy": 1.2092152386903763,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1441937629133463,
      "step": 2609
    },
    {
      "epoch": 0.435,
      "grad_norm": 24.0,
      "grad_norm_var": 1.5104166666666667,
      "learning_rate": 6.016499937000605e-05,
      "loss": 5.966,
      "loss/crossentropy": 1.1666884198784828,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08101580291986465,
      "step": 2610
    },
    {
      "epoch": 0.43516666666666665,
      "grad_norm": 22.125,
      "grad_norm_var": 1.0135416666666666,
      "learning_rate": 6.0139364767825626e-05,
      "loss": 5.7933,
      "loss/crossentropy": 1.79159776866436,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14348341338336468,
      "step": 2611
    },
    {
      "epoch": 0.43533333333333335,
      "grad_norm": 24.625,
      "grad_norm_var": 1.0809895833333334,
      "learning_rate": 6.0113727385880856e-05,
      "loss": 6.61,
      "loss/crossentropy": 1.6495710909366608,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24685952253639698,
      "step": 2612
    },
    {
      "epoch": 0.4355,
      "grad_norm": 24.125,
      "grad_norm_var": 1.0978515625,
      "learning_rate": 6.008808723120035e-05,
      "loss": 6.3185,
      "loss/crossentropy": 1.1426531746983528,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1523674950003624,
      "step": 2613
    },
    {
      "epoch": 0.43566666666666665,
      "grad_norm": 25.375,
      "grad_norm_var": 1.1580729166666666,
      "learning_rate": 6.0062444310813525e-05,
      "loss": 6.878,
      "loss/crossentropy": 1.7892526984214783,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1731349416077137,
      "step": 2614
    },
    {
      "epoch": 0.43583333333333335,
      "grad_norm": 22.375,
      "grad_norm_var": 1.0785807291666667,
      "learning_rate": 6.003679863175053e-05,
      "loss": 6.2546,
      "loss/crossentropy": 1.665233999490738,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14175445400178432,
      "step": 2615
    },
    {
      "epoch": 0.436,
      "grad_norm": 25.5,
      "grad_norm_var": 1.2332682291666666,
      "learning_rate": 6.0011150201042236e-05,
      "loss": 6.633,
      "loss/crossentropy": 1.5564685463905334,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17303690500557423,
      "step": 2616
    },
    {
      "epoch": 0.43616666666666665,
      "grad_norm": 22.625,
      "grad_norm_var": 1.3238932291666667,
      "learning_rate": 5.9985499025720346e-05,
      "loss": 6.3447,
      "loss/crossentropy": 2.3869930505752563,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1544589176774025,
      "step": 2617
    },
    {
      "epoch": 0.43633333333333335,
      "grad_norm": 27.5,
      "grad_norm_var": 2.005143229166667,
      "learning_rate": 5.995984511281728e-05,
      "loss": 6.3691,
      "loss/crossentropy": 1.068098172545433,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08957599103450775,
      "step": 2618
    },
    {
      "epoch": 0.4365,
      "grad_norm": 23.625,
      "grad_norm_var": 1.9619140625,
      "learning_rate": 5.9934188469366184e-05,
      "loss": 6.1906,
      "loss/crossentropy": 1.864039570093155,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17760541662573814,
      "step": 2619
    },
    {
      "epoch": 0.43666666666666665,
      "grad_norm": 22.625,
      "grad_norm_var": 1.8499348958333333,
      "learning_rate": 5.990852910240098e-05,
      "loss": 6.1802,
      "loss/crossentropy": 1.7452438473701477,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17212456464767456,
      "step": 2620
    },
    {
      "epoch": 0.43683333333333335,
      "grad_norm": 22.0,
      "grad_norm_var": 2.116080729166667,
      "learning_rate": 5.988286701895631e-05,
      "loss": 6.0035,
      "loss/crossentropy": 1.5258551687002182,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12792902439832687,
      "step": 2621
    },
    {
      "epoch": 0.437,
      "grad_norm": 23.375,
      "grad_norm_var": 2.1354166666666665,
      "learning_rate": 5.98572022260676e-05,
      "loss": 6.4169,
      "loss/crossentropy": 1.8142879605293274,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1751415766775608,
      "step": 2622
    },
    {
      "epoch": 0.43716666666666665,
      "grad_norm": 27.125,
      "grad_norm_var": 2.762955729166667,
      "learning_rate": 5.9831534730771e-05,
      "loss": 6.1641,
      "loss/crossentropy": 1.419416904449463,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18484913185238838,
      "step": 2623
    },
    {
      "epoch": 0.43733333333333335,
      "grad_norm": 24.375,
      "grad_norm_var": 2.7634765625,
      "learning_rate": 5.980586454010341e-05,
      "loss": 6.5101,
      "loss/crossentropy": 1.7605845928192139,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1796539705246687,
      "step": 2624
    },
    {
      "epoch": 0.4375,
      "grad_norm": 22.5,
      "grad_norm_var": 2.8947265625,
      "learning_rate": 5.9780191661102415e-05,
      "loss": 6.26,
      "loss/crossentropy": 1.084676206111908,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10572442226111889,
      "step": 2625
    },
    {
      "epoch": 0.43766666666666665,
      "grad_norm": 23.25,
      "grad_norm_var": 2.9291015625,
      "learning_rate": 5.9754516100806423e-05,
      "loss": 6.5071,
      "loss/crossentropy": 1.500505343079567,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11075402982532978,
      "step": 2626
    },
    {
      "epoch": 0.43783333333333335,
      "grad_norm": 22.125,
      "grad_norm_var": 2.9291015625,
      "learning_rate": 5.9728837866254514e-05,
      "loss": 6.1448,
      "loss/crossentropy": 1.6075233966112137,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1246473379433155,
      "step": 2627
    },
    {
      "epoch": 0.438,
      "grad_norm": 25.5,
      "grad_norm_var": 3.05625,
      "learning_rate": 5.9703156964486514e-05,
      "loss": 6.554,
      "loss/crossentropy": 1.9725620746612549,
      "loss/hidden": 3.76171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2764275260269642,
      "step": 2628
    },
    {
      "epoch": 0.43816666666666665,
      "grad_norm": 23.25,
      "grad_norm_var": 3.0895182291666665,
      "learning_rate": 5.967747340254303e-05,
      "loss": 5.7866,
      "loss/crossentropy": 1.059905655682087,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08993681333959103,
      "step": 2629
    },
    {
      "epoch": 0.43833333333333335,
      "grad_norm": 23.5,
      "grad_norm_var": 2.9518229166666665,
      "learning_rate": 5.96517871874653e-05,
      "loss": 6.1816,
      "loss/crossentropy": 2.078132301568985,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1976778469979763,
      "step": 2630
    },
    {
      "epoch": 0.4385,
      "grad_norm": 22.375,
      "grad_norm_var": 2.9518229166666665,
      "learning_rate": 5.9626098326295376e-05,
      "loss": 6.3629,
      "loss/crossentropy": 0.9547906219959259,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11626899987459183,
      "step": 2631
    },
    {
      "epoch": 0.43866666666666665,
      "grad_norm": 22.75,
      "grad_norm_var": 2.8114583333333334,
      "learning_rate": 5.9600406826076006e-05,
      "loss": 5.9242,
      "loss/crossentropy": 1.290775328874588,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10562782641500235,
      "step": 2632
    },
    {
      "epoch": 0.43883333333333335,
      "grad_norm": 24.625,
      "grad_norm_var": 2.7864583333333335,
      "learning_rate": 5.9574712693850654e-05,
      "loss": 6.0578,
      "loss/crossentropy": 1.6715959161520004,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19716591387987137,
      "step": 2633
    },
    {
      "epoch": 0.439,
      "grad_norm": 23.5,
      "grad_norm_var": 1.803125,
      "learning_rate": 5.9549015936663524e-05,
      "loss": 5.8919,
      "loss/crossentropy": 1.4281672239303589,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14447350427508354,
      "step": 2634
    },
    {
      "epoch": 0.43916666666666665,
      "grad_norm": 23.5,
      "grad_norm_var": 1.8025390625,
      "learning_rate": 5.9523316561559503e-05,
      "loss": 6.2323,
      "loss/crossentropy": 0.9669825807213783,
      "loss/hidden": 2.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08221221528947353,
      "step": 2635
    },
    {
      "epoch": 0.43933333333333335,
      "grad_norm": 22.375,
      "grad_norm_var": 1.8363932291666667,
      "learning_rate": 5.949761457558424e-05,
      "loss": 5.9741,
      "loss/crossentropy": 2.2685810923576355,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23401586711406708,
      "step": 2636
    },
    {
      "epoch": 0.4395,
      "grad_norm": 22.75,
      "grad_norm_var": 1.7207682291666666,
      "learning_rate": 5.9471909985784066e-05,
      "loss": 6.3246,
      "loss/crossentropy": 1.6924660801887512,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17447232082486153,
      "step": 2637
    },
    {
      "epoch": 0.43966666666666665,
      "grad_norm": 24.375,
      "grad_norm_var": 1.7593098958333333,
      "learning_rate": 5.9446202799206064e-05,
      "loss": 6.0571,
      "loss/crossentropy": 1.6749686300754547,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1382110919803381,
      "step": 2638
    },
    {
      "epoch": 0.43983333333333335,
      "grad_norm": 24.375,
      "grad_norm_var": 0.9457682291666667,
      "learning_rate": 5.942049302289798e-05,
      "loss": 6.4422,
      "loss/crossentropy": 1.1675230264663696,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18935957737267017,
      "step": 2639
    },
    {
      "epoch": 0.44,
      "grad_norm": 22.0,
      "grad_norm_var": 1.00390625,
      "learning_rate": 5.9394780663908315e-05,
      "loss": 6.3,
      "loss/crossentropy": 1.693126231431961,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14401398785412312,
      "step": 2640
    },
    {
      "epoch": 0.44016666666666665,
      "grad_norm": 24.5,
      "grad_norm_var": 1.04140625,
      "learning_rate": 5.9369065729286245e-05,
      "loss": 6.2286,
      "loss/crossentropy": 1.6934096217155457,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1369867566972971,
      "step": 2641
    },
    {
      "epoch": 0.44033333333333335,
      "grad_norm": 23.375,
      "grad_norm_var": 1.0395182291666667,
      "learning_rate": 5.934334822608166e-05,
      "loss": 6.2504,
      "loss/crossentropy": 1.6856802701950073,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1944253221154213,
      "step": 2642
    },
    {
      "epoch": 0.4405,
      "grad_norm": 24.75,
      "grad_norm_var": 1.0135416666666666,
      "learning_rate": 5.931762816134516e-05,
      "loss": 6.4838,
      "loss/crossentropy": 1.12913179397583,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08816798962652683,
      "step": 2643
    },
    {
      "epoch": 0.44066666666666665,
      "grad_norm": 25.625,
      "grad_norm_var": 1.0462890625,
      "learning_rate": 5.929190554212807e-05,
      "loss": 6.443,
      "loss/crossentropy": 1.8466228246688843,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19120298698544502,
      "step": 2644
    },
    {
      "epoch": 0.44083333333333335,
      "grad_norm": 23.5,
      "grad_norm_var": 1.0384765625,
      "learning_rate": 5.926618037548237e-05,
      "loss": 6.1297,
      "loss/crossentropy": 1.619535580277443,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.12213153392076492,
      "step": 2645
    },
    {
      "epoch": 0.441,
      "grad_norm": 20.375,
      "grad_norm_var": 1.69765625,
      "learning_rate": 5.9240452668460775e-05,
      "loss": 5.6548,
      "loss/crossentropy": 1.3339160084724426,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10945853404700756,
      "step": 2646
    },
    {
      "epoch": 0.44116666666666665,
      "grad_norm": 23.75,
      "grad_norm_var": 1.6238932291666666,
      "learning_rate": 5.921472242811668e-05,
      "loss": 6.3125,
      "loss/crossentropy": 1.6615835130214691,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15433327853679657,
      "step": 2647
    },
    {
      "epoch": 0.44133333333333336,
      "grad_norm": 24.375,
      "grad_norm_var": 1.6247395833333333,
      "learning_rate": 5.9188989661504145e-05,
      "loss": 6.2804,
      "loss/crossentropy": 1.7136172503232956,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21279999241232872,
      "step": 2648
    },
    {
      "epoch": 0.4415,
      "grad_norm": 25.5,
      "grad_norm_var": 1.7910807291666666,
      "learning_rate": 5.916325437567799e-05,
      "loss": 6.4714,
      "loss/crossentropy": 0.6746455132961273,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09018827602267265,
      "step": 2649
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 24.875,
      "grad_norm_var": 1.8791666666666667,
      "learning_rate": 5.913751657769367e-05,
      "loss": 6.1922,
      "loss/crossentropy": 1.5953689068555832,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16913415864109993,
      "step": 2650
    },
    {
      "epoch": 0.44183333333333336,
      "grad_norm": 22.625,
      "grad_norm_var": 1.9561848958333334,
      "learning_rate": 5.911177627460739e-05,
      "loss": 6.2782,
      "loss/crossentropy": 1.7061793506145477,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1646886933594942,
      "step": 2651
    },
    {
      "epoch": 0.442,
      "grad_norm": 26.875,
      "grad_norm_var": 2.4296223958333334,
      "learning_rate": 5.9086033473475934e-05,
      "loss": 6.107,
      "loss/crossentropy": 1.2046623080968857,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2395420391112566,
      "step": 2652
    },
    {
      "epoch": 0.44216666666666665,
      "grad_norm": 25.875,
      "grad_norm_var": 2.52890625,
      "learning_rate": 5.906028818135687e-05,
      "loss": 6.2433,
      "loss/crossentropy": 1.2300244271755219,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1681372169405222,
      "step": 2653
    },
    {
      "epoch": 0.44233333333333336,
      "grad_norm": 23.5,
      "grad_norm_var": 2.5530598958333335,
      "learning_rate": 5.9034540405308424e-05,
      "loss": 6.2849,
      "loss/crossentropy": 1.3614259511232376,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16518115997314453,
      "step": 2654
    },
    {
      "epoch": 0.4425,
      "grad_norm": 21.25,
      "grad_norm_var": 3.0559895833333335,
      "learning_rate": 5.900879015238948e-05,
      "loss": 5.7971,
      "loss/crossentropy": 1.157396599650383,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1260366179049015,
      "step": 2655
    },
    {
      "epoch": 0.44266666666666665,
      "grad_norm": 21.75,
      "grad_norm_var": 3.1239583333333334,
      "learning_rate": 5.898303742965964e-05,
      "loss": 5.967,
      "loss/crossentropy": 1.24191515147686,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1605423502624035,
      "step": 2656
    },
    {
      "epoch": 0.44283333333333336,
      "grad_norm": 24.25,
      "grad_norm_var": 3.1080729166666665,
      "learning_rate": 5.8957282244179124e-05,
      "loss": 6.2445,
      "loss/crossentropy": 1.089109756052494,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11429252289235592,
      "step": 2657
    },
    {
      "epoch": 0.443,
      "grad_norm": 22.0,
      "grad_norm_var": 3.3207682291666667,
      "learning_rate": 5.893152460300888e-05,
      "loss": 6.2606,
      "loss/crossentropy": 1.899988442659378,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14401400834321976,
      "step": 2658
    },
    {
      "epoch": 0.44316666666666665,
      "grad_norm": 21.75,
      "grad_norm_var": 3.505143229166667,
      "learning_rate": 5.89057645132105e-05,
      "loss": 6.0352,
      "loss/crossentropy": 1.4373023360967636,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15731146931648254,
      "step": 2659
    },
    {
      "epoch": 0.44333333333333336,
      "grad_norm": 27.0,
      "grad_norm_var": 3.99140625,
      "learning_rate": 5.8880001981846286e-05,
      "loss": 6.6117,
      "loss/crossentropy": 1.4901092052459717,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13144763000309467,
      "step": 2660
    },
    {
      "epoch": 0.4435,
      "grad_norm": 25.875,
      "grad_norm_var": 4.279622395833333,
      "learning_rate": 5.885423701597917e-05,
      "loss": 6.7328,
      "loss/crossentropy": 1.250025913119316,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15240811929106712,
      "step": 2661
    },
    {
      "epoch": 0.44366666666666665,
      "grad_norm": 21.25,
      "grad_norm_var": 3.921875,
      "learning_rate": 5.8828469622672754e-05,
      "loss": 6.0841,
      "loss/crossentropy": 1.6592142283916473,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17006415128707886,
      "step": 2662
    },
    {
      "epoch": 0.44383333333333336,
      "grad_norm": 21.75,
      "grad_norm_var": 4.213541666666667,
      "learning_rate": 5.880269980899131e-05,
      "loss": 6.1588,
      "loss/crossentropy": 0.9580647349357605,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08283314062282443,
      "step": 2663
    },
    {
      "epoch": 0.444,
      "grad_norm": 24.875,
      "grad_norm_var": 4.26875,
      "learning_rate": 5.87769275819998e-05,
      "loss": 6.3934,
      "loss/crossentropy": 1.30183145403862,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1400351207703352,
      "step": 2664
    },
    {
      "epoch": 0.44416666666666665,
      "grad_norm": 24.5,
      "grad_norm_var": 4.10625,
      "learning_rate": 5.875115294876381e-05,
      "loss": 6.4532,
      "loss/crossentropy": 2.096036523580551,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12927998788654804,
      "step": 2665
    },
    {
      "epoch": 0.44433333333333336,
      "grad_norm": 22.375,
      "grad_norm_var": 4.121875,
      "learning_rate": 5.87253759163496e-05,
      "loss": 5.7006,
      "loss/crossentropy": 1.3071093186736107,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09794480446726084,
      "step": 2666
    },
    {
      "epoch": 0.4445,
      "grad_norm": 23.25,
      "grad_norm_var": 4.065559895833333,
      "learning_rate": 5.86995964918241e-05,
      "loss": 6.2678,
      "loss/crossentropy": 1.3890560865402222,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15042326226830482,
      "step": 2667
    },
    {
      "epoch": 0.44466666666666665,
      "grad_norm": 21.375,
      "grad_norm_var": 3.5785807291666667,
      "learning_rate": 5.867381468225489e-05,
      "loss": 6.1489,
      "loss/crossentropy": 1.5882670059800148,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14939974062144756,
      "step": 2668
    },
    {
      "epoch": 0.44483333333333336,
      "grad_norm": 23.75,
      "grad_norm_var": 3.128125,
      "learning_rate": 5.8648030494710196e-05,
      "loss": 6.1395,
      "loss/crossentropy": 1.6880974918603897,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16539769805967808,
      "step": 2669
    },
    {
      "epoch": 0.445,
      "grad_norm": 24.0,
      "grad_norm_var": 3.1666666666666665,
      "learning_rate": 5.862224393625887e-05,
      "loss": 6.4715,
      "loss/crossentropy": 1.5678198039531708,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1170106828212738,
      "step": 2670
    },
    {
      "epoch": 0.44516666666666665,
      "grad_norm": 24.625,
      "grad_norm_var": 3.006705729166667,
      "learning_rate": 5.859645501397048e-05,
      "loss": 6.5007,
      "loss/crossentropy": 1.7296961843967438,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20131188072264194,
      "step": 2671
    },
    {
      "epoch": 0.44533333333333336,
      "grad_norm": 23.125,
      "grad_norm_var": 2.82265625,
      "learning_rate": 5.85706637349152e-05,
      "loss": 6.2944,
      "loss/crossentropy": 1.8868915438652039,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17074939236044884,
      "step": 2672
    },
    {
      "epoch": 0.4455,
      "grad_norm": 22.25,
      "grad_norm_var": 2.8684895833333335,
      "learning_rate": 5.8544870106163844e-05,
      "loss": 6.0425,
      "loss/crossentropy": 1.720687448978424,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14006369560956955,
      "step": 2673
    },
    {
      "epoch": 0.44566666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 3.0061848958333335,
      "learning_rate": 5.8519074134787874e-05,
      "loss": 5.8792,
      "loss/crossentropy": 1.467832401394844,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12469572573900223,
      "step": 2674
    },
    {
      "epoch": 0.44583333333333336,
      "grad_norm": 22.875,
      "grad_norm_var": 2.849739583333333,
      "learning_rate": 5.849327582785943e-05,
      "loss": 5.7579,
      "loss/crossentropy": 1.6664736866950989,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12886268086731434,
      "step": 2675
    },
    {
      "epoch": 0.446,
      "grad_norm": 20.125,
      "grad_norm_var": 2.495247395833333,
      "learning_rate": 5.8467475192451226e-05,
      "loss": 5.6023,
      "loss/crossentropy": 1.442312553524971,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0990043031051755,
      "step": 2676
    },
    {
      "epoch": 0.44616666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 1.928125,
      "learning_rate": 5.844167223563669e-05,
      "loss": 5.9585,
      "loss/crossentropy": 1.84589883685112,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2153306007385254,
      "step": 2677
    },
    {
      "epoch": 0.44633333333333336,
      "grad_norm": 21.125,
      "grad_norm_var": 1.9535807291666667,
      "learning_rate": 5.841586696448985e-05,
      "loss": 5.9771,
      "loss/crossentropy": 1.1190546154975891,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1348157376050949,
      "step": 2678
    },
    {
      "epoch": 0.4465,
      "grad_norm": 25.375,
      "grad_norm_var": 2.310416666666667,
      "learning_rate": 5.8390059386085325e-05,
      "loss": 6.2546,
      "loss/crossentropy": 1.7044257521629333,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19744563475251198,
      "step": 2679
    },
    {
      "epoch": 0.44666666666666666,
      "grad_norm": 19.625,
      "grad_norm_var": 2.6768229166666666,
      "learning_rate": 5.8364249507498435e-05,
      "loss": 5.6284,
      "loss/crossentropy": 1.4353571385145187,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11108904331922531,
      "step": 2680
    },
    {
      "epoch": 0.44683333333333336,
      "grad_norm": 21.875,
      "grad_norm_var": 2.4457682291666667,
      "learning_rate": 5.833843733580512e-05,
      "loss": 6.0156,
      "loss/crossentropy": 1.6527203470468521,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.124713821336627,
      "step": 2681
    },
    {
      "epoch": 0.447,
      "grad_norm": 25.375,
      "grad_norm_var": 2.9801432291666665,
      "learning_rate": 5.8312622878081904e-05,
      "loss": 6.4522,
      "loss/crossentropy": 1.7584679424762726,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11823182366788387,
      "step": 2682
    },
    {
      "epoch": 0.44716666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 2.966666666666667,
      "learning_rate": 5.828680614140599e-05,
      "loss": 5.8527,
      "loss/crossentropy": 1.6563467681407928,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16420799307525158,
      "step": 2683
    },
    {
      "epoch": 0.44733333333333336,
      "grad_norm": 23.75,
      "grad_norm_var": 2.9431640625,
      "learning_rate": 5.8260987132855174e-05,
      "loss": 6.3095,
      "loss/crossentropy": 1.5228826105594635,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14052819460630417,
      "step": 2684
    },
    {
      "epoch": 0.4475,
      "grad_norm": 23.5,
      "grad_norm_var": 2.9124348958333335,
      "learning_rate": 5.8235165859507864e-05,
      "loss": 6.1706,
      "loss/crossentropy": 1.4582033604383469,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17423368617892265,
      "step": 2685
    },
    {
      "epoch": 0.44766666666666666,
      "grad_norm": 23.25,
      "grad_norm_var": 2.817122395833333,
      "learning_rate": 5.820934232844315e-05,
      "loss": 6.2847,
      "loss/crossentropy": 1.6627369225025177,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.14754461124539375,
      "step": 2686
    },
    {
      "epoch": 0.44783333333333336,
      "grad_norm": 23.625,
      "grad_norm_var": 2.616080729166667,
      "learning_rate": 5.8183516546740665e-05,
      "loss": 6.0573,
      "loss/crossentropy": 0.8323700875043869,
      "loss/hidden": 2.74609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.06503931060433388,
      "step": 2687
    },
    {
      "epoch": 0.448,
      "grad_norm": 22.875,
      "grad_norm_var": 2.6020182291666667,
      "learning_rate": 5.8157688521480714e-05,
      "loss": 6.1444,
      "loss/crossentropy": 2.210079848766327,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15326088294386864,
      "step": 2688
    },
    {
      "epoch": 0.44816666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 2.669205729166667,
      "learning_rate": 5.813185825974419e-05,
      "loss": 6.0152,
      "loss/crossentropy": 1.4095743596553802,
      "loss/hidden": 2.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10163488425314426,
      "step": 2689
    },
    {
      "epoch": 0.4483333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 2.5768229166666665,
      "learning_rate": 5.8106025768612595e-05,
      "loss": 5.7769,
      "loss/crossentropy": 1.3808586820960045,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08215817483142018,
      "step": 2690
    },
    {
      "epoch": 0.4485,
      "grad_norm": 24.125,
      "grad_norm_var": 2.71875,
      "learning_rate": 5.8080191055168064e-05,
      "loss": 6.457,
      "loss/crossentropy": 1.6367535591125488,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16008246131241322,
      "step": 2691
    },
    {
      "epoch": 0.44866666666666666,
      "grad_norm": 25.625,
      "grad_norm_var": 2.730208333333333,
      "learning_rate": 5.8054354126493324e-05,
      "loss": 6.2218,
      "loss/crossentropy": 1.6105777025222778,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16876676864922047,
      "step": 2692
    },
    {
      "epoch": 0.4488333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 2.655989583333333,
      "learning_rate": 5.8028514989671724e-05,
      "loss": 5.9469,
      "loss/crossentropy": 1.3008872866630554,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1748482920229435,
      "step": 2693
    },
    {
      "epoch": 0.449,
      "grad_norm": 24.5,
      "grad_norm_var": 2.4749348958333335,
      "learning_rate": 5.800267365178721e-05,
      "loss": 6.4375,
      "loss/crossentropy": 1.5907140672206879,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18150734156370163,
      "step": 2694
    },
    {
      "epoch": 0.44916666666666666,
      "grad_norm": 23.875,
      "grad_norm_var": 2.2046223958333333,
      "learning_rate": 5.797683011992432e-05,
      "loss": 6.5596,
      "loss/crossentropy": 1.5743252784013748,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13579733856022358,
      "step": 2695
    },
    {
      "epoch": 0.4493333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.3143229166666666,
      "learning_rate": 5.795098440116822e-05,
      "loss": 6.0984,
      "loss/crossentropy": 0.9775811657309532,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07469901908189058,
      "step": 2696
    },
    {
      "epoch": 0.4495,
      "grad_norm": 22.75,
      "grad_norm_var": 1.1817057291666666,
      "learning_rate": 5.792513650260465e-05,
      "loss": 6.1306,
      "loss/crossentropy": 1.3945741057395935,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12348530068993568,
      "step": 2697
    },
    {
      "epoch": 0.44966666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 0.9848307291666667,
      "learning_rate": 5.789928643131994e-05,
      "loss": 6.3407,
      "loss/crossentropy": 1.330174133181572,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20810841210186481,
      "step": 2698
    },
    {
      "epoch": 0.4498333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 0.9035807291666667,
      "learning_rate": 5.7873434194401075e-05,
      "loss": 6.4526,
      "loss/crossentropy": 1.4805910512804985,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11152746807783842,
      "step": 2699
    },
    {
      "epoch": 0.45,
      "grad_norm": 21.5,
      "grad_norm_var": 1.0957682291666666,
      "learning_rate": 5.784757979893558e-05,
      "loss": 5.948,
      "loss/crossentropy": 1.2259659171104431,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10049760155379772,
      "step": 2700
    },
    {
      "epoch": 0.45016666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 1.1580729166666666,
      "learning_rate": 5.782172325201155e-05,
      "loss": 5.9908,
      "loss/crossentropy": 1.6873193085193634,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1451295055449009,
      "step": 2701
    },
    {
      "epoch": 0.4503333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.1830729166666667,
      "learning_rate": 5.779586456071774e-05,
      "loss": 6.3273,
      "loss/crossentropy": 1.3702417612075806,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09646000154316425,
      "step": 2702
    },
    {
      "epoch": 0.4505,
      "grad_norm": 26.375,
      "grad_norm_var": 1.8333333333333333,
      "learning_rate": 5.777000373214345e-05,
      "loss": 6.7535,
      "loss/crossentropy": 1.2961904853582382,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1531943902373314,
      "step": 2703
    },
    {
      "epoch": 0.45066666666666666,
      "grad_norm": 23.5,
      "grad_norm_var": 1.8212890625,
      "learning_rate": 5.774414077337855e-05,
      "loss": 6.5988,
      "loss/crossentropy": 1.7656021565198898,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10915090329945087,
      "step": 2704
    },
    {
      "epoch": 0.4508333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 1.66015625,
      "learning_rate": 5.771827569151357e-05,
      "loss": 6.4779,
      "loss/crossentropy": 1.4811639562249184,
      "loss/hidden": 2.75390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10202494449913502,
      "step": 2705
    },
    {
      "epoch": 0.451,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8009765625,
      "learning_rate": 5.769240849363952e-05,
      "loss": 6.2341,
      "loss/crossentropy": 1.0516598969697952,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.07791766710579395,
      "step": 2706
    },
    {
      "epoch": 0.45116666666666666,
      "grad_norm": 23.5,
      "grad_norm_var": 1.77265625,
      "learning_rate": 5.7666539186848036e-05,
      "loss": 6.2517,
      "loss/crossentropy": 1.0759622603654861,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09105934482067823,
      "step": 2707
    },
    {
      "epoch": 0.4513333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 1.4489583333333333,
      "learning_rate": 5.764066777823137e-05,
      "loss": 6.1902,
      "loss/crossentropy": 1.6119585931301117,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11625302955508232,
      "step": 2708
    },
    {
      "epoch": 0.4515,
      "grad_norm": 22.5,
      "grad_norm_var": 1.4872395833333334,
      "learning_rate": 5.761479427488229e-05,
      "loss": 5.9829,
      "loss/crossentropy": 1.509189173579216,
      "loss/hidden": 3.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20411224104464054,
      "step": 2709
    },
    {
      "epoch": 0.45166666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.5186848958333334,
      "learning_rate": 5.758891868389418e-05,
      "loss": 6.3095,
      "loss/crossentropy": 0.7498529255390167,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12073700688779354,
      "step": 2710
    },
    {
      "epoch": 0.4518333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 2.033333333333333,
      "learning_rate": 5.756304101236097e-05,
      "loss": 5.8257,
      "loss/crossentropy": 1.7164153158664703,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1290840059518814,
      "step": 2711
    },
    {
      "epoch": 0.452,
      "grad_norm": 21.625,
      "grad_norm_var": 2.121809895833333,
      "learning_rate": 5.753716126737717e-05,
      "loss": 5.9779,
      "loss/crossentropy": 1.4277067184448242,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17185787856578827,
      "step": 2712
    },
    {
      "epoch": 0.45216666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 2.2885416666666667,
      "learning_rate": 5.751127945603786e-05,
      "loss": 5.8096,
      "loss/crossentropy": 0.8198127821087837,
      "loss/hidden": 2.77734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.05922101065516472,
      "step": 2713
    },
    {
      "epoch": 0.4523333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 2.2738932291666667,
      "learning_rate": 5.748539558543868e-05,
      "loss": 6.2487,
      "loss/crossentropy": 1.65554678440094,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12395875155925751,
      "step": 2714
    },
    {
      "epoch": 0.4525,
      "grad_norm": 24.25,
      "grad_norm_var": 2.3934895833333334,
      "learning_rate": 5.745950966267586e-05,
      "loss": 6.5427,
      "loss/crossentropy": 1.5997840762138367,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2086716592311859,
      "step": 2715
    },
    {
      "epoch": 0.45266666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 2.2718098958333335,
      "learning_rate": 5.743362169484616e-05,
      "loss": 6.0191,
      "loss/crossentropy": 1.367167741060257,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12990804016590118,
      "step": 2716
    },
    {
      "epoch": 0.4528333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 2.8041666666666667,
      "learning_rate": 5.7407731689046904e-05,
      "loss": 5.7933,
      "loss/crossentropy": 1.2384839951992035,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11585312895476818,
      "step": 2717
    },
    {
      "epoch": 0.453,
      "grad_norm": 21.0,
      "grad_norm_var": 2.9559895833333334,
      "learning_rate": 5.7381839652376e-05,
      "loss": 5.5724,
      "loss/crossentropy": 1.3943713903427124,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1470616403967142,
      "step": 2718
    },
    {
      "epoch": 0.45316666666666666,
      "grad_norm": 25.375,
      "grad_norm_var": 2.52890625,
      "learning_rate": 5.735594559193187e-05,
      "loss": 6.6387,
      "loss/crossentropy": 1.1798844039440155,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16392106749117374,
      "step": 2719
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 2.504166666666667,
      "learning_rate": 5.7330049514813556e-05,
      "loss": 6.3004,
      "loss/crossentropy": 1.5238389894366264,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13003837782889605,
      "step": 2720
    },
    {
      "epoch": 0.4535,
      "grad_norm": 22.125,
      "grad_norm_var": 2.228125,
      "learning_rate": 5.730415142812059e-05,
      "loss": 5.8628,
      "loss/crossentropy": 0.8147252798080444,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07423663511872292,
      "step": 2721
    },
    {
      "epoch": 0.45366666666666666,
      "grad_norm": 23.375,
      "grad_norm_var": 2.25,
      "learning_rate": 5.7278251338953084e-05,
      "loss": 6.0726,
      "loss/crossentropy": 0.957012876868248,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10669824853539467,
      "step": 2722
    },
    {
      "epoch": 0.4538333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 2.2119140625,
      "learning_rate": 5.725234925441169e-05,
      "loss": 6.3737,
      "loss/crossentropy": 0.883497416973114,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16825385810807347,
      "step": 2723
    },
    {
      "epoch": 0.454,
      "grad_norm": 24.125,
      "grad_norm_var": 2.3655598958333335,
      "learning_rate": 5.7226445181597624e-05,
      "loss": 6.756,
      "loss/crossentropy": 1.2395276129245758,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.13746053352952003,
      "step": 2724
    },
    {
      "epoch": 0.45416666666666666,
      "grad_norm": 24.25,
      "grad_norm_var": 2.5296223958333335,
      "learning_rate": 5.7200539127612604e-05,
      "loss": 6.485,
      "loss/crossentropy": 1.6832587718963623,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12044859305024147,
      "step": 2725
    },
    {
      "epoch": 0.4543333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 2.8989583333333333,
      "learning_rate": 5.717463109955896e-05,
      "loss": 6.1121,
      "loss/crossentropy": 1.5594828426837921,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11340995877981186,
      "step": 2726
    },
    {
      "epoch": 0.4545,
      "grad_norm": 23.875,
      "grad_norm_var": 2.303580729166667,
      "learning_rate": 5.7148721104539513e-05,
      "loss": 5.9688,
      "loss/crossentropy": 1.1249873042106628,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19862103834748268,
      "step": 2727
    },
    {
      "epoch": 0.45466666666666666,
      "grad_norm": 26.75,
      "grad_norm_var": 2.861458333333333,
      "learning_rate": 5.712280914965764e-05,
      "loss": 6.3753,
      "loss/crossentropy": 1.8738243281841278,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2161254808306694,
      "step": 2728
    },
    {
      "epoch": 0.4548333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 2.9124348958333335,
      "learning_rate": 5.709689524201722e-05,
      "loss": 6.3873,
      "loss/crossentropy": 1.321084052324295,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16895075887441635,
      "step": 2729
    },
    {
      "epoch": 0.455,
      "grad_norm": 22.125,
      "grad_norm_var": 3.00390625,
      "learning_rate": 5.707097938872273e-05,
      "loss": 6.1216,
      "loss/crossentropy": 2.0350259840488434,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1481152232736349,
      "step": 2730
    },
    {
      "epoch": 0.45516666666666666,
      "grad_norm": 25.75,
      "grad_norm_var": 3.29140625,
      "learning_rate": 5.7045061596879134e-05,
      "loss": 6.1702,
      "loss/crossentropy": 2.081495761871338,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15875044651329517,
      "step": 2731
    },
    {
      "epoch": 0.4553333333333333,
      "grad_norm": 25.0,
      "grad_norm_var": 3.2900390625,
      "learning_rate": 5.701914187359194e-05,
      "loss": 6.5242,
      "loss/crossentropy": 1.5182295590639114,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13195935636758804,
      "step": 2732
    },
    {
      "epoch": 0.4555,
      "grad_norm": 21.75,
      "grad_norm_var": 2.6009765625,
      "learning_rate": 5.699322022596722e-05,
      "loss": 6.4942,
      "loss/crossentropy": 1.050009347498417,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10885576903820038,
      "step": 2733
    },
    {
      "epoch": 0.45566666666666666,
      "grad_norm": 24.625,
      "grad_norm_var": 2.02890625,
      "learning_rate": 5.696729666111148e-05,
      "loss": 6.3345,
      "loss/crossentropy": 1.3318123519420624,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20477955415844917,
      "step": 2734
    },
    {
      "epoch": 0.4558333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 1.915625,
      "learning_rate": 5.6941371186131855e-05,
      "loss": 6.0609,
      "loss/crossentropy": 1.3249999731779099,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1264034379273653,
      "step": 2735
    },
    {
      "epoch": 0.456,
      "grad_norm": 24.375,
      "grad_norm_var": 1.8775390625,
      "learning_rate": 5.691544380813596e-05,
      "loss": 6.5789,
      "loss/crossentropy": 1.6111819297075272,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17491034045815468,
      "step": 2736
    },
    {
      "epoch": 0.45616666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 1.6009765625,
      "learning_rate": 5.68895145342319e-05,
      "loss": 6.1442,
      "loss/crossentropy": 1.9237297773361206,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20803575217723846,
      "step": 2737
    },
    {
      "epoch": 0.4563333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.69765625,
      "learning_rate": 5.6863583371528386e-05,
      "loss": 6.3709,
      "loss/crossentropy": 1.4303815439343452,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15397247858345509,
      "step": 2738
    },
    {
      "epoch": 0.4565,
      "grad_norm": 25.25,
      "grad_norm_var": 1.6744140625,
      "learning_rate": 5.683765032713455e-05,
      "loss": 5.9849,
      "loss/crossentropy": 1.9715576171875,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14928601682186127,
      "step": 2739
    },
    {
      "epoch": 0.45666666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 1.75390625,
      "learning_rate": 5.681171540816008e-05,
      "loss": 6.2492,
      "loss/crossentropy": 1.4256281107664108,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22438757494091988,
      "step": 2740
    },
    {
      "epoch": 0.4568333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.2018229166666665,
      "learning_rate": 5.6785778621715225e-05,
      "loss": 5.8731,
      "loss/crossentropy": 1.005057618021965,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16784665454179049,
      "step": 2741
    },
    {
      "epoch": 0.457,
      "grad_norm": 25.5,
      "grad_norm_var": 2.2018229166666665,
      "learning_rate": 5.675983997491067e-05,
      "loss": 6.4681,
      "loss/crossentropy": 1.6944259107112885,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14343425631523132,
      "step": 2742
    },
    {
      "epoch": 0.45716666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 2.3645833333333335,
      "learning_rate": 5.6733899474857634e-05,
      "loss": 5.8188,
      "loss/crossentropy": 1.256897658109665,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1972845494747162,
      "step": 2743
    },
    {
      "epoch": 0.4573333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.4202473958333335,
      "learning_rate": 5.670795712866788e-05,
      "loss": 6.3474,
      "loss/crossentropy": 0.944286897778511,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12742751836776733,
      "step": 2744
    },
    {
      "epoch": 0.4575,
      "grad_norm": 23.0,
      "grad_norm_var": 2.3983723958333334,
      "learning_rate": 5.668201294345363e-05,
      "loss": 6.0381,
      "loss/crossentropy": 1.8817065358161926,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1749659813940525,
      "step": 2745
    },
    {
      "epoch": 0.45766666666666667,
      "grad_norm": 24.875,
      "grad_norm_var": 2.2837890625,
      "learning_rate": 5.665606692632762e-05,
      "loss": 6.1437,
      "loss/crossentropy": 1.546717494726181,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1259806975722313,
      "step": 2746
    },
    {
      "epoch": 0.4578333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 2.1625,
      "learning_rate": 5.6630119084403124e-05,
      "loss": 6.1363,
      "loss/crossentropy": 1.6779101639986038,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1861096154898405,
      "step": 2747
    },
    {
      "epoch": 0.458,
      "grad_norm": 23.75,
      "grad_norm_var": 2.04140625,
      "learning_rate": 5.660416942479387e-05,
      "loss": 6.2355,
      "loss/crossentropy": 1.048008218407631,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08019832335412502,
      "step": 2748
    },
    {
      "epoch": 0.45816666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.7968098958333334,
      "learning_rate": 5.6578217954614134e-05,
      "loss": 6.3281,
      "loss/crossentropy": 1.8755795657634735,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21997709944844246,
      "step": 2749
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 23.375,
      "grad_norm_var": 1.7473307291666667,
      "learning_rate": 5.6552264680978615e-05,
      "loss": 5.9247,
      "loss/crossentropy": 1.0407961010932922,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14857866428792477,
      "step": 2750
    },
    {
      "epoch": 0.4585,
      "grad_norm": 22.75,
      "grad_norm_var": 1.7809895833333333,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 6.0037,
      "loss/crossentropy": 1.3816922158002853,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12772372364997864,
      "step": 2751
    },
    {
      "epoch": 0.45866666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 1.7389973958333333,
      "learning_rate": 5.650035275180175e-05,
      "loss": 6.273,
      "loss/crossentropy": 1.4563450813293457,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1991186374798417,
      "step": 2752
    },
    {
      "epoch": 0.4588333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.7229166666666667,
      "learning_rate": 5.6474394110492344e-05,
      "loss": 5.7862,
      "loss/crossentropy": 1.0284638106822968,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12887355126440525,
      "step": 2753
    },
    {
      "epoch": 0.459,
      "grad_norm": 21.0,
      "grad_norm_var": 2.0747395833333333,
      "learning_rate": 5.644843369419108e-05,
      "loss": 6.1282,
      "loss/crossentropy": 1.4523253440856934,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12855850160121918,
      "step": 2754
    },
    {
      "epoch": 0.45916666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 1.8327473958333333,
      "learning_rate": 5.642247151001515e-05,
      "loss": 6.1421,
      "loss/crossentropy": 1.5207576751708984,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16255715489387512,
      "step": 2755
    },
    {
      "epoch": 0.4593333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.4934895833333333,
      "learning_rate": 5.639650756508222e-05,
      "loss": 6.2789,
      "loss/crossentropy": 2.1585526764392853,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18510088324546814,
      "step": 2756
    },
    {
      "epoch": 0.4595,
      "grad_norm": 22.875,
      "grad_norm_var": 1.3921223958333333,
      "learning_rate": 5.6370541866510474e-05,
      "loss": 6.7085,
      "loss/crossentropy": 1.7241903245449066,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16374019347131252,
      "step": 2757
    },
    {
      "epoch": 0.45966666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.0712890625,
      "learning_rate": 5.6344574421418513e-05,
      "loss": 5.8147,
      "loss/crossentropy": 1.3194517195224762,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12110071256756783,
      "step": 2758
    },
    {
      "epoch": 0.4598333333333333,
      "grad_norm": 24.5,
      "grad_norm_var": 1.25390625,
      "learning_rate": 5.6318605236925524e-05,
      "loss": 6.2155,
      "loss/crossentropy": 1.5653838217258453,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1359363403171301,
      "step": 2759
    },
    {
      "epoch": 0.46,
      "grad_norm": 22.875,
      "grad_norm_var": 1.0333333333333334,
      "learning_rate": 5.6292634320151075e-05,
      "loss": 6.2206,
      "loss/crossentropy": 1.7574914991855621,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1955067403614521,
      "step": 2760
    },
    {
      "epoch": 0.46016666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 1.3497395833333334,
      "learning_rate": 5.6266661678215216e-05,
      "loss": 6.0549,
      "loss/crossentropy": 1.1213814169168472,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.07619508448988199,
      "step": 2761
    },
    {
      "epoch": 0.4603333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 1.5583333333333333,
      "learning_rate": 5.624068731823853e-05,
      "loss": 6.1756,
      "loss/crossentropy": 1.4561899080872536,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11596859525889158,
      "step": 2762
    },
    {
      "epoch": 0.4605,
      "grad_norm": 22.0,
      "grad_norm_var": 1.6077473958333333,
      "learning_rate": 5.621471124734201e-05,
      "loss": 5.7564,
      "loss/crossentropy": 1.161606177687645,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09174283873289824,
      "step": 2763
    },
    {
      "epoch": 0.46066666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 2.2434895833333335,
      "learning_rate": 5.618873347264716e-05,
      "loss": 5.5886,
      "loss/crossentropy": 1.558184653520584,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.1454598382115364,
      "step": 2764
    },
    {
      "epoch": 0.4608333333333333,
      "grad_norm": 25.5,
      "grad_norm_var": 2.6150390625,
      "learning_rate": 5.616275400127594e-05,
      "loss": 6.4582,
      "loss/crossentropy": 1.3237226158380508,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11684395372867584,
      "step": 2765
    },
    {
      "epoch": 0.461,
      "grad_norm": 23.875,
      "grad_norm_var": 2.6541015625,
      "learning_rate": 5.613677284035075e-05,
      "loss": 6.3475,
      "loss/crossentropy": 1.4147849380970001,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.216183640062809,
      "step": 2766
    },
    {
      "epoch": 0.46116666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 2.8228515625,
      "learning_rate": 5.6110789996994474e-05,
      "loss": 6.5286,
      "loss/crossentropy": 1.447353184223175,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27323468774557114,
      "step": 2767
    },
    {
      "epoch": 0.4613333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 3.05390625,
      "learning_rate": 5.608480547833047e-05,
      "loss": 5.7626,
      "loss/crossentropy": 1.5372461676597595,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10946574807167053,
      "step": 2768
    },
    {
      "epoch": 0.4615,
      "grad_norm": 21.375,
      "grad_norm_var": 3.2207682291666666,
      "learning_rate": 5.6058819291482534e-05,
      "loss": 5.8412,
      "loss/crossentropy": 1.5018172785639763,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09944477397948503,
      "step": 2769
    },
    {
      "epoch": 0.46166666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 2.996809895833333,
      "learning_rate": 5.603283144357493e-05,
      "loss": 6.1646,
      "loss/crossentropy": 1.6198848336935043,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15427714958786964,
      "step": 2770
    },
    {
      "epoch": 0.4618333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 2.99140625,
      "learning_rate": 5.6006841941732355e-05,
      "loss": 6.189,
      "loss/crossentropy": 1.2877379953861237,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11092941276729107,
      "step": 2771
    },
    {
      "epoch": 0.462,
      "grad_norm": 20.625,
      "grad_norm_var": 3.31015625,
      "learning_rate": 5.598085079308002e-05,
      "loss": 5.9966,
      "loss/crossentropy": 1.2104580029845238,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0907854326069355,
      "step": 2772
    },
    {
      "epoch": 0.46216666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 3.3634765625,
      "learning_rate": 5.595485800474349e-05,
      "loss": 5.9315,
      "loss/crossentropy": 1.49203822016716,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13509561773389578,
      "step": 2773
    },
    {
      "epoch": 0.4623333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 3.233268229166667,
      "learning_rate": 5.592886358384888e-05,
      "loss": 6.3184,
      "loss/crossentropy": 1.319219321012497,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24777421355247498,
      "step": 2774
    },
    {
      "epoch": 0.4625,
      "grad_norm": 23.75,
      "grad_norm_var": 3.1129557291666665,
      "learning_rate": 5.590286753752268e-05,
      "loss": 6.5723,
      "loss/crossentropy": 1.875892162322998,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1684454157948494,
      "step": 2775
    },
    {
      "epoch": 0.46266666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 3.2729166666666667,
      "learning_rate": 5.587686987289189e-05,
      "loss": 6.4697,
      "loss/crossentropy": 1.8485578298568726,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1668505035340786,
      "step": 2776
    },
    {
      "epoch": 0.4628333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 2.9205729166666665,
      "learning_rate": 5.585087059708388e-05,
      "loss": 6.2781,
      "loss/crossentropy": 1.5650386959314346,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14633914828300476,
      "step": 2777
    },
    {
      "epoch": 0.463,
      "grad_norm": 22.75,
      "grad_norm_var": 2.3650390625,
      "learning_rate": 5.5824869717226513e-05,
      "loss": 5.8409,
      "loss/crossentropy": 1.6798888444900513,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17511852830648422,
      "step": 2778
    },
    {
      "epoch": 0.46316666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 2.54140625,
      "learning_rate": 5.579886724044807e-05,
      "loss": 6.0558,
      "loss/crossentropy": 2.0153646171092987,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14341197162866592,
      "step": 2779
    },
    {
      "epoch": 0.4633333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 2.2395833333333335,
      "learning_rate": 5.5772863173877285e-05,
      "loss": 6.6012,
      "loss/crossentropy": 1.5977365672588348,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21329903602600098,
      "step": 2780
    },
    {
      "epoch": 0.4635,
      "grad_norm": 23.5,
      "grad_norm_var": 1.7895833333333333,
      "learning_rate": 5.574685752464334e-05,
      "loss": 6.1961,
      "loss/crossentropy": 1.2573874443769455,
      "loss/hidden": 3.79296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14174849539995193,
      "step": 2781
    },
    {
      "epoch": 0.46366666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 1.7061848958333334,
      "learning_rate": 5.572085029987579e-05,
      "loss": 6.126,
      "loss/crossentropy": 1.2034042179584503,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11552783939987421,
      "step": 2782
    },
    {
      "epoch": 0.4638333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 1.5830729166666666,
      "learning_rate": 5.56948415067047e-05,
      "loss": 5.7504,
      "loss/crossentropy": 1.1996231973171234,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08945106528699398,
      "step": 2783
    },
    {
      "epoch": 0.464,
      "grad_norm": 25.875,
      "grad_norm_var": 2.152083333333333,
      "learning_rate": 5.5668831152260504e-05,
      "loss": 7.1213,
      "loss/crossentropy": 1.671067476272583,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1563646923750639,
      "step": 2784
    },
    {
      "epoch": 0.46416666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 2.035416666666667,
      "learning_rate": 5.564281924367408e-05,
      "loss": 6.2163,
      "loss/crossentropy": 1.670973226428032,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21366796270012856,
      "step": 2785
    },
    {
      "epoch": 0.4643333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 2.1119140625,
      "learning_rate": 5.561680578807678e-05,
      "loss": 6.2336,
      "loss/crossentropy": 1.6004685312509537,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1302495151758194,
      "step": 2786
    },
    {
      "epoch": 0.4645,
      "grad_norm": 23.375,
      "grad_norm_var": 2.129166666666667,
      "learning_rate": 5.559079079260032e-05,
      "loss": 6.3542,
      "loss/crossentropy": 1.4583197683095932,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13040703907608986,
      "step": 2787
    },
    {
      "epoch": 0.4646666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 1.7697916666666667,
      "learning_rate": 5.556477426437684e-05,
      "loss": 6.3564,
      "loss/crossentropy": 1.6475275754928589,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1491837501525879,
      "step": 2788
    },
    {
      "epoch": 0.4648333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8080729166666667,
      "learning_rate": 5.5538756210538933e-05,
      "loss": 5.8107,
      "loss/crossentropy": 1.3444339334964752,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10161900706589222,
      "step": 2789
    },
    {
      "epoch": 0.465,
      "grad_norm": 24.25,
      "grad_norm_var": 1.8955729166666666,
      "learning_rate": 5.5512736638219607e-05,
      "loss": 6.0771,
      "loss/crossentropy": 1.4420438408851624,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.190314881503582,
      "step": 2790
    },
    {
      "epoch": 0.4651666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 2.1666015625,
      "learning_rate": 5.548671555455226e-05,
      "loss": 6.0887,
      "loss/crossentropy": 0.8387192711234093,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1247932342812419,
      "step": 2791
    },
    {
      "epoch": 0.4653333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 2.0119140625,
      "learning_rate": 5.546069296667075e-05,
      "loss": 6.2559,
      "loss/crossentropy": 1.5047054886817932,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17852811515331268,
      "step": 2792
    },
    {
      "epoch": 0.4655,
      "grad_norm": 22.75,
      "grad_norm_var": 2.0061848958333335,
      "learning_rate": 5.543466888170926e-05,
      "loss": 6.107,
      "loss/crossentropy": 1.6682362407445908,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14475397393107414,
      "step": 2793
    },
    {
      "epoch": 0.4656666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 2.0759765625,
      "learning_rate": 5.540864330680249e-05,
      "loss": 6.1108,
      "loss/crossentropy": 1.2807985991239548,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10092631168663502,
      "step": 2794
    },
    {
      "epoch": 0.4658333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.1080729166666665,
      "learning_rate": 5.538261624908547e-05,
      "loss": 6.2338,
      "loss/crossentropy": 1.2863028198480606,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11634887848049402,
      "step": 2795
    },
    {
      "epoch": 0.466,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8875,
      "learning_rate": 5.535658771569369e-05,
      "loss": 6.3515,
      "loss/crossentropy": 1.8835400491952896,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1521969735622406,
      "step": 2796
    },
    {
      "epoch": 0.4661666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.840625,
      "learning_rate": 5.5330557713763e-05,
      "loss": 6.2068,
      "loss/crossentropy": 1.7306682467460632,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14957135170698166,
      "step": 2797
    },
    {
      "epoch": 0.4663333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.8322916666666667,
      "learning_rate": 5.530452625042969e-05,
      "loss": 6.1826,
      "loss/crossentropy": 1.6659201383590698,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14637909829616547,
      "step": 2798
    },
    {
      "epoch": 0.4665,
      "grad_norm": 23.0,
      "grad_norm_var": 1.6806640625,
      "learning_rate": 5.527849333283042e-05,
      "loss": 5.9932,
      "loss/crossentropy": 1.5785866379737854,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11808507516980171,
      "step": 2799
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 0.9309895833333334,
      "learning_rate": 5.525245896810225e-05,
      "loss": 6.0899,
      "loss/crossentropy": 1.1963362023234367,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13345450535416603,
      "step": 2800
    },
    {
      "epoch": 0.4668333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 0.8843098958333333,
      "learning_rate": 5.522642316338268e-05,
      "loss": 6.3595,
      "loss/crossentropy": 2.0063629150390625,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1950300633907318,
      "step": 2801
    },
    {
      "epoch": 0.467,
      "grad_norm": 22.0,
      "grad_norm_var": 0.8622395833333333,
      "learning_rate": 5.520038592580955e-05,
      "loss": 6.1452,
      "loss/crossentropy": 1.605122298002243,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16315675806254148,
      "step": 2802
    },
    {
      "epoch": 0.4671666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 0.7942057291666667,
      "learning_rate": 5.517434726252113e-05,
      "loss": 5.8754,
      "loss/crossentropy": 0.6790795475244522,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09251153841614723,
      "step": 2803
    },
    {
      "epoch": 0.4673333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 0.946875,
      "learning_rate": 5.514830718065607e-05,
      "loss": 6.0945,
      "loss/crossentropy": 1.2312145978212357,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1670391485095024,
      "step": 2804
    },
    {
      "epoch": 0.4675,
      "grad_norm": 23.5,
      "grad_norm_var": 1.0143229166666667,
      "learning_rate": 5.512226568735338e-05,
      "loss": 6.5132,
      "loss/crossentropy": 0.8393700420856476,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15626725647598505,
      "step": 2805
    },
    {
      "epoch": 0.4676666666666667,
      "grad_norm": 26.125,
      "grad_norm_var": 1.6988932291666667,
      "learning_rate": 5.50962227897525e-05,
      "loss": 6.1567,
      "loss/crossentropy": 1.3731179684400558,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09847315214574337,
      "step": 2806
    },
    {
      "epoch": 0.4678333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 1.6082682291666666,
      "learning_rate": 5.5070178494993254e-05,
      "loss": 6.1981,
      "loss/crossentropy": 0.8849280625581741,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10566951334476471,
      "step": 2807
    },
    {
      "epoch": 0.468,
      "grad_norm": 23.375,
      "grad_norm_var": 1.6205729166666667,
      "learning_rate": 5.504413281021581e-05,
      "loss": 6.0812,
      "loss/crossentropy": 1.485372394323349,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1756094954907894,
      "step": 2808
    },
    {
      "epoch": 0.4681666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.6702473958333333,
      "learning_rate": 5.5018085742560744e-05,
      "loss": 6.1979,
      "loss/crossentropy": 2.0361185669898987,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1414203941822052,
      "step": 2809
    },
    {
      "epoch": 0.4683333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1.6186848958333333,
      "learning_rate": 5.499203729916902e-05,
      "loss": 6.1813,
      "loss/crossentropy": 1.2788206040859222,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10450474172830582,
      "step": 2810
    },
    {
      "epoch": 0.4685,
      "grad_norm": 18.75,
      "grad_norm_var": 2.4166015625,
      "learning_rate": 5.4965987487181957e-05,
      "loss": 5.5178,
      "loss/crossentropy": 1.6058077961206436,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14722581766545773,
      "step": 2811
    },
    {
      "epoch": 0.4686666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 2.470833333333333,
      "learning_rate": 5.4939936313741245e-05,
      "loss": 6.4077,
      "loss/crossentropy": 1.8945908844470978,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13323740661144257,
      "step": 2812
    },
    {
      "epoch": 0.4688333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.5872395833333335,
      "learning_rate": 5.4913883785988993e-05,
      "loss": 6.1025,
      "loss/crossentropy": 1.4333992004394531,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08707869611680508,
      "step": 2813
    },
    {
      "epoch": 0.469,
      "grad_norm": 22.125,
      "grad_norm_var": 2.575455729166667,
      "learning_rate": 5.4887829911067634e-05,
      "loss": 5.9319,
      "loss/crossentropy": 1.3698422014713287,
      "loss/hidden": 2.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1089586652815342,
      "step": 2814
    },
    {
      "epoch": 0.4691666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 2.8905598958333334,
      "learning_rate": 5.486177469611998e-05,
      "loss": 5.8209,
      "loss/crossentropy": 1.2968036830425262,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10958793759346008,
      "step": 2815
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 3.035416666666667,
      "learning_rate": 5.483571814828921e-05,
      "loss": 6.5401,
      "loss/crossentropy": 1.3028988987207413,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23167536221444607,
      "step": 2816
    },
    {
      "epoch": 0.4695,
      "grad_norm": 19.375,
      "grad_norm_var": 3.7660807291666667,
      "learning_rate": 5.480966027471889e-05,
      "loss": 6.0394,
      "loss/crossentropy": 1.8163567036390305,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.12015936337411404,
      "step": 2817
    },
    {
      "epoch": 0.4696666666666667,
      "grad_norm": 24.25,
      "grad_norm_var": 3.9067057291666667,
      "learning_rate": 5.4783601082552927e-05,
      "loss": 6.2988,
      "loss/crossentropy": 1.8277040421962738,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1465842928737402,
      "step": 2818
    },
    {
      "epoch": 0.4698333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 3.9518229166666665,
      "learning_rate": 5.4757540578935596e-05,
      "loss": 5.9887,
      "loss/crossentropy": 1.1764661073684692,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10051633045077324,
      "step": 2819
    },
    {
      "epoch": 0.47,
      "grad_norm": 23.375,
      "grad_norm_var": 3.8655598958333335,
      "learning_rate": 5.473147877101153e-05,
      "loss": 5.9693,
      "loss/crossentropy": 1.5486243069171906,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12019437924027443,
      "step": 2820
    },
    {
      "epoch": 0.4701666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 3.832747395833333,
      "learning_rate": 5.470541566592573e-05,
      "loss": 5.5981,
      "loss/crossentropy": 1.442337766289711,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1183099327608943,
      "step": 2821
    },
    {
      "epoch": 0.4703333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 3.004622395833333,
      "learning_rate": 5.467935127082352e-05,
      "loss": 6.0001,
      "loss/crossentropy": 1.0549089536070824,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09948313608765602,
      "step": 2822
    },
    {
      "epoch": 0.4705,
      "grad_norm": 23.25,
      "grad_norm_var": 2.8916666666666666,
      "learning_rate": 5.465328559285063e-05,
      "loss": 6.2764,
      "loss/crossentropy": 1.3098820745944977,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13437192887067795,
      "step": 2823
    },
    {
      "epoch": 0.4706666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 2.7926432291666665,
      "learning_rate": 5.462721863915312e-05,
      "loss": 6.1169,
      "loss/crossentropy": 1.8194961249828339,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12033194676041603,
      "step": 2824
    },
    {
      "epoch": 0.4708333333333333,
      "grad_norm": 25.125,
      "grad_norm_var": 3.3478515625,
      "learning_rate": 5.4601150416877367e-05,
      "loss": 6.5099,
      "loss/crossentropy": 1.2487312853336334,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18382791802287102,
      "step": 2825
    },
    {
      "epoch": 0.471,
      "grad_norm": 24.625,
      "grad_norm_var": 3.636458333333333,
      "learning_rate": 5.457508093317013e-05,
      "loss": 6.4077,
      "loss/crossentropy": 2.2410398423671722,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16747583076357841,
      "step": 2826
    },
    {
      "epoch": 0.4711666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 2.7083333333333335,
      "learning_rate": 5.4549010195178505e-05,
      "loss": 6.2673,
      "loss/crossentropy": 2.0629738569259644,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.269494466483593,
      "step": 2827
    },
    {
      "epoch": 0.4713333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 2.8421223958333335,
      "learning_rate": 5.4522938210049924e-05,
      "loss": 6.5277,
      "loss/crossentropy": 1.6829687356948853,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22019339725375175,
      "step": 2828
    },
    {
      "epoch": 0.4715,
      "grad_norm": 23.0,
      "grad_norm_var": 2.6889973958333333,
      "learning_rate": 5.449686498493219e-05,
      "loss": 6.2523,
      "loss/crossentropy": 1.050235167145729,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13364201970398426,
      "step": 2829
    },
    {
      "epoch": 0.4716666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 2.6572265625,
      "learning_rate": 5.447079052697342e-05,
      "loss": 6.2582,
      "loss/crossentropy": 1.1181140094995499,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08643010631203651,
      "step": 2830
    },
    {
      "epoch": 0.4718333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 2.2962890625,
      "learning_rate": 5.4444714843322085e-05,
      "loss": 6.3789,
      "loss/crossentropy": 1.6706641912460327,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16199277341365814,
      "step": 2831
    },
    {
      "epoch": 0.472,
      "grad_norm": 24.0,
      "grad_norm_var": 2.183333333333333,
      "learning_rate": 5.4418637941126946e-05,
      "loss": 6.7019,
      "loss/crossentropy": 1.7559657394886017,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20141416415572166,
      "step": 2832
    },
    {
      "epoch": 0.4721666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4561848958333334,
      "learning_rate": 5.439255982753717e-05,
      "loss": 5.8621,
      "loss/crossentropy": 1.4417187422513962,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.10237053222954273,
      "step": 2833
    },
    {
      "epoch": 0.4723333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.3809895833333334,
      "learning_rate": 5.436648050970219e-05,
      "loss": 6.2538,
      "loss/crossentropy": 1.6825203895568848,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1659049540758133,
      "step": 2834
    },
    {
      "epoch": 0.4725,
      "grad_norm": 21.625,
      "grad_norm_var": 1.4208333333333334,
      "learning_rate": 5.434039999477182e-05,
      "loss": 5.908,
      "loss/crossentropy": 1.5522733181715012,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1332221799530089,
      "step": 2835
    },
    {
      "epoch": 0.4726666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6983723958333334,
      "learning_rate": 5.4314318289896185e-05,
      "loss": 5.7129,
      "loss/crossentropy": 1.2290184944868088,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14742610789835453,
      "step": 2836
    },
    {
      "epoch": 0.4728333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.7872395833333334,
      "learning_rate": 5.428823540222569e-05,
      "loss": 5.99,
      "loss/crossentropy": 1.4481525048613548,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11040126346051693,
      "step": 2837
    },
    {
      "epoch": 0.473,
      "grad_norm": 22.875,
      "grad_norm_var": 1.603125,
      "learning_rate": 5.4262151338911173e-05,
      "loss": 6.4584,
      "loss/crossentropy": 1.1779726147651672,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1136327926069498,
      "step": 2838
    },
    {
      "epoch": 0.4731666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.6212890625,
      "learning_rate": 5.423606610710368e-05,
      "loss": 6.3017,
      "loss/crossentropy": 1.2414585202932358,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12313581630587578,
      "step": 2839
    },
    {
      "epoch": 0.47333333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 1.7317057291666667,
      "learning_rate": 5.4209979713954625e-05,
      "loss": 6.4414,
      "loss/crossentropy": 1.5809917449951172,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.16054140776395798,
      "step": 2840
    },
    {
      "epoch": 0.4735,
      "grad_norm": 22.75,
      "grad_norm_var": 1.3791666666666667,
      "learning_rate": 5.418389216661579e-05,
      "loss": 6.1249,
      "loss/crossentropy": 0.9787953943014145,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1394398594275117,
      "step": 2841
    },
    {
      "epoch": 0.4736666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.2268229166666667,
      "learning_rate": 5.4157803472239164e-05,
      "loss": 6.357,
      "loss/crossentropy": 2.2880643010139465,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15922039933502674,
      "step": 2842
    },
    {
      "epoch": 0.47383333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 1.3622395833333334,
      "learning_rate": 5.413171363797713e-05,
      "loss": 6.4558,
      "loss/crossentropy": 1.4792331755161285,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16726082749664783,
      "step": 2843
    },
    {
      "epoch": 0.474,
      "grad_norm": 5200936960.0,
      "grad_norm_var": 1.6906090641486426e+18,
      "learning_rate": 5.410562267098238e-05,
      "loss": 6.1968,
      "loss/crossentropy": 0.7840773612260818,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10572036541998386,
      "step": 2844
    },
    {
      "epoch": 0.4741666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6906090642461601e+18,
      "learning_rate": 5.407953057840789e-05,
      "loss": 5.8932,
      "loss/crossentropy": 1.5375908762216568,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1058761365711689,
      "step": 2845
    },
    {
      "epoch": 0.47433333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.690609064262413e+18,
      "learning_rate": 5.4053437367406946e-05,
      "loss": 5.9114,
      "loss/crossentropy": 1.5119025260210037,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14824198093265295,
      "step": 2846
    },
    {
      "epoch": 0.4745,
      "grad_norm": 22.375,
      "grad_norm_var": 1.6906090642569953e+18,
      "learning_rate": 5.402734304513316e-05,
      "loss": 6.0809,
      "loss/crossentropy": 1.3954557329416275,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09011994861066341,
      "step": 2847
    },
    {
      "epoch": 0.4746666666666667,
      "grad_norm": 26.75,
      "grad_norm_var": 1.690609064137807e+18,
      "learning_rate": 5.400124761874045e-05,
      "loss": 6.7232,
      "loss/crossentropy": 1.5061328262090683,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15180965699255466,
      "step": 2848
    },
    {
      "epoch": 0.47483333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.69060906415406e+18,
      "learning_rate": 5.3975151095382995e-05,
      "loss": 5.8094,
      "loss/crossentropy": 1.9727537035942078,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1491231694817543,
      "step": 2849
    },
    {
      "epoch": 0.475,
      "grad_norm": 21.875,
      "grad_norm_var": 1.6906090641757307e+18,
      "learning_rate": 5.394905348221533e-05,
      "loss": 6.0893,
      "loss/crossentropy": 1.0841171145439148,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.12761008040979505,
      "step": 2850
    },
    {
      "epoch": 0.4751666666666667,
      "grad_norm": 25.0,
      "grad_norm_var": 1.6906090640294543e+18,
      "learning_rate": 5.392295478639225e-05,
      "loss": 6.459,
      "loss/crossentropy": 1.161724030971527,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10310737881809473,
      "step": 2851
    },
    {
      "epoch": 0.47533333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 1.690609063883178e+18,
      "learning_rate": 5.389685501506887e-05,
      "loss": 6.4,
      "loss/crossentropy": 1.7137738168239594,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2095576785504818,
      "step": 2852
    },
    {
      "epoch": 0.4755,
      "grad_norm": 24.5,
      "grad_norm_var": 1.6906090637477368e+18,
      "learning_rate": 5.3870754175400595e-05,
      "loss": 6.3543,
      "loss/crossentropy": 1.3308881521224976,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13915693014860153,
      "step": 2853
    },
    {
      "epoch": 0.4756666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 1.6906090637423194e+18,
      "learning_rate": 5.384465227454311e-05,
      "loss": 6.2983,
      "loss/crossentropy": 1.9128907918930054,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1610645418986678,
      "step": 2854
    },
    {
      "epoch": 0.47583333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.6906090637423194e+18,
      "learning_rate": 5.381854931965238e-05,
      "loss": 5.895,
      "loss/crossentropy": 1.0879246294498444,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1449640579521656,
      "step": 2855
    },
    {
      "epoch": 0.476,
      "grad_norm": 22.125,
      "grad_norm_var": 1.6906090638344192e+18,
      "learning_rate": 5.3792445317884696e-05,
      "loss": 6.2379,
      "loss/crossentropy": 2.1071523129940033,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1454889215528965,
      "step": 2856
    },
    {
      "epoch": 0.4761666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.6906090638885957e+18,
      "learning_rate": 5.3766340276396646e-05,
      "loss": 6.0206,
      "loss/crossentropy": 1.5715495944023132,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16772343032062054,
      "step": 2857
    },
    {
      "epoch": 0.47633333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.6906090639752778e+18,
      "learning_rate": 5.374023420234503e-05,
      "loss": 6.1252,
      "loss/crossentropy": 2.0671460032463074,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1630767360329628,
      "step": 2858
    },
    {
      "epoch": 0.4765,
      "grad_norm": 20.0,
      "grad_norm_var": 1.6906090641594778e+18,
      "learning_rate": 5.3714127102887e-05,
      "loss": 5.9112,
      "loss/crossentropy": 0.8530357778072357,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09317638631910086,
      "step": 2859
    },
    {
      "epoch": 0.4766666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.9785807291666666,
      "learning_rate": 5.3688018985179956e-05,
      "loss": 5.9984,
      "loss/crossentropy": 1.8285523056983948,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16508550569415092,
      "step": 2860
    },
    {
      "epoch": 0.47683333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 2.7416015625,
      "learning_rate": 5.366190985638159e-05,
      "loss": 6.3476,
      "loss/crossentropy": 2.1464545726776123,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16296936199069023,
      "step": 2861
    },
    {
      "epoch": 0.477,
      "grad_norm": 22.375,
      "grad_norm_var": 2.73515625,
      "learning_rate": 5.363579972364987e-05,
      "loss": 5.9922,
      "loss/crossentropy": 0.98322594165802,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12163795623928308,
      "step": 2862
    },
    {
      "epoch": 0.4771666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 3.07265625,
      "learning_rate": 5.360968859414305e-05,
      "loss": 5.9929,
      "loss/crossentropy": 1.7577027380466461,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1296928208321333,
      "step": 2863
    },
    {
      "epoch": 0.47733333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 1.9447265625,
      "learning_rate": 5.35835764750196e-05,
      "loss": 6.3285,
      "loss/crossentropy": 1.5663189888000488,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16505251824855804,
      "step": 2864
    },
    {
      "epoch": 0.4775,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8643229166666666,
      "learning_rate": 5.3557463373438357e-05,
      "loss": 6.1408,
      "loss/crossentropy": 1.7120574116706848,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15256115049123764,
      "step": 2865
    },
    {
      "epoch": 0.4776666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.91640625,
      "learning_rate": 5.3531349296558345e-05,
      "loss": 6.0383,
      "loss/crossentropy": 1.061616212129593,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08197815250605345,
      "step": 2866
    },
    {
      "epoch": 0.47783333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.45,
      "learning_rate": 5.3505234251538885e-05,
      "loss": 6.5343,
      "loss/crossentropy": 1.3077640756964684,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1445135255344212,
      "step": 2867
    },
    {
      "epoch": 0.478,
      "grad_norm": 25.125,
      "grad_norm_var": 1.7625,
      "learning_rate": 5.3479118245539595e-05,
      "loss": 6.5317,
      "loss/crossentropy": 1.4431637227535248,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12892414443194866,
      "step": 2868
    },
    {
      "epoch": 0.4781666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.42265625,
      "learning_rate": 5.345300128572031e-05,
      "loss": 6.1647,
      "loss/crossentropy": 1.5547591596841812,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1374963726848364,
      "step": 2869
    },
    {
      "epoch": 0.47833333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 1.4702473958333333,
      "learning_rate": 5.342688337924111e-05,
      "loss": 5.8113,
      "loss/crossentropy": 1.6047138348221779,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11767532490193844,
      "step": 2870
    },
    {
      "epoch": 0.4785,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4875,
      "learning_rate": 5.340076453326241e-05,
      "loss": 5.9387,
      "loss/crossentropy": 1.452856719493866,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1180387120693922,
      "step": 2871
    },
    {
      "epoch": 0.4786666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.4955729166666667,
      "learning_rate": 5.3374644754944836e-05,
      "loss": 6.3287,
      "loss/crossentropy": 2.14324614405632,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20464403554797173,
      "step": 2872
    },
    {
      "epoch": 0.47883333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.5822916666666667,
      "learning_rate": 5.3348524051449254e-05,
      "loss": 5.9236,
      "loss/crossentropy": 1.69490846991539,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15606658905744553,
      "step": 2873
    },
    {
      "epoch": 0.479,
      "grad_norm": 22.375,
      "grad_norm_var": 1.5916666666666666,
      "learning_rate": 5.3322402429936816e-05,
      "loss": 6.0027,
      "loss/crossentropy": 1.867885798215866,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17495539039373398,
      "step": 2874
    },
    {
      "epoch": 0.4791666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 1.3686848958333333,
      "learning_rate": 5.32962798975689e-05,
      "loss": 6.2469,
      "loss/crossentropy": 1.1679669320583344,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13154950365424156,
      "step": 2875
    },
    {
      "epoch": 0.47933333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3791015625,
      "learning_rate": 5.327015646150716e-05,
      "loss": 6.0607,
      "loss/crossentropy": 1.7351323813199997,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1538470797240734,
      "step": 2876
    },
    {
      "epoch": 0.4795,
      "grad_norm": 21.875,
      "grad_norm_var": 1.3768229166666666,
      "learning_rate": 5.3244032128913476e-05,
      "loss": 5.726,
      "loss/crossentropy": 1.6570644676685333,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1429662387818098,
      "step": 2877
    },
    {
      "epoch": 0.4796666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3738932291666666,
      "learning_rate": 5.3217906906949985e-05,
      "loss": 5.8489,
      "loss/crossentropy": 1.244347020983696,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21018007211387157,
      "step": 2878
    },
    {
      "epoch": 0.47983333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1629557291666666,
      "learning_rate": 5.319178080277908e-05,
      "loss": 6.4597,
      "loss/crossentropy": 1.359532579779625,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14180683437734842,
      "step": 2879
    },
    {
      "epoch": 0.48,
      "grad_norm": 22.5,
      "grad_norm_var": 1.0322916666666666,
      "learning_rate": 5.3165653823563355e-05,
      "loss": 6.2579,
      "loss/crossentropy": 1.6829414665699005,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17640818655490875,
      "step": 2880
    },
    {
      "epoch": 0.4801666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.1994140625,
      "learning_rate": 5.313952597646568e-05,
      "loss": 6.1887,
      "loss/crossentropy": 1.1995599269866943,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1518908552825451,
      "step": 2881
    },
    {
      "epoch": 0.48033333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 1.1728515625,
      "learning_rate": 5.311339726864915e-05,
      "loss": 6.3977,
      "loss/crossentropy": 0.8861024528741837,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16629893984645605,
      "step": 2882
    },
    {
      "epoch": 0.4805,
      "grad_norm": 26.0,
      "grad_norm_var": 2.0259765625,
      "learning_rate": 5.30872677072771e-05,
      "loss": 6.5194,
      "loss/crossentropy": 1.5737546384334564,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15152504481375217,
      "step": 2883
    },
    {
      "epoch": 0.4806666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.5822916666666667,
      "learning_rate": 5.30611372995131e-05,
      "loss": 6.0118,
      "loss/crossentropy": 1.2146273702383041,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09486665017902851,
      "step": 2884
    },
    {
      "epoch": 0.48083333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5837890625,
      "learning_rate": 5.3035006052520955e-05,
      "loss": 6.1318,
      "loss/crossentropy": 1.404634952545166,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13924269657582045,
      "step": 2885
    },
    {
      "epoch": 0.481,
      "grad_norm": 21.0,
      "grad_norm_var": 1.5614583333333334,
      "learning_rate": 5.3008873973464676e-05,
      "loss": 6.1985,
      "loss/crossentropy": 1.1909884810447693,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12876452412456274,
      "step": 2886
    },
    {
      "epoch": 0.4811666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 2.0497395833333334,
      "learning_rate": 5.298274106950854e-05,
      "loss": 6.7054,
      "loss/crossentropy": 1.916626125574112,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20346973463892937,
      "step": 2887
    },
    {
      "epoch": 0.48133333333333334,
      "grad_norm": 24.0,
      "grad_norm_var": 2.184309895833333,
      "learning_rate": 5.295660734781701e-05,
      "loss": 6.2214,
      "loss/crossentropy": 1.8552976548671722,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16617677547037601,
      "step": 2888
    },
    {
      "epoch": 0.4815,
      "grad_norm": 20.375,
      "grad_norm_var": 2.2864583333333335,
      "learning_rate": 5.293047281555482e-05,
      "loss": 5.5504,
      "loss/crossentropy": 1.1197568252682686,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11724260635674,
      "step": 2889
    },
    {
      "epoch": 0.4816666666666667,
      "grad_norm": 24.5,
      "grad_norm_var": 2.506705729166667,
      "learning_rate": 5.29043374798869e-05,
      "loss": 6.4362,
      "loss/crossentropy": 1.4992907047271729,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20888211205601692,
      "step": 2890
    },
    {
      "epoch": 0.48183333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 2.4957682291666665,
      "learning_rate": 5.2878201347978374e-05,
      "loss": 5.795,
      "loss/crossentropy": 1.4614684730768204,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10168605670332909,
      "step": 2891
    },
    {
      "epoch": 0.482,
      "grad_norm": 22.5,
      "grad_norm_var": 2.436393229166667,
      "learning_rate": 5.285206442699462e-05,
      "loss": 6.4765,
      "loss/crossentropy": 2.037539631128311,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13667942769825459,
      "step": 2892
    },
    {
      "epoch": 0.4821666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 2.3955729166666666,
      "learning_rate": 5.2825926724101236e-05,
      "loss": 5.9927,
      "loss/crossentropy": 1.4648026823997498,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14141174964606762,
      "step": 2893
    },
    {
      "epoch": 0.48233333333333334,
      "grad_norm": 22.5,
      "grad_norm_var": 2.3802083333333335,
      "learning_rate": 5.2799788246464e-05,
      "loss": 5.9465,
      "loss/crossentropy": 1.4881471917033195,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14065227378159761,
      "step": 2894
    },
    {
      "epoch": 0.4825,
      "grad_norm": 20.625,
      "grad_norm_var": 2.6393229166666665,
      "learning_rate": 5.277364900124896e-05,
      "loss": 5.6724,
      "loss/crossentropy": 1.6206391751766205,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17303466796875,
      "step": 2895
    },
    {
      "epoch": 0.4826666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 2.892708333333333,
      "learning_rate": 5.27475089956223e-05,
      "loss": 5.9937,
      "loss/crossentropy": 1.3448408097028732,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09610015526413918,
      "step": 2896
    },
    {
      "epoch": 0.48283333333333334,
      "grad_norm": 26.0,
      "grad_norm_var": 3.520247395833333,
      "learning_rate": 5.272136823675046e-05,
      "loss": 6.192,
      "loss/crossentropy": 1.525655522942543,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13237508293241262,
      "step": 2897
    },
    {
      "epoch": 0.483,
      "grad_norm": 23.75,
      "grad_norm_var": 3.47265625,
      "learning_rate": 5.269522673180009e-05,
      "loss": 6.5278,
      "loss/crossentropy": 1.3554274141788483,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1208640681579709,
      "step": 2898
    },
    {
      "epoch": 0.4831666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 2.865625,
      "learning_rate": 5.266908448793803e-05,
      "loss": 6.1719,
      "loss/crossentropy": 1.6631327494978905,
      "loss/hidden": 2.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12376485764980316,
      "step": 2899
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 19.25,
      "grad_norm_var": 3.56640625,
      "learning_rate": 5.264294151233132e-05,
      "loss": 5.9551,
      "loss/crossentropy": 1.0321079567074776,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08045739587396383,
      "step": 2900
    },
    {
      "epoch": 0.4835,
      "grad_norm": 21.25,
      "grad_norm_var": 3.6744140625,
      "learning_rate": 5.26167978121472e-05,
      "loss": 5.977,
      "loss/crossentropy": 1.3880468606948853,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12920587323606014,
      "step": 2901
    },
    {
      "epoch": 0.4836666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 3.49765625,
      "learning_rate": 5.2590653394553127e-05,
      "loss": 6.3352,
      "loss/crossentropy": 0.8976159393787384,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08667252399027348,
      "step": 2902
    },
    {
      "epoch": 0.48383333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 3.294791666666667,
      "learning_rate": 5.256450826671672e-05,
      "loss": 6.2919,
      "loss/crossentropy": 1.3893549889326096,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12383033707737923,
      "step": 2903
    },
    {
      "epoch": 0.484,
      "grad_norm": 20.0,
      "grad_norm_var": 3.4447916666666667,
      "learning_rate": 5.253836243580582e-05,
      "loss": 5.5251,
      "loss/crossentropy": 1.4493394196033478,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19713111873716116,
      "step": 2904
    },
    {
      "epoch": 0.4841666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 3.341666666666667,
      "learning_rate": 5.2512215908988484e-05,
      "loss": 5.7704,
      "loss/crossentropy": 0.8985186964273453,
      "loss/hidden": 2.78515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.06972884247079492,
      "step": 2905
    },
    {
      "epoch": 0.48433333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 2.9791666666666665,
      "learning_rate": 5.24860686934329e-05,
      "loss": 6.0823,
      "loss/crossentropy": 1.3938017040491104,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12297729030251503,
      "step": 2906
    },
    {
      "epoch": 0.4845,
      "grad_norm": 23.5,
      "grad_norm_var": 3.0999348958333335,
      "learning_rate": 5.245992079630748e-05,
      "loss": 6.33,
      "loss/crossentropy": 1.2279664278030396,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08729206025600433,
      "step": 2907
    },
    {
      "epoch": 0.4846666666666667,
      "grad_norm": 26.625,
      "grad_norm_var": 4.408333333333333,
      "learning_rate": 5.243377222478083e-05,
      "loss": 5.9029,
      "loss/crossentropy": 1.500210277736187,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12025288306176662,
      "step": 2908
    },
    {
      "epoch": 0.48483333333333334,
      "grad_norm": 19.375,
      "grad_norm_var": 4.862434895833333,
      "learning_rate": 5.240762298602171e-05,
      "loss": 5.742,
      "loss/crossentropy": 1.724600374698639,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12965254858136177,
      "step": 2909
    },
    {
      "epoch": 0.485,
      "grad_norm": 22.125,
      "grad_norm_var": 4.849739583333333,
      "learning_rate": 5.2381473087199094e-05,
      "loss": 6.4484,
      "loss/crossentropy": 1.8017585426568985,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12946615181863308,
      "step": 2910
    },
    {
      "epoch": 0.4851666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 4.801041666666666,
      "learning_rate": 5.235532253548213e-05,
      "loss": 6.6079,
      "loss/crossentropy": 1.9924750626087189,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20170015469193459,
      "step": 2911
    },
    {
      "epoch": 0.48533333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 4.647916666666666,
      "learning_rate": 5.232917133804014e-05,
      "loss": 6.1294,
      "loss/crossentropy": 1.4919782429933548,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.125000755302608,
      "step": 2912
    },
    {
      "epoch": 0.4855,
      "grad_norm": 21.25,
      "grad_norm_var": 3.72265625,
      "learning_rate": 5.230301950204262e-05,
      "loss": 6.3837,
      "loss/crossentropy": 1.6098584234714508,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15588342025876045,
      "step": 2913
    },
    {
      "epoch": 0.4856666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 3.5744140625,
      "learning_rate": 5.227686703465924e-05,
      "loss": 6.5137,
      "loss/crossentropy": 1.3620887994766235,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24380714632570744,
      "step": 2914
    },
    {
      "epoch": 0.48583333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 3.3322265625,
      "learning_rate": 5.2250713943059826e-05,
      "loss": 5.8549,
      "loss/crossentropy": 1.5750323832035065,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13603909313678741,
      "step": 2915
    },
    {
      "epoch": 0.486,
      "grad_norm": 21.625,
      "grad_norm_var": 2.8955729166666666,
      "learning_rate": 5.222456023441444e-05,
      "loss": 5.9028,
      "loss/crossentropy": 0.9671542942523956,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1165827251970768,
      "step": 2916
    },
    {
      "epoch": 0.4861666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 2.886458333333333,
      "learning_rate": 5.219840591589325e-05,
      "loss": 6.4149,
      "loss/crossentropy": 1.3567376881837845,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16558424476534128,
      "step": 2917
    },
    {
      "epoch": 0.48633333333333334,
      "grad_norm": 22.875,
      "grad_norm_var": 2.886458333333333,
      "learning_rate": 5.217225099466661e-05,
      "loss": 6.1784,
      "loss/crossentropy": 1.3591007739305496,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17912517860531807,
      "step": 2918
    },
    {
      "epoch": 0.4865,
      "grad_norm": 20.75,
      "grad_norm_var": 2.84140625,
      "learning_rate": 5.2146095477905033e-05,
      "loss": 5.9999,
      "loss/crossentropy": 1.383025124669075,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10124805197119713,
      "step": 2919
    },
    {
      "epoch": 0.4866666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 2.6577473958333333,
      "learning_rate": 5.2119939372779216e-05,
      "loss": 5.9288,
      "loss/crossentropy": 1.9996477365493774,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17206808552145958,
      "step": 2920
    },
    {
      "epoch": 0.48683333333333334,
      "grad_norm": 23.75,
      "grad_norm_var": 2.728125,
      "learning_rate": 5.209378268645998e-05,
      "loss": 6.4673,
      "loss/crossentropy": 1.4251213520765305,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1392149142920971,
      "step": 2921
    },
    {
      "epoch": 0.487,
      "grad_norm": 21.875,
      "grad_norm_var": 2.7009765625,
      "learning_rate": 5.206762542611836e-05,
      "loss": 6.1343,
      "loss/crossentropy": 1.929637849330902,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14716628193855286,
      "step": 2922
    },
    {
      "epoch": 0.4871666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 2.746809895833333,
      "learning_rate": 5.204146759892551e-05,
      "loss": 6.215,
      "loss/crossentropy": 1.4293546825647354,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20783483237028122,
      "step": 2923
    },
    {
      "epoch": 0.48733333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.4830729166666667,
      "learning_rate": 5.201530921205272e-05,
      "loss": 5.9435,
      "loss/crossentropy": 1.5223820507526398,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12882700748741627,
      "step": 2924
    },
    {
      "epoch": 0.4875,
      "grad_norm": 22.25,
      "grad_norm_var": 1.0353515625,
      "learning_rate": 5.19891502726715e-05,
      "loss": 6.2981,
      "loss/crossentropy": 1.6999930143356323,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23679102584719658,
      "step": 2925
    },
    {
      "epoch": 0.4876666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.0650390625,
      "learning_rate": 5.196299078795344e-05,
      "loss": 5.9757,
      "loss/crossentropy": 1.7160597443580627,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12959099560976028,
      "step": 2926
    },
    {
      "epoch": 0.48783333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.0869140625,
      "learning_rate": 5.193683076507031e-05,
      "loss": 5.8603,
      "loss/crossentropy": 1.7157143652439117,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11729797534644604,
      "step": 2927
    },
    {
      "epoch": 0.488,
      "grad_norm": 27.0,
      "grad_norm_var": 2.7593098958333333,
      "learning_rate": 5.191067021119407e-05,
      "loss": 6.6681,
      "loss/crossentropy": 1.3533091843128204,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15360945463180542,
      "step": 2928
    },
    {
      "epoch": 0.4881666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 2.79140625,
      "learning_rate": 5.188450913349674e-05,
      "loss": 6.246,
      "loss/crossentropy": 1.2344341948628426,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11274566734209657,
      "step": 2929
    },
    {
      "epoch": 0.48833333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 2.6875,
      "learning_rate": 5.185834753915053e-05,
      "loss": 6.172,
      "loss/crossentropy": 0.9860769510269165,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12514526769518852,
      "step": 2930
    },
    {
      "epoch": 0.4885,
      "grad_norm": 21.375,
      "grad_norm_var": 2.7426432291666667,
      "learning_rate": 5.183218543532782e-05,
      "loss": 6.2466,
      "loss/crossentropy": 1.5355013012886047,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13295287638902664,
      "step": 2931
    },
    {
      "epoch": 0.4886666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 2.9166666666666665,
      "learning_rate": 5.180602282920107e-05,
      "loss": 5.8219,
      "loss/crossentropy": 0.7531030550599098,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07992441114038229,
      "step": 2932
    },
    {
      "epoch": 0.48883333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 3.0009765625,
      "learning_rate": 5.1779859727942924e-05,
      "loss": 5.9992,
      "loss/crossentropy": 2.0997342467308044,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1611967869102955,
      "step": 2933
    },
    {
      "epoch": 0.489,
      "grad_norm": 19.75,
      "grad_norm_var": 3.34765625,
      "learning_rate": 5.175369613872615e-05,
      "loss": 5.8067,
      "loss/crossentropy": 1.0017843171954155,
      "loss/hidden": 2.79296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.06635904824361205,
      "step": 2934
    },
    {
      "epoch": 0.4891666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 3.6614583333333335,
      "learning_rate": 5.172753206872363e-05,
      "loss": 5.8326,
      "loss/crossentropy": 1.1297563016414642,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12256263522431254,
      "step": 2935
    },
    {
      "epoch": 0.48933333333333334,
      "grad_norm": 23.5,
      "grad_norm_var": 3.7093098958333335,
      "learning_rate": 5.170136752510837e-05,
      "loss": 6.5102,
      "loss/crossentropy": 2.350203037261963,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16824431344866753,
      "step": 2936
    },
    {
      "epoch": 0.4895,
      "grad_norm": 22.375,
      "grad_norm_var": 3.530989583333333,
      "learning_rate": 5.167520251505358e-05,
      "loss": 6.3747,
      "loss/crossentropy": 1.280907392501831,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16732005309313536,
      "step": 2937
    },
    {
      "epoch": 0.48966666666666664,
      "grad_norm": 21.75,
      "grad_norm_var": 3.5348307291666665,
      "learning_rate": 5.164903704573251e-05,
      "loss": 6.0521,
      "loss/crossentropy": 1.6921002566814423,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18069107085466385,
      "step": 2938
    },
    {
      "epoch": 0.48983333333333334,
      "grad_norm": 23.125,
      "grad_norm_var": 3.4166666666666665,
      "learning_rate": 5.162287112431858e-05,
      "loss": 6.4437,
      "loss/crossentropy": 2.0034463703632355,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18191588670015335,
      "step": 2939
    },
    {
      "epoch": 0.49,
      "grad_norm": 19.625,
      "grad_norm_var": 3.6832682291666665,
      "learning_rate": 5.159670475798534e-05,
      "loss": 5.98,
      "loss/crossentropy": 1.6086754500865936,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1333991140127182,
      "step": 2940
    },
    {
      "epoch": 0.49016666666666664,
      "grad_norm": 23.25,
      "grad_norm_var": 3.7884765625,
      "learning_rate": 5.157053795390642e-05,
      "loss": 5.9892,
      "loss/crossentropy": 1.469132512807846,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09227168187499046,
      "step": 2941
    },
    {
      "epoch": 0.49033333333333334,
      "grad_norm": 23.75,
      "grad_norm_var": 3.945572916666667,
      "learning_rate": 5.154437071925562e-05,
      "loss": 6.3666,
      "loss/crossentropy": 1.3372201323509216,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13570572435855865,
      "step": 2942
    },
    {
      "epoch": 0.4905,
      "grad_norm": 20.375,
      "grad_norm_var": 3.945572916666667,
      "learning_rate": 5.151820306120682e-05,
      "loss": 5.766,
      "loss/crossentropy": 2.1470507979393005,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17502836883068085,
      "step": 2943
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 21.125,
      "grad_norm_var": 2.2962890625,
      "learning_rate": 5.1492034986934046e-05,
      "loss": 6.0767,
      "loss/crossentropy": 1.2891799211502075,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1586580015718937,
      "step": 2944
    },
    {
      "epoch": 0.49083333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 2.1166015625,
      "learning_rate": 5.1465866503611426e-05,
      "loss": 6.1297,
      "loss/crossentropy": 1.9254120290279388,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1760397106409073,
      "step": 2945
    },
    {
      "epoch": 0.491,
      "grad_norm": 20.875,
      "grad_norm_var": 2.1572265625,
      "learning_rate": 5.143969761841317e-05,
      "loss": 5.7286,
      "loss/crossentropy": 1.6808636486530304,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11485701240599155,
      "step": 2946
    },
    {
      "epoch": 0.49116666666666664,
      "grad_norm": 21.25,
      "grad_norm_var": 2.1625,
      "learning_rate": 5.141352833851367e-05,
      "loss": 5.7801,
      "loss/crossentropy": 1.0694195926189423,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10509540047496557,
      "step": 2947
    },
    {
      "epoch": 0.49133333333333334,
      "grad_norm": 19.875,
      "grad_norm_var": 2.2806640625,
      "learning_rate": 5.138735867108735e-05,
      "loss": 5.8332,
      "loss/crossentropy": 1.4291299879550934,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12648636102676392,
      "step": 2948
    },
    {
      "epoch": 0.4915,
      "grad_norm": 21.5,
      "grad_norm_var": 2.053125,
      "learning_rate": 5.136118862330876e-05,
      "loss": 6.4028,
      "loss/crossentropy": 2.1395501792430878,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15038877725601196,
      "step": 2949
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 23.5,
      "grad_norm_var": 2.07265625,
      "learning_rate": 5.133501820235264e-05,
      "loss": 6.2587,
      "loss/crossentropy": 1.4832979589700699,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19965294562280178,
      "step": 2950
    },
    {
      "epoch": 0.49183333333333334,
      "grad_norm": 23.125,
      "grad_norm_var": 1.8291015625,
      "learning_rate": 5.1308847415393666e-05,
      "loss": 6.5889,
      "loss/crossentropy": 1.228159636259079,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17801343742758036,
      "step": 2951
    },
    {
      "epoch": 0.492,
      "grad_norm": 24.0,
      "grad_norm_var": 1.9494140625,
      "learning_rate": 5.1282676269606756e-05,
      "loss": 6.0337,
      "loss/crossentropy": 1.1689087450504303,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12793682236224413,
      "step": 2952
    },
    {
      "epoch": 0.49216666666666664,
      "grad_norm": 23.625,
      "grad_norm_var": 2.116080729166667,
      "learning_rate": 5.125650477216688e-05,
      "loss": 6.5859,
      "loss/crossentropy": 1.7199026942253113,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17011822760105133,
      "step": 2953
    },
    {
      "epoch": 0.49233333333333335,
      "grad_norm": 21.375,
      "grad_norm_var": 2.1393229166666665,
      "learning_rate": 5.123033293024909e-05,
      "loss": 6.4127,
      "loss/crossentropy": 1.0930895507335663,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10882955230772495,
      "step": 2954
    },
    {
      "epoch": 0.4925,
      "grad_norm": 22.0,
      "grad_norm_var": 2.052018229166667,
      "learning_rate": 5.120416075102855e-05,
      "loss": 5.797,
      "loss/crossentropy": 1.0371498838067055,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08785436721518636,
      "step": 2955
    },
    {
      "epoch": 0.49266666666666664,
      "grad_norm": 22.0,
      "grad_norm_var": 1.6697916666666666,
      "learning_rate": 5.117798824168052e-05,
      "loss": 6.1408,
      "loss/crossentropy": 1.6600478291511536,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12085916381329298,
      "step": 2956
    },
    {
      "epoch": 0.49283333333333335,
      "grad_norm": 20.875,
      "grad_norm_var": 1.6561848958333334,
      "learning_rate": 5.115181540938032e-05,
      "loss": 6.0629,
      "loss/crossentropy": 1.8770385086536407,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19115621596574783,
      "step": 2957
    },
    {
      "epoch": 0.493,
      "grad_norm": 23.625,
      "grad_norm_var": 1.6270833333333334,
      "learning_rate": 5.112564226130339e-05,
      "loss": 6.7191,
      "loss/crossentropy": 1.7959897220134735,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13764337077736855,
      "step": 2958
    },
    {
      "epoch": 0.49316666666666664,
      "grad_norm": 22.625,
      "grad_norm_var": 1.4747395833333334,
      "learning_rate": 5.109946880462526e-05,
      "loss": 6.2668,
      "loss/crossentropy": 1.5888480246067047,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19900161772966385,
      "step": 2959
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 24.375,
      "grad_norm_var": 1.721875,
      "learning_rate": 5.107329504652152e-05,
      "loss": 6.5228,
      "loss/crossentropy": 1.1362391486763954,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2087339460849762,
      "step": 2960
    },
    {
      "epoch": 0.4935,
      "grad_norm": 23.375,
      "grad_norm_var": 1.78125,
      "learning_rate": 5.104712099416785e-05,
      "loss": 6.1653,
      "loss/crossentropy": 1.1719236634671688,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09747786540538073,
      "step": 2961
    },
    {
      "epoch": 0.49366666666666664,
      "grad_norm": 24.375,
      "grad_norm_var": 1.846875,
      "learning_rate": 5.102094665474003e-05,
      "loss": 6.2309,
      "loss/crossentropy": 1.5085171610116959,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14334519021213055,
      "step": 2962
    },
    {
      "epoch": 0.49383333333333335,
      "grad_norm": 23.125,
      "grad_norm_var": 1.7306640625,
      "learning_rate": 5.09947720354139e-05,
      "loss": 6.4043,
      "loss/crossentropy": 1.8111565709114075,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11967960465699434,
      "step": 2963
    },
    {
      "epoch": 0.494,
      "grad_norm": 21.625,
      "grad_norm_var": 1.2603515625,
      "learning_rate": 5.096859714336535e-05,
      "loss": 6.0145,
      "loss/crossentropy": 1.3640968389809132,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0965930512174964,
      "step": 2964
    },
    {
      "epoch": 0.49416666666666664,
      "grad_norm": 20.875,
      "grad_norm_var": 1.3947916666666667,
      "learning_rate": 5.094242198577042e-05,
      "loss": 5.717,
      "loss/crossentropy": 1.2282983511686325,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.11497635394334793,
      "step": 2965
    },
    {
      "epoch": 0.49433333333333335,
      "grad_norm": 20.5,
      "grad_norm_var": 1.6697916666666666,
      "learning_rate": 5.091624656980515e-05,
      "loss": 5.9014,
      "loss/crossentropy": 1.7005417197942734,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11313208751380444,
      "step": 2966
    },
    {
      "epoch": 0.4945,
      "grad_norm": 22.625,
      "grad_norm_var": 1.65,
      "learning_rate": 5.089007090264568e-05,
      "loss": 6.2506,
      "loss/crossentropy": 1.5526010245084763,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20051226112991571,
      "step": 2967
    },
    {
      "epoch": 0.49466666666666664,
      "grad_norm": 21.0,
      "grad_norm_var": 1.6375,
      "learning_rate": 5.086389499146823e-05,
      "loss": 5.9894,
      "loss/crossentropy": 1.3444825112819672,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09742529410868883,
      "step": 2968
    },
    {
      "epoch": 0.49483333333333335,
      "grad_norm": 20.25,
      "grad_norm_var": 1.7869140625,
      "learning_rate": 5.0837718843449075e-05,
      "loss": 5.9543,
      "loss/crossentropy": 1.6911215782165527,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14150570333003998,
      "step": 2969
    },
    {
      "epoch": 0.495,
      "grad_norm": 22.25,
      "grad_norm_var": 1.7427083333333333,
      "learning_rate": 5.081154246576454e-05,
      "loss": 5.7356,
      "loss/crossentropy": 1.6584900468587875,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14239073172211647,
      "step": 2970
    },
    {
      "epoch": 0.49516666666666664,
      "grad_norm": 20.375,
      "grad_norm_var": 1.9551432291666666,
      "learning_rate": 5.078536586559104e-05,
      "loss": 6.1722,
      "loss/crossentropy": 1.6993851214647293,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24519443325698376,
      "step": 2971
    },
    {
      "epoch": 0.49533333333333335,
      "grad_norm": 21.5,
      "grad_norm_var": 1.9785807291666666,
      "learning_rate": 5.075918905010504e-05,
      "loss": 5.811,
      "loss/crossentropy": 1.3937289714813232,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11774096824228764,
      "step": 2972
    },
    {
      "epoch": 0.4955,
      "grad_norm": 22.75,
      "grad_norm_var": 1.8955729166666666,
      "learning_rate": 5.073301202648304e-05,
      "loss": 6.0706,
      "loss/crossentropy": 1.1139160841703415,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20495698601007462,
      "step": 2973
    },
    {
      "epoch": 0.49566666666666664,
      "grad_norm": 20.625,
      "grad_norm_var": 1.8893229166666667,
      "learning_rate": 5.070683480190165e-05,
      "loss": 6.2457,
      "loss/crossentropy": 1.5607765018939972,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11259774677455425,
      "step": 2974
    },
    {
      "epoch": 0.49583333333333335,
      "grad_norm": 20.5,
      "grad_norm_var": 1.9988932291666666,
      "learning_rate": 5.068065738353748e-05,
      "loss": 5.9497,
      "loss/crossentropy": 1.7715590298175812,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14954343810677528,
      "step": 2975
    },
    {
      "epoch": 0.496,
      "grad_norm": 22.625,
      "grad_norm_var": 1.6087890625,
      "learning_rate": 5.0654479778567223e-05,
      "loss": 6.1063,
      "loss/crossentropy": 1.4891397505998611,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15185732766985893,
      "step": 2976
    },
    {
      "epoch": 0.49616666666666664,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4997395833333333,
      "learning_rate": 5.062830199416764e-05,
      "loss": 6.2169,
      "loss/crossentropy": 1.2685098499059677,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11380861699581146,
      "step": 2977
    },
    {
      "epoch": 0.49633333333333335,
      "grad_norm": 21.25,
      "grad_norm_var": 1.0098307291666666,
      "learning_rate": 5.0602124037515496e-05,
      "loss": 6.2841,
      "loss/crossentropy": 1.3368217945098877,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13231676816940308,
      "step": 2978
    },
    {
      "epoch": 0.4965,
      "grad_norm": 21.125,
      "grad_norm_var": 0.8369140625,
      "learning_rate": 5.0575945915787616e-05,
      "loss": 5.7952,
      "loss/crossentropy": 1.2196430042386055,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10728241689503193,
      "step": 2979
    },
    {
      "epoch": 0.49666666666666665,
      "grad_norm": 22.375,
      "grad_norm_var": 0.8931640625,
      "learning_rate": 5.0549767636160915e-05,
      "loss": 6.1251,
      "loss/crossentropy": 1.2699607014656067,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19074765220284462,
      "step": 2980
    },
    {
      "epoch": 0.49683333333333335,
      "grad_norm": 21.25,
      "grad_norm_var": 0.87265625,
      "learning_rate": 5.052358920581229e-05,
      "loss": 5.9999,
      "loss/crossentropy": 1.4935684651136398,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08665712550282478,
      "step": 2981
    },
    {
      "epoch": 0.497,
      "grad_norm": 23.625,
      "grad_norm_var": 1.0728515625,
      "learning_rate": 5.049741063191873e-05,
      "loss": 6.5485,
      "loss/crossentropy": 1.5234222412109375,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14749320596456528,
      "step": 2982
    },
    {
      "epoch": 0.49716666666666665,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1760416666666667,
      "learning_rate": 5.047123192165721e-05,
      "loss": 6.1167,
      "loss/crossentropy": 1.3418205082416534,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1262514553964138,
      "step": 2983
    },
    {
      "epoch": 0.49733333333333335,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1400390625,
      "learning_rate": 5.0445053082204785e-05,
      "loss": 6.073,
      "loss/crossentropy": 1.5612619817256927,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16325802728533745,
      "step": 2984
    },
    {
      "epoch": 0.4975,
      "grad_norm": 23.375,
      "grad_norm_var": 1.115625,
      "learning_rate": 5.041887412073854e-05,
      "loss": 6.0057,
      "loss/crossentropy": 0.7051524445414543,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07297936920076609,
      "step": 2985
    },
    {
      "epoch": 0.49766666666666665,
      "grad_norm": 20.375,
      "grad_norm_var": 1.2650390625,
      "learning_rate": 5.039269504443557e-05,
      "loss": 6.0491,
      "loss/crossentropy": 0.9588368311524391,
      "loss/hidden": 2.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08291151281446218,
      "step": 2986
    },
    {
      "epoch": 0.49783333333333335,
      "grad_norm": 23.25,
      "grad_norm_var": 1.215625,
      "learning_rate": 5.036651586047303e-05,
      "loss": 6.1401,
      "loss/crossentropy": 2.0116808712482452,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1538270004093647,
      "step": 2987
    },
    {
      "epoch": 0.498,
      "grad_norm": 22.5,
      "grad_norm_var": 1.2072916666666667,
      "learning_rate": 5.034033657602809e-05,
      "loss": 6.2392,
      "loss/crossentropy": 1.9834381937980652,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18880357034504414,
      "step": 2988
    },
    {
      "epoch": 0.49816666666666665,
      "grad_norm": 26.125,
      "grad_norm_var": 2.2145182291666665,
      "learning_rate": 5.0314157198277954e-05,
      "loss": 6.2388,
      "loss/crossentropy": 1.263714239001274,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16115235164761543,
      "step": 2989
    },
    {
      "epoch": 0.49833333333333335,
      "grad_norm": 22.125,
      "grad_norm_var": 2.0192057291666665,
      "learning_rate": 5.028797773439984e-05,
      "loss": 6.0901,
      "loss/crossentropy": 1.47247514128685,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20402398332953453,
      "step": 2990
    },
    {
      "epoch": 0.4985,
      "grad_norm": 22.875,
      "grad_norm_var": 1.7705729166666666,
      "learning_rate": 5.026179819157098e-05,
      "loss": 6.294,
      "loss/crossentropy": 1.4303151071071625,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11550042405724525,
      "step": 2991
    },
    {
      "epoch": 0.49866666666666665,
      "grad_norm": 19.875,
      "grad_norm_var": 2.214583333333333,
      "learning_rate": 5.023561857696867e-05,
      "loss": 5.8288,
      "loss/crossentropy": 1.445830449461937,
      "loss/hidden": 2.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09737288858741522,
      "step": 2992
    },
    {
      "epoch": 0.49883333333333335,
      "grad_norm": 22.625,
      "grad_norm_var": 2.2093098958333335,
      "learning_rate": 5.02094388977702e-05,
      "loss": 6.1011,
      "loss/crossentropy": 1.6174702793359756,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1404205784201622,
      "step": 2993
    },
    {
      "epoch": 0.499,
      "grad_norm": 24.25,
      "grad_norm_var": 2.324934895833333,
      "learning_rate": 5.018325916115286e-05,
      "loss": 6.2495,
      "loss/crossentropy": 1.5907112956047058,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1965256705880165,
      "step": 2994
    },
    {
      "epoch": 0.49916666666666665,
      "grad_norm": 21.375,
      "grad_norm_var": 2.2811848958333334,
      "learning_rate": 5.0157079374293983e-05,
      "loss": 6.1541,
      "loss/crossentropy": 1.6113975197076797,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13945137336850166,
      "step": 2995
    },
    {
      "epoch": 0.49933333333333335,
      "grad_norm": 22.75,
      "grad_norm_var": 2.2802083333333334,
      "learning_rate": 5.013089954437091e-05,
      "loss": 6.0271,
      "loss/crossentropy": 1.623903751373291,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1443780530244112,
      "step": 2996
    },
    {
      "epoch": 0.4995,
      "grad_norm": 22.75,
      "grad_norm_var": 2.152083333333333,
      "learning_rate": 5.010471967856096e-05,
      "loss": 6.2967,
      "loss/crossentropy": 1.4953322410583496,
      "loss/hidden": 2.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09491090290248394,
      "step": 2997
    },
    {
      "epoch": 0.49966666666666665,
      "grad_norm": 24.125,
      "grad_norm_var": 2.230208333333333,
      "learning_rate": 5.0078539784041545e-05,
      "loss": 6.6149,
      "loss/crossentropy": 2.5105087757110596,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17242544516921043,
      "step": 2998
    },
    {
      "epoch": 0.49983333333333335,
      "grad_norm": 20.125,
      "grad_norm_var": 2.6192057291666666,
      "learning_rate": 5.005235986799001e-05,
      "loss": 5.9675,
      "loss/crossentropy": 1.3022768571972847,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09962215553969145,
      "step": 2999
    },
    {
      "epoch": 0.5,
      "grad_norm": 22.0,
      "grad_norm_var": 2.609375,
      "learning_rate": 5.0026179937583685e-05,
      "loss": 6.4599,
      "loss/crossentropy": 1.0803343951702118,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11936526373028755,
      "step": 3000
    },
    {
      "epoch": 0.5001666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 2.5916015625,
      "learning_rate": 5e-05,
      "loss": 6.1035,
      "loss/crossentropy": 1.1818501353263855,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11960870400071144,
      "step": 3001
    },
    {
      "epoch": 0.5003333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.49765625,
      "learning_rate": 4.997382006241632e-05,
      "loss": 5.8143,
      "loss/crossentropy": 1.4217569380998611,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11886055581271648,
      "step": 3002
    },
    {
      "epoch": 0.5005,
      "grad_norm": 22.5,
      "grad_norm_var": 2.453125,
      "learning_rate": 4.9947640132010016e-05,
      "loss": 6.2955,
      "loss/crossentropy": 1.4757855832576752,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1302289515733719,
      "step": 3003
    },
    {
      "epoch": 0.5006666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.575,
      "learning_rate": 4.992146021595847e-05,
      "loss": 5.7871,
      "loss/crossentropy": 1.0342204719781876,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1243443489074707,
      "step": 3004
    },
    {
      "epoch": 0.5008333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 1.5436848958333333,
      "learning_rate": 4.989528032143903e-05,
      "loss": 5.7997,
      "loss/crossentropy": 1.2159898206591606,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09914582408964634,
      "step": 3005
    },
    {
      "epoch": 0.501,
      "grad_norm": 22.5,
      "grad_norm_var": 1.5552083333333333,
      "learning_rate": 4.9869100455629105e-05,
      "loss": 6.3743,
      "loss/crossentropy": 1.3073055893182755,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1494144555181265,
      "step": 3006
    },
    {
      "epoch": 0.5011666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 1.5330729166666666,
      "learning_rate": 4.984292062570602e-05,
      "loss": 6.3206,
      "loss/crossentropy": 1.1513755023479462,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10805965960025787,
      "step": 3007
    },
    {
      "epoch": 0.5013333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 1.4973307291666667,
      "learning_rate": 4.981674083884715e-05,
      "loss": 5.7207,
      "loss/crossentropy": 1.521673858165741,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18815459683537483,
      "step": 3008
    },
    {
      "epoch": 0.5015,
      "grad_norm": 23.25,
      "grad_norm_var": 1.5666666666666667,
      "learning_rate": 4.979056110222981e-05,
      "loss": 6.0449,
      "loss/crossentropy": 1.9397836029529572,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21539944224059582,
      "step": 3009
    },
    {
      "epoch": 0.5016666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.25,
      "learning_rate": 4.9764381423031336e-05,
      "loss": 6.1215,
      "loss/crossentropy": 1.7458831369876862,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24063904769718647,
      "step": 3010
    },
    {
      "epoch": 0.5018333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.2434895833333333,
      "learning_rate": 4.973820180842902e-05,
      "loss": 6.6412,
      "loss/crossentropy": 0.9075723588466644,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11949162743985653,
      "step": 3011
    },
    {
      "epoch": 0.502,
      "grad_norm": 20.25,
      "grad_norm_var": 1.41015625,
      "learning_rate": 4.971202226560017e-05,
      "loss": 5.7267,
      "loss/crossentropy": 1.096592739224434,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07611015252768993,
      "step": 3012
    },
    {
      "epoch": 0.5021666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3622395833333334,
      "learning_rate": 4.968584280172206e-05,
      "loss": 6.1136,
      "loss/crossentropy": 1.6198939085006714,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15214506350457668,
      "step": 3013
    },
    {
      "epoch": 0.5023333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 0.9999348958333333,
      "learning_rate": 4.9659663423971913e-05,
      "loss": 6.0034,
      "loss/crossentropy": 1.6670289486646652,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12340570613741875,
      "step": 3014
    },
    {
      "epoch": 0.5025,
      "grad_norm": 21.0,
      "grad_norm_var": 0.8645833333333334,
      "learning_rate": 4.9633484139526975e-05,
      "loss": 6.0916,
      "loss/crossentropy": 1.9787302315235138,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18421349115669727,
      "step": 3015
    },
    {
      "epoch": 0.5026666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 0.9098307291666666,
      "learning_rate": 4.960730495556446e-05,
      "loss": 6.291,
      "loss/crossentropy": 1.5220894813537598,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12398297898471355,
      "step": 3016
    },
    {
      "epoch": 0.5028333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 0.9309895833333334,
      "learning_rate": 4.958112587926147e-05,
      "loss": 6.1906,
      "loss/crossentropy": 1.659138560295105,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11807074211537838,
      "step": 3017
    },
    {
      "epoch": 0.503,
      "grad_norm": 20.0,
      "grad_norm_var": 1.0739583333333333,
      "learning_rate": 4.955494691779522e-05,
      "loss": 6.0376,
      "loss/crossentropy": 0.9938411712646484,
      "loss/hidden": 2.87890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07360102888196707,
      "step": 3018
    },
    {
      "epoch": 0.5031666666666667,
      "grad_norm": 6811549696.0,
      "grad_norm_var": 2.8998255603126456e+18,
      "learning_rate": 4.95287680783428e-05,
      "loss": 6.4151,
      "loss/crossentropy": 1.2540090680122375,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11221039108932018,
      "step": 3019
    },
    {
      "epoch": 0.5033333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 2.899825560121071e+18,
      "learning_rate": 4.9502589368081284e-05,
      "loss": 6.1291,
      "loss/crossentropy": 0.846174418926239,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1126936124637723,
      "step": 3020
    },
    {
      "epoch": 0.5035,
      "grad_norm": 22.375,
      "grad_norm_var": 2.899825560113976e+18,
      "learning_rate": 4.947641079418773e-05,
      "loss": 5.8253,
      "loss/crossentropy": 1.413942627608776,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17996017634868622,
      "step": 3021
    },
    {
      "epoch": 0.5036666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 2.899825560113976e+18,
      "learning_rate": 4.94502323638391e-05,
      "loss": 6.2567,
      "loss/crossentropy": 2.375736504793167,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14570980705320835,
      "step": 3022
    },
    {
      "epoch": 0.5038333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 2.899825560177834e+18,
      "learning_rate": 4.9424054084212376e-05,
      "loss": 6.0291,
      "loss/crossentropy": 1.470351055264473,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14736809022724628,
      "step": 3023
    },
    {
      "epoch": 0.504,
      "grad_norm": 24.5,
      "grad_norm_var": 2.899825559922401e+18,
      "learning_rate": 4.9397875962484516e-05,
      "loss": 6.7087,
      "loss/crossentropy": 1.7392353117465973,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17643312364816666,
      "step": 3024
    },
    {
      "epoch": 0.5041666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 2.8998255600572124e+18,
      "learning_rate": 4.9371698005832365e-05,
      "loss": 5.7846,
      "loss/crossentropy": 1.187551211565733,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09671955206431448,
      "step": 3025
    },
    {
      "epoch": 0.5043333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 2.899825560028831e+18,
      "learning_rate": 4.934552022143279e-05,
      "loss": 6.4125,
      "loss/crossentropy": 2.15395250916481,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1751323975622654,
      "step": 3026
    },
    {
      "epoch": 0.5045,
      "grad_norm": 24.0,
      "grad_norm_var": 2.899825559950782e+18,
      "learning_rate": 4.9319342616462545e-05,
      "loss": 6.4436,
      "loss/crossentropy": 1.3609188050031662,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1459599081426859,
      "step": 3027
    },
    {
      "epoch": 0.5046666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 2.899825559950782e+18,
      "learning_rate": 4.9293165198098376e-05,
      "loss": 6.0191,
      "loss/crossentropy": 1.6356908082962036,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13284722343087196,
      "step": 3028
    },
    {
      "epoch": 0.5048333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 2.899825559929496e+18,
      "learning_rate": 4.926698797351697e-05,
      "loss": 6.281,
      "loss/crossentropy": 1.3425946235656738,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11919846758246422,
      "step": 3029
    },
    {
      "epoch": 0.505,
      "grad_norm": 19.25,
      "grad_norm_var": 2.8998255600572124e+18,
      "learning_rate": 4.9240810949894974e-05,
      "loss": 6.2072,
      "loss/crossentropy": 1.4046140164136887,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11285492777824402,
      "step": 3030
    },
    {
      "epoch": 0.5051666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.8998255600004495e+18,
      "learning_rate": 4.921463413440898e-05,
      "loss": 6.1272,
      "loss/crossentropy": 1.4646451622247696,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11438615992665291,
      "step": 3031
    },
    {
      "epoch": 0.5053333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 2.899825559993354e+18,
      "learning_rate": 4.918845753423548e-05,
      "loss": 6.2533,
      "loss/crossentropy": 1.7368715703487396,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12167637050151825,
      "step": 3032
    },
    {
      "epoch": 0.5055,
      "grad_norm": 22.25,
      "grad_norm_var": 2.8998255600004495e+18,
      "learning_rate": 4.916228115655094e-05,
      "loss": 6.2309,
      "loss/crossentropy": 2.0526072084903717,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1632827166467905,
      "step": 3033
    },
    {
      "epoch": 0.5056666666666667,
      "grad_norm": 29.375,
      "grad_norm_var": 2.899825559468297e+18,
      "learning_rate": 4.913610500853178e-05,
      "loss": 6.4774,
      "loss/crossentropy": 1.5864461660385132,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27494519017636776,
      "step": 3034
    },
    {
      "epoch": 0.5058333333333334,
      "grad_norm": 24.125,
      "grad_norm_var": 5.197916666666667,
      "learning_rate": 4.9109929097354316e-05,
      "loss": 5.7648,
      "loss/crossentropy": 1.588136300444603,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.12367328628897667,
      "step": 3035
    },
    {
      "epoch": 0.506,
      "grad_norm": 24.0,
      "grad_norm_var": 5.128580729166667,
      "learning_rate": 4.9083753430194865e-05,
      "loss": 6.3013,
      "loss/crossentropy": 1.6333236992359161,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2644497640430927,
      "step": 3036
    },
    {
      "epoch": 0.5061666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 5.128125,
      "learning_rate": 4.90575780142296e-05,
      "loss": 6.0762,
      "loss/crossentropy": 0.8929636627435684,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16862302273511887,
      "step": 3037
    },
    {
      "epoch": 0.5063333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 5.143489583333333,
      "learning_rate": 4.903140285663467e-05,
      "loss": 5.9662,
      "loss/crossentropy": 1.538881964981556,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09089194098487496,
      "step": 3038
    },
    {
      "epoch": 0.5065,
      "grad_norm": 22.375,
      "grad_norm_var": 5.036393229166666,
      "learning_rate": 4.900522796458613e-05,
      "loss": 5.8223,
      "loss/crossentropy": 1.574883759021759,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16468793153762817,
      "step": 3039
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 5.210416666666666,
      "learning_rate": 4.897905334525999e-05,
      "loss": 6.052,
      "loss/crossentropy": 1.4408372789621353,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09588753245770931,
      "step": 3040
    },
    {
      "epoch": 0.5068333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 5.007747395833333,
      "learning_rate": 4.895287900583216e-05,
      "loss": 6.0953,
      "loss/crossentropy": 1.4798323512077332,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14330117031931877,
      "step": 3041
    },
    {
      "epoch": 0.507,
      "grad_norm": 20.0,
      "grad_norm_var": 5.466080729166666,
      "learning_rate": 4.892670495347849e-05,
      "loss": 6.1327,
      "loss/crossentropy": 0.9403902664780617,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1467436198145151,
      "step": 3042
    },
    {
      "epoch": 0.5071666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 5.767122395833334,
      "learning_rate": 4.890053119537475e-05,
      "loss": 5.9151,
      "loss/crossentropy": 1.793730691075325,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2308503556996584,
      "step": 3043
    },
    {
      "epoch": 0.5073333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 5.5275390625,
      "learning_rate": 4.887435773869662e-05,
      "loss": 6.324,
      "loss/crossentropy": 1.3082381784915924,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12691287323832512,
      "step": 3044
    },
    {
      "epoch": 0.5075,
      "grad_norm": 21.5,
      "grad_norm_var": 5.570833333333334,
      "learning_rate": 4.88481845906197e-05,
      "loss": 5.9178,
      "loss/crossentropy": 1.710402861237526,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1532764509320259,
      "step": 3045
    },
    {
      "epoch": 0.5076666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 5.019205729166667,
      "learning_rate": 4.8822011758319505e-05,
      "loss": 6.2104,
      "loss/crossentropy": 1.2248453348875046,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12315639667212963,
      "step": 3046
    },
    {
      "epoch": 0.5078333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 5.001497395833334,
      "learning_rate": 4.879583924897146e-05,
      "loss": 5.9981,
      "loss/crossentropy": 1.519758701324463,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2151547186076641,
      "step": 3047
    },
    {
      "epoch": 0.508,
      "grad_norm": 22.5,
      "grad_norm_var": 5.0025390625,
      "learning_rate": 4.876966706975092e-05,
      "loss": 6.3115,
      "loss/crossentropy": 1.812458574771881,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12996483594179153,
      "step": 3048
    },
    {
      "epoch": 0.5081666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 5.2869140625,
      "learning_rate": 4.874349522783313e-05,
      "loss": 5.9231,
      "loss/crossentropy": 1.448470577597618,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14066828601062298,
      "step": 3049
    },
    {
      "epoch": 0.5083333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.9916666666666667,
      "learning_rate": 4.8717323730393256e-05,
      "loss": 6.0187,
      "loss/crossentropy": 1.3679401129484177,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14665849693119526,
      "step": 3050
    },
    {
      "epoch": 0.5085,
      "grad_norm": 21.25,
      "grad_norm_var": 1.7416015625,
      "learning_rate": 4.869115258460635e-05,
      "loss": 6.0851,
      "loss/crossentropy": 1.567609190940857,
      "loss/hidden": 3.56640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.255416264757514,
      "step": 3051
    },
    {
      "epoch": 0.5086666666666667,
      "grad_norm": 25.25,
      "grad_norm_var": 2.1817057291666666,
      "learning_rate": 4.866498179764739e-05,
      "loss": 6.613,
      "loss/crossentropy": 1.7286368012428284,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16316650062799454,
      "step": 3052
    },
    {
      "epoch": 0.5088333333333334,
      "grad_norm": 23.75,
      "grad_norm_var": 2.2791015625,
      "learning_rate": 4.863881137669123e-05,
      "loss": 6.1221,
      "loss/crossentropy": 1.35775226354599,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1505570076406002,
      "step": 3053
    },
    {
      "epoch": 0.509,
      "grad_norm": 21.75,
      "grad_norm_var": 2.2817057291666667,
      "learning_rate": 4.861264132891266e-05,
      "loss": 6.5208,
      "loss/crossentropy": 2.0789003372192383,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15821513906121254,
      "step": 3054
    },
    {
      "epoch": 0.5091666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 2.4135416666666667,
      "learning_rate": 4.858647166148634e-05,
      "loss": 6.3815,
      "loss/crossentropy": 1.2091595977544785,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12596435472369194,
      "step": 3055
    },
    {
      "epoch": 0.5093333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 2.36015625,
      "learning_rate": 4.8560302381586834e-05,
      "loss": 6.3534,
      "loss/crossentropy": 1.324448749423027,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15615712478756905,
      "step": 3056
    },
    {
      "epoch": 0.5095,
      "grad_norm": 23.375,
      "grad_norm_var": 2.4603515625,
      "learning_rate": 4.853413349638859e-05,
      "loss": 6.5315,
      "loss/crossentropy": 2.0002710223197937,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13814004324376583,
      "step": 3057
    },
    {
      "epoch": 0.5096666666666667,
      "grad_norm": 26.25,
      "grad_norm_var": 3.0853515625,
      "learning_rate": 4.8507965013065966e-05,
      "loss": 6.1711,
      "loss/crossentropy": 1.1076696626842022,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.15456813015043736,
      "step": 3058
    },
    {
      "epoch": 0.5098333333333334,
      "grad_norm": 24.75,
      "grad_norm_var": 2.7676432291666666,
      "learning_rate": 4.848179693879318e-05,
      "loss": 6.4252,
      "loss/crossentropy": 1.8269369453191757,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1717783324420452,
      "step": 3059
    },
    {
      "epoch": 0.51,
      "grad_norm": 22.25,
      "grad_norm_var": 2.6645182291666667,
      "learning_rate": 4.845562928074439e-05,
      "loss": 6.1524,
      "loss/crossentropy": 1.6552499830722809,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15920002199709415,
      "step": 3060
    },
    {
      "epoch": 0.5101666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 2.6207682291666665,
      "learning_rate": 4.8429462046093585e-05,
      "loss": 6.0284,
      "loss/crossentropy": 1.3783284425735474,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19731873273849487,
      "step": 3061
    },
    {
      "epoch": 0.5103333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.7525390625,
      "learning_rate": 4.840329524201467e-05,
      "loss": 6.3412,
      "loss/crossentropy": 1.4553654491901398,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12399816513061523,
      "step": 3062
    },
    {
      "epoch": 0.5105,
      "grad_norm": 23.375,
      "grad_norm_var": 2.77265625,
      "learning_rate": 4.837712887568143e-05,
      "loss": 6.2236,
      "loss/crossentropy": 1.2571325600147247,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22089704312384129,
      "step": 3063
    },
    {
      "epoch": 0.5106666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.7666015625,
      "learning_rate": 4.83509629542675e-05,
      "loss": 6.3644,
      "loss/crossentropy": 1.566015213727951,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24208323284983635,
      "step": 3064
    },
    {
      "epoch": 0.5108333333333334,
      "grad_norm": 24.0,
      "grad_norm_var": 2.4494140625,
      "learning_rate": 4.832479748494643e-05,
      "loss": 6.6281,
      "loss/crossentropy": 1.5812495350837708,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1272934265434742,
      "step": 3065
    },
    {
      "epoch": 0.511,
      "grad_norm": 23.75,
      "grad_norm_var": 2.473372395833333,
      "learning_rate": 4.8298632474891624e-05,
      "loss": 6.4165,
      "loss/crossentropy": 1.2606507539749146,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16134712006896734,
      "step": 3066
    },
    {
      "epoch": 0.5111666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 2.2327473958333335,
      "learning_rate": 4.827246793127639e-05,
      "loss": 6.0903,
      "loss/crossentropy": 1.6555659919977188,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16690698638558388,
      "step": 3067
    },
    {
      "epoch": 0.5113333333333333,
      "grad_norm": 25.625,
      "grad_norm_var": 2.343489583333333,
      "learning_rate": 4.824630386127386e-05,
      "loss": 6.5823,
      "loss/crossentropy": 1.4593498557806015,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13571353442966938,
      "step": 3068
    },
    {
      "epoch": 0.5115,
      "grad_norm": 21.25,
      "grad_norm_var": 2.562239583333333,
      "learning_rate": 4.822014027205708e-05,
      "loss": 6.0289,
      "loss/crossentropy": 1.499843344092369,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16332285292446613,
      "step": 3069
    },
    {
      "epoch": 0.5116666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 2.4551432291666666,
      "learning_rate": 4.8193977170798946e-05,
      "loss": 5.7324,
      "loss/crossentropy": 1.3769324868917465,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07376271113753319,
      "step": 3070
    },
    {
      "epoch": 0.5118333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 2.540625,
      "learning_rate": 4.816781456467218e-05,
      "loss": 6.3945,
      "loss/crossentropy": 1.7012632936239243,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21914773620665073,
      "step": 3071
    },
    {
      "epoch": 0.512,
      "grad_norm": 20.375,
      "grad_norm_var": 2.624739583333333,
      "learning_rate": 4.8141652460849467e-05,
      "loss": 5.954,
      "loss/crossentropy": 1.6031269133090973,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13408742286264896,
      "step": 3072
    },
    {
      "epoch": 0.5121666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 2.9296223958333334,
      "learning_rate": 4.811549086650327e-05,
      "loss": 5.9521,
      "loss/crossentropy": 1.8028128892183304,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15403703041374683,
      "step": 3073
    },
    {
      "epoch": 0.5123333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.2264973958333334,
      "learning_rate": 4.8089329788805944e-05,
      "loss": 6.0456,
      "loss/crossentropy": 1.4276289641857147,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11092218849807978,
      "step": 3074
    },
    {
      "epoch": 0.5125,
      "grad_norm": 21.0,
      "grad_norm_var": 1.9999348958333334,
      "learning_rate": 4.8063169234929703e-05,
      "loss": 6.0213,
      "loss/crossentropy": 1.3030887991189957,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12343446165323257,
      "step": 3075
    },
    {
      "epoch": 0.5126666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 2.128125,
      "learning_rate": 4.8037009212046586e-05,
      "loss": 6.1472,
      "loss/crossentropy": 1.3814779371023178,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11703594587743282,
      "step": 3076
    },
    {
      "epoch": 0.5128333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 2.1212890625,
      "learning_rate": 4.801084972732851e-05,
      "loss": 5.9998,
      "loss/crossentropy": 1.9714872390031815,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1942523717880249,
      "step": 3077
    },
    {
      "epoch": 0.513,
      "grad_norm": 21.5,
      "grad_norm_var": 2.075,
      "learning_rate": 4.798469078794728e-05,
      "loss": 6.0921,
      "loss/crossentropy": 1.7170027941465378,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10767168644815683,
      "step": 3078
    },
    {
      "epoch": 0.5131666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.9869140625,
      "learning_rate": 4.7958532401074504e-05,
      "loss": 5.8111,
      "loss/crossentropy": 1.5356711149215698,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13287083990871906,
      "step": 3079
    },
    {
      "epoch": 0.5133333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 2.1405598958333334,
      "learning_rate": 4.793237457388166e-05,
      "loss": 6.224,
      "loss/crossentropy": 1.5027976334095001,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09760312177240849,
      "step": 3080
    },
    {
      "epoch": 0.5135,
      "grad_norm": 26.25,
      "grad_norm_var": 3.0546223958333334,
      "learning_rate": 4.790621731354003e-05,
      "loss": 6.2151,
      "loss/crossentropy": 1.6977109014987946,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14833603613078594,
      "step": 3081
    },
    {
      "epoch": 0.5136666666666667,
      "grad_norm": 24.875,
      "grad_norm_var": 3.3739583333333334,
      "learning_rate": 4.788006062722081e-05,
      "loss": 6.1479,
      "loss/crossentropy": 1.1962973773479462,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1313379518687725,
      "step": 3082
    },
    {
      "epoch": 0.5138333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 3.333268229166667,
      "learning_rate": 4.7853904522094965e-05,
      "loss": 6.3699,
      "loss/crossentropy": 1.9869841933250427,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16975877434015274,
      "step": 3083
    },
    {
      "epoch": 0.514,
      "grad_norm": 24.625,
      "grad_norm_var": 2.936393229166667,
      "learning_rate": 4.78277490053334e-05,
      "loss": 6.5887,
      "loss/crossentropy": 1.3404558598995209,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.160192902199924,
      "step": 3084
    },
    {
      "epoch": 0.5141666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 2.903580729166667,
      "learning_rate": 4.7801594084106763e-05,
      "loss": 6.1532,
      "loss/crossentropy": 1.0545842051506042,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10279182717204094,
      "step": 3085
    },
    {
      "epoch": 0.5143333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 2.9205729166666665,
      "learning_rate": 4.777543976558557e-05,
      "loss": 5.9746,
      "loss/crossentropy": 1.7743423283100128,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1502133533358574,
      "step": 3086
    },
    {
      "epoch": 0.5145,
      "grad_norm": 22.125,
      "grad_norm_var": 2.915625,
      "learning_rate": 4.7749286056940186e-05,
      "loss": 6.1908,
      "loss/crossentropy": 2.4190080761909485,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24412038177251816,
      "step": 3087
    },
    {
      "epoch": 0.5146666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 2.7,
      "learning_rate": 4.772313296534079e-05,
      "loss": 5.9333,
      "loss/crossentropy": 1.4423392117023468,
      "loss/hidden": 3.609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2217746451497078,
      "step": 3088
    },
    {
      "epoch": 0.5148333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 2.5541015625,
      "learning_rate": 4.769698049795738e-05,
      "loss": 6.2111,
      "loss/crossentropy": 1.2938180416822433,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12407445535063744,
      "step": 3089
    },
    {
      "epoch": 0.515,
      "grad_norm": 22.5,
      "grad_norm_var": 2.473372395833333,
      "learning_rate": 4.7670828661959854e-05,
      "loss": 6.5127,
      "loss/crossentropy": 1.9129444062709808,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14510520733892918,
      "step": 3090
    },
    {
      "epoch": 0.5151666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 2.3379557291666666,
      "learning_rate": 4.7644677464517874e-05,
      "loss": 6.2531,
      "loss/crossentropy": 1.6677487790584564,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1615399345755577,
      "step": 3091
    },
    {
      "epoch": 0.5153333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 2.155989583333333,
      "learning_rate": 4.761852691280092e-05,
      "loss": 5.83,
      "loss/crossentropy": 1.6047940626740456,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14643266052007675,
      "step": 3092
    },
    {
      "epoch": 0.5155,
      "grad_norm": 19.375,
      "grad_norm_var": 2.780989583333333,
      "learning_rate": 4.7592377013978306e-05,
      "loss": 5.7533,
      "loss/crossentropy": 1.3660056740045547,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1730227917432785,
      "step": 3093
    },
    {
      "epoch": 0.5156666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 2.7436848958333333,
      "learning_rate": 4.756622777521919e-05,
      "loss": 6.2071,
      "loss/crossentropy": 1.979563683271408,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18190468102693558,
      "step": 3094
    },
    {
      "epoch": 0.5158333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 2.762434895833333,
      "learning_rate": 4.7540079203692516e-05,
      "loss": 6.1313,
      "loss/crossentropy": 1.587005853652954,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14278127439320087,
      "step": 3095
    },
    {
      "epoch": 0.516,
      "grad_norm": 22.625,
      "grad_norm_var": 2.4624348958333333,
      "learning_rate": 4.751393130656711e-05,
      "loss": 6.3794,
      "loss/crossentropy": 1.7256859168410301,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1450716983526945,
      "step": 3096
    },
    {
      "epoch": 0.5161666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4999348958333334,
      "learning_rate": 4.748778409101153e-05,
      "loss": 6.0955,
      "loss/crossentropy": 1.3970586657524109,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09695613896474242,
      "step": 3097
    },
    {
      "epoch": 0.5163333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.0434895833333333,
      "learning_rate": 4.7461637564194187e-05,
      "loss": 6.2359,
      "loss/crossentropy": 1.5536006689071655,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25572118908166885,
      "step": 3098
    },
    {
      "epoch": 0.5165,
      "grad_norm": 22.125,
      "grad_norm_var": 1.040625,
      "learning_rate": 4.74354917332833e-05,
      "loss": 6.3071,
      "loss/crossentropy": 1.5196665972471237,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1227024719119072,
      "step": 3099
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 29.125,
      "grad_norm_var": 3.7875,
      "learning_rate": 4.74093466054469e-05,
      "loss": 5.7557,
      "loss/crossentropy": 1.6587699353694916,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16091726534068584,
      "step": 3100
    },
    {
      "epoch": 0.5168333333333334,
      "grad_norm": 22.5,
      "grad_norm_var": 3.780989583333333,
      "learning_rate": 4.738320218785281e-05,
      "loss": 5.8775,
      "loss/crossentropy": 1.6812179684638977,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16190810315310955,
      "step": 3101
    },
    {
      "epoch": 0.517,
      "grad_norm": 24.0,
      "grad_norm_var": 3.8643229166666666,
      "learning_rate": 4.7357058487668695e-05,
      "loss": 6.6151,
      "loss/crossentropy": 1.4300242066383362,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24840546399354935,
      "step": 3102
    },
    {
      "epoch": 0.5171666666666667,
      "grad_norm": 25.0,
      "grad_norm_var": 4.2072265625,
      "learning_rate": 4.7330915512061976e-05,
      "loss": 6.265,
      "loss/crossentropy": 2.011973261833191,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15945101529359818,
      "step": 3103
    },
    {
      "epoch": 0.5173333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 4.192643229166666,
      "learning_rate": 4.730477326819992e-05,
      "loss": 6.0256,
      "loss/crossentropy": 1.5174095630645752,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11501086317002773,
      "step": 3104
    },
    {
      "epoch": 0.5175,
      "grad_norm": 21.875,
      "grad_norm_var": 4.192643229166666,
      "learning_rate": 4.7278631763249554e-05,
      "loss": 6.1285,
      "loss/crossentropy": 1.312745451927185,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19726070575416088,
      "step": 3105
    },
    {
      "epoch": 0.5176666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 4.192643229166666,
      "learning_rate": 4.725249100437773e-05,
      "loss": 6.1508,
      "loss/crossentropy": 0.96548031270504,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13512304611504078,
      "step": 3106
    },
    {
      "epoch": 0.5178333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 4.192643229166666,
      "learning_rate": 4.722635099875106e-05,
      "loss": 6.3934,
      "loss/crossentropy": 1.348943516612053,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10498730977997184,
      "step": 3107
    },
    {
      "epoch": 0.518,
      "grad_norm": 21.375,
      "grad_norm_var": 4.326822916666667,
      "learning_rate": 4.7200211753536e-05,
      "loss": 6.3364,
      "loss/crossentropy": 1.8221134096384048,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14096950739622116,
      "step": 3108
    },
    {
      "epoch": 0.5181666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 3.5957682291666666,
      "learning_rate": 4.7174073275898776e-05,
      "loss": 6.0562,
      "loss/crossentropy": 2.0328075289726257,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20145530626177788,
      "step": 3109
    },
    {
      "epoch": 0.5183333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 3.6145833333333335,
      "learning_rate": 4.7147935573005394e-05,
      "loss": 6.3516,
      "loss/crossentropy": 1.4373080432415009,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13026785477995872,
      "step": 3110
    },
    {
      "epoch": 0.5185,
      "grad_norm": 21.5,
      "grad_norm_var": 3.658072916666667,
      "learning_rate": 4.7121798652021644e-05,
      "loss": 6.1569,
      "loss/crossentropy": 1.475940614938736,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11814659927040339,
      "step": 3111
    },
    {
      "epoch": 0.5186666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 3.6541015625,
      "learning_rate": 4.7095662520113114e-05,
      "loss": 5.9192,
      "loss/crossentropy": 1.66110248118639,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12525223940610886,
      "step": 3112
    },
    {
      "epoch": 0.5188333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 3.7572265625,
      "learning_rate": 4.706952718444517e-05,
      "loss": 6.2482,
      "loss/crossentropy": 1.5095456689596176,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13857982493937016,
      "step": 3113
    },
    {
      "epoch": 0.519,
      "grad_norm": 24.125,
      "grad_norm_var": 3.8393229166666667,
      "learning_rate": 4.704339265218298e-05,
      "loss": 6.7708,
      "loss/crossentropy": 1.948784977197647,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20221294648945332,
      "step": 3114
    },
    {
      "epoch": 0.5191666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 4.047330729166666,
      "learning_rate": 4.701725893049147e-05,
      "loss": 6.0627,
      "loss/crossentropy": 1.5263137370347977,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17667222768068314,
      "step": 3115
    },
    {
      "epoch": 0.5193333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.3051432291666667,
      "learning_rate": 4.699112602653533e-05,
      "loss": 6.0282,
      "loss/crossentropy": 1.3318460583686829,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19142173416912556,
      "step": 3116
    },
    {
      "epoch": 0.5195,
      "grad_norm": 21.0,
      "grad_norm_var": 1.4442057291666666,
      "learning_rate": 4.696499394747906e-05,
      "loss": 6.1197,
      "loss/crossentropy": 1.4949930608272552,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14351356960833073,
      "step": 3117
    },
    {
      "epoch": 0.5196666666666667,
      "grad_norm": 5133828096.0,
      "grad_norm_var": 1.6472619181497385e+18,
      "learning_rate": 4.693886270048691e-05,
      "loss": 6.4392,
      "loss/crossentropy": 2.1030836701393127,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.131791140884161,
      "step": 3118
    },
    {
      "epoch": 0.5198333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6472619182941274e+18,
      "learning_rate": 4.691273229272291e-05,
      "loss": 6.1659,
      "loss/crossentropy": 1.7904396057128906,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.184973681345582,
      "step": 3119
    },
    {
      "epoch": 0.52,
      "grad_norm": 22.875,
      "grad_norm_var": 1.647261918326214e+18,
      "learning_rate": 4.688660273135086e-05,
      "loss": 6.28,
      "loss/crossentropy": 1.7031255066394806,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18581220880150795,
      "step": 3120
    },
    {
      "epoch": 0.5201666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.6472619183583002e+18,
      "learning_rate": 4.6860474023534335e-05,
      "loss": 5.8092,
      "loss/crossentropy": 0.9692362770438194,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15188645338639617,
      "step": 3121
    },
    {
      "epoch": 0.5203333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.6472619184385162e+18,
      "learning_rate": 4.6834346176436664e-05,
      "loss": 6.104,
      "loss/crossentropy": 1.8007870465517044,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11657958291471004,
      "step": 3122
    },
    {
      "epoch": 0.5205,
      "grad_norm": 22.125,
      "grad_norm_var": 1.647261918443864e+18,
      "learning_rate": 4.680821919722094e-05,
      "loss": 6.1894,
      "loss/crossentropy": 1.2159981578588486,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16968856006860733,
      "step": 3123
    },
    {
      "epoch": 0.5206666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6472619184706028e+18,
      "learning_rate": 4.678209309305002e-05,
      "loss": 5.9146,
      "loss/crossentropy": 1.2499673664569855,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1051662527024746,
      "step": 3124
    },
    {
      "epoch": 0.5208333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.6472619184706028e+18,
      "learning_rate": 4.675596787108653e-05,
      "loss": 5.9327,
      "loss/crossentropy": 1.6391358971595764,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16259275563061237,
      "step": 3125
    },
    {
      "epoch": 0.521,
      "grad_norm": 21.375,
      "grad_norm_var": 1.647261918486646e+18,
      "learning_rate": 4.6729843538492847e-05,
      "loss": 5.9517,
      "loss/crossentropy": 1.2748504430055618,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12942343205213547,
      "step": 3126
    },
    {
      "epoch": 0.5211666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.6472619183850388e+18,
      "learning_rate": 4.670372010243111e-05,
      "loss": 5.8491,
      "loss/crossentropy": 1.5492391288280487,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14255542680621147,
      "step": 3127
    },
    {
      "epoch": 0.5213333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6472619184706028e+18,
      "learning_rate": 4.6677597570063196e-05,
      "loss": 6.0867,
      "loss/crossentropy": 1.6699148416519165,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12546875700354576,
      "step": 3128
    },
    {
      "epoch": 0.5215,
      "grad_norm": 23.0,
      "grad_norm_var": 1.64726191840643e+18,
      "learning_rate": 4.665147594855076e-05,
      "loss": 6.2574,
      "loss/crossentropy": 1.2135155498981476,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08632079511880875,
      "step": 3129
    },
    {
      "epoch": 0.5216666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 1.6472619185401234e+18,
      "learning_rate": 4.662535524505519e-05,
      "loss": 5.7533,
      "loss/crossentropy": 1.3296007961034775,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1345080304890871,
      "step": 3130
    },
    {
      "epoch": 0.5218333333333334,
      "grad_norm": 24.25,
      "grad_norm_var": 1.647261918401082e+18,
      "learning_rate": 4.659923546673761e-05,
      "loss": 6.6084,
      "loss/crossentropy": 1.1240158826112747,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08680185116827488,
      "step": 3131
    },
    {
      "epoch": 0.522,
      "grad_norm": 19.875,
      "grad_norm_var": 1.6472619185080369e+18,
      "learning_rate": 4.657311662075889e-05,
      "loss": 6.1732,
      "loss/crossentropy": 1.0804490894079208,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09066423028707504,
      "step": 3132
    },
    {
      "epoch": 0.5221666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.6472619184919936e+18,
      "learning_rate": 4.654699871427971e-05,
      "loss": 6.0293,
      "loss/crossentropy": 1.1307586580514908,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1316884458065033,
      "step": 3133
    },
    {
      "epoch": 0.5223333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 1.8389973958333334,
      "learning_rate": 4.652088175446041e-05,
      "loss": 6.2078,
      "loss/crossentropy": 1.740480214357376,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18370207585394382,
      "step": 3134
    },
    {
      "epoch": 0.5225,
      "grad_norm": 21.375,
      "grad_norm_var": 1.8525390625,
      "learning_rate": 4.6494765748461126e-05,
      "loss": 6.1876,
      "loss/crossentropy": 1.4501195549964905,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14634645357728004,
      "step": 3135
    },
    {
      "epoch": 0.5226666666666666,
      "grad_norm": 23.625,
      "grad_norm_var": 1.9853515625,
      "learning_rate": 4.646865070344168e-05,
      "loss": 6.5531,
      "loss/crossentropy": 1.2173243761062622,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2022731751203537,
      "step": 3136
    },
    {
      "epoch": 0.5228333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 1.9375,
      "learning_rate": 4.6442536626561675e-05,
      "loss": 6.1102,
      "loss/crossentropy": 1.7965051382780075,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17430207133293152,
      "step": 3137
    },
    {
      "epoch": 0.523,
      "grad_norm": 24.0,
      "grad_norm_var": 2.0306640625,
      "learning_rate": 4.6416423524980404e-05,
      "loss": 6.6747,
      "loss/crossentropy": 2.434096574783325,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19684382900595665,
      "step": 3138
    },
    {
      "epoch": 0.5231666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 2.202018229166667,
      "learning_rate": 4.639031140585697e-05,
      "loss": 6.2756,
      "loss/crossentropy": 1.486229583621025,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15919453278183937,
      "step": 3139
    },
    {
      "epoch": 0.5233333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 2.153580729166667,
      "learning_rate": 4.636420027635014e-05,
      "loss": 6.233,
      "loss/crossentropy": 1.5570599138736725,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.136339595541358,
      "step": 3140
    },
    {
      "epoch": 0.5235,
      "grad_norm": 7918845952.0,
      "grad_norm_var": 3.919257553571152e+18,
      "learning_rate": 4.633809014361843e-05,
      "loss": 6.5267,
      "loss/crossentropy": 1.4077205657958984,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12400032952427864,
      "step": 3141
    },
    {
      "epoch": 0.5236666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 3.919257553562903e+18,
      "learning_rate": 4.631198101482007e-05,
      "loss": 6.1168,
      "loss/crossentropy": 1.3098061680793762,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13451870158314705,
      "step": 3142
    },
    {
      "epoch": 0.5238333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 3.919257553645391e+18,
      "learning_rate": 4.6285872897113025e-05,
      "loss": 6.6379,
      "loss/crossentropy": 1.7838807702064514,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26843660324811935,
      "step": 3143
    },
    {
      "epoch": 0.524,
      "grad_norm": 23.125,
      "grad_norm_var": 3.919257553488664e+18,
      "learning_rate": 4.625976579765497e-05,
      "loss": 6.1874,
      "loss/crossentropy": 1.262712225317955,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13423238694667816,
      "step": 3144
    },
    {
      "epoch": 0.5241666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 3.9192575535794007e+18,
      "learning_rate": 4.623365972360337e-05,
      "loss": 6.0354,
      "loss/crossentropy": 1.761103317141533,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1256208773702383,
      "step": 3145
    },
    {
      "epoch": 0.5243333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 3.9192575535051617e+18,
      "learning_rate": 4.620755468211531e-05,
      "loss": 6.3817,
      "loss/crossentropy": 1.5349071770906448,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16073417011648417,
      "step": 3146
    },
    {
      "epoch": 0.5245,
      "grad_norm": 21.375,
      "grad_norm_var": 3.919257553694884e+18,
      "learning_rate": 4.618145068034764e-05,
      "loss": 6.1402,
      "loss/crossentropy": 1.3649764657020569,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13187585631385446,
      "step": 3147
    },
    {
      "epoch": 0.5246666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 3.919257553645391e+18,
      "learning_rate": 4.615534772545692e-05,
      "loss": 6.2907,
      "loss/crossentropy": 1.5734769403934479,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17831824906170368,
      "step": 3148
    },
    {
      "epoch": 0.5248333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 3.9192575535794007e+18,
      "learning_rate": 4.6129245824599424e-05,
      "loss": 6.0787,
      "loss/crossentropy": 1.4389470666646957,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23686175048351288,
      "step": 3149
    },
    {
      "epoch": 0.525,
      "grad_norm": 25.375,
      "grad_norm_var": 3.9192575535051617e+18,
      "learning_rate": 4.6103144984931134e-05,
      "loss": 6.4158,
      "loss/crossentropy": 1.6098765134811401,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24090230092406273,
      "step": 3150
    },
    {
      "epoch": 0.5251666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 3.919257553373181e+18,
      "learning_rate": 4.607704521360776e-05,
      "loss": 6.6575,
      "loss/crossentropy": 1.134202018380165,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0801791176199913,
      "step": 3151
    },
    {
      "epoch": 0.5253333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 3.9192575535051617e+18,
      "learning_rate": 4.605094651778469e-05,
      "loss": 6.0681,
      "loss/crossentropy": 1.5091155767440796,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18466517701745033,
      "step": 3152
    },
    {
      "epoch": 0.5255,
      "grad_norm": 23.625,
      "grad_norm_var": 3.919257553397927e+18,
      "learning_rate": 4.602484890461702e-05,
      "loss": 6.2414,
      "loss/crossentropy": 1.875795841217041,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14249190501868725,
      "step": 3153
    },
    {
      "epoch": 0.5256666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 3.91925755351341e+18,
      "learning_rate": 4.599875238125957e-05,
      "loss": 6.3084,
      "loss/crossentropy": 1.7486281991004944,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12893708422780037,
      "step": 3154
    },
    {
      "epoch": 0.5258333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 3.9192575535464054e+18,
      "learning_rate": 4.5972656954866856e-05,
      "loss": 6.0314,
      "loss/crossentropy": 1.3766528964042664,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16913166269659996,
      "step": 3155
    },
    {
      "epoch": 0.526,
      "grad_norm": 21.125,
      "grad_norm_var": 3.9192575535381565e+18,
      "learning_rate": 4.5946562632593066e-05,
      "loss": 5.9661,
      "loss/crossentropy": 1.4113251566886902,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23458940908312798,
      "step": 3156
    },
    {
      "epoch": 0.5261666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.4681640625,
      "learning_rate": 4.592046942159213e-05,
      "loss": 6.4742,
      "loss/crossentropy": 1.5727034211158752,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12426241114735603,
      "step": 3157
    },
    {
      "epoch": 0.5263333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.43515625,
      "learning_rate": 4.589437732901763e-05,
      "loss": 5.8128,
      "loss/crossentropy": 0.73576270788908,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1461458783596754,
      "step": 3158
    },
    {
      "epoch": 0.5265,
      "grad_norm": 19.5,
      "grad_norm_var": 1.9348307291666667,
      "learning_rate": 4.586828636202288e-05,
      "loss": 5.9381,
      "loss/crossentropy": 1.3037568628787994,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20483658835291862,
      "step": 3159
    },
    {
      "epoch": 0.5266666666666666,
      "grad_norm": 23.375,
      "grad_norm_var": 1.9707682291666666,
      "learning_rate": 4.5842196527760854e-05,
      "loss": 6.5289,
      "loss/crossentropy": 1.5360272228717804,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17609481140971184,
      "step": 3160
    },
    {
      "epoch": 0.5268333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.9707682291666666,
      "learning_rate": 4.5816107833384234e-05,
      "loss": 6.1076,
      "loss/crossentropy": 2.0248011648654938,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1561877839267254,
      "step": 3161
    },
    {
      "epoch": 0.527,
      "grad_norm": 20.625,
      "grad_norm_var": 2.122330729166667,
      "learning_rate": 4.579002028604537e-05,
      "loss": 6.1652,
      "loss/crossentropy": 1.5762879848480225,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10465273261070251,
      "step": 3162
    },
    {
      "epoch": 0.5271666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 2.0863932291666667,
      "learning_rate": 4.576393389289633e-05,
      "loss": 6.4189,
      "loss/crossentropy": 1.8994042873382568,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12160439044237137,
      "step": 3163
    },
    {
      "epoch": 0.5273333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.9327473958333334,
      "learning_rate": 4.573784866108884e-05,
      "loss": 6.1586,
      "loss/crossentropy": 1.6750487983226776,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13346789963543415,
      "step": 3164
    },
    {
      "epoch": 0.5275,
      "grad_norm": 20.75,
      "grad_norm_var": 2.062239583333333,
      "learning_rate": 4.571176459777431e-05,
      "loss": 6.2088,
      "loss/crossentropy": 1.542295590043068,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.14862535893917084,
      "step": 3165
    },
    {
      "epoch": 0.5276666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3205729166666667,
      "learning_rate": 4.568568171010384e-05,
      "loss": 5.9306,
      "loss/crossentropy": 1.4195883572101593,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1738190222531557,
      "step": 3166
    },
    {
      "epoch": 0.5278333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 1.2375,
      "learning_rate": 4.565960000522819e-05,
      "loss": 6.2412,
      "loss/crossentropy": 1.3509573340415955,
      "loss/hidden": 3.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22412649914622307,
      "step": 3167
    },
    {
      "epoch": 0.528,
      "grad_norm": 20.875,
      "grad_norm_var": 1.27890625,
      "learning_rate": 4.563351949029781e-05,
      "loss": 6.0987,
      "loss/crossentropy": 1.5669336915016174,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1053928229957819,
      "step": 3168
    },
    {
      "epoch": 0.5281666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.0072916666666667,
      "learning_rate": 4.560744017246284e-05,
      "loss": 5.9074,
      "loss/crossentropy": 1.0152037590742111,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15345930960029364,
      "step": 3169
    },
    {
      "epoch": 0.5283333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 0.9962890625,
      "learning_rate": 4.558136205887306e-05,
      "loss": 6.0451,
      "loss/crossentropy": 0.9548760205507278,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.20950436498969793,
      "step": 3170
    },
    {
      "epoch": 0.5285,
      "grad_norm": 20.75,
      "grad_norm_var": 0.77890625,
      "learning_rate": 4.555528515667793e-05,
      "loss": 6.0234,
      "loss/crossentropy": 1.0377601385116577,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09126589447259903,
      "step": 3171
    },
    {
      "epoch": 0.5286666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 0.87265625,
      "learning_rate": 4.552920947302658e-05,
      "loss": 6.0677,
      "loss/crossentropy": 1.535448282957077,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16324080899357796,
      "step": 3172
    },
    {
      "epoch": 0.5288333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 0.8916015625,
      "learning_rate": 4.550313501506781e-05,
      "loss": 5.8819,
      "loss/crossentropy": 0.9928531795740128,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10889897681772709,
      "step": 3173
    },
    {
      "epoch": 0.529,
      "grad_norm": 20.75,
      "grad_norm_var": 0.90390625,
      "learning_rate": 4.547706178995007e-05,
      "loss": 5.9875,
      "loss/crossentropy": 1.1980565562844276,
      "loss/hidden": 2.83984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09107339009642601,
      "step": 3174
    },
    {
      "epoch": 0.5291666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 0.6947916666666667,
      "learning_rate": 4.5450989804821506e-05,
      "loss": 6.4272,
      "loss/crossentropy": 1.8340232372283936,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16245585307478905,
      "step": 3175
    },
    {
      "epoch": 0.5293333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 0.4666666666666667,
      "learning_rate": 4.542491906682989e-05,
      "loss": 5.8744,
      "loss/crossentropy": 1.329041212797165,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09934870712459087,
      "step": 3176
    },
    {
      "epoch": 0.5295,
      "grad_norm": 23.0,
      "grad_norm_var": 0.6192057291666667,
      "learning_rate": 4.539884958312265e-05,
      "loss": 6.1388,
      "loss/crossentropy": 1.339734047651291,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12155728414654732,
      "step": 3177
    },
    {
      "epoch": 0.5296666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 0.57265625,
      "learning_rate": 4.537278136084689e-05,
      "loss": 5.9678,
      "loss/crossentropy": 1.2730609774589539,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14707274176180363,
      "step": 3178
    },
    {
      "epoch": 0.5298333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 0.5650390625,
      "learning_rate": 4.534671440714938e-05,
      "loss": 6.3085,
      "loss/crossentropy": 1.4491587728261948,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.25979546271264553,
      "step": 3179
    },
    {
      "epoch": 0.53,
      "grad_norm": 25.125,
      "grad_norm_var": 1.3436848958333334,
      "learning_rate": 4.532064872917647e-05,
      "loss": 6.2184,
      "loss/crossentropy": 1.2242294251918793,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09008276835083961,
      "step": 3180
    },
    {
      "epoch": 0.5301666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 1.7372395833333334,
      "learning_rate": 4.529458433407429e-05,
      "loss": 6.3771,
      "loss/crossentropy": 1.7277472615242004,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2262081727385521,
      "step": 3181
    },
    {
      "epoch": 0.5303333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.7270182291666667,
      "learning_rate": 4.526852122898848e-05,
      "loss": 6.1719,
      "loss/crossentropy": 1.9200122952461243,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2030908614397049,
      "step": 3182
    },
    {
      "epoch": 0.5305,
      "grad_norm": 21.5,
      "grad_norm_var": 1.6080729166666667,
      "learning_rate": 4.524245942106442e-05,
      "loss": 5.9186,
      "loss/crossentropy": 1.6913258582353592,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17126717045903206,
      "step": 3183
    },
    {
      "epoch": 0.5306666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 1.5059895833333334,
      "learning_rate": 4.52163989174471e-05,
      "loss": 6.1714,
      "loss/crossentropy": 1.748087152838707,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12905246950685978,
      "step": 3184
    },
    {
      "epoch": 0.5308333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5,
      "learning_rate": 4.5190339725281136e-05,
      "loss": 6.3039,
      "loss/crossentropy": 1.621807485818863,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16044670529663563,
      "step": 3185
    },
    {
      "epoch": 0.531,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4999348958333334,
      "learning_rate": 4.516428185171079e-05,
      "loss": 6.1932,
      "loss/crossentropy": 1.6448087394237518,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17318997159600258,
      "step": 3186
    },
    {
      "epoch": 0.5311666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3514973958333334,
      "learning_rate": 4.513822530388003e-05,
      "loss": 6.3865,
      "loss/crossentropy": 1.5351999998092651,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12539183907210827,
      "step": 3187
    },
    {
      "epoch": 0.5313333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.346875,
      "learning_rate": 4.511217008893237e-05,
      "loss": 6.009,
      "loss/crossentropy": 1.5832520872354507,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1429385170340538,
      "step": 3188
    },
    {
      "epoch": 0.5315,
      "grad_norm": 23.625,
      "grad_norm_var": 1.30390625,
      "learning_rate": 4.508611621401102e-05,
      "loss": 6.0357,
      "loss/crossentropy": 2.0624877214431763,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2021532617509365,
      "step": 3189
    },
    {
      "epoch": 0.5316666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 1.3332682291666667,
      "learning_rate": 4.5060063686258767e-05,
      "loss": 5.5803,
      "loss/crossentropy": 1.0592404082417488,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08091227523982525,
      "step": 3190
    },
    {
      "epoch": 0.5318333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.5129557291666667,
      "learning_rate": 4.503401251281806e-05,
      "loss": 6.0182,
      "loss/crossentropy": 1.1227795630693436,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12790786009281874,
      "step": 3191
    },
    {
      "epoch": 0.532,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4979166666666666,
      "learning_rate": 4.500796270083098e-05,
      "loss": 6.0894,
      "loss/crossentropy": 1.4030108600854874,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14246255345642567,
      "step": 3192
    },
    {
      "epoch": 0.5321666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 1.5379557291666666,
      "learning_rate": 4.498191425743925e-05,
      "loss": 6.2203,
      "loss/crossentropy": 1.7439616918563843,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16282586008310318,
      "step": 3193
    },
    {
      "epoch": 0.5323333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1.5692057291666666,
      "learning_rate": 4.49558671897842e-05,
      "loss": 6.0921,
      "loss/crossentropy": 1.8929668962955475,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1461803950369358,
      "step": 3194
    },
    {
      "epoch": 0.5325,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6018229166666667,
      "learning_rate": 4.4929821505006764e-05,
      "loss": 5.5878,
      "loss/crossentropy": 1.2281783893704414,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14009048556908965,
      "step": 3195
    },
    {
      "epoch": 0.5326666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 1.1317057291666666,
      "learning_rate": 4.490377721024751e-05,
      "loss": 6.3695,
      "loss/crossentropy": 1.901542842388153,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22455207258462906,
      "step": 3196
    },
    {
      "epoch": 0.5328333333333334,
      "grad_norm": 23.5,
      "grad_norm_var": 0.8510416666666667,
      "learning_rate": 4.487773431264664e-05,
      "loss": 6.3901,
      "loss/crossentropy": 1.4316473603248596,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15798588655889034,
      "step": 3197
    },
    {
      "epoch": 0.533,
      "grad_norm": 21.875,
      "grad_norm_var": 0.8270182291666667,
      "learning_rate": 4.4851692819343936e-05,
      "loss": 5.8792,
      "loss/crossentropy": 1.1143494844436646,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1655090693384409,
      "step": 3198
    },
    {
      "epoch": 0.5331666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 1.0197916666666667,
      "learning_rate": 4.482565273747888e-05,
      "loss": 6.3547,
      "loss/crossentropy": 1.634658396244049,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17003718204796314,
      "step": 3199
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.1223307291666667,
      "learning_rate": 4.479961407419046e-05,
      "loss": 6.6099,
      "loss/crossentropy": 1.3388472273945808,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14940290106460452,
      "step": 3200
    },
    {
      "epoch": 0.5335,
      "grad_norm": 19.625,
      "grad_norm_var": 1.6249348958333334,
      "learning_rate": 4.477357683661734e-05,
      "loss": 5.8995,
      "loss/crossentropy": 1.5408039391040802,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12421446293592453,
      "step": 3201
    },
    {
      "epoch": 0.5336666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.8583333333333334,
      "learning_rate": 4.474754103189777e-05,
      "loss": 6.082,
      "loss/crossentropy": 1.5139283686876297,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13532201200723648,
      "step": 3202
    },
    {
      "epoch": 0.5338333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 1.9291666666666667,
      "learning_rate": 4.472150666716961e-05,
      "loss": 6.3374,
      "loss/crossentropy": 1.7225525975227356,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1371770929545164,
      "step": 3203
    },
    {
      "epoch": 0.534,
      "grad_norm": 23.0,
      "grad_norm_var": 1.9614583333333333,
      "learning_rate": 4.4695473749570326e-05,
      "loss": 6.2978,
      "loss/crossentropy": 1.3829242289066315,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1339344959706068,
      "step": 3204
    },
    {
      "epoch": 0.5341666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 2.066666666666667,
      "learning_rate": 4.466944228623701e-05,
      "loss": 6.4718,
      "loss/crossentropy": 1.7243313491344452,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18398096784949303,
      "step": 3205
    },
    {
      "epoch": 0.5343333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 1.9541666666666666,
      "learning_rate": 4.4643412284306324e-05,
      "loss": 6.3928,
      "loss/crossentropy": 1.547196440398693,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16136315930634737,
      "step": 3206
    },
    {
      "epoch": 0.5345,
      "grad_norm": 20.125,
      "grad_norm_var": 2.1244140625,
      "learning_rate": 4.461738375091454e-05,
      "loss": 6.2196,
      "loss/crossentropy": 1.8108749240636826,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12843016907572746,
      "step": 3207
    },
    {
      "epoch": 0.5346666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 2.33515625,
      "learning_rate": 4.459135669319753e-05,
      "loss": 6.0123,
      "loss/crossentropy": 1.6414712965488434,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.16906982380896807,
      "step": 3208
    },
    {
      "epoch": 0.5348333333333334,
      "grad_norm": 5469372416.0,
      "grad_norm_var": 1.8696271488161764e+18,
      "learning_rate": 4.4565331118290756e-05,
      "loss": 6.2755,
      "loss/crossentropy": 1.084118951112032,
      "loss/hidden": 5.5546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1016375282779336,
      "step": 3209
    },
    {
      "epoch": 0.535,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8696271488845437e+18,
      "learning_rate": 4.453930703332927e-05,
      "loss": 6.3374,
      "loss/crossentropy": 1.409917175769806,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15388393960893154,
      "step": 3210
    },
    {
      "epoch": 0.5351666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.8696271488560573e+18,
      "learning_rate": 4.451328444544774e-05,
      "loss": 6.2178,
      "loss/crossentropy": 1.1785537898540497,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15670116990804672,
      "step": 3211
    },
    {
      "epoch": 0.5353333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.8696271488560573e+18,
      "learning_rate": 4.44872633617804e-05,
      "loss": 6.1786,
      "loss/crossentropy": 2.0114355981349945,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14674070291221142,
      "step": 3212
    },
    {
      "epoch": 0.5355,
      "grad_norm": 17.875,
      "grad_norm_var": 1.8696271491124342e+18,
      "learning_rate": 4.446124378946107e-05,
      "loss": 5.7417,
      "loss/crossentropy": 1.4482758045196533,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14206231012940407,
      "step": 3213
    },
    {
      "epoch": 0.5356666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 1.8696271490953423e+18,
      "learning_rate": 4.443522573562318e-05,
      "loss": 6.2605,
      "loss/crossentropy": 1.3275029957294464,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1624777689576149,
      "step": 3214
    },
    {
      "epoch": 0.5358333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8696271492035904e+18,
      "learning_rate": 4.44092092073997e-05,
      "loss": 5.9818,
      "loss/crossentropy": 1.4204663634300232,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16999729722738266,
      "step": 3215
    },
    {
      "epoch": 0.536,
      "grad_norm": 22.875,
      "grad_norm_var": 1.869627149243471e+18,
      "learning_rate": 4.438319421192322e-05,
      "loss": 6.3322,
      "loss/crossentropy": 1.6328985393047333,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15678132325410843,
      "step": 3216
    },
    {
      "epoch": 0.5361666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 1.8696271490497644e+18,
      "learning_rate": 4.435718075632592e-05,
      "loss": 6.6107,
      "loss/crossentropy": 1.5084157586097717,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11298947781324387,
      "step": 3217
    },
    {
      "epoch": 0.5363333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 1.8696271488788465e+18,
      "learning_rate": 4.4331168847739514e-05,
      "loss": 6.7995,
      "loss/crossentropy": 1.2114793062210083,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2053757756948471,
      "step": 3218
    },
    {
      "epoch": 0.5365,
      "grad_norm": 23.25,
      "grad_norm_var": 1.8696271488788465e+18,
      "learning_rate": 4.4305158493295315e-05,
      "loss": 6.2828,
      "loss/crossentropy": 1.7941459119319916,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20185915008187294,
      "step": 3219
    },
    {
      "epoch": 0.5366666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.8696271489643054e+18,
      "learning_rate": 4.427914970012422e-05,
      "loss": 6.1044,
      "loss/crossentropy": 1.018569454550743,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15574218798428774,
      "step": 3220
    },
    {
      "epoch": 0.5368333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.8696271490782505e+18,
      "learning_rate": 4.425314247535668e-05,
      "loss": 6.1827,
      "loss/crossentropy": 1.4062730222940445,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10963408648967743,
      "step": 3221
    },
    {
      "epoch": 0.537,
      "grad_norm": 22.375,
      "grad_norm_var": 1.8696271491352233e+18,
      "learning_rate": 4.422713682612271e-05,
      "loss": 6.3464,
      "loss/crossentropy": 1.6150645464658737,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1691940650343895,
      "step": 3222
    },
    {
      "epoch": 0.5371666666666667,
      "grad_norm": 17.75,
      "grad_norm_var": 1.869627149243471e+18,
      "learning_rate": 4.4201132759551934e-05,
      "loss": 5.6077,
      "loss/crossentropy": 1.2790318131446838,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09151759464293718,
      "step": 3223
    },
    {
      "epoch": 0.5373333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.8696271491694067e+18,
      "learning_rate": 4.41751302827735e-05,
      "loss": 6.2558,
      "loss/crossentropy": 0.9277618527412415,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1075187474489212,
      "step": 3224
    },
    {
      "epoch": 0.5375,
      "grad_norm": 23.625,
      "grad_norm_var": 3.2997395833333334,
      "learning_rate": 4.414912940291613e-05,
      "loss": 6.2037,
      "loss/crossentropy": 1.0800464451313019,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11928078532218933,
      "step": 3225
    },
    {
      "epoch": 0.5376666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 3.331184895833333,
      "learning_rate": 4.412313012710813e-05,
      "loss": 5.9992,
      "loss/crossentropy": 1.471546396613121,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15301485732197762,
      "step": 3226
    },
    {
      "epoch": 0.5378333333333334,
      "grad_norm": 31.75,
      "grad_norm_var": 9.357747395833334,
      "learning_rate": 4.409713246247732e-05,
      "loss": 5.8607,
      "loss/crossentropy": 1.757824257016182,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12877878826111555,
      "step": 3227
    },
    {
      "epoch": 0.538,
      "grad_norm": 21.375,
      "grad_norm_var": 9.376041666666667,
      "learning_rate": 4.407113641615112e-05,
      "loss": 6.0929,
      "loss/crossentropy": 1.6781709790229797,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14284399338066578,
      "step": 3228
    },
    {
      "epoch": 0.5381666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 7.901041666666667,
      "learning_rate": 4.404514199525651e-05,
      "loss": 6.4705,
      "loss/crossentropy": 1.897396594285965,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18463729973882437,
      "step": 3229
    },
    {
      "epoch": 0.5383333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 8.284830729166666,
      "learning_rate": 4.401914920692e-05,
      "loss": 5.726,
      "loss/crossentropy": 1.2829697281122208,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11977807059884071,
      "step": 3230
    },
    {
      "epoch": 0.5385,
      "grad_norm": 24.375,
      "grad_norm_var": 8.351822916666666,
      "learning_rate": 4.399315805826765e-05,
      "loss": 6.5212,
      "loss/crossentropy": 1.3941168636083603,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13458609580993652,
      "step": 3231
    },
    {
      "epoch": 0.5386666666666666,
      "grad_norm": 24.25,
      "grad_norm_var": 8.4556640625,
      "learning_rate": 4.3967168556425085e-05,
      "loss": 6.3529,
      "loss/crossentropy": 1.5904538333415985,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16156528145074844,
      "step": 3232
    },
    {
      "epoch": 0.5388333333333334,
      "grad_norm": 24.75,
      "grad_norm_var": 8.601041666666667,
      "learning_rate": 4.394118070851749e-05,
      "loss": 6.4648,
      "loss/crossentropy": 1.5113066732883453,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11986699886620045,
      "step": 3233
    },
    {
      "epoch": 0.539,
      "grad_norm": 22.25,
      "grad_norm_var": 8.562955729166667,
      "learning_rate": 4.3915194521669526e-05,
      "loss": 6.2514,
      "loss/crossentropy": 1.4956907331943512,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14535608422011137,
      "step": 3234
    },
    {
      "epoch": 0.5391666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 8.758268229166667,
      "learning_rate": 4.3889210003005524e-05,
      "loss": 6.5352,
      "loss/crossentropy": 1.1037000715732574,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13523976132273674,
      "step": 3235
    },
    {
      "epoch": 0.5393333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 8.598893229166666,
      "learning_rate": 4.3863227159649255e-05,
      "loss": 6.3142,
      "loss/crossentropy": 1.930241733789444,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16007682774215937,
      "step": 3236
    },
    {
      "epoch": 0.5395,
      "grad_norm": 19.0,
      "grad_norm_var": 9.551822916666667,
      "learning_rate": 4.383724599872407e-05,
      "loss": 5.5132,
      "loss/crossentropy": 0.9401346445083618,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1159468274563551,
      "step": 3237
    },
    {
      "epoch": 0.5396666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 9.955989583333333,
      "learning_rate": 4.381126652735285e-05,
      "loss": 5.8137,
      "loss/crossentropy": 0.9769674390554428,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08542526420205832,
      "step": 3238
    },
    {
      "epoch": 0.5398333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 8.700455729166666,
      "learning_rate": 4.3785288752658e-05,
      "loss": 5.5697,
      "loss/crossentropy": 1.5851225554943085,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10673291049897671,
      "step": 3239
    },
    {
      "epoch": 0.54,
      "grad_norm": 20.625,
      "grad_norm_var": 9.022916666666667,
      "learning_rate": 4.375931268176147e-05,
      "loss": 5.9002,
      "loss/crossentropy": 1.9713478982448578,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16583264619112015,
      "step": 3240
    },
    {
      "epoch": 0.5401666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 9.072916666666666,
      "learning_rate": 4.373333832178478e-05,
      "loss": 6.3667,
      "loss/crossentropy": 1.4703943729400635,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14293703436851501,
      "step": 3241
    },
    {
      "epoch": 0.5403333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 9.170768229166667,
      "learning_rate": 4.370736567984894e-05,
      "loss": 5.9537,
      "loss/crossentropy": 1.3644278943538666,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1467050239443779,
      "step": 3242
    },
    {
      "epoch": 0.5405,
      "grad_norm": 21.0,
      "grad_norm_var": 3.3926432291666666,
      "learning_rate": 4.368139476307449e-05,
      "loss": 6.208,
      "loss/crossentropy": 1.8159279823303223,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16011296026408672,
      "step": 3243
    },
    {
      "epoch": 0.5406666666666666,
      "grad_norm": 23.0,
      "grad_norm_var": 3.4205729166666665,
      "learning_rate": 4.365542557858149e-05,
      "loss": 5.8092,
      "loss/crossentropy": 1.3836685866117477,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12831321731209755,
      "step": 3244
    },
    {
      "epoch": 0.5408333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 3.213997395833333,
      "learning_rate": 4.362945813348955e-05,
      "loss": 5.8255,
      "loss/crossentropy": 1.753379911184311,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17394482344388962,
      "step": 3245
    },
    {
      "epoch": 0.541,
      "grad_norm": 20.75,
      "grad_norm_var": 3.1434895833333334,
      "learning_rate": 4.360349243491778e-05,
      "loss": 6.171,
      "loss/crossentropy": 0.9862283617258072,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08145875111222267,
      "step": 3246
    },
    {
      "epoch": 0.5411666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 2.755989583333333,
      "learning_rate": 4.3577528489984854e-05,
      "loss": 6.399,
      "loss/crossentropy": 1.9469049572944641,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16643917188048363,
      "step": 3247
    },
    {
      "epoch": 0.5413333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 2.4809895833333333,
      "learning_rate": 4.3551566305808925e-05,
      "loss": 5.2986,
      "loss/crossentropy": 1.6997735425829887,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14464557636529207,
      "step": 3248
    },
    {
      "epoch": 0.5415,
      "grad_norm": 22.0,
      "grad_norm_var": 1.8020833333333333,
      "learning_rate": 4.352560588950766e-05,
      "loss": 6.4034,
      "loss/crossentropy": 1.4838027209043503,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1332066636532545,
      "step": 3249
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.7593098958333333,
      "learning_rate": 4.349964724819826e-05,
      "loss": 6.3127,
      "loss/crossentropy": 2.284173756837845,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16202855668962002,
      "step": 3250
    },
    {
      "epoch": 0.5418333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.9468098958333333,
      "learning_rate": 4.347369038899744e-05,
      "loss": 6.016,
      "loss/crossentropy": 0.9960606619715691,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07256668945774436,
      "step": 3251
    },
    {
      "epoch": 0.542,
      "grad_norm": 21.125,
      "grad_norm_var": 0.9077473958333333,
      "learning_rate": 4.34477353190214e-05,
      "loss": 5.8817,
      "loss/crossentropy": 1.6203448474407196,
      "loss/hidden": 2.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1274567600339651,
      "step": 3252
    },
    {
      "epoch": 0.5421666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 0.7122395833333334,
      "learning_rate": 4.342178204538588e-05,
      "loss": 6.0746,
      "loss/crossentropy": 1.6406166851520538,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12973421812057495,
      "step": 3253
    },
    {
      "epoch": 0.5423333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 0.8494140625,
      "learning_rate": 4.339583057520613e-05,
      "loss": 5.6982,
      "loss/crossentropy": 1.27229905128479,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13367825746536255,
      "step": 3254
    },
    {
      "epoch": 0.5425,
      "grad_norm": 21.875,
      "grad_norm_var": 0.8166015625,
      "learning_rate": 4.336988091559688e-05,
      "loss": 6.2129,
      "loss/crossentropy": 0.9741831421852112,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12781144306063652,
      "step": 3255
    },
    {
      "epoch": 0.5426666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 0.8302083333333333,
      "learning_rate": 4.334393307367239e-05,
      "loss": 6.2527,
      "loss/crossentropy": 1.227522149682045,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1035618856549263,
      "step": 3256
    },
    {
      "epoch": 0.5428333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 0.9608723958333333,
      "learning_rate": 4.3317987056546394e-05,
      "loss": 6.084,
      "loss/crossentropy": 1.581444963812828,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11447811685502529,
      "step": 3257
    },
    {
      "epoch": 0.543,
      "grad_norm": 21.5,
      "grad_norm_var": 0.9608723958333333,
      "learning_rate": 4.329204287133215e-05,
      "loss": 6.1334,
      "loss/crossentropy": 1.7789795994758606,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17218607664108276,
      "step": 3258
    },
    {
      "epoch": 0.5431666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 0.9608723958333333,
      "learning_rate": 4.326610052514237e-05,
      "loss": 5.9486,
      "loss/crossentropy": 1.5788310021162033,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13365301862359047,
      "step": 3259
    },
    {
      "epoch": 0.5433333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.7837890625,
      "learning_rate": 4.324016002508935e-05,
      "loss": 6.0595,
      "loss/crossentropy": 1.6847901344299316,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1604353804141283,
      "step": 3260
    },
    {
      "epoch": 0.5435,
      "grad_norm": 24.25,
      "grad_norm_var": 1.3395182291666667,
      "learning_rate": 4.321422137828479e-05,
      "loss": 6.173,
      "loss/crossentropy": 1.1949451118707657,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11632722057402134,
      "step": 3261
    },
    {
      "epoch": 0.5436666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4041015625,
      "learning_rate": 4.318828459183992e-05,
      "loss": 6.0042,
      "loss/crossentropy": 1.3009801805019379,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15933200903236866,
      "step": 3262
    },
    {
      "epoch": 0.5438333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 1.3587890625,
      "learning_rate": 4.316234967286547e-05,
      "loss": 6.0009,
      "loss/crossentropy": 1.2948142737150192,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14086618274450302,
      "step": 3263
    },
    {
      "epoch": 0.544,
      "grad_norm": 20.75,
      "grad_norm_var": 1.2895182291666667,
      "learning_rate": 4.313641662847164e-05,
      "loss": 6.1207,
      "loss/crossentropy": 1.2802093774080276,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11022946424782276,
      "step": 3264
    },
    {
      "epoch": 0.5441666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 1.4613932291666667,
      "learning_rate": 4.31104854657681e-05,
      "loss": 6.4677,
      "loss/crossentropy": 2.2034890949726105,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17096573486924171,
      "step": 3265
    },
    {
      "epoch": 0.5443333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.45,
      "learning_rate": 4.308455619186406e-05,
      "loss": 5.9652,
      "loss/crossentropy": 0.9667836651206017,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.07945995684713125,
      "step": 3266
    },
    {
      "epoch": 0.5445,
      "grad_norm": 21.25,
      "grad_norm_var": 1.4309895833333333,
      "learning_rate": 4.3058628813868156e-05,
      "loss": 6.179,
      "loss/crossentropy": 2.03703835606575,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15922210924327374,
      "step": 3267
    },
    {
      "epoch": 0.5446666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4309895833333333,
      "learning_rate": 4.303270333888854e-05,
      "loss": 5.8781,
      "loss/crossentropy": 1.529173582792282,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18379170820116997,
      "step": 3268
    },
    {
      "epoch": 0.5448333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.2468098958333333,
      "learning_rate": 4.300677977403281e-05,
      "loss": 6.3854,
      "loss/crossentropy": 1.2800695449113846,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2072977777570486,
      "step": 3269
    },
    {
      "epoch": 0.545,
      "grad_norm": 23.0,
      "grad_norm_var": 0.9004557291666667,
      "learning_rate": 4.2980858126408065e-05,
      "loss": 6.4662,
      "loss/crossentropy": 1.4301921725273132,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1167040467262268,
      "step": 3270
    },
    {
      "epoch": 0.5451666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.06015625,
      "learning_rate": 4.295493840312087e-05,
      "loss": 5.932,
      "loss/crossentropy": 0.9960509240627289,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08676941599696875,
      "step": 3271
    },
    {
      "epoch": 0.5453333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 1.1416015625,
      "learning_rate": 4.2929020611277274e-05,
      "loss": 6.0377,
      "loss/crossentropy": 1.2295889034867287,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14541359525173903,
      "step": 3272
    },
    {
      "epoch": 0.5455,
      "grad_norm": 21.625,
      "grad_norm_var": 1.1,
      "learning_rate": 4.2903104757982785e-05,
      "loss": 5.992,
      "loss/crossentropy": 1.3872592449188232,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12429173663258553,
      "step": 3273
    },
    {
      "epoch": 0.5456666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 1.3462890625,
      "learning_rate": 4.2877190850342375e-05,
      "loss": 5.9412,
      "loss/crossentropy": 1.6284202933311462,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12022297829389572,
      "step": 3274
    },
    {
      "epoch": 0.5458333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.39140625,
      "learning_rate": 4.285127889546049e-05,
      "loss": 5.885,
      "loss/crossentropy": 2.0296401977539062,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.142583929002285,
      "step": 3275
    },
    {
      "epoch": 0.546,
      "grad_norm": 20.875,
      "grad_norm_var": 1.4061848958333334,
      "learning_rate": 4.282536890044104e-05,
      "loss": 6.3179,
      "loss/crossentropy": 1.3692672848701477,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14569870196282864,
      "step": 3276
    },
    {
      "epoch": 0.5461666666666667,
      "grad_norm": 18.875,
      "grad_norm_var": 1.4705729166666666,
      "learning_rate": 4.2799460872387394e-05,
      "loss": 5.629,
      "loss/crossentropy": 0.934240996837616,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09787558950483799,
      "step": 3277
    },
    {
      "epoch": 0.5463333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 1.4791666666666667,
      "learning_rate": 4.277355481840239e-05,
      "loss": 5.781,
      "loss/crossentropy": 1.562960833311081,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09938646946102381,
      "step": 3278
    },
    {
      "epoch": 0.5465,
      "grad_norm": 18.75,
      "grad_norm_var": 1.8759765625,
      "learning_rate": 4.274765074558832e-05,
      "loss": 5.8511,
      "loss/crossentropy": 1.3947594612836838,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10874241776764393,
      "step": 3279
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.8791666666666667,
      "learning_rate": 4.2721748661046934e-05,
      "loss": 6.0648,
      "loss/crossentropy": 1.1904475390911102,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09296133555471897,
      "step": 3280
    },
    {
      "epoch": 0.5468333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.7317057291666667,
      "learning_rate": 4.269584857187943e-05,
      "loss": 6.4536,
      "loss/crossentropy": 1.4461036324501038,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2250572256743908,
      "step": 3281
    },
    {
      "epoch": 0.547,
      "grad_norm": 18.375,
      "grad_norm_var": 2.14140625,
      "learning_rate": 4.266995048518647e-05,
      "loss": 5.6715,
      "loss/crossentropy": 1.4720761626958847,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12037462834268808,
      "step": 3282
    },
    {
      "epoch": 0.5471666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 2.55625,
      "learning_rate": 4.264405440806813e-05,
      "loss": 6.4162,
      "loss/crossentropy": 0.8061841577291489,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.056576094357296824,
      "step": 3283
    },
    {
      "epoch": 0.5473333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.5858723958333334,
      "learning_rate": 4.261816034762402e-05,
      "loss": 6.1605,
      "loss/crossentropy": 1.5781979113817215,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14733559638261795,
      "step": 3284
    },
    {
      "epoch": 0.5475,
      "grad_norm": 22.75,
      "grad_norm_var": 2.5858723958333334,
      "learning_rate": 4.25922683109531e-05,
      "loss": 6.383,
      "loss/crossentropy": 1.6184117943048477,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1760784648358822,
      "step": 3285
    },
    {
      "epoch": 0.5476666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 2.332747395833333,
      "learning_rate": 4.256637830515385e-05,
      "loss": 6.124,
      "loss/crossentropy": 1.5009739398956299,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11600482277572155,
      "step": 3286
    },
    {
      "epoch": 0.5478333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 2.3427083333333334,
      "learning_rate": 4.254049033732416e-05,
      "loss": 5.9346,
      "loss/crossentropy": 1.3558234795928001,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13743438944220543,
      "step": 3287
    },
    {
      "epoch": 0.548,
      "grad_norm": 20.125,
      "grad_norm_var": 2.3934895833333334,
      "learning_rate": 4.2514604414561335e-05,
      "loss": 6.034,
      "loss/crossentropy": 1.5811921209096909,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13172115664929152,
      "step": 3288
    },
    {
      "epoch": 0.5481666666666667,
      "grad_norm": 25.625,
      "grad_norm_var": 3.73515625,
      "learning_rate": 4.2488720543962146e-05,
      "loss": 6.3498,
      "loss/crossentropy": 1.2883906066417694,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1623033918440342,
      "step": 3289
    },
    {
      "epoch": 0.5483333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 3.6759765625,
      "learning_rate": 4.246283873262284e-05,
      "loss": 5.8706,
      "loss/crossentropy": 1.4734065681695938,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11864317208528519,
      "step": 3290
    },
    {
      "epoch": 0.5485,
      "grad_norm": 24.875,
      "grad_norm_var": 4.4025390625,
      "learning_rate": 4.243695898763904e-05,
      "loss": 6.488,
      "loss/crossentropy": 1.7404758036136627,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16177764534950256,
      "step": 3291
    },
    {
      "epoch": 0.5486666666666666,
      "grad_norm": 23.875,
      "grad_norm_var": 4.7556640625,
      "learning_rate": 4.2411081316105824e-05,
      "loss": 6.5129,
      "loss/crossentropy": 1.6785336434841156,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17893465980887413,
      "step": 3292
    },
    {
      "epoch": 0.5488333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 4.2587890625,
      "learning_rate": 4.238520572511773e-05,
      "loss": 6.2197,
      "loss/crossentropy": 1.743559867143631,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15920352190732956,
      "step": 3293
    },
    {
      "epoch": 0.549,
      "grad_norm": 24.375,
      "grad_norm_var": 4.447916666666667,
      "learning_rate": 4.2359332221768655e-05,
      "loss": 6.0747,
      "loss/crossentropy": 1.7786654233932495,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20904773101210594,
      "step": 3294
    },
    {
      "epoch": 0.5491666666666667,
      "grad_norm": 26.25,
      "grad_norm_var": 4.713541666666667,
      "learning_rate": 4.233346081315196e-05,
      "loss": 6.3073,
      "loss/crossentropy": 1.4025279134511948,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21111744083464146,
      "step": 3295
    },
    {
      "epoch": 0.5493333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 4.764518229166667,
      "learning_rate": 4.2307591506360494e-05,
      "loss": 6.0544,
      "loss/crossentropy": 1.4864165782928467,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18781444337219,
      "step": 3296
    },
    {
      "epoch": 0.5495,
      "grad_norm": 19.875,
      "grad_norm_var": 5.1712890625,
      "learning_rate": 4.228172430848644e-05,
      "loss": 5.765,
      "loss/crossentropy": 1.0960184335708618,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09057485405355692,
      "step": 3297
    },
    {
      "epoch": 0.5496666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 4.214518229166667,
      "learning_rate": 4.2255859226621454e-05,
      "loss": 6.0925,
      "loss/crossentropy": 1.288442701101303,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3022857028990984,
      "step": 3298
    },
    {
      "epoch": 0.5498333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 4.326822916666667,
      "learning_rate": 4.2229996267856575e-05,
      "loss": 5.8819,
      "loss/crossentropy": 1.6222251951694489,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12779897078871727,
      "step": 3299
    },
    {
      "epoch": 0.55,
      "grad_norm": 21.125,
      "grad_norm_var": 4.394205729166667,
      "learning_rate": 4.2204135439282285e-05,
      "loss": 5.9566,
      "loss/crossentropy": 1.706006646156311,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14890574850142002,
      "step": 3300
    },
    {
      "epoch": 0.5501666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 4.504622395833334,
      "learning_rate": 4.2178276747988446e-05,
      "loss": 5.8509,
      "loss/crossentropy": 1.0129886642098427,
      "loss/hidden": 2.78515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.06020444817841053,
      "step": 3301
    },
    {
      "epoch": 0.5503333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 4.386458333333334,
      "learning_rate": 4.2152420201064434e-05,
      "loss": 6.2493,
      "loss/crossentropy": 1.9634630680084229,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13213345408439636,
      "step": 3302
    },
    {
      "epoch": 0.5505,
      "grad_norm": 19.5,
      "grad_norm_var": 4.8369140625,
      "learning_rate": 4.2126565805598937e-05,
      "loss": 6.058,
      "loss/crossentropy": 1.8311176598072052,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19026581197977066,
      "step": 3303
    },
    {
      "epoch": 0.5506666666666666,
      "grad_norm": 18.875,
      "grad_norm_var": 5.261393229166667,
      "learning_rate": 4.210071356868007e-05,
      "loss": 5.567,
      "loss/crossentropy": 1.2064948827028275,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09356430266052485,
      "step": 3304
    },
    {
      "epoch": 0.5508333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 4.4462890625,
      "learning_rate": 4.2074863497395377e-05,
      "loss": 6.4854,
      "loss/crossentropy": 1.4576274529099464,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16634807735681534,
      "step": 3305
    },
    {
      "epoch": 0.551,
      "grad_norm": 25.375,
      "grad_norm_var": 4.993489583333333,
      "learning_rate": 4.204901559883181e-05,
      "loss": 6.7106,
      "loss/crossentropy": 1.1856894046068192,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10923940967768431,
      "step": 3306
    },
    {
      "epoch": 0.5511666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 4.758333333333334,
      "learning_rate": 4.202316988007567e-05,
      "loss": 6.3289,
      "loss/crossentropy": 1.0868248641490936,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09732146095484495,
      "step": 3307
    },
    {
      "epoch": 0.5513333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 4.792643229166667,
      "learning_rate": 4.19973263482128e-05,
      "loss": 5.7601,
      "loss/crossentropy": 1.3977613300085068,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1407378353178501,
      "step": 3308
    },
    {
      "epoch": 0.5515,
      "grad_norm": 21.5,
      "grad_norm_var": 4.763541666666667,
      "learning_rate": 4.197148501032829e-05,
      "loss": 5.9123,
      "loss/crossentropy": 1.6118730306625366,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15535257011651993,
      "step": 3309
    },
    {
      "epoch": 0.5516666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 4.334309895833333,
      "learning_rate": 4.194564587350669e-05,
      "loss": 6.0211,
      "loss/crossentropy": 1.82557812333107,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1454022042453289,
      "step": 3310
    },
    {
      "epoch": 0.5518333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 2.9518229166666665,
      "learning_rate": 4.1919808944831954e-05,
      "loss": 6.2901,
      "loss/crossentropy": 1.7517732381820679,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2931733503937721,
      "step": 3311
    },
    {
      "epoch": 0.552,
      "grad_norm": 20.625,
      "grad_norm_var": 2.9983723958333335,
      "learning_rate": 4.1893974231387424e-05,
      "loss": 5.7393,
      "loss/crossentropy": 1.371202677488327,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1024907873943448,
      "step": 3312
    },
    {
      "epoch": 0.5521666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 2.8212890625,
      "learning_rate": 4.1868141740255823e-05,
      "loss": 5.9743,
      "loss/crossentropy": 1.4379835575819016,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1378200575709343,
      "step": 3313
    },
    {
      "epoch": 0.5523333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.814322916666667,
      "learning_rate": 4.184231147851929e-05,
      "loss": 6.2154,
      "loss/crossentropy": 2.121778666973114,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1568373367190361,
      "step": 3314
    },
    {
      "epoch": 0.5525,
      "grad_norm": 20.875,
      "grad_norm_var": 2.785416666666667,
      "learning_rate": 4.181648345325934e-05,
      "loss": 6.0071,
      "loss/crossentropy": 1.638381838798523,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1014090720564127,
      "step": 3315
    },
    {
      "epoch": 0.5526666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 2.7749348958333333,
      "learning_rate": 4.179065767155686e-05,
      "loss": 6.137,
      "loss/crossentropy": 1.210145577788353,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1461743451654911,
      "step": 3316
    },
    {
      "epoch": 0.5528333333333333,
      "grad_norm": 19.25,
      "grad_norm_var": 3.1014973958333334,
      "learning_rate": 4.176483414049214e-05,
      "loss": 5.7454,
      "loss/crossentropy": 1.1786627918481827,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10456260666251183,
      "step": 3317
    },
    {
      "epoch": 0.553,
      "grad_norm": 21.75,
      "grad_norm_var": 3.028125,
      "learning_rate": 4.1739012867144844e-05,
      "loss": 5.9879,
      "loss/crossentropy": 1.763302206993103,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11596843972802162,
      "step": 3318
    },
    {
      "epoch": 0.5531666666666667,
      "grad_norm": 19.25,
      "grad_norm_var": 3.099739583333333,
      "learning_rate": 4.171319385859401e-05,
      "loss": 5.7289,
      "loss/crossentropy": 1.1929105073213577,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1128272544592619,
      "step": 3319
    },
    {
      "epoch": 0.5533333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 3.1416666666666666,
      "learning_rate": 4.16873771219181e-05,
      "loss": 6.7188,
      "loss/crossentropy": 1.7270177900791168,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2143722139298916,
      "step": 3320
    },
    {
      "epoch": 0.5535,
      "grad_norm": 24.125,
      "grad_norm_var": 3.370833333333333,
      "learning_rate": 4.166156266419489e-05,
      "loss": 6.1332,
      "loss/crossentropy": 1.3226254433393478,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14727258868515491,
      "step": 3321
    },
    {
      "epoch": 0.5536666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 2.5332682291666666,
      "learning_rate": 4.163575049250157e-05,
      "loss": 6.4266,
      "loss/crossentropy": 1.2721080034971237,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1945217065513134,
      "step": 3322
    },
    {
      "epoch": 0.5538333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 2.127083333333333,
      "learning_rate": 4.1609940613914686e-05,
      "loss": 6.0482,
      "loss/crossentropy": 1.302273228764534,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11972427554428577,
      "step": 3323
    },
    {
      "epoch": 0.554,
      "grad_norm": 19.75,
      "grad_norm_var": 2.1830729166666667,
      "learning_rate": 4.158413303551017e-05,
      "loss": 5.6972,
      "loss/crossentropy": 1.133847326040268,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07624950585886836,
      "step": 3324
    },
    {
      "epoch": 0.5541666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 2.1895182291666666,
      "learning_rate": 4.155832776436331e-05,
      "loss": 6.3375,
      "loss/crossentropy": 1.8134785443544388,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13548367843031883,
      "step": 3325
    },
    {
      "epoch": 0.5543333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 2.324934895833333,
      "learning_rate": 4.153252480754877e-05,
      "loss": 6.0062,
      "loss/crossentropy": 2.1913109123706818,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19190310686826706,
      "step": 3326
    },
    {
      "epoch": 0.5545,
      "grad_norm": 20.25,
      "grad_norm_var": 2.34375,
      "learning_rate": 4.150672417214058e-05,
      "loss": 5.9521,
      "loss/crossentropy": 0.7301200106739998,
      "loss/hidden": 2.85546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.06963718822225928,
      "step": 3327
    },
    {
      "epoch": 0.5546666666666666,
      "grad_norm": 19.25,
      "grad_norm_var": 2.5879557291666666,
      "learning_rate": 4.148092586521213e-05,
      "loss": 5.8789,
      "loss/crossentropy": 0.9062351882457733,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10756255267187953,
      "step": 3328
    },
    {
      "epoch": 0.5548333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 2.6134765625,
      "learning_rate": 4.1455129893836174e-05,
      "loss": 6.2558,
      "loss/crossentropy": 1.8199823796749115,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18690843321383,
      "step": 3329
    },
    {
      "epoch": 0.555,
      "grad_norm": 5905580032.0,
      "grad_norm_var": 2.1797422039667748e+18,
      "learning_rate": 4.1429336265084814e-05,
      "loss": 6.0766,
      "loss/crossentropy": 1.1658513247966766,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10866511426866055,
      "step": 3330
    },
    {
      "epoch": 0.5551666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 2.1797422039360166e+18,
      "learning_rate": 4.140354498602952e-05,
      "loss": 6.2547,
      "loss/crossentropy": 1.8491476848721504,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10582671454176307,
      "step": 3331
    },
    {
      "epoch": 0.5553333333333333,
      "grad_norm": 25.0,
      "grad_norm_var": 2.179742203788377e+18,
      "learning_rate": 4.1377756063741135e-05,
      "loss": 6.4449,
      "loss/crossentropy": 1.699327826499939,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13190177083015442,
      "step": 3332
    },
    {
      "epoch": 0.5555,
      "grad_norm": 18.625,
      "grad_norm_var": 2.1797422038191352e+18,
      "learning_rate": 4.135196950528982e-05,
      "loss": 5.6787,
      "loss/crossentropy": 1.4383253753185272,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1764633245766163,
      "step": 3333
    },
    {
      "epoch": 0.5556666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 2.1797422038068319e+18,
      "learning_rate": 4.132618531774512e-05,
      "loss": 6.0016,
      "loss/crossentropy": 1.5294992625713348,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14166433922946453,
      "step": 3334
    },
    {
      "epoch": 0.5558333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.179742203702254e+18,
      "learning_rate": 4.13004035081759e-05,
      "loss": 6.3255,
      "loss/crossentropy": 2.164054960012436,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21634461730718613,
      "step": 3335
    },
    {
      "epoch": 0.556,
      "grad_norm": 21.0,
      "grad_norm_var": 2.1797422038806518e+18,
      "learning_rate": 4.127462408365041e-05,
      "loss": 5.8444,
      "loss/crossentropy": 1.532347284257412,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1216102009639144,
      "step": 3336
    },
    {
      "epoch": 0.5561666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 2.1797422040652012e+18,
      "learning_rate": 4.1248847051236195e-05,
      "loss": 6.051,
      "loss/crossentropy": 1.6944731175899506,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15339011885225773,
      "step": 3337
    },
    {
      "epoch": 0.5563333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 2.1797422041390208e+18,
      "learning_rate": 4.122307241800021e-05,
      "loss": 6.0496,
      "loss/crossentropy": 1.7195638120174408,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14035778120160103,
      "step": 3338
    },
    {
      "epoch": 0.5565,
      "grad_norm": 19.875,
      "grad_norm_var": 2.1797422042435988e+18,
      "learning_rate": 4.1197300191008694e-05,
      "loss": 5.8735,
      "loss/crossentropy": 1.0096298456192017,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10469240322709084,
      "step": 3339
    },
    {
      "epoch": 0.5566666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 2.1797422040959593e+18,
      "learning_rate": 4.117153037732726e-05,
      "loss": 6.2011,
      "loss/crossentropy": 1.7641424238681793,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19425699301064014,
      "step": 3340
    },
    {
      "epoch": 0.5568333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 2.1797422040590495e+18,
      "learning_rate": 4.114576298402084e-05,
      "loss": 6.3538,
      "loss/crossentropy": 1.6114486753940582,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12074841000139713,
      "step": 3341
    },
    {
      "epoch": 0.557,
      "grad_norm": 22.25,
      "grad_norm_var": 2.1797422039483197e+18,
      "learning_rate": 4.1119998018153726e-05,
      "loss": 6.1077,
      "loss/crossentropy": 0.8712281808257103,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09172757714986801,
      "step": 3342
    },
    {
      "epoch": 0.5571666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 2.179742203960623e+18,
      "learning_rate": 4.109423548678949e-05,
      "loss": 5.9711,
      "loss/crossentropy": 1.5047066062688828,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20464929938316345,
      "step": 3343
    },
    {
      "epoch": 0.5573333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 2.179742203769922e+18,
      "learning_rate": 4.106847539699112e-05,
      "loss": 6.3691,
      "loss/crossentropy": 1.8031645119190216,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25597524642944336,
      "step": 3344
    },
    {
      "epoch": 0.5575,
      "grad_norm": 21.0,
      "grad_norm_var": 2.179742203825287e+18,
      "learning_rate": 4.104271775582089e-05,
      "loss": 6.1581,
      "loss/crossentropy": 1.5248846411705017,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11854483652859926,
      "step": 3345
    },
    {
      "epoch": 0.5576666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 2.9176432291666665,
      "learning_rate": 4.101696257034037e-05,
      "loss": 6.1511,
      "loss/crossentropy": 1.8351254761219025,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17057090625166893,
      "step": 3346
    },
    {
      "epoch": 0.5578333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 3.1666666666666665,
      "learning_rate": 4.0991209847610535e-05,
      "loss": 6.8007,
      "loss/crossentropy": 1.4203997403383255,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24954411759972572,
      "step": 3347
    },
    {
      "epoch": 0.558,
      "grad_norm": 19.625,
      "grad_norm_var": 2.6431640625,
      "learning_rate": 4.0965459594691594e-05,
      "loss": 6.0268,
      "loss/crossentropy": 1.4279701709747314,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12830675765872002,
      "step": 3348
    },
    {
      "epoch": 0.5581666666666667,
      "grad_norm": 6610223104.0,
      "grad_norm_var": 2.73094057494336e+18,
      "learning_rate": 4.093971181864313e-05,
      "loss": 6.0728,
      "loss/crossentropy": 0.8303072303533554,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11092130374163389,
      "step": 3349
    },
    {
      "epoch": 0.5583333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 2.7309405750053304e+18,
      "learning_rate": 4.091396652652407e-05,
      "loss": 5.6895,
      "loss/crossentropy": 1.3953088819980621,
      "loss/hidden": 2.6953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09416173677891493,
      "step": 3350
    },
    {
      "epoch": 0.5585,
      "grad_norm": 21.875,
      "grad_norm_var": 2.730940574977788e+18,
      "learning_rate": 4.088822372539263e-05,
      "loss": 5.9795,
      "loss/crossentropy": 1.6421451270580292,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19277288019657135,
      "step": 3351
    },
    {
      "epoch": 0.5586666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 2.730940575039759e+18,
      "learning_rate": 4.086248342230633e-05,
      "loss": 5.4942,
      "loss/crossentropy": 1.3604308366775513,
      "loss/hidden": 2.78515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08674765285104513,
      "step": 3352
    },
    {
      "epoch": 0.5588333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 2.7309405750053304e+18,
      "learning_rate": 4.0836745624322023e-05,
      "loss": 6.2233,
      "loss/crossentropy": 1.7148374319076538,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.1635277457535267,
      "step": 3353
    },
    {
      "epoch": 0.559,
      "grad_norm": 18.625,
      "grad_norm_var": 2.7309405750810726e+18,
      "learning_rate": 4.081101033849587e-05,
      "loss": 5.9566,
      "loss/crossentropy": 1.9615899324417114,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16895426623523235,
      "step": 3354
    },
    {
      "epoch": 0.5591666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 2.7309405749020457e+18,
      "learning_rate": 4.078527757188333e-05,
      "loss": 5.9315,
      "loss/crossentropy": 1.2894445955753326,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10504289530217648,
      "step": 3355
    },
    {
      "epoch": 0.5593333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 2.730940574860732e+18,
      "learning_rate": 4.075954733153922e-05,
      "loss": 6.2724,
      "loss/crossentropy": 1.3535266369581223,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0991861978545785,
      "step": 3356
    },
    {
      "epoch": 0.5595,
      "grad_norm": 22.125,
      "grad_norm_var": 2.7309405748882744e+18,
      "learning_rate": 4.0733819624517634e-05,
      "loss": 6.1209,
      "loss/crossentropy": 1.4857141971588135,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16326777450740337,
      "step": 3357
    },
    {
      "epoch": 0.5596666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 2.7309405749020457e+18,
      "learning_rate": 4.0708094457871934e-05,
      "loss": 6.2407,
      "loss/crossentropy": 1.5514163374900818,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15595322847366333,
      "step": 3358
    },
    {
      "epoch": 0.5598333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 2.7309405747918756e+18,
      "learning_rate": 4.0682371838654845e-05,
      "loss": 6.2063,
      "loss/crossentropy": 1.6306827068328857,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16007570177316666,
      "step": 3359
    },
    {
      "epoch": 0.56,
      "grad_norm": 20.625,
      "grad_norm_var": 2.7309405749295887e+18,
      "learning_rate": 4.0656651773918363e-05,
      "loss": 5.9322,
      "loss/crossentropy": 1.7852021753787994,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16700822860002518,
      "step": 3360
    },
    {
      "epoch": 0.5601666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.730940574874503e+18,
      "learning_rate": 4.063093427071376e-05,
      "loss": 6.1735,
      "loss/crossentropy": 1.3809296786785126,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11498421058058739,
      "step": 3361
    },
    {
      "epoch": 0.5603333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.730940575039759e+18,
      "learning_rate": 4.06052193360917e-05,
      "loss": 5.9515,
      "loss/crossentropy": 1.392249882221222,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2235660906881094,
      "step": 3362
    },
    {
      "epoch": 0.5605,
      "grad_norm": 21.125,
      "grad_norm_var": 2.730940575177472e+18,
      "learning_rate": 4.0579506977102036e-05,
      "loss": 6.0048,
      "loss/crossentropy": 1.5392314493656158,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13397573120892048,
      "step": 3363
    },
    {
      "epoch": 0.5606666666666666,
      "grad_norm": 24.625,
      "grad_norm_var": 2.7309405749020457e+18,
      "learning_rate": 4.0553797200793954e-05,
      "loss": 6.3301,
      "loss/crossentropy": 1.3167802691459656,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10385141894221306,
      "step": 3364
    },
    {
      "epoch": 0.5608333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 2.123893229166667,
      "learning_rate": 4.0528090014215945e-05,
      "loss": 5.975,
      "loss/crossentropy": 1.4239295199513435,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10169913806021214,
      "step": 3365
    },
    {
      "epoch": 0.561,
      "grad_norm": 20.25,
      "grad_norm_var": 2.220572916666667,
      "learning_rate": 4.050238542441578e-05,
      "loss": 6.0029,
      "loss/crossentropy": 1.5722735822200775,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12027369253337383,
      "step": 3366
    },
    {
      "epoch": 0.5611666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 2.346875,
      "learning_rate": 4.047668343844051e-05,
      "loss": 6.7499,
      "loss/crossentropy": 1.8651392757892609,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14750409498810768,
      "step": 3367
    },
    {
      "epoch": 0.5613333333333334,
      "grad_norm": 4999610368.0,
      "grad_norm_var": 1.562256475796677e+18,
      "learning_rate": 4.0450984063336495e-05,
      "loss": 6.8281,
      "loss/crossentropy": 1.7477572858333588,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15761680528521538,
      "step": 3368
    },
    {
      "epoch": 0.5615,
      "grad_norm": 21.25,
      "grad_norm_var": 1.5622564757862612e+18,
      "learning_rate": 4.042528730614936e-05,
      "loss": 6.0294,
      "loss/crossentropy": 1.456845298409462,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1363874264061451,
      "step": 3369
    },
    {
      "epoch": 0.5616666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.562256475661271e+18,
      "learning_rate": 4.0399593173924005e-05,
      "loss": 6.1653,
      "loss/crossentropy": 1.1062044203281403,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12345962971448898,
      "step": 3370
    },
    {
      "epoch": 0.5618333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.5622564757498058e+18,
      "learning_rate": 4.037390167370464e-05,
      "loss": 6.2844,
      "loss/crossentropy": 2.008675307035446,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1846105493605137,
      "step": 3371
    },
    {
      "epoch": 0.562,
      "grad_norm": 21.25,
      "grad_norm_var": 1.5622564758435484e+18,
      "learning_rate": 4.034821281253472e-05,
      "loss": 5.8073,
      "loss/crossentropy": 1.3770090341567993,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12664426118135452,
      "step": 3372
    },
    {
      "epoch": 0.5621666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5622564758435484e+18,
      "learning_rate": 4.032252659745699e-05,
      "loss": 6.4447,
      "loss/crossentropy": 1.1489558815956116,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.22429397702217102,
      "step": 3373
    },
    {
      "epoch": 0.5623333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 1.562256475880004e+18,
      "learning_rate": 4.029684303551349e-05,
      "loss": 6.1775,
      "loss/crossentropy": 0.9513200148940086,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12039018282666802,
      "step": 3374
    },
    {
      "epoch": 0.5625,
      "grad_norm": 22.0,
      "grad_norm_var": 1.562256475880004e+18,
      "learning_rate": 4.02711621337455e-05,
      "loss": 6.2253,
      "loss/crossentropy": 0.9416346698999405,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12746434193104506,
      "step": 3375
    },
    {
      "epoch": 0.5626666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 1.5622564759008356e+18,
      "learning_rate": 4.0245483899193595e-05,
      "loss": 5.5358,
      "loss/crossentropy": 1.886242613196373,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1480140583589673,
      "step": 3376
    },
    {
      "epoch": 0.5628333333333333,
      "grad_norm": 23.375,
      "grad_norm_var": 1.5622564758435484e+18,
      "learning_rate": 4.02198083388976e-05,
      "loss": 6.5602,
      "loss/crossentropy": 1.6034172922372818,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12923013232648373,
      "step": 3377
    },
    {
      "epoch": 0.563,
      "grad_norm": 22.375,
      "grad_norm_var": 1.5622564758018852e+18,
      "learning_rate": 4.019413545989661e-05,
      "loss": 6.3149,
      "loss/crossentropy": 1.4781701415777206,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11042898520827293,
      "step": 3378
    },
    {
      "epoch": 0.5631666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 1.5622564757341821e+18,
      "learning_rate": 4.0168465269229007e-05,
      "loss": 6.291,
      "loss/crossentropy": 1.5196986198425293,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11008440516889095,
      "step": 3379
    },
    {
      "epoch": 0.5633333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 1.5622564759216673e+18,
      "learning_rate": 4.0142797773932394e-05,
      "loss": 6.0596,
      "loss/crossentropy": 1.9813783764839172,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22965538501739502,
      "step": 3380
    },
    {
      "epoch": 0.5635,
      "grad_norm": 19.25,
      "grad_norm_var": 1.5622564760831132e+18,
      "learning_rate": 4.0117132981043693e-05,
      "loss": 6.1409,
      "loss/crossentropy": 1.9561753273010254,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20112954825162888,
      "step": 3381
    },
    {
      "epoch": 0.5636666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 1.5622564760831132e+18,
      "learning_rate": 4.009147089759904e-05,
      "loss": 6.0779,
      "loss/crossentropy": 0.958833783864975,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.09194941725581884,
      "step": 3382
    },
    {
      "epoch": 0.5638333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 1.5622564760674893e+18,
      "learning_rate": 4.006581153063383e-05,
      "loss": 6.3716,
      "loss/crossentropy": 1.703373372554779,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1007691752165556,
      "step": 3383
    },
    {
      "epoch": 0.564,
      "grad_norm": 20.375,
      "grad_norm_var": 1.503125,
      "learning_rate": 4.0040154887182726e-05,
      "loss": 6.1658,
      "loss/crossentropy": 1.1752129793167114,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08072269754484296,
      "step": 3384
    },
    {
      "epoch": 0.5641666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.503125,
      "learning_rate": 4.001450097427966e-05,
      "loss": 5.7651,
      "loss/crossentropy": 1.0141383707523346,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1186018050648272,
      "step": 3385
    },
    {
      "epoch": 0.5643333333333334,
      "grad_norm": 20.0,
      "grad_norm_var": 1.6207682291666667,
      "learning_rate": 3.998884979895777e-05,
      "loss": 5.8497,
      "loss/crossentropy": 1.1643552482128143,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10355954570695758,
      "step": 3386
    },
    {
      "epoch": 0.5645,
      "grad_norm": 23.25,
      "grad_norm_var": 1.8457682291666666,
      "learning_rate": 3.996320136824949e-05,
      "loss": 6.6259,
      "loss/crossentropy": 1.4870549440383911,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1848501767963171,
      "step": 3387
    },
    {
      "epoch": 0.5646666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.8431640625,
      "learning_rate": 3.9937555689186486e-05,
      "loss": 6.2488,
      "loss/crossentropy": 1.3454922288656235,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10268588736653328,
      "step": 3388
    },
    {
      "epoch": 0.5648333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.9603515625,
      "learning_rate": 3.9911912768799655e-05,
      "loss": 6.18,
      "loss/crossentropy": 1.516475185751915,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13693314557895064,
      "step": 3389
    },
    {
      "epoch": 0.565,
      "grad_norm": 21.75,
      "grad_norm_var": 1.9684895833333333,
      "learning_rate": 3.9886272614119156e-05,
      "loss": 6.1122,
      "loss/crossentropy": 1.7615691125392914,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13100657053291798,
      "step": 3390
    },
    {
      "epoch": 0.5651666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 1.9452473958333334,
      "learning_rate": 3.986063523217439e-05,
      "loss": 6.1209,
      "loss/crossentropy": 1.433478206396103,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1811237633228302,
      "step": 3391
    },
    {
      "epoch": 0.5653333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 1.9260416666666667,
      "learning_rate": 3.9835000629993955e-05,
      "loss": 6.4173,
      "loss/crossentropy": 1.5664692372083664,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12362592201679945,
      "step": 3392
    },
    {
      "epoch": 0.5655,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6434895833333334,
      "learning_rate": 3.9809368814605766e-05,
      "loss": 5.8096,
      "loss/crossentropy": 0.9882296174764633,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08792943321168423,
      "step": 3393
    },
    {
      "epoch": 0.5656666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.5514973958333333,
      "learning_rate": 3.978373979303691e-05,
      "loss": 6.2009,
      "loss/crossentropy": 1.2246747612953186,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09604936046525836,
      "step": 3394
    },
    {
      "epoch": 0.5658333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.37890625,
      "learning_rate": 3.975811357231373e-05,
      "loss": 6.0261,
      "loss/crossentropy": 1.811710000038147,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18359638005495071,
      "step": 3395
    },
    {
      "epoch": 0.566,
      "grad_norm": 20.625,
      "grad_norm_var": 1.3309895833333334,
      "learning_rate": 3.973249015946182e-05,
      "loss": 6.007,
      "loss/crossentropy": 1.5451030433177948,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17463207617402077,
      "step": 3396
    },
    {
      "epoch": 0.5661666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 1.2729166666666667,
      "learning_rate": 3.9706869561505946e-05,
      "loss": 5.9396,
      "loss/crossentropy": 0.856652095913887,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09597584698349237,
      "step": 3397
    },
    {
      "epoch": 0.5663333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.3483723958333333,
      "learning_rate": 3.968125178547015e-05,
      "loss": 6.5791,
      "loss/crossentropy": 2.06698676943779,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14257945120334625,
      "step": 3398
    },
    {
      "epoch": 0.5665,
      "grad_norm": 23.125,
      "grad_norm_var": 1.2458333333333333,
      "learning_rate": 3.965563683837771e-05,
      "loss": 6.4925,
      "loss/crossentropy": 1.7491462528705597,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17652849666774273,
      "step": 3399
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 1.2613932291666667,
      "learning_rate": 3.96300247272511e-05,
      "loss": 6.1099,
      "loss/crossentropy": 1.6221929341554642,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11643350496888161,
      "step": 3400
    },
    {
      "epoch": 0.5668333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.2655598958333334,
      "learning_rate": 3.960441545911204e-05,
      "loss": 6.086,
      "loss/crossentropy": 1.9717234671115875,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15569099597632885,
      "step": 3401
    },
    {
      "epoch": 0.567,
      "grad_norm": 21.125,
      "grad_norm_var": 1.1559895833333333,
      "learning_rate": 3.957880904098143e-05,
      "loss": 5.9004,
      "loss/crossentropy": 1.49782994389534,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15995275788009167,
      "step": 3402
    },
    {
      "epoch": 0.5671666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 0.9333333333333333,
      "learning_rate": 3.955320547987943e-05,
      "loss": 6.3917,
      "loss/crossentropy": 1.9138021767139435,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18022384867072105,
      "step": 3403
    },
    {
      "epoch": 0.5673333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 0.9520182291666667,
      "learning_rate": 3.952760478282537e-05,
      "loss": 6.0511,
      "loss/crossentropy": 1.4347071796655655,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11066038906574249,
      "step": 3404
    },
    {
      "epoch": 0.5675,
      "grad_norm": 20.0,
      "grad_norm_var": 0.9309895833333334,
      "learning_rate": 3.950200695683788e-05,
      "loss": 6.1709,
      "loss/crossentropy": 1.6637721806764603,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11976848635822535,
      "step": 3405
    },
    {
      "epoch": 0.5676666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 0.9280598958333334,
      "learning_rate": 3.947641200893473e-05,
      "loss": 6.071,
      "loss/crossentropy": 1.850785493850708,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18772374093532562,
      "step": 3406
    },
    {
      "epoch": 0.5678333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.9280598958333334,
      "learning_rate": 3.94508199461329e-05,
      "loss": 5.9585,
      "loss/crossentropy": 1.6180606037378311,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0988885797560215,
      "step": 3407
    },
    {
      "epoch": 0.568,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1374348958333333,
      "learning_rate": 3.942523077544861e-05,
      "loss": 6.0115,
      "loss/crossentropy": 1.3258964717388153,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14184761932119727,
      "step": 3408
    },
    {
      "epoch": 0.5681666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.1843098958333333,
      "learning_rate": 3.939964450389728e-05,
      "loss": 5.8695,
      "loss/crossentropy": 1.3033675849437714,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15123157761991024,
      "step": 3409
    },
    {
      "epoch": 0.5683333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.1934895833333334,
      "learning_rate": 3.937406113849351e-05,
      "loss": 6.0832,
      "loss/crossentropy": 1.7412536144256592,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1247502975165844,
      "step": 3410
    },
    {
      "epoch": 0.5685,
      "grad_norm": 19.75,
      "grad_norm_var": 1.3348307291666666,
      "learning_rate": 3.9348480686251176e-05,
      "loss": 6.172,
      "loss/crossentropy": 1.2129900977015495,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08545918669551611,
      "step": 3411
    },
    {
      "epoch": 0.5686666666666667,
      "grad_norm": 19.25,
      "grad_norm_var": 1.5518229166666666,
      "learning_rate": 3.9322903154183263e-05,
      "loss": 5.7104,
      "loss/crossentropy": 1.0661568194627762,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12227152660489082,
      "step": 3412
    },
    {
      "epoch": 0.5688333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 1.5535807291666666,
      "learning_rate": 3.9297328549302e-05,
      "loss": 6.5774,
      "loss/crossentropy": 1.704330027103424,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1320862234570086,
      "step": 3413
    },
    {
      "epoch": 0.569,
      "grad_norm": 20.0,
      "grad_norm_var": 1.5166666666666666,
      "learning_rate": 3.9271756878618825e-05,
      "loss": 5.805,
      "loss/crossentropy": 1.3502057045698166,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13303246814757586,
      "step": 3414
    },
    {
      "epoch": 0.5691666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2809895833333333,
      "learning_rate": 3.9246188149144346e-05,
      "loss": 6.2232,
      "loss/crossentropy": 2.058160036802292,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16726339608430862,
      "step": 3415
    },
    {
      "epoch": 0.5693333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 1.5247395833333333,
      "learning_rate": 3.922062236788836e-05,
      "loss": 6.1653,
      "loss/crossentropy": 1.1895650029182434,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09401480667293072,
      "step": 3416
    },
    {
      "epoch": 0.5695,
      "grad_norm": 19.625,
      "grad_norm_var": 1.6780598958333333,
      "learning_rate": 3.91950595418599e-05,
      "loss": 5.9734,
      "loss/crossentropy": 1.1830802857875824,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08963445853441954,
      "step": 3417
    },
    {
      "epoch": 0.5696666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6864583333333334,
      "learning_rate": 3.916949967806715e-05,
      "loss": 5.9263,
      "loss/crossentropy": 1.3058355152606964,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1315717864781618,
      "step": 3418
    },
    {
      "epoch": 0.5698333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 1.775,
      "learning_rate": 3.914394278351749e-05,
      "loss": 5.8434,
      "loss/crossentropy": 1.2026578933000565,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1050594188272953,
      "step": 3419
    },
    {
      "epoch": 0.57,
      "grad_norm": 22.875,
      "grad_norm_var": 1.99765625,
      "learning_rate": 3.911838886521748e-05,
      "loss": 5.8409,
      "loss/crossentropy": 1.5721668601036072,
      "loss/hidden": 3.6015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1762913130223751,
      "step": 3420
    },
    {
      "epoch": 0.5701666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.925,
      "learning_rate": 3.9092837930172884e-05,
      "loss": 6.1478,
      "loss/crossentropy": 1.5541223883628845,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23831338807940483,
      "step": 3421
    },
    {
      "epoch": 0.5703333333333334,
      "grad_norm": 23.875,
      "grad_norm_var": 2.3684895833333335,
      "learning_rate": 3.906728998538862e-05,
      "loss": 6.0591,
      "loss/crossentropy": 1.2043213546276093,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12147963233292103,
      "step": 3422
    },
    {
      "epoch": 0.5705,
      "grad_norm": 20.75,
      "grad_norm_var": 2.381705729166667,
      "learning_rate": 3.9041745037868816e-05,
      "loss": 6.056,
      "loss/crossentropy": 1.1018678098917007,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1627858029678464,
      "step": 3423
    },
    {
      "epoch": 0.5706666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 2.198958333333333,
      "learning_rate": 3.901620309461677e-05,
      "loss": 6.121,
      "loss/crossentropy": 1.569274663925171,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16565710119903088,
      "step": 3424
    },
    {
      "epoch": 0.5708333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.1497395833333335,
      "learning_rate": 3.899066416263493e-05,
      "loss": 6.144,
      "loss/crossentropy": 2.140815496444702,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2013002261519432,
      "step": 3425
    },
    {
      "epoch": 0.571,
      "grad_norm": 23.625,
      "grad_norm_var": 2.4955729166666667,
      "learning_rate": 3.896512824892495e-05,
      "loss": 6.1942,
      "loss/crossentropy": 1.3139747232198715,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14296269416809082,
      "step": 3426
    },
    {
      "epoch": 0.5711666666666667,
      "grad_norm": 18.375,
      "grad_norm_var": 2.9145182291666667,
      "learning_rate": 3.8939595360487656e-05,
      "loss": 5.7689,
      "loss/crossentropy": 1.4057163298130035,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12273062206804752,
      "step": 3427
    },
    {
      "epoch": 0.5713333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 2.634375,
      "learning_rate": 3.891406550432301e-05,
      "loss": 6.5183,
      "loss/crossentropy": 1.801126092672348,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23589131236076355,
      "step": 3428
    },
    {
      "epoch": 0.5715,
      "grad_norm": 18.875,
      "grad_norm_var": 2.8510416666666667,
      "learning_rate": 3.8888538687430184e-05,
      "loss": 5.586,
      "loss/crossentropy": 1.847981944680214,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17550266906619072,
      "step": 3429
    },
    {
      "epoch": 0.5716666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 2.81640625,
      "learning_rate": 3.88630149168075e-05,
      "loss": 5.9852,
      "loss/crossentropy": 1.3521533012390137,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10706901550292969,
      "step": 3430
    },
    {
      "epoch": 0.5718333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.8056640625,
      "learning_rate": 3.883749419945244e-05,
      "loss": 5.9099,
      "loss/crossentropy": 1.5823497623205185,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12944898568093777,
      "step": 3431
    },
    {
      "epoch": 0.572,
      "grad_norm": 26.0,
      "grad_norm_var": 4.0431640625,
      "learning_rate": 3.881197654236165e-05,
      "loss": 6.5066,
      "loss/crossentropy": 1.4752229154109955,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1280166395008564,
      "step": 3432
    },
    {
      "epoch": 0.5721666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 3.8462890625,
      "learning_rate": 3.878646195253095e-05,
      "loss": 6.1027,
      "loss/crossentropy": 1.2697013318538666,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17306740209460258,
      "step": 3433
    },
    {
      "epoch": 0.5723333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 3.83515625,
      "learning_rate": 3.876095043695529e-05,
      "loss": 5.9437,
      "loss/crossentropy": 1.6033940315246582,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.24387449771165848,
      "step": 3434
    },
    {
      "epoch": 0.5725,
      "grad_norm": 22.0,
      "grad_norm_var": 3.564322916666667,
      "learning_rate": 3.873544200262883e-05,
      "loss": 6.0877,
      "loss/crossentropy": 1.1392623782157898,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14554868265986443,
      "step": 3435
    },
    {
      "epoch": 0.5726666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 3.5858723958333334,
      "learning_rate": 3.870993665654482e-05,
      "loss": 6.5922,
      "loss/crossentropy": 1.5663426220417023,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21797442808747292,
      "step": 3436
    },
    {
      "epoch": 0.5728333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 3.5858723958333334,
      "learning_rate": 3.868443440569571e-05,
      "loss": 5.8783,
      "loss/crossentropy": 1.0470649898052216,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11101148650050163,
      "step": 3437
    },
    {
      "epoch": 0.573,
      "grad_norm": 22.0,
      "grad_norm_var": 3.2489583333333334,
      "learning_rate": 3.865893525707309e-05,
      "loss": 6.2458,
      "loss/crossentropy": 1.6655582189559937,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12081362679600716,
      "step": 3438
    },
    {
      "epoch": 0.5731666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 3.43515625,
      "learning_rate": 3.863343921766769e-05,
      "loss": 6.589,
      "loss/crossentropy": 1.2624421864748,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1474829912185669,
      "step": 3439
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 18.375,
      "grad_norm_var": 4.076822916666667,
      "learning_rate": 3.860794629446938e-05,
      "loss": 5.9587,
      "loss/crossentropy": 1.126845583319664,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10384254157543182,
      "step": 3440
    },
    {
      "epoch": 0.5735,
      "grad_norm": 18.375,
      "grad_norm_var": 4.669791666666667,
      "learning_rate": 3.858245649446721e-05,
      "loss": 5.6241,
      "loss/crossentropy": 1.4020341485738754,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1208565142005682,
      "step": 3441
    },
    {
      "epoch": 0.5736666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 4.280143229166667,
      "learning_rate": 3.8556969824649355e-05,
      "loss": 6.2502,
      "loss/crossentropy": 1.2039839699864388,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12516065686941147,
      "step": 3442
    },
    {
      "epoch": 0.5738333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 3.739518229166667,
      "learning_rate": 3.853148629200312e-05,
      "loss": 6.4643,
      "loss/crossentropy": 1.6223001182079315,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12635806016623974,
      "step": 3443
    },
    {
      "epoch": 0.574,
      "grad_norm": 23.25,
      "grad_norm_var": 3.951041666666667,
      "learning_rate": 3.850600590351496e-05,
      "loss": 6.419,
      "loss/crossentropy": 1.1011461913585663,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19149350933730602,
      "step": 3444
    },
    {
      "epoch": 0.5741666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 3.5677083333333335,
      "learning_rate": 3.848052866617049e-05,
      "loss": 6.3629,
      "loss/crossentropy": 1.2755276560783386,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1344645507633686,
      "step": 3445
    },
    {
      "epoch": 0.5743333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 3.4205729166666665,
      "learning_rate": 3.845505458695437e-05,
      "loss": 6.1619,
      "loss/crossentropy": 1.6216065287590027,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14316943660378456,
      "step": 3446
    },
    {
      "epoch": 0.5745,
      "grad_norm": 24.25,
      "grad_norm_var": 3.7955729166666665,
      "learning_rate": 3.842958367285056e-05,
      "loss": 6.659,
      "loss/crossentropy": 1.7136387825012207,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1190476194024086,
      "step": 3447
    },
    {
      "epoch": 0.5746666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 2.6369140625,
      "learning_rate": 3.840411593084199e-05,
      "loss": 5.9004,
      "loss/crossentropy": 1.4971118867397308,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2122840527445078,
      "step": 3448
    },
    {
      "epoch": 0.5748333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 2.7791015625,
      "learning_rate": 3.83786513679108e-05,
      "loss": 6.1444,
      "loss/crossentropy": 1.617636427283287,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1576395481824875,
      "step": 3449
    },
    {
      "epoch": 0.575,
      "grad_norm": 21.375,
      "grad_norm_var": 2.7494140625,
      "learning_rate": 3.8353189991038266e-05,
      "loss": 6.0049,
      "loss/crossentropy": 1.516214668750763,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19414353743195534,
      "step": 3450
    },
    {
      "epoch": 0.5751666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.845572916666667,
      "learning_rate": 3.832773180720475e-05,
      "loss": 6.424,
      "loss/crossentropy": 1.130548119544983,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19158412516117096,
      "step": 3451
    },
    {
      "epoch": 0.5753333333333334,
      "grad_norm": 19.75,
      "grad_norm_var": 2.9166666666666665,
      "learning_rate": 3.8302276823389725e-05,
      "loss": 5.9211,
      "loss/crossentropy": 2.1079356968402863,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19305386766791344,
      "step": 3452
    },
    {
      "epoch": 0.5755,
      "grad_norm": 22.125,
      "grad_norm_var": 2.9087890625,
      "learning_rate": 3.827682504657187e-05,
      "loss": 6.2058,
      "loss/crossentropy": 1.44570392370224,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17783577926456928,
      "step": 3453
    },
    {
      "epoch": 0.5756666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 2.9916015625,
      "learning_rate": 3.825137648372893e-05,
      "loss": 6.387,
      "loss/crossentropy": 1.8246744275093079,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19388006627559662,
      "step": 3454
    },
    {
      "epoch": 0.5758333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 2.72890625,
      "learning_rate": 3.822593114183777e-05,
      "loss": 6.166,
      "loss/crossentropy": 1.8398579359054565,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1481098271906376,
      "step": 3455
    },
    {
      "epoch": 0.576,
      "grad_norm": 22.5,
      "grad_norm_var": 2.0994140625,
      "learning_rate": 3.820048902787435e-05,
      "loss": 6.1897,
      "loss/crossentropy": 0.9535331428050995,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1356006357818842,
      "step": 3456
    },
    {
      "epoch": 0.5761666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.3082682291666667,
      "learning_rate": 3.817505014881378e-05,
      "loss": 5.7823,
      "loss/crossentropy": 1.5296203792095184,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16106634959578514,
      "step": 3457
    },
    {
      "epoch": 0.5763333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.4354166666666666,
      "learning_rate": 3.814961451163026e-05,
      "loss": 5.6614,
      "loss/crossentropy": 0.7170782089233398,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.06729645002633333,
      "step": 3458
    },
    {
      "epoch": 0.5765,
      "grad_norm": 22.875,
      "grad_norm_var": 1.4760416666666667,
      "learning_rate": 3.812418212329715e-05,
      "loss": 6.4009,
      "loss/crossentropy": 1.6607060432434082,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15664630196988583,
      "step": 3459
    },
    {
      "epoch": 0.5766666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 1.5260416666666667,
      "learning_rate": 3.809875299078688e-05,
      "loss": 5.932,
      "loss/crossentropy": 1.7809979319572449,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1151721253991127,
      "step": 3460
    },
    {
      "epoch": 0.5768333333333333,
      "grad_norm": 18.625,
      "grad_norm_var": 2.03515625,
      "learning_rate": 3.807332712107097e-05,
      "loss": 5.8085,
      "loss/crossentropy": 1.4477411061525345,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1600071545690298,
      "step": 3461
    },
    {
      "epoch": 0.577,
      "grad_norm": 21.125,
      "grad_norm_var": 2.0447265625,
      "learning_rate": 3.804790452112006e-05,
      "loss": 6.0966,
      "loss/crossentropy": 1.7119948267936707,
      "loss/hidden": 2.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11171303689479828,
      "step": 3462
    },
    {
      "epoch": 0.5771666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.6108723958333333,
      "learning_rate": 3.8022485197903925e-05,
      "loss": 6.0726,
      "loss/crossentropy": 1.4860156625509262,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.16603464633226395,
      "step": 3463
    },
    {
      "epoch": 0.5773333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.6143229166666666,
      "learning_rate": 3.799706915839137e-05,
      "loss": 6.3263,
      "loss/crossentropy": 1.6272653192281723,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15699577517807484,
      "step": 3464
    },
    {
      "epoch": 0.5775,
      "grad_norm": 20.75,
      "grad_norm_var": 1.5462890625,
      "learning_rate": 3.797165640955041e-05,
      "loss": 6.2958,
      "loss/crossentropy": 0.649408720433712,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09046171605587006,
      "step": 3465
    },
    {
      "epoch": 0.5776666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 1.79140625,
      "learning_rate": 3.794624695834808e-05,
      "loss": 6.2674,
      "loss/crossentropy": 1.0091902539134026,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14559008460491896,
      "step": 3466
    },
    {
      "epoch": 0.5778333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 1.7389973958333333,
      "learning_rate": 3.792084081175049e-05,
      "loss": 5.7976,
      "loss/crossentropy": 1.299197033047676,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0933708781376481,
      "step": 3467
    },
    {
      "epoch": 0.578,
      "grad_norm": 23.375,
      "grad_norm_var": 1.8541666666666667,
      "learning_rate": 3.78954379767229e-05,
      "loss": 6.518,
      "loss/crossentropy": 2.0584943890571594,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17235197126865387,
      "step": 3468
    },
    {
      "epoch": 0.5781666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.8205729166666667,
      "learning_rate": 3.787003846022964e-05,
      "loss": 6.1779,
      "loss/crossentropy": 1.7490684688091278,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1320649478584528,
      "step": 3469
    },
    {
      "epoch": 0.5783333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 1.6895182291666666,
      "learning_rate": 3.7844642269234106e-05,
      "loss": 6.4683,
      "loss/crossentropy": 1.4922091662883759,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10152867343276739,
      "step": 3470
    },
    {
      "epoch": 0.5785,
      "grad_norm": 21.5,
      "grad_norm_var": 1.68515625,
      "learning_rate": 3.781924941069888e-05,
      "loss": 6.1515,
      "loss/crossentropy": 1.3620562553405762,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13679175358265638,
      "step": 3471
    },
    {
      "epoch": 0.5786666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 2.2056640625,
      "learning_rate": 3.779385989158549e-05,
      "loss": 6.2848,
      "loss/crossentropy": 1.529664009809494,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1706540510058403,
      "step": 3472
    },
    {
      "epoch": 0.5788333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 2.3072916666666665,
      "learning_rate": 3.776847371885464e-05,
      "loss": 6.1317,
      "loss/crossentropy": 1.7480213046073914,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13310464471578598,
      "step": 3473
    },
    {
      "epoch": 0.579,
      "grad_norm": 20.75,
      "grad_norm_var": 2.2613932291666665,
      "learning_rate": 3.7743090899466096e-05,
      "loss": 6.5109,
      "loss/crossentropy": 1.681571513414383,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14515024423599243,
      "step": 3474
    },
    {
      "epoch": 0.5791666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 2.1518229166666667,
      "learning_rate": 3.7717711440378694e-05,
      "loss": 6.1703,
      "loss/crossentropy": 1.2089145854115486,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1426721541211009,
      "step": 3475
    },
    {
      "epoch": 0.5793333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 2.084375,
      "learning_rate": 3.769233534855035e-05,
      "loss": 6.1129,
      "loss/crossentropy": 1.8996535539627075,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31136930361390114,
      "step": 3476
    },
    {
      "epoch": 0.5795,
      "grad_norm": 21.375,
      "grad_norm_var": 1.5143229166666667,
      "learning_rate": 3.7666962630938084e-05,
      "loss": 6.2165,
      "loss/crossentropy": 1.9599681794643402,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13781788386404514,
      "step": 3477
    },
    {
      "epoch": 0.5796666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.6010416666666667,
      "learning_rate": 3.764159329449796e-05,
      "loss": 5.7799,
      "loss/crossentropy": 1.4811174273490906,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15133766643702984,
      "step": 3478
    },
    {
      "epoch": 0.5798333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 1.8676432291666667,
      "learning_rate": 3.761622734618513e-05,
      "loss": 6.2001,
      "loss/crossentropy": 1.8224537372589111,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13220105692744255,
      "step": 3479
    },
    {
      "epoch": 0.58,
      "grad_norm": 20.25,
      "grad_norm_var": 2.026497395833333,
      "learning_rate": 3.75908647929538e-05,
      "loss": 6.0026,
      "loss/crossentropy": 1.4385312125086784,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09417605912312865,
      "step": 3480
    },
    {
      "epoch": 0.5801666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 1.9754557291666666,
      "learning_rate": 3.756550564175727e-05,
      "loss": 6.485,
      "loss/crossentropy": 1.3620722740888596,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16498853266239166,
      "step": 3481
    },
    {
      "epoch": 0.5803333333333334,
      "grad_norm": 32.75,
      "grad_norm_var": 9.328059895833333,
      "learning_rate": 3.754014989954788e-05,
      "loss": 6.1689,
      "loss/crossentropy": 1.6438381969928741,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13310318998992443,
      "step": 3482
    },
    {
      "epoch": 0.5805,
      "grad_norm": 21.5,
      "grad_norm_var": 8.970247395833333,
      "learning_rate": 3.751479757327707e-05,
      "loss": 6.1707,
      "loss/crossentropy": 1.9553667604923248,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1677754446864128,
      "step": 3483
    },
    {
      "epoch": 0.5806666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 9.009830729166667,
      "learning_rate": 3.7489448669895324e-05,
      "loss": 6.3104,
      "loss/crossentropy": 1.3770920187234879,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16083326190710068,
      "step": 3484
    },
    {
      "epoch": 0.5808333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 9.327083333333333,
      "learning_rate": 3.746410319635217e-05,
      "loss": 6.0741,
      "loss/crossentropy": 1.2049646899104118,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1533940928056836,
      "step": 3485
    },
    {
      "epoch": 0.581,
      "grad_norm": 21.25,
      "grad_norm_var": 9.3447265625,
      "learning_rate": 3.7438761159596225e-05,
      "loss": 5.8523,
      "loss/crossentropy": 1.3055314719676971,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1722562499344349,
      "step": 3486
    },
    {
      "epoch": 0.5811666666666667,
      "grad_norm": 19.125,
      "grad_norm_var": 9.971875,
      "learning_rate": 3.741342256657515e-05,
      "loss": 6.0776,
      "loss/crossentropy": 1.383318480104208,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12455911398865283,
      "step": 3487
    },
    {
      "epoch": 0.5813333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 9.746875,
      "learning_rate": 3.738808742423566e-05,
      "loss": 5.9957,
      "loss/crossentropy": 0.7543659508228302,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0769303198903799,
      "step": 3488
    },
    {
      "epoch": 0.5815,
      "grad_norm": 20.375,
      "grad_norm_var": 9.911393229166666,
      "learning_rate": 3.736275573952354e-05,
      "loss": 5.8355,
      "loss/crossentropy": 1.4607965350151062,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15477953106164932,
      "step": 3489
    },
    {
      "epoch": 0.5816666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 10.072330729166667,
      "learning_rate": 3.7337427519383595e-05,
      "loss": 5.9308,
      "loss/crossentropy": 1.9106563031673431,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1502227447926998,
      "step": 3490
    },
    {
      "epoch": 0.5818333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 9.970768229166667,
      "learning_rate": 3.731210277075972e-05,
      "loss": 6.0604,
      "loss/crossentropy": 1.5331357717514038,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13000991940498352,
      "step": 3491
    },
    {
      "epoch": 0.582,
      "grad_norm": 19.125,
      "grad_norm_var": 10.508333333333333,
      "learning_rate": 3.728678150059484e-05,
      "loss": 5.7263,
      "loss/crossentropy": 1.0032411068677902,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08203307818621397,
      "step": 3492
    },
    {
      "epoch": 0.5821666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 10.748958333333333,
      "learning_rate": 3.72614637158309e-05,
      "loss": 6.0146,
      "loss/crossentropy": 1.1058247536420822,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0775320390239358,
      "step": 3493
    },
    {
      "epoch": 0.5823333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 10.773372395833333,
      "learning_rate": 3.723614942340892e-05,
      "loss": 5.9379,
      "loss/crossentropy": 1.3133040964603424,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.12522158212959766,
      "step": 3494
    },
    {
      "epoch": 0.5825,
      "grad_norm": 23.5,
      "grad_norm_var": 10.517708333333333,
      "learning_rate": 3.7210838630268986e-05,
      "loss": 6.3416,
      "loss/crossentropy": 1.358605071902275,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18444410804659128,
      "step": 3495
    },
    {
      "epoch": 0.5826666666666667,
      "grad_norm": 19.125,
      "grad_norm_var": 10.817122395833334,
      "learning_rate": 3.718553134335017e-05,
      "loss": 5.8963,
      "loss/crossentropy": 1.0294990539550781,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08991702366620302,
      "step": 3496
    },
    {
      "epoch": 0.5828333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 10.79765625,
      "learning_rate": 3.716022756959061e-05,
      "loss": 6.1321,
      "loss/crossentropy": 1.5577073097229004,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11766740400344133,
      "step": 3497
    },
    {
      "epoch": 0.583,
      "grad_norm": 21.625,
      "grad_norm_var": 1.9150390625,
      "learning_rate": 3.713492731592749e-05,
      "loss": 6.1304,
      "loss/crossentropy": 1.4637797698378563,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1604784820228815,
      "step": 3498
    },
    {
      "epoch": 0.5831666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 2.1207682291666665,
      "learning_rate": 3.710963058929701e-05,
      "loss": 6.1586,
      "loss/crossentropy": 1.3086061477661133,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16800368949770927,
      "step": 3499
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 2.106705729166667,
      "learning_rate": 3.708433739663441e-05,
      "loss": 5.9595,
      "loss/crossentropy": 1.2396127432584763,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.153081888332963,
      "step": 3500
    },
    {
      "epoch": 0.5835,
      "grad_norm": 21.0,
      "grad_norm_var": 2.0494140625,
      "learning_rate": 3.705904774487396e-05,
      "loss": 5.6461,
      "loss/crossentropy": 1.0247849971055984,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1298683937638998,
      "step": 3501
    },
    {
      "epoch": 0.5836666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 2.34140625,
      "learning_rate": 3.7033761640948975e-05,
      "loss": 6.4707,
      "loss/crossentropy": 1.6268585175275803,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14060082472860813,
      "step": 3502
    },
    {
      "epoch": 0.5838333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 2.09140625,
      "learning_rate": 3.700847909179177e-05,
      "loss": 6.2708,
      "loss/crossentropy": 1.8706664144992828,
      "loss/hidden": 3.60546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26195773109793663,
      "step": 3503
    },
    {
      "epoch": 0.584,
      "grad_norm": 26.625,
      "grad_norm_var": 3.70625,
      "learning_rate": 3.6983200104333705e-05,
      "loss": 6.415,
      "loss/crossentropy": 1.7098660916090012,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21302314475178719,
      "step": 3504
    },
    {
      "epoch": 0.5841666666666666,
      "grad_norm": 23.5,
      "grad_norm_var": 3.8999348958333333,
      "learning_rate": 3.6957924685505167e-05,
      "loss": 6.0848,
      "loss/crossentropy": 1.7471860647201538,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17530174553394318,
      "step": 3505
    },
    {
      "epoch": 0.5843333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 3.7372395833333334,
      "learning_rate": 3.693265284223554e-05,
      "loss": 6.1829,
      "loss/crossentropy": 1.3434454575181007,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.25438629649579525,
      "step": 3506
    },
    {
      "epoch": 0.5845,
      "grad_norm": 19.875,
      "grad_norm_var": 3.9166015625,
      "learning_rate": 3.690738458145322e-05,
      "loss": 5.9988,
      "loss/crossentropy": 1.4110069423913956,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14824902825057507,
      "step": 3507
    },
    {
      "epoch": 0.5846666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 3.7087890625,
      "learning_rate": 3.68821199100857e-05,
      "loss": 5.8804,
      "loss/crossentropy": 1.3114720731973648,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13111251033842564,
      "step": 3508
    },
    {
      "epoch": 0.5848333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 3.501822916666667,
      "learning_rate": 3.68568588350594e-05,
      "loss": 6.0155,
      "loss/crossentropy": 1.1905877441167831,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12136249430477619,
      "step": 3509
    },
    {
      "epoch": 0.585,
      "grad_norm": 19.0,
      "grad_norm_var": 3.846875,
      "learning_rate": 3.683160136329981e-05,
      "loss": 5.8608,
      "loss/crossentropy": 1.7471497356891632,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12611471489071846,
      "step": 3510
    },
    {
      "epoch": 0.5851666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 3.69765625,
      "learning_rate": 3.680634750173137e-05,
      "loss": 6.096,
      "loss/crossentropy": 1.7278902232646942,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13356191292405128,
      "step": 3511
    },
    {
      "epoch": 0.5853333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 3.2619140625,
      "learning_rate": 3.6781097257277595e-05,
      "loss": 5.9491,
      "loss/crossentropy": 2.019748955965042,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17973356693983078,
      "step": 3512
    },
    {
      "epoch": 0.5855,
      "grad_norm": 19.125,
      "grad_norm_var": 3.6666015625,
      "learning_rate": 3.6755850636860954e-05,
      "loss": 5.762,
      "loss/crossentropy": 1.518367014825344,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20337373204529285,
      "step": 3513
    },
    {
      "epoch": 0.5856666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 3.678580729166667,
      "learning_rate": 3.6730607647403005e-05,
      "loss": 6.0654,
      "loss/crossentropy": 1.1521974951028824,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08323983289301395,
      "step": 3514
    },
    {
      "epoch": 0.5858333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 3.7020833333333334,
      "learning_rate": 3.670536829582424e-05,
      "loss": 6.2777,
      "loss/crossentropy": 1.7451251745224,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10920026525855064,
      "step": 3515
    },
    {
      "epoch": 0.586,
      "grad_norm": 22.125,
      "grad_norm_var": 3.68515625,
      "learning_rate": 3.6680132589044136e-05,
      "loss": 6.355,
      "loss/crossentropy": 1.397537723183632,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19982226751744747,
      "step": 3516
    },
    {
      "epoch": 0.5861666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 3.6582682291666666,
      "learning_rate": 3.665490053398123e-05,
      "loss": 6.2212,
      "loss/crossentropy": 1.2251611649990082,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15171089209616184,
      "step": 3517
    },
    {
      "epoch": 0.5863333333333334,
      "grad_norm": 23.625,
      "grad_norm_var": 3.7692057291666665,
      "learning_rate": 3.662967213755304e-05,
      "loss": 6.0773,
      "loss/crossentropy": 1.2049985826015472,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10673215566202998,
      "step": 3518
    },
    {
      "epoch": 0.5865,
      "grad_norm": 23.75,
      "grad_norm_var": 3.9205729166666665,
      "learning_rate": 3.6604447406676036e-05,
      "loss": 6.1375,
      "loss/crossentropy": 0.9523100480437279,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09936867840588093,
      "step": 3519
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 2.593489583333333,
      "learning_rate": 3.657922634826578e-05,
      "loss": 6.035,
      "loss/crossentropy": 1.8450467586517334,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19856483861804008,
      "step": 3520
    },
    {
      "epoch": 0.5868333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.314583333333333,
      "learning_rate": 3.655400896923672e-05,
      "loss": 6.3831,
      "loss/crossentropy": 1.1419007182121277,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11093972995877266,
      "step": 3521
    },
    {
      "epoch": 0.587,
      "grad_norm": 20.375,
      "grad_norm_var": 2.3309895833333334,
      "learning_rate": 3.652879527650237e-05,
      "loss": 5.8758,
      "loss/crossentropy": 1.9451187252998352,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13848868571221828,
      "step": 3522
    },
    {
      "epoch": 0.5871666666666666,
      "grad_norm": 24.25,
      "grad_norm_var": 2.716080729166667,
      "learning_rate": 3.650358527697519e-05,
      "loss": 6.4277,
      "loss/crossentropy": 1.6960938572883606,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12505381926894188,
      "step": 3523
    },
    {
      "epoch": 0.5873333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 2.6207682291666665,
      "learning_rate": 3.647837897756666e-05,
      "loss": 6.0721,
      "loss/crossentropy": 0.8262748122215271,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11325335409492254,
      "step": 3524
    },
    {
      "epoch": 0.5875,
      "grad_norm": 21.5,
      "grad_norm_var": 2.6077473958333335,
      "learning_rate": 3.645317638518721e-05,
      "loss": 6.1339,
      "loss/crossentropy": 1.7757025361061096,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22522160224616528,
      "step": 3525
    },
    {
      "epoch": 0.5876666666666667,
      "grad_norm": 19.0,
      "grad_norm_var": 2.6077473958333335,
      "learning_rate": 3.642797750674629e-05,
      "loss": 5.9128,
      "loss/crossentropy": 1.9038176834583282,
      "loss/hidden": 2.83984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1131199561059475,
      "step": 3526
    },
    {
      "epoch": 0.5878333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 2.5947265625,
      "learning_rate": 3.640278234915232e-05,
      "loss": 5.8859,
      "loss/crossentropy": 1.6650467216968536,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16053603403270245,
      "step": 3527
    },
    {
      "epoch": 0.588,
      "grad_norm": 20.0,
      "grad_norm_var": 2.6801432291666667,
      "learning_rate": 3.6377590919312676e-05,
      "loss": 5.8023,
      "loss/crossentropy": 0.804311566054821,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.06254027551040053,
      "step": 3528
    },
    {
      "epoch": 0.5881666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 2.5020182291666666,
      "learning_rate": 3.635240322413374e-05,
      "loss": 5.9972,
      "loss/crossentropy": 1.8711605668067932,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1735384799540043,
      "step": 3529
    },
    {
      "epoch": 0.5883333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 2.4551432291666666,
      "learning_rate": 3.6327219270520875e-05,
      "loss": 6.0907,
      "loss/crossentropy": 1.8463525176048279,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11800253205001354,
      "step": 3530
    },
    {
      "epoch": 0.5885,
      "grad_norm": 21.0,
      "grad_norm_var": 2.4072916666666666,
      "learning_rate": 3.630203906537838e-05,
      "loss": 6.2438,
      "loss/crossentropy": 2.064885824918747,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1329382322728634,
      "step": 3531
    },
    {
      "epoch": 0.5886666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 2.4322916666666665,
      "learning_rate": 3.627686261560957e-05,
      "loss": 5.9917,
      "loss/crossentropy": 1.4018711298704147,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12958788964897394,
      "step": 3532
    },
    {
      "epoch": 0.5888333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 2.5166015625,
      "learning_rate": 3.625168992811671e-05,
      "loss": 6.2259,
      "loss/crossentropy": 1.7236787974834442,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14046969637274742,
      "step": 3533
    },
    {
      "epoch": 0.589,
      "grad_norm": 20.625,
      "grad_norm_var": 2.1072265625,
      "learning_rate": 3.6226521009801025e-05,
      "loss": 6.0723,
      "loss/crossentropy": 1.4141209870576859,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14650414511561394,
      "step": 3534
    },
    {
      "epoch": 0.5891666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 1.64140625,
      "learning_rate": 3.620135586756273e-05,
      "loss": 6.4132,
      "loss/crossentropy": 1.138060063123703,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17316975723952055,
      "step": 3535
    },
    {
      "epoch": 0.5893333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.69765625,
      "learning_rate": 3.617619450830097e-05,
      "loss": 6.3222,
      "loss/crossentropy": 0.999704509973526,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15033339895308018,
      "step": 3536
    },
    {
      "epoch": 0.5895,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6705729166666667,
      "learning_rate": 3.615103693891388e-05,
      "loss": 6.2104,
      "loss/crossentropy": 1.6369659751653671,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1602991744875908,
      "step": 3537
    },
    {
      "epoch": 0.5896666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.6434895833333334,
      "learning_rate": 3.612588316629858e-05,
      "loss": 6.0051,
      "loss/crossentropy": 1.6568823158740997,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18658975884318352,
      "step": 3538
    },
    {
      "epoch": 0.5898333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.915625,
      "learning_rate": 3.610073319735109e-05,
      "loss": 5.8836,
      "loss/crossentropy": 1.5321199893951416,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2530742082744837,
      "step": 3539
    },
    {
      "epoch": 0.59,
      "grad_norm": 20.125,
      "grad_norm_var": 0.93515625,
      "learning_rate": 3.6075587038966424e-05,
      "loss": 6.0795,
      "loss/crossentropy": 1.611201599240303,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11945848725736141,
      "step": 3540
    },
    {
      "epoch": 0.5901666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 0.9775390625,
      "learning_rate": 3.605044469803854e-05,
      "loss": 6.3279,
      "loss/crossentropy": 1.781482070684433,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1300263050943613,
      "step": 3541
    },
    {
      "epoch": 0.5903333333333334,
      "grad_norm": 19.625,
      "grad_norm_var": 0.84765625,
      "learning_rate": 3.602530618146037e-05,
      "loss": 6.1064,
      "loss/crossentropy": 1.3661959916353226,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09996525291353464,
      "step": 3542
    },
    {
      "epoch": 0.5905,
      "grad_norm": 18.5,
      "grad_norm_var": 1.1885416666666666,
      "learning_rate": 3.600017149612375e-05,
      "loss": 5.6848,
      "loss/crossentropy": 1.3793920874595642,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18408650904893875,
      "step": 3543
    },
    {
      "epoch": 0.5906666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.1559895833333333,
      "learning_rate": 3.597504064891952e-05,
      "loss": 6.0167,
      "loss/crossentropy": 1.7326894700527191,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16985883563756943,
      "step": 3544
    },
    {
      "epoch": 0.5908333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 1.1927083333333333,
      "learning_rate": 3.594991364673745e-05,
      "loss": 5.8753,
      "loss/crossentropy": 1.7887177467346191,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16981277614831924,
      "step": 3545
    },
    {
      "epoch": 0.591,
      "grad_norm": 21.5,
      "grad_norm_var": 1.2155598958333333,
      "learning_rate": 3.592479049646623e-05,
      "loss": 6.1967,
      "loss/crossentropy": 1.6443074643611908,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1534607745707035,
      "step": 3546
    },
    {
      "epoch": 0.5911666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 1.2374348958333334,
      "learning_rate": 3.589967120499353e-05,
      "loss": 5.9397,
      "loss/crossentropy": 1.27506685256958,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11739762034267187,
      "step": 3547
    },
    {
      "epoch": 0.5913333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.2389973958333333,
      "learning_rate": 3.5874555779205944e-05,
      "loss": 6.2589,
      "loss/crossentropy": 2.1046822667121887,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.17335660755634308,
      "step": 3548
    },
    {
      "epoch": 0.5915,
      "grad_norm": 20.875,
      "grad_norm_var": 1.0604166666666666,
      "learning_rate": 3.584944422598899e-05,
      "loss": 6.1209,
      "loss/crossentropy": 1.2938175946474075,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0953168235719204,
      "step": 3549
    },
    {
      "epoch": 0.5916666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 1.0604166666666666,
      "learning_rate": 3.582433655222717e-05,
      "loss": 6.293,
      "loss/crossentropy": 1.6713090538978577,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09280472621321678,
      "step": 3550
    },
    {
      "epoch": 0.5918333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.1223307291666667,
      "learning_rate": 3.579923276480387e-05,
      "loss": 5.9402,
      "loss/crossentropy": 0.7469888478517532,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.05070648714900017,
      "step": 3551
    },
    {
      "epoch": 0.592,
      "grad_norm": 22.25,
      "grad_norm_var": 1.0416666666666667,
      "learning_rate": 3.577413287060146e-05,
      "loss": 6.3114,
      "loss/crossentropy": 1.1012872606515884,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09772549010813236,
      "step": 3552
    },
    {
      "epoch": 0.5921666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 1.0705729166666667,
      "learning_rate": 3.5749036876501194e-05,
      "loss": 5.9945,
      "loss/crossentropy": 2.007381558418274,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19259774312376976,
      "step": 3553
    },
    {
      "epoch": 0.5923333333333334,
      "grad_norm": 22.875,
      "grad_norm_var": 1.3247395833333333,
      "learning_rate": 3.5723944789383315e-05,
      "loss": 6.3128,
      "loss/crossentropy": 1.7751339375972748,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1565434467047453,
      "step": 3554
    },
    {
      "epoch": 0.5925,
      "grad_norm": 21.125,
      "grad_norm_var": 1.3259765625,
      "learning_rate": 3.5698856616126905e-05,
      "loss": 5.8448,
      "loss/crossentropy": 1.930025726556778,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14873007871210575,
      "step": 3555
    },
    {
      "epoch": 0.5926666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.3587890625,
      "learning_rate": 3.567377236361008e-05,
      "loss": 6.0516,
      "loss/crossentropy": 1.4023861736059189,
      "loss/hidden": 2.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09706676006317139,
      "step": 3556
    },
    {
      "epoch": 0.5928333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3145182291666666,
      "learning_rate": 3.564869203870982e-05,
      "loss": 5.8994,
      "loss/crossentropy": 1.2218803614377975,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10574018955230713,
      "step": 3557
    },
    {
      "epoch": 0.593,
      "grad_norm": 20.375,
      "grad_norm_var": 1.2176432291666666,
      "learning_rate": 3.5623615648302026e-05,
      "loss": 6.1572,
      "loss/crossentropy": 1.4179456233978271,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12206475250422955,
      "step": 3558
    },
    {
      "epoch": 0.5931666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 0.7978515625,
      "learning_rate": 3.559854319926156e-05,
      "loss": 6.2331,
      "loss/crossentropy": 1.7964367419481277,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20912523008883,
      "step": 3559
    },
    {
      "epoch": 0.5933333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 0.8530598958333333,
      "learning_rate": 3.557347469846213e-05,
      "loss": 5.9029,
      "loss/crossentropy": 1.5180476307868958,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10920398496091366,
      "step": 3560
    },
    {
      "epoch": 0.5935,
      "grad_norm": 20.875,
      "grad_norm_var": 0.6994140625,
      "learning_rate": 3.554841015277641e-05,
      "loss": 5.9868,
      "loss/crossentropy": 1.3305843770503998,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11596378870308399,
      "step": 3561
    },
    {
      "epoch": 0.5936666666666667,
      "grad_norm": 18.125,
      "grad_norm_var": 1.28125,
      "learning_rate": 3.552334956907604e-05,
      "loss": 5.7938,
      "loss/crossentropy": 1.3583604842424393,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10315017960965633,
      "step": 3562
    },
    {
      "epoch": 0.5938333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 1.8322265625,
      "learning_rate": 3.5498292954231496e-05,
      "loss": 6.3445,
      "loss/crossentropy": 1.2177612334489822,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19024717900902033,
      "step": 3563
    },
    {
      "epoch": 0.594,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8488932291666667,
      "learning_rate": 3.547324031511218e-05,
      "loss": 6.5469,
      "loss/crossentropy": 2.064769610762596,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13544469699263573,
      "step": 3564
    },
    {
      "epoch": 0.5941666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 1.84140625,
      "learning_rate": 3.544819165858642e-05,
      "loss": 6.1446,
      "loss/crossentropy": 1.0193773359060287,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08549672923982143,
      "step": 3565
    },
    {
      "epoch": 0.5943333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.8535807291666666,
      "learning_rate": 3.542314699152145e-05,
      "loss": 6.1392,
      "loss/crossentropy": 1.2206646353006363,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08832698035985231,
      "step": 3566
    },
    {
      "epoch": 0.5945,
      "grad_norm": 18.5,
      "grad_norm_var": 2.2520182291666666,
      "learning_rate": 3.539810632078338e-05,
      "loss": 5.6613,
      "loss/crossentropy": 1.3416605293750763,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0939324819482863,
      "step": 3567
    },
    {
      "epoch": 0.5946666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 2.2643229166666665,
      "learning_rate": 3.5373069653237295e-05,
      "loss": 6.1007,
      "loss/crossentropy": 2.215386688709259,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13404973223805428,
      "step": 3568
    },
    {
      "epoch": 0.5948333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 2.434830729166667,
      "learning_rate": 3.534803699574714e-05,
      "loss": 6.2382,
      "loss/crossentropy": 1.5769277215003967,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1338395867496729,
      "step": 3569
    },
    {
      "epoch": 0.595,
      "grad_norm": 22.375,
      "grad_norm_var": 2.3228515625,
      "learning_rate": 3.532300835517572e-05,
      "loss": 6.4851,
      "loss/crossentropy": 1.598238930106163,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13130491226911545,
      "step": 3570
    },
    {
      "epoch": 0.5951666666666666,
      "grad_norm": 19.75,
      "grad_norm_var": 2.4052083333333334,
      "learning_rate": 3.529798373838481e-05,
      "loss": 5.9127,
      "loss/crossentropy": 1.6657815277576447,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11976692639291286,
      "step": 3571
    },
    {
      "epoch": 0.5953333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 2.5504557291666665,
      "learning_rate": 3.527296315223505e-05,
      "loss": 6.4063,
      "loss/crossentropy": 1.8105289936065674,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12727491557598114,
      "step": 3572
    },
    {
      "epoch": 0.5955,
      "grad_norm": 19.75,
      "grad_norm_var": 2.6393229166666665,
      "learning_rate": 3.524794660358593e-05,
      "loss": 5.9453,
      "loss/crossentropy": 1.603566199541092,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12491312064230442,
      "step": 3573
    },
    {
      "epoch": 0.5956666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 2.6393229166666665,
      "learning_rate": 3.522293409929595e-05,
      "loss": 6.0016,
      "loss/crossentropy": 1.870146781206131,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13844791799783707,
      "step": 3574
    },
    {
      "epoch": 0.5958333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 2.707291666666667,
      "learning_rate": 3.5197925646222387e-05,
      "loss": 5.6897,
      "loss/crossentropy": 1.3384176045656204,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09139900095760822,
      "step": 3575
    },
    {
      "epoch": 0.596,
      "grad_norm": 18.0,
      "grad_norm_var": 3.1830729166666667,
      "learning_rate": 3.5172921251221455e-05,
      "loss": 5.7056,
      "loss/crossentropy": 1.0973548144102097,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08914852328598499,
      "step": 3576
    },
    {
      "epoch": 0.5961666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 3.2416666666666667,
      "learning_rate": 3.5147920921148267e-05,
      "loss": 6.022,
      "loss/crossentropy": 1.2928729951381683,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11610987409949303,
      "step": 3577
    },
    {
      "epoch": 0.5963333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 2.875,
      "learning_rate": 3.512292466285678e-05,
      "loss": 6.3512,
      "loss/crossentropy": 1.6338746845722198,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1602024845778942,
      "step": 3578
    },
    {
      "epoch": 0.5965,
      "grad_norm": 20.5,
      "grad_norm_var": 2.1556640625,
      "learning_rate": 3.509793248319987e-05,
      "loss": 5.9083,
      "loss/crossentropy": 1.3251565992832184,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09423624724149704,
      "step": 3579
    },
    {
      "epoch": 0.5966666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 2.0936848958333334,
      "learning_rate": 3.507294438902929e-05,
      "loss": 6.019,
      "loss/crossentropy": 1.6337571442127228,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11875883862376213,
      "step": 3580
    },
    {
      "epoch": 0.5968333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 2.3983723958333334,
      "learning_rate": 3.504796038719567e-05,
      "loss": 6.4794,
      "loss/crossentropy": 1.6878334879875183,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1497821332886815,
      "step": 3581
    },
    {
      "epoch": 0.597,
      "grad_norm": 20.125,
      "grad_norm_var": 2.4208333333333334,
      "learning_rate": 3.502298048454851e-05,
      "loss": 6.0831,
      "loss/crossentropy": 1.6826956272125244,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18337115459144115,
      "step": 3582
    },
    {
      "epoch": 0.5971666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 2.1968098958333333,
      "learning_rate": 3.4998004687936196e-05,
      "loss": 6.591,
      "loss/crossentropy": 1.8285365104675293,
      "loss/hidden": 3.5,
      "loss/jsd": 0.0,
      "loss/logits": 0.32615287601947784,
      "step": 3583
    },
    {
      "epoch": 0.5973333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 2.11640625,
      "learning_rate": 3.497303300420598e-05,
      "loss": 6.3204,
      "loss/crossentropy": 1.2803095579147339,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10332764964550734,
      "step": 3584
    },
    {
      "epoch": 0.5975,
      "grad_norm": 22.5,
      "grad_norm_var": 2.092643229166667,
      "learning_rate": 3.494806544020398e-05,
      "loss": 6.0755,
      "loss/crossentropy": 1.377304956316948,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16673335433006287,
      "step": 3585
    },
    {
      "epoch": 0.5976666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.039322916666667,
      "learning_rate": 3.492310200277522e-05,
      "loss": 6.2337,
      "loss/crossentropy": 1.3152845054864883,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09732668660581112,
      "step": 3586
    },
    {
      "epoch": 0.5978333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.9268229166666666,
      "learning_rate": 3.4898142698763555e-05,
      "loss": 5.9673,
      "loss/crossentropy": 1.9923557043075562,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19456874951720238,
      "step": 3587
    },
    {
      "epoch": 0.598,
      "grad_norm": 21.375,
      "grad_norm_var": 1.7671223958333333,
      "learning_rate": 3.487318753501172e-05,
      "loss": 6.3428,
      "loss/crossentropy": 1.5806521475315094,
      "loss/hidden": 2.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09082447737455368,
      "step": 3588
    },
    {
      "epoch": 0.5981666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 1.6518229166666667,
      "learning_rate": 3.484823651836131e-05,
      "loss": 6.1318,
      "loss/crossentropy": 1.4831630885601044,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.118440892547369,
      "step": 3589
    },
    {
      "epoch": 0.5983333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.65,
      "learning_rate": 3.482328965565279e-05,
      "loss": 6.2237,
      "loss/crossentropy": 1.6479622721672058,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15233591757714748,
      "step": 3590
    },
    {
      "epoch": 0.5985,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4708333333333334,
      "learning_rate": 3.479834695372548e-05,
      "loss": 5.8795,
      "loss/crossentropy": 1.650275558233261,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.120565265417099,
      "step": 3591
    },
    {
      "epoch": 0.5986666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 0.9497395833333333,
      "learning_rate": 3.477340841941758e-05,
      "loss": 6.0362,
      "loss/crossentropy": 1.9976071119308472,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.139779981225729,
      "step": 3592
    },
    {
      "epoch": 0.5988333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.2009765625,
      "learning_rate": 3.4748474059566125e-05,
      "loss": 6.1477,
      "loss/crossentropy": 1.4548510164022446,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13723131641745567,
      "step": 3593
    },
    {
      "epoch": 0.599,
      "grad_norm": 23.5,
      "grad_norm_var": 1.36640625,
      "learning_rate": 3.4723543881007e-05,
      "loss": 6.2015,
      "loss/crossentropy": 1.5807844251394272,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13981175515800714,
      "step": 3594
    },
    {
      "epoch": 0.5991666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 1.2447265625,
      "learning_rate": 3.469861789057497e-05,
      "loss": 5.9104,
      "loss/crossentropy": 0.916628435254097,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12640822865068913,
      "step": 3595
    },
    {
      "epoch": 0.5993333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.321875,
      "learning_rate": 3.467369609510363e-05,
      "loss": 6.3828,
      "loss/crossentropy": 1.9437492191791534,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13547582738101482,
      "step": 3596
    },
    {
      "epoch": 0.5995,
      "grad_norm": 20.625,
      "grad_norm_var": 1.3478515625,
      "learning_rate": 3.4648778501425405e-05,
      "loss": 5.9134,
      "loss/crossentropy": 1.4773377627134323,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13154264260083437,
      "step": 3597
    },
    {
      "epoch": 0.5996666666666667,
      "grad_norm": 19.375,
      "grad_norm_var": 1.5525390625,
      "learning_rate": 3.462386511637164e-05,
      "loss": 6.2334,
      "loss/crossentropy": 1.822946548461914,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13186707347631454,
      "step": 3598
    },
    {
      "epoch": 0.5998333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.5604166666666666,
      "learning_rate": 3.459895594677245e-05,
      "loss": 5.9378,
      "loss/crossentropy": 1.0963317602872849,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14594079926609993,
      "step": 3599
    },
    {
      "epoch": 0.6,
      "grad_norm": 21.125,
      "grad_norm_var": 1.5718098958333333,
      "learning_rate": 3.457405099945684e-05,
      "loss": 6.1933,
      "loss/crossentropy": 1.3030778542160988,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1405898267403245,
      "step": 3600
    },
    {
      "epoch": 0.6001666666666666,
      "grad_norm": 28.875,
      "grad_norm_var": 4.848958333333333,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 6.2402,
      "loss/crossentropy": 1.674401342868805,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13115436024963856,
      "step": 3601
    },
    {
      "epoch": 0.6003333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 4.915625,
      "learning_rate": 3.452425379898651e-05,
      "loss": 5.9089,
      "loss/crossentropy": 1.604503095149994,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11583887040615082,
      "step": 3602
    },
    {
      "epoch": 0.6005,
      "grad_norm": 21.0,
      "grad_norm_var": 4.97265625,
      "learning_rate": 3.4499361559483975e-05,
      "loss": 6.4518,
      "loss/crossentropy": 1.656738042831421,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20267616212368011,
      "step": 3603
    },
    {
      "epoch": 0.6006666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 5.0625,
      "learning_rate": 3.4474473569569385e-05,
      "loss": 5.765,
      "loss/crossentropy": 1.0724356696009636,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07563615590333939,
      "step": 3604
    },
    {
      "epoch": 0.6008333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 5.291666666666667,
      "learning_rate": 3.444958983606592e-05,
      "loss": 6.2277,
      "loss/crossentropy": 1.6128710508346558,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1539558507502079,
      "step": 3605
    },
    {
      "epoch": 0.601,
      "grad_norm": 20.25,
      "grad_norm_var": 5.433268229166667,
      "learning_rate": 3.44247103657956e-05,
      "loss": 5.6671,
      "loss/crossentropy": 1.2956351935863495,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10678227618336678,
      "step": 3606
    },
    {
      "epoch": 0.6011666666666666,
      "grad_norm": 23.375,
      "grad_norm_var": 5.491666666666666,
      "learning_rate": 3.4399835165579266e-05,
      "loss": 6.3311,
      "loss/crossentropy": 1.640434592962265,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18646874278783798,
      "step": 3607
    },
    {
      "epoch": 0.6013333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 5.359830729166666,
      "learning_rate": 3.437496424223661e-05,
      "loss": 6.0453,
      "loss/crossentropy": 1.2893105745315552,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14530836418271065,
      "step": 3608
    },
    {
      "epoch": 0.6015,
      "grad_norm": 21.375,
      "grad_norm_var": 5.051822916666667,
      "learning_rate": 3.435009760258608e-05,
      "loss": 6.2315,
      "loss/crossentropy": 1.8793494403362274,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13555259257555008,
      "step": 3609
    },
    {
      "epoch": 0.6016666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 4.772916666666666,
      "learning_rate": 3.4325235253445096e-05,
      "loss": 6.1882,
      "loss/crossentropy": 1.3920495361089706,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11326965503394604,
      "step": 3610
    },
    {
      "epoch": 0.6018333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 4.797330729166666,
      "learning_rate": 3.4300377201629754e-05,
      "loss": 6.3587,
      "loss/crossentropy": 1.5680171102285385,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21258719265460968,
      "step": 3611
    },
    {
      "epoch": 0.602,
      "grad_norm": 21.5,
      "grad_norm_var": 4.773893229166666,
      "learning_rate": 3.427552345395505e-05,
      "loss": 6.2618,
      "loss/crossentropy": 1.567084163427353,
      "loss/hidden": 2.84765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11884208954870701,
      "step": 3612
    },
    {
      "epoch": 0.6021666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 4.73515625,
      "learning_rate": 3.425067401723477e-05,
      "loss": 5.9864,
      "loss/crossentropy": 1.775809794664383,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20799962431192398,
      "step": 3613
    },
    {
      "epoch": 0.6023333333333334,
      "grad_norm": 20.0,
      "grad_norm_var": 4.588997395833333,
      "learning_rate": 3.4225828898281534e-05,
      "loss": 5.8478,
      "loss/crossentropy": 1.6243265271186829,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23527513444423676,
      "step": 3614
    },
    {
      "epoch": 0.6025,
      "grad_norm": 20.75,
      "grad_norm_var": 4.608268229166667,
      "learning_rate": 3.4200988103906745e-05,
      "loss": 5.8857,
      "loss/crossentropy": 1.3708164393901825,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10789607092738152,
      "step": 3615
    },
    {
      "epoch": 0.6026666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 4.645247395833334,
      "learning_rate": 3.417615164092069e-05,
      "loss": 6.1258,
      "loss/crossentropy": 1.4973787814378738,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11387566477060318,
      "step": 3616
    },
    {
      "epoch": 0.6028333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 0.76015625,
      "learning_rate": 3.4151319516132416e-05,
      "loss": 5.8897,
      "loss/crossentropy": 1.8439854979515076,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17161360941827297,
      "step": 3617
    },
    {
      "epoch": 0.603,
      "grad_norm": 22.25,
      "grad_norm_var": 0.8604166666666667,
      "learning_rate": 3.4126491736349785e-05,
      "loss": 5.7968,
      "loss/crossentropy": 1.7316889464855194,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10895316302776337,
      "step": 3618
    },
    {
      "epoch": 0.6031666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 0.9145833333333333,
      "learning_rate": 3.4101668308379466e-05,
      "loss": 5.8146,
      "loss/crossentropy": 1.532093733549118,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11209731549024582,
      "step": 3619
    },
    {
      "epoch": 0.6033333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 0.896875,
      "learning_rate": 3.4076849239026944e-05,
      "loss": 6.1653,
      "loss/crossentropy": 1.370265781879425,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13192875497043133,
      "step": 3620
    },
    {
      "epoch": 0.6035,
      "grad_norm": 22.0,
      "grad_norm_var": 0.7645182291666667,
      "learning_rate": 3.40520345350965e-05,
      "loss": 6.0161,
      "loss/crossentropy": 1.7335061430931091,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19184181094169617,
      "step": 3621
    },
    {
      "epoch": 0.6036666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 0.7830729166666667,
      "learning_rate": 3.402722420339125e-05,
      "loss": 6.2121,
      "loss/crossentropy": 1.8040619492530823,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18380606546998024,
      "step": 3622
    },
    {
      "epoch": 0.6038333333333333,
      "grad_norm": 19.375,
      "grad_norm_var": 0.7580729166666667,
      "learning_rate": 3.4002418250713086e-05,
      "loss": 5.7501,
      "loss/crossentropy": 1.2000001147389412,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1033457638695836,
      "step": 3623
    },
    {
      "epoch": 0.604,
      "grad_norm": 19.375,
      "grad_norm_var": 0.9309895833333334,
      "learning_rate": 3.3977616683862684e-05,
      "loss": 5.6956,
      "loss/crossentropy": 1.3138391822576523,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1306956671178341,
      "step": 3624
    },
    {
      "epoch": 0.6041666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 0.9309895833333334,
      "learning_rate": 3.3952819509639534e-05,
      "loss": 6.3734,
      "loss/crossentropy": 2.1271601021289825,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14057285338640213,
      "step": 3625
    },
    {
      "epoch": 0.6043333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.9452473958333333,
      "learning_rate": 3.392802673484193e-05,
      "loss": 6.4038,
      "loss/crossentropy": 1.3535343706607819,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12930390238761902,
      "step": 3626
    },
    {
      "epoch": 0.6045,
      "grad_norm": 22.75,
      "grad_norm_var": 1.0848307291666666,
      "learning_rate": 3.3903238366266955e-05,
      "loss": 6.1605,
      "loss/crossentropy": 1.5776149034500122,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1711192224174738,
      "step": 3627
    },
    {
      "epoch": 0.6046666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.1268229166666666,
      "learning_rate": 3.387845441071046e-05,
      "loss": 6.1656,
      "loss/crossentropy": 1.9158449172973633,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2685321196913719,
      "step": 3628
    },
    {
      "epoch": 0.6048333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.1577473958333333,
      "learning_rate": 3.385367487496713e-05,
      "loss": 5.8583,
      "loss/crossentropy": 1.3559797927737236,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12654918245971203,
      "step": 3629
    },
    {
      "epoch": 0.605,
      "grad_norm": 21.0,
      "grad_norm_var": 1.0483723958333333,
      "learning_rate": 3.3828899765830414e-05,
      "loss": 5.5189,
      "loss/crossentropy": 1.166925773024559,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.07473761029541492,
      "step": 3630
    },
    {
      "epoch": 0.6051666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 1.1229166666666666,
      "learning_rate": 3.380412909009254e-05,
      "loss": 6.111,
      "loss/crossentropy": 1.061739221215248,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.1246676817536354,
      "step": 3631
    },
    {
      "epoch": 0.6053333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.1895833333333334,
      "learning_rate": 3.377936285454453e-05,
      "loss": 5.9747,
      "loss/crossentropy": 1.5104925781488419,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11559747904539108,
      "step": 3632
    },
    {
      "epoch": 0.6055,
      "grad_norm": 20.625,
      "grad_norm_var": 1.2046223958333333,
      "learning_rate": 3.375460106597619e-05,
      "loss": 5.6958,
      "loss/crossentropy": 1.4759776890277863,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12797890603542328,
      "step": 3633
    },
    {
      "epoch": 0.6056666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 1.2583333333333333,
      "learning_rate": 3.3729843731176094e-05,
      "loss": 5.9122,
      "loss/crossentropy": 1.488084465265274,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11098684556782246,
      "step": 3634
    },
    {
      "epoch": 0.6058333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.2697265625,
      "learning_rate": 3.370509085693163e-05,
      "loss": 6.4671,
      "loss/crossentropy": 1.5061882138252258,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14609150029718876,
      "step": 3635
    },
    {
      "epoch": 0.606,
      "grad_norm": 23.125,
      "grad_norm_var": 1.4509765625,
      "learning_rate": 3.3680342450028915e-05,
      "loss": 6.5391,
      "loss/crossentropy": 1.170841246843338,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17782967165112495,
      "step": 3636
    },
    {
      "epoch": 0.6061666666666666,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4931640625,
      "learning_rate": 3.3655598517252885e-05,
      "loss": 5.9145,
      "loss/crossentropy": 0.8536971062421799,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0944033283740282,
      "step": 3637
    },
    {
      "epoch": 0.6063333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.4739583333333333,
      "learning_rate": 3.3630859065387215e-05,
      "loss": 6.4238,
      "loss/crossentropy": 1.4761672019958496,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17594059742987156,
      "step": 3638
    },
    {
      "epoch": 0.6065,
      "grad_norm": 20.5,
      "grad_norm_var": 1.2483723958333333,
      "learning_rate": 3.3606124101214375e-05,
      "loss": 5.9763,
      "loss/crossentropy": 1.798694908618927,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19958261400461197,
      "step": 3639
    },
    {
      "epoch": 0.6066666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 0.9580729166666667,
      "learning_rate": 3.3581393631515576e-05,
      "loss": 5.8237,
      "loss/crossentropy": 1.1862847432494164,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14769438235089183,
      "step": 3640
    },
    {
      "epoch": 0.6068333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 0.9655598958333333,
      "learning_rate": 3.355666766307084e-05,
      "loss": 6.1771,
      "loss/crossentropy": 1.3956021815538406,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.123491570353508,
      "step": 3641
    },
    {
      "epoch": 0.607,
      "grad_norm": 19.625,
      "grad_norm_var": 1.2134765625,
      "learning_rate": 3.3531946202658923e-05,
      "loss": 5.9992,
      "loss/crossentropy": 1.2215983867645264,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1465761996805668,
      "step": 3642
    },
    {
      "epoch": 0.6071666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 1.1228515625,
      "learning_rate": 3.350722925705736e-05,
      "loss": 5.9393,
      "loss/crossentropy": 1.313648208975792,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15336874127388,
      "step": 3643
    },
    {
      "epoch": 0.6073333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.0900390625,
      "learning_rate": 3.348251683304243e-05,
      "loss": 5.6978,
      "loss/crossentropy": 1.85075344145298,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16016731783747673,
      "step": 3644
    },
    {
      "epoch": 0.6075,
      "grad_norm": 22.625,
      "grad_norm_var": 1.1337890625,
      "learning_rate": 3.34578089373892e-05,
      "loss": 6.5381,
      "loss/crossentropy": 1.3769900351762772,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11307178810238838,
      "step": 3645
    },
    {
      "epoch": 0.6076666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.1442057291666667,
      "learning_rate": 3.343310557687145e-05,
      "loss": 6.2546,
      "loss/crossentropy": 1.540162593126297,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11266910657286644,
      "step": 3646
    },
    {
      "epoch": 0.6078333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 1.2916666666666667,
      "learning_rate": 3.340840675826178e-05,
      "loss": 5.8201,
      "loss/crossentropy": 1.2056175917387009,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09926701616495848,
      "step": 3647
    },
    {
      "epoch": 0.608,
      "grad_norm": 20.125,
      "grad_norm_var": 1.328125,
      "learning_rate": 3.33837124883315e-05,
      "loss": 5.9283,
      "loss/crossentropy": 1.992550253868103,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1694924272596836,
      "step": 3648
    },
    {
      "epoch": 0.6081666666666666,
      "grad_norm": 22.875,
      "grad_norm_var": 1.41015625,
      "learning_rate": 3.335902277385067e-05,
      "loss": 5.8448,
      "loss/crossentropy": 1.881356567144394,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.235331192612648,
      "step": 3649
    },
    {
      "epoch": 0.6083333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3322265625,
      "learning_rate": 3.333433762158814e-05,
      "loss": 6.0902,
      "loss/crossentropy": 1.8614905327558517,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13432816416025162,
      "step": 3650
    },
    {
      "epoch": 0.6085,
      "grad_norm": 20.125,
      "grad_norm_var": 1.4134765625,
      "learning_rate": 3.330965703831146e-05,
      "loss": 5.9245,
      "loss/crossentropy": 1.0619727820158005,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1003867294639349,
      "step": 3651
    },
    {
      "epoch": 0.6086666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.2728515625,
      "learning_rate": 3.328498103078696e-05,
      "loss": 6.2063,
      "loss/crossentropy": 1.3116433769464493,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1456119865179062,
      "step": 3652
    },
    {
      "epoch": 0.6088333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.3431640625,
      "learning_rate": 3.326030960577972e-05,
      "loss": 6.2078,
      "loss/crossentropy": 1.670426368713379,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1266972441226244,
      "step": 3653
    },
    {
      "epoch": 0.609,
      "grad_norm": 22.125,
      "grad_norm_var": 1.3,
      "learning_rate": 3.3235642770053535e-05,
      "loss": 6.2711,
      "loss/crossentropy": 1.2424733489751816,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11083303950726986,
      "step": 3654
    },
    {
      "epoch": 0.6091666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.2384765625,
      "learning_rate": 3.321098053037097e-05,
      "loss": 5.8179,
      "loss/crossentropy": 1.7823589593172073,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1396911535412073,
      "step": 3655
    },
    {
      "epoch": 0.6093333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.24140625,
      "learning_rate": 3.318632289349332e-05,
      "loss": 6.3665,
      "loss/crossentropy": 1.8126008212566376,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20956603810191154,
      "step": 3656
    },
    {
      "epoch": 0.6095,
      "grad_norm": 21.375,
      "grad_norm_var": 1.2306640625,
      "learning_rate": 3.31616698661806e-05,
      "loss": 5.8465,
      "loss/crossentropy": 1.440568283200264,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11296902876347303,
      "step": 3657
    },
    {
      "epoch": 0.6096666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.0744140625,
      "learning_rate": 3.3137021455191564e-05,
      "loss": 6.2141,
      "loss/crossentropy": 1.7989376187324524,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.21157384105026722,
      "step": 3658
    },
    {
      "epoch": 0.6098333333333333,
      "grad_norm": 19.0,
      "grad_norm_var": 1.4712890625,
      "learning_rate": 3.3112377667283756e-05,
      "loss": 5.7212,
      "loss/crossentropy": 1.18753020465374,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10911548230797052,
      "step": 3659
    },
    {
      "epoch": 0.61,
      "grad_norm": 23.125,
      "grad_norm_var": 1.6572265625,
      "learning_rate": 3.3087738509213395e-05,
      "loss": 6.4203,
      "loss/crossentropy": 2.0639548897743225,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19047730416059494,
      "step": 3660
    },
    {
      "epoch": 0.6101666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 1.6093098958333334,
      "learning_rate": 3.3063103987735433e-05,
      "loss": 5.8717,
      "loss/crossentropy": 1.4247400015592575,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12134180497378111,
      "step": 3661
    },
    {
      "epoch": 0.6103333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.5577473958333334,
      "learning_rate": 3.3038474109603584e-05,
      "loss": 6.5078,
      "loss/crossentropy": 0.737735316157341,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07633454073220491,
      "step": 3662
    },
    {
      "epoch": 0.6105,
      "grad_norm": 21.875,
      "grad_norm_var": 1.32890625,
      "learning_rate": 3.3013848881570245e-05,
      "loss": 6.0055,
      "loss/crossentropy": 1.5339654237031937,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16769647039473057,
      "step": 3663
    },
    {
      "epoch": 0.6106666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.2875,
      "learning_rate": 3.298922831038655e-05,
      "loss": 6.2081,
      "loss/crossentropy": 1.6257351636886597,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12209012545645237,
      "step": 3664
    },
    {
      "epoch": 0.6108333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 1.1559895833333333,
      "learning_rate": 3.296461240280242e-05,
      "loss": 5.8095,
      "loss/crossentropy": 1.6412479877471924,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23693393170833588,
      "step": 3665
    },
    {
      "epoch": 0.611,
      "grad_norm": 21.375,
      "grad_norm_var": 1.1483723958333334,
      "learning_rate": 3.294000116556641e-05,
      "loss": 6.5102,
      "loss/crossentropy": 1.3538349494338036,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0999538954347372,
      "step": 3666
    },
    {
      "epoch": 0.6111666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 1.0561848958333333,
      "learning_rate": 3.2915394605425835e-05,
      "loss": 6.1362,
      "loss/crossentropy": 1.254408359527588,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12891664542257786,
      "step": 3667
    },
    {
      "epoch": 0.6113333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.0582682291666667,
      "learning_rate": 3.289079272912674e-05,
      "loss": 6.2644,
      "loss/crossentropy": 1.4373063445091248,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1826507654041052,
      "step": 3668
    },
    {
      "epoch": 0.6115,
      "grad_norm": 21.25,
      "grad_norm_var": 0.9129557291666667,
      "learning_rate": 3.286619554341384e-05,
      "loss": 6.0816,
      "loss/crossentropy": 1.3706105649471283,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10340302623808384,
      "step": 3669
    },
    {
      "epoch": 0.6116666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 0.8947265625,
      "learning_rate": 3.284160305503059e-05,
      "loss": 6.0446,
      "loss/crossentropy": 1.085822969675064,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09435657877475023,
      "step": 3670
    },
    {
      "epoch": 0.6118333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 0.9197916666666667,
      "learning_rate": 3.28170152707192e-05,
      "loss": 5.8493,
      "loss/crossentropy": 1.813815951347351,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1772034578025341,
      "step": 3671
    },
    {
      "epoch": 0.612,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1629557291666666,
      "learning_rate": 3.279243219722052e-05,
      "loss": 6.5629,
      "loss/crossentropy": 1.2436362951993942,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16690643876791,
      "step": 3672
    },
    {
      "epoch": 0.6121666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 1.1707682291666666,
      "learning_rate": 3.276785384127415e-05,
      "loss": 5.7108,
      "loss/crossentropy": 1.2495972588658333,
      "loss/hidden": 2.69140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07366005424410105,
      "step": 3673
    },
    {
      "epoch": 0.6123333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.1973307291666666,
      "learning_rate": 3.274328020961839e-05,
      "loss": 5.9189,
      "loss/crossentropy": 1.2685614228248596,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14388061128556728,
      "step": 3674
    },
    {
      "epoch": 0.6125,
      "grad_norm": 22.125,
      "grad_norm_var": 0.9580729166666667,
      "learning_rate": 3.2718711308990225e-05,
      "loss": 6.0642,
      "loss/crossentropy": 1.6359147727489471,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1131425779312849,
      "step": 3675
    },
    {
      "epoch": 0.6126666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 1.2264973958333334,
      "learning_rate": 3.2694147146125345e-05,
      "loss": 6.4985,
      "loss/crossentropy": 1.447916641831398,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19646507501602173,
      "step": 3676
    },
    {
      "epoch": 0.6128333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 1.30625,
      "learning_rate": 3.26695877277582e-05,
      "loss": 5.7727,
      "loss/crossentropy": 0.9937566816806793,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09671109821647406,
      "step": 3677
    },
    {
      "epoch": 0.613,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4455729166666667,
      "learning_rate": 3.264503306062188e-05,
      "loss": 6.4431,
      "loss/crossentropy": 2.2276482582092285,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15404460951685905,
      "step": 3678
    },
    {
      "epoch": 0.6131666666666666,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4634765625,
      "learning_rate": 3.262048315144815e-05,
      "loss": 6.1431,
      "loss/crossentropy": 1.0324962735176086,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16613971535116434,
      "step": 3679
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.415625,
      "learning_rate": 3.259593800696755e-05,
      "loss": 6.0985,
      "loss/crossentropy": 0.9596338048577309,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10896320547908545,
      "step": 3680
    },
    {
      "epoch": 0.6135,
      "grad_norm": 19.625,
      "grad_norm_var": 1.5739583333333333,
      "learning_rate": 3.257139763390925e-05,
      "loss": 5.5089,
      "loss/crossentropy": 1.0164804831147194,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16926445253193378,
      "step": 3681
    },
    {
      "epoch": 0.6136666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.5705729166666667,
      "learning_rate": 3.254686203900111e-05,
      "loss": 5.8606,
      "loss/crossentropy": 1.3723804652690887,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1161409243941307,
      "step": 3682
    },
    {
      "epoch": 0.6138333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.6684895833333333,
      "learning_rate": 3.2522331228969774e-05,
      "loss": 5.7609,
      "loss/crossentropy": 0.8768456354737282,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07927703205496073,
      "step": 3683
    },
    {
      "epoch": 0.614,
      "grad_norm": 20.875,
      "grad_norm_var": 1.6372395833333333,
      "learning_rate": 3.249780521054043e-05,
      "loss": 5.9795,
      "loss/crossentropy": 1.2202140241861343,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12191777117550373,
      "step": 3684
    },
    {
      "epoch": 0.6141666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 1.6389973958333333,
      "learning_rate": 3.247328399043706e-05,
      "loss": 6.4574,
      "loss/crossentropy": 1.5454980731010437,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14143161661922932,
      "step": 3685
    },
    {
      "epoch": 0.6143333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.6041666666666667,
      "learning_rate": 3.244876757538228e-05,
      "loss": 5.7886,
      "loss/crossentropy": 1.4160318970680237,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1028282381594181,
      "step": 3686
    },
    {
      "epoch": 0.6145,
      "grad_norm": 19.5,
      "grad_norm_var": 1.7268229166666667,
      "learning_rate": 3.242425597209742e-05,
      "loss": 6.0802,
      "loss/crossentropy": 1.7932184040546417,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19107694551348686,
      "step": 3687
    },
    {
      "epoch": 0.6146666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4997395833333333,
      "learning_rate": 3.239974918730245e-05,
      "loss": 6.2976,
      "loss/crossentropy": 1.915774017572403,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1498173549771309,
      "step": 3688
    },
    {
      "epoch": 0.6148333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 1.7285807291666666,
      "learning_rate": 3.2375247227716077e-05,
      "loss": 5.9675,
      "loss/crossentropy": 1.3848217278718948,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13260018825531006,
      "step": 3689
    },
    {
      "epoch": 0.615,
      "grad_norm": 19.125,
      "grad_norm_var": 1.9296223958333334,
      "learning_rate": 3.235075010005564e-05,
      "loss": 5.8489,
      "loss/crossentropy": 1.2938794791698456,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13045655190944672,
      "step": 3690
    },
    {
      "epoch": 0.6151666666666666,
      "grad_norm": 24.125,
      "grad_norm_var": 2.4525390625,
      "learning_rate": 3.2326257811037155e-05,
      "loss": 6.6404,
      "loss/crossentropy": 1.6533212661743164,
      "loss/hidden": 3.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.32580459117889404,
      "step": 3691
    },
    {
      "epoch": 0.6153333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 2.0166666666666666,
      "learning_rate": 3.230177036737533e-05,
      "loss": 5.949,
      "loss/crossentropy": 1.5197180062532425,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11717288009822369,
      "step": 3692
    },
    {
      "epoch": 0.6155,
      "grad_norm": 19.0,
      "grad_norm_var": 2.2291666666666665,
      "learning_rate": 3.2277287775783525e-05,
      "loss": 5.7662,
      "loss/crossentropy": 2.337820440530777,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17033992148935795,
      "step": 3693
    },
    {
      "epoch": 0.6156666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 2.1322916666666667,
      "learning_rate": 3.2252810042973794e-05,
      "loss": 6.3014,
      "loss/crossentropy": 1.66150963306427,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14086725749075413,
      "step": 3694
    },
    {
      "epoch": 0.6158333333333333,
      "grad_norm": 6677331968.0,
      "grad_norm_var": 2.786672620596031e+18,
      "learning_rate": 3.222833717565685e-05,
      "loss": 6.2063,
      "loss/crossentropy": 1.3839172795414925,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10311868228018284,
      "step": 3695
    },
    {
      "epoch": 0.616,
      "grad_norm": 21.25,
      "grad_norm_var": 2.78667262058212e+18,
      "learning_rate": 3.2203869180542064e-05,
      "loss": 5.8138,
      "loss/crossentropy": 1.3455937951803207,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09088294766843319,
      "step": 3696
    },
    {
      "epoch": 0.6161666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 2.7866726204499645e+18,
      "learning_rate": 3.217940606433747e-05,
      "loss": 6.3539,
      "loss/crossentropy": 1.4474857151508331,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1394912376999855,
      "step": 3697
    },
    {
      "epoch": 0.6163333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.786672620443009e+18,
      "learning_rate": 3.215494783374978e-05,
      "loss": 5.8804,
      "loss/crossentropy": 1.4583344161510468,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11428311467170715,
      "step": 3698
    },
    {
      "epoch": 0.6165,
      "grad_norm": 19.375,
      "grad_norm_var": 2.786672620470831e+18,
      "learning_rate": 3.213049449548434e-05,
      "loss": 5.7385,
      "loss/crossentropy": 0.8006353825330734,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1215061154216528,
      "step": 3699
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 2.7866726205334313e+18,
      "learning_rate": 3.2106046056245176e-05,
      "loss": 6.0137,
      "loss/crossentropy": 1.824221596121788,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13737501949071884,
      "step": 3700
    },
    {
      "epoch": 0.6168333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 2.7866726203595423e+18,
      "learning_rate": 3.2081602522734986e-05,
      "loss": 6.5307,
      "loss/crossentropy": 1.9537311494350433,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19479513727128506,
      "step": 3701
    },
    {
      "epoch": 0.617,
      "grad_norm": 20.0,
      "grad_norm_var": 2.786672620415187e+18,
      "learning_rate": 3.205716390165509e-05,
      "loss": 5.7565,
      "loss/crossentropy": 1.2174080610275269,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09713256731629372,
      "step": 3702
    },
    {
      "epoch": 0.6171666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 2.786672620345631e+18,
      "learning_rate": 3.203273019970547e-05,
      "loss": 6.0573,
      "loss/crossentropy": 1.4275454729795456,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12154286354780197,
      "step": 3703
    },
    {
      "epoch": 0.6173333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 2.78667262045692e+18,
      "learning_rate": 3.200830142358477e-05,
      "loss": 5.6857,
      "loss/crossentropy": 1.7655853033065796,
      "loss/hidden": 2.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11601504683494568,
      "step": 3704
    },
    {
      "epoch": 0.6175,
      "grad_norm": 18.75,
      "grad_norm_var": 2.786672620693409e+18,
      "learning_rate": 3.1983877579990274e-05,
      "loss": 5.5236,
      "loss/crossentropy": 1.0154304653406143,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10125639475882053,
      "step": 3705
    },
    {
      "epoch": 0.6176666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 2.786672620505609e+18,
      "learning_rate": 3.195945867561791e-05,
      "loss": 6.578,
      "loss/crossentropy": 1.2886714190244675,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11595682799816132,
      "step": 3706
    },
    {
      "epoch": 0.6178333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.786672620672542e+18,
      "learning_rate": 3.1935044717162277e-05,
      "loss": 6.2227,
      "loss/crossentropy": 1.21439940482378,
      "loss/hidden": 2.80078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10379033721983433,
      "step": 3707
    },
    {
      "epoch": 0.618,
      "grad_norm": 21.375,
      "grad_norm_var": 2.786672620728187e+18,
      "learning_rate": 3.191063571131659e-05,
      "loss": 5.9267,
      "loss/crossentropy": 1.144350491464138,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10699251666665077,
      "step": 3708
    },
    {
      "epoch": 0.6181666666666666,
      "grad_norm": 22.5,
      "grad_norm_var": 2.7866726205334313e+18,
      "learning_rate": 3.188623166477272e-05,
      "loss": 6.1613,
      "loss/crossentropy": 1.485137328505516,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11000705324113369,
      "step": 3709
    },
    {
      "epoch": 0.6183333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.7866726205890755e+18,
      "learning_rate": 3.186183258422117e-05,
      "loss": 5.9829,
      "loss/crossentropy": 1.5519455075263977,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10655154846608639,
      "step": 3710
    },
    {
      "epoch": 0.6185,
      "grad_norm": 21.75,
      "grad_norm_var": 1.7384765625,
      "learning_rate": 3.183743847635109e-05,
      "loss": 6.1148,
      "loss/crossentropy": 1.3508373498916626,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1487814299762249,
      "step": 3711
    },
    {
      "epoch": 0.6186666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 1.7379557291666667,
      "learning_rate": 3.181304934785025e-05,
      "loss": 5.7111,
      "loss/crossentropy": 0.8801860995590687,
      "loss/hidden": 2.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.058657373301684856,
      "step": 3712
    },
    {
      "epoch": 0.6188333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.6936848958333333,
      "learning_rate": 3.178866520540509e-05,
      "loss": 6.0273,
      "loss/crossentropy": 1.2116109877824783,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08814567886292934,
      "step": 3713
    },
    {
      "epoch": 0.619,
      "grad_norm": 22.375,
      "grad_norm_var": 1.7997395833333334,
      "learning_rate": 3.176428605570065e-05,
      "loss": 6.358,
      "loss/crossentropy": 1.6954425871372223,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.184866800904274,
      "step": 3714
    },
    {
      "epoch": 0.6191666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 1.6559895833333333,
      "learning_rate": 3.1739911905420617e-05,
      "loss": 6.4063,
      "loss/crossentropy": 1.217673659324646,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12735552061349154,
      "step": 3715
    },
    {
      "epoch": 0.6193333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.5488932291666666,
      "learning_rate": 3.1715542761247286e-05,
      "loss": 6.2991,
      "loss/crossentropy": 1.7855852544307709,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13235194981098175,
      "step": 3716
    },
    {
      "epoch": 0.6195,
      "grad_norm": 19.5,
      "grad_norm_var": 1.2348307291666667,
      "learning_rate": 3.169117862986163e-05,
      "loss": 5.6612,
      "loss/crossentropy": 1.4348738491535187,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13481993973255157,
      "step": 3717
    },
    {
      "epoch": 0.6196666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.2254557291666666,
      "learning_rate": 3.1666819517943156e-05,
      "loss": 5.8908,
      "loss/crossentropy": 1.7713217437267303,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.130204975605011,
      "step": 3718
    },
    {
      "epoch": 0.6198333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 1.37265625,
      "learning_rate": 3.164246543217011e-05,
      "loss": 6.1574,
      "loss/crossentropy": 1.4703356623649597,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12252861447632313,
      "step": 3719
    },
    {
      "epoch": 0.62,
      "grad_norm": 23.75,
      "grad_norm_var": 1.6205729166666667,
      "learning_rate": 3.1618116379219285e-05,
      "loss": 6.2969,
      "loss/crossentropy": 2.0356207489967346,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17667822539806366,
      "step": 3720
    },
    {
      "epoch": 0.6201666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 1.0749348958333333,
      "learning_rate": 3.1593772365766105e-05,
      "loss": 6.2143,
      "loss/crossentropy": 1.4012421071529388,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11702084541320801,
      "step": 3721
    },
    {
      "epoch": 0.6203333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.0643229166666666,
      "learning_rate": 3.156943339848463e-05,
      "loss": 6.4252,
      "loss/crossentropy": 1.641767531633377,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17297448590397835,
      "step": 3722
    },
    {
      "epoch": 0.6205,
      "grad_norm": 20.375,
      "grad_norm_var": 1.1666666666666667,
      "learning_rate": 3.1545099484047516e-05,
      "loss": 5.5074,
      "loss/crossentropy": 0.9054133743047714,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09524696879088879,
      "step": 3723
    },
    {
      "epoch": 0.6206666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.3535807291666666,
      "learning_rate": 3.152077062912602e-05,
      "loss": 5.992,
      "loss/crossentropy": 1.2622696161270142,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1247370820492506,
      "step": 3724
    },
    {
      "epoch": 0.6208333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.3499348958333333,
      "learning_rate": 3.149644684039008e-05,
      "loss": 5.8442,
      "loss/crossentropy": 1.7760850936174393,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13308793306350708,
      "step": 3725
    },
    {
      "epoch": 0.621,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4155598958333333,
      "learning_rate": 3.147212812450819e-05,
      "loss": 6.2693,
      "loss/crossentropy": 1.755757361650467,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18577275797724724,
      "step": 3726
    },
    {
      "epoch": 0.6211666666666666,
      "grad_norm": 19.375,
      "grad_norm_var": 1.69140625,
      "learning_rate": 3.144781448814746e-05,
      "loss": 5.9833,
      "loss/crossentropy": 1.5345059484243393,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1904300656169653,
      "step": 3727
    },
    {
      "epoch": 0.6213333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 1.7309895833333333,
      "learning_rate": 3.14235059379736e-05,
      "loss": 5.9483,
      "loss/crossentropy": 1.1970206573605537,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1715068994089961,
      "step": 3728
    },
    {
      "epoch": 0.6215,
      "grad_norm": 23.125,
      "grad_norm_var": 1.9332682291666667,
      "learning_rate": 3.139920248065095e-05,
      "loss": 6.2795,
      "loss/crossentropy": 1.6304818391799927,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13458705693483353,
      "step": 3729
    },
    {
      "epoch": 0.6216666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 2.121809895833333,
      "learning_rate": 3.1374904122842404e-05,
      "loss": 6.3473,
      "loss/crossentropy": 1.3213718086481094,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20842914283275604,
      "step": 3730
    },
    {
      "epoch": 0.6218333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 2.1080729166666665,
      "learning_rate": 3.135061087120955e-05,
      "loss": 6.0633,
      "loss/crossentropy": 1.44586381316185,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.128700640052557,
      "step": 3731
    },
    {
      "epoch": 0.622,
      "grad_norm": 22.125,
      "grad_norm_var": 2.040625,
      "learning_rate": 3.132632273241251e-05,
      "loss": 6.3309,
      "loss/crossentropy": 1.9095439016819,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1348380446434021,
      "step": 3732
    },
    {
      "epoch": 0.6221666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 1.7546223958333333,
      "learning_rate": 3.130203971310999e-05,
      "loss": 6.3315,
      "loss/crossentropy": 1.4900565445423126,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12119998037815094,
      "step": 3733
    },
    {
      "epoch": 0.6223333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.9018229166666667,
      "learning_rate": 3.127776181995933e-05,
      "loss": 6.2045,
      "loss/crossentropy": 1.8533143401145935,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12758034095168114,
      "step": 3734
    },
    {
      "epoch": 0.6225,
      "grad_norm": 19.75,
      "grad_norm_var": 1.9978515625,
      "learning_rate": 3.125348905961645e-05,
      "loss": 5.6636,
      "loss/crossentropy": 1.0795415937900543,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09986160881817341,
      "step": 3735
    },
    {
      "epoch": 0.6226666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.6514973958333334,
      "learning_rate": 3.122922143873584e-05,
      "loss": 6.4064,
      "loss/crossentropy": 1.5343874245882034,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11113713309168816,
      "step": 3736
    },
    {
      "epoch": 0.6228333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.5978515625,
      "learning_rate": 3.1204958963970666e-05,
      "loss": 6.6005,
      "loss/crossentropy": 1.4907280206680298,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1747440081089735,
      "step": 3737
    },
    {
      "epoch": 0.623,
      "grad_norm": 20.625,
      "grad_norm_var": 1.5395182291666667,
      "learning_rate": 3.118070164197258e-05,
      "loss": 5.6338,
      "loss/crossentropy": 1.27883230894804,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10221518576145172,
      "step": 3738
    },
    {
      "epoch": 0.6231666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.5395182291666667,
      "learning_rate": 3.1156449479391876e-05,
      "loss": 6.036,
      "loss/crossentropy": 1.2965086698532104,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14966080337762833,
      "step": 3739
    },
    {
      "epoch": 0.6233333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.4385416666666666,
      "learning_rate": 3.1132202482877415e-05,
      "loss": 5.9979,
      "loss/crossentropy": 1.5081333070993423,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14354934822767973,
      "step": 3740
    },
    {
      "epoch": 0.6235,
      "grad_norm": 20.75,
      "grad_norm_var": 1.4385416666666666,
      "learning_rate": 3.110796065907665e-05,
      "loss": 5.8305,
      "loss/crossentropy": 1.082239493727684,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1218595840036869,
      "step": 3741
    },
    {
      "epoch": 0.6236666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.6885416666666666,
      "learning_rate": 3.108372401463562e-05,
      "loss": 6.3862,
      "loss/crossentropy": 1.4982078820466995,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14788638800382614,
      "step": 3742
    },
    {
      "epoch": 0.6238333333333334,
      "grad_norm": 19.625,
      "grad_norm_var": 1.62265625,
      "learning_rate": 3.1059492556198934e-05,
      "loss": 6.1073,
      "loss/crossentropy": 2.1077950596809387,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18081123381853104,
      "step": 3743
    },
    {
      "epoch": 0.624,
      "grad_norm": 22.75,
      "grad_norm_var": 1.64375,
      "learning_rate": 3.103526629040979e-05,
      "loss": 6.3935,
      "loss/crossentropy": 1.56756392121315,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13616331666707993,
      "step": 3744
    },
    {
      "epoch": 0.6241666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 1.48515625,
      "learning_rate": 3.101104522390995e-05,
      "loss": 6.2385,
      "loss/crossentropy": 1.3545531332492828,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27014758810400963,
      "step": 3745
    },
    {
      "epoch": 0.6243333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.334375,
      "learning_rate": 3.098682936333976e-05,
      "loss": 6.1654,
      "loss/crossentropy": 2.227530926465988,
      "loss/hidden": 2.85546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12927101738750935,
      "step": 3746
    },
    {
      "epoch": 0.6245,
      "grad_norm": 5704253440.0,
      "grad_norm_var": 2.0336566914637279e+18,
      "learning_rate": 3.096261871533813e-05,
      "loss": 6.6121,
      "loss/crossentropy": 1.3131296336650848,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09766871202737093,
      "step": 3747
    },
    {
      "epoch": 0.6246666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 2.0336566914874954e+18,
      "learning_rate": 3.093841328654255e-05,
      "loss": 6.1818,
      "loss/crossentropy": 1.7960811853408813,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1622537523508072,
      "step": 3748
    },
    {
      "epoch": 0.6248333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 2.0336566915944502e+18,
      "learning_rate": 3.0914213083589086e-05,
      "loss": 5.6769,
      "loss/crossentropy": 1.2163849100470543,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08040054980665445,
      "step": 3749
    },
    {
      "epoch": 0.625,
      "grad_norm": 24.0,
      "grad_norm_var": 2.0336566914102505e+18,
      "learning_rate": 3.089001811311234e-05,
      "loss": 6.034,
      "loss/crossentropy": 1.600306361913681,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.192190645262599,
      "step": 3750
    },
    {
      "epoch": 0.6251666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 2.0336566912676442e+18,
      "learning_rate": 3.086582838174551e-05,
      "loss": 5.8656,
      "loss/crossentropy": 1.0203747749328613,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11669524852186441,
      "step": 3751
    },
    {
      "epoch": 0.6253333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 2.0336566912498184e+18,
      "learning_rate": 3.084164389612037e-05,
      "loss": 5.8066,
      "loss/crossentropy": 1.5989755541086197,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14112331345677376,
      "step": 3752
    },
    {
      "epoch": 0.6255,
      "grad_norm": 22.75,
      "grad_norm_var": 2.0336566912082248e+18,
      "learning_rate": 3.081746466286719e-05,
      "loss": 6.0267,
      "loss/crossentropy": 1.1490057483315468,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1313804592937231,
      "step": 3753
    },
    {
      "epoch": 0.6256666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.033656691190399e+18,
      "learning_rate": 3.079329068861488e-05,
      "loss": 6.3839,
      "loss/crossentropy": 1.308253899216652,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12669506669044495,
      "step": 3754
    },
    {
      "epoch": 0.6258333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 2.0336566910537347e+18,
      "learning_rate": 3.076912197999084e-05,
      "loss": 6.2145,
      "loss/crossentropy": 1.9122640192508698,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.169861052185297,
      "step": 3755
    },
    {
      "epoch": 0.626,
      "grad_norm": 22.0,
      "grad_norm_var": 2.0336566910240248e+18,
      "learning_rate": 3.07449585436211e-05,
      "loss": 6.1384,
      "loss/crossentropy": 1.2808876857161522,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11625209450721741,
      "step": 3756
    },
    {
      "epoch": 0.6261666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 2.0336566910537347e+18,
      "learning_rate": 3.072080038613018e-05,
      "loss": 5.7634,
      "loss/crossentropy": 0.878707766532898,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09548032842576504,
      "step": 3757
    },
    {
      "epoch": 0.6263333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.0336566911369216e+18,
      "learning_rate": 3.069664751414117e-05,
      "loss": 6.232,
      "loss/crossentropy": 1.2231445759534836,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1944536780938506,
      "step": 3758
    },
    {
      "epoch": 0.6265,
      "grad_norm": 19.625,
      "grad_norm_var": 2.0336566911369216e+18,
      "learning_rate": 3.067249993427572e-05,
      "loss": 5.7957,
      "loss/crossentropy": 1.85806243121624,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17090772092342377,
      "step": 3759
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 2.0336566911428636e+18,
      "learning_rate": 3.064835765315404e-05,
      "loss": 6.3267,
      "loss/crossentropy": 1.2636148035526276,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13382050767540932,
      "step": 3760
    },
    {
      "epoch": 0.6268333333333334,
      "grad_norm": 19.375,
      "grad_norm_var": 2.0336566912379343e+18,
      "learning_rate": 3.062422067739485e-05,
      "loss": 6.0667,
      "loss/crossentropy": 1.195889949798584,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.111388785764575,
      "step": 3761
    },
    {
      "epoch": 0.627,
      "grad_norm": 22.0,
      "grad_norm_var": 2.0336566912676442e+18,
      "learning_rate": 3.060008901361546e-05,
      "loss": 6.0533,
      "loss/crossentropy": 1.3209774792194366,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.123782804235816,
      "step": 3762
    },
    {
      "epoch": 0.6271666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 1.8405598958333333,
      "learning_rate": 3.05759626684317e-05,
      "loss": 6.0242,
      "loss/crossentropy": 1.8143061846494675,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19718982465565205,
      "step": 3763
    },
    {
      "epoch": 0.6273333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.8853515625,
      "learning_rate": 3.055184164845794e-05,
      "loss": 6.465,
      "loss/crossentropy": 1.476951688528061,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2012583427131176,
      "step": 3764
    },
    {
      "epoch": 0.6275,
      "grad_norm": 20.25,
      "grad_norm_var": 1.8580729166666667,
      "learning_rate": 3.052772596030708e-05,
      "loss": 5.8358,
      "loss/crossentropy": 1.0795694142580032,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1731014233082533,
      "step": 3765
    },
    {
      "epoch": 0.6276666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 1.6510416666666667,
      "learning_rate": 3.0503615610590603e-05,
      "loss": 5.621,
      "loss/crossentropy": 0.6448788493871689,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.05016667442396283,
      "step": 3766
    },
    {
      "epoch": 0.6278333333333334,
      "grad_norm": 19.75,
      "grad_norm_var": 1.7510416666666666,
      "learning_rate": 3.047951060591845e-05,
      "loss": 6.0097,
      "loss/crossentropy": 1.975159376859665,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18915463984012604,
      "step": 3767
    },
    {
      "epoch": 0.628,
      "grad_norm": 22.125,
      "grad_norm_var": 1.72265625,
      "learning_rate": 3.0455410952899198e-05,
      "loss": 5.9823,
      "loss/crossentropy": 1.745644137263298,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16757365688681602,
      "step": 3768
    },
    {
      "epoch": 0.6281666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.61015625,
      "learning_rate": 3.043131665813988e-05,
      "loss": 6.0675,
      "loss/crossentropy": 1.5003203749656677,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20725269056856632,
      "step": 3769
    },
    {
      "epoch": 0.6283333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.6322265625,
      "learning_rate": 3.0407227728246087e-05,
      "loss": 6.0666,
      "loss/crossentropy": 1.9368892014026642,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1793261356651783,
      "step": 3770
    },
    {
      "epoch": 0.6285,
      "grad_norm": 19.875,
      "grad_norm_var": 1.440625,
      "learning_rate": 3.038314416982194e-05,
      "loss": 5.9342,
      "loss/crossentropy": 1.5260040760040283,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16930419206619263,
      "step": 3771
    },
    {
      "epoch": 0.6286666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 1.4863932291666666,
      "learning_rate": 3.0359065989470072e-05,
      "loss": 6.1875,
      "loss/crossentropy": 2.019469678401947,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1383377555757761,
      "step": 3772
    },
    {
      "epoch": 0.6288333333333334,
      "grad_norm": 19.875,
      "grad_norm_var": 1.5155598958333334,
      "learning_rate": 3.033499319379163e-05,
      "loss": 6.1065,
      "loss/crossentropy": 1.2322136014699936,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1613603923469782,
      "step": 3773
    },
    {
      "epoch": 0.629,
      "grad_norm": 21.75,
      "grad_norm_var": 1.5155598958333334,
      "learning_rate": 3.0310925789386358e-05,
      "loss": 6.2734,
      "loss/crossentropy": 1.5842881798744202,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15558674558997154,
      "step": 3774
    },
    {
      "epoch": 0.6291666666666667,
      "grad_norm": 17.375,
      "grad_norm_var": 2.2046223958333333,
      "learning_rate": 3.028686378285245e-05,
      "loss": 5.1355,
      "loss/crossentropy": 1.2426723539829254,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08452516933903098,
      "step": 3775
    },
    {
      "epoch": 0.6293333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 1.9530598958333334,
      "learning_rate": 3.0262807180786647e-05,
      "loss": 5.9865,
      "loss/crossentropy": 1.5821232199668884,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1294567510485649,
      "step": 3776
    },
    {
      "epoch": 0.6295,
      "grad_norm": 21.75,
      "grad_norm_var": 1.9122395833333334,
      "learning_rate": 3.023875598978419e-05,
      "loss": 6.0654,
      "loss/crossentropy": 1.5015281736850739,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15406104922294617,
      "step": 3777
    },
    {
      "epoch": 0.6296666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.8041666666666667,
      "learning_rate": 3.021471021643885e-05,
      "loss": 6.3598,
      "loss/crossentropy": 1.8563906252384186,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14102177508175373,
      "step": 3778
    },
    {
      "epoch": 0.6298333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 1.5082682291666667,
      "learning_rate": 3.01906698673429e-05,
      "loss": 6.2476,
      "loss/crossentropy": 1.6278992295265198,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17341073602437973,
      "step": 3779
    },
    {
      "epoch": 0.63,
      "grad_norm": 24.0,
      "grad_norm_var": 2.003125,
      "learning_rate": 3.016663494908718e-05,
      "loss": 6.3821,
      "loss/crossentropy": 1.0077110528945923,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0962714753113687,
      "step": 3780
    },
    {
      "epoch": 0.6301666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 2.033072916666667,
      "learning_rate": 3.0142605468260978e-05,
      "loss": 5.7966,
      "loss/crossentropy": 1.6639251112937927,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1323286686092615,
      "step": 3781
    },
    {
      "epoch": 0.6303333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 2.042122395833333,
      "learning_rate": 3.0118581431452096e-05,
      "loss": 5.92,
      "loss/crossentropy": 1.3251959085464478,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1007133387029171,
      "step": 3782
    },
    {
      "epoch": 0.6305,
      "grad_norm": 19.875,
      "grad_norm_var": 2.0268229166666667,
      "learning_rate": 3.009456284524688e-05,
      "loss": 6.169,
      "loss/crossentropy": 1.3807806819677353,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1372725609689951,
      "step": 3783
    },
    {
      "epoch": 0.6306666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.8905598958333334,
      "learning_rate": 3.0070549716230156e-05,
      "loss": 5.9852,
      "loss/crossentropy": 1.8530499637126923,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13991840742528439,
      "step": 3784
    },
    {
      "epoch": 0.6308333333333334,
      "grad_norm": 19.875,
      "grad_norm_var": 1.9247395833333334,
      "learning_rate": 3.0046542050985237e-05,
      "loss": 5.9919,
      "loss/crossentropy": 2.3315400183200836,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14420681446790695,
      "step": 3785
    },
    {
      "epoch": 0.631,
      "grad_norm": 20.125,
      "grad_norm_var": 1.9372395833333333,
      "learning_rate": 3.0022539856094007e-05,
      "loss": 6.1308,
      "loss/crossentropy": 1.4501966834068298,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11825851164758205,
      "step": 3786
    },
    {
      "epoch": 0.6311666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.9229166666666666,
      "learning_rate": 2.999854313813677e-05,
      "loss": 5.6885,
      "loss/crossentropy": 0.8413241282105446,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09433309361338615,
      "step": 3787
    },
    {
      "epoch": 0.6313333333333333,
      "grad_norm": 18.375,
      "grad_norm_var": 2.187239583333333,
      "learning_rate": 2.9974551903692372e-05,
      "loss": 5.9172,
      "loss/crossentropy": 1.4384829327464104,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.27544710226356983,
      "step": 3788
    },
    {
      "epoch": 0.6315,
      "grad_norm": 21.25,
      "grad_norm_var": 2.1822265625,
      "learning_rate": 2.9950566159338144e-05,
      "loss": 6.1558,
      "loss/crossentropy": 1.5144908726215363,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19992703571915627,
      "step": 3789
    },
    {
      "epoch": 0.6316666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 2.1129557291666665,
      "learning_rate": 2.9926585911649918e-05,
      "loss": 6.0322,
      "loss/crossentropy": 1.8068747818470001,
      "loss/hidden": 3.5859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2535409703850746,
      "step": 3790
    },
    {
      "epoch": 0.6318333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4114583333333333,
      "learning_rate": 2.9902611167202e-05,
      "loss": 5.8556,
      "loss/crossentropy": 2.2605761289596558,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16178925707936287,
      "step": 3791
    },
    {
      "epoch": 0.632,
      "grad_norm": 22.125,
      "grad_norm_var": 1.53515625,
      "learning_rate": 2.987864193256722e-05,
      "loss": 6.3503,
      "loss/crossentropy": 2.0071547627449036,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2745818253606558,
      "step": 3792
    },
    {
      "epoch": 0.6321666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 1.7247395833333334,
      "learning_rate": 2.9854678214316873e-05,
      "loss": 6.1558,
      "loss/crossentropy": 1.525936782360077,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1506141908466816,
      "step": 3793
    },
    {
      "epoch": 0.6323333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.9171223958333334,
      "learning_rate": 2.9830720019020752e-05,
      "loss": 6.4913,
      "loss/crossentropy": 1.7805004119873047,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.21726793982088566,
      "step": 3794
    },
    {
      "epoch": 0.6325,
      "grad_norm": 20.5,
      "grad_norm_var": 1.9309895833333333,
      "learning_rate": 2.980676735324713e-05,
      "loss": 6.1419,
      "loss/crossentropy": 1.6133359670639038,
      "loss/hidden": 2.83203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09389758855104446,
      "step": 3795
    },
    {
      "epoch": 0.6326666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.2796223958333333,
      "learning_rate": 2.9782820223562756e-05,
      "loss": 6.2914,
      "loss/crossentropy": 1.8581424355506897,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20061075687408447,
      "step": 3796
    },
    {
      "epoch": 0.6328333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 1.3436848958333334,
      "learning_rate": 2.9758878636532883e-05,
      "loss": 6.1936,
      "loss/crossentropy": 1.3328180834650993,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10068240761756897,
      "step": 3797
    },
    {
      "epoch": 0.633,
      "grad_norm": 22.125,
      "grad_norm_var": 1.4124348958333333,
      "learning_rate": 2.9734942598721238e-05,
      "loss": 6.4797,
      "loss/crossentropy": 1.6303484588861465,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13039502687752247,
      "step": 3798
    },
    {
      "epoch": 0.6331666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 1.4739583333333333,
      "learning_rate": 2.9711012116690007e-05,
      "loss": 6.504,
      "loss/crossentropy": 1.7553478330373764,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15384988253936172,
      "step": 3799
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4488932291666667,
      "learning_rate": 2.9687087196999874e-05,
      "loss": 6.0099,
      "loss/crossentropy": 1.0824613869190216,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10697580315172672,
      "step": 3800
    },
    {
      "epoch": 0.6335,
      "grad_norm": 18.125,
      "grad_norm_var": 1.9337890625,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 5.7172,
      "loss/crossentropy": 2.0724341571331024,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1516042798757553,
      "step": 3801
    },
    {
      "epoch": 0.6336666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 2.408072916666667,
      "learning_rate": 2.9639254070877996e-05,
      "loss": 6.4167,
      "loss/crossentropy": 1.6496858298778534,
      "loss/hidden": 3.3984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15404999256134033,
      "step": 3802
    },
    {
      "epoch": 0.6338333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 2.414322916666667,
      "learning_rate": 2.961534587755995e-05,
      "loss": 6.318,
      "loss/crossentropy": 1.9947790801525116,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2203758992254734,
      "step": 3803
    },
    {
      "epoch": 0.634,
      "grad_norm": 22.875,
      "grad_norm_var": 1.9268229166666666,
      "learning_rate": 2.9591443272810464e-05,
      "loss": 6.0969,
      "loss/crossentropy": 1.664171278476715,
      "loss/hidden": 3.55859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15104819647967815,
      "step": 3804
    },
    {
      "epoch": 0.6341666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.9197916666666666,
      "learning_rate": 2.9567546263182556e-05,
      "loss": 6.0949,
      "loss/crossentropy": 1.4113830924034119,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1622995249927044,
      "step": 3805
    },
    {
      "epoch": 0.6343333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 2.0416666666666665,
      "learning_rate": 2.954365485522771e-05,
      "loss": 5.6222,
      "loss/crossentropy": 1.4893809407949448,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1305123046040535,
      "step": 3806
    },
    {
      "epoch": 0.6345,
      "grad_norm": 22.25,
      "grad_norm_var": 1.98515625,
      "learning_rate": 2.9519769055495915e-05,
      "loss": 6.3124,
      "loss/crossentropy": 1.6217057406902313,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11425762251019478,
      "step": 3807
    },
    {
      "epoch": 0.6346666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.9872395833333334,
      "learning_rate": 2.949588887053558e-05,
      "loss": 5.9535,
      "loss/crossentropy": 0.7622259110212326,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.05738689098507166,
      "step": 3808
    },
    {
      "epoch": 0.6348333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 1.9872395833333334,
      "learning_rate": 2.9472014306893603e-05,
      "loss": 6.4636,
      "loss/crossentropy": 1.4152892529964447,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15491630136966705,
      "step": 3809
    },
    {
      "epoch": 0.635,
      "grad_norm": 23.0,
      "grad_norm_var": 2.0468098958333334,
      "learning_rate": 2.9448145371115333e-05,
      "loss": 6.4075,
      "loss/crossentropy": 1.5574238896369934,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23199886828660965,
      "step": 3810
    },
    {
      "epoch": 0.6351666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 2.129166666666667,
      "learning_rate": 2.9424282069744564e-05,
      "loss": 6.012,
      "loss/crossentropy": 1.4856318235397339,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12224540114402771,
      "step": 3811
    },
    {
      "epoch": 0.6353333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 2.095572916666667,
      "learning_rate": 2.940042440932357e-05,
      "loss": 6.0869,
      "loss/crossentropy": 1.5106798708438873,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17458568885922432,
      "step": 3812
    },
    {
      "epoch": 0.6355,
      "grad_norm": 21.75,
      "grad_norm_var": 2.0947916666666666,
      "learning_rate": 2.9376572396393048e-05,
      "loss": 5.9293,
      "loss/crossentropy": 1.5465877205133438,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11700088437646627,
      "step": 3813
    },
    {
      "epoch": 0.6356666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 2.1947916666666667,
      "learning_rate": 2.9352726037492174e-05,
      "loss": 6.1519,
      "loss/crossentropy": 1.7917672395706177,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2120782695710659,
      "step": 3814
    },
    {
      "epoch": 0.6358333333333334,
      "grad_norm": 19.625,
      "grad_norm_var": 2.4837890625,
      "learning_rate": 2.932888533915855e-05,
      "loss": 5.638,
      "loss/crossentropy": 0.9875533431768417,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09978998824954033,
      "step": 3815
    },
    {
      "epoch": 0.636,
      "grad_norm": 21.125,
      "grad_norm_var": 2.4837890625,
      "learning_rate": 2.9305050307928262e-05,
      "loss": 6.1478,
      "loss/crossentropy": 1.0717391967773438,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13964548707008362,
      "step": 3816
    },
    {
      "epoch": 0.6361666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 1.6738932291666666,
      "learning_rate": 2.9281220950335796e-05,
      "loss": 5.8999,
      "loss/crossentropy": 1.5075676441192627,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16144650056958199,
      "step": 3817
    },
    {
      "epoch": 0.6363333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.3702473958333334,
      "learning_rate": 2.9257397272914118e-05,
      "loss": 5.8168,
      "loss/crossentropy": 1.1600502729415894,
      "loss/hidden": 2.80859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07464190013706684,
      "step": 3818
    },
    {
      "epoch": 0.6365,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4622395833333333,
      "learning_rate": 2.9233579282194617e-05,
      "loss": 6.0961,
      "loss/crossentropy": 1.305883213877678,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16290730517357588,
      "step": 3819
    },
    {
      "epoch": 0.6366666666666667,
      "grad_norm": 19.0,
      "grad_norm_var": 1.7629557291666667,
      "learning_rate": 2.9209766984707145e-05,
      "loss": 5.4409,
      "loss/crossentropy": 1.0512680411338806,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07006659731268883,
      "step": 3820
    },
    {
      "epoch": 0.6368333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.7702473958333333,
      "learning_rate": 2.918596038697995e-05,
      "loss": 6.1193,
      "loss/crossentropy": 1.3377461731433868,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12249035947024822,
      "step": 3821
    },
    {
      "epoch": 0.637,
      "grad_norm": 20.125,
      "grad_norm_var": 1.63515625,
      "learning_rate": 2.916215949553977e-05,
      "loss": 6.2976,
      "loss/crossentropy": 1.826659470796585,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21604556031525135,
      "step": 3822
    },
    {
      "epoch": 0.6371666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 1.75,
      "learning_rate": 2.913836431691175e-05,
      "loss": 6.4257,
      "loss/crossentropy": 1.2499340921640396,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09584098309278488,
      "step": 3823
    },
    {
      "epoch": 0.6373333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.91015625,
      "learning_rate": 2.9114574857619463e-05,
      "loss": 6.0154,
      "loss/crossentropy": 1.545169621706009,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12089151330292225,
      "step": 3824
    },
    {
      "epoch": 0.6375,
      "grad_norm": 21.25,
      "grad_norm_var": 1.78515625,
      "learning_rate": 2.9090791124184935e-05,
      "loss": 6.0307,
      "loss/crossentropy": 1.9183549880981445,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15998715534806252,
      "step": 3825
    },
    {
      "epoch": 0.6376666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.7208333333333334,
      "learning_rate": 2.9067013123128613e-05,
      "loss": 5.8832,
      "loss/crossentropy": 1.4514087438583374,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09669393114745617,
      "step": 3826
    },
    {
      "epoch": 0.6378333333333334,
      "grad_norm": 23.125,
      "grad_norm_var": 1.6497395833333333,
      "learning_rate": 2.904324086096934e-05,
      "loss": 6.4112,
      "loss/crossentropy": 1.0938552469015121,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16177331190556288,
      "step": 3827
    },
    {
      "epoch": 0.638,
      "grad_norm": 20.125,
      "grad_norm_var": 1.6625,
      "learning_rate": 2.9019474344224464e-05,
      "loss": 5.9894,
      "loss/crossentropy": 0.9356797933578491,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10334815457463264,
      "step": 3828
    },
    {
      "epoch": 0.6381666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.628125,
      "learning_rate": 2.899571357940969e-05,
      "loss": 5.8762,
      "loss/crossentropy": 1.1895299851894379,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11132490076124668,
      "step": 3829
    },
    {
      "epoch": 0.6383333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.3087890625,
      "learning_rate": 2.897195857303916e-05,
      "loss": 6.209,
      "loss/crossentropy": 1.528649002313614,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16704785637557507,
      "step": 3830
    },
    {
      "epoch": 0.6385,
      "grad_norm": 20.75,
      "grad_norm_var": 1.20390625,
      "learning_rate": 2.8948209331625454e-05,
      "loss": 6.1249,
      "loss/crossentropy": 1.2550842016935349,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1314762346446514,
      "step": 3831
    },
    {
      "epoch": 0.6386666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.21875,
      "learning_rate": 2.892446586167955e-05,
      "loss": 5.9186,
      "loss/crossentropy": 1.3078531622886658,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12920551374554634,
      "step": 3832
    },
    {
      "epoch": 0.6388333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.4020833333333333,
      "learning_rate": 2.8900728169710867e-05,
      "loss": 6.5376,
      "loss/crossentropy": 1.74983549118042,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11597190424799919,
      "step": 3833
    },
    {
      "epoch": 0.639,
      "grad_norm": 22.5,
      "grad_norm_var": 1.54140625,
      "learning_rate": 2.887699626222722e-05,
      "loss": 6.4079,
      "loss/crossentropy": 1.8853406310081482,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14351388812065125,
      "step": 3834
    },
    {
      "epoch": 0.6391666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.5955729166666666,
      "learning_rate": 2.8853270145734846e-05,
      "loss": 5.6834,
      "loss/crossentropy": 0.9430477991700172,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.05874954629689455,
      "step": 3835
    },
    {
      "epoch": 0.6393333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.2979166666666666,
      "learning_rate": 2.88295498267384e-05,
      "loss": 5.9921,
      "loss/crossentropy": 1.590855985879898,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13479018956422806,
      "step": 3836
    },
    {
      "epoch": 0.6395,
      "grad_norm": 21.375,
      "grad_norm_var": 1.2785807291666667,
      "learning_rate": 2.8805835311740932e-05,
      "loss": 6.4453,
      "loss/crossentropy": 1.5037178695201874,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2000612560659647,
      "step": 3837
    },
    {
      "epoch": 0.6396666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.2354166666666666,
      "learning_rate": 2.878212660724392e-05,
      "loss": 6.2408,
      "loss/crossentropy": 1.3878260552883148,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10700724693015218,
      "step": 3838
    },
    {
      "epoch": 0.6398333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 1.17890625,
      "learning_rate": 2.8758423719747218e-05,
      "loss": 6.1725,
      "loss/crossentropy": 1.119727000594139,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09092963952571154,
      "step": 3839
    },
    {
      "epoch": 0.64,
      "grad_norm": 19.375,
      "grad_norm_var": 1.2809895833333333,
      "learning_rate": 2.8734726655749146e-05,
      "loss": 5.9062,
      "loss/crossentropy": 1.206380769610405,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11126971244812012,
      "step": 3840
    },
    {
      "epoch": 0.6401666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 1.2952473958333333,
      "learning_rate": 2.8711035421746367e-05,
      "loss": 5.9969,
      "loss/crossentropy": 1.7680053263902664,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12464592140167952,
      "step": 3841
    },
    {
      "epoch": 0.6403333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.1541666666666666,
      "learning_rate": 2.8687350024233967e-05,
      "loss": 5.9205,
      "loss/crossentropy": 1.346411570906639,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17587150633335114,
      "step": 3842
    },
    {
      "epoch": 0.6405,
      "grad_norm": 20.875,
      "grad_norm_var": 0.9080729166666667,
      "learning_rate": 2.8663670469705434e-05,
      "loss": 5.8848,
      "loss/crossentropy": 1.449959084391594,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1457760501652956,
      "step": 3843
    },
    {
      "epoch": 0.6406666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 0.9488932291666666,
      "learning_rate": 2.8639996764652653e-05,
      "loss": 6.3856,
      "loss/crossentropy": 1.274386689066887,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13238383643329144,
      "step": 3844
    },
    {
      "epoch": 0.6408333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 0.97265625,
      "learning_rate": 2.8616328915565904e-05,
      "loss": 6.3383,
      "loss/crossentropy": 1.3807934522628784,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12043785024434328,
      "step": 3845
    },
    {
      "epoch": 0.641,
      "grad_norm": 21.375,
      "grad_norm_var": 0.9728515625,
      "learning_rate": 2.859266692893386e-05,
      "loss": 6.236,
      "loss/crossentropy": 1.674343079328537,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18374468386173248,
      "step": 3846
    },
    {
      "epoch": 0.6411666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.0854166666666667,
      "learning_rate": 2.856901081124359e-05,
      "loss": 6.1947,
      "loss/crossentropy": 2.0881420969963074,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12588725239038467,
      "step": 3847
    },
    {
      "epoch": 0.6413333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.159375,
      "learning_rate": 2.854536056898055e-05,
      "loss": 6.0694,
      "loss/crossentropy": 1.6642937064170837,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10725842136889696,
      "step": 3848
    },
    {
      "epoch": 0.6415,
      "grad_norm": 19.5,
      "grad_norm_var": 1.1837890625,
      "learning_rate": 2.8521716208628595e-05,
      "loss": 6.0258,
      "loss/crossentropy": 1.9787558317184448,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12299259752035141,
      "step": 3849
    },
    {
      "epoch": 0.6416666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.0400390625,
      "learning_rate": 2.849807773666996e-05,
      "loss": 6.1526,
      "loss/crossentropy": 1.6434733867645264,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11674129776656628,
      "step": 3850
    },
    {
      "epoch": 0.6418333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 1.03515625,
      "learning_rate": 2.8474445159585235e-05,
      "loss": 6.1847,
      "loss/crossentropy": 1.5673771500587463,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11818564031273127,
      "step": 3851
    },
    {
      "epoch": 0.642,
      "grad_norm": 20.125,
      "grad_norm_var": 1.0791015625,
      "learning_rate": 2.8450818483853474e-05,
      "loss": 5.6672,
      "loss/crossentropy": 1.5297579616308212,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13721349090337753,
      "step": 3852
    },
    {
      "epoch": 0.6421666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.0768229166666667,
      "learning_rate": 2.8427197715952047e-05,
      "loss": 6.2011,
      "loss/crossentropy": 1.3093406558036804,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09002307150512934,
      "step": 3853
    },
    {
      "epoch": 0.6423333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 1.09375,
      "learning_rate": 2.8403582862356716e-05,
      "loss": 6.063,
      "loss/crossentropy": 1.0973376333713531,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13052541203796864,
      "step": 3854
    },
    {
      "epoch": 0.6425,
      "grad_norm": 31.5,
      "grad_norm_var": 8.06640625,
      "learning_rate": 2.8379973929541646e-05,
      "loss": 5.8395,
      "loss/crossentropy": 1.2469774037599564,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12283649668097496,
      "step": 3855
    },
    {
      "epoch": 0.6426666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 8.180208333333333,
      "learning_rate": 2.8356370923979324e-05,
      "loss": 5.8994,
      "loss/crossentropy": 1.6188704818487167,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1828561220318079,
      "step": 3856
    },
    {
      "epoch": 0.6428333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 8.184309895833334,
      "learning_rate": 2.8332773852140644e-05,
      "loss": 6.1576,
      "loss/crossentropy": 1.5511598885059357,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16585253551602364,
      "step": 3857
    },
    {
      "epoch": 0.643,
      "grad_norm": 20.625,
      "grad_norm_var": 8.241080729166667,
      "learning_rate": 2.830918272049492e-05,
      "loss": 6.037,
      "loss/crossentropy": 1.8769235908985138,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13765514642000198,
      "step": 3858
    },
    {
      "epoch": 0.6431666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 8.1994140625,
      "learning_rate": 2.828559753550977e-05,
      "loss": 5.8516,
      "loss/crossentropy": 1.6468890607357025,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1618709284812212,
      "step": 3859
    },
    {
      "epoch": 0.6433333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 8.415559895833333,
      "learning_rate": 2.8262018303651216e-05,
      "loss": 6.3723,
      "loss/crossentropy": 1.921249657869339,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.200455104932189,
      "step": 3860
    },
    {
      "epoch": 0.6435,
      "grad_norm": 20.25,
      "grad_norm_var": 8.57890625,
      "learning_rate": 2.823844503138363e-05,
      "loss": 5.7585,
      "loss/crossentropy": 1.5485173463821411,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10095435194671154,
      "step": 3861
    },
    {
      "epoch": 0.6436666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 8.693489583333333,
      "learning_rate": 2.8214877725169765e-05,
      "loss": 5.8314,
      "loss/crossentropy": 1.5122892707586288,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17578282207250595,
      "step": 3862
    },
    {
      "epoch": 0.6438333333333334,
      "grad_norm": 19.625,
      "grad_norm_var": 8.758333333333333,
      "learning_rate": 2.8191316391470703e-05,
      "loss": 5.7347,
      "loss/crossentropy": 1.2943723946809769,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13279634155333042,
      "step": 3863
    },
    {
      "epoch": 0.644,
      "grad_norm": 21.75,
      "grad_norm_var": 8.524934895833333,
      "learning_rate": 2.8167761036745954e-05,
      "loss": 5.9779,
      "loss/crossentropy": 0.9756528288125992,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0824116189032793,
      "step": 3864
    },
    {
      "epoch": 0.6441666666666667,
      "grad_norm": 6308233216.0,
      "grad_norm_var": 2.4871128769005706e+18,
      "learning_rate": 2.8144211667453368e-05,
      "loss": 6.1698,
      "loss/crossentropy": 1.3667510747909546,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1429380588233471,
      "step": 3865
    },
    {
      "epoch": 0.6443333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 2.4871128768020045e+18,
      "learning_rate": 2.8120668290049085e-05,
      "loss": 6.2998,
      "loss/crossentropy": 1.7925399541854858,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17449103482067585,
      "step": 3866
    },
    {
      "epoch": 0.6445,
      "grad_norm": 20.875,
      "grad_norm_var": 2.487112876854573e+18,
      "learning_rate": 2.809713091098768e-05,
      "loss": 5.832,
      "loss/crossentropy": 1.6134421825408936,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1371060274541378,
      "step": 3867
    },
    {
      "epoch": 0.6446666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 2.487112876690296e+18,
      "learning_rate": 2.807359953672206e-05,
      "loss": 6.7106,
      "loss/crossentropy": 1.142037272453308,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09446714073419571,
      "step": 3868
    },
    {
      "epoch": 0.6448333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 2.487112876670583e+18,
      "learning_rate": 2.8050074173703465e-05,
      "loss": 6.069,
      "loss/crossentropy": 1.5538074672222137,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17335538938641548,
      "step": 3869
    },
    {
      "epoch": 0.645,
      "grad_norm": 20.375,
      "grad_norm_var": 2.487112876664012e+18,
      "learning_rate": 2.8026554828381547e-05,
      "loss": 6.1678,
      "loss/crossentropy": 1.6849901378154755,
      "loss/hidden": 2.84765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10848400369286537,
      "step": 3870
    },
    {
      "epoch": 0.6451666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 2.487112877110845e+18,
      "learning_rate": 2.8003041507204242e-05,
      "loss": 6.389,
      "loss/crossentropy": 1.0414763763546944,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13144143857061863,
      "step": 3871
    },
    {
      "epoch": 0.6453333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.4871128772619796e+18,
      "learning_rate": 2.7979534216617863e-05,
      "loss": 6.1826,
      "loss/crossentropy": 1.4576617330312729,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10376177122816443,
      "step": 3872
    },
    {
      "epoch": 0.6455,
      "grad_norm": 22.0,
      "grad_norm_var": 2.4871128772619796e+18,
      "learning_rate": 2.795603296306708e-05,
      "loss": 6.1271,
      "loss/crossentropy": 1.1827900856733322,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11777642369270325,
      "step": 3873
    },
    {
      "epoch": 0.6456666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 2.487112877288264e+18,
      "learning_rate": 2.793253775299487e-05,
      "loss": 6.1924,
      "loss/crossentropy": 1.9884737432003021,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13552908413112164,
      "step": 3874
    },
    {
      "epoch": 0.6458333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 2.48711287732769e+18,
      "learning_rate": 2.7909048592842603e-05,
      "loss": 6.1733,
      "loss/crossentropy": 1.3948147147893906,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1359013020992279,
      "step": 3875
    },
    {
      "epoch": 0.646,
      "grad_norm": 22.375,
      "grad_norm_var": 2.4871128773999724e+18,
      "learning_rate": 2.7885565489049946e-05,
      "loss": 6.3283,
      "loss/crossentropy": 1.2554275840520859,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2166037280112505,
      "step": 3876
    },
    {
      "epoch": 0.6461666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 2.4871128772816927e+18,
      "learning_rate": 2.7862088448054936e-05,
      "loss": 5.9501,
      "loss/crossentropy": 1.5169319808483124,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16518607549369335,
      "step": 3877
    },
    {
      "epoch": 0.6463333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.4871128772619796e+18,
      "learning_rate": 2.7838617476293926e-05,
      "loss": 6.0841,
      "loss/crossentropy": 1.657306358218193,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2009743805974722,
      "step": 3878
    },
    {
      "epoch": 0.6465,
      "grad_norm": 21.625,
      "grad_norm_var": 2.4871128771568425e+18,
      "learning_rate": 2.7815152580201637e-05,
      "loss": 6.1609,
      "loss/crossentropy": 1.6522599160671234,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.264388982206583,
      "step": 3879
    },
    {
      "epoch": 0.6466666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 2.4871128772554086e+18,
      "learning_rate": 2.779169376621108e-05,
      "loss": 6.1029,
      "loss/crossentropy": 1.5043878555297852,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2042685654014349,
      "step": 3880
    },
    {
      "epoch": 0.6468333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.0577473958333334,
      "learning_rate": 2.776824104075364e-05,
      "loss": 6.2015,
      "loss/crossentropy": 1.744945079088211,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13547604531049728,
      "step": 3881
    },
    {
      "epoch": 0.647,
      "grad_norm": 21.25,
      "grad_norm_var": 0.9997395833333333,
      "learning_rate": 2.774479441025899e-05,
      "loss": 6.1226,
      "loss/crossentropy": 1.645031064748764,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13714183494448662,
      "step": 3882
    },
    {
      "epoch": 0.6471666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 0.9809895833333333,
      "learning_rate": 2.772135388115519e-05,
      "loss": 6.2441,
      "loss/crossentropy": 1.5290270149707794,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14543232508003712,
      "step": 3883
    },
    {
      "epoch": 0.6473333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 0.7546223958333333,
      "learning_rate": 2.769791945986857e-05,
      "loss": 5.6102,
      "loss/crossentropy": 1.485065758228302,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11595306731760502,
      "step": 3884
    },
    {
      "epoch": 0.6475,
      "grad_norm": 21.625,
      "grad_norm_var": 0.7499348958333333,
      "learning_rate": 2.7674491152823822e-05,
      "loss": 6.1405,
      "loss/crossentropy": 1.583661526441574,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14885950088500977,
      "step": 3885
    },
    {
      "epoch": 0.6476666666666666,
      "grad_norm": 19.75,
      "grad_norm_var": 0.853125,
      "learning_rate": 2.765106896644395e-05,
      "loss": 5.8893,
      "loss/crossentropy": 1.242323838174343,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10697772214189172,
      "step": 3886
    },
    {
      "epoch": 0.6478333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 0.6708333333333333,
      "learning_rate": 2.762765290715027e-05,
      "loss": 5.8561,
      "loss/crossentropy": 1.6198512613773346,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11829963140189648,
      "step": 3887
    },
    {
      "epoch": 0.648,
      "grad_norm": 22.25,
      "grad_norm_var": 0.75,
      "learning_rate": 2.7604242981362426e-05,
      "loss": 6.288,
      "loss/crossentropy": 1.3018876984715462,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08216332131996751,
      "step": 3888
    },
    {
      "epoch": 0.6481666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 0.7122395833333334,
      "learning_rate": 2.7580839195498398e-05,
      "loss": 5.9958,
      "loss/crossentropy": 1.954821765422821,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.14118807017803192,
      "step": 3889
    },
    {
      "epoch": 0.6483333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 0.7333333333333333,
      "learning_rate": 2.755744155597445e-05,
      "loss": 6.5567,
      "loss/crossentropy": 2.078653007745743,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21248876489698887,
      "step": 3890
    },
    {
      "epoch": 0.6485,
      "grad_norm": 22.0,
      "grad_norm_var": 0.7681640625,
      "learning_rate": 2.753405006920518e-05,
      "loss": 5.9475,
      "loss/crossentropy": 1.5670652240514755,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1409111935645342,
      "step": 3891
    },
    {
      "epoch": 0.6486666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 0.6893229166666667,
      "learning_rate": 2.7510664741603504e-05,
      "loss": 6.0722,
      "loss/crossentropy": 1.3566943556070328,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10899507440626621,
      "step": 3892
    },
    {
      "epoch": 0.6488333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 0.6018229166666667,
      "learning_rate": 2.7487285579580637e-05,
      "loss": 6.0812,
      "loss/crossentropy": 1.56453475356102,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20856012403964996,
      "step": 3893
    },
    {
      "epoch": 0.649,
      "grad_norm": 21.125,
      "grad_norm_var": 0.5926432291666667,
      "learning_rate": 2.746391258954609e-05,
      "loss": 5.9582,
      "loss/crossentropy": 0.8852105364203453,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11855407105758786,
      "step": 3894
    },
    {
      "epoch": 0.6491666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 0.5801432291666667,
      "learning_rate": 2.7440545777907746e-05,
      "loss": 5.9403,
      "loss/crossentropy": 1.1432769745588303,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13236470893025398,
      "step": 3895
    },
    {
      "epoch": 0.6493333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 0.5104166666666666,
      "learning_rate": 2.7417185151071716e-05,
      "loss": 6.2862,
      "loss/crossentropy": 1.7787686884403229,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19381754845380783,
      "step": 3896
    },
    {
      "epoch": 0.6495,
      "grad_norm": 22.375,
      "grad_norm_var": 0.5671223958333333,
      "learning_rate": 2.739383071544246e-05,
      "loss": 6.1733,
      "loss/crossentropy": 1.3572668582201004,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11592663638293743,
      "step": 3897
    },
    {
      "epoch": 0.6496666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 0.5830729166666667,
      "learning_rate": 2.7370482477422734e-05,
      "loss": 6.31,
      "loss/crossentropy": 1.2584310919046402,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10535267740488052,
      "step": 3898
    },
    {
      "epoch": 0.6498333333333334,
      "grad_norm": 23.625,
      "grad_norm_var": 0.8947916666666667,
      "learning_rate": 2.7347140443413586e-05,
      "loss": 6.0528,
      "loss/crossentropy": 1.4746201932430267,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16690576635301113,
      "step": 3899
    },
    {
      "epoch": 0.65,
      "grad_norm": 24.125,
      "grad_norm_var": 1.2705729166666666,
      "learning_rate": 2.732380461981433e-05,
      "loss": 5.9096,
      "loss/crossentropy": 1.5613488554954529,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12328390777111053,
      "step": 3900
    },
    {
      "epoch": 0.6501666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.2733723958333334,
      "learning_rate": 2.7300475013022663e-05,
      "loss": 6.1468,
      "loss/crossentropy": 1.6324353218078613,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12982861697673798,
      "step": 3901
    },
    {
      "epoch": 0.6503333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.0,
      "learning_rate": 2.7277151629434516e-05,
      "loss": 6.2511,
      "loss/crossentropy": 1.5238093137741089,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19963295571506023,
      "step": 3902
    },
    {
      "epoch": 0.6505,
      "grad_norm": 19.25,
      "grad_norm_var": 1.3268229166666667,
      "learning_rate": 2.7253834475444123e-05,
      "loss": 5.9662,
      "loss/crossentropy": 1.981196790933609,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19278762117028236,
      "step": 3903
    },
    {
      "epoch": 0.6506666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.3134765625,
      "learning_rate": 2.7230523557444017e-05,
      "loss": 6.2918,
      "loss/crossentropy": 1.6959103643894196,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12525214068591595,
      "step": 3904
    },
    {
      "epoch": 0.6508333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 1.421875,
      "learning_rate": 2.7207218881825014e-05,
      "loss": 6.0938,
      "loss/crossentropy": 1.193362444639206,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09468092443421483,
      "step": 3905
    },
    {
      "epoch": 0.651,
      "grad_norm": 19.625,
      "grad_norm_var": 1.65390625,
      "learning_rate": 2.7183920454976196e-05,
      "loss": 5.8948,
      "loss/crossentropy": 1.1801553070545197,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.06936245039105415,
      "step": 3906
    },
    {
      "epoch": 0.6511666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6400390625,
      "learning_rate": 2.7160628283285018e-05,
      "loss": 6.2745,
      "loss/crossentropy": 1.3209569454193115,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1540125049650669,
      "step": 3907
    },
    {
      "epoch": 0.6513333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.6541015625,
      "learning_rate": 2.7137342373137133e-05,
      "loss": 5.846,
      "loss/crossentropy": 1.0708475410938263,
      "loss/hidden": 2.83984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08500261697918177,
      "step": 3908
    },
    {
      "epoch": 0.6515,
      "grad_norm": 20.375,
      "grad_norm_var": 1.67265625,
      "learning_rate": 2.7114062730916512e-05,
      "loss": 6.012,
      "loss/crossentropy": 1.385617271065712,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1396090155467391,
      "step": 3909
    },
    {
      "epoch": 0.6516666666666666,
      "grad_norm": 23.125,
      "grad_norm_var": 1.81015625,
      "learning_rate": 2.7090789363005376e-05,
      "loss": 6.2654,
      "loss/crossentropy": 1.0815533846616745,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1368612665683031,
      "step": 3910
    },
    {
      "epoch": 0.6518333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 1.8330729166666666,
      "learning_rate": 2.7067522275784273e-05,
      "loss": 6.2532,
      "loss/crossentropy": 1.5043647587299347,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1943884938955307,
      "step": 3911
    },
    {
      "epoch": 0.652,
      "grad_norm": 23.75,
      "grad_norm_var": 2.0864583333333333,
      "learning_rate": 2.7044261475631976e-05,
      "loss": 6.3358,
      "loss/crossentropy": 1.8345986604690552,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10784938372671604,
      "step": 3912
    },
    {
      "epoch": 0.6521666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 2.3,
      "learning_rate": 2.702100696892561e-05,
      "loss": 6.0204,
      "loss/crossentropy": 1.5476847290992737,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16486042737960815,
      "step": 3913
    },
    {
      "epoch": 0.6523333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 2.56015625,
      "learning_rate": 2.699775876204051e-05,
      "loss": 6.0058,
      "loss/crossentropy": 1.8052507936954498,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18916120193898678,
      "step": 3914
    },
    {
      "epoch": 0.6525,
      "grad_norm": 19.5,
      "grad_norm_var": 2.4806640625,
      "learning_rate": 2.697451686135031e-05,
      "loss": 5.891,
      "loss/crossentropy": 1.5857316553592682,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13861860148608685,
      "step": 3915
    },
    {
      "epoch": 0.6526666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.9259765625,
      "learning_rate": 2.695128127322689e-05,
      "loss": 6.2836,
      "loss/crossentropy": 1.940437227487564,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1488471571356058,
      "step": 3916
    },
    {
      "epoch": 0.6528333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 2.084830729166667,
      "learning_rate": 2.6928052004040438e-05,
      "loss": 6.676,
      "loss/crossentropy": 2.2760163843631744,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17035423777997494,
      "step": 3917
    },
    {
      "epoch": 0.653,
      "grad_norm": 20.375,
      "grad_norm_var": 2.0629557291666667,
      "learning_rate": 2.690482906015936e-05,
      "loss": 5.9911,
      "loss/crossentropy": 1.3026956766843796,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13697538524866104,
      "step": 3918
    },
    {
      "epoch": 0.6531666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 2.044791666666667,
      "learning_rate": 2.6881612447950423e-05,
      "loss": 6.3162,
      "loss/crossentropy": 1.009262278676033,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12078472971916199,
      "step": 3919
    },
    {
      "epoch": 0.6533333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 2.129166666666667,
      "learning_rate": 2.685840217377853e-05,
      "loss": 5.6911,
      "loss/crossentropy": 1.6867277324199677,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13100313767790794,
      "step": 3920
    },
    {
      "epoch": 0.6535,
      "grad_norm": 20.75,
      "grad_norm_var": 2.059830729166667,
      "learning_rate": 2.6835198244006927e-05,
      "loss": 6.134,
      "loss/crossentropy": 1.2078765481710434,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10530790872871876,
      "step": 3921
    },
    {
      "epoch": 0.6536666666666666,
      "grad_norm": 20.5,
      "grad_norm_var": 1.9135416666666667,
      "learning_rate": 2.6812000664997107e-05,
      "loss": 6.0319,
      "loss/crossentropy": 2.0378695130348206,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16300993040204048,
      "step": 3922
    },
    {
      "epoch": 0.6538333333333334,
      "grad_norm": 23.625,
      "grad_norm_var": 2.238541666666667,
      "learning_rate": 2.678880944310882e-05,
      "loss": 6.48,
      "loss/crossentropy": 1.43301310390234,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1645577261224389,
      "step": 3923
    },
    {
      "epoch": 0.654,
      "grad_norm": 21.75,
      "grad_norm_var": 2.224739583333333,
      "learning_rate": 2.6765624584700046e-05,
      "loss": 6.3068,
      "loss/crossentropy": 1.8128471374511719,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1653130929917097,
      "step": 3924
    },
    {
      "epoch": 0.6541666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 2.312239583333333,
      "learning_rate": 2.674244609612708e-05,
      "loss": 5.7446,
      "loss/crossentropy": 1.5134007334709167,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08345835097134113,
      "step": 3925
    },
    {
      "epoch": 0.6543333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.106184895833333,
      "learning_rate": 2.671927398374443e-05,
      "loss": 6.3489,
      "loss/crossentropy": 1.7734286785125732,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14089521765708923,
      "step": 3926
    },
    {
      "epoch": 0.6545,
      "grad_norm": 22.25,
      "grad_norm_var": 2.0893229166666667,
      "learning_rate": 2.6696108253904857e-05,
      "loss": 6.455,
      "loss/crossentropy": 1.6266783773899078,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2139488346874714,
      "step": 3927
    },
    {
      "epoch": 0.6546666666666666,
      "grad_norm": 24.625,
      "grad_norm_var": 2.4233723958333333,
      "learning_rate": 2.6672948912959373e-05,
      "loss": 6.7557,
      "loss/crossentropy": 1.8186869025230408,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.27840427309274673,
      "step": 3928
    },
    {
      "epoch": 0.6548333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 2.354622395833333,
      "learning_rate": 2.664979596725724e-05,
      "loss": 6.1879,
      "loss/crossentropy": 1.8988600373268127,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1299783904105425,
      "step": 3929
    },
    {
      "epoch": 0.655,
      "grad_norm": 20.125,
      "grad_norm_var": 2.2436848958333333,
      "learning_rate": 2.662664942314598e-05,
      "loss": 6.0001,
      "loss/crossentropy": 2.1217605471611023,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16304120793938637,
      "step": 3930
    },
    {
      "epoch": 0.6551666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.030989583333333,
      "learning_rate": 2.660350928697134e-05,
      "loss": 6.2698,
      "loss/crossentropy": 1.3504370898008347,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19137325137853622,
      "step": 3931
    },
    {
      "epoch": 0.6553333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 2.152083333333333,
      "learning_rate": 2.6580375565077325e-05,
      "loss": 5.736,
      "loss/crossentropy": 1.8623404502868652,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1754048950970173,
      "step": 3932
    },
    {
      "epoch": 0.6555,
      "grad_norm": 22.5,
      "grad_norm_var": 2.1205729166666667,
      "learning_rate": 2.6557248263806174e-05,
      "loss": 6.436,
      "loss/crossentropy": 1.897266298532486,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14995684754103422,
      "step": 3933
    },
    {
      "epoch": 0.6556666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 2.0497395833333334,
      "learning_rate": 2.6534127389498364e-05,
      "loss": 6.2648,
      "loss/crossentropy": 2.0521328449249268,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16528743505477905,
      "step": 3934
    },
    {
      "epoch": 0.6558333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.9827473958333333,
      "learning_rate": 2.6511012948492624e-05,
      "loss": 6.0467,
      "loss/crossentropy": 1.3950307369232178,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11337995529174805,
      "step": 3935
    },
    {
      "epoch": 0.656,
      "grad_norm": 21.625,
      "grad_norm_var": 1.8405598958333333,
      "learning_rate": 2.6487904947125884e-05,
      "loss": 6.3145,
      "loss/crossentropy": 1.2262332141399384,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11287215538322926,
      "step": 3936
    },
    {
      "epoch": 0.6561666666666667,
      "grad_norm": 5838471168.0,
      "grad_norm_var": 2.130484082892184e+18,
      "learning_rate": 2.6464803391733374e-05,
      "loss": 6.674,
      "loss/crossentropy": 1.7311821430921555,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22184088453650475,
      "step": 3937
    },
    {
      "epoch": 0.6563333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 2.130484082746222e+18,
      "learning_rate": 2.6441708288648486e-05,
      "loss": 6.6091,
      "loss/crossentropy": 1.5740978568792343,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18310486525297165,
      "step": 3938
    },
    {
      "epoch": 0.6565,
      "grad_norm": 23.625,
      "grad_norm_var": 2.130484082746222e+18,
      "learning_rate": 2.6418619644202892e-05,
      "loss": 6.6901,
      "loss/crossentropy": 1.8594066202640533,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.1714463084936142,
      "step": 3939
    },
    {
      "epoch": 0.6566666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 2.1304840827340588e+18,
      "learning_rate": 2.6395537464726462e-05,
      "loss": 6.358,
      "loss/crossentropy": 1.515019416809082,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16841124184429646,
      "step": 3940
    },
    {
      "epoch": 0.6568333333333334,
      "grad_norm": 22.5,
      "grad_norm_var": 2.1304840826063421e+18,
      "learning_rate": 2.6372461756547306e-05,
      "loss": 6.5815,
      "loss/crossentropy": 1.6127880811691284,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.171869944781065,
      "step": 3941
    },
    {
      "epoch": 0.657,
      "grad_norm": 21.5,
      "grad_norm_var": 2.1304840825941786e+18,
      "learning_rate": 2.6349392525991767e-05,
      "loss": 6.1697,
      "loss/crossentropy": 1.6008227467536926,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18933654576539993,
      "step": 3942
    },
    {
      "epoch": 0.6571666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 2.130484082727977e+18,
      "learning_rate": 2.6326329779384395e-05,
      "loss": 5.9531,
      "loss/crossentropy": 1.2493432462215424,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11631636461243033,
      "step": 3943
    },
    {
      "epoch": 0.6573333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.130484082892184e+18,
      "learning_rate": 2.630327352304799e-05,
      "loss": 6.1351,
      "loss/crossentropy": 1.790860265493393,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1765567697584629,
      "step": 3944
    },
    {
      "epoch": 0.6575,
      "grad_norm": 21.5,
      "grad_norm_var": 2.1304840829469197e+18,
      "learning_rate": 2.6280223763303546e-05,
      "loss": 6.1236,
      "loss/crossentropy": 1.6033483445644379,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.233225854113698,
      "step": 3945
    },
    {
      "epoch": 0.6576666666666666,
      "grad_norm": 25.375,
      "grad_norm_var": 2.1304840826914865e+18,
      "learning_rate": 2.625718050647028e-05,
      "loss": 6.6425,
      "loss/crossentropy": 1.6945034861564636,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1319210845977068,
      "step": 3946
    },
    {
      "epoch": 0.6578333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 2.1304840827827126e+18,
      "learning_rate": 2.6234143758865638e-05,
      "loss": 6.0429,
      "loss/crossentropy": 1.8200367391109467,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17885416001081467,
      "step": 3947
    },
    {
      "epoch": 0.658,
      "grad_norm": 19.125,
      "grad_norm_var": 2.13048408284353e+18,
      "learning_rate": 2.6211113526805253e-05,
      "loss": 5.6061,
      "loss/crossentropy": 0.8385942727327347,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1218572985380888,
      "step": 3948
    },
    {
      "epoch": 0.6581666666666667,
      "grad_norm": 19.25,
      "grad_norm_var": 2.1304840830016553e+18,
      "learning_rate": 2.618808981660304e-05,
      "loss": 5.8456,
      "loss/crossentropy": 1.378018006682396,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1430969014763832,
      "step": 3949
    },
    {
      "epoch": 0.6583333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 2.130484083032064e+18,
      "learning_rate": 2.6165072634571054e-05,
      "loss": 5.8897,
      "loss/crossentropy": 1.3110688626766205,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12065205909311771,
      "step": 3950
    },
    {
      "epoch": 0.6585,
      "grad_norm": 21.75,
      "grad_norm_var": 2.1304840829712466e+18,
      "learning_rate": 2.6142061987019577e-05,
      "loss": 6.3549,
      "loss/crossentropy": 1.4666305482387543,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11522259935736656,
      "step": 3951
    },
    {
      "epoch": 0.6586666666666666,
      "grad_norm": 23.0,
      "grad_norm_var": 2.1304840829043474e+18,
      "learning_rate": 2.6119057880257125e-05,
      "loss": 6.3325,
      "loss/crossentropy": 2.2578332722187042,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22440580651164055,
      "step": 3952
    },
    {
      "epoch": 0.6588333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 3.0614583333333334,
      "learning_rate": 2.6096060320590393e-05,
      "loss": 6.7395,
      "loss/crossentropy": 2.088537037372589,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18822583742439747,
      "step": 3953
    },
    {
      "epoch": 0.659,
      "grad_norm": 21.125,
      "grad_norm_var": 2.8697265625,
      "learning_rate": 2.6073069314324296e-05,
      "loss": 6.1799,
      "loss/crossentropy": 1.1027886867523193,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1953405700623989,
      "step": 3954
    },
    {
      "epoch": 0.6591666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 2.6666015625,
      "learning_rate": 2.6050084867761954e-05,
      "loss": 6.2345,
      "loss/crossentropy": 1.886511743068695,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1663686502724886,
      "step": 3955
    },
    {
      "epoch": 0.6593333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.6447265625,
      "learning_rate": 2.6027106987204676e-05,
      "loss": 6.1834,
      "loss/crossentropy": 2.28648279607296,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1856476441025734,
      "step": 3956
    },
    {
      "epoch": 0.6595,
      "grad_norm": 23.0,
      "grad_norm_var": 2.7348307291666667,
      "learning_rate": 2.600413567895198e-05,
      "loss": 6.689,
      "loss/crossentropy": 1.661299854516983,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18079820275306702,
      "step": 3957
    },
    {
      "epoch": 0.6596666666666666,
      "grad_norm": 24.0,
      "grad_norm_var": 3.1541015625,
      "learning_rate": 2.598117094930158e-05,
      "loss": 6.417,
      "loss/crossentropy": 1.4669666141271591,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22929726913571358,
      "step": 3958
    },
    {
      "epoch": 0.6598333333333334,
      "grad_norm": 17.375,
      "grad_norm_var": 4.022916666666666,
      "learning_rate": 2.5958212804549387e-05,
      "loss": 5.2578,
      "loss/crossentropy": 0.9624099284410477,
      "loss/hidden": 2.80859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08405197318643332,
      "step": 3959
    },
    {
      "epoch": 0.66,
      "grad_norm": 21.5,
      "grad_norm_var": 4.020572916666667,
      "learning_rate": 2.5935261250989495e-05,
      "loss": 5.7428,
      "loss/crossentropy": 1.2723695933818817,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12233036570250988,
      "step": 3960
    },
    {
      "epoch": 0.6601666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 4.062955729166666,
      "learning_rate": 2.591231629491423e-05,
      "loss": 6.4281,
      "loss/crossentropy": 1.45450559258461,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13612137734889984,
      "step": 3961
    },
    {
      "epoch": 0.6603333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 3.0348307291666665,
      "learning_rate": 2.588937794261407e-05,
      "loss": 6.3671,
      "loss/crossentropy": 1.5850693732500076,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.26884792000055313,
      "step": 3962
    },
    {
      "epoch": 0.6605,
      "grad_norm": 21.125,
      "grad_norm_var": 3.0322916666666666,
      "learning_rate": 2.5866446200377688e-05,
      "loss": 5.9493,
      "loss/crossentropy": 1.6045278310775757,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12805646657943726,
      "step": 3963
    },
    {
      "epoch": 0.6606666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 2.7285807291666666,
      "learning_rate": 2.5843521074491972e-05,
      "loss": 6.0387,
      "loss/crossentropy": 1.3227208852767944,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22277673706412315,
      "step": 3964
    },
    {
      "epoch": 0.6608333333333334,
      "grad_norm": 23.5,
      "grad_norm_var": 2.6754557291666665,
      "learning_rate": 2.5820602571241947e-05,
      "loss": 6.4142,
      "loss/crossentropy": 1.4051939994096756,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17827134393155575,
      "step": 3965
    },
    {
      "epoch": 0.661,
      "grad_norm": 21.5,
      "grad_norm_var": 2.5478515625,
      "learning_rate": 2.5797690696910836e-05,
      "loss": 6.0648,
      "loss/crossentropy": 1.5740888565778732,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14867855608463287,
      "step": 3966
    },
    {
      "epoch": 0.6611666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 2.54765625,
      "learning_rate": 2.5774785457780103e-05,
      "loss": 6.2271,
      "loss/crossentropy": 1.8915944993495941,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1358159277588129,
      "step": 3967
    },
    {
      "epoch": 0.6613333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 2.6619140625,
      "learning_rate": 2.575188686012934e-05,
      "loss": 5.8838,
      "loss/crossentropy": 1.6088842749595642,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12365277856588364,
      "step": 3968
    },
    {
      "epoch": 0.6615,
      "grad_norm": 20.375,
      "grad_norm_var": 2.4587890625,
      "learning_rate": 2.5728994910236304e-05,
      "loss": 5.7527,
      "loss/crossentropy": 1.352321594953537,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08805172890424728,
      "step": 3969
    },
    {
      "epoch": 0.6616666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 2.581184895833333,
      "learning_rate": 2.5706109614376977e-05,
      "loss": 5.8033,
      "loss/crossentropy": 1.4292107820510864,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1298747882246971,
      "step": 3970
    },
    {
      "epoch": 0.6618333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 2.651497395833333,
      "learning_rate": 2.5683230978825477e-05,
      "loss": 6.4827,
      "loss/crossentropy": 1.634010061621666,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24390769936144352,
      "step": 3971
    },
    {
      "epoch": 0.662,
      "grad_norm": 21.0,
      "grad_norm_var": 2.6582682291666666,
      "learning_rate": 2.5660359009854107e-05,
      "loss": 6.1025,
      "loss/crossentropy": 0.8863070905208588,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08649788610637188,
      "step": 3972
    },
    {
      "epoch": 0.6621666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 2.488997395833333,
      "learning_rate": 2.5637493713733374e-05,
      "loss": 5.8499,
      "loss/crossentropy": 1.3059134855866432,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20568855479359627,
      "step": 3973
    },
    {
      "epoch": 0.6623333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 2.018684895833333,
      "learning_rate": 2.561463509673193e-05,
      "loss": 6.1212,
      "loss/crossentropy": 1.1265076696872711,
      "loss/hidden": 2.75390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0776899866759777,
      "step": 3974
    },
    {
      "epoch": 0.6625,
      "grad_norm": 21.625,
      "grad_norm_var": 1.0624348958333334,
      "learning_rate": 2.5591783165116562e-05,
      "loss": 5.9712,
      "loss/crossentropy": 1.3921730518341064,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1861228123307228,
      "step": 3975
    },
    {
      "epoch": 0.6626666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.1145833333333333,
      "learning_rate": 2.556893792515227e-05,
      "loss": 6.0219,
      "loss/crossentropy": 1.1066877022385597,
      "loss/hidden": 2.74609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08235797239467502,
      "step": 3976
    },
    {
      "epoch": 0.6628333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.0999348958333333,
      "learning_rate": 2.5546099383102207e-05,
      "loss": 6.2041,
      "loss/crossentropy": 1.6591432690620422,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11824807152152061,
      "step": 3977
    },
    {
      "epoch": 0.663,
      "grad_norm": 20.875,
      "grad_norm_var": 1.0296223958333333,
      "learning_rate": 2.5523267545227664e-05,
      "loss": 5.998,
      "loss/crossentropy": 1.375502496957779,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10978535003960133,
      "step": 3978
    },
    {
      "epoch": 0.6631666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 1.1973307291666666,
      "learning_rate": 2.550044241778817e-05,
      "loss": 6.0666,
      "loss/crossentropy": 1.5265644490718842,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1358247883617878,
      "step": 3979
    },
    {
      "epoch": 0.6633333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.1973307291666666,
      "learning_rate": 2.5477624007041335e-05,
      "loss": 6.1507,
      "loss/crossentropy": 1.9690742492675781,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20432712510228157,
      "step": 3980
    },
    {
      "epoch": 0.6635,
      "grad_norm": 21.75,
      "grad_norm_var": 0.8837890625,
      "learning_rate": 2.545481231924296e-05,
      "loss": 6.1719,
      "loss/crossentropy": 1.8298159837722778,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11440917104482651,
      "step": 3981
    },
    {
      "epoch": 0.6636666666666666,
      "grad_norm": 23.875,
      "grad_norm_var": 1.3229166666666667,
      "learning_rate": 2.5432007360646997e-05,
      "loss": 6.6397,
      "loss/crossentropy": 1.3145549595355988,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24885602295398712,
      "step": 3982
    },
    {
      "epoch": 0.6638333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.37890625,
      "learning_rate": 2.5409209137505552e-05,
      "loss": 6.1116,
      "loss/crossentropy": 1.523284450173378,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1595986932516098,
      "step": 3983
    },
    {
      "epoch": 0.664,
      "grad_norm": 22.75,
      "grad_norm_var": 1.2926432291666667,
      "learning_rate": 2.5386417656068896e-05,
      "loss": 6.1394,
      "loss/crossentropy": 1.3621497750282288,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08115481026470661,
      "step": 3984
    },
    {
      "epoch": 0.6641666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2098307291666666,
      "learning_rate": 2.536363292258543e-05,
      "loss": 6.2909,
      "loss/crossentropy": 1.6744458973407745,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16131536662578583,
      "step": 3985
    },
    {
      "epoch": 0.6643333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 1.3041666666666667,
      "learning_rate": 2.534085494330173e-05,
      "loss": 6.052,
      "loss/crossentropy": 1.6283102631568909,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1701793670654297,
      "step": 3986
    },
    {
      "epoch": 0.6645,
      "grad_norm": 21.625,
      "grad_norm_var": 1.225,
      "learning_rate": 2.5318083724462493e-05,
      "loss": 6.256,
      "loss/crossentropy": 2.0579179525375366,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18240154534578323,
      "step": 3987
    },
    {
      "epoch": 0.6646666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 1.2072916666666667,
      "learning_rate": 2.5295319272310596e-05,
      "loss": 6.2284,
      "loss/crossentropy": 1.354628637433052,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.104993199929595,
      "step": 3988
    },
    {
      "epoch": 0.6648333333333334,
      "grad_norm": 23.125,
      "grad_norm_var": 1.2770182291666667,
      "learning_rate": 2.527256159308703e-05,
      "loss": 6.7264,
      "loss/crossentropy": 1.599889487028122,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23920853808522224,
      "step": 3989
    },
    {
      "epoch": 0.665,
      "grad_norm": 22.0,
      "grad_norm_var": 1.2624348958333333,
      "learning_rate": 2.524981069303093e-05,
      "loss": 6.6045,
      "loss/crossentropy": 1.6675072610378265,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1334393098950386,
      "step": 3990
    },
    {
      "epoch": 0.6651666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.4393229166666666,
      "learning_rate": 2.522706657837962e-05,
      "loss": 5.8935,
      "loss/crossentropy": 1.6195780336856842,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14683154597878456,
      "step": 3991
    },
    {
      "epoch": 0.6653333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 1.4708333333333334,
      "learning_rate": 2.520432925536851e-05,
      "loss": 6.2812,
      "loss/crossentropy": 1.4771136045455933,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18082524463534355,
      "step": 3992
    },
    {
      "epoch": 0.6655,
      "grad_norm": 21.0,
      "grad_norm_var": 1.5059895833333334,
      "learning_rate": 2.518159873023116e-05,
      "loss": 6.3582,
      "loss/crossentropy": 0.802600622177124,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07352462317794561,
      "step": 3993
    },
    {
      "epoch": 0.6656666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 1.67890625,
      "learning_rate": 2.5158875009199278e-05,
      "loss": 5.9452,
      "loss/crossentropy": 1.8463315218687057,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19064422324299812,
      "step": 3994
    },
    {
      "epoch": 0.6658333333333334,
      "grad_norm": 18.25,
      "grad_norm_var": 2.254622395833333,
      "learning_rate": 2.5136158098502698e-05,
      "loss": 5.4784,
      "loss/crossentropy": 1.3572583124041557,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09440033277496696,
      "step": 3995
    },
    {
      "epoch": 0.666,
      "grad_norm": 22.0,
      "grad_norm_var": 2.270247395833333,
      "learning_rate": 2.5113448004369393e-05,
      "loss": 5.9626,
      "loss/crossentropy": 1.3496816903352737,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16790062561631203,
      "step": 3996
    },
    {
      "epoch": 0.6661666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 2.4306640625,
      "learning_rate": 2.509074473302546e-05,
      "loss": 5.9862,
      "loss/crossentropy": 1.7062033116817474,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11626972630620003,
      "step": 3997
    },
    {
      "epoch": 0.6663333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 2.018684895833333,
      "learning_rate": 2.506804829069514e-05,
      "loss": 6.2817,
      "loss/crossentropy": 2.1381548941135406,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18680020421743393,
      "step": 3998
    },
    {
      "epoch": 0.6665,
      "grad_norm": 20.625,
      "grad_norm_var": 1.9957682291666667,
      "learning_rate": 2.5045358683600777e-05,
      "loss": 5.8723,
      "loss/crossentropy": 1.1773447841405869,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11589054949581623,
      "step": 3999
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 23.5,
      "grad_norm_var": 2.186393229166667,
      "learning_rate": 2.5022675917962868e-05,
      "loss": 6.4055,
      "loss/crossentropy": 1.258985385298729,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08949016965925694,
      "step": 4000
    },
    {
      "epoch": 0.6668333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.1705729166666665,
      "learning_rate": 2.500000000000001e-05,
      "loss": 6.0584,
      "loss/crossentropy": 1.838516741991043,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17482062056660652,
      "step": 4001
    },
    {
      "epoch": 0.667,
      "grad_norm": 24.25,
      "grad_norm_var": 2.521875,
      "learning_rate": 2.4977330935928944e-05,
      "loss": 5.7869,
      "loss/crossentropy": 0.9368655681610107,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08084899606183171,
      "step": 4002
    },
    {
      "epoch": 0.6671666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 2.521875,
      "learning_rate": 2.4954668731964496e-05,
      "loss": 6.1816,
      "loss/crossentropy": 1.101151019334793,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10898509062826633,
      "step": 4003
    },
    {
      "epoch": 0.6673333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 2.5233723958333334,
      "learning_rate": 2.4932013394319685e-05,
      "loss": 6.1637,
      "loss/crossentropy": 1.3589744865894318,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16689563915133476,
      "step": 4004
    },
    {
      "epoch": 0.6675,
      "grad_norm": 21.25,
      "grad_norm_var": 2.3309895833333334,
      "learning_rate": 2.4909364929205576e-05,
      "loss": 6.2875,
      "loss/crossentropy": 1.307962030172348,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14934315159916878,
      "step": 4005
    },
    {
      "epoch": 0.6676666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 2.4087890625,
      "learning_rate": 2.4886723342831374e-05,
      "loss": 6.3317,
      "loss/crossentropy": 1.499714583158493,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2550422418862581,
      "step": 4006
    },
    {
      "epoch": 0.6678333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 2.331184895833333,
      "learning_rate": 2.48640886414044e-05,
      "loss": 5.9155,
      "loss/crossentropy": 1.1661857664585114,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08994839154183865,
      "step": 4007
    },
    {
      "epoch": 0.668,
      "grad_norm": 22.375,
      "grad_norm_var": 2.1968098958333333,
      "learning_rate": 2.4841460831130097e-05,
      "loss": 6.1225,
      "loss/crossentropy": 0.7858327627182007,
      "loss/hidden": 2.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08123276755213737,
      "step": 4008
    },
    {
      "epoch": 0.6681666666666667,
      "grad_norm": 19.125,
      "grad_norm_var": 2.5122395833333333,
      "learning_rate": 2.4818839918211962e-05,
      "loss": 5.7437,
      "loss/crossentropy": 1.207046166062355,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09969340171664953,
      "step": 4009
    },
    {
      "epoch": 0.6683333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.3978515625,
      "learning_rate": 2.4796225908851695e-05,
      "loss": 5.9509,
      "loss/crossentropy": 1.1494897082448006,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14697821903973818,
      "step": 4010
    },
    {
      "epoch": 0.6685,
      "grad_norm": 22.75,
      "grad_norm_var": 1.8212890625,
      "learning_rate": 2.4773618809249042e-05,
      "loss": 6.1239,
      "loss/crossentropy": 1.1366514563560486,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17623456194996834,
      "step": 4011
    },
    {
      "epoch": 0.6686666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 1.8166015625,
      "learning_rate": 2.475101862560187e-05,
      "loss": 6.6191,
      "loss/crossentropy": 2.075987696647644,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16601484268903732,
      "step": 4012
    },
    {
      "epoch": 0.6688333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.615625,
      "learning_rate": 2.4728425364106135e-05,
      "loss": 6.1181,
      "loss/crossentropy": 1.3552957847714424,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10381221817806363,
      "step": 4013
    },
    {
      "epoch": 0.669,
      "grad_norm": 22.0,
      "grad_norm_var": 1.6098307291666667,
      "learning_rate": 2.4705839030955913e-05,
      "loss": 5.9776,
      "loss/crossentropy": 1.6631243228912354,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11115335859358311,
      "step": 4014
    },
    {
      "epoch": 0.6691666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.5395833333333333,
      "learning_rate": 2.4683259632343362e-05,
      "loss": 5.9632,
      "loss/crossentropy": 1.599646933376789,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15714853815734386,
      "step": 4015
    },
    {
      "epoch": 0.6693333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.3483723958333333,
      "learning_rate": 2.4660687174458792e-05,
      "loss": 6.1462,
      "loss/crossentropy": 1.5327075272798538,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11614575795829296,
      "step": 4016
    },
    {
      "epoch": 0.6695,
      "grad_norm": 19.5,
      "grad_norm_var": 1.6087890625,
      "learning_rate": 2.4638121663490545e-05,
      "loss": 5.9725,
      "loss/crossentropy": 2.0483258068561554,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16058648005127907,
      "step": 4017
    },
    {
      "epoch": 0.6696666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.12890625,
      "learning_rate": 2.46155631056251e-05,
      "loss": 6.0238,
      "loss/crossentropy": 1.3910987675189972,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16441483329981565,
      "step": 4018
    },
    {
      "epoch": 0.6698333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.15390625,
      "learning_rate": 2.4593011507046977e-05,
      "loss": 6.2503,
      "loss/crossentropy": 2.016905799508095,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13808571454137564,
      "step": 4019
    },
    {
      "epoch": 0.67,
      "grad_norm": 23.375,
      "grad_norm_var": 1.3708333333333333,
      "learning_rate": 2.4570466873938852e-05,
      "loss": 7.0416,
      "loss/crossentropy": 2.4440361857414246,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1979420743882656,
      "step": 4020
    },
    {
      "epoch": 0.6701666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 1.3872395833333333,
      "learning_rate": 2.4547929212481435e-05,
      "loss": 5.9616,
      "loss/crossentropy": 1.1790257543325424,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16371809225529432,
      "step": 4021
    },
    {
      "epoch": 0.6703333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.3989583333333333,
      "learning_rate": 2.4525398528853598e-05,
      "loss": 5.9304,
      "loss/crossentropy": 2.1554344296455383,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1418935414403677,
      "step": 4022
    },
    {
      "epoch": 0.6705,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4247395833333334,
      "learning_rate": 2.4502874829232236e-05,
      "loss": 6.43,
      "loss/crossentropy": 1.5744001269340515,
      "loss/hidden": 3.57421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19325504079461098,
      "step": 4023
    },
    {
      "epoch": 0.6706666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 1.4025390625,
      "learning_rate": 2.4480358119792345e-05,
      "loss": 5.9452,
      "loss/crossentropy": 1.8557511866092682,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17072276398539543,
      "step": 4024
    },
    {
      "epoch": 0.6708333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 1.0809895833333334,
      "learning_rate": 2.4457848406707013e-05,
      "loss": 6.2876,
      "loss/crossentropy": 1.998514175415039,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.15659615024924278,
      "step": 4025
    },
    {
      "epoch": 0.671,
      "grad_norm": 21.125,
      "grad_norm_var": 1.0468098958333334,
      "learning_rate": 2.4435345696147403e-05,
      "loss": 5.7951,
      "loss/crossentropy": 1.2085835561156273,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11527590779587626,
      "step": 4026
    },
    {
      "epoch": 0.6711666666666667,
      "grad_norm": 18.875,
      "grad_norm_var": 1.4080729166666666,
      "learning_rate": 2.4412849994282742e-05,
      "loss": 5.6794,
      "loss/crossentropy": 0.9441802874207497,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.06880578398704529,
      "step": 4027
    },
    {
      "epoch": 0.6713333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.4723307291666667,
      "learning_rate": 2.4390361307280412e-05,
      "loss": 5.952,
      "loss/crossentropy": 1.3247990310192108,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09783407486975193,
      "step": 4028
    },
    {
      "epoch": 0.6715,
      "grad_norm": 23.25,
      "grad_norm_var": 1.64140625,
      "learning_rate": 2.4367879641305758e-05,
      "loss": 6.564,
      "loss/crossentropy": 2.444938898086548,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18914497643709183,
      "step": 4029
    },
    {
      "epoch": 0.6716666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 1.7509765625,
      "learning_rate": 2.4345405002522277e-05,
      "loss": 5.9636,
      "loss/crossentropy": 1.5132550597190857,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16189688630402088,
      "step": 4030
    },
    {
      "epoch": 0.6718333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.7684895833333334,
      "learning_rate": 2.432293739709151e-05,
      "loss": 6.1998,
      "loss/crossentropy": 1.4546594023704529,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17241093888878822,
      "step": 4031
    },
    {
      "epoch": 0.672,
      "grad_norm": 22.625,
      "grad_norm_var": 1.84140625,
      "learning_rate": 2.4300476831173085e-05,
      "loss": 6.0829,
      "loss/crossentropy": 1.7024787068367004,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12905147299170494,
      "step": 4032
    },
    {
      "epoch": 0.6721666666666667,
      "grad_norm": 24.75,
      "grad_norm_var": 2.30625,
      "learning_rate": 2.4278023310924673e-05,
      "loss": 6.0501,
      "loss/crossentropy": 0.8787698000669479,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09093341417610645,
      "step": 4033
    },
    {
      "epoch": 0.6723333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 2.31015625,
      "learning_rate": 2.4255576842502076e-05,
      "loss": 5.8979,
      "loss/crossentropy": 1.7730244398117065,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14512868225574493,
      "step": 4034
    },
    {
      "epoch": 0.6725,
      "grad_norm": 21.75,
      "grad_norm_var": 2.2947265625,
      "learning_rate": 2.42331374320591e-05,
      "loss": 6.0531,
      "loss/crossentropy": 0.8377547711133957,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11368558369576931,
      "step": 4035
    },
    {
      "epoch": 0.6726666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 2.0994140625,
      "learning_rate": 2.421070508574763e-05,
      "loss": 6.1033,
      "loss/crossentropy": 1.4653355777263641,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10272321477532387,
      "step": 4036
    },
    {
      "epoch": 0.6728333333333333,
      "grad_norm": 24.5,
      "grad_norm_var": 2.6134765625,
      "learning_rate": 2.418827980971763e-05,
      "loss": 6.4808,
      "loss/crossentropy": 1.5294201970100403,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18007036112248898,
      "step": 4037
    },
    {
      "epoch": 0.673,
      "grad_norm": 19.5,
      "grad_norm_var": 2.82265625,
      "learning_rate": 2.416586161011711e-05,
      "loss": 5.7685,
      "loss/crossentropy": 1.5139161497354507,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10732793435454369,
      "step": 4038
    },
    {
      "epoch": 0.6731666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 2.996809895833333,
      "learning_rate": 2.4143450493092146e-05,
      "loss": 5.8802,
      "loss/crossentropy": 1.2669819667935371,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14341481681913137,
      "step": 4039
    },
    {
      "epoch": 0.6733333333333333,
      "grad_norm": 19.0,
      "grad_norm_var": 3.3822265625,
      "learning_rate": 2.4121046464786877e-05,
      "loss": 5.6966,
      "loss/crossentropy": 1.0919080898165703,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08309551980346441,
      "step": 4040
    },
    {
      "epoch": 0.6735,
      "grad_norm": 19.375,
      "grad_norm_var": 3.59375,
      "learning_rate": 2.4098649531343497e-05,
      "loss": 5.6846,
      "loss/crossentropy": 1.7265021800994873,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17396923154592514,
      "step": 4041
    },
    {
      "epoch": 0.6736666666666666,
      "grad_norm": 19.625,
      "grad_norm_var": 3.771875,
      "learning_rate": 2.407625969890225e-05,
      "loss": 5.8547,
      "loss/crossentropy": 1.388309806585312,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11991312261670828,
      "step": 4042
    },
    {
      "epoch": 0.6738333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 3.85390625,
      "learning_rate": 2.405387697360143e-05,
      "loss": 5.9639,
      "loss/crossentropy": 1.2769688367843628,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14389357343316078,
      "step": 4043
    },
    {
      "epoch": 0.674,
      "grad_norm": 21.0,
      "grad_norm_var": 3.7806640625,
      "learning_rate": 2.4031501361577397e-05,
      "loss": 6.1698,
      "loss/crossentropy": 1.3881717845797539,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18789307866245508,
      "step": 4044
    },
    {
      "epoch": 0.6741666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 3.58515625,
      "learning_rate": 2.4009132868964522e-05,
      "loss": 6.2032,
      "loss/crossentropy": 1.5874607563018799,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09286793507635593,
      "step": 4045
    },
    {
      "epoch": 0.6743333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 3.475455729166667,
      "learning_rate": 2.39867715018953e-05,
      "loss": 6.2933,
      "loss/crossentropy": 2.314978212118149,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17371788620948792,
      "step": 4046
    },
    {
      "epoch": 0.6745,
      "grad_norm": 20.875,
      "grad_norm_var": 3.4457682291666667,
      "learning_rate": 2.396441726650021e-05,
      "loss": 6.0307,
      "loss/crossentropy": 1.5719895660877228,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14771130494773388,
      "step": 4047
    },
    {
      "epoch": 0.6746666666666666,
      "grad_norm": 24.0,
      "grad_norm_var": 3.783072916666667,
      "learning_rate": 2.3942070168907782e-05,
      "loss": 6.0563,
      "loss/crossentropy": 1.808938443660736,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14373375847935677,
      "step": 4048
    },
    {
      "epoch": 0.6748333333333333,
      "grad_norm": 24.875,
      "grad_norm_var": 3.8379557291666666,
      "learning_rate": 2.3919730215244614e-05,
      "loss": 6.449,
      "loss/crossentropy": 1.4472787380218506,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14375736378133297,
      "step": 4049
    },
    {
      "epoch": 0.675,
      "grad_norm": 19.875,
      "grad_norm_var": 3.9942057291666666,
      "learning_rate": 2.3897397411635313e-05,
      "loss": 5.6649,
      "loss/crossentropy": 1.5968962982296944,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1596229625865817,
      "step": 4050
    },
    {
      "epoch": 0.6751666666666667,
      "grad_norm": 27.125,
      "grad_norm_var": 6.051822916666667,
      "learning_rate": 2.3875071764202563e-05,
      "loss": 6.8958,
      "loss/crossentropy": 2.0109617114067078,
      "loss/hidden": 3.6640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28371696174144745,
      "step": 4051
    },
    {
      "epoch": 0.6753333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 6.0541015625,
      "learning_rate": 2.3852753279067054e-05,
      "loss": 6.0257,
      "loss/crossentropy": 1.0657843202352524,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12915788777172565,
      "step": 4052
    },
    {
      "epoch": 0.6755,
      "grad_norm": 19.625,
      "grad_norm_var": 5.70625,
      "learning_rate": 2.383044196234753e-05,
      "loss": 5.7564,
      "loss/crossentropy": 1.211895227432251,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10086116567254066,
      "step": 4053
    },
    {
      "epoch": 0.6756666666666666,
      "grad_norm": 19.5,
      "grad_norm_var": 5.70625,
      "learning_rate": 2.3808137820160757e-05,
      "loss": 5.5426,
      "loss/crossentropy": 1.2291511595249176,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0917170736938715,
      "step": 4054
    },
    {
      "epoch": 0.6758333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 5.56640625,
      "learning_rate": 2.3785840858621555e-05,
      "loss": 5.9727,
      "loss/crossentropy": 1.439823716878891,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13661094475537539,
      "step": 4055
    },
    {
      "epoch": 0.676,
      "grad_norm": 21.75,
      "grad_norm_var": 5.151041666666667,
      "learning_rate": 2.3763551083842757e-05,
      "loss": 6.1361,
      "loss/crossentropy": 1.569985806941986,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15482088923454285,
      "step": 4056
    },
    {
      "epoch": 0.6761666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 4.802083333333333,
      "learning_rate": 2.374126850193521e-05,
      "loss": 6.1061,
      "loss/crossentropy": 1.23610520362854,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12540792673826218,
      "step": 4057
    },
    {
      "epoch": 0.6763333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 4.485416666666667,
      "learning_rate": 2.371899311900785e-05,
      "loss": 6.0922,
      "loss/crossentropy": 1.3244425356388092,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18046380579471588,
      "step": 4058
    },
    {
      "epoch": 0.6765,
      "grad_norm": 22.375,
      "grad_norm_var": 4.151822916666666,
      "learning_rate": 2.369672494116758e-05,
      "loss": 6.1119,
      "loss/crossentropy": 1.2718425020575523,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13217448629438877,
      "step": 4059
    },
    {
      "epoch": 0.6766666666666666,
      "grad_norm": 22.5,
      "grad_norm_var": 4.139322916666667,
      "learning_rate": 2.3674463974519345e-05,
      "loss": 6.378,
      "loss/crossentropy": 1.4956874698400497,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22530588693916798,
      "step": 4060
    },
    {
      "epoch": 0.6768333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 4.136393229166667,
      "learning_rate": 2.3652210225166122e-05,
      "loss": 6.2177,
      "loss/crossentropy": 1.5533910542726517,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12679126858711243,
      "step": 4061
    },
    {
      "epoch": 0.677,
      "grad_norm": 23.25,
      "grad_norm_var": 4.107747395833333,
      "learning_rate": 2.3629963699208918e-05,
      "loss": 6.3193,
      "loss/crossentropy": 1.6931018233299255,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21892553567886353,
      "step": 4062
    },
    {
      "epoch": 0.6771666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 4.015559895833333,
      "learning_rate": 2.3607724402746684e-05,
      "loss": 6.166,
      "loss/crossentropy": 2.3208757638931274,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1888519898056984,
      "step": 4063
    },
    {
      "epoch": 0.6773333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 3.847916666666667,
      "learning_rate": 2.358549234187651e-05,
      "loss": 6.0359,
      "loss/crossentropy": 1.028160221874714,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12420312501490116,
      "step": 4064
    },
    {
      "epoch": 0.6775,
      "grad_norm": 18.875,
      "grad_norm_var": 3.747916666666667,
      "learning_rate": 2.3563267522693415e-05,
      "loss": 5.8725,
      "loss/crossentropy": 1.3122327849268913,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10971679538488388,
      "step": 4065
    },
    {
      "epoch": 0.6776666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 3.551041666666667,
      "learning_rate": 2.3541049951290476e-05,
      "loss": 6.1269,
      "loss/crossentropy": 1.0975034981966019,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16753766126930714,
      "step": 4066
    },
    {
      "epoch": 0.6778333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4270182291666667,
      "learning_rate": 2.3518839633758748e-05,
      "loss": 6.0474,
      "loss/crossentropy": 1.6795744001865387,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1529904268682003,
      "step": 4067
    },
    {
      "epoch": 0.678,
      "grad_norm": 23.75,
      "grad_norm_var": 1.7994140625,
      "learning_rate": 2.349663657618733e-05,
      "loss": 6.4615,
      "loss/crossentropy": 1.3648905456066132,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14107832312583923,
      "step": 4068
    },
    {
      "epoch": 0.6781666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 1.7603515625,
      "learning_rate": 2.347444078466329e-05,
      "loss": 6.3245,
      "loss/crossentropy": 1.2050805985927582,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2376898191869259,
      "step": 4069
    },
    {
      "epoch": 0.6783333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 1.7247395833333334,
      "learning_rate": 2.3452252265271767e-05,
      "loss": 5.966,
      "loss/crossentropy": 1.3844486251473427,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1821842323988676,
      "step": 4070
    },
    {
      "epoch": 0.6785,
      "grad_norm": 19.625,
      "grad_norm_var": 1.8927083333333334,
      "learning_rate": 2.343007102409585e-05,
      "loss": 6.0289,
      "loss/crossentropy": 1.8137083649635315,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11825857684016228,
      "step": 4071
    },
    {
      "epoch": 0.6786666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.9427083333333333,
      "learning_rate": 2.3407897067216677e-05,
      "loss": 6.2039,
      "loss/crossentropy": 1.6754711270332336,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18951012194156647,
      "step": 4072
    },
    {
      "epoch": 0.6788333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 2.0468098958333334,
      "learning_rate": 2.3385730400713318e-05,
      "loss": 6.1132,
      "loss/crossentropy": 1.2336010932922363,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22395881451666355,
      "step": 4073
    },
    {
      "epoch": 0.679,
      "grad_norm": 21.125,
      "grad_norm_var": 2.053580729166667,
      "learning_rate": 2.3363571030662916e-05,
      "loss": 5.8134,
      "loss/crossentropy": 0.8617331609129906,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.06398400850594044,
      "step": 4074
    },
    {
      "epoch": 0.6791666666666667,
      "grad_norm": 19.25,
      "grad_norm_var": 2.283072916666667,
      "learning_rate": 2.334141896314057e-05,
      "loss": 5.9733,
      "loss/crossentropy": 1.8477652072906494,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1934888046234846,
      "step": 4075
    },
    {
      "epoch": 0.6793333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 2.2634765625,
      "learning_rate": 2.3319274204219428e-05,
      "loss": 6.1553,
      "loss/crossentropy": 1.3860180526971817,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09548315033316612,
      "step": 4076
    },
    {
      "epoch": 0.6795,
      "grad_norm": 25.875,
      "grad_norm_var": 3.59765625,
      "learning_rate": 2.3297136759970577e-05,
      "loss": 6.5509,
      "loss/crossentropy": 1.8262615203857422,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1603660862892866,
      "step": 4077
    },
    {
      "epoch": 0.6796666666666666,
      "grad_norm": 24.75,
      "grad_norm_var": 4.08515625,
      "learning_rate": 2.3275006636463138e-05,
      "loss": 6.3742,
      "loss/crossentropy": 1.583401471376419,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3244100324809551,
      "step": 4078
    },
    {
      "epoch": 0.6798333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 4.062955729166666,
      "learning_rate": 2.32528838397642e-05,
      "loss": 6.3741,
      "loss/crossentropy": 1.1705775260925293,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1790869813412428,
      "step": 4079
    },
    {
      "epoch": 0.68,
      "grad_norm": 22.5,
      "grad_norm_var": 4.0875,
      "learning_rate": 2.323076837593885e-05,
      "loss": 6.439,
      "loss/crossentropy": 0.9657364785671234,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1353541249409318,
      "step": 4080
    },
    {
      "epoch": 0.6801666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 3.5619140625,
      "learning_rate": 2.3208660251050158e-05,
      "loss": 5.9876,
      "loss/crossentropy": 1.1226558983325958,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26037123054265976,
      "step": 4081
    },
    {
      "epoch": 0.6803333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 3.6858723958333335,
      "learning_rate": 2.318655947115924e-05,
      "loss": 5.715,
      "loss/crossentropy": 0.7718647718429565,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09444217756390572,
      "step": 4082
    },
    {
      "epoch": 0.6805,
      "grad_norm": 20.75,
      "grad_norm_var": 3.7483723958333335,
      "learning_rate": 2.3164466042325107e-05,
      "loss": 6.2935,
      "loss/crossentropy": 2.43278044462204,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19332649558782578,
      "step": 4083
    },
    {
      "epoch": 0.6806666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 3.457747395833333,
      "learning_rate": 2.3142379970604798e-05,
      "loss": 6.5024,
      "loss/crossentropy": 1.8971439599990845,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15806860104203224,
      "step": 4084
    },
    {
      "epoch": 0.6808333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 3.2306640625,
      "learning_rate": 2.312030126205335e-05,
      "loss": 6.0076,
      "loss/crossentropy": 1.2242114320397377,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12683581933379173,
      "step": 4085
    },
    {
      "epoch": 0.681,
      "grad_norm": 22.25,
      "grad_norm_var": 3.01875,
      "learning_rate": 2.309822992272376e-05,
      "loss": 5.839,
      "loss/crossentropy": 1.6493655443191528,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15680248104035854,
      "step": 4086
    },
    {
      "epoch": 0.6811666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 2.7494140625,
      "learning_rate": 2.307616595866699e-05,
      "loss": 5.9768,
      "loss/crossentropy": 1.805674284696579,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1272687017917633,
      "step": 4087
    },
    {
      "epoch": 0.6813333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 2.6822265625,
      "learning_rate": 2.305410937593204e-05,
      "loss": 5.7549,
      "loss/crossentropy": 1.1877179741859436,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11286649666726589,
      "step": 4088
    },
    {
      "epoch": 0.6815,
      "grad_norm": 23.875,
      "grad_norm_var": 2.7143229166666667,
      "learning_rate": 2.3032060180565828e-05,
      "loss": 6.2942,
      "loss/crossentropy": 1.3157271593809128,
      "loss/hidden": 3.61328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18412701226770878,
      "step": 4089
    },
    {
      "epoch": 0.6816666666666666,
      "grad_norm": 22.875,
      "grad_norm_var": 2.676041666666667,
      "learning_rate": 2.3010018378613272e-05,
      "loss": 5.9106,
      "loss/crossentropy": 1.662307858467102,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13914019986987114,
      "step": 4090
    },
    {
      "epoch": 0.6818333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 2.0497395833333334,
      "learning_rate": 2.298798397611725e-05,
      "loss": 6.5849,
      "loss/crossentropy": 1.8308119624853134,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1475809644907713,
      "step": 4091
    },
    {
      "epoch": 0.682,
      "grad_norm": 19.75,
      "grad_norm_var": 2.496809895833333,
      "learning_rate": 2.2965956979118624e-05,
      "loss": 6.2362,
      "loss/crossentropy": 1.1331520974636078,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08891210239380598,
      "step": 4092
    },
    {
      "epoch": 0.6821666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 1.6309895833333334,
      "learning_rate": 2.294393739365621e-05,
      "loss": 6.2285,
      "loss/crossentropy": 1.241245061159134,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08767783362418413,
      "step": 4093
    },
    {
      "epoch": 0.6823333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.0978515625,
      "learning_rate": 2.2921925225766817e-05,
      "loss": 6.0092,
      "loss/crossentropy": 1.4560845792293549,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18509751185774803,
      "step": 4094
    },
    {
      "epoch": 0.6825,
      "grad_norm": 17.875,
      "grad_norm_var": 2.0434895833333333,
      "learning_rate": 2.289992048148519e-05,
      "loss": 5.6737,
      "loss/crossentropy": 1.2947611212730408,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.153658177703619,
      "step": 4095
    },
    {
      "epoch": 0.6826666666666666,
      "grad_norm": 19.0,
      "grad_norm_var": 2.3934895833333334,
      "learning_rate": 2.2877923166844074e-05,
      "loss": 5.8307,
      "loss/crossentropy": 1.3287087976932526,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11379721201956272,
      "step": 4096
    },
    {
      "epoch": 0.6828333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 2.347916666666667,
      "learning_rate": 2.2855933287874138e-05,
      "loss": 6.3346,
      "loss/crossentropy": 2.015731155872345,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17053573578596115,
      "step": 4097
    },
    {
      "epoch": 0.683,
      "grad_norm": 20.5,
      "grad_norm_var": 2.333268229166667,
      "learning_rate": 2.283395085060404e-05,
      "loss": 5.8011,
      "loss/crossentropy": 1.7135893404483795,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10360365640372038,
      "step": 4098
    },
    {
      "epoch": 0.6831666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 2.4052083333333334,
      "learning_rate": 2.2811975861060368e-05,
      "loss": 5.9905,
      "loss/crossentropy": 1.7933399230241776,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19740849174559116,
      "step": 4099
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 2.411393229166667,
      "learning_rate": 2.2790008325267735e-05,
      "loss": 5.957,
      "loss/crossentropy": 1.2833606600761414,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09877876378595829,
      "step": 4100
    },
    {
      "epoch": 0.6835,
      "grad_norm": 20.0,
      "grad_norm_var": 2.5052083333333335,
      "learning_rate": 2.2768048249248648e-05,
      "loss": 5.549,
      "loss/crossentropy": 1.4896023571491241,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11329498887062073,
      "step": 4101
    },
    {
      "epoch": 0.6836666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 3.0973307291666665,
      "learning_rate": 2.274609563902357e-05,
      "loss": 6.4768,
      "loss/crossentropy": 2.1479333639144897,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18643752485513687,
      "step": 4102
    },
    {
      "epoch": 0.6838333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 3.0348307291666665,
      "learning_rate": 2.2724150500610948e-05,
      "loss": 6.1634,
      "loss/crossentropy": 1.4158065915107727,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10659582540392876,
      "step": 4103
    },
    {
      "epoch": 0.684,
      "grad_norm": 21.0,
      "grad_norm_var": 2.9593098958333335,
      "learning_rate": 2.2702212840027165e-05,
      "loss": 5.9969,
      "loss/crossentropy": 1.3153599351644516,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1580836959183216,
      "step": 4104
    },
    {
      "epoch": 0.6841666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 2.4358723958333335,
      "learning_rate": 2.2680282663286552e-05,
      "loss": 6.0219,
      "loss/crossentropy": 1.4500636756420135,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11998914927244186,
      "step": 4105
    },
    {
      "epoch": 0.6843333333333333,
      "grad_norm": 18.875,
      "grad_norm_var": 2.4233723958333333,
      "learning_rate": 2.2658359976401388e-05,
      "loss": 5.9762,
      "loss/crossentropy": 1.6933798491954803,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12483708746731281,
      "step": 4106
    },
    {
      "epoch": 0.6845,
      "grad_norm": 21.875,
      "grad_norm_var": 2.3,
      "learning_rate": 2.263644478538191e-05,
      "loss": 5.9048,
      "loss/crossentropy": 1.5132918953895569,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15781570598483086,
      "step": 4107
    },
    {
      "epoch": 0.6846666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 2.2384765625,
      "learning_rate": 2.261453709623628e-05,
      "loss": 5.9572,
      "loss/crossentropy": 1.3117782175540924,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21115022152662277,
      "step": 4108
    },
    {
      "epoch": 0.6848333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 2.2384765625,
      "learning_rate": 2.2592636914970634e-05,
      "loss": 6.1164,
      "loss/crossentropy": 1.2468963339924812,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09317895770072937,
      "step": 4109
    },
    {
      "epoch": 0.685,
      "grad_norm": 20.0,
      "grad_norm_var": 2.073958333333333,
      "learning_rate": 2.2570744247589016e-05,
      "loss": 5.9762,
      "loss/crossentropy": 1.7047188878059387,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12799194268882275,
      "step": 4110
    },
    {
      "epoch": 0.6851666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.5708333333333333,
      "learning_rate": 2.2548859100093407e-05,
      "loss": 5.8558,
      "loss/crossentropy": 1.700191244482994,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12672129273414612,
      "step": 4111
    },
    {
      "epoch": 0.6853333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.3431640625,
      "learning_rate": 2.252698147848379e-05,
      "loss": 5.8751,
      "loss/crossentropy": 1.6667244732379913,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1212200652807951,
      "step": 4112
    },
    {
      "epoch": 0.6855,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4551432291666666,
      "learning_rate": 2.250511138875801e-05,
      "loss": 6.343,
      "loss/crossentropy": 1.7020376324653625,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.266164718195796,
      "step": 4113
    },
    {
      "epoch": 0.6856666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 1.5979166666666667,
      "learning_rate": 2.248324883691188e-05,
      "loss": 6.1124,
      "loss/crossentropy": 1.6118832230567932,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1564355082809925,
      "step": 4114
    },
    {
      "epoch": 0.6858333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.5291015625,
      "learning_rate": 2.2461393828939147e-05,
      "loss": 6.1626,
      "loss/crossentropy": 1.3509995937347412,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1404112260788679,
      "step": 4115
    },
    {
      "epoch": 0.686,
      "grad_norm": 21.25,
      "grad_norm_var": 1.52265625,
      "learning_rate": 2.24395463708315e-05,
      "loss": 5.9139,
      "loss/crossentropy": 1.508882187306881,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12373809749260545,
      "step": 4116
    },
    {
      "epoch": 0.6861666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.4375,
      "learning_rate": 2.241770646857849e-05,
      "loss": 6.3553,
      "loss/crossentropy": 1.3647958785295486,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13902484811842442,
      "step": 4117
    },
    {
      "epoch": 0.6863333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 0.75390625,
      "learning_rate": 2.2395874128167705e-05,
      "loss": 5.938,
      "loss/crossentropy": 1.222304992377758,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08186540985479951,
      "step": 4118
    },
    {
      "epoch": 0.6865,
      "grad_norm": 21.875,
      "grad_norm_var": 0.7999348958333333,
      "learning_rate": 2.237404935558458e-05,
      "loss": 6.0079,
      "loss/crossentropy": 1.3833685666322708,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09618185833096504,
      "step": 4119
    },
    {
      "epoch": 0.6866666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 0.8302083333333333,
      "learning_rate": 2.2352232156812514e-05,
      "loss": 6.3617,
      "loss/crossentropy": 1.4996432214975357,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12858891114592552,
      "step": 4120
    },
    {
      "epoch": 0.6868333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 0.9639973958333333,
      "learning_rate": 2.23304225378328e-05,
      "loss": 5.6898,
      "loss/crossentropy": 1.5342079997062683,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14381627459079027,
      "step": 4121
    },
    {
      "epoch": 0.687,
      "grad_norm": 19.25,
      "grad_norm_var": 0.8708333333333333,
      "learning_rate": 2.2308620504624683e-05,
      "loss": 5.7393,
      "loss/crossentropy": 1.339344710111618,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11567806452512741,
      "step": 4122
    },
    {
      "epoch": 0.6871666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 0.8874348958333333,
      "learning_rate": 2.228682606316529e-05,
      "loss": 6.359,
      "loss/crossentropy": 1.641012281179428,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14586917497217655,
      "step": 4123
    },
    {
      "epoch": 0.6873333333333334,
      "grad_norm": 18.75,
      "grad_norm_var": 1.1872395833333333,
      "learning_rate": 2.2265039219429724e-05,
      "loss": 5.6399,
      "loss/crossentropy": 1.19707852602005,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11555461585521698,
      "step": 4124
    },
    {
      "epoch": 0.6875,
      "grad_norm": 21.25,
      "grad_norm_var": 1.196875,
      "learning_rate": 2.224325997939095e-05,
      "loss": 6.0429,
      "loss/crossentropy": 1.4727023541927338,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20700526610016823,
      "step": 4125
    },
    {
      "epoch": 0.6876666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.14765625,
      "learning_rate": 2.2221488349019903e-05,
      "loss": 5.9221,
      "loss/crossentropy": 1.5483465790748596,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1253036167472601,
      "step": 4126
    },
    {
      "epoch": 0.6878333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.1317057291666666,
      "learning_rate": 2.219972433428535e-05,
      "loss": 6.2008,
      "loss/crossentropy": 1.3845107853412628,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16911546885967255,
      "step": 4127
    },
    {
      "epoch": 0.688,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1916015625,
      "learning_rate": 2.2177967941154042e-05,
      "loss": 6.3648,
      "loss/crossentropy": 1.643698289990425,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1823966708034277,
      "step": 4128
    },
    {
      "epoch": 0.6881666666666667,
      "grad_norm": 26.375,
      "grad_norm_var": 2.98125,
      "learning_rate": 2.215621917559062e-05,
      "loss": 6.3391,
      "loss/crossentropy": 1.078192412853241,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20450681447982788,
      "step": 4129
    },
    {
      "epoch": 0.6883333333333334,
      "grad_norm": 23.75,
      "grad_norm_var": 3.2759765625,
      "learning_rate": 2.2134478043557605e-05,
      "loss": 6.1495,
      "loss/crossentropy": 1.9214871525764465,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19996499828994274,
      "step": 4130
    },
    {
      "epoch": 0.6885,
      "grad_norm": 25.125,
      "grad_norm_var": 4.19765625,
      "learning_rate": 2.2112744551015498e-05,
      "loss": 6.3719,
      "loss/crossentropy": 1.192579835653305,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12107757851481438,
      "step": 4131
    },
    {
      "epoch": 0.6886666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 4.1931640625,
      "learning_rate": 2.209101870392263e-05,
      "loss": 6.0011,
      "loss/crossentropy": 1.7283028960227966,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13578277826309204,
      "step": 4132
    },
    {
      "epoch": 0.6888333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 4.261393229166667,
      "learning_rate": 2.2069300508235275e-05,
      "loss": 5.997,
      "loss/crossentropy": 1.6060531735420227,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.14648162946105003,
      "step": 4133
    },
    {
      "epoch": 0.689,
      "grad_norm": 19.75,
      "grad_norm_var": 4.412239583333333,
      "learning_rate": 2.2047589969907594e-05,
      "loss": 5.7347,
      "loss/crossentropy": 1.3776610493659973,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1824946627020836,
      "step": 4134
    },
    {
      "epoch": 0.6891666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 4.574934895833334,
      "learning_rate": 2.2025887094891657e-05,
      "loss": 5.6674,
      "loss/crossentropy": 0.9551762044429779,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.06721707619726658,
      "step": 4135
    },
    {
      "epoch": 0.6893333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 4.511393229166667,
      "learning_rate": 2.2004191889137414e-05,
      "loss": 5.8352,
      "loss/crossentropy": 1.3673943281173706,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1257782131433487,
      "step": 4136
    },
    {
      "epoch": 0.6895,
      "grad_norm": 20.125,
      "grad_norm_var": 4.37890625,
      "learning_rate": 2.1982504358592776e-05,
      "loss": 5.7112,
      "loss/crossentropy": 1.1925690025091171,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11559533327817917,
      "step": 4137
    },
    {
      "epoch": 0.6896666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 4.2791015625,
      "learning_rate": 2.196082450920346e-05,
      "loss": 5.8574,
      "loss/crossentropy": 1.6536635756492615,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13801000081002712,
      "step": 4138
    },
    {
      "epoch": 0.6898333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 4.341080729166666,
      "learning_rate": 2.193915234691312e-05,
      "loss": 5.629,
      "loss/crossentropy": 1.489572897553444,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1385921947658062,
      "step": 4139
    },
    {
      "epoch": 0.69,
      "grad_norm": 19.25,
      "grad_norm_var": 4.184309895833334,
      "learning_rate": 2.1917487877663318e-05,
      "loss": 5.813,
      "loss/crossentropy": 1.2976049929857254,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11173969693481922,
      "step": 4140
    },
    {
      "epoch": 0.6901666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 4.374739583333334,
      "learning_rate": 2.1895831107393484e-05,
      "loss": 5.6672,
      "loss/crossentropy": 2.170366123318672,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13684894517064095,
      "step": 4141
    },
    {
      "epoch": 0.6903333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 4.356184895833334,
      "learning_rate": 2.187418204204093e-05,
      "loss": 6.1012,
      "loss/crossentropy": 1.1528732180595398,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10231733694672585,
      "step": 4142
    },
    {
      "epoch": 0.6905,
      "grad_norm": 20.5,
      "grad_norm_var": 4.378580729166667,
      "learning_rate": 2.18525406875409e-05,
      "loss": 6.2568,
      "loss/crossentropy": 1.6725081205368042,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15508981607854366,
      "step": 4143
    },
    {
      "epoch": 0.6906666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 4.494791666666667,
      "learning_rate": 2.1830907049826487e-05,
      "loss": 6.5135,
      "loss/crossentropy": 1.4958881437778473,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19433380290865898,
      "step": 4144
    },
    {
      "epoch": 0.6908333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 2.77265625,
      "learning_rate": 2.1809281134828664e-05,
      "loss": 6.0118,
      "loss/crossentropy": 1.0108962059020996,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1554712951183319,
      "step": 4145
    },
    {
      "epoch": 0.691,
      "grad_norm": 21.75,
      "grad_norm_var": 2.31015625,
      "learning_rate": 2.17876629484763e-05,
      "loss": 5.8541,
      "loss/crossentropy": 1.3412300869822502,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0955217988230288,
      "step": 4146
    },
    {
      "epoch": 0.6911666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.1822265625,
      "learning_rate": 2.1766052496696153e-05,
      "loss": 6.3243,
      "loss/crossentropy": 1.571191057562828,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2018438745290041,
      "step": 4147
    },
    {
      "epoch": 0.6913333333333334,
      "grad_norm": 19.75,
      "grad_norm_var": 1.18515625,
      "learning_rate": 2.174444978541284e-05,
      "loss": 5.781,
      "loss/crossentropy": 1.4910951778292656,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.175470769405365,
      "step": 4148
    },
    {
      "epoch": 0.6915,
      "grad_norm": 22.375,
      "grad_norm_var": 1.3567057291666667,
      "learning_rate": 2.1722854820548872e-05,
      "loss": 5.8785,
      "loss/crossentropy": 1.4872485026717186,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1319801090285182,
      "step": 4149
    },
    {
      "epoch": 0.6916666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4061848958333334,
      "learning_rate": 2.170126760802463e-05,
      "loss": 6.48,
      "loss/crossentropy": 1.0782558917999268,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15490123257040977,
      "step": 4150
    },
    {
      "epoch": 0.6918333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.3541666666666667,
      "learning_rate": 2.167968815375837e-05,
      "loss": 5.7576,
      "loss/crossentropy": 1.7436784207820892,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.174906887114048,
      "step": 4151
    },
    {
      "epoch": 0.692,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3541666666666667,
      "learning_rate": 2.1658116463666224e-05,
      "loss": 6.2118,
      "loss/crossentropy": 1.6454866826534271,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1465009953826666,
      "step": 4152
    },
    {
      "epoch": 0.6921666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.2955729166666667,
      "learning_rate": 2.1636552543662186e-05,
      "loss": 6.1589,
      "loss/crossentropy": 1.3065637350082397,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11267619952559471,
      "step": 4153
    },
    {
      "epoch": 0.6923333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.1363932291666667,
      "learning_rate": 2.161499639965812e-05,
      "loss": 6.4174,
      "loss/crossentropy": 2.054946482181549,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1326942779123783,
      "step": 4154
    },
    {
      "epoch": 0.6925,
      "grad_norm": 23.625,
      "grad_norm_var": 1.3947916666666667,
      "learning_rate": 2.1593448037563797e-05,
      "loss": 6.0689,
      "loss/crossentropy": 1.4149153530597687,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21488671004772186,
      "step": 4155
    },
    {
      "epoch": 0.6926666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 1.3247395833333333,
      "learning_rate": 2.15719074632868e-05,
      "loss": 6.0436,
      "loss/crossentropy": 1.4940282106399536,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19120801985263824,
      "step": 4156
    },
    {
      "epoch": 0.6928333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 1.3567057291666667,
      "learning_rate": 2.1550374682732606e-05,
      "loss": 5.9311,
      "loss/crossentropy": 1.3584863245487213,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12024189159274101,
      "step": 4157
    },
    {
      "epoch": 0.693,
      "grad_norm": 20.875,
      "grad_norm_var": 1.3791015625,
      "learning_rate": 2.1528849701804544e-05,
      "loss": 6.0568,
      "loss/crossentropy": 1.0070959702134132,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13322771340608597,
      "step": 4158
    },
    {
      "epoch": 0.6931666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.340625,
      "learning_rate": 2.150733252640381e-05,
      "loss": 5.836,
      "loss/crossentropy": 1.2980700954794884,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09895558468997478,
      "step": 4159
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 1.4416666666666667,
      "learning_rate": 2.148582316242947e-05,
      "loss": 6.1309,
      "loss/crossentropy": 1.520556554198265,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17115404456853867,
      "step": 4160
    },
    {
      "epoch": 0.6935,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4208333333333334,
      "learning_rate": 2.1464321615778422e-05,
      "loss": 6.1341,
      "loss/crossentropy": 1.3221176117658615,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16106498800218105,
      "step": 4161
    },
    {
      "epoch": 0.6936666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.5875,
      "learning_rate": 2.1442827892345447e-05,
      "loss": 5.6368,
      "loss/crossentropy": 1.688126876950264,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11276237666606903,
      "step": 4162
    },
    {
      "epoch": 0.6938333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.5796223958333333,
      "learning_rate": 2.1421341998023163e-05,
      "loss": 5.8729,
      "loss/crossentropy": 1.8795538395643234,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1360099110752344,
      "step": 4163
    },
    {
      "epoch": 0.694,
      "grad_norm": 21.875,
      "grad_norm_var": 1.4434895833333334,
      "learning_rate": 2.1399863938702065e-05,
      "loss": 6.0735,
      "loss/crossentropy": 1.4328861832618713,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09731475915759802,
      "step": 4164
    },
    {
      "epoch": 0.6941666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.4955729166666667,
      "learning_rate": 2.1378393720270468e-05,
      "loss": 5.9485,
      "loss/crossentropy": 1.157094031572342,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14777471125125885,
      "step": 4165
    },
    {
      "epoch": 0.6943333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 1.41875,
      "learning_rate": 2.1356931348614546e-05,
      "loss": 5.9172,
      "loss/crossentropy": 1.5809303373098373,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18164390325546265,
      "step": 4166
    },
    {
      "epoch": 0.6945,
      "grad_norm": 20.25,
      "grad_norm_var": 1.4212890625,
      "learning_rate": 2.133547682961836e-05,
      "loss": 6.1069,
      "loss/crossentropy": 1.7929233461618423,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12692871689796448,
      "step": 4167
    },
    {
      "epoch": 0.6946666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.4369140625,
      "learning_rate": 2.1314030169163774e-05,
      "loss": 5.9903,
      "loss/crossentropy": 1.1683424413204193,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08368711546063423,
      "step": 4168
    },
    {
      "epoch": 0.6948333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5134765625,
      "learning_rate": 2.1292591373130518e-05,
      "loss": 6.1409,
      "loss/crossentropy": 2.202924132347107,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14294960536062717,
      "step": 4169
    },
    {
      "epoch": 0.695,
      "grad_norm": 22.625,
      "grad_norm_var": 1.66640625,
      "learning_rate": 2.1271160447396143e-05,
      "loss": 5.9266,
      "loss/crossentropy": 1.3317902386188507,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1366805750876665,
      "step": 4170
    },
    {
      "epoch": 0.6951666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.2796223958333333,
      "learning_rate": 2.124973739783609e-05,
      "loss": 6.1935,
      "loss/crossentropy": 1.3570090234279633,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1331325378268957,
      "step": 4171
    },
    {
      "epoch": 0.6953333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 1.4552083333333334,
      "learning_rate": 2.1228322230323554e-05,
      "loss": 6.2649,
      "loss/crossentropy": 1.667152315378189,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1416814848780632,
      "step": 4172
    },
    {
      "epoch": 0.6955,
      "grad_norm": 21.25,
      "grad_norm_var": 1.2455729166666667,
      "learning_rate": 2.1206914950729672e-05,
      "loss": 6.3435,
      "loss/crossentropy": 1.8905610740184784,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12987389601767063,
      "step": 4173
    },
    {
      "epoch": 0.6956666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 1.3260416666666666,
      "learning_rate": 2.118551556492336e-05,
      "loss": 5.7146,
      "loss/crossentropy": 1.3671034947037697,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13489057682454586,
      "step": 4174
    },
    {
      "epoch": 0.6958333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3264973958333333,
      "learning_rate": 2.116412407877138e-05,
      "loss": 6.0661,
      "loss/crossentropy": 1.6319169849157333,
      "loss/hidden": 2.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09821813274174929,
      "step": 4175
    },
    {
      "epoch": 0.696,
      "grad_norm": 21.25,
      "grad_norm_var": 1.0660807291666667,
      "learning_rate": 2.1142740498138324e-05,
      "loss": 6.5038,
      "loss/crossentropy": 1.6309283077716827,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13871169090270996,
      "step": 4176
    },
    {
      "epoch": 0.6961666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.2,
      "learning_rate": 2.112136482888663e-05,
      "loss": 5.4766,
      "loss/crossentropy": 1.2867599055171013,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.142266146838665,
      "step": 4177
    },
    {
      "epoch": 0.6963333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 1.1239583333333334,
      "learning_rate": 2.109999707687653e-05,
      "loss": 5.9124,
      "loss/crossentropy": 0.9943148717284203,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17427084688097239,
      "step": 4178
    },
    {
      "epoch": 0.6965,
      "grad_norm": 20.625,
      "grad_norm_var": 1.1239583333333334,
      "learning_rate": 2.1078637247966164e-05,
      "loss": 5.8611,
      "loss/crossentropy": 1.5609257221221924,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12005252577364445,
      "step": 4179
    },
    {
      "epoch": 0.6966666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.1208333333333333,
      "learning_rate": 2.1057285348011423e-05,
      "loss": 6.0549,
      "loss/crossentropy": 2.028840869665146,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24114204570651054,
      "step": 4180
    },
    {
      "epoch": 0.6968333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.115625,
      "learning_rate": 2.103594138286607e-05,
      "loss": 6.4745,
      "loss/crossentropy": 1.3665750324726105,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10553757008165121,
      "step": 4181
    },
    {
      "epoch": 0.697,
      "grad_norm": 21.0,
      "grad_norm_var": 1.115625,
      "learning_rate": 2.1014605358381646e-05,
      "loss": 6.4523,
      "loss/crossentropy": 1.0123780816793442,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14168211817741394,
      "step": 4182
    },
    {
      "epoch": 0.6971666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 1.2207682291666666,
      "learning_rate": 2.0993277280407548e-05,
      "loss": 6.0263,
      "loss/crossentropy": 1.3730901777744293,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13964034989476204,
      "step": 4183
    },
    {
      "epoch": 0.6973333333333334,
      "grad_norm": 25.125,
      "grad_norm_var": 2.1212890625,
      "learning_rate": 2.0971957154790983e-05,
      "loss": 6.4739,
      "loss/crossentropy": 1.4668988436460495,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21431696228682995,
      "step": 4184
    },
    {
      "epoch": 0.6975,
      "grad_norm": 23.875,
      "grad_norm_var": 2.463997395833333,
      "learning_rate": 2.095064498737701e-05,
      "loss": 6.3336,
      "loss/crossentropy": 1.5551921278238297,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1588093750178814,
      "step": 4185
    },
    {
      "epoch": 0.6976666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 2.463997395833333,
      "learning_rate": 2.092934078400847e-05,
      "loss": 6.6128,
      "loss/crossentropy": 1.5980450958013535,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15433446411043406,
      "step": 4186
    },
    {
      "epoch": 0.6978333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 2.62890625,
      "learning_rate": 2.0908044550526036e-05,
      "loss": 5.9147,
      "loss/crossentropy": 1.6183818131685257,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14544976502656937,
      "step": 4187
    },
    {
      "epoch": 0.698,
      "grad_norm": 25.75,
      "grad_norm_var": 3.5900390625,
      "learning_rate": 2.0886756292768177e-05,
      "loss": 6.6845,
      "loss/crossentropy": 1.6185865104198456,
      "loss/hidden": 3.71875,
      "loss/jsd": 0.0,
      "loss/logits": 0.5452728942036629,
      "step": 4188
    },
    {
      "epoch": 0.6981666666666667,
      "grad_norm": 18.5,
      "grad_norm_var": 4.1916015625,
      "learning_rate": 2.0865476016571207e-05,
      "loss": 5.6408,
      "loss/crossentropy": 1.496041551232338,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09281582571566105,
      "step": 4189
    },
    {
      "epoch": 0.6983333333333334,
      "grad_norm": 19.25,
      "grad_norm_var": 4.391666666666667,
      "learning_rate": 2.0844203727769195e-05,
      "loss": 6.0152,
      "loss/crossentropy": 1.410471498966217,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12741135992109776,
      "step": 4190
    },
    {
      "epoch": 0.6985,
      "grad_norm": 22.125,
      "grad_norm_var": 4.419205729166666,
      "learning_rate": 2.0822939432194133e-05,
      "loss": 6.2285,
      "loss/crossentropy": 1.5112967491149902,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11169734690338373,
      "step": 4191
    },
    {
      "epoch": 0.6986666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 4.420572916666667,
      "learning_rate": 2.0801683135675686e-05,
      "loss": 6.0975,
      "loss/crossentropy": 1.396285131573677,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11791628878563643,
      "step": 4192
    },
    {
      "epoch": 0.6988333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 4.243684895833334,
      "learning_rate": 2.07804348440414e-05,
      "loss": 5.787,
      "loss/crossentropy": 1.489334374666214,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1804581768810749,
      "step": 4193
    },
    {
      "epoch": 0.699,
      "grad_norm": 23.0,
      "grad_norm_var": 4.2322265625,
      "learning_rate": 2.075919456311663e-05,
      "loss": 5.8589,
      "loss/crossentropy": 1.4798163026571274,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18507855013012886,
      "step": 4194
    },
    {
      "epoch": 0.6991666666666667,
      "grad_norm": 19.125,
      "grad_norm_var": 4.5962890625,
      "learning_rate": 2.0737962298724512e-05,
      "loss": 5.8606,
      "loss/crossentropy": 1.3335988894104958,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12927566468715668,
      "step": 4195
    },
    {
      "epoch": 0.6993333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 4.557747395833333,
      "learning_rate": 2.071673805668597e-05,
      "loss": 5.9069,
      "loss/crossentropy": 1.8895151913166046,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16449199616909027,
      "step": 4196
    },
    {
      "epoch": 0.6995,
      "grad_norm": 22.0,
      "grad_norm_var": 4.530989583333334,
      "learning_rate": 2.0695521842819788e-05,
      "loss": 6.2033,
      "loss/crossentropy": 1.3134075701236725,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14776342688128352,
      "step": 4197
    },
    {
      "epoch": 0.6996666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 4.502083333333333,
      "learning_rate": 2.067431366294249e-05,
      "loss": 6.0841,
      "loss/crossentropy": 1.3432134091854095,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14041657745838165,
      "step": 4198
    },
    {
      "epoch": 0.6998333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 4.218489583333334,
      "learning_rate": 2.0653113522868427e-05,
      "loss": 6.0253,
      "loss/crossentropy": 0.9110115543007851,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08745415043085814,
      "step": 4199
    },
    {
      "epoch": 0.7,
      "grad_norm": 21.0,
      "grad_norm_var": 3.4858723958333333,
      "learning_rate": 2.063192142840974e-05,
      "loss": 6.4329,
      "loss/crossentropy": 1.5052118599414825,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15011531859636307,
      "step": 4200
    },
    {
      "epoch": 0.7001666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 3.129622395833333,
      "learning_rate": 2.061073738537635e-05,
      "loss": 6.2351,
      "loss/crossentropy": 1.6792390942573547,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18548287637531757,
      "step": 4201
    },
    {
      "epoch": 0.7003333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 3.049934895833333,
      "learning_rate": 2.0589561399575985e-05,
      "loss": 6.1387,
      "loss/crossentropy": 1.7516236007213593,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14580499939620495,
      "step": 4202
    },
    {
      "epoch": 0.7005,
      "grad_norm": 19.0,
      "grad_norm_var": 3.279166666666667,
      "learning_rate": 2.0568393476814167e-05,
      "loss": 5.907,
      "loss/crossentropy": 1.406759038567543,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12290106806904078,
      "step": 4203
    },
    {
      "epoch": 0.7006666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 1.9754557291666666,
      "learning_rate": 2.0547233622894208e-05,
      "loss": 6.3545,
      "loss/crossentropy": 1.8249638378620148,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13472346402704716,
      "step": 4204
    },
    {
      "epoch": 0.7008333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.5228515625,
      "learning_rate": 2.0526081843617183e-05,
      "loss": 6.068,
      "loss/crossentropy": 1.5278617069125175,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13826976576820016,
      "step": 4205
    },
    {
      "epoch": 0.701,
      "grad_norm": 23.375,
      "grad_norm_var": 1.51640625,
      "learning_rate": 2.0504938144781988e-05,
      "loss": 6.3278,
      "loss/crossentropy": 1.617246076464653,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21613744646310806,
      "step": 4206
    },
    {
      "epoch": 0.7011666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 1.5681640625,
      "learning_rate": 2.0483802532185286e-05,
      "loss": 6.1546,
      "loss/crossentropy": 1.3998007774353027,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1442693192511797,
      "step": 4207
    },
    {
      "epoch": 0.7013333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.5643229166666666,
      "learning_rate": 2.04626750116215e-05,
      "loss": 6.5286,
      "loss/crossentropy": 1.785978764295578,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12627315521240234,
      "step": 4208
    },
    {
      "epoch": 0.7015,
      "grad_norm": 20.375,
      "grad_norm_var": 1.5697916666666667,
      "learning_rate": 2.04415555888829e-05,
      "loss": 5.5506,
      "loss/crossentropy": 1.3652117997407913,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15748201683163643,
      "step": 4209
    },
    {
      "epoch": 0.7016666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 1.8697916666666667,
      "learning_rate": 2.042044426975948e-05,
      "loss": 6.4383,
      "loss/crossentropy": 1.4657853096723557,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16111325100064278,
      "step": 4210
    },
    {
      "epoch": 0.7018333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.5676432291666667,
      "learning_rate": 2.0399341060039022e-05,
      "loss": 6.301,
      "loss/crossentropy": 1.4407303929328918,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1075344868004322,
      "step": 4211
    },
    {
      "epoch": 0.702,
      "grad_norm": 21.5,
      "grad_norm_var": 1.5270833333333333,
      "learning_rate": 2.0378245965507097e-05,
      "loss": 5.9609,
      "loss/crossentropy": 1.6985928416252136,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13128667883574963,
      "step": 4212
    },
    {
      "epoch": 0.7021666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 1.6405598958333334,
      "learning_rate": 2.035715899194704e-05,
      "loss": 6.6195,
      "loss/crossentropy": 1.500948190689087,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1311786063015461,
      "step": 4213
    },
    {
      "epoch": 0.7023333333333334,
      "grad_norm": 24.75,
      "grad_norm_var": 2.3061848958333333,
      "learning_rate": 2.0336080145139968e-05,
      "loss": 6.129,
      "loss/crossentropy": 1.4816026389598846,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09495127946138382,
      "step": 4214
    },
    {
      "epoch": 0.7025,
      "grad_norm": 25.375,
      "grad_norm_var": 3.1468098958333335,
      "learning_rate": 2.031500943086476e-05,
      "loss": 6.0168,
      "loss/crossentropy": 1.1011315137147903,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23834919510409236,
      "step": 4215
    },
    {
      "epoch": 0.7026666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 3.0989583333333335,
      "learning_rate": 2.0293946854898077e-05,
      "loss": 6.0844,
      "loss/crossentropy": 1.642238199710846,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14050299115478992,
      "step": 4216
    },
    {
      "epoch": 0.7028333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 3.3264973958333335,
      "learning_rate": 2.027289242301435e-05,
      "loss": 5.9688,
      "loss/crossentropy": 1.4598621428012848,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12865369766950607,
      "step": 4217
    },
    {
      "epoch": 0.703,
      "grad_norm": 22.125,
      "grad_norm_var": 3.333268229166667,
      "learning_rate": 2.0251846140985758e-05,
      "loss": 6.1619,
      "loss/crossentropy": 1.3886993825435638,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17336680926382542,
      "step": 4218
    },
    {
      "epoch": 0.7031666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 2.7747395833333335,
      "learning_rate": 2.0230808014582263e-05,
      "loss": 6.165,
      "loss/crossentropy": 1.3601864874362946,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15938320197165012,
      "step": 4219
    },
    {
      "epoch": 0.7033333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 2.552018229166667,
      "learning_rate": 2.020977804957157e-05,
      "loss": 6.1285,
      "loss/crossentropy": 1.5289156883955002,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15291165187954903,
      "step": 4220
    },
    {
      "epoch": 0.7035,
      "grad_norm": 22.625,
      "grad_norm_var": 2.519791666666667,
      "learning_rate": 2.0188756251719203e-05,
      "loss": 6.4959,
      "loss/crossentropy": 1.6048908680677414,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17651834338903427,
      "step": 4221
    },
    {
      "epoch": 0.7036666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 2.6518229166666667,
      "learning_rate": 2.0167742626788384e-05,
      "loss": 6.0585,
      "loss/crossentropy": 1.353374883532524,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10024678707122803,
      "step": 4222
    },
    {
      "epoch": 0.7038333333333333,
      "grad_norm": 18.875,
      "grad_norm_var": 3.0822265625,
      "learning_rate": 2.0146737180540122e-05,
      "loss": 5.6745,
      "loss/crossentropy": 1.568072259426117,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1190476268529892,
      "step": 4223
    },
    {
      "epoch": 0.704,
      "grad_norm": 21.25,
      "grad_norm_var": 3.098372395833333,
      "learning_rate": 2.012573991873317e-05,
      "loss": 5.9645,
      "loss/crossentropy": 1.7334851622581482,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23183274269104004,
      "step": 4224
    },
    {
      "epoch": 0.7041666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.999739583333333,
      "learning_rate": 2.0104750847124075e-05,
      "loss": 6.0902,
      "loss/crossentropy": 1.8073468208312988,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19797314889729023,
      "step": 4225
    },
    {
      "epoch": 0.7043333333333334,
      "grad_norm": 19.5,
      "grad_norm_var": 2.999739583333333,
      "learning_rate": 2.008376997146705e-05,
      "loss": 5.8305,
      "loss/crossentropy": 1.4272242933511734,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.099375088699162,
      "step": 4226
    },
    {
      "epoch": 0.7045,
      "grad_norm": 19.625,
      "grad_norm_var": 3.207747395833333,
      "learning_rate": 2.0062797297514176e-05,
      "loss": 6.2022,
      "loss/crossentropy": 1.7171489000320435,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12305070646107197,
      "step": 4227
    },
    {
      "epoch": 0.7046666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 3.218489583333333,
      "learning_rate": 2.004183283101521e-05,
      "loss": 6.0426,
      "loss/crossentropy": 1.1470581144094467,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13791210390627384,
      "step": 4228
    },
    {
      "epoch": 0.7048333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 3.0927083333333334,
      "learning_rate": 2.002087657771769e-05,
      "loss": 6.0445,
      "loss/crossentropy": 1.2211830914020538,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10246729478240013,
      "step": 4229
    },
    {
      "epoch": 0.705,
      "grad_norm": 21.375,
      "grad_norm_var": 2.299934895833333,
      "learning_rate": 1.999992854336688e-05,
      "loss": 6.4631,
      "loss/crossentropy": 2.219831019639969,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17077394388616085,
      "step": 4230
    },
    {
      "epoch": 0.7051666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.0603515625,
      "learning_rate": 1.9978988733705807e-05,
      "loss": 6.275,
      "loss/crossentropy": 1.5921960920095444,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15174447000026703,
      "step": 4231
    },
    {
      "epoch": 0.7053333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 1.0268229166666667,
      "learning_rate": 1.9958057154475218e-05,
      "loss": 5.8923,
      "loss/crossentropy": 1.0807230025529861,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09528390876948833,
      "step": 4232
    },
    {
      "epoch": 0.7055,
      "grad_norm": 20.75,
      "grad_norm_var": 0.9729166666666667,
      "learning_rate": 1.9937133811413666e-05,
      "loss": 6.0596,
      "loss/crossentropy": 1.093122735619545,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08635363075882196,
      "step": 4233
    },
    {
      "epoch": 0.7056666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 0.9223307291666667,
      "learning_rate": 1.9916218710257377e-05,
      "loss": 6.5924,
      "loss/crossentropy": 2.001624181866646,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18797298148274422,
      "step": 4234
    },
    {
      "epoch": 0.7058333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 0.9504557291666667,
      "learning_rate": 1.9895311856740374e-05,
      "loss": 5.6361,
      "loss/crossentropy": 2.068551778793335,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1411224976181984,
      "step": 4235
    },
    {
      "epoch": 0.706,
      "grad_norm": 20.75,
      "grad_norm_var": 0.9129557291666667,
      "learning_rate": 1.9874413256594343e-05,
      "loss": 6.13,
      "loss/crossentropy": 1.1423728317022324,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19576389342546463,
      "step": 4236
    },
    {
      "epoch": 0.7061666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 0.6738932291666667,
      "learning_rate": 1.9853522915548777e-05,
      "loss": 6.1354,
      "loss/crossentropy": 1.7279395014047623,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2297068713232875,
      "step": 4237
    },
    {
      "epoch": 0.7063333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 0.6572916666666667,
      "learning_rate": 1.983264083933087e-05,
      "loss": 5.7972,
      "loss/crossentropy": 1.316027283668518,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.100890819914639,
      "step": 4238
    },
    {
      "epoch": 0.7065,
      "grad_norm": 20.375,
      "grad_norm_var": 0.44166666666666665,
      "learning_rate": 1.9811767033665584e-05,
      "loss": 6.0932,
      "loss/crossentropy": 1.010974369943142,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.06884844368323684,
      "step": 4239
    },
    {
      "epoch": 0.7066666666666667,
      "grad_norm": 25.875,
      "grad_norm_var": 2.0869140625,
      "learning_rate": 1.9790901504275576e-05,
      "loss": 6.1216,
      "loss/crossentropy": 1.0574744939804077,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12402521446347237,
      "step": 4240
    },
    {
      "epoch": 0.7068333333333333,
      "grad_norm": 27.375,
      "grad_norm_var": 4.59375,
      "learning_rate": 1.977004425688126e-05,
      "loss": 6.2767,
      "loss/crossentropy": 2.0909183025360107,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1640243511646986,
      "step": 4241
    },
    {
      "epoch": 0.707,
      "grad_norm": 22.125,
      "grad_norm_var": 4.3462890625,
      "learning_rate": 1.9749195297200758e-05,
      "loss": 6.037,
      "loss/crossentropy": 1.5892990231513977,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10495417937636375,
      "step": 4242
    },
    {
      "epoch": 0.7071666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 4.102083333333334,
      "learning_rate": 1.9728354630949936e-05,
      "loss": 6.0769,
      "loss/crossentropy": 1.6221373528242111,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12333850748836994,
      "step": 4243
    },
    {
      "epoch": 0.7073333333333334,
      "grad_norm": 24.75,
      "grad_norm_var": 4.651497395833333,
      "learning_rate": 1.9707522263842358e-05,
      "loss": 5.8009,
      "loss/crossentropy": 1.6774682700634003,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.187101811170578,
      "step": 4244
    },
    {
      "epoch": 0.7075,
      "grad_norm": 19.5,
      "grad_norm_var": 4.9875,
      "learning_rate": 1.9686698201589393e-05,
      "loss": 5.7298,
      "loss/crossentropy": 0.9392619654536247,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1420996319502592,
      "step": 4245
    },
    {
      "epoch": 0.7076666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 5.1322265625,
      "learning_rate": 1.9665882449900024e-05,
      "loss": 5.8965,
      "loss/crossentropy": 1.73274564743042,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13494711183011532,
      "step": 4246
    },
    {
      "epoch": 0.7078333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 5.19765625,
      "learning_rate": 1.9645075014481022e-05,
      "loss": 6.6319,
      "loss/crossentropy": 1.3729051277041435,
      "loss/hidden": 2.80859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09189282776787877,
      "step": 4247
    },
    {
      "epoch": 0.708,
      "grad_norm": 21.0,
      "grad_norm_var": 5.19765625,
      "learning_rate": 1.9624275901036864e-05,
      "loss": 6.3878,
      "loss/crossentropy": 1.5405905544757843,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13166337832808495,
      "step": 4248
    },
    {
      "epoch": 0.7081666666666667,
      "grad_norm": 18.75,
      "grad_norm_var": 5.743489583333333,
      "learning_rate": 1.9603485115269744e-05,
      "loss": 5.5628,
      "loss/crossentropy": 1.3927140980958939,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11829440388828516,
      "step": 4249
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 26.25,
      "grad_norm_var": 7.018489583333333,
      "learning_rate": 1.958270266287956e-05,
      "loss": 6.1559,
      "loss/crossentropy": 1.2460783421993256,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1385519690811634,
      "step": 4250
    },
    {
      "epoch": 0.7085,
      "grad_norm": 19.75,
      "grad_norm_var": 6.979622395833333,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 5.8534,
      "loss/crossentropy": 1.5484443753957748,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10944075882434845,
      "step": 4251
    },
    {
      "epoch": 0.7086666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 6.87890625,
      "learning_rate": 1.9541162781018297e-05,
      "loss": 6.1491,
      "loss/crossentropy": 1.3115207701921463,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11379333771765232,
      "step": 4252
    },
    {
      "epoch": 0.7088333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 6.895768229166666,
      "learning_rate": 1.9520405362935594e-05,
      "loss": 5.8844,
      "loss/crossentropy": 1.2512952759861946,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09480586368590593,
      "step": 4253
    },
    {
      "epoch": 0.709,
      "grad_norm": 21.75,
      "grad_norm_var": 6.731705729166666,
      "learning_rate": 1.949965630100663e-05,
      "loss": 6.2975,
      "loss/crossentropy": 1.5717834532260895,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11088842526078224,
      "step": 4254
    },
    {
      "epoch": 0.7091666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 6.865559895833333,
      "learning_rate": 1.947891560091988e-05,
      "loss": 5.9009,
      "loss/crossentropy": 1.425430104136467,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.3368808012455702,
      "step": 4255
    },
    {
      "epoch": 0.7093333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 6.024739583333333,
      "learning_rate": 1.945818326836151e-05,
      "loss": 6.2457,
      "loss/crossentropy": 1.4400925040245056,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1896651778370142,
      "step": 4256
    },
    {
      "epoch": 0.7095,
      "grad_norm": 18.75,
      "grad_norm_var": 4.223372395833334,
      "learning_rate": 1.9437459309015427e-05,
      "loss": 5.7348,
      "loss/crossentropy": 1.3923918455839157,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08781657461076975,
      "step": 4257
    },
    {
      "epoch": 0.7096666666666667,
      "grad_norm": 18.375,
      "grad_norm_var": 4.653059895833334,
      "learning_rate": 1.9416743728563203e-05,
      "loss": 5.6314,
      "loss/crossentropy": 0.9935306906700134,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.16471288725733757,
      "step": 4258
    },
    {
      "epoch": 0.7098333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 4.654166666666667,
      "learning_rate": 1.9396036532684144e-05,
      "loss": 6.1752,
      "loss/crossentropy": 1.4020066857337952,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1534898616373539,
      "step": 4259
    },
    {
      "epoch": 0.71,
      "grad_norm": 20.375,
      "grad_norm_var": 3.662955729166667,
      "learning_rate": 1.937533772705524e-05,
      "loss": 6.0943,
      "loss/crossentropy": 1.5900622010231018,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1485111489892006,
      "step": 4260
    },
    {
      "epoch": 0.7101666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 3.5580729166666667,
      "learning_rate": 1.9354647317351188e-05,
      "loss": 5.93,
      "loss/crossentropy": 1.3441880345344543,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10619465075433254,
      "step": 4261
    },
    {
      "epoch": 0.7103333333333334,
      "grad_norm": 21.25,
      "grad_norm_var": 3.54765625,
      "learning_rate": 1.933396530924438e-05,
      "loss": 5.8753,
      "loss/crossentropy": 0.9601910933852196,
      "loss/hidden": 2.671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.05635733902454376,
      "step": 4262
    },
    {
      "epoch": 0.7105,
      "grad_norm": 20.875,
      "grad_norm_var": 3.223372395833333,
      "learning_rate": 1.9313291708404885e-05,
      "loss": 6.02,
      "loss/crossentropy": 1.6787810623645782,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1891695335507393,
      "step": 4263
    },
    {
      "epoch": 0.7106666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 3.3666015625,
      "learning_rate": 1.9292626520500533e-05,
      "loss": 6.4158,
      "loss/crossentropy": 1.683107316493988,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14890996366739273,
      "step": 4264
    },
    {
      "epoch": 0.7108333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 3.095572916666667,
      "learning_rate": 1.9271969751196776e-05,
      "loss": 6.1082,
      "loss/crossentropy": 1.5193596184253693,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14123610034585,
      "step": 4265
    },
    {
      "epoch": 0.711,
      "grad_norm": 22.0,
      "grad_norm_var": 1.240625,
      "learning_rate": 1.9251321406156785e-05,
      "loss": 6.3568,
      "loss/crossentropy": 1.3852749019861221,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1298634484410286,
      "step": 4266
    },
    {
      "epoch": 0.7111666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3083333333333333,
      "learning_rate": 1.9230681491041425e-05,
      "loss": 6.6978,
      "loss/crossentropy": 1.866913080215454,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11037721484899521,
      "step": 4267
    },
    {
      "epoch": 0.7113333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.2968098958333334,
      "learning_rate": 1.9210050011509244e-05,
      "loss": 6.1535,
      "loss/crossentropy": 1.5204305201768875,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1565698003396392,
      "step": 4268
    },
    {
      "epoch": 0.7115,
      "grad_norm": 22.0,
      "grad_norm_var": 1.3770182291666666,
      "learning_rate": 1.918942697321648e-05,
      "loss": 6.1833,
      "loss/crossentropy": 1.4614339470863342,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10354442521929741,
      "step": 4269
    },
    {
      "epoch": 0.7116666666666667,
      "grad_norm": 19.125,
      "grad_norm_var": 1.5205729166666666,
      "learning_rate": 1.9168812381817053e-05,
      "loss": 5.6772,
      "loss/crossentropy": 0.9453611671924591,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08316963911056519,
      "step": 4270
    },
    {
      "epoch": 0.7118333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.4830729166666667,
      "learning_rate": 1.9148206242962575e-05,
      "loss": 6.2096,
      "loss/crossentropy": 1.0608473867177963,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10296182706952095,
      "step": 4271
    },
    {
      "epoch": 0.712,
      "grad_norm": 24.0,
      "grad_norm_var": 2.0572916666666665,
      "learning_rate": 1.912760856230233e-05,
      "loss": 6.0257,
      "loss/crossentropy": 0.9955649450421333,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10114801675081253,
      "step": 4272
    },
    {
      "epoch": 0.7121666666666666,
      "grad_norm": 23.75,
      "grad_norm_var": 2.0572916666666665,
      "learning_rate": 1.910701934548329e-05,
      "loss": 6.2019,
      "loss/crossentropy": 1.4106286615133286,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13835514150559902,
      "step": 4273
    },
    {
      "epoch": 0.7123333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 1.4375,
      "learning_rate": 1.9086438598150115e-05,
      "loss": 5.9996,
      "loss/crossentropy": 1.8414280712604523,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17642348632216454,
      "step": 4274
    },
    {
      "epoch": 0.7125,
      "grad_norm": 20.25,
      "grad_norm_var": 1.5363932291666667,
      "learning_rate": 1.90658663259451e-05,
      "loss": 5.785,
      "loss/crossentropy": 1.3860327154397964,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13872628286480904,
      "step": 4275
    },
    {
      "epoch": 0.7126666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.4504557291666667,
      "learning_rate": 1.9045302534508297e-05,
      "loss": 6.0495,
      "loss/crossentropy": 1.085915431380272,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09607512317597866,
      "step": 4276
    },
    {
      "epoch": 0.7128333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 1.55625,
      "learning_rate": 1.9024747229477363e-05,
      "loss": 6.0011,
      "loss/crossentropy": 0.9055371284484863,
      "loss/hidden": 2.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08769173547625542,
      "step": 4277
    },
    {
      "epoch": 0.713,
      "grad_norm": 23.375,
      "grad_norm_var": 1.7499348958333334,
      "learning_rate": 1.9004200416487655e-05,
      "loss": 6.4078,
      "loss/crossentropy": 1.1568828523159027,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18211792968213558,
      "step": 4278
    },
    {
      "epoch": 0.7131666666666666,
      "grad_norm": 19.375,
      "grad_norm_var": 2.0546223958333334,
      "learning_rate": 1.8983662101172216e-05,
      "loss": 6.0226,
      "loss/crossentropy": 1.266716480255127,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10937585029751062,
      "step": 4279
    },
    {
      "epoch": 0.7133333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 2.1546223958333335,
      "learning_rate": 1.8963132289161706e-05,
      "loss": 6.3216,
      "loss/crossentropy": 1.8343397229909897,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13118509855121374,
      "step": 4280
    },
    {
      "epoch": 0.7135,
      "grad_norm": 20.25,
      "grad_norm_var": 2.277083333333333,
      "learning_rate": 1.8942610986084486e-05,
      "loss": 6.0784,
      "loss/crossentropy": 1.1416351422667503,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07763549033552408,
      "step": 4281
    },
    {
      "epoch": 0.7136666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 2.521875,
      "learning_rate": 1.8922098197566624e-05,
      "loss": 5.8815,
      "loss/crossentropy": 1.4896532595157623,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12030186504125595,
      "step": 4282
    },
    {
      "epoch": 0.7138333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 2.58515625,
      "learning_rate": 1.8901593929231802e-05,
      "loss": 6.0408,
      "loss/crossentropy": 1.4936078041791916,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12554298155009747,
      "step": 4283
    },
    {
      "epoch": 0.714,
      "grad_norm": 20.875,
      "grad_norm_var": 2.5900390625,
      "learning_rate": 1.888109818670138e-05,
      "loss": 6.1281,
      "loss/crossentropy": 1.5344645977020264,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11678505875170231,
      "step": 4284
    },
    {
      "epoch": 0.7141666666666666,
      "grad_norm": 20.0,
      "grad_norm_var": 2.6337890625,
      "learning_rate": 1.8860610975594382e-05,
      "loss": 5.9976,
      "loss/crossentropy": 1.3198750540614128,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1294315680861473,
      "step": 4285
    },
    {
      "epoch": 0.7143333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 2.499739583333333,
      "learning_rate": 1.8840132301527497e-05,
      "loss": 6.2838,
      "loss/crossentropy": 1.9401579648256302,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18135661631822586,
      "step": 4286
    },
    {
      "epoch": 0.7145,
      "grad_norm": 20.25,
      "grad_norm_var": 2.5718098958333333,
      "learning_rate": 1.8819662170115043e-05,
      "loss": 6.0529,
      "loss/crossentropy": 1.405807912349701,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10696003958582878,
      "step": 4287
    },
    {
      "epoch": 0.7146666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 2.0770833333333334,
      "learning_rate": 1.8799200586969066e-05,
      "loss": 6.1948,
      "loss/crossentropy": 2.2763825058937073,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1622839868068695,
      "step": 4288
    },
    {
      "epoch": 0.7148333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6155598958333333,
      "learning_rate": 1.8778747557699224e-05,
      "loss": 5.8856,
      "loss/crossentropy": 1.2294225096702576,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16640242375433445,
      "step": 4289
    },
    {
      "epoch": 0.715,
      "grad_norm": 21.25,
      "grad_norm_var": 1.6184895833333333,
      "learning_rate": 1.8758303087912792e-05,
      "loss": 6.166,
      "loss/crossentropy": 1.3367818892002106,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10624467767775059,
      "step": 4290
    },
    {
      "epoch": 0.7151666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.5830729166666666,
      "learning_rate": 1.8737867183214757e-05,
      "loss": 6.2341,
      "loss/crossentropy": 1.0919270738959312,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1254667965695262,
      "step": 4291
    },
    {
      "epoch": 0.7153333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.5379557291666666,
      "learning_rate": 1.871743984920774e-05,
      "loss": 5.9983,
      "loss/crossentropy": 1.6080359518527985,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15000910870730877,
      "step": 4292
    },
    {
      "epoch": 0.7155,
      "grad_norm": 23.5,
      "grad_norm_var": 1.8478515625,
      "learning_rate": 1.869702109149199e-05,
      "loss": 6.2556,
      "loss/crossentropy": 1.490704506635666,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1568241585046053,
      "step": 4293
    },
    {
      "epoch": 0.7156666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.52265625,
      "learning_rate": 1.867661091566546e-05,
      "loss": 6.0975,
      "loss/crossentropy": 1.7954582273960114,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1567632593214512,
      "step": 4294
    },
    {
      "epoch": 0.7158333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.4233723958333333,
      "learning_rate": 1.8656209327323703e-05,
      "loss": 6.208,
      "loss/crossentropy": 1.5206061005592346,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10264165513217449,
      "step": 4295
    },
    {
      "epoch": 0.716,
      "grad_norm": 21.25,
      "grad_norm_var": 1.2119140625,
      "learning_rate": 1.8635816332059923e-05,
      "loss": 5.9416,
      "loss/crossentropy": 1.182727463543415,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08940041158348322,
      "step": 4296
    },
    {
      "epoch": 0.7161666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 1.77265625,
      "learning_rate": 1.8615431935464982e-05,
      "loss": 6.1934,
      "loss/crossentropy": 1.3069871962070465,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24216777458786964,
      "step": 4297
    },
    {
      "epoch": 0.7163333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.5103515625,
      "learning_rate": 1.859505614312737e-05,
      "loss": 6.4126,
      "loss/crossentropy": 2.0640757083892822,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1393370795994997,
      "step": 4298
    },
    {
      "epoch": 0.7165,
      "grad_norm": 20.0,
      "grad_norm_var": 1.5103515625,
      "learning_rate": 1.8574688960633236e-05,
      "loss": 6.0587,
      "loss/crossentropy": 1.6804136633872986,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12387116439640522,
      "step": 4299
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.5150390625,
      "learning_rate": 1.8554330393566356e-05,
      "loss": 6.7701,
      "loss/crossentropy": 1.3720450103282928,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10233472473919392,
      "step": 4300
    },
    {
      "epoch": 0.7168333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3218098958333333,
      "learning_rate": 1.8533980447508137e-05,
      "loss": 6.4531,
      "loss/crossentropy": 1.722692221403122,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1457216888666153,
      "step": 4301
    },
    {
      "epoch": 0.717,
      "grad_norm": 23.0,
      "grad_norm_var": 1.3587890625,
      "learning_rate": 1.851363912803764e-05,
      "loss": 6.2944,
      "loss/crossentropy": 1.9627750217914581,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2162926159799099,
      "step": 4302
    },
    {
      "epoch": 0.7171666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 1.38515625,
      "learning_rate": 1.8493306440731555e-05,
      "loss": 5.847,
      "loss/crossentropy": 1.2376486659049988,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09838210977613926,
      "step": 4303
    },
    {
      "epoch": 0.7173333333333334,
      "grad_norm": 20.0,
      "grad_norm_var": 1.5775390625,
      "learning_rate": 1.84729823911642e-05,
      "loss": 5.8798,
      "loss/crossentropy": 1.185007557272911,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18568569887429476,
      "step": 4304
    },
    {
      "epoch": 0.7175,
      "grad_norm": 23.375,
      "grad_norm_var": 1.7634765625,
      "learning_rate": 1.845266698490752e-05,
      "loss": 6.1434,
      "loss/crossentropy": 1.2051178961992264,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10999065637588501,
      "step": 4305
    },
    {
      "epoch": 0.7176666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.7634765625,
      "learning_rate": 1.8432360227531116e-05,
      "loss": 5.8756,
      "loss/crossentropy": 1.617559239268303,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13681517727673054,
      "step": 4306
    },
    {
      "epoch": 0.7178333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.7447265625,
      "learning_rate": 1.841206212460219e-05,
      "loss": 6.1465,
      "loss/crossentropy": 1.2570904269814491,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15936459274962544,
      "step": 4307
    },
    {
      "epoch": 0.718,
      "grad_norm": 20.875,
      "grad_norm_var": 1.7268229166666667,
      "learning_rate": 1.8391772681685593e-05,
      "loss": 5.9083,
      "loss/crossentropy": 1.1670813858509064,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1118284035474062,
      "step": 4308
    },
    {
      "epoch": 0.7181666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 1.5604166666666666,
      "learning_rate": 1.837149190434378e-05,
      "loss": 6.2551,
      "loss/crossentropy": 1.6463643014431,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15020403265953064,
      "step": 4309
    },
    {
      "epoch": 0.7183333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 1.7244140625,
      "learning_rate": 1.8351219798136842e-05,
      "loss": 5.8191,
      "loss/crossentropy": 1.5971048176288605,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11522270180284977,
      "step": 4310
    },
    {
      "epoch": 0.7185,
      "grad_norm": 20.875,
      "grad_norm_var": 1.7083333333333333,
      "learning_rate": 1.83309563686225e-05,
      "loss": 6.0727,
      "loss/crossentropy": 1.2534505277872086,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13024472445249557,
      "step": 4311
    },
    {
      "epoch": 0.7186666666666667,
      "grad_norm": 19.125,
      "grad_norm_var": 2.0791015625,
      "learning_rate": 1.8310701621356075e-05,
      "loss": 5.8386,
      "loss/crossentropy": 1.4964308887720108,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15167201636359096,
      "step": 4312
    },
    {
      "epoch": 0.7188333333333333,
      "grad_norm": 18.5,
      "grad_norm_var": 1.9291666666666667,
      "learning_rate": 1.8290455561890528e-05,
      "loss": 5.4802,
      "loss/crossentropy": 1.7119238376617432,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14036570489406586,
      "step": 4313
    },
    {
      "epoch": 0.719,
      "grad_norm": 19.625,
      "grad_norm_var": 2.029166666666667,
      "learning_rate": 1.8270218195776435e-05,
      "loss": 5.6696,
      "loss/crossentropy": 1.3833991587162018,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11280329525470734,
      "step": 4314
    },
    {
      "epoch": 0.7191666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.9910807291666666,
      "learning_rate": 1.824998952856198e-05,
      "loss": 6.2757,
      "loss/crossentropy": 1.6291011422872543,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1611969005316496,
      "step": 4315
    },
    {
      "epoch": 0.7193333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.9041666666666666,
      "learning_rate": 1.8229769565792965e-05,
      "loss": 6.2067,
      "loss/crossentropy": 1.5113025605678558,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1705400086939335,
      "step": 4316
    },
    {
      "epoch": 0.7195,
      "grad_norm": 20.375,
      "grad_norm_var": 1.8848307291666666,
      "learning_rate": 1.8209558313012794e-05,
      "loss": 6.225,
      "loss/crossentropy": 1.6136638820171356,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16732297837734222,
      "step": 4317
    },
    {
      "epoch": 0.7196666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.6410807291666667,
      "learning_rate": 1.818935577576253e-05,
      "loss": 6.0466,
      "loss/crossentropy": 1.3929519206285477,
      "loss/hidden": 2.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10296866111457348,
      "step": 4318
    },
    {
      "epoch": 0.7198333333333333,
      "grad_norm": 26.625,
      "grad_norm_var": 3.7738932291666667,
      "learning_rate": 1.8169161959580795e-05,
      "loss": 6.5051,
      "loss/crossentropy": 1.7682513296604156,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19158044829964638,
      "step": 4319
    },
    {
      "epoch": 0.72,
      "grad_norm": 21.75,
      "grad_norm_var": 3.7046223958333333,
      "learning_rate": 1.8148976870003837e-05,
      "loss": 6.2059,
      "loss/crossentropy": 1.923560380935669,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2060953862965107,
      "step": 4320
    },
    {
      "epoch": 0.7201666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 3.419791666666667,
      "learning_rate": 1.8128800512565513e-05,
      "loss": 5.9081,
      "loss/crossentropy": 1.8649339079856873,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14489873871207237,
      "step": 4321
    },
    {
      "epoch": 0.7203333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 3.442122395833333,
      "learning_rate": 1.8108632892797296e-05,
      "loss": 5.7962,
      "loss/crossentropy": 1.6302583664655685,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1465809252113104,
      "step": 4322
    },
    {
      "epoch": 0.7205,
      "grad_norm": 21.0,
      "grad_norm_var": 3.2197265625,
      "learning_rate": 1.8088474016228237e-05,
      "loss": 5.8433,
      "loss/crossentropy": 1.5141169875860214,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10377255268394947,
      "step": 4323
    },
    {
      "epoch": 0.7206666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 3.220833333333333,
      "learning_rate": 1.8068323888385015e-05,
      "loss": 6.048,
      "loss/crossentropy": 1.4258949905633926,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12556468322873116,
      "step": 4324
    },
    {
      "epoch": 0.7208333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 3.213997395833333,
      "learning_rate": 1.80481825147919e-05,
      "loss": 5.8964,
      "loss/crossentropy": 1.4880472719669342,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12317479774355888,
      "step": 4325
    },
    {
      "epoch": 0.721,
      "grad_norm": 22.625,
      "grad_norm_var": 3.3676432291666667,
      "learning_rate": 1.8028049900970767e-05,
      "loss": 6.2322,
      "loss/crossentropy": 1.3395314365625381,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16374789737164974,
      "step": 4326
    },
    {
      "epoch": 0.7211666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 3.3676432291666667,
      "learning_rate": 1.800792605244109e-05,
      "loss": 5.9547,
      "loss/crossentropy": 1.3256692215800285,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10830111848190427,
      "step": 4327
    },
    {
      "epoch": 0.7213333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 3.128125,
      "learning_rate": 1.798781097471992e-05,
      "loss": 5.8417,
      "loss/crossentropy": 1.4252602308988571,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11285497900098562,
      "step": 4328
    },
    {
      "epoch": 0.7215,
      "grad_norm": 20.625,
      "grad_norm_var": 2.6754557291666665,
      "learning_rate": 1.7967704673321918e-05,
      "loss": 5.8919,
      "loss/crossentropy": 1.28518246114254,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.19410859607160091,
      "step": 4329
    },
    {
      "epoch": 0.7216666666666667,
      "grad_norm": 19.25,
      "grad_norm_var": 2.7643229166666665,
      "learning_rate": 1.7947607153759367e-05,
      "loss": 5.8643,
      "loss/crossentropy": 1.6470089256763458,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1938671302050352,
      "step": 4330
    },
    {
      "epoch": 0.7218333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 2.7822916666666666,
      "learning_rate": 1.7927518421542104e-05,
      "loss": 6.041,
      "loss/crossentropy": 1.969218224287033,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15451645851135254,
      "step": 4331
    },
    {
      "epoch": 0.722,
      "grad_norm": 21.125,
      "grad_norm_var": 2.762434895833333,
      "learning_rate": 1.7907438482177562e-05,
      "loss": 6.0447,
      "loss/crossentropy": 1.6764249205589294,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18221102841198444,
      "step": 4332
    },
    {
      "epoch": 0.7221666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 2.762434895833333,
      "learning_rate": 1.788736734117078e-05,
      "loss": 5.7942,
      "loss/crossentropy": 1.0135292261838913,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13962050527334213,
      "step": 4333
    },
    {
      "epoch": 0.7223333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 2.6434895833333334,
      "learning_rate": 1.786730500402438e-05,
      "loss": 5.7177,
      "loss/crossentropy": 1.5463045835494995,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15610028058290482,
      "step": 4334
    },
    {
      "epoch": 0.7225,
      "grad_norm": 19.875,
      "grad_norm_var": 0.6395833333333333,
      "learning_rate": 1.784725147623853e-05,
      "loss": 6.0706,
      "loss/crossentropy": 1.759788066148758,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11138691939413548,
      "step": 4335
    },
    {
      "epoch": 0.7226666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 0.7684895833333333,
      "learning_rate": 1.7827206763311056e-05,
      "loss": 6.1595,
      "loss/crossentropy": 1.7332209944725037,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25622623413801193,
      "step": 4336
    },
    {
      "epoch": 0.7228333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 1.2952473958333333,
      "learning_rate": 1.7807170870737316e-05,
      "loss": 6.4947,
      "loss/crossentropy": 1.3534787893295288,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11411218903958797,
      "step": 4337
    },
    {
      "epoch": 0.723,
      "grad_norm": 21.625,
      "grad_norm_var": 1.2744140625,
      "learning_rate": 1.7787143804010266e-05,
      "loss": 5.9797,
      "loss/crossentropy": 1.5464101135730743,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10312796337530017,
      "step": 4338
    },
    {
      "epoch": 0.7231666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3447265625,
      "learning_rate": 1.776712556862044e-05,
      "loss": 6.2804,
      "loss/crossentropy": 1.192600816488266,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1423368575051427,
      "step": 4339
    },
    {
      "epoch": 0.7233333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.4572916666666667,
      "learning_rate": 1.774711617005595e-05,
      "loss": 6.6136,
      "loss/crossentropy": 1.499476134777069,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2679118234664202,
      "step": 4340
    },
    {
      "epoch": 0.7235,
      "grad_norm": 22.125,
      "grad_norm_var": 1.4541666666666666,
      "learning_rate": 1.7727115613802465e-05,
      "loss": 6.0443,
      "loss/crossentropy": 1.037751629948616,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0963796004652977,
      "step": 4341
    },
    {
      "epoch": 0.7236666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.4143229166666667,
      "learning_rate": 1.7707123905343293e-05,
      "loss": 5.8341,
      "loss/crossentropy": 1.2770343273878098,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10208107903599739,
      "step": 4342
    },
    {
      "epoch": 0.7238333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.4916666666666667,
      "learning_rate": 1.7687141050159246e-05,
      "loss": 5.6601,
      "loss/crossentropy": 1.3497102111577988,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1199328564107418,
      "step": 4343
    },
    {
      "epoch": 0.724,
      "grad_norm": 22.875,
      "grad_norm_var": 1.6322265625,
      "learning_rate": 1.7667167053728766e-05,
      "loss": 6.5371,
      "loss/crossentropy": 2.007453352212906,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20676515251398087,
      "step": 4344
    },
    {
      "epoch": 0.7241666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 1.7431640625,
      "learning_rate": 1.76472019215278e-05,
      "loss": 5.8948,
      "loss/crossentropy": 1.5491553992033005,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11765431053936481,
      "step": 4345
    },
    {
      "epoch": 0.7243333333333334,
      "grad_norm": 19.75,
      "grad_norm_var": 1.6197265625,
      "learning_rate": 1.762724565902991e-05,
      "loss": 6.0552,
      "loss/crossentropy": 1.0807240083813667,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11724148923531175,
      "step": 4346
    },
    {
      "epoch": 0.7245,
      "grad_norm": 22.625,
      "grad_norm_var": 1.7056640625,
      "learning_rate": 1.760729827170622e-05,
      "loss": 6.2809,
      "loss/crossentropy": 1.9242931008338928,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16818655654788017,
      "step": 4347
    },
    {
      "epoch": 0.7246666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 1.7884765625,
      "learning_rate": 1.7587359765025435e-05,
      "loss": 6.5716,
      "loss/crossentropy": 1.8764001429080963,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28107819333672523,
      "step": 4348
    },
    {
      "epoch": 0.7248333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 1.9072916666666666,
      "learning_rate": 1.75674301444538e-05,
      "loss": 5.822,
      "loss/crossentropy": 1.3105644136667252,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12448647990822792,
      "step": 4349
    },
    {
      "epoch": 0.725,
      "grad_norm": 22.0,
      "grad_norm_var": 1.8707682291666667,
      "learning_rate": 1.7547509415455138e-05,
      "loss": 6.2572,
      "loss/crossentropy": 1.4997771382331848,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16057789139449596,
      "step": 4350
    },
    {
      "epoch": 0.7251666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 1.7014973958333333,
      "learning_rate": 1.7527597583490822e-05,
      "loss": 6.3513,
      "loss/crossentropy": 2.1273099929094315,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14368759840726852,
      "step": 4351
    },
    {
      "epoch": 0.7253333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.6587890625,
      "learning_rate": 1.7507694654019796e-05,
      "loss": 6.4294,
      "loss/crossentropy": 1.0780924558639526,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15630446653813124,
      "step": 4352
    },
    {
      "epoch": 0.7255,
      "grad_norm": 21.5,
      "grad_norm_var": 1.30625,
      "learning_rate": 1.7487800632498545e-05,
      "loss": 5.9004,
      "loss/crossentropy": 1.1656932830810547,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0949724018573761,
      "step": 4353
    },
    {
      "epoch": 0.7256666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 1.3202473958333334,
      "learning_rate": 1.7467915524381184e-05,
      "loss": 6.1585,
      "loss/crossentropy": 0.9476649761199951,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08670956967398524,
      "step": 4354
    },
    {
      "epoch": 0.7258333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 1.3275390625,
      "learning_rate": 1.744803933511927e-05,
      "loss": 6.2409,
      "loss/crossentropy": 1.6322798877954483,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13767536729574203,
      "step": 4355
    },
    {
      "epoch": 0.726,
      "grad_norm": 20.875,
      "grad_norm_var": 1.2218098958333334,
      "learning_rate": 1.7428172070161992e-05,
      "loss": 6.072,
      "loss/crossentropy": 1.2409014031291008,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09750669449567795,
      "step": 4356
    },
    {
      "epoch": 0.7261666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 1.1723307291666667,
      "learning_rate": 1.740831373495607e-05,
      "loss": 5.9734,
      "loss/crossentropy": 1.7804791033267975,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12592630460858345,
      "step": 4357
    },
    {
      "epoch": 0.7263333333333334,
      "grad_norm": 19.0,
      "grad_norm_var": 1.43515625,
      "learning_rate": 1.7388464334945792e-05,
      "loss": 5.5536,
      "loss/crossentropy": 1.1795227229595184,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12885437533259392,
      "step": 4358
    },
    {
      "epoch": 0.7265,
      "grad_norm": 20.5,
      "grad_norm_var": 1.3962890625,
      "learning_rate": 1.7368623875572948e-05,
      "loss": 6.0253,
      "loss/crossentropy": 1.063336819410324,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10961217805743217,
      "step": 4359
    },
    {
      "epoch": 0.7266666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.1733723958333333,
      "learning_rate": 1.734879236227696e-05,
      "loss": 6.302,
      "loss/crossentropy": 1.3205050230026245,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.114542655646801,
      "step": 4360
    },
    {
      "epoch": 0.7268333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.1405598958333334,
      "learning_rate": 1.7328969800494726e-05,
      "loss": 5.776,
      "loss/crossentropy": 1.4375887215137482,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.12589401751756668,
      "step": 4361
    },
    {
      "epoch": 0.727,
      "grad_norm": 19.875,
      "grad_norm_var": 1.1208333333333333,
      "learning_rate": 1.730915619566072e-05,
      "loss": 5.9512,
      "loss/crossentropy": 0.9929908812046051,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12182240001857281,
      "step": 4362
    },
    {
      "epoch": 0.7271666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 1.1208333333333333,
      "learning_rate": 1.7289351553206952e-05,
      "loss": 6.2351,
      "loss/crossentropy": 1.417110100388527,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2088928185403347,
      "step": 4363
    },
    {
      "epoch": 0.7273333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.028125,
      "learning_rate": 1.726955587856297e-05,
      "loss": 6.4312,
      "loss/crossentropy": 1.883783757686615,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1438552662730217,
      "step": 4364
    },
    {
      "epoch": 0.7275,
      "grad_norm": 21.875,
      "grad_norm_var": 0.9650390625,
      "learning_rate": 1.7249769177155878e-05,
      "loss": 6.6526,
      "loss/crossentropy": 1.878393828868866,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14442555606365204,
      "step": 4365
    },
    {
      "epoch": 0.7276666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 0.9389973958333333,
      "learning_rate": 1.722999145441031e-05,
      "loss": 6.1004,
      "loss/crossentropy": 1.3423210680484772,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12762008141726255,
      "step": 4366
    },
    {
      "epoch": 0.7278333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 0.8218098958333333,
      "learning_rate": 1.721022271574844e-05,
      "loss": 5.971,
      "loss/crossentropy": 1.5534002482891083,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12372519448399544,
      "step": 4367
    },
    {
      "epoch": 0.728,
      "grad_norm": 20.625,
      "grad_norm_var": 0.8122395833333333,
      "learning_rate": 1.7190462966589988e-05,
      "loss": 5.9704,
      "loss/crossentropy": 1.6596589088439941,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17733736336231232,
      "step": 4368
    },
    {
      "epoch": 0.7281666666666666,
      "grad_norm": 20.0,
      "grad_norm_var": 0.8434895833333333,
      "learning_rate": 1.7170712212352187e-05,
      "loss": 5.8262,
      "loss/crossentropy": 1.456670232117176,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15672732703387737,
      "step": 4369
    },
    {
      "epoch": 0.7283333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 0.8421223958333334,
      "learning_rate": 1.7150970458449827e-05,
      "loss": 5.5712,
      "loss/crossentropy": 1.1692406088113785,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12965178675949574,
      "step": 4370
    },
    {
      "epoch": 0.7285,
      "grad_norm": 21.375,
      "grad_norm_var": 0.8489583333333334,
      "learning_rate": 1.7131237710295206e-05,
      "loss": 6.0522,
      "loss/crossentropy": 1.4769326150417328,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11029206030070782,
      "step": 4371
    },
    {
      "epoch": 0.7286666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 0.8872395833333333,
      "learning_rate": 1.71115139732982e-05,
      "loss": 5.7875,
      "loss/crossentropy": 1.0654133558273315,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10627707093954086,
      "step": 4372
    },
    {
      "epoch": 0.7288333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 0.9018229166666667,
      "learning_rate": 1.709179925286617e-05,
      "loss": 6.0224,
      "loss/crossentropy": 1.2744128555059433,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.145932724699378,
      "step": 4373
    },
    {
      "epoch": 0.729,
      "grad_norm": 20.25,
      "grad_norm_var": 0.6947916666666667,
      "learning_rate": 1.7072093554404006e-05,
      "loss": 5.8184,
      "loss/crossentropy": 1.3162147402763367,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12161926552653313,
      "step": 4374
    },
    {
      "epoch": 0.7291666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 0.703125,
      "learning_rate": 1.7052396883314152e-05,
      "loss": 6.053,
      "loss/crossentropy": 1.6006833761930466,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1573988702148199,
      "step": 4375
    },
    {
      "epoch": 0.7293333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.72890625,
      "learning_rate": 1.703270924499656e-05,
      "loss": 5.8332,
      "loss/crossentropy": 2.213014006614685,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17674900591373444,
      "step": 4376
    },
    {
      "epoch": 0.7295,
      "grad_norm": 22.0,
      "grad_norm_var": 0.7259765625,
      "learning_rate": 1.70130306448487e-05,
      "loss": 6.0625,
      "loss/crossentropy": 1.5163164734840393,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1526855081319809,
      "step": 4377
    },
    {
      "epoch": 0.7296666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 0.8410807291666667,
      "learning_rate": 1.6993361088265575e-05,
      "loss": 6.3172,
      "loss/crossentropy": 1.3910261616110802,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1435917690396309,
      "step": 4378
    },
    {
      "epoch": 0.7298333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 0.8205729166666667,
      "learning_rate": 1.6973700580639706e-05,
      "loss": 5.7676,
      "loss/crossentropy": 1.362867832183838,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10073735471814871,
      "step": 4379
    },
    {
      "epoch": 0.73,
      "grad_norm": 21.25,
      "grad_norm_var": 0.7572265625,
      "learning_rate": 1.6954049127361132e-05,
      "loss": 5.9524,
      "loss/crossentropy": 1.5266113728284836,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1308535374701023,
      "step": 4380
    },
    {
      "epoch": 0.7301666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 0.7863932291666667,
      "learning_rate": 1.6934406733817414e-05,
      "loss": 6.1355,
      "loss/crossentropy": 1.3657710403203964,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1336328089237213,
      "step": 4381
    },
    {
      "epoch": 0.7303333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 0.7811848958333333,
      "learning_rate": 1.691477340539362e-05,
      "loss": 5.929,
      "loss/crossentropy": 2.1607686281204224,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.149206617847085,
      "step": 4382
    },
    {
      "epoch": 0.7305,
      "grad_norm": 21.5,
      "grad_norm_var": 0.7934895833333333,
      "learning_rate": 1.6895149147472344e-05,
      "loss": 5.9768,
      "loss/crossentropy": 1.9229630529880524,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12961816042661667,
      "step": 4383
    },
    {
      "epoch": 0.7306666666666667,
      "grad_norm": 26.125,
      "grad_norm_var": 2.351822916666667,
      "learning_rate": 1.687553396543367e-05,
      "loss": 6.5607,
      "loss/crossentropy": 1.762227177619934,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23563941568136215,
      "step": 4384
    },
    {
      "epoch": 0.7308333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.2447916666666665,
      "learning_rate": 1.685592786465524e-05,
      "loss": 5.8961,
      "loss/crossentropy": 2.0244060158729553,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15960976853966713,
      "step": 4385
    },
    {
      "epoch": 0.731,
      "grad_norm": 21.625,
      "grad_norm_var": 2.220572916666667,
      "learning_rate": 1.683633085051216e-05,
      "loss": 6.4281,
      "loss/crossentropy": 1.5894463807344437,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2499753087759018,
      "step": 4386
    },
    {
      "epoch": 0.7311666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 2.256705729166667,
      "learning_rate": 1.681674292837707e-05,
      "loss": 6.2164,
      "loss/crossentropy": 1.3206460624933243,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09998256340622902,
      "step": 4387
    },
    {
      "epoch": 0.7313333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.1389973958333335,
      "learning_rate": 1.6797164103620126e-05,
      "loss": 5.8501,
      "loss/crossentropy": 1.4992808103561401,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11877519078552723,
      "step": 4388
    },
    {
      "epoch": 0.7315,
      "grad_norm": 21.375,
      "grad_norm_var": 2.0462890625,
      "learning_rate": 1.6777594381608936e-05,
      "loss": 6.113,
      "loss/crossentropy": 1.6560625731945038,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1540416069328785,
      "step": 4389
    },
    {
      "epoch": 0.7316666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.9364583333333334,
      "learning_rate": 1.6758033767708652e-05,
      "loss": 6.1555,
      "loss/crossentropy": 1.2595953047275543,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10911631071940064,
      "step": 4390
    },
    {
      "epoch": 0.7318333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.93515625,
      "learning_rate": 1.6738482267281965e-05,
      "loss": 6.3034,
      "loss/crossentropy": 1.30056631565094,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0961957722902298,
      "step": 4391
    },
    {
      "epoch": 0.732,
      "grad_norm": 21.25,
      "grad_norm_var": 1.9462890625,
      "learning_rate": 1.6718939885689e-05,
      "loss": 6.3293,
      "loss/crossentropy": 1.5729309916496277,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17298082821071148,
      "step": 4392
    },
    {
      "epoch": 0.7321666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 2.12890625,
      "learning_rate": 1.669940662828742e-05,
      "loss": 5.9704,
      "loss/crossentropy": 1.402918666601181,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19647394493222237,
      "step": 4393
    },
    {
      "epoch": 0.7323333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.9768229166666667,
      "learning_rate": 1.6679882500432388e-05,
      "loss": 6.1589,
      "loss/crossentropy": 1.5149815529584885,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14758448395878077,
      "step": 4394
    },
    {
      "epoch": 0.7325,
      "grad_norm": 22.25,
      "grad_norm_var": 1.8572916666666666,
      "learning_rate": 1.6660367507476538e-05,
      "loss": 6.2376,
      "loss/crossentropy": 1.8453494310379028,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21103325113654137,
      "step": 4395
    },
    {
      "epoch": 0.7326666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8530598958333333,
      "learning_rate": 1.6640861654770006e-05,
      "loss": 6.3542,
      "loss/crossentropy": 1.5491809844970703,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14187156967818737,
      "step": 4396
    },
    {
      "epoch": 0.7328333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 1.9497395833333333,
      "learning_rate": 1.6621364947660473e-05,
      "loss": 5.8143,
      "loss/crossentropy": 1.7637046575546265,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16136431694030762,
      "step": 4397
    },
    {
      "epoch": 0.733,
      "grad_norm": 21.125,
      "grad_norm_var": 1.8895182291666666,
      "learning_rate": 1.660187739149306e-05,
      "loss": 6.1879,
      "loss/crossentropy": 1.4962612986564636,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19066841714084148,
      "step": 4398
    },
    {
      "epoch": 0.7331666666666666,
      "grad_norm": 19.5,
      "grad_norm_var": 2.1541015625,
      "learning_rate": 1.658239899161036e-05,
      "loss": 5.4431,
      "loss/crossentropy": 0.7166759371757507,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.06912175193428993,
      "step": 4399
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 0.6827473958333333,
      "learning_rate": 1.656292975335251e-05,
      "loss": 5.679,
      "loss/crossentropy": 1.1482711806893349,
      "loss/hidden": 2.765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07292709080502391,
      "step": 4400
    },
    {
      "epoch": 0.7335,
      "grad_norm": 19.125,
      "grad_norm_var": 0.9104166666666667,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 5.4372,
      "loss/crossentropy": 0.8875203728675842,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09626863710582256,
      "step": 4401
    },
    {
      "epoch": 0.7336666666666667,
      "grad_norm": 24.625,
      "grad_norm_var": 1.7479166666666666,
      "learning_rate": 1.652401878305922e-05,
      "loss": 6.3514,
      "loss/crossentropy": 1.4167885184288025,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19186219200491905,
      "step": 4402
    },
    {
      "epoch": 0.7338333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 2.2455729166666667,
      "learning_rate": 1.6504577061691468e-05,
      "loss": 6.2197,
      "loss/crossentropy": 1.8680554628372192,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15898022800683975,
      "step": 4403
    },
    {
      "epoch": 0.734,
      "grad_norm": 21.25,
      "grad_norm_var": 2.2431640625,
      "learning_rate": 1.648514452328388e-05,
      "loss": 6.1731,
      "loss/crossentropy": 1.6269240975379944,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13532418943941593,
      "step": 4404
    },
    {
      "epoch": 0.7341666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 2.2822265625,
      "learning_rate": 1.6465721173164002e-05,
      "loss": 6.0821,
      "loss/crossentropy": 0.8894267976284027,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0714819235727191,
      "step": 4405
    },
    {
      "epoch": 0.7343333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 2.44765625,
      "learning_rate": 1.644630701665686e-05,
      "loss": 6.2004,
      "loss/crossentropy": 1.8133396208286285,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1097856443375349,
      "step": 4406
    },
    {
      "epoch": 0.7345,
      "grad_norm": 18.125,
      "grad_norm_var": 3.049934895833333,
      "learning_rate": 1.642690205908494e-05,
      "loss": 5.7742,
      "loss/crossentropy": 1.1813179403543472,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12052702158689499,
      "step": 4407
    },
    {
      "epoch": 0.7346666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 3.05390625,
      "learning_rate": 1.6407506305768243e-05,
      "loss": 6.1758,
      "loss/crossentropy": 1.5927186608314514,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12495804764330387,
      "step": 4408
    },
    {
      "epoch": 0.7348333333333333,
      "grad_norm": 19.0,
      "grad_norm_var": 3.2421223958333334,
      "learning_rate": 1.638811976202421e-05,
      "loss": 6.1533,
      "loss/crossentropy": 1.356505662202835,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12522625923156738,
      "step": 4409
    },
    {
      "epoch": 0.735,
      "grad_norm": 6677331968.0,
      "grad_norm_var": 2.786672620693409e+18,
      "learning_rate": 1.6368742433167777e-05,
      "loss": 6.2224,
      "loss/crossentropy": 1.2034638226032257,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0995101761072874,
      "step": 4410
    },
    {
      "epoch": 0.7351666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 2.7866726207490534e+18,
      "learning_rate": 1.6349374324511345e-05,
      "loss": 5.9405,
      "loss/crossentropy": 1.6544455885887146,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11372280307114124,
      "step": 4411
    },
    {
      "epoch": 0.7353333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.786672620756009e+18,
      "learning_rate": 1.633001544136479e-05,
      "loss": 6.0291,
      "loss/crossentropy": 1.3297371119260788,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.11918528564274311,
      "step": 4412
    },
    {
      "epoch": 0.7355,
      "grad_norm": 22.0,
      "grad_norm_var": 2.786672620658631e+18,
      "learning_rate": 1.6310665789035467e-05,
      "loss": 6.2877,
      "loss/crossentropy": 1.8774831593036652,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12131056282669306,
      "step": 4413
    },
    {
      "epoch": 0.7356666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 2.7866726205473423e+18,
      "learning_rate": 1.629132537282817e-05,
      "loss": 6.2732,
      "loss/crossentropy": 0.9668702706694603,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17308122478425503,
      "step": 4414
    },
    {
      "epoch": 0.7358333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 2.7866726204986537e+18,
      "learning_rate": 1.627199419804522e-05,
      "loss": 6.2216,
      "loss/crossentropy": 1.5981086790561676,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14027857594192028,
      "step": 4415
    },
    {
      "epoch": 0.736,
      "grad_norm": 22.125,
      "grad_norm_var": 2.7866726203734533e+18,
      "learning_rate": 1.6252672269986352e-05,
      "loss": 6.1617,
      "loss/crossentropy": 1.2949180155992508,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18549780920147896,
      "step": 4416
    },
    {
      "epoch": 0.7361666666666666,
      "grad_norm": 19.75,
      "grad_norm_var": 2.7866726203386757e+18,
      "learning_rate": 1.6233359593948777e-05,
      "loss": 5.6635,
      "loss/crossentropy": 1.319503903388977,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13051597215235233,
      "step": 4417
    },
    {
      "epoch": 0.7363333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 2.786672620443009e+18,
      "learning_rate": 1.6214056175227184e-05,
      "loss": 6.3904,
      "loss/crossentropy": 1.745660811662674,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15969973430037498,
      "step": 4418
    },
    {
      "epoch": 0.7365,
      "grad_norm": 20.875,
      "grad_norm_var": 2.786672620616898e+18,
      "learning_rate": 1.61947620191137e-05,
      "loss": 5.9606,
      "loss/crossentropy": 1.3917022049427032,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1939290203154087,
      "step": 4419
    },
    {
      "epoch": 0.7366666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 2.7866726206238536e+18,
      "learning_rate": 1.617547713089795e-05,
      "loss": 6.1704,
      "loss/crossentropy": 1.658193327486515,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14501864090561867,
      "step": 4420
    },
    {
      "epoch": 0.7368333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 2.786672620596031e+18,
      "learning_rate": 1.615620151586697e-05,
      "loss": 6.428,
      "loss/crossentropy": 1.750775933265686,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.24907155334949493,
      "step": 4421
    },
    {
      "epoch": 0.737,
      "grad_norm": 21.875,
      "grad_norm_var": 2.7866726204777866e+18,
      "learning_rate": 1.6136935179305295e-05,
      "loss": 6.1469,
      "loss/crossentropy": 1.8171829283237457,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18156803771853447,
      "step": 4422
    },
    {
      "epoch": 0.7371666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 2.78667262033172e+18,
      "learning_rate": 1.6117678126494894e-05,
      "loss": 6.2536,
      "loss/crossentropy": 2.4544520676136017,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20557501912117004,
      "step": 4423
    },
    {
      "epoch": 0.7373333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 2.786672620401276e+18,
      "learning_rate": 1.6098430362715206e-05,
      "loss": 6.0482,
      "loss/crossentropy": 1.4930626899003983,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1281100115738809,
      "step": 4424
    },
    {
      "epoch": 0.7375,
      "grad_norm": 21.25,
      "grad_norm_var": 2.7866726202760755e+18,
      "learning_rate": 1.60791918932431e-05,
      "loss": 6.089,
      "loss/crossentropy": 1.8403003811836243,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1576942391693592,
      "step": 4425
    },
    {
      "epoch": 0.7376666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 0.9705729166666667,
      "learning_rate": 1.605996272335291e-05,
      "loss": 6.2068,
      "loss/crossentropy": 1.3951302468776703,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09771325811743736,
      "step": 4426
    },
    {
      "epoch": 0.7378333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.0143229166666667,
      "learning_rate": 1.6040742858316445e-05,
      "loss": 6.3882,
      "loss/crossentropy": 1.394400492310524,
      "loss/hidden": 3.6484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22125556878745556,
      "step": 4427
    },
    {
      "epoch": 0.738,
      "grad_norm": 6610223104.0,
      "grad_norm_var": 2.7309405750810726e+18,
      "learning_rate": 1.6021532303402926e-05,
      "loss": 5.7039,
      "loss/crossentropy": 0.9498451724648476,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07717362279072404,
      "step": 4428
    },
    {
      "epoch": 0.7381666666666666,
      "grad_norm": 23.875,
      "grad_norm_var": 2.730940574977788e+18,
      "learning_rate": 1.600233106387904e-05,
      "loss": 6.8939,
      "loss/crossentropy": 1.4758576452732086,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15825235843658447,
      "step": 4429
    },
    {
      "epoch": 0.7383333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 2.730940575060416e+18,
      "learning_rate": 1.5983139145008906e-05,
      "loss": 5.8738,
      "loss/crossentropy": 1.5031034350395203,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11838603019714355,
      "step": 4430
    },
    {
      "epoch": 0.7385,
      "grad_norm": 22.0,
      "grad_norm_var": 2.7309405749709025e+18,
      "learning_rate": 1.596395655205411e-05,
      "loss": 5.7931,
      "loss/crossentropy": 2.247505635023117,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12343142926692963,
      "step": 4431
    },
    {
      "epoch": 0.7386666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 2.730940574998445e+18,
      "learning_rate": 1.594478329027366e-05,
      "loss": 5.9112,
      "loss/crossentropy": 1.7986399233341217,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1362982541322708,
      "step": 4432
    },
    {
      "epoch": 0.7388333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 2.7309405749502454e+18,
      "learning_rate": 1.5925619364924017e-05,
      "loss": 6.1016,
      "loss/crossentropy": 2.231972962617874,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1753603257238865,
      "step": 4433
    },
    {
      "epoch": 0.739,
      "grad_norm": 22.875,
      "grad_norm_var": 2.73094057494336e+18,
      "learning_rate": 1.590646478125908e-05,
      "loss": 6.2508,
      "loss/crossentropy": 1.5654660761356354,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20209712907671928,
      "step": 4434
    },
    {
      "epoch": 0.7391666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 2.7309405749502454e+18,
      "learning_rate": 1.5887319544530182e-05,
      "loss": 6.0837,
      "loss/crossentropy": 1.5109091103076935,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15378811210393906,
      "step": 4435
    },
    {
      "epoch": 0.7393333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 2.7309405750328735e+18,
      "learning_rate": 1.586818365998611e-05,
      "loss": 5.7748,
      "loss/crossentropy": 1.4081641659140587,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12161784339696169,
      "step": 4436
    },
    {
      "epoch": 0.7395,
      "grad_norm": 20.75,
      "grad_norm_var": 2.730940575136158e+18,
      "learning_rate": 1.5849057132873062e-05,
      "loss": 6.0429,
      "loss/crossentropy": 0.8296225517988205,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.07786551304161549,
      "step": 4437
    },
    {
      "epoch": 0.7396666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.7309405751292723e+18,
      "learning_rate": 1.5829939968434675e-05,
      "loss": 6.2671,
      "loss/crossentropy": 1.7456484735012054,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2348761186003685,
      "step": 4438
    },
    {
      "epoch": 0.7398333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 2.730940574991559e+18,
      "learning_rate": 1.581083217191206e-05,
      "loss": 6.0321,
      "loss/crossentropy": 1.3765081018209457,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08937728404998779,
      "step": 4439
    },
    {
      "epoch": 0.74,
      "grad_norm": 22.625,
      "grad_norm_var": 2.7309405748538465e+18,
      "learning_rate": 1.5791733748543707e-05,
      "loss": 6.2587,
      "loss/crossentropy": 1.1021624505519867,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12562590092420578,
      "step": 4440
    },
    {
      "epoch": 0.7401666666666666,
      "grad_norm": 22.5,
      "grad_norm_var": 2.7309405747849897e+18,
      "learning_rate": 1.5772644703565565e-05,
      "loss": 6.3554,
      "loss/crossentropy": 1.5526808202266693,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20897346176207066,
      "step": 4441
    },
    {
      "epoch": 0.7403333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 2.7309405747849897e+18,
      "learning_rate": 1.575356504221101e-05,
      "loss": 5.9521,
      "loss/crossentropy": 1.7499156445264816,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1688946969807148,
      "step": 4442
    },
    {
      "epoch": 0.7405,
      "grad_norm": 22.875,
      "grad_norm_var": 2.730940574750562e+18,
      "learning_rate": 1.5734494769710816e-05,
      "loss": 6.2174,
      "loss/crossentropy": 1.951189935207367,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1584436595439911,
      "step": 4443
    },
    {
      "epoch": 0.7406666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3455729166666666,
      "learning_rate": 1.5715433891293206e-05,
      "loss": 6.1956,
      "loss/crossentropy": 1.2042274326086044,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12678481452167034,
      "step": 4444
    },
    {
      "epoch": 0.7408333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.0707682291666667,
      "learning_rate": 1.5696382412183852e-05,
      "loss": 5.9896,
      "loss/crossentropy": 1.3170288279652596,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19106725277379155,
      "step": 4445
    },
    {
      "epoch": 0.741,
      "grad_norm": 18.875,
      "grad_norm_var": 1.5692057291666666,
      "learning_rate": 1.5677340337605817e-05,
      "loss": 5.2115,
      "loss/crossentropy": 1.421773374080658,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09411412291228771,
      "step": 4446
    },
    {
      "epoch": 0.7411666666666666,
      "grad_norm": 19.0,
      "grad_norm_var": 1.9410807291666667,
      "learning_rate": 1.5658307672779593e-05,
      "loss": 5.8786,
      "loss/crossentropy": 1.394670307636261,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14702477492392063,
      "step": 4447
    },
    {
      "epoch": 0.7413333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.9354166666666666,
      "learning_rate": 1.563928442292309e-05,
      "loss": 6.2619,
      "loss/crossentropy": 1.1334278583526611,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18505100160837173,
      "step": 4448
    },
    {
      "epoch": 0.7415,
      "grad_norm": 23.0,
      "grad_norm_var": 2.0702473958333334,
      "learning_rate": 1.5620270593251635e-05,
      "loss": 6.1106,
      "loss/crossentropy": 1.6011835932731628,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17483513429760933,
      "step": 4449
    },
    {
      "epoch": 0.7416666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.0702473958333334,
      "learning_rate": 1.5601266188977976e-05,
      "loss": 6.6367,
      "loss/crossentropy": 1.2469425201416016,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22191899828612804,
      "step": 4450
    },
    {
      "epoch": 0.7418333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 2.1306640625,
      "learning_rate": 1.5582271215312294e-05,
      "loss": 6.2987,
      "loss/crossentropy": 1.6028920114040375,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1803933009505272,
      "step": 4451
    },
    {
      "epoch": 0.742,
      "grad_norm": 21.25,
      "grad_norm_var": 1.8708333333333333,
      "learning_rate": 1.5563285677462182e-05,
      "loss": 6.1086,
      "loss/crossentropy": 1.720691204071045,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1291901059448719,
      "step": 4452
    },
    {
      "epoch": 0.7421666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 1.8122395833333333,
      "learning_rate": 1.554430958063259e-05,
      "loss": 6.1216,
      "loss/crossentropy": 1.6592153310775757,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20406913198530674,
      "step": 4453
    },
    {
      "epoch": 0.7423333333333333,
      "grad_norm": 19.375,
      "grad_norm_var": 2.160872395833333,
      "learning_rate": 1.5525342930025944e-05,
      "loss": 5.8456,
      "loss/crossentropy": 1.6149972975254059,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13062197528779507,
      "step": 4454
    },
    {
      "epoch": 0.7425,
      "grad_norm": 21.25,
      "grad_norm_var": 1.9712890625,
      "learning_rate": 1.550638573084206e-05,
      "loss": 6.3186,
      "loss/crossentropy": 1.0821228846907616,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08852694276720285,
      "step": 4455
    },
    {
      "epoch": 0.7426666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.8947265625,
      "learning_rate": 1.5487437988278142e-05,
      "loss": 5.839,
      "loss/crossentropy": 1.7924650013446808,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15284052304923534,
      "step": 4456
    },
    {
      "epoch": 0.7428333333333333,
      "grad_norm": 18.125,
      "grad_norm_var": 2.4302083333333333,
      "learning_rate": 1.5468499707528854e-05,
      "loss": 5.5716,
      "loss/crossentropy": 1.4000278413295746,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09578203223645687,
      "step": 4457
    },
    {
      "epoch": 0.743,
      "grad_norm": 19.5,
      "grad_norm_var": 2.571875,
      "learning_rate": 1.5449570893786225e-05,
      "loss": 5.823,
      "loss/crossentropy": 0.9915016517043114,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.084402646869421,
      "step": 4458
    },
    {
      "epoch": 0.7431666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 2.3317057291666665,
      "learning_rate": 1.5430651552239685e-05,
      "loss": 5.9878,
      "loss/crossentropy": 1.0096767097711563,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10395622625946999,
      "step": 4459
    },
    {
      "epoch": 0.7433333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 2.3806640625,
      "learning_rate": 1.541174168807608e-05,
      "loss": 6.0862,
      "loss/crossentropy": 1.3318843841552734,
      "loss/hidden": 2.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.06704523600637913,
      "step": 4460
    },
    {
      "epoch": 0.7435,
      "grad_norm": 21.625,
      "grad_norm_var": 2.40625,
      "learning_rate": 1.5392841306479666e-05,
      "loss": 6.0412,
      "loss/crossentropy": 1.6818881928920746,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13748082146048546,
      "step": 4461
    },
    {
      "epoch": 0.7436666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.1572265625,
      "learning_rate": 1.5373950412632082e-05,
      "loss": 6.5449,
      "loss/crossentropy": 1.5172953307628632,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11735979653894901,
      "step": 4462
    },
    {
      "epoch": 0.7438333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 2.25625,
      "learning_rate": 1.5355069011712375e-05,
      "loss": 6.5156,
      "loss/crossentropy": 1.0816320478916168,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17834788374602795,
      "step": 4463
    },
    {
      "epoch": 0.744,
      "grad_norm": 22.5,
      "grad_norm_var": 2.32265625,
      "learning_rate": 1.5336197108896987e-05,
      "loss": 6.1431,
      "loss/crossentropy": 1.1347172409296036,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19166117161512375,
      "step": 4464
    },
    {
      "epoch": 0.7441666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 2.184309895833333,
      "learning_rate": 1.531733470935976e-05,
      "loss": 6.2051,
      "loss/crossentropy": 2.4828451573848724,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16444465145468712,
      "step": 4465
    },
    {
      "epoch": 0.7443333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 2.1978515625,
      "learning_rate": 1.529848181827193e-05,
      "loss": 5.8536,
      "loss/crossentropy": 1.4897833615541458,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17159608379006386,
      "step": 4466
    },
    {
      "epoch": 0.7445,
      "grad_norm": 21.375,
      "grad_norm_var": 2.028125,
      "learning_rate": 1.5279638440802118e-05,
      "loss": 5.9635,
      "loss/crossentropy": 1.2336719632148743,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11723124235868454,
      "step": 4467
    },
    {
      "epoch": 0.7446666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 2.111458333333333,
      "learning_rate": 1.5260804582116328e-05,
      "loss": 6.058,
      "loss/crossentropy": 1.5397944897413254,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18930166773498058,
      "step": 4468
    },
    {
      "epoch": 0.7448333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 2.120247395833333,
      "learning_rate": 1.5241980247378008e-05,
      "loss": 6.0043,
      "loss/crossentropy": 1.6147115379571915,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18592960946261883,
      "step": 4469
    },
    {
      "epoch": 0.745,
      "grad_norm": 20.375,
      "grad_norm_var": 1.9608723958333334,
      "learning_rate": 1.5223165441747927e-05,
      "loss": 5.9701,
      "loss/crossentropy": 1.51367749273777,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13528854120522738,
      "step": 4470
    },
    {
      "epoch": 0.7451666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.99140625,
      "learning_rate": 1.5204360170384286e-05,
      "loss": 6.0754,
      "loss/crossentropy": 1.948847085237503,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17700966075062752,
      "step": 4471
    },
    {
      "epoch": 0.7453333333333333,
      "grad_norm": 6274678784.0,
      "grad_norm_var": 2.460724598631948e+18,
      "learning_rate": 1.5185564438442645e-05,
      "loss": 6.4466,
      "loss/crossentropy": 1.5852693617343903,
      "loss/hidden": 5.65234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16244852170348167,
      "step": 4472
    },
    {
      "epoch": 0.7455,
      "grad_norm": 20.75,
      "grad_norm_var": 2.4607245984946893e+18,
      "learning_rate": 1.5166778251075963e-05,
      "loss": 6.2601,
      "loss/crossentropy": 2.047121286392212,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22654986009001732,
      "step": 4473
    },
    {
      "epoch": 0.7456666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 2.4607245983508946e+18,
      "learning_rate": 1.5148001613434587e-05,
      "loss": 6.0189,
      "loss/crossentropy": 2.0182478725910187,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15493464097380638,
      "step": 4474
    },
    {
      "epoch": 0.7458333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.46072459832475e+18,
      "learning_rate": 1.5129234530666232e-05,
      "loss": 6.0698,
      "loss/crossentropy": 1.4496201872825623,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12476793304085732,
      "step": 4475
    },
    {
      "epoch": 0.746,
      "grad_norm": 20.0,
      "grad_norm_var": 2.4607245984554726e+18,
      "learning_rate": 1.5110477007916001e-05,
      "loss": 6.1735,
      "loss/crossentropy": 1.6273552924394608,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18570829555392265,
      "step": 4476
    },
    {
      "epoch": 0.7461666666666666,
      "grad_norm": 19.5,
      "grad_norm_var": 2.4607245985665864e+18,
      "learning_rate": 1.5091729050326375e-05,
      "loss": 5.874,
      "loss/crossentropy": 1.6916663646697998,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16422326490283012,
      "step": 4477
    },
    {
      "epoch": 0.7463333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.4607245985992673e+18,
      "learning_rate": 1.5072990663037212e-05,
      "loss": 5.749,
      "loss/crossentropy": 1.4495891630649567,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13094754330813885,
      "step": 4478
    },
    {
      "epoch": 0.7465,
      "grad_norm": 21.5,
      "grad_norm_var": 2.4607245987234534e+18,
      "learning_rate": 1.5054261851185752e-05,
      "loss": 6.0013,
      "loss/crossentropy": 1.242036134004593,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09266144968569279,
      "step": 4479
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 2.460724598860712e+18,
      "learning_rate": 1.5035542619906584e-05,
      "loss": 5.8775,
      "loss/crossentropy": 1.6381860673427582,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10827135108411312,
      "step": 4480
    },
    {
      "epoch": 0.7468333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 2.460724598913001e+18,
      "learning_rate": 1.5016832974331724e-05,
      "loss": 5.5113,
      "loss/crossentropy": 1.3946738690137863,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09698083810508251,
      "step": 4481
    },
    {
      "epoch": 0.747,
      "grad_norm": 24.625,
      "grad_norm_var": 2.4607245986515564e+18,
      "learning_rate": 1.4998132919590518e-05,
      "loss": 6.4097,
      "loss/crossentropy": 1.215835615992546,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13591194339096546,
      "step": 4482
    },
    {
      "epoch": 0.7471666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 2.460724598631948e+18,
      "learning_rate": 1.4979442460809683e-05,
      "loss": 6.3026,
      "loss/crossentropy": 1.833487644791603,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13819067552685738,
      "step": 4483
    },
    {
      "epoch": 0.7473333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 2.4607245985535145e+18,
      "learning_rate": 1.4960761603113316e-05,
      "loss": 6.1679,
      "loss/crossentropy": 0.9012840539216995,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13450877834111452,
      "step": 4484
    },
    {
      "epoch": 0.7475,
      "grad_norm": 19.75,
      "grad_norm_var": 2.4607245985731226e+18,
      "learning_rate": 1.4942090351622883e-05,
      "loss": 5.9304,
      "loss/crossentropy": 1.546251267194748,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10809575580060482,
      "step": 4485
    },
    {
      "epoch": 0.7476666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 2.4607245985142973e+18,
      "learning_rate": 1.4923428711457216e-05,
      "loss": 6.0201,
      "loss/crossentropy": 1.1762178242206573,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1878579594194889,
      "step": 4486
    },
    {
      "epoch": 0.7478333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 2.4607245984489364e+18,
      "learning_rate": 1.4904776687732502e-05,
      "loss": 6.008,
      "loss/crossentropy": 1.6038861125707626,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11177285388112068,
      "step": 4487
    },
    {
      "epoch": 0.748,
      "grad_norm": 20.5,
      "grad_norm_var": 2.0426432291666665,
      "learning_rate": 1.4886134285562309e-05,
      "loss": 6.1668,
      "loss/crossentropy": 1.3299837857484818,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0966476034373045,
      "step": 4488
    },
    {
      "epoch": 0.7481666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 2.028580729166667,
      "learning_rate": 1.4867501510057546e-05,
      "loss": 6.3183,
      "loss/crossentropy": 1.1683420538902283,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11820480413734913,
      "step": 4489
    },
    {
      "epoch": 0.7483333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.9629557291666666,
      "learning_rate": 1.4848878366326502e-05,
      "loss": 5.815,
      "loss/crossentropy": 1.114687293767929,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08501631952822208,
      "step": 4490
    },
    {
      "epoch": 0.7485,
      "grad_norm": 19.75,
      "grad_norm_var": 2.098893229166667,
      "learning_rate": 1.4830264859474813e-05,
      "loss": 5.8758,
      "loss/crossentropy": 0.9562439247965813,
      "loss/hidden": 2.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1014591227285564,
      "step": 4491
    },
    {
      "epoch": 0.7486666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 2.1405598958333334,
      "learning_rate": 1.4811660994605465e-05,
      "loss": 6.0576,
      "loss/crossentropy": 1.2173822820186615,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12840946204960346,
      "step": 4492
    },
    {
      "epoch": 0.7488333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.9718098958333334,
      "learning_rate": 1.4793066776818842e-05,
      "loss": 6.3791,
      "loss/crossentropy": 1.7924893200397491,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13203980959951878,
      "step": 4493
    },
    {
      "epoch": 0.749,
      "grad_norm": 19.5,
      "grad_norm_var": 2.162239583333333,
      "learning_rate": 1.4774482211212642e-05,
      "loss": 6.3132,
      "loss/crossentropy": 1.9854576885700226,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.138841200619936,
      "step": 4494
    },
    {
      "epoch": 0.7491666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 2.1567057291666667,
      "learning_rate": 1.4755907302881927e-05,
      "loss": 6.0043,
      "loss/crossentropy": 1.3906499147415161,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09472485166043043,
      "step": 4495
    },
    {
      "epoch": 0.7493333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.052018229166667,
      "learning_rate": 1.4737342056919129e-05,
      "loss": 6.0062,
      "loss/crossentropy": 1.4377840980887413,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12138257548213005,
      "step": 4496
    },
    {
      "epoch": 0.7495,
      "grad_norm": 21.5,
      "grad_norm_var": 1.9309895833333333,
      "learning_rate": 1.4718786478413982e-05,
      "loss": 6.2936,
      "loss/crossentropy": 1.9618807882070541,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14231404848396778,
      "step": 4497
    },
    {
      "epoch": 0.7496666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1833333333333333,
      "learning_rate": 1.4700240572453605e-05,
      "loss": 6.2358,
      "loss/crossentropy": 1.5359861552715302,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12091817520558834,
      "step": 4498
    },
    {
      "epoch": 0.7498333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.3041015625,
      "learning_rate": 1.46817043441225e-05,
      "loss": 6.3775,
      "loss/crossentropy": 2.069337248802185,
      "loss/hidden": 3.5234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22636393830180168,
      "step": 4499
    },
    {
      "epoch": 0.75,
      "grad_norm": 20.125,
      "grad_norm_var": 0.8830729166666667,
      "learning_rate": 1.4663177798502453e-05,
      "loss": 5.9818,
      "loss/crossentropy": 1.762168988585472,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12282687425613403,
      "step": 4500
    },
    {
      "epoch": 0.7501666666666666,
      "grad_norm": 20.5,
      "grad_norm_var": 0.7979166666666667,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 6.1222,
      "loss/crossentropy": 1.6336614787578583,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12318050116300583,
      "step": 4501
    },
    {
      "epoch": 0.7503333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 1.0712890625,
      "learning_rate": 1.4626153775709528e-05,
      "loss": 6.7742,
      "loss/crossentropy": 2.023584544658661,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19705800339579582,
      "step": 4502
    },
    {
      "epoch": 0.7505,
      "grad_norm": 22.5,
      "grad_norm_var": 1.1802083333333333,
      "learning_rate": 1.460765630868699e-05,
      "loss": 6.5192,
      "loss/crossentropy": 1.2088878452777863,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.147216796875,
      "step": 4503
    },
    {
      "epoch": 0.7506666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.2358723958333333,
      "learning_rate": 1.4589168544676207e-05,
      "loss": 6.4879,
      "loss/crossentropy": 1.383188933134079,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1589843612164259,
      "step": 4504
    },
    {
      "epoch": 0.7508333333333334,
      "grad_norm": 22.875,
      "grad_norm_var": 1.3955729166666666,
      "learning_rate": 1.4570690488745687e-05,
      "loss": 6.2498,
      "loss/crossentropy": 1.7978799939155579,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15338708274066448,
      "step": 4505
    },
    {
      "epoch": 0.751,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4434895833333334,
      "learning_rate": 1.4552222145961325e-05,
      "loss": 6.432,
      "loss/crossentropy": 2.2170040905475616,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17715740948915482,
      "step": 4506
    },
    {
      "epoch": 0.7511666666666666,
      "grad_norm": 23.625,
      "grad_norm_var": 1.5181640625,
      "learning_rate": 1.4533763521386318e-05,
      "loss": 6.2232,
      "loss/crossentropy": 1.2740615829825401,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12728807283565402,
      "step": 4507
    },
    {
      "epoch": 0.7513333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.2577473958333334,
      "learning_rate": 1.4515314620081172e-05,
      "loss": 6.0346,
      "loss/crossentropy": 1.7480479925870895,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12131165061146021,
      "step": 4508
    },
    {
      "epoch": 0.7515,
      "grad_norm": 23.75,
      "grad_norm_var": 1.4973307291666667,
      "learning_rate": 1.449687544710378e-05,
      "loss": 6.4308,
      "loss/crossentropy": 1.5677076876163483,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.19782244227826595,
      "step": 4509
    },
    {
      "epoch": 0.7516666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.1393229166666667,
      "learning_rate": 1.4478446007509344e-05,
      "loss": 6.404,
      "loss/crossentropy": 1.5064172595739365,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09522955864667892,
      "step": 4510
    },
    {
      "epoch": 0.7518333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.0686848958333333,
      "learning_rate": 1.4460026306350377e-05,
      "loss": 6.2907,
      "loss/crossentropy": 1.7382443249225616,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.131174698472023,
      "step": 4511
    },
    {
      "epoch": 0.752,
      "grad_norm": 25.875,
      "grad_norm_var": 1.9264973958333333,
      "learning_rate": 1.4441616348676779e-05,
      "loss": 6.6089,
      "loss/crossentropy": 1.6482268273830414,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14075746946036816,
      "step": 4512
    },
    {
      "epoch": 0.7521666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.9770833333333333,
      "learning_rate": 1.4423216139535734e-05,
      "loss": 6.1806,
      "loss/crossentropy": 1.5936342179775238,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16112433187663555,
      "step": 4513
    },
    {
      "epoch": 0.7523333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 2.1754557291666665,
      "learning_rate": 1.4404825683971756e-05,
      "loss": 6.1878,
      "loss/crossentropy": 1.5476980358362198,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11464382521808147,
      "step": 4514
    },
    {
      "epoch": 0.7525,
      "grad_norm": 20.25,
      "grad_norm_var": 2.4018229166666667,
      "learning_rate": 1.4386444987026704e-05,
      "loss": 6.2366,
      "loss/crossentropy": 1.64861261844635,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19585563614964485,
      "step": 4515
    },
    {
      "epoch": 0.7526666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 2.1518229166666667,
      "learning_rate": 1.4368074053739734e-05,
      "loss": 6.1611,
      "loss/crossentropy": 1.5949928313493729,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17163261491805315,
      "step": 4516
    },
    {
      "epoch": 0.7528333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.9603515625,
      "learning_rate": 1.4349712889147355e-05,
      "loss": 6.2369,
      "loss/crossentropy": 2.0690313577651978,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2053496651351452,
      "step": 4517
    },
    {
      "epoch": 0.753,
      "grad_norm": 22.0,
      "grad_norm_var": 1.91640625,
      "learning_rate": 1.433136149828338e-05,
      "loss": 6.0807,
      "loss/crossentropy": 1.3394814878702164,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16986359283328056,
      "step": 4518
    },
    {
      "epoch": 0.7531666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 1.9629557291666666,
      "learning_rate": 1.4313019886178941e-05,
      "loss": 6.3822,
      "loss/crossentropy": 1.8159646093845367,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2193625532090664,
      "step": 4519
    },
    {
      "epoch": 0.7533333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.0119140625,
      "learning_rate": 1.4294688057862504e-05,
      "loss": 6.1997,
      "loss/crossentropy": 1.212941735982895,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11426816508173943,
      "step": 4520
    },
    {
      "epoch": 0.7535,
      "grad_norm": 21.0,
      "grad_norm_var": 2.065625,
      "learning_rate": 1.4276366018359844e-05,
      "loss": 6.381,
      "loss/crossentropy": 1.8792888522148132,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20847588032484055,
      "step": 4521
    },
    {
      "epoch": 0.7536666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 2.1489583333333333,
      "learning_rate": 1.425805377269404e-05,
      "loss": 6.5036,
      "loss/crossentropy": 1.852693796157837,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15962505340576172,
      "step": 4522
    },
    {
      "epoch": 0.7538333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 1.9957682291666667,
      "learning_rate": 1.4239751325885498e-05,
      "loss": 6.0363,
      "loss/crossentropy": 1.7688644230365753,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1485256589949131,
      "step": 4523
    },
    {
      "epoch": 0.754,
      "grad_norm": 23.75,
      "grad_norm_var": 2.1645182291666667,
      "learning_rate": 1.422145868295196e-05,
      "loss": 6.5156,
      "loss/crossentropy": 1.9289422929286957,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25449052453041077,
      "step": 4524
    },
    {
      "epoch": 0.7541666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 2.7223307291666665,
      "learning_rate": 1.420317584890844e-05,
      "loss": 6.4345,
      "loss/crossentropy": 1.3628639429807663,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17504401039332151,
      "step": 4525
    },
    {
      "epoch": 0.7543333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 2.70625,
      "learning_rate": 1.4184902828767287e-05,
      "loss": 6.311,
      "loss/crossentropy": 1.3013227581977844,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18260125443339348,
      "step": 4526
    },
    {
      "epoch": 0.7545,
      "grad_norm": 21.25,
      "grad_norm_var": 2.74140625,
      "learning_rate": 1.4166639627538153e-05,
      "loss": 6.171,
      "loss/crossentropy": 2.2741827368736267,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1501515582203865,
      "step": 4527
    },
    {
      "epoch": 0.7546666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 1.9634765625,
      "learning_rate": 1.4148386250227991e-05,
      "loss": 6.2697,
      "loss/crossentropy": 1.4165199249982834,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.13315356010571122,
      "step": 4528
    },
    {
      "epoch": 0.7548333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8934895833333334,
      "learning_rate": 1.4130142701841075e-05,
      "loss": 5.7304,
      "loss/crossentropy": 1.1529009863734245,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19140592077746987,
      "step": 4529
    },
    {
      "epoch": 0.755,
      "grad_norm": 21.25,
      "grad_norm_var": 1.7489583333333334,
      "learning_rate": 1.4111908987378974e-05,
      "loss": 6.2955,
      "loss/crossentropy": 1.8419629633426666,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1229485496878624,
      "step": 4530
    },
    {
      "epoch": 0.7551666666666667,
      "grad_norm": 23.625,
      "grad_norm_var": 1.5186848958333334,
      "learning_rate": 1.4093685111840566e-05,
      "loss": 6.1854,
      "loss/crossentropy": 2.272095173597336,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1535349003970623,
      "step": 4531
    },
    {
      "epoch": 0.7553333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.5962890625,
      "learning_rate": 1.407547108022203e-05,
      "loss": 5.9457,
      "loss/crossentropy": 1.3101131170988083,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15516808442771435,
      "step": 4532
    },
    {
      "epoch": 0.7555,
      "grad_norm": 20.125,
      "grad_norm_var": 1.9530598958333334,
      "learning_rate": 1.4057266897516841e-05,
      "loss": 5.8722,
      "loss/crossentropy": 1.3852438479661942,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12093366868793964,
      "step": 4533
    },
    {
      "epoch": 0.7556666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.96015625,
      "learning_rate": 1.4039072568715784e-05,
      "loss": 6.073,
      "loss/crossentropy": 1.6896404325962067,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1772782988846302,
      "step": 4534
    },
    {
      "epoch": 0.7558333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 1.9302083333333333,
      "learning_rate": 1.4020888098806922e-05,
      "loss": 5.989,
      "loss/crossentropy": 1.1559165641665459,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09923152951523662,
      "step": 4535
    },
    {
      "epoch": 0.756,
      "grad_norm": 20.25,
      "grad_norm_var": 2.145247395833333,
      "learning_rate": 1.400271349277566e-05,
      "loss": 5.9897,
      "loss/crossentropy": 1.8521796762943268,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1798001267015934,
      "step": 4536
    },
    {
      "epoch": 0.7561666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 2.528059895833333,
      "learning_rate": 1.3984548755604654e-05,
      "loss": 5.9527,
      "loss/crossentropy": 1.1068160831928253,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11602757684886456,
      "step": 4537
    },
    {
      "epoch": 0.7563333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 2.562239583333333,
      "learning_rate": 1.3966393892273871e-05,
      "loss": 6.2625,
      "loss/crossentropy": 1.6685394197702408,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1221498902887106,
      "step": 4538
    },
    {
      "epoch": 0.7565,
      "grad_norm": 24.0,
      "grad_norm_var": 2.8247395833333333,
      "learning_rate": 1.3948248907760564e-05,
      "loss": 6.5007,
      "loss/crossentropy": 1.6479846388101578,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1808881163597107,
      "step": 4539
    },
    {
      "epoch": 0.7566666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 2.6264973958333333,
      "learning_rate": 1.3930113807039297e-05,
      "loss": 6.2195,
      "loss/crossentropy": 2.190289229154587,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2095392495393753,
      "step": 4540
    },
    {
      "epoch": 0.7568333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 1.8811848958333333,
      "learning_rate": 1.3911988595081893e-05,
      "loss": 6.283,
      "loss/crossentropy": 1.2680316641926765,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1592114930972457,
      "step": 4541
    },
    {
      "epoch": 0.757,
      "grad_norm": 22.875,
      "grad_norm_var": 1.765625,
      "learning_rate": 1.3893873276857495e-05,
      "loss": 6.2321,
      "loss/crossentropy": 1.8412466049194336,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2731304205954075,
      "step": 4542
    },
    {
      "epoch": 0.7571666666666667,
      "grad_norm": 24.125,
      "grad_norm_var": 2.0785807291666667,
      "learning_rate": 1.387576785733251e-05,
      "loss": 6.0068,
      "loss/crossentropy": 1.7556091845035553,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18122707679867744,
      "step": 4543
    },
    {
      "epoch": 0.7573333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 2.3510416666666667,
      "learning_rate": 1.3857672341470656e-05,
      "loss": 6.2526,
      "loss/crossentropy": 1.6084218621253967,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20116978138685226,
      "step": 4544
    },
    {
      "epoch": 0.7575,
      "grad_norm": 21.125,
      "grad_norm_var": 2.3988932291666667,
      "learning_rate": 1.3839586734232906e-05,
      "loss": 6.0725,
      "loss/crossentropy": 1.5357497781515121,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1570239569991827,
      "step": 4545
    },
    {
      "epoch": 0.7576666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 2.533333333333333,
      "learning_rate": 1.382151104057754e-05,
      "loss": 6.0019,
      "loss/crossentropy": 1.7192182540893555,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20759737864136696,
      "step": 4546
    },
    {
      "epoch": 0.7578333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 2.4622395833333335,
      "learning_rate": 1.3803445265460097e-05,
      "loss": 6.0116,
      "loss/crossentropy": 1.7435247898101807,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11176380142569542,
      "step": 4547
    },
    {
      "epoch": 0.758,
      "grad_norm": 20.125,
      "grad_norm_var": 2.6059895833333333,
      "learning_rate": 1.3785389413833439e-05,
      "loss": 5.8116,
      "loss/crossentropy": 1.4192513227462769,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14842391572892666,
      "step": 4548
    },
    {
      "epoch": 0.7581666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 2.4622395833333335,
      "learning_rate": 1.3767343490647665e-05,
      "loss": 6.2365,
      "loss/crossentropy": 0.9846195727586746,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08246907219290733,
      "step": 4549
    },
    {
      "epoch": 0.7583333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.468489583333333,
      "learning_rate": 1.3749307500850166e-05,
      "loss": 6.086,
      "loss/crossentropy": 1.7523659765720367,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13345613330602646,
      "step": 4550
    },
    {
      "epoch": 0.7585,
      "grad_norm": 18.75,
      "grad_norm_var": 3.0072265625,
      "learning_rate": 1.373128144938563e-05,
      "loss": 5.7361,
      "loss/crossentropy": 1.0441862791776657,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12497729063034058,
      "step": 4551
    },
    {
      "epoch": 0.7586666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 3.029166666666667,
      "learning_rate": 1.3713265341195975e-05,
      "loss": 5.8568,
      "loss/crossentropy": 1.6146171689033508,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12393967248499393,
      "step": 4552
    },
    {
      "epoch": 0.7588333333333334,
      "grad_norm": 19.75,
      "grad_norm_var": 2.96640625,
      "learning_rate": 1.3695259181220404e-05,
      "loss": 6.1873,
      "loss/crossentropy": 1.1555721759796143,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15457405149936676,
      "step": 4553
    },
    {
      "epoch": 0.759,
      "grad_norm": 22.25,
      "grad_norm_var": 2.9384765625,
      "learning_rate": 1.3677262974395455e-05,
      "loss": 6.1891,
      "loss/crossentropy": 1.4572840929031372,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1356692649424076,
      "step": 4554
    },
    {
      "epoch": 0.7591666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.5530598958333335,
      "learning_rate": 1.3659276725654863e-05,
      "loss": 6.7025,
      "loss/crossentropy": 1.2726720720529556,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1720116250216961,
      "step": 4555
    },
    {
      "epoch": 0.7593333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 2.55625,
      "learning_rate": 1.3641300439929666e-05,
      "loss": 5.8774,
      "loss/crossentropy": 1.4978911876678467,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18000453338027,
      "step": 4556
    },
    {
      "epoch": 0.7595,
      "grad_norm": 22.0,
      "grad_norm_var": 2.351822916666667,
      "learning_rate": 1.3623334122148162e-05,
      "loss": 6.5328,
      "loss/crossentropy": 1.7208267748355865,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19663658551871777,
      "step": 4557
    },
    {
      "epoch": 0.7596666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 2.1884765625,
      "learning_rate": 1.3605377777235922e-05,
      "loss": 5.9664,
      "loss/crossentropy": 1.7517419755458832,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14161859545856714,
      "step": 4558
    },
    {
      "epoch": 0.7598333333333334,
      "grad_norm": 23.875,
      "grad_norm_var": 2.096809895833333,
      "learning_rate": 1.3587431410115765e-05,
      "loss": 5.9464,
      "loss/crossentropy": 1.7728083655238152,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22583696618676186,
      "step": 4559
    },
    {
      "epoch": 0.76,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4125,
      "learning_rate": 1.3569495025707812e-05,
      "loss": 5.9255,
      "loss/crossentropy": 1.4062470197677612,
      "loss/hidden": 2.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09840706549584866,
      "step": 4560
    },
    {
      "epoch": 0.7601666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4125,
      "learning_rate": 1.3551568628929434e-05,
      "loss": 6.0416,
      "loss/crossentropy": 1.2496801614761353,
      "loss/hidden": 2.80859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0877251005731523,
      "step": 4561
    },
    {
      "epoch": 0.7603333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 1.6330729166666667,
      "learning_rate": 1.3533652224695221e-05,
      "loss": 6.0902,
      "loss/crossentropy": 1.8271319568157196,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19210032001137733,
      "step": 4562
    },
    {
      "epoch": 0.7605,
      "grad_norm": 22.25,
      "grad_norm_var": 1.6379557291666667,
      "learning_rate": 1.3515745817917069e-05,
      "loss": 5.812,
      "loss/crossentropy": 1.7292352318763733,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20698686130344868,
      "step": 4563
    },
    {
      "epoch": 0.7606666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 1.6197265625,
      "learning_rate": 1.3497849413504121e-05,
      "loss": 6.0662,
      "loss/crossentropy": 1.3452823758125305,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1278326828032732,
      "step": 4564
    },
    {
      "epoch": 0.7608333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6098307291666667,
      "learning_rate": 1.3479963016362767e-05,
      "loss": 6.0119,
      "loss/crossentropy": 1.4187472462654114,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2104167602956295,
      "step": 4565
    },
    {
      "epoch": 0.761,
      "grad_norm": 23.625,
      "grad_norm_var": 1.8770182291666666,
      "learning_rate": 1.3462086631396692e-05,
      "loss": 6.598,
      "loss/crossentropy": 1.5749724507331848,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11473807506263256,
      "step": 4566
    },
    {
      "epoch": 0.7611666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.2676432291666666,
      "learning_rate": 1.3444220263506795e-05,
      "loss": 6.2303,
      "loss/crossentropy": 1.3646999895572662,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12701851688325405,
      "step": 4567
    },
    {
      "epoch": 0.7613333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 1.1885416666666666,
      "learning_rate": 1.3426363917591239e-05,
      "loss": 5.9255,
      "loss/crossentropy": 1.6282165795564651,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11316414456814528,
      "step": 4568
    },
    {
      "epoch": 0.7615,
      "grad_norm": 23.25,
      "grad_norm_var": 0.9479166666666666,
      "learning_rate": 1.3408517598545444e-05,
      "loss": 6.2326,
      "loss/crossentropy": 1.804527796804905,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10897242464125156,
      "step": 4569
    },
    {
      "epoch": 0.7616666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 1.0858723958333334,
      "learning_rate": 1.3390681311262082e-05,
      "loss": 5.902,
      "loss/crossentropy": 1.1567678302526474,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11368339974433184,
      "step": 4570
    },
    {
      "epoch": 0.7618333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.1874348958333334,
      "learning_rate": 1.3372855060631068e-05,
      "loss": 6.0728,
      "loss/crossentropy": 1.4691966772079468,
      "loss/hidden": 3.76171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18519193679094315,
      "step": 4571
    },
    {
      "epoch": 0.762,
      "grad_norm": 20.25,
      "grad_norm_var": 1.3171223958333333,
      "learning_rate": 1.335503885153957e-05,
      "loss": 5.9393,
      "loss/crossentropy": 1.7770825922489166,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12660384736955166,
      "step": 4572
    },
    {
      "epoch": 0.7621666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.4780598958333333,
      "learning_rate": 1.3337232688872009e-05,
      "loss": 5.9253,
      "loss/crossentropy": 1.6841340959072113,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1472056768834591,
      "step": 4573
    },
    {
      "epoch": 0.7623333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.6212890625,
      "learning_rate": 1.3319436577510037e-05,
      "loss": 6.1751,
      "loss/crossentropy": 1.707573264837265,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18784094601869583,
      "step": 4574
    },
    {
      "epoch": 0.7625,
      "grad_norm": 22.0,
      "grad_norm_var": 1.409375,
      "learning_rate": 1.3301650522332565e-05,
      "loss": 6.0683,
      "loss/crossentropy": 1.3001764118671417,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18568445928394794,
      "step": 4575
    },
    {
      "epoch": 0.7626666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.49765625,
      "learning_rate": 1.3283874528215733e-05,
      "loss": 5.7853,
      "loss/crossentropy": 1.3457890748977661,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13354762364178896,
      "step": 4576
    },
    {
      "epoch": 0.7628333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.5936848958333334,
      "learning_rate": 1.3266108600032929e-05,
      "loss": 6.3128,
      "loss/crossentropy": 1.6912107467651367,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11169248633086681,
      "step": 4577
    },
    {
      "epoch": 0.763,
      "grad_norm": 19.625,
      "grad_norm_var": 1.8087890625,
      "learning_rate": 1.3248352742654802e-05,
      "loss": 6.0308,
      "loss/crossentropy": 1.6753334999084473,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1399898398667574,
      "step": 4578
    },
    {
      "epoch": 0.7631666666666667,
      "grad_norm": 18.875,
      "grad_norm_var": 2.28515625,
      "learning_rate": 1.3230606960949205e-05,
      "loss": 5.3816,
      "loss/crossentropy": 1.0294900387525558,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0861994600854814,
      "step": 4579
    },
    {
      "epoch": 0.7633333333333333,
      "grad_norm": 19.25,
      "grad_norm_var": 2.4978515625,
      "learning_rate": 1.3212871259781257e-05,
      "loss": 6.0292,
      "loss/crossentropy": 1.535360999405384,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11467993166297674,
      "step": 4580
    },
    {
      "epoch": 0.7635,
      "grad_norm": 21.125,
      "grad_norm_var": 2.4921223958333334,
      "learning_rate": 1.3195145644013285e-05,
      "loss": 6.1394,
      "loss/crossentropy": 1.8700051605701447,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15485606715083122,
      "step": 4581
    },
    {
      "epoch": 0.7636666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 2.2379557291666665,
      "learning_rate": 1.317743011850488e-05,
      "loss": 5.6262,
      "loss/crossentropy": 1.4508205503225327,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10793567169457674,
      "step": 4582
    },
    {
      "epoch": 0.7638333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 2.53515625,
      "learning_rate": 1.3159724688112845e-05,
      "loss": 6.0012,
      "loss/crossentropy": 0.9396863803267479,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09872456267476082,
      "step": 4583
    },
    {
      "epoch": 0.764,
      "grad_norm": 20.0,
      "grad_norm_var": 2.59140625,
      "learning_rate": 1.3142029357691232e-05,
      "loss": 5.8737,
      "loss/crossentropy": 1.8595201671123505,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14670809730887413,
      "step": 4584
    },
    {
      "epoch": 0.7641666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.25625,
      "learning_rate": 1.312434413209131e-05,
      "loss": 6.0764,
      "loss/crossentropy": 1.186460867524147,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09937490988522768,
      "step": 4585
    },
    {
      "epoch": 0.7643333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.2510416666666666,
      "learning_rate": 1.3106669016161588e-05,
      "loss": 5.9142,
      "loss/crossentropy": 1.5204129219055176,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15134553983807564,
      "step": 4586
    },
    {
      "epoch": 0.7645,
      "grad_norm": 22.375,
      "grad_norm_var": 2.3686848958333333,
      "learning_rate": 1.3089004014747796e-05,
      "loss": 6.0565,
      "loss/crossentropy": 1.5365441143512726,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16622204706072807,
      "step": 4587
    },
    {
      "epoch": 0.7646666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 2.3833333333333333,
      "learning_rate": 1.3071349132692895e-05,
      "loss": 5.993,
      "loss/crossentropy": 1.4182043075561523,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1386164054274559,
      "step": 4588
    },
    {
      "epoch": 0.7648333333333334,
      "grad_norm": 23.625,
      "grad_norm_var": 2.424934895833333,
      "learning_rate": 1.3053704374837061e-05,
      "loss": 6.1074,
      "loss/crossentropy": 1.5068977922201157,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19271565601229668,
      "step": 4589
    },
    {
      "epoch": 0.765,
      "grad_norm": 22.25,
      "grad_norm_var": 2.0296223958333335,
      "learning_rate": 1.3036069746017726e-05,
      "loss": 6.1516,
      "loss/crossentropy": 1.5464100241661072,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1670919619500637,
      "step": 4590
    },
    {
      "epoch": 0.7651666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 2.021875,
      "learning_rate": 1.301844525106951e-05,
      "loss": 5.8488,
      "loss/crossentropy": 1.4276637136936188,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12238755449652672,
      "step": 4591
    },
    {
      "epoch": 0.7653333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 2.0806640625,
      "learning_rate": 1.3000830894824279e-05,
      "loss": 5.7891,
      "loss/crossentropy": 1.5043491572141647,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11256018280982971,
      "step": 4592
    },
    {
      "epoch": 0.7655,
      "grad_norm": 22.5,
      "grad_norm_var": 2.2535807291666665,
      "learning_rate": 1.2983226682111093e-05,
      "loss": 6.4621,
      "loss/crossentropy": 1.4508138298988342,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18260295689105988,
      "step": 4593
    },
    {
      "epoch": 0.7656666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 2.2760416666666665,
      "learning_rate": 1.2965632617756257e-05,
      "loss": 5.8048,
      "loss/crossentropy": 1.689721331000328,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1176919937133789,
      "step": 4594
    },
    {
      "epoch": 0.7658333333333334,
      "grad_norm": 19.75,
      "grad_norm_var": 2.0869140625,
      "learning_rate": 1.2948048706583282e-05,
      "loss": 5.8193,
      "loss/crossentropy": 1.6121567338705063,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16967169009149075,
      "step": 4595
    },
    {
      "epoch": 0.766,
      "grad_norm": 22.375,
      "grad_norm_var": 1.984375,
      "learning_rate": 1.2930474953412897e-05,
      "loss": 6.206,
      "loss/crossentropy": 1.6914328038692474,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14938848093152046,
      "step": 4596
    },
    {
      "epoch": 0.7661666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 2.11875,
      "learning_rate": 1.2912911363063046e-05,
      "loss": 5.7772,
      "loss/crossentropy": 0.715933233499527,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15785439452156425,
      "step": 4597
    },
    {
      "epoch": 0.7663333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.9806640625,
      "learning_rate": 1.2895357940348879e-05,
      "loss": 6.2592,
      "loss/crossentropy": 1.6006795465946198,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2438716646283865,
      "step": 4598
    },
    {
      "epoch": 0.7665,
      "grad_norm": 22.625,
      "grad_norm_var": 1.8197265625,
      "learning_rate": 1.287781469008278e-05,
      "loss": 6.473,
      "loss/crossentropy": 1.682691067457199,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21977552771568298,
      "step": 4599
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 1.6999348958333333,
      "learning_rate": 1.2860281617074321e-05,
      "loss": 6.5342,
      "loss/crossentropy": 2.0525330007076263,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15455114468932152,
      "step": 4600
    },
    {
      "epoch": 0.7668333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.7145833333333333,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 6.1255,
      "loss/crossentropy": 1.8477735817432404,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12656299583613873,
      "step": 4601
    },
    {
      "epoch": 0.767,
      "grad_norm": 23.625,
      "grad_norm_var": 1.9802083333333333,
      "learning_rate": 1.2825246022054693e-05,
      "loss": 6.3676,
      "loss/crossentropy": 1.1751158237457275,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11714103445410728,
      "step": 4602
    },
    {
      "epoch": 0.7671666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 2.0809895833333334,
      "learning_rate": 1.2807743509648745e-05,
      "loss": 6.0376,
      "loss/crossentropy": 1.4494386613368988,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14421251695603132,
      "step": 4603
    },
    {
      "epoch": 0.7673333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.9895182291666667,
      "learning_rate": 1.2790251193710851e-05,
      "loss": 5.9186,
      "loss/crossentropy": 0.9040536358952522,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1247476078569889,
      "step": 4604
    },
    {
      "epoch": 0.7675,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6874348958333334,
      "learning_rate": 1.277276907903664e-05,
      "loss": 6.1161,
      "loss/crossentropy": 1.615975171327591,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.151247039437294,
      "step": 4605
    },
    {
      "epoch": 0.7676666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.6434895833333334,
      "learning_rate": 1.2755297170418912e-05,
      "loss": 5.9012,
      "loss/crossentropy": 1.4304696023464203,
      "loss/hidden": 3.5390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2561278287321329,
      "step": 4606
    },
    {
      "epoch": 0.7678333333333334,
      "grad_norm": 26.625,
      "grad_norm_var": 3.1552083333333334,
      "learning_rate": 1.2737835472647686e-05,
      "loss": 6.4229,
      "loss/crossentropy": 1.142628401517868,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10072920843958855,
      "step": 4607
    },
    {
      "epoch": 0.768,
      "grad_norm": 20.0,
      "grad_norm_var": 3.1244140625,
      "learning_rate": 1.272038399051021e-05,
      "loss": 5.8371,
      "loss/crossentropy": 1.5537715256214142,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08540422283113003,
      "step": 4608
    },
    {
      "epoch": 0.7681666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 3.092643229166667,
      "learning_rate": 1.2702942728790895e-05,
      "loss": 5.9959,
      "loss/crossentropy": 1.6240291744470596,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1262437328696251,
      "step": 4609
    },
    {
      "epoch": 0.7683333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 3.092643229166667,
      "learning_rate": 1.2685511692271369e-05,
      "loss": 5.9785,
      "loss/crossentropy": 1.7720218896865845,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21314003318548203,
      "step": 4610
    },
    {
      "epoch": 0.7685,
      "grad_norm": 20.75,
      "grad_norm_var": 2.887434895833333,
      "learning_rate": 1.2668090885730438e-05,
      "loss": 6.3609,
      "loss/crossentropy": 2.3453001379966736,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1820080690085888,
      "step": 4611
    },
    {
      "epoch": 0.7686666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.8684895833333335,
      "learning_rate": 1.2650680313944118e-05,
      "loss": 6.0578,
      "loss/crossentropy": 1.382718175649643,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1784988660365343,
      "step": 4612
    },
    {
      "epoch": 0.7688333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 2.89765625,
      "learning_rate": 1.2633279981685608e-05,
      "loss": 5.8948,
      "loss/crossentropy": 1.36367866396904,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11735289730131626,
      "step": 4613
    },
    {
      "epoch": 0.769,
      "grad_norm": 24.75,
      "grad_norm_var": 3.4809895833333333,
      "learning_rate": 1.2615889893725336e-05,
      "loss": 6.3628,
      "loss/crossentropy": 1.890126720070839,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14124961756169796,
      "step": 4614
    },
    {
      "epoch": 0.7691666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 3.4530598958333334,
      "learning_rate": 1.2598510054830886e-05,
      "loss": 6.1361,
      "loss/crossentropy": 1.7475626915693283,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12734167836606503,
      "step": 4615
    },
    {
      "epoch": 0.7693333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 3.419205729166667,
      "learning_rate": 1.258114046976701e-05,
      "loss": 6.3796,
      "loss/crossentropy": 1.5992827415466309,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1499505639076233,
      "step": 4616
    },
    {
      "epoch": 0.7695,
      "grad_norm": 21.125,
      "grad_norm_var": 3.434830729166667,
      "learning_rate": 1.2563781143295706e-05,
      "loss": 6.1981,
      "loss/crossentropy": 1.5299170911312103,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12650448083877563,
      "step": 4617
    },
    {
      "epoch": 0.7696666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 3.1874348958333334,
      "learning_rate": 1.2546432080176112e-05,
      "loss": 6.2961,
      "loss/crossentropy": 1.6654756963253021,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19940540380775928,
      "step": 4618
    },
    {
      "epoch": 0.7698333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 3.0796223958333333,
      "learning_rate": 1.2529093285164578e-05,
      "loss": 6.2632,
      "loss/crossentropy": 1.2770169377326965,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12861464265733957,
      "step": 4619
    },
    {
      "epoch": 0.77,
      "grad_norm": 21.5,
      "grad_norm_var": 3.0296223958333335,
      "learning_rate": 1.2511764763014649e-05,
      "loss": 6.0035,
      "loss/crossentropy": 1.367760106921196,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18561344407498837,
      "step": 4620
    },
    {
      "epoch": 0.7701666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 3.1233723958333335,
      "learning_rate": 1.2494446518477022e-05,
      "loss": 6.1409,
      "loss/crossentropy": 1.5585967600345612,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11030243895947933,
      "step": 4621
    },
    {
      "epoch": 0.7703333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 3.1927083333333335,
      "learning_rate": 1.24771385562996e-05,
      "loss": 6.2183,
      "loss/crossentropy": 1.5177745670080185,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11572558060288429,
      "step": 4622
    },
    {
      "epoch": 0.7705,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5895833333333333,
      "learning_rate": 1.2459840881227459e-05,
      "loss": 6.3621,
      "loss/crossentropy": 1.4361964166164398,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12840253673493862,
      "step": 4623
    },
    {
      "epoch": 0.7706666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.5895833333333333,
      "learning_rate": 1.2442553498002845e-05,
      "loss": 5.5522,
      "loss/crossentropy": 1.2309994250535965,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09814499225467443,
      "step": 4624
    },
    {
      "epoch": 0.7708333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6143229166666666,
      "learning_rate": 1.24252764113652e-05,
      "loss": 6.2687,
      "loss/crossentropy": 1.4233528822660446,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14945490285754204,
      "step": 4625
    },
    {
      "epoch": 0.771,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3354166666666667,
      "learning_rate": 1.2408009626051137e-05,
      "loss": 6.4438,
      "loss/crossentropy": 2.0496193170547485,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13924090564250946,
      "step": 4626
    },
    {
      "epoch": 0.7711666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.3879557291666667,
      "learning_rate": 1.2390753146794437e-05,
      "loss": 5.7672,
      "loss/crossentropy": 1.1192233860492706,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09497337322682142,
      "step": 4627
    },
    {
      "epoch": 0.7713333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.4166666666666667,
      "learning_rate": 1.2373506978326065e-05,
      "loss": 5.9527,
      "loss/crossentropy": 1.2752255946397781,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10107416100800037,
      "step": 4628
    },
    {
      "epoch": 0.7715,
      "grad_norm": 22.0,
      "grad_norm_var": 1.3514973958333334,
      "learning_rate": 1.2356271125374152e-05,
      "loss": 5.8963,
      "loss/crossentropy": 1.354052096605301,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11036617681384087,
      "step": 4629
    },
    {
      "epoch": 0.7716666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 0.7416666666666667,
      "learning_rate": 1.2339045592664011e-05,
      "loss": 6.4979,
      "loss/crossentropy": 1.297387719154358,
      "loss/hidden": 3.52734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14271708391606808,
      "step": 4630
    },
    {
      "epoch": 0.7718333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 0.7455729166666667,
      "learning_rate": 1.2321830384918116e-05,
      "loss": 5.7727,
      "loss/crossentropy": 1.5292817205190659,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12810157239437103,
      "step": 4631
    },
    {
      "epoch": 0.772,
      "grad_norm": 21.0,
      "grad_norm_var": 0.7684895833333333,
      "learning_rate": 1.2304625506856099e-05,
      "loss": 6.2169,
      "loss/crossentropy": 1.127100184559822,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14154468942433596,
      "step": 4632
    },
    {
      "epoch": 0.7721666666666667,
      "grad_norm": 19.125,
      "grad_norm_var": 1.1393229166666667,
      "learning_rate": 1.2287430963194807e-05,
      "loss": 6.0312,
      "loss/crossentropy": 1.8155560046434402,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1668260581791401,
      "step": 4633
    },
    {
      "epoch": 0.7723333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.1457682291666667,
      "learning_rate": 1.2270246758648207e-05,
      "loss": 6.0281,
      "loss/crossentropy": 1.4178087264299393,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15124558843672276,
      "step": 4634
    },
    {
      "epoch": 0.7725,
      "grad_norm": 20.875,
      "grad_norm_var": 1.1457682291666667,
      "learning_rate": 1.2253072897927437e-05,
      "loss": 6.4089,
      "loss/crossentropy": 1.254401445388794,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10577010922133923,
      "step": 4635
    },
    {
      "epoch": 0.7726666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 1.25390625,
      "learning_rate": 1.2235909385740824e-05,
      "loss": 5.8529,
      "loss/crossentropy": 1.772833228111267,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12475254386663437,
      "step": 4636
    },
    {
      "epoch": 0.7728333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 1.09140625,
      "learning_rate": 1.2218756226793826e-05,
      "loss": 6.0167,
      "loss/crossentropy": 1.637379415333271,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12853395007550716,
      "step": 4637
    },
    {
      "epoch": 0.773,
      "grad_norm": 21.375,
      "grad_norm_var": 0.8806640625,
      "learning_rate": 1.2201613425789088e-05,
      "loss": 6.2848,
      "loss/crossentropy": 1.3204209953546524,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10224234918132424,
      "step": 4638
    },
    {
      "epoch": 0.7731666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 0.8291015625,
      "learning_rate": 1.218448098742641e-05,
      "loss": 6.2362,
      "loss/crossentropy": 1.8816700875759125,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19083450734615326,
      "step": 4639
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 0.8122395833333333,
      "learning_rate": 1.2167358916402738e-05,
      "loss": 5.8703,
      "loss/crossentropy": 0.845922127366066,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08407798688858747,
      "step": 4640
    },
    {
      "epoch": 0.7735,
      "grad_norm": 21.5,
      "grad_norm_var": 0.8145833333333333,
      "learning_rate": 1.2150247217412186e-05,
      "loss": 6.1481,
      "loss/crossentropy": 1.1219928711652756,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10140742175281048,
      "step": 4641
    },
    {
      "epoch": 0.7736666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 0.8181640625,
      "learning_rate": 1.213314589514603e-05,
      "loss": 6.1598,
      "loss/crossentropy": 1.8248169869184494,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1409007776528597,
      "step": 4642
    },
    {
      "epoch": 0.7738333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 0.79375,
      "learning_rate": 1.2116054954292689e-05,
      "loss": 6.2253,
      "loss/crossentropy": 1.412157692015171,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14209156343713403,
      "step": 4643
    },
    {
      "epoch": 0.774,
      "grad_norm": 19.625,
      "grad_norm_var": 0.78515625,
      "learning_rate": 1.2098974399537728e-05,
      "loss": 5.8461,
      "loss/crossentropy": 1.3934496194124222,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1413600817322731,
      "step": 4644
    },
    {
      "epoch": 0.7741666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 0.6999348958333333,
      "learning_rate": 1.2081904235563906e-05,
      "loss": 6.036,
      "loss/crossentropy": 1.5826481878757477,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19396721571683884,
      "step": 4645
    },
    {
      "epoch": 0.7743333333333333,
      "grad_norm": 24.625,
      "grad_norm_var": 1.4874348958333334,
      "learning_rate": 1.206484446705109e-05,
      "loss": 6.4505,
      "loss/crossentropy": 1.1493305265903473,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12477468699216843,
      "step": 4646
    },
    {
      "epoch": 0.7745,
      "grad_norm": 19.25,
      "grad_norm_var": 1.5733723958333334,
      "learning_rate": 1.2047795098676318e-05,
      "loss": 6.0129,
      "loss/crossentropy": 1.54244065284729,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10602478682994843,
      "step": 4647
    },
    {
      "epoch": 0.7746666666666666,
      "grad_norm": 22.875,
      "grad_norm_var": 1.8497395833333334,
      "learning_rate": 1.2030756135113769e-05,
      "loss": 6.4152,
      "loss/crossentropy": 2.2309845983982086,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15111567452549934,
      "step": 4648
    },
    {
      "epoch": 0.7748333333333334,
      "grad_norm": 23.5,
      "grad_norm_var": 2.0160807291666667,
      "learning_rate": 1.2013727581034783e-05,
      "loss": 6.3801,
      "loss/crossentropy": 1.7877660691738129,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16495105996727943,
      "step": 4649
    },
    {
      "epoch": 0.775,
      "grad_norm": 22.25,
      "grad_norm_var": 2.0863932291666667,
      "learning_rate": 1.1996709441107789e-05,
      "loss": 6.4286,
      "loss/crossentropy": 1.6052248179912567,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10719014704227448,
      "step": 4650
    },
    {
      "epoch": 0.7751666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 2.1770833333333335,
      "learning_rate": 1.1979701719998453e-05,
      "loss": 5.9159,
      "loss/crossentropy": 1.4038437604904175,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1032525897026062,
      "step": 4651
    },
    {
      "epoch": 0.7753333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 2.105208333333333,
      "learning_rate": 1.196270442236953e-05,
      "loss": 6.1267,
      "loss/crossentropy": 1.5968138501048088,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12481052428483963,
      "step": 4652
    },
    {
      "epoch": 0.7755,
      "grad_norm": 19.75,
      "grad_norm_var": 2.2499348958333334,
      "learning_rate": 1.194571755288092e-05,
      "loss": 5.8567,
      "loss/crossentropy": 1.2052706182003021,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2086588814854622,
      "step": 4653
    },
    {
      "epoch": 0.7756666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 2.290625,
      "learning_rate": 1.1928741116189663e-05,
      "loss": 6.5063,
      "loss/crossentropy": 1.091138795018196,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09623314719647169,
      "step": 4654
    },
    {
      "epoch": 0.7758333333333334,
      "grad_norm": 17.75,
      "grad_norm_var": 3.0348307291666665,
      "learning_rate": 1.1911775116949958e-05,
      "loss": 5.7845,
      "loss/crossentropy": 1.237115129828453,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09803014248609543,
      "step": 4655
    },
    {
      "epoch": 0.776,
      "grad_norm": 20.75,
      "grad_norm_var": 2.9830729166666665,
      "learning_rate": 1.1894819559813108e-05,
      "loss": 5.7612,
      "loss/crossentropy": 1.4497880339622498,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14953014254570007,
      "step": 4656
    },
    {
      "epoch": 0.7761666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.970572916666667,
      "learning_rate": 1.18778744494276e-05,
      "loss": 6.0424,
      "loss/crossentropy": 2.036769285798073,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14152216725051403,
      "step": 4657
    },
    {
      "epoch": 0.7763333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 2.9603515625,
      "learning_rate": 1.1860939790439029e-05,
      "loss": 5.6571,
      "loss/crossentropy": 0.9255470931529999,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14103355444967747,
      "step": 4658
    },
    {
      "epoch": 0.7765,
      "grad_norm": 20.875,
      "grad_norm_var": 2.95625,
      "learning_rate": 1.1844015587490138e-05,
      "loss": 6.1733,
      "loss/crossentropy": 1.6435051038861275,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1258302927017212,
      "step": 4659
    },
    {
      "epoch": 0.7766666666666666,
      "grad_norm": 23.125,
      "grad_norm_var": 3.051041666666667,
      "learning_rate": 1.1827101845220756e-05,
      "loss": 6.4614,
      "loss/crossentropy": 1.891682356595993,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14762401394546032,
      "step": 4660
    },
    {
      "epoch": 0.7768333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 3.033072916666667,
      "learning_rate": 1.1810198568267905e-05,
      "loss": 6.2707,
      "loss/crossentropy": 1.2793746069073677,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11426947824656963,
      "step": 4661
    },
    {
      "epoch": 0.777,
      "grad_norm": 22.75,
      "grad_norm_var": 2.420768229166667,
      "learning_rate": 1.17933057612657e-05,
      "loss": 6.43,
      "loss/crossentropy": 1.7775824964046478,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14535055495798588,
      "step": 4662
    },
    {
      "epoch": 0.7771666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 2.18515625,
      "learning_rate": 1.1776423428845423e-05,
      "loss": 6.2004,
      "loss/crossentropy": 1.1868366599082947,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11212237924337387,
      "step": 4663
    },
    {
      "epoch": 0.7773333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.0228515625,
      "learning_rate": 1.1759551575635447e-05,
      "loss": 6.1397,
      "loss/crossentropy": 1.6052246689796448,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1599351279437542,
      "step": 4664
    },
    {
      "epoch": 0.7775,
      "grad_norm": 20.0,
      "grad_norm_var": 1.7129557291666666,
      "learning_rate": 1.1742690206261292e-05,
      "loss": 6.0633,
      "loss/crossentropy": 1.24390509724617,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1279267743229866,
      "step": 4665
    },
    {
      "epoch": 0.7776666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 1.6020833333333333,
      "learning_rate": 1.17258393253456e-05,
      "loss": 5.9446,
      "loss/crossentropy": 1.21493262052536,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09953881427645683,
      "step": 4666
    },
    {
      "epoch": 0.7778333333333334,
      "grad_norm": 17.125,
      "grad_norm_var": 2.4541015625,
      "learning_rate": 1.1708998937508125e-05,
      "loss": 5.6104,
      "loss/crossentropy": 0.8792491778731346,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07458435371518135,
      "step": 4667
    },
    {
      "epoch": 0.778,
      "grad_norm": 21.75,
      "grad_norm_var": 2.470572916666667,
      "learning_rate": 1.1692169047365747e-05,
      "loss": 6.3566,
      "loss/crossentropy": 1.3880136907100677,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12901944480836391,
      "step": 4668
    },
    {
      "epoch": 0.7781666666666667,
      "grad_norm": 18.75,
      "grad_norm_var": 2.66015625,
      "learning_rate": 1.1675349659532513e-05,
      "loss": 5.7572,
      "loss/crossentropy": 1.420643389225006,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1671031415462494,
      "step": 4669
    },
    {
      "epoch": 0.7783333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.559375,
      "learning_rate": 1.1658540778619526e-05,
      "loss": 6.2457,
      "loss/crossentropy": 1.395750030875206,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16583306156098843,
      "step": 4670
    },
    {
      "epoch": 0.7785,
      "grad_norm": 23.625,
      "grad_norm_var": 2.488997395833333,
      "learning_rate": 1.164174240923503e-05,
      "loss": 6.4677,
      "loss/crossentropy": 1.6943764090538025,
      "loss/hidden": 3.55078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22738244384527206,
      "step": 4671
    },
    {
      "epoch": 0.7786666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 2.4858723958333333,
      "learning_rate": 1.1624954555984407e-05,
      "loss": 6.0884,
      "loss/crossentropy": 1.4488178491592407,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13430792465806007,
      "step": 4672
    },
    {
      "epoch": 0.7788333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 2.486458333333333,
      "learning_rate": 1.160817722347014e-05,
      "loss": 5.7735,
      "loss/crossentropy": 1.0765422210097313,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1865381207317114,
      "step": 4673
    },
    {
      "epoch": 0.779,
      "grad_norm": 26.125,
      "grad_norm_var": 4.112434895833333,
      "learning_rate": 1.1591410416291814e-05,
      "loss": 7.1219,
      "loss/crossentropy": 1.6656134128570557,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11338343098759651,
      "step": 4674
    },
    {
      "epoch": 0.7791666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 4.143489583333333,
      "learning_rate": 1.1574654139046171e-05,
      "loss": 5.7951,
      "loss/crossentropy": 1.78630992770195,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13448509573936462,
      "step": 4675
    },
    {
      "epoch": 0.7793333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 4.280989583333334,
      "learning_rate": 1.1557908396327028e-05,
      "loss": 6.0742,
      "loss/crossentropy": 1.133269801735878,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07727502472698689,
      "step": 4676
    },
    {
      "epoch": 0.7795,
      "grad_norm": 21.125,
      "grad_norm_var": 4.269791666666666,
      "learning_rate": 1.1541173192725318e-05,
      "loss": 6.0612,
      "loss/crossentropy": 1.4134371876716614,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10010669194161892,
      "step": 4677
    },
    {
      "epoch": 0.7796666666666666,
      "grad_norm": 20.5,
      "grad_norm_var": 4.164322916666666,
      "learning_rate": 1.1524448532829107e-05,
      "loss": 6.3036,
      "loss/crossentropy": 1.5074973404407501,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11828315258026123,
      "step": 4678
    },
    {
      "epoch": 0.7798333333333334,
      "grad_norm": 19.0,
      "grad_norm_var": 4.454622395833334,
      "learning_rate": 1.1507734421223543e-05,
      "loss": 5.9688,
      "loss/crossentropy": 1.2692376896739006,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08772148005664349,
      "step": 4679
    },
    {
      "epoch": 0.78,
      "grad_norm": 20.625,
      "grad_norm_var": 4.436458333333333,
      "learning_rate": 1.1491030862490898e-05,
      "loss": 5.9743,
      "loss/crossentropy": 1.164160281419754,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09525525197386742,
      "step": 4680
    },
    {
      "epoch": 0.7801666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 4.483333333333333,
      "learning_rate": 1.1474337861210543e-05,
      "loss": 6.3321,
      "loss/crossentropy": 1.0631713271141052,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13776499964296818,
      "step": 4681
    },
    {
      "epoch": 0.7803333333333333,
      "grad_norm": 18.875,
      "grad_norm_var": 4.805989583333333,
      "learning_rate": 1.1457655421958969e-05,
      "loss": 5.6912,
      "loss/crossentropy": 0.8589901626110077,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16136891394853592,
      "step": 4682
    },
    {
      "epoch": 0.7805,
      "grad_norm": 22.375,
      "grad_norm_var": 3.761458333333333,
      "learning_rate": 1.1440983549309753e-05,
      "loss": 6.2474,
      "loss/crossentropy": 1.7670141756534576,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16222378984093666,
      "step": 4683
    },
    {
      "epoch": 0.7806666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 3.7572265625,
      "learning_rate": 1.142432224783359e-05,
      "loss": 6.2389,
      "loss/crossentropy": 1.6368155628442764,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14362389594316483,
      "step": 4684
    },
    {
      "epoch": 0.7808333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 3.4525390625,
      "learning_rate": 1.1407671522098262e-05,
      "loss": 6.5198,
      "loss/crossentropy": 1.3748039454221725,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20907017681747675,
      "step": 4685
    },
    {
      "epoch": 0.781,
      "grad_norm": 22.625,
      "grad_norm_var": 3.49765625,
      "learning_rate": 1.1391031376668653e-05,
      "loss": 6.2058,
      "loss/crossentropy": 1.3352277278900146,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16850199922919273,
      "step": 4686
    },
    {
      "epoch": 0.7811666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 3.4893229166666666,
      "learning_rate": 1.1374401816106778e-05,
      "loss": 5.9395,
      "loss/crossentropy": 1.0611231327056885,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12912127654999495,
      "step": 4687
    },
    {
      "epoch": 0.7813333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 3.784375,
      "learning_rate": 1.135778284497171e-05,
      "loss": 6.5235,
      "loss/crossentropy": 1.1926684230566025,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12341973930597305,
      "step": 4688
    },
    {
      "epoch": 0.7815,
      "grad_norm": 20.25,
      "grad_norm_var": 3.873893229166667,
      "learning_rate": 1.1341174467819637e-05,
      "loss": 5.9737,
      "loss/crossentropy": 1.2350172400474548,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0921284407377243,
      "step": 4689
    },
    {
      "epoch": 0.7816666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 2.4587890625,
      "learning_rate": 1.1324576689203842e-05,
      "loss": 5.8634,
      "loss/crossentropy": 1.3075111955404282,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17461873963475227,
      "step": 4690
    },
    {
      "epoch": 0.7818333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 2.6478515625,
      "learning_rate": 1.1307989513674693e-05,
      "loss": 6.2982,
      "loss/crossentropy": 1.195155143737793,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12641962245106697,
      "step": 4691
    },
    {
      "epoch": 0.782,
      "grad_norm": 19.125,
      "grad_norm_var": 2.6056640625,
      "learning_rate": 1.1291412945779667e-05,
      "loss": 5.7077,
      "loss/crossentropy": 1.2750827372074127,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12294334173202515,
      "step": 4692
    },
    {
      "epoch": 0.7821666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 2.716666666666667,
      "learning_rate": 1.1274846990063315e-05,
      "loss": 6.2346,
      "loss/crossentropy": 1.5707927346229553,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13349169865250587,
      "step": 4693
    },
    {
      "epoch": 0.7823333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.678580729166667,
      "learning_rate": 1.1258291651067293e-05,
      "loss": 6.1529,
      "loss/crossentropy": 1.4936427474021912,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17202579230070114,
      "step": 4694
    },
    {
      "epoch": 0.7825,
      "grad_norm": 22.0,
      "grad_norm_var": 2.325455729166667,
      "learning_rate": 1.1241746933330338e-05,
      "loss": 6.2021,
      "loss/crossentropy": 1.4265708774328232,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16616969741880894,
      "step": 4695
    },
    {
      "epoch": 0.7826666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 2.27890625,
      "learning_rate": 1.1225212841388282e-05,
      "loss": 6.3068,
      "loss/crossentropy": 2.043407142162323,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1489068754017353,
      "step": 4696
    },
    {
      "epoch": 0.7828333333333334,
      "grad_norm": 24.625,
      "grad_norm_var": 2.8400390625,
      "learning_rate": 1.120868937977404e-05,
      "loss": 6.4022,
      "loss/crossentropy": 1.3000944554805756,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11084226332604885,
      "step": 4697
    },
    {
      "epoch": 0.783,
      "grad_norm": 22.5,
      "grad_norm_var": 2.3208333333333333,
      "learning_rate": 1.1192176553017596e-05,
      "loss": 6.1829,
      "loss/crossentropy": 1.4642933905124664,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13932228460907936,
      "step": 4698
    },
    {
      "epoch": 0.7831666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 2.5150390625,
      "learning_rate": 1.1175674365646066e-05,
      "loss": 5.8387,
      "loss/crossentropy": 0.9286782443523407,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09466393664479256,
      "step": 4699
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 25.0,
      "grad_norm_var": 3.142708333333333,
      "learning_rate": 1.11591828221836e-05,
      "loss": 6.6578,
      "loss/crossentropy": 1.9089318215847015,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16205528378486633,
      "step": 4700
    },
    {
      "epoch": 0.7835,
      "grad_norm": 22.25,
      "grad_norm_var": 3.034375,
      "learning_rate": 1.1142701927151456e-05,
      "loss": 6.4679,
      "loss/crossentropy": 1.4800184667110443,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1450858088210225,
      "step": 4701
    },
    {
      "epoch": 0.7836666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 2.99765625,
      "learning_rate": 1.1126231685067956e-05,
      "loss": 6.2618,
      "loss/crossentropy": 1.6786945760250092,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13766717165708542,
      "step": 4702
    },
    {
      "epoch": 0.7838333333333334,
      "grad_norm": 19.375,
      "grad_norm_var": 3.076041666666667,
      "learning_rate": 1.1109772100448512e-05,
      "loss": 5.9298,
      "loss/crossentropy": 1.7757892608642578,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13104922696948051,
      "step": 4703
    },
    {
      "epoch": 0.784,
      "grad_norm": 21.0,
      "grad_norm_var": 2.849739583333333,
      "learning_rate": 1.1093323177805615e-05,
      "loss": 6.0747,
      "loss/crossentropy": 2.150106966495514,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16441037133336067,
      "step": 4704
    },
    {
      "epoch": 0.7841666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 2.9296223958333334,
      "learning_rate": 1.1076884921648834e-05,
      "loss": 5.6729,
      "loss/crossentropy": 1.3287052512168884,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12259537354111671,
      "step": 4705
    },
    {
      "epoch": 0.7843333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 3.096875,
      "learning_rate": 1.1060457336484803e-05,
      "loss": 5.5128,
      "loss/crossentropy": 0.8331544697284698,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09960265457630157,
      "step": 4706
    },
    {
      "epoch": 0.7845,
      "grad_norm": 22.875,
      "grad_norm_var": 3.0228515625,
      "learning_rate": 1.1044040426817236e-05,
      "loss": 6.2049,
      "loss/crossentropy": 1.0465327575802803,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11294649913907051,
      "step": 4707
    },
    {
      "epoch": 0.7846666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 2.643684895833333,
      "learning_rate": 1.102763419714693e-05,
      "loss": 5.9357,
      "loss/crossentropy": 1.6203741282224655,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1385483704507351,
      "step": 4708
    },
    {
      "epoch": 0.7848333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 2.630989583333333,
      "learning_rate": 1.1011238651971745e-05,
      "loss": 5.9045,
      "loss/crossentropy": 1.2533764690160751,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12561029754579067,
      "step": 4709
    },
    {
      "epoch": 0.785,
      "grad_norm": 20.75,
      "grad_norm_var": 2.667122395833333,
      "learning_rate": 1.0994853795786592e-05,
      "loss": 6.2024,
      "loss/crossentropy": 1.6572082489728928,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1447308212518692,
      "step": 4710
    },
    {
      "epoch": 0.7851666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 2.706184895833333,
      "learning_rate": 1.097847963308351e-05,
      "loss": 6.0516,
      "loss/crossentropy": 1.5774121284484863,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21858413890004158,
      "step": 4711
    },
    {
      "epoch": 0.7853333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 2.8333333333333335,
      "learning_rate": 1.0962116168351544e-05,
      "loss": 6.0615,
      "loss/crossentropy": 1.4704845696687698,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11840315535664558,
      "step": 4712
    },
    {
      "epoch": 0.7855,
      "grad_norm": 19.75,
      "grad_norm_var": 2.2874348958333335,
      "learning_rate": 1.0945763406076836e-05,
      "loss": 6.1092,
      "loss/crossentropy": 1.3402659893035889,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15936080925166607,
      "step": 4713
    },
    {
      "epoch": 0.7856666666666666,
      "grad_norm": 18.625,
      "grad_norm_var": 2.5518229166666666,
      "learning_rate": 1.0929421350742603e-05,
      "loss": 5.7371,
      "loss/crossentropy": 1.2653083503246307,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11486690491437912,
      "step": 4714
    },
    {
      "epoch": 0.7858333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 2.582291666666667,
      "learning_rate": 1.0913090006829086e-05,
      "loss": 6.3361,
      "loss/crossentropy": 1.599572591483593,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16505621513351798,
      "step": 4715
    },
    {
      "epoch": 0.786,
      "grad_norm": 22.75,
      "grad_norm_var": 1.7268229166666667,
      "learning_rate": 1.0896769378813609e-05,
      "loss": 6.4262,
      "loss/crossentropy": 1.4238594621419907,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16283969953656197,
      "step": 4716
    },
    {
      "epoch": 0.7861666666666667,
      "grad_norm": 19.125,
      "grad_norm_var": 1.7968098958333334,
      "learning_rate": 1.0880459471170596e-05,
      "loss": 5.8597,
      "loss/crossentropy": 1.5669009387493134,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14377548918128014,
      "step": 4717
    },
    {
      "epoch": 0.7863333333333333,
      "grad_norm": 19.25,
      "grad_norm_var": 1.8364583333333333,
      "learning_rate": 1.0864160288371488e-05,
      "loss": 5.8472,
      "loss/crossentropy": 1.641159564256668,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09225179441273212,
      "step": 4718
    },
    {
      "epoch": 0.7865,
      "grad_norm": 20.375,
      "grad_norm_var": 1.7364583333333334,
      "learning_rate": 1.0847871834884798e-05,
      "loss": 5.8577,
      "loss/crossentropy": 1.5861876606941223,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12010078132152557,
      "step": 4719
    },
    {
      "epoch": 0.7866666666666666,
      "grad_norm": 23.0,
      "grad_norm_var": 2.078125,
      "learning_rate": 1.0831594115176096e-05,
      "loss": 6.3481,
      "loss/crossentropy": 1.1962751746177673,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17182797100394964,
      "step": 4720
    },
    {
      "epoch": 0.7868333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 2.019791666666667,
      "learning_rate": 1.0815327133708015e-05,
      "loss": 5.7772,
      "loss/crossentropy": 1.3059703260660172,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21829263120889664,
      "step": 4721
    },
    {
      "epoch": 0.787,
      "grad_norm": 24.0,
      "grad_norm_var": 2.52890625,
      "learning_rate": 1.0799070894940222e-05,
      "loss": 6.6421,
      "loss/crossentropy": 1.640300303697586,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1980632096529007,
      "step": 4722
    },
    {
      "epoch": 0.7871666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 2.4268229166666666,
      "learning_rate": 1.0782825403329488e-05,
      "loss": 6.2264,
      "loss/crossentropy": 2.1045922487974167,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16563910245895386,
      "step": 4723
    },
    {
      "epoch": 0.7873333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.42890625,
      "learning_rate": 1.0766590663329606e-05,
      "loss": 6.2627,
      "loss/crossentropy": 1.472077026963234,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09728225879371166,
      "step": 4724
    },
    {
      "epoch": 0.7875,
      "grad_norm": 22.75,
      "grad_norm_var": 2.5009765625,
      "learning_rate": 1.0750366679391393e-05,
      "loss": 6.4323,
      "loss/crossentropy": 1.3401965945959091,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1089411024004221,
      "step": 4725
    },
    {
      "epoch": 0.7876666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 2.4955729166666667,
      "learning_rate": 1.0734153455962765e-05,
      "loss": 5.8542,
      "loss/crossentropy": 0.97490194439888,
      "loss/hidden": 2.72265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07476269733160734,
      "step": 4726
    },
    {
      "epoch": 0.7878333333333334,
      "grad_norm": 22.875,
      "grad_norm_var": 2.667122395833333,
      "learning_rate": 1.0717950997488663e-05,
      "loss": 6.5576,
      "loss/crossentropy": 1.8428030759096146,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12224528566002846,
      "step": 4727
    },
    {
      "epoch": 0.788,
      "grad_norm": 22.125,
      "grad_norm_var": 2.6108723958333333,
      "learning_rate": 1.0701759308411068e-05,
      "loss": 6.2599,
      "loss/crossentropy": 2.0105548799037933,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14570900797843933,
      "step": 4728
    },
    {
      "epoch": 0.7881666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 2.481184895833333,
      "learning_rate": 1.0685578393169055e-05,
      "loss": 6.3368,
      "loss/crossentropy": 2.2252063751220703,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14903179928660393,
      "step": 4729
    },
    {
      "epoch": 0.7883333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.9393229166666666,
      "learning_rate": 1.0669408256198698e-05,
      "loss": 6.4873,
      "loss/crossentropy": 1.181290403008461,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1681858655065298,
      "step": 4730
    },
    {
      "epoch": 0.7885,
      "grad_norm": 20.0,
      "grad_norm_var": 2.082291666666667,
      "learning_rate": 1.0653248901933138e-05,
      "loss": 6.0689,
      "loss/crossentropy": 1.9225912988185883,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13430535793304443,
      "step": 4731
    },
    {
      "epoch": 0.7886666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 2.131705729166667,
      "learning_rate": 1.063710033480254e-05,
      "loss": 5.8394,
      "loss/crossentropy": 1.2083692848682404,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18510898854583502,
      "step": 4732
    },
    {
      "epoch": 0.7888333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.7791666666666666,
      "learning_rate": 1.0620962559234143e-05,
      "loss": 6.6567,
      "loss/crossentropy": 1.8256767019629478,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15701995603740215,
      "step": 4733
    },
    {
      "epoch": 0.789,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4363932291666666,
      "learning_rate": 1.0604835579652194e-05,
      "loss": 6.1141,
      "loss/crossentropy": 0.903545930981636,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08341437205672264,
      "step": 4734
    },
    {
      "epoch": 0.7891666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3268229166666667,
      "learning_rate": 1.0588719400478004e-05,
      "loss": 6.1312,
      "loss/crossentropy": 1.2186557576060295,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0957308104261756,
      "step": 4735
    },
    {
      "epoch": 0.7893333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.4916666666666667,
      "learning_rate": 1.0572614026129912e-05,
      "loss": 6.3433,
      "loss/crossentropy": 1.6856456398963928,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22272921726107597,
      "step": 4736
    },
    {
      "epoch": 0.7895,
      "grad_norm": 23.125,
      "grad_norm_var": 1.5455729166666667,
      "learning_rate": 1.0556519461023301e-05,
      "loss": 6.389,
      "loss/crossentropy": 2.0272046327590942,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17039217054843903,
      "step": 4737
    },
    {
      "epoch": 0.7896666666666666,
      "grad_norm": 19.75,
      "grad_norm_var": 1.4791666666666667,
      "learning_rate": 1.0540435709570585e-05,
      "loss": 5.8708,
      "loss/crossentropy": 0.7596881985664368,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.06166765186935663,
      "step": 4738
    },
    {
      "epoch": 0.7898333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4676432291666666,
      "learning_rate": 1.0524362776181218e-05,
      "loss": 6.1734,
      "loss/crossentropy": 1.2178647816181183,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19607395865023136,
      "step": 4739
    },
    {
      "epoch": 0.79,
      "grad_norm": 19.875,
      "grad_norm_var": 1.6567057291666667,
      "learning_rate": 1.0508300665261666e-05,
      "loss": 5.8132,
      "loss/crossentropy": 1.8380084037780762,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15020309574902058,
      "step": 4740
    },
    {
      "epoch": 0.7901666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 1.5619140625,
      "learning_rate": 1.049224938121548e-05,
      "loss": 6.0588,
      "loss/crossentropy": 1.8979372382164001,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15446294844150543,
      "step": 4741
    },
    {
      "epoch": 0.7903333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 1.59765625,
      "learning_rate": 1.0476208928443198e-05,
      "loss": 5.8158,
      "loss/crossentropy": 1.3217267841100693,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13112110272049904,
      "step": 4742
    },
    {
      "epoch": 0.7905,
      "grad_norm": 23.0,
      "grad_norm_var": 1.6233723958333333,
      "learning_rate": 1.0460179311342394e-05,
      "loss": 6.3924,
      "loss/crossentropy": 1.365360051393509,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1336464360356331,
      "step": 4743
    },
    {
      "epoch": 0.7906666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 1.7218098958333334,
      "learning_rate": 1.044416053430769e-05,
      "loss": 5.6859,
      "loss/crossentropy": 1.8327816724777222,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19304445572197437,
      "step": 4744
    },
    {
      "epoch": 0.7908333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 1.7363932291666666,
      "learning_rate": 1.0428152601730718e-05,
      "loss": 6.2916,
      "loss/crossentropy": 1.3415595442056656,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21494286507368088,
      "step": 4745
    },
    {
      "epoch": 0.791,
      "grad_norm": 20.875,
      "grad_norm_var": 1.6927083333333333,
      "learning_rate": 1.0412155518000138e-05,
      "loss": 5.9038,
      "loss/crossentropy": 2.0162709057331085,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14696335420012474,
      "step": 4746
    },
    {
      "epoch": 0.7911666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.5921223958333333,
      "learning_rate": 1.039616928750165e-05,
      "loss": 6.0818,
      "loss/crossentropy": 1.7319307029247284,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19393334724009037,
      "step": 4747
    },
    {
      "epoch": 0.7913333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.5247395833333333,
      "learning_rate": 1.0380193914617969e-05,
      "loss": 6.0465,
      "loss/crossentropy": 1.5473624020814896,
      "loss/hidden": 2.7890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11460009962320328,
      "step": 4748
    },
    {
      "epoch": 0.7915,
      "grad_norm": 20.125,
      "grad_norm_var": 1.6572265625,
      "learning_rate": 1.0364229403728831e-05,
      "loss": 5.8988,
      "loss/crossentropy": 1.4235755652189255,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16641514003276825,
      "step": 4749
    },
    {
      "epoch": 0.7916666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 1.6936848958333333,
      "learning_rate": 1.0348275759210996e-05,
      "loss": 6.2525,
      "loss/crossentropy": 1.4118851274251938,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14039387181401253,
      "step": 4750
    },
    {
      "epoch": 0.7918333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.7114583333333333,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 6.3443,
      "loss/crossentropy": 1.4656022638082504,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15843262895941734,
      "step": 4751
    },
    {
      "epoch": 0.792,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3811848958333333,
      "learning_rate": 1.0316401086781391e-05,
      "loss": 6.1471,
      "loss/crossentropy": 1.8292838782072067,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1617498341947794,
      "step": 4752
    },
    {
      "epoch": 0.7921666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 1.3629557291666667,
      "learning_rate": 1.0300480067608231e-05,
      "loss": 5.999,
      "loss/crossentropy": 1.8439576923847198,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15623553842306137,
      "step": 4753
    },
    {
      "epoch": 0.7923333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.2942057291666667,
      "learning_rate": 1.0284569932283627e-05,
      "loss": 6.2015,
      "loss/crossentropy": 1.375125527381897,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17446033842861652,
      "step": 4754
    },
    {
      "epoch": 0.7925,
      "grad_norm": 23.0,
      "grad_norm_var": 1.4145182291666667,
      "learning_rate": 1.0268670685169429e-05,
      "loss": 6.3832,
      "loss/crossentropy": 1.434379518032074,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24220576137304306,
      "step": 4755
    },
    {
      "epoch": 0.7926666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 1.3447916666666666,
      "learning_rate": 1.02527823306245e-05,
      "loss": 5.7292,
      "loss/crossentropy": 1.5578973293304443,
      "loss/hidden": 2.80859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08851914666593075,
      "step": 4756
    },
    {
      "epoch": 0.7928333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.3379557291666666,
      "learning_rate": 1.0236904873004722e-05,
      "loss": 5.8501,
      "loss/crossentropy": 1.7487305849790573,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13013431057333946,
      "step": 4757
    },
    {
      "epoch": 0.793,
      "grad_norm": 21.75,
      "grad_norm_var": 1.2728515625,
      "learning_rate": 1.0221038316663001e-05,
      "loss": 6.0786,
      "loss/crossentropy": 1.4062850624322891,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14744127541780472,
      "step": 4758
    },
    {
      "epoch": 0.7931666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.2809895833333333,
      "learning_rate": 1.0205182665949208e-05,
      "loss": 6.0663,
      "loss/crossentropy": 1.407053291797638,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13120287284255028,
      "step": 4759
    },
    {
      "epoch": 0.7933333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.2354166666666666,
      "learning_rate": 1.0189337925210302e-05,
      "loss": 6.0469,
      "loss/crossentropy": 1.6245964728295803,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11725824698805809,
      "step": 4760
    },
    {
      "epoch": 0.7935,
      "grad_norm": 20.875,
      "grad_norm_var": 1.1931640625,
      "learning_rate": 1.0173504098790187e-05,
      "loss": 6.0279,
      "loss/crossentropy": 1.6283636838197708,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1246908251196146,
      "step": 4761
    },
    {
      "epoch": 0.7936666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 1.1872395833333333,
      "learning_rate": 1.0157681191029805e-05,
      "loss": 6.4534,
      "loss/crossentropy": 1.4324063658714294,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12378431111574173,
      "step": 4762
    },
    {
      "epoch": 0.7938333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.24140625,
      "learning_rate": 1.0141869206267095e-05,
      "loss": 6.7774,
      "loss/crossentropy": 1.695960372686386,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1704640705138445,
      "step": 4763
    },
    {
      "epoch": 0.794,
      "grad_norm": 21.0,
      "grad_norm_var": 1.1010416666666667,
      "learning_rate": 1.0126068148836993e-05,
      "loss": 6.2093,
      "loss/crossentropy": 1.809549242258072,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15325731225311756,
      "step": 4764
    },
    {
      "epoch": 0.7941666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 1.0837890625,
      "learning_rate": 1.0110278023071446e-05,
      "loss": 5.7124,
      "loss/crossentropy": 1.471789687871933,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12789779528975487,
      "step": 4765
    },
    {
      "epoch": 0.7943333333333333,
      "grad_norm": 25.75,
      "grad_norm_var": 2.3125,
      "learning_rate": 1.0094498833299427e-05,
      "loss": 6.8686,
      "loss/crossentropy": 1.860996961593628,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15696309879422188,
      "step": 4766
    },
    {
      "epoch": 0.7945,
      "grad_norm": 21.625,
      "grad_norm_var": 2.2822916666666666,
      "learning_rate": 1.0078730583846879e-05,
      "loss": 5.9758,
      "loss/crossentropy": 1.3203372061252594,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.12119590863585472,
      "step": 4767
    },
    {
      "epoch": 0.7946666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 2.314322916666667,
      "learning_rate": 1.0062973279036769e-05,
      "loss": 6.171,
      "loss/crossentropy": 1.752643182873726,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16241614893078804,
      "step": 4768
    },
    {
      "epoch": 0.7948333333333333,
      "grad_norm": 19.25,
      "grad_norm_var": 2.4145182291666667,
      "learning_rate": 1.0047226923189024e-05,
      "loss": 6.0197,
      "loss/crossentropy": 1.4323929101228714,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10757766617462039,
      "step": 4769
    },
    {
      "epoch": 0.795,
      "grad_norm": 20.0,
      "grad_norm_var": 2.448372395833333,
      "learning_rate": 1.0031491520620611e-05,
      "loss": 5.8823,
      "loss/crossentropy": 1.6017563343048096,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18172001652419567,
      "step": 4770
    },
    {
      "epoch": 0.7951666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 2.2582682291666667,
      "learning_rate": 1.0015767075645471e-05,
      "loss": 6.1881,
      "loss/crossentropy": 0.9944079518318176,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14962310902774334,
      "step": 4771
    },
    {
      "epoch": 0.7953333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 2.2416666666666667,
      "learning_rate": 1.0000053592574576e-05,
      "loss": 6.1545,
      "loss/crossentropy": 1.7087417989969254,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1468982882797718,
      "step": 4772
    },
    {
      "epoch": 0.7955,
      "grad_norm": 20.875,
      "grad_norm_var": 2.251822916666667,
      "learning_rate": 9.984351075715848e-06,
      "loss": 6.1821,
      "loss/crossentropy": 1.1828330755233765,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09744696877896786,
      "step": 4773
    },
    {
      "epoch": 0.7956666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 2.2384765625,
      "learning_rate": 9.968659529374219e-06,
      "loss": 6.072,
      "loss/crossentropy": 1.7396805584430695,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14786343462765217,
      "step": 4774
    },
    {
      "epoch": 0.7958333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 2.153125,
      "learning_rate": 9.952978957851622e-06,
      "loss": 6.051,
      "loss/crossentropy": 1.8896740078926086,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1617077924311161,
      "step": 4775
    },
    {
      "epoch": 0.796,
      "grad_norm": 23.375,
      "grad_norm_var": 2.258072916666667,
      "learning_rate": 9.937309365446973e-06,
      "loss": 6.6219,
      "loss/crossentropy": 1.4979677125811577,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1807660674676299,
      "step": 4776
    },
    {
      "epoch": 0.7961666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 2.3322265625,
      "learning_rate": 9.921650756456164e-06,
      "loss": 6.4024,
      "loss/crossentropy": 1.5097711086273193,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11536715179681778,
      "step": 4777
    },
    {
      "epoch": 0.7963333333333333,
      "grad_norm": 18.625,
      "grad_norm_var": 2.919791666666667,
      "learning_rate": 9.906003135172138e-06,
      "loss": 5.7296,
      "loss/crossentropy": 1.1156169846653938,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17747100768610835,
      "step": 4778
    },
    {
      "epoch": 0.7965,
      "grad_norm": 20.75,
      "grad_norm_var": 2.9155598958333333,
      "learning_rate": 9.890366505884724e-06,
      "loss": 5.9846,
      "loss/crossentropy": 1.5168485641479492,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20514562726020813,
      "step": 4779
    },
    {
      "epoch": 0.7966666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 2.9247395833333334,
      "learning_rate": 9.874740872880822e-06,
      "loss": 5.9096,
      "loss/crossentropy": 1.4391957223415375,
      "loss/hidden": 3.49609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1535137314349413,
      "step": 4780
    },
    {
      "epoch": 0.7968333333333333,
      "grad_norm": 24.25,
      "grad_norm_var": 3.26640625,
      "learning_rate": 9.859126240444283e-06,
      "loss": 6.3878,
      "loss/crossentropy": 1.2170860469341278,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09998718183487654,
      "step": 4781
    },
    {
      "epoch": 0.797,
      "grad_norm": 20.875,
      "grad_norm_var": 2.1416015625,
      "learning_rate": 9.843522612855944e-06,
      "loss": 5.9418,
      "loss/crossentropy": 1.1889624670147896,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17270900215953588,
      "step": 4782
    },
    {
      "epoch": 0.7971666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 2.1666666666666665,
      "learning_rate": 9.82792999439362e-06,
      "loss": 6.2981,
      "loss/crossentropy": 1.702783614397049,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2443762607872486,
      "step": 4783
    },
    {
      "epoch": 0.7973333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.137955729166667,
      "learning_rate": 9.812348389332137e-06,
      "loss": 6.1189,
      "loss/crossentropy": 1.2531912699341774,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15215164981782436,
      "step": 4784
    },
    {
      "epoch": 0.7975,
      "grad_norm": 22.5,
      "grad_norm_var": 1.8874348958333333,
      "learning_rate": 9.796777801943269e-06,
      "loss": 6.1335,
      "loss/crossentropy": 1.2590802013874054,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12950146291404963,
      "step": 4785
    },
    {
      "epoch": 0.7976666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 1.7291666666666667,
      "learning_rate": 9.781218236495776e-06,
      "loss": 6.0871,
      "loss/crossentropy": 1.3673514276742935,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12215229030698538,
      "step": 4786
    },
    {
      "epoch": 0.7978333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 1.7291015625,
      "learning_rate": 9.765669697255413e-06,
      "loss": 6.0091,
      "loss/crossentropy": 0.8181315213441849,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14635486528277397,
      "step": 4787
    },
    {
      "epoch": 0.798,
      "grad_norm": 19.875,
      "grad_norm_var": 1.9119140625,
      "learning_rate": 9.75013218848489e-06,
      "loss": 5.9951,
      "loss/crossentropy": 1.807572863996029,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13043623976409435,
      "step": 4788
    },
    {
      "epoch": 0.7981666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 2.081184895833333,
      "learning_rate": 9.734605714443906e-06,
      "loss": 6.0461,
      "loss/crossentropy": 1.9168652594089508,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.13586290553212166,
      "step": 4789
    },
    {
      "epoch": 0.7983333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 2.0747395833333333,
      "learning_rate": 9.719090279389138e-06,
      "loss": 6.3601,
      "loss/crossentropy": 1.2882315665483475,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1274511143565178,
      "step": 4790
    },
    {
      "epoch": 0.7985,
      "grad_norm": 22.0,
      "grad_norm_var": 2.0625,
      "learning_rate": 9.703585887574218e-06,
      "loss": 6.6975,
      "loss/crossentropy": 2.3393296897411346,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18195420131087303,
      "step": 4791
    },
    {
      "epoch": 0.7986666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.89140625,
      "learning_rate": 9.68809254324977e-06,
      "loss": 6.0667,
      "loss/crossentropy": 1.5617662966251373,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1410960555076599,
      "step": 4792
    },
    {
      "epoch": 0.7988333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.7770182291666667,
      "learning_rate": 9.672610250663389e-06,
      "loss": 6.06,
      "loss/crossentropy": 1.16310216486454,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09289274271577597,
      "step": 4793
    },
    {
      "epoch": 0.799,
      "grad_norm": 21.125,
      "grad_norm_var": 1.1910807291666667,
      "learning_rate": 9.657139014059618e-06,
      "loss": 6.2683,
      "loss/crossentropy": 1.4249071329832077,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16725469566881657,
      "step": 4794
    },
    {
      "epoch": 0.7991666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 1.2613932291666667,
      "learning_rate": 9.641678837679985e-06,
      "loss": 6.3518,
      "loss/crossentropy": 1.1171584278345108,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09289391431957483,
      "step": 4795
    },
    {
      "epoch": 0.7993333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.2322265625,
      "learning_rate": 9.626229725763003e-06,
      "loss": 5.9546,
      "loss/crossentropy": 1.6081602275371552,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.1416768878698349,
      "step": 4796
    },
    {
      "epoch": 0.7995,
      "grad_norm": 23.125,
      "grad_norm_var": 0.95625,
      "learning_rate": 9.610791682544124e-06,
      "loss": 6.4478,
      "loss/crossentropy": 1.6681146621704102,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20206241309642792,
      "step": 4797
    },
    {
      "epoch": 0.7996666666666666,
      "grad_norm": 19.75,
      "grad_norm_var": 1.1759765625,
      "learning_rate": 9.595364712255773e-06,
      "loss": 5.8788,
      "loss/crossentropy": 1.3801289200782776,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18182547576725483,
      "step": 4798
    },
    {
      "epoch": 0.7998333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 1.1080729166666667,
      "learning_rate": 9.57994881912735e-06,
      "loss": 5.9912,
      "loss/crossentropy": 1.5580164641141891,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14793543703854084,
      "step": 4799
    },
    {
      "epoch": 0.8,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1082682291666666,
      "learning_rate": 9.564544007385196e-06,
      "loss": 6.4162,
      "loss/crossentropy": 1.8965355604887009,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1407659575343132,
      "step": 4800
    },
    {
      "epoch": 0.8001666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.09765625,
      "learning_rate": 9.549150281252633e-06,
      "loss": 6.3143,
      "loss/crossentropy": 1.291287712752819,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12243221886456013,
      "step": 4801
    },
    {
      "epoch": 0.8003333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.17265625,
      "learning_rate": 9.533767644949942e-06,
      "loss": 6.1105,
      "loss/crossentropy": 1.774087205529213,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13790831714868546,
      "step": 4802
    },
    {
      "epoch": 0.8005,
      "grad_norm": 20.25,
      "grad_norm_var": 1.3051432291666667,
      "learning_rate": 9.518396102694355e-06,
      "loss": 5.6988,
      "loss/crossentropy": 1.453818529844284,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16929804906249046,
      "step": 4803
    },
    {
      "epoch": 0.8006666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 1.1660807291666666,
      "learning_rate": 9.503035658700072e-06,
      "loss": 6.2751,
      "loss/crossentropy": 2.0858500599861145,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17808059602975845,
      "step": 4804
    },
    {
      "epoch": 0.8008333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 0.9885416666666667,
      "learning_rate": 9.48768631717824e-06,
      "loss": 6.3111,
      "loss/crossentropy": 1.2387900799512863,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0950490664690733,
      "step": 4805
    },
    {
      "epoch": 0.801,
      "grad_norm": 21.75,
      "grad_norm_var": 0.9604166666666667,
      "learning_rate": 9.472348082336973e-06,
      "loss": 6.0036,
      "loss/crossentropy": 1.252044640481472,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10797218699008226,
      "step": 4806
    },
    {
      "epoch": 0.8011666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 0.9738932291666667,
      "learning_rate": 9.457020958381324e-06,
      "loss": 6.3067,
      "loss/crossentropy": 1.5263432562351227,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16473471745848656,
      "step": 4807
    },
    {
      "epoch": 0.8013333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.9809895833333333,
      "learning_rate": 9.44170494951333e-06,
      "loss": 6.2379,
      "loss/crossentropy": 0.9884339570999146,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15896554104983807,
      "step": 4808
    },
    {
      "epoch": 0.8015,
      "grad_norm": 22.625,
      "grad_norm_var": 1.0393229166666667,
      "learning_rate": 9.426400059931955e-06,
      "loss": 6.3401,
      "loss/crossentropy": 1.6767494678497314,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09779763221740723,
      "step": 4809
    },
    {
      "epoch": 0.8016666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.1135416666666667,
      "learning_rate": 9.411106293833116e-06,
      "loss": 6.1307,
      "loss/crossentropy": 1.2657414078712463,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14281846210360527,
      "step": 4810
    },
    {
      "epoch": 0.8018333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 0.9020182291666666,
      "learning_rate": 9.395823655409685e-06,
      "loss": 6.1027,
      "loss/crossentropy": 1.6109853684902191,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11549671273678541,
      "step": 4811
    },
    {
      "epoch": 0.802,
      "grad_norm": 20.75,
      "grad_norm_var": 0.9205729166666666,
      "learning_rate": 9.380552148851507e-06,
      "loss": 6.0638,
      "loss/crossentropy": 1.641725316643715,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1674758978188038,
      "step": 4812
    },
    {
      "epoch": 0.8021666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 0.6832682291666666,
      "learning_rate": 9.365291778345303e-06,
      "loss": 6.0651,
      "loss/crossentropy": 2.0114187598228455,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15852851048111916,
      "step": 4813
    },
    {
      "epoch": 0.8023333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.5455729166666666,
      "learning_rate": 9.350042548074834e-06,
      "loss": 5.7875,
      "loss/crossentropy": 0.9763226881623268,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10526140034198761,
      "step": 4814
    },
    {
      "epoch": 0.8025,
      "grad_norm": 19.625,
      "grad_norm_var": 0.7080729166666667,
      "learning_rate": 9.334804462220748e-06,
      "loss": 5.9787,
      "loss/crossentropy": 1.3890225142240524,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09077213518321514,
      "step": 4815
    },
    {
      "epoch": 0.8026666666666666,
      "grad_norm": 18.875,
      "grad_norm_var": 0.9893229166666667,
      "learning_rate": 9.319577524960655e-06,
      "loss": 5.5327,
      "loss/crossentropy": 0.9661484509706497,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.06922071799635887,
      "step": 4816
    },
    {
      "epoch": 0.8028333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 0.9285807291666667,
      "learning_rate": 9.304361740469103e-06,
      "loss": 6.2939,
      "loss/crossentropy": 1.219521403312683,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11832333356142044,
      "step": 4817
    },
    {
      "epoch": 0.803,
      "grad_norm": 22.75,
      "grad_norm_var": 1.115625,
      "learning_rate": 9.289157112917584e-06,
      "loss": 6.4637,
      "loss/crossentropy": 1.7060767710208893,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12416346371173859,
      "step": 4818
    },
    {
      "epoch": 0.8031666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.07265625,
      "learning_rate": 9.273963646474526e-06,
      "loss": 5.7335,
      "loss/crossentropy": 1.48636893928051,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12072641961276531,
      "step": 4819
    },
    {
      "epoch": 0.8033333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.0514973958333333,
      "learning_rate": 9.258781345305322e-06,
      "loss": 6.1143,
      "loss/crossentropy": 1.0231119245290756,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0985620878636837,
      "step": 4820
    },
    {
      "epoch": 0.8035,
      "grad_norm": 20.125,
      "grad_norm_var": 1.0393229166666667,
      "learning_rate": 9.243610213572285e-06,
      "loss": 5.8037,
      "loss/crossentropy": 1.2364292442798615,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09406154975295067,
      "step": 4821
    },
    {
      "epoch": 0.8036666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 1.1197265625,
      "learning_rate": 9.228450255434667e-06,
      "loss": 6.4403,
      "loss/crossentropy": 1.8134748488664627,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13030718453228474,
      "step": 4822
    },
    {
      "epoch": 0.8038333333333333,
      "grad_norm": 19.375,
      "grad_norm_var": 1.3087890625,
      "learning_rate": 9.213301475048642e-06,
      "loss": 5.6824,
      "loss/crossentropy": 1.5898074507713318,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20106270536780357,
      "step": 4823
    },
    {
      "epoch": 0.804,
      "grad_norm": 18.125,
      "grad_norm_var": 1.834375,
      "learning_rate": 9.19816387656734e-06,
      "loss": 5.6171,
      "loss/crossentropy": 1.0129572078585625,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.06713565206155181,
      "step": 4824
    },
    {
      "epoch": 0.8041666666666667,
      "grad_norm": 38.25,
      "grad_norm_var": 20.8041015625,
      "learning_rate": 9.183037464140804e-06,
      "loss": 6.3819,
      "loss/crossentropy": 1.6249302178621292,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.31627995520830154,
      "step": 4825
    },
    {
      "epoch": 0.8043333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 20.6947265625,
      "learning_rate": 9.167922241916055e-06,
      "loss": 6.4475,
      "loss/crossentropy": 1.7205875515937805,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12582997605204582,
      "step": 4826
    },
    {
      "epoch": 0.8045,
      "grad_norm": 23.625,
      "grad_norm_var": 20.803580729166665,
      "learning_rate": 9.152818214037007e-06,
      "loss": 6.4988,
      "loss/crossentropy": 1.289810836315155,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12454527616500854,
      "step": 4827
    },
    {
      "epoch": 0.8046666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 20.686393229166665,
      "learning_rate": 9.137725384644513e-06,
      "loss": 6.0629,
      "loss/crossentropy": 1.8241584450006485,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16200651787221432,
      "step": 4828
    },
    {
      "epoch": 0.8048333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 20.738541666666666,
      "learning_rate": 9.122643757876354e-06,
      "loss": 6.1534,
      "loss/crossentropy": 1.323727011680603,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20847885310649872,
      "step": 4829
    },
    {
      "epoch": 0.805,
      "grad_norm": 21.375,
      "grad_norm_var": 20.758072916666666,
      "learning_rate": 9.107573337867248e-06,
      "loss": 6.1469,
      "loss/crossentropy": 1.6627998501062393,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17839328572154045,
      "step": 4830
    },
    {
      "epoch": 0.8051666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 20.345247395833333,
      "learning_rate": 9.09251412874882e-06,
      "loss": 6.3987,
      "loss/crossentropy": 1.952851116657257,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18249718099832535,
      "step": 4831
    },
    {
      "epoch": 0.8053333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 19.818684895833332,
      "learning_rate": 9.077466134649681e-06,
      "loss": 6.2625,
      "loss/crossentropy": 1.5279392749071121,
      "loss/hidden": 3.4453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2142561599612236,
      "step": 4832
    },
    {
      "epoch": 0.8055,
      "grad_norm": 23.75,
      "grad_norm_var": 19.938997395833333,
      "learning_rate": 9.06242935969528e-06,
      "loss": 6.074,
      "loss/crossentropy": 0.9273419082164764,
      "loss/hidden": 3.51953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12590874917805195,
      "step": 4833
    },
    {
      "epoch": 0.8056666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 19.967708333333334,
      "learning_rate": 9.047403808008053e-06,
      "loss": 6.0445,
      "loss/crossentropy": 1.3326261639595032,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1361762066371739,
      "step": 4834
    },
    {
      "epoch": 0.8058333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 19.962239583333332,
      "learning_rate": 9.032389483707331e-06,
      "loss": 6.3563,
      "loss/crossentropy": 1.0479199886322021,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14459940418601036,
      "step": 4835
    },
    {
      "epoch": 0.806,
      "grad_norm": 19.375,
      "grad_norm_var": 20.482747395833332,
      "learning_rate": 9.017386390909388e-06,
      "loss": 5.9021,
      "loss/crossentropy": 1.0057098120450974,
      "loss/hidden": 2.71484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08054263144731522,
      "step": 4836
    },
    {
      "epoch": 0.8061666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 20.16875,
      "learning_rate": 9.002394533727382e-06,
      "loss": 6.4398,
      "loss/crossentropy": 1.4796564504504204,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10790767706930637,
      "step": 4837
    },
    {
      "epoch": 0.8063333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 20.180208333333333,
      "learning_rate": 8.987413916271448e-06,
      "loss": 6.5423,
      "loss/crossentropy": 1.4875300526618958,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1403434630483389,
      "step": 4838
    },
    {
      "epoch": 0.8065,
      "grad_norm": 21.875,
      "grad_norm_var": 19.539583333333333,
      "learning_rate": 8.972444542648594e-06,
      "loss": 6.3681,
      "loss/crossentropy": 1.568013459444046,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20678232796490192,
      "step": 4839
    },
    {
      "epoch": 0.8066666666666666,
      "grad_norm": 20.0,
      "grad_norm_var": 18.634309895833333,
      "learning_rate": 8.957486416962763e-06,
      "loss": 5.6134,
      "loss/crossentropy": 1.3320441991090775,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14244809933006763,
      "step": 4840
    },
    {
      "epoch": 0.8068333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5434895833333333,
      "learning_rate": 8.9425395433148e-06,
      "loss": 6.538,
      "loss/crossentropy": 1.5617206990718842,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18179427459836006,
      "step": 4841
    },
    {
      "epoch": 0.807,
      "grad_norm": 22.0,
      "grad_norm_var": 1.5202473958333333,
      "learning_rate": 8.92760392580248e-06,
      "loss": 6.3485,
      "loss/crossentropy": 2.2770038545131683,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1308373399078846,
      "step": 4842
    },
    {
      "epoch": 0.8071666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.29140625,
      "learning_rate": 8.912679568520494e-06,
      "loss": 6.47,
      "loss/crossentropy": 1.7839673310518265,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15090645104646683,
      "step": 4843
    },
    {
      "epoch": 0.8073333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.3291666666666666,
      "learning_rate": 8.897766475560426e-06,
      "loss": 6.0296,
      "loss/crossentropy": 1.7135689556598663,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1794104315340519,
      "step": 4844
    },
    {
      "epoch": 0.8075,
      "grad_norm": 20.125,
      "grad_norm_var": 1.4330729166666667,
      "learning_rate": 8.882864651010798e-06,
      "loss": 5.7439,
      "loss/crossentropy": 1.1037596762180328,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19535145536065102,
      "step": 4845
    },
    {
      "epoch": 0.8076666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 1.4393229166666666,
      "learning_rate": 8.867974098957015e-06,
      "loss": 6.4371,
      "loss/crossentropy": 1.5225071907043457,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13292383961379528,
      "step": 4846
    },
    {
      "epoch": 0.8078333333333333,
      "grad_norm": 18.5,
      "grad_norm_var": 2.011458333333333,
      "learning_rate": 8.853094823481423e-06,
      "loss": 5.5048,
      "loss/crossentropy": 1.1925562396645546,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1021149205043912,
      "step": 4847
    },
    {
      "epoch": 0.808,
      "grad_norm": 20.875,
      "grad_norm_var": 1.9625,
      "learning_rate": 8.838226828663248e-06,
      "loss": 6.1032,
      "loss/crossentropy": 1.7782277762889862,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1264950092881918,
      "step": 4848
    },
    {
      "epoch": 0.8081666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 1.7455729166666667,
      "learning_rate": 8.823370118578628e-06,
      "loss": 5.6897,
      "loss/crossentropy": 1.8821871876716614,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1685309298336506,
      "step": 4849
    },
    {
      "epoch": 0.8083333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.7393229166666666,
      "learning_rate": 8.808524697300635e-06,
      "loss": 6.0565,
      "loss/crossentropy": 1.3515415638685226,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09409403242170811,
      "step": 4850
    },
    {
      "epoch": 0.8085,
      "grad_norm": 22.25,
      "grad_norm_var": 1.5080729166666667,
      "learning_rate": 8.793690568899216e-06,
      "loss": 6.1069,
      "loss/crossentropy": 1.77684885263443,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14266178011894226,
      "step": 4851
    },
    {
      "epoch": 0.8086666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3509765625,
      "learning_rate": 8.778867737441232e-06,
      "loss": 6.2325,
      "loss/crossentropy": 2.0083470940589905,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20386948063969612,
      "step": 4852
    },
    {
      "epoch": 0.8088333333333333,
      "grad_norm": 18.5,
      "grad_norm_var": 1.7436848958333333,
      "learning_rate": 8.764056206990445e-06,
      "loss": 5.7253,
      "loss/crossentropy": 1.403684027493,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1491301003843546,
      "step": 4853
    },
    {
      "epoch": 0.809,
      "grad_norm": 20.875,
      "grad_norm_var": 1.4749348958333333,
      "learning_rate": 8.749255981607519e-06,
      "loss": 6.0756,
      "loss/crossentropy": 1.5279240310192108,
      "loss/hidden": 4.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.1779648158699274,
      "step": 4854
    },
    {
      "epoch": 0.8091666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.5372395833333334,
      "learning_rate": 8.734467065350022e-06,
      "loss": 6.1366,
      "loss/crossentropy": 1.2968993335962296,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14914393052458763,
      "step": 4855
    },
    {
      "epoch": 0.8093333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5848307291666666,
      "learning_rate": 8.719689462272417e-06,
      "loss": 5.9447,
      "loss/crossentropy": 1.068209707736969,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07825699634850025,
      "step": 4856
    },
    {
      "epoch": 0.8095,
      "grad_norm": 20.875,
      "grad_norm_var": 1.4884765625,
      "learning_rate": 8.704923176426072e-06,
      "loss": 6.0842,
      "loss/crossentropy": 1.608996793627739,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15832411870360374,
      "step": 4857
    },
    {
      "epoch": 0.8096666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4296223958333334,
      "learning_rate": 8.690168211859245e-06,
      "loss": 6.3085,
      "loss/crossentropy": 1.4674020409584045,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17533434741199017,
      "step": 4858
    },
    {
      "epoch": 0.8098333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.5936848958333334,
      "learning_rate": 8.675424572617092e-06,
      "loss": 6.3313,
      "loss/crossentropy": 2.2344513833522797,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19538672268390656,
      "step": 4859
    },
    {
      "epoch": 0.81,
      "grad_norm": 19.5,
      "grad_norm_var": 1.7212890625,
      "learning_rate": 8.660692262741671e-06,
      "loss": 5.8085,
      "loss/crossentropy": 1.396405205130577,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13963383622467518,
      "step": 4860
    },
    {
      "epoch": 0.8101666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.69140625,
      "learning_rate": 8.645971286271904e-06,
      "loss": 5.9766,
      "loss/crossentropy": 1.6769728362560272,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13097895681858063,
      "step": 4861
    },
    {
      "epoch": 0.8103333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.6363932291666667,
      "learning_rate": 8.631261647243665e-06,
      "loss": 5.8517,
      "loss/crossentropy": 0.9964447095990181,
      "loss/hidden": 2.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.07588909706100821,
      "step": 4862
    },
    {
      "epoch": 0.8105,
      "grad_norm": 21.25,
      "grad_norm_var": 1.2353515625,
      "learning_rate": 8.616563349689672e-06,
      "loss": 6.1438,
      "loss/crossentropy": 1.7340927720069885,
      "loss/hidden": 3.453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22362109273672104,
      "step": 4863
    },
    {
      "epoch": 0.8106666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 1.2452473958333334,
      "learning_rate": 8.601876397639542e-06,
      "loss": 6.028,
      "loss/crossentropy": 1.3481690734624863,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19495650380849838,
      "step": 4864
    },
    {
      "epoch": 0.8108333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.0802083333333334,
      "learning_rate": 8.587200795119793e-06,
      "loss": 6.1862,
      "loss/crossentropy": 1.7781078666448593,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17117265611886978,
      "step": 4865
    },
    {
      "epoch": 0.811,
      "grad_norm": 6677331968.0,
      "grad_norm_var": 2.7866726204916977e+18,
      "learning_rate": 8.57253654615383e-06,
      "loss": 6.4196,
      "loss/crossentropy": 1.5350619405508041,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21066001430153847,
      "step": 4866
    },
    {
      "epoch": 0.8111666666666667,
      "grad_norm": 18.875,
      "grad_norm_var": 2.7866726206794977e+18,
      "learning_rate": 8.557883654761906e-06,
      "loss": 5.6434,
      "loss/crossentropy": 1.503777638077736,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11241531372070312,
      "step": 4867
    },
    {
      "epoch": 0.8113333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 2.7866726207629645e+18,
      "learning_rate": 8.543242124961232e-06,
      "loss": 5.8923,
      "loss/crossentropy": 1.852668970823288,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18304936960339546,
      "step": 4868
    },
    {
      "epoch": 0.8115,
      "grad_norm": 23.0,
      "grad_norm_var": 2.7866726205125647e+18,
      "learning_rate": 8.528611960765853e-06,
      "loss": 6.2328,
      "loss/crossentropy": 1.165041744709015,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1889036986976862,
      "step": 4869
    },
    {
      "epoch": 0.8116666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 2.78667262045692e+18,
      "learning_rate": 8.513993166186712e-06,
      "loss": 6.2804,
      "loss/crossentropy": 1.4939835220575333,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15754196047782898,
      "step": 4870
    },
    {
      "epoch": 0.8118333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 2.78667262051952e+18,
      "learning_rate": 8.499385745231631e-06,
      "loss": 6.1205,
      "loss/crossentropy": 1.7482500225305557,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11855886690318584,
      "step": 4871
    },
    {
      "epoch": 0.812,
      "grad_norm": 23.5,
      "grad_norm_var": 2.786672620443009e+18,
      "learning_rate": 8.484789701905321e-06,
      "loss": 6.4253,
      "loss/crossentropy": 1.3162671625614166,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22227361984550953,
      "step": 4872
    },
    {
      "epoch": 0.8121666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 2.786672620429098e+18,
      "learning_rate": 8.470205040209361e-06,
      "loss": 5.7636,
      "loss/crossentropy": 1.4411024153232574,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1006737481802702,
      "step": 4873
    },
    {
      "epoch": 0.8123333333333334,
      "grad_norm": 19.5,
      "grad_norm_var": 2.786672620540387e+18,
      "learning_rate": 8.455631764142241e-06,
      "loss": 5.935,
      "loss/crossentropy": 1.2957819998264313,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1438344568014145,
      "step": 4874
    },
    {
      "epoch": 0.8125,
      "grad_norm": 22.75,
      "grad_norm_var": 2.786672620526476e+18,
      "learning_rate": 8.441069877699287e-06,
      "loss": 6.4132,
      "loss/crossentropy": 1.6432706117630005,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.28640732169151306,
      "step": 4875
    },
    {
      "epoch": 0.8126666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 2.7866726204221425e+18,
      "learning_rate": 8.426519384872733e-06,
      "loss": 6.3248,
      "loss/crossentropy": 1.2739317417144775,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10142666846513748,
      "step": 4876
    },
    {
      "epoch": 0.8128333333333333,
      "grad_norm": 18.0,
      "grad_norm_var": 2.786672620602987e+18,
      "learning_rate": 8.411980289651689e-06,
      "loss": 5.5528,
      "loss/crossentropy": 1.1818493902683258,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13645658642053604,
      "step": 4877
    },
    {
      "epoch": 0.813,
      "grad_norm": 23.0,
      "grad_norm_var": 2.786672620505609e+18,
      "learning_rate": 8.397452596022103e-06,
      "loss": 6.3296,
      "loss/crossentropy": 1.4135988503694534,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11577405594289303,
      "step": 4878
    },
    {
      "epoch": 0.8131666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 2.7866726205612534e+18,
      "learning_rate": 8.382936307966838e-06,
      "loss": 5.9919,
      "loss/crossentropy": 1.3597120344638824,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16005314514040947,
      "step": 4879
    },
    {
      "epoch": 0.8133333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 2.786672620554298e+18,
      "learning_rate": 8.368431429465607e-06,
      "loss": 6.3576,
      "loss/crossentropy": 1.3397272676229477,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14195384830236435,
      "step": 4880
    },
    {
      "epoch": 0.8135,
      "grad_norm": 22.875,
      "grad_norm_var": 2.786672620470831e+18,
      "learning_rate": 8.353937964495029e-06,
      "loss": 6.765,
      "loss/crossentropy": 1.4931888356804848,
      "loss/hidden": 3.53515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22864295495674014,
      "step": 4881
    },
    {
      "epoch": 0.8136666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 2.5785807291666667,
      "learning_rate": 8.339455917028549e-06,
      "loss": 6.0808,
      "loss/crossentropy": 1.275559514760971,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09374156035482883,
      "step": 4882
    },
    {
      "epoch": 0.8138333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 2.2122395833333335,
      "learning_rate": 8.324985291036514e-06,
      "loss": 5.8181,
      "loss/crossentropy": 1.2747027575969696,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1396622508764267,
      "step": 4883
    },
    {
      "epoch": 0.814,
      "grad_norm": 22.25,
      "grad_norm_var": 2.1830729166666667,
      "learning_rate": 8.31052609048612e-06,
      "loss": 6.2724,
      "loss/crossentropy": 1.419132798910141,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14713801816105843,
      "step": 4884
    },
    {
      "epoch": 0.8141666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.1577473958333333,
      "learning_rate": 8.296078319341443e-06,
      "loss": 6.1009,
      "loss/crossentropy": 1.6257281005382538,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15168432518839836,
      "step": 4885
    },
    {
      "epoch": 0.8143333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 2.1577473958333333,
      "learning_rate": 8.28164198156341e-06,
      "loss": 6.1896,
      "loss/crossentropy": 1.819934606552124,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15677030012011528,
      "step": 4886
    },
    {
      "epoch": 0.8145,
      "grad_norm": 20.875,
      "grad_norm_var": 2.1712890625,
      "learning_rate": 8.267217081109863e-06,
      "loss": 5.6258,
      "loss/crossentropy": 1.2088407576084137,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13103144336491823,
      "step": 4887
    },
    {
      "epoch": 0.8146666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.8608723958333333,
      "learning_rate": 8.252803621935424e-06,
      "loss": 6.3151,
      "loss/crossentropy": 1.700984850525856,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13845505751669407,
      "step": 4888
    },
    {
      "epoch": 0.8148333333333333,
      "grad_norm": 19.0,
      "grad_norm_var": 2.18515625,
      "learning_rate": 8.238401607991647e-06,
      "loss": 5.9296,
      "loss/crossentropy": 1.7229448854923248,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1327128503471613,
      "step": 4889
    },
    {
      "epoch": 0.815,
      "grad_norm": 21.0,
      "grad_norm_var": 1.99765625,
      "learning_rate": 8.22401104322692e-06,
      "loss": 6.1866,
      "loss/crossentropy": 1.3016017526388168,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2427086941897869,
      "step": 4890
    },
    {
      "epoch": 0.8151666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.8384765625,
      "learning_rate": 8.209631931586498e-06,
      "loss": 5.9624,
      "loss/crossentropy": 1.6240347921848297,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11600418761372566,
      "step": 4891
    },
    {
      "epoch": 0.8153333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 1.834375,
      "learning_rate": 8.195264277012487e-06,
      "loss": 5.8333,
      "loss/crossentropy": 1.2531711906194687,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12038014270365238,
      "step": 4892
    },
    {
      "epoch": 0.8155,
      "grad_norm": 22.25,
      "grad_norm_var": 1.21015625,
      "learning_rate": 8.180908083443884e-06,
      "loss": 6.3187,
      "loss/crossentropy": 1.330927088856697,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20319354720413685,
      "step": 4893
    },
    {
      "epoch": 0.8156666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 1.08125,
      "learning_rate": 8.166563354816509e-06,
      "loss": 5.8839,
      "loss/crossentropy": 1.7576510608196259,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19053107872605324,
      "step": 4894
    },
    {
      "epoch": 0.8158333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.0666015625,
      "learning_rate": 8.152230095063052e-06,
      "loss": 5.9284,
      "loss/crossentropy": 1.3761502653360367,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11198258632794023,
      "step": 4895
    },
    {
      "epoch": 0.816,
      "grad_norm": 20.5,
      "grad_norm_var": 1.0889973958333334,
      "learning_rate": 8.137908308113057e-06,
      "loss": 6.0243,
      "loss/crossentropy": 1.2284590601921082,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17278345301747322,
      "step": 4896
    },
    {
      "epoch": 0.8161666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 1.321875,
      "learning_rate": 8.123597997892918e-06,
      "loss": 5.9679,
      "loss/crossentropy": 1.6503710746765137,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2318937722593546,
      "step": 4897
    },
    {
      "epoch": 0.8163333333333334,
      "grad_norm": 23.375,
      "grad_norm_var": 1.496875,
      "learning_rate": 8.109299168325895e-06,
      "loss": 6.3579,
      "loss/crossentropy": 1.822003960609436,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2156415693461895,
      "step": 4898
    },
    {
      "epoch": 0.8165,
      "grad_norm": 23.5,
      "grad_norm_var": 1.7104166666666667,
      "learning_rate": 8.095011823332088e-06,
      "loss": 6.2419,
      "loss/crossentropy": 1.607309341430664,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10816977359354496,
      "step": 4899
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.9018229166666667,
      "learning_rate": 8.080735966828457e-06,
      "loss": 6.113,
      "loss/crossentropy": 1.1017741858959198,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0979663198813796,
      "step": 4900
    },
    {
      "epoch": 0.8168333333333333,
      "grad_norm": 24.0,
      "grad_norm_var": 2.147330729166667,
      "learning_rate": 8.066471602728803e-06,
      "loss": 6.2648,
      "loss/crossentropy": 1.1472330391407013,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11957581900060177,
      "step": 4901
    },
    {
      "epoch": 0.817,
      "grad_norm": 19.875,
      "grad_norm_var": 2.3869140625,
      "learning_rate": 8.052218734943795e-06,
      "loss": 5.6408,
      "loss/crossentropy": 1.0783452242612839,
      "loss/hidden": 2.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11401526536792517,
      "step": 4902
    },
    {
      "epoch": 0.8171666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.4139973958333334,
      "learning_rate": 8.037977367380922e-06,
      "loss": 6.2974,
      "loss/crossentropy": 1.3318472802639008,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15045764669775963,
      "step": 4903
    },
    {
      "epoch": 0.8173333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 2.4067057291666667,
      "learning_rate": 8.023747503944535e-06,
      "loss": 5.8017,
      "loss/crossentropy": 1.7401156723499298,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12141693197190762,
      "step": 4904
    },
    {
      "epoch": 0.8175,
      "grad_norm": 18.125,
      "grad_norm_var": 2.787239583333333,
      "learning_rate": 8.009529148535855e-06,
      "loss": 5.7618,
      "loss/crossentropy": 1.8543376624584198,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.150187186896801,
      "step": 4905
    },
    {
      "epoch": 0.8176666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 2.746809895833333,
      "learning_rate": 7.995322305052905e-06,
      "loss": 6.2819,
      "loss/crossentropy": 1.3602108657360077,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.3132361937314272,
      "step": 4906
    },
    {
      "epoch": 0.8178333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.7059895833333334,
      "learning_rate": 7.98112697739058e-06,
      "loss": 6.1303,
      "loss/crossentropy": 1.2185226008296013,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16043483652174473,
      "step": 4907
    },
    {
      "epoch": 0.818,
      "grad_norm": 24.375,
      "grad_norm_var": 3.0171223958333333,
      "learning_rate": 7.966943169440599e-06,
      "loss": 6.2599,
      "loss/crossentropy": 1.2658282965421677,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17158199846744537,
      "step": 4908
    },
    {
      "epoch": 0.8181666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 3.4353515625,
      "learning_rate": 7.952770885091548e-06,
      "loss": 6.0019,
      "loss/crossentropy": 1.2001525312662125,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1122332289814949,
      "step": 4909
    },
    {
      "epoch": 0.8183333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 3.292122395833333,
      "learning_rate": 7.93861012822883e-06,
      "loss": 6.3507,
      "loss/crossentropy": 1.3524540662765503,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1735757514834404,
      "step": 4910
    },
    {
      "epoch": 0.8185,
      "grad_norm": 19.75,
      "grad_norm_var": 3.6372395833333333,
      "learning_rate": 7.924460902734699e-06,
      "loss": 5.7239,
      "loss/crossentropy": 1.3506899327039719,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1166464313864708,
      "step": 4911
    },
    {
      "epoch": 0.8186666666666667,
      "grad_norm": 23.875,
      "grad_norm_var": 3.6952473958333334,
      "learning_rate": 7.910323212488241e-06,
      "loss": 6.5369,
      "loss/crossentropy": 2.1019413471221924,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13374128378927708,
      "step": 4912
    },
    {
      "epoch": 0.8188333333333333,
      "grad_norm": 19.25,
      "grad_norm_var": 4.009309895833334,
      "learning_rate": 7.89619706136539e-06,
      "loss": 5.9652,
      "loss/crossentropy": 0.9158284217119217,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1407273611985147,
      "step": 4913
    },
    {
      "epoch": 0.819,
      "grad_norm": 23.625,
      "grad_norm_var": 4.062955729166666,
      "learning_rate": 7.88208245323891e-06,
      "loss": 6.5798,
      "loss/crossentropy": 1.6606499552726746,
      "loss/hidden": 2.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11763319000601768,
      "step": 4914
    },
    {
      "epoch": 0.8191666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 3.8806640625,
      "learning_rate": 7.867979391978397e-06,
      "loss": 6.1143,
      "loss/crossentropy": 1.459358036518097,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.26925092563033104,
      "step": 4915
    },
    {
      "epoch": 0.8193333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 3.72890625,
      "learning_rate": 7.853887881450273e-06,
      "loss": 6.4984,
      "loss/crossentropy": 1.2022986114025116,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.134635204449296,
      "step": 4916
    },
    {
      "epoch": 0.8195,
      "grad_norm": 20.0,
      "grad_norm_var": 3.5205729166666666,
      "learning_rate": 7.839807925517834e-06,
      "loss": 6.0444,
      "loss/crossentropy": 1.289864718914032,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1580349262803793,
      "step": 4917
    },
    {
      "epoch": 0.8196666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 3.3369140625,
      "learning_rate": 7.825739528041165e-06,
      "loss": 6.2103,
      "loss/crossentropy": 1.6456863433122635,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14351268485188484,
      "step": 4918
    },
    {
      "epoch": 0.8198333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 3.25390625,
      "learning_rate": 7.811682692877204e-06,
      "loss": 5.833,
      "loss/crossentropy": 1.5016793608665466,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.22539645247161388,
      "step": 4919
    },
    {
      "epoch": 0.82,
      "grad_norm": 21.875,
      "grad_norm_var": 3.2598307291666666,
      "learning_rate": 7.797637423879701e-06,
      "loss": 6.0742,
      "loss/crossentropy": 1.6897944211959839,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13356473669409752,
      "step": 4920
    },
    {
      "epoch": 0.8201666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 2.76640625,
      "learning_rate": 7.783603724899257e-06,
      "loss": 5.6572,
      "loss/crossentropy": 1.7828521728515625,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14409499987959862,
      "step": 4921
    },
    {
      "epoch": 0.8203333333333334,
      "grad_norm": 23.5,
      "grad_norm_var": 2.9905598958333335,
      "learning_rate": 7.769581599783265e-06,
      "loss": 5.9722,
      "loss/crossentropy": 1.8149930089712143,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15312616154551506,
      "step": 4922
    },
    {
      "epoch": 0.8205,
      "grad_norm": 21.5,
      "grad_norm_var": 2.981705729166667,
      "learning_rate": 7.755571052376004e-06,
      "loss": 6.5292,
      "loss/crossentropy": 1.2155170440673828,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.32734925486147404,
      "step": 4923
    },
    {
      "epoch": 0.8206666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 2.981705729166667,
      "learning_rate": 7.741572086518528e-06,
      "loss": 6.6819,
      "loss/crossentropy": 1.2496242374181747,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10006044991314411,
      "step": 4924
    },
    {
      "epoch": 0.8208333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 2.65390625,
      "learning_rate": 7.727584706048735e-06,
      "loss": 6.062,
      "loss/crossentropy": 1.2510412335395813,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13490196783095598,
      "step": 4925
    },
    {
      "epoch": 0.821,
      "grad_norm": 20.5,
      "grad_norm_var": 2.6434895833333334,
      "learning_rate": 7.71360891480134e-06,
      "loss": 6.0031,
      "loss/crossentropy": 1.3659894466400146,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15352550335228443,
      "step": 4926
    },
    {
      "epoch": 0.8211666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 2.701041666666667,
      "learning_rate": 7.699644716607895e-06,
      "loss": 6.4342,
      "loss/crossentropy": 1.6870740056037903,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11497131362557411,
      "step": 4927
    },
    {
      "epoch": 0.8213333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 2.595572916666667,
      "learning_rate": 7.68569211529675e-06,
      "loss": 6.0436,
      "loss/crossentropy": 1.5690310895442963,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13993501663208008,
      "step": 4928
    },
    {
      "epoch": 0.8215,
      "grad_norm": 20.875,
      "grad_norm_var": 2.2358723958333333,
      "learning_rate": 7.671751114693104e-06,
      "loss": 6.4388,
      "loss/crossentropy": 1.8792764842510223,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1620059348642826,
      "step": 4929
    },
    {
      "epoch": 0.8216666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.9968098958333333,
      "learning_rate": 7.657821718618963e-06,
      "loss": 6.0821,
      "loss/crossentropy": 1.3196023851633072,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1140227597206831,
      "step": 4930
    },
    {
      "epoch": 0.8218333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 2.093489583333333,
      "learning_rate": 7.643903930893154e-06,
      "loss": 6.4879,
      "loss/crossentropy": 1.7569004595279694,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21582865715026855,
      "step": 4931
    },
    {
      "epoch": 0.822,
      "grad_norm": 27.25,
      "grad_norm_var": 3.998893229166667,
      "learning_rate": 7.629997755331292e-06,
      "loss": 6.2165,
      "loss/crossentropy": 1.2639199942350388,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1690841019153595,
      "step": 4932
    },
    {
      "epoch": 0.8221666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 3.857291666666667,
      "learning_rate": 7.6161031957458494e-06,
      "loss": 5.9502,
      "loss/crossentropy": 1.4132827669382095,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1090042726136744,
      "step": 4933
    },
    {
      "epoch": 0.8223333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 3.8374348958333333,
      "learning_rate": 7.602220255946085e-06,
      "loss": 5.8947,
      "loss/crossentropy": 1.1759129762649536,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22292760014533997,
      "step": 4934
    },
    {
      "epoch": 0.8225,
      "grad_norm": 22.625,
      "grad_norm_var": 3.7270833333333333,
      "learning_rate": 7.588348939738116e-06,
      "loss": 6.3352,
      "loss/crossentropy": 1.3005480095744133,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10268034040927887,
      "step": 4935
    },
    {
      "epoch": 0.8226666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 4.0978515625,
      "learning_rate": 7.574489250924821e-06,
      "loss": 6.0304,
      "loss/crossentropy": 1.7704560458660126,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17378426156938076,
      "step": 4936
    },
    {
      "epoch": 0.8228333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 3.6666015625,
      "learning_rate": 7.560641193305912e-06,
      "loss": 6.2095,
      "loss/crossentropy": 2.007432848215103,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13254478946328163,
      "step": 4937
    },
    {
      "epoch": 0.823,
      "grad_norm": 21.375,
      "grad_norm_var": 3.5747395833333333,
      "learning_rate": 7.546804770677923e-06,
      "loss": 6.1677,
      "loss/crossentropy": 1.8113204687833786,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1518716774880886,
      "step": 4938
    },
    {
      "epoch": 0.8231666666666667,
      "grad_norm": 19.375,
      "grad_norm_var": 4.0119140625,
      "learning_rate": 7.532979986834176e-06,
      "loss": 6.0401,
      "loss/crossentropy": 1.3662128448486328,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10781676881015301,
      "step": 4939
    },
    {
      "epoch": 0.8233333333333334,
      "grad_norm": 19.375,
      "grad_norm_var": 3.9337890625,
      "learning_rate": 7.519166845564812e-06,
      "loss": 5.7065,
      "loss/crossentropy": 1.1880204379558563,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09442460909485817,
      "step": 4940
    },
    {
      "epoch": 0.8235,
      "grad_norm": 22.125,
      "grad_norm_var": 3.9468098958333333,
      "learning_rate": 7.505365350656812e-06,
      "loss": 6.4313,
      "loss/crossentropy": 1.3033733516931534,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13209888897836208,
      "step": 4941
    },
    {
      "epoch": 0.8236666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 3.9125,
      "learning_rate": 7.491575505893894e-06,
      "loss": 6.2615,
      "loss/crossentropy": 1.8668224811553955,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22468868270516396,
      "step": 4942
    },
    {
      "epoch": 0.8238333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 3.7125,
      "learning_rate": 7.477797315056645e-06,
      "loss": 5.8418,
      "loss/crossentropy": 1.496153324842453,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15666370280086994,
      "step": 4943
    },
    {
      "epoch": 0.824,
      "grad_norm": 22.875,
      "grad_norm_var": 3.6809895833333335,
      "learning_rate": 7.464030781922426e-06,
      "loss": 6.3974,
      "loss/crossentropy": 1.8824080526828766,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19909046962857246,
      "step": 4944
    },
    {
      "epoch": 0.8241666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 3.7958333333333334,
      "learning_rate": 7.450275910265414e-06,
      "loss": 6.114,
      "loss/crossentropy": 1.3986237049102783,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11313056200742722,
      "step": 4945
    },
    {
      "epoch": 0.8243333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 3.9530598958333334,
      "learning_rate": 7.436532703856574e-06,
      "loss": 6.0096,
      "loss/crossentropy": 1.681668683886528,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1438221074640751,
      "step": 4946
    },
    {
      "epoch": 0.8245,
      "grad_norm": 20.0,
      "grad_norm_var": 4.035416666666666,
      "learning_rate": 7.422801166463705e-06,
      "loss": 6.097,
      "loss/crossentropy": 1.3068031668663025,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2620314657688141,
      "step": 4947
    },
    {
      "epoch": 0.8246666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.7650390625,
      "learning_rate": 7.409081301851373e-06,
      "loss": 5.9383,
      "loss/crossentropy": 1.5340877771377563,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12507397681474686,
      "step": 4948
    },
    {
      "epoch": 0.8248333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.7559895833333334,
      "learning_rate": 7.395373113780962e-06,
      "loss": 5.8324,
      "loss/crossentropy": 1.3476569056510925,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13393125869333744,
      "step": 4949
    },
    {
      "epoch": 0.825,
      "grad_norm": 23.0,
      "grad_norm_var": 1.9077473958333333,
      "learning_rate": 7.3816766060106405e-06,
      "loss": 6.1869,
      "loss/crossentropy": 1.5127245485782623,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12114207074046135,
      "step": 4950
    },
    {
      "epoch": 0.8251666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 1.9309895833333333,
      "learning_rate": 7.367991782295391e-06,
      "loss": 6.2453,
      "loss/crossentropy": 1.511847011744976,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10413087904453278,
      "step": 4951
    },
    {
      "epoch": 0.8253333333333334,
      "grad_norm": 18.375,
      "grad_norm_var": 2.332747395833333,
      "learning_rate": 7.3543186463869875e-06,
      "loss": 5.886,
      "loss/crossentropy": 1.8289086371660233,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12471710657700896,
      "step": 4952
    },
    {
      "epoch": 0.8255,
      "grad_norm": 21.375,
      "grad_norm_var": 2.32890625,
      "learning_rate": 7.34065720203399e-06,
      "loss": 6.3399,
      "loss/crossentropy": 1.3814696967601776,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.117551164701581,
      "step": 4953
    },
    {
      "epoch": 0.8256666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.50390625,
      "learning_rate": 7.327007452981765e-06,
      "loss": 6.0688,
      "loss/crossentropy": 1.7108554989099503,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12202101200819016,
      "step": 4954
    },
    {
      "epoch": 0.8258333333333333,
      "grad_norm": 19.375,
      "grad_norm_var": 2.50390625,
      "learning_rate": 7.31336940297247e-06,
      "loss": 5.892,
      "loss/crossentropy": 1.4662709534168243,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14396484196186066,
      "step": 4955
    },
    {
      "epoch": 0.826,
      "grad_norm": 21.5,
      "grad_norm_var": 2.2416015625,
      "learning_rate": 7.299743055745051e-06,
      "loss": 6.084,
      "loss/crossentropy": 1.7279320359230042,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17829779349267483,
      "step": 4956
    },
    {
      "epoch": 0.8261666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 2.3061848958333333,
      "learning_rate": 7.286128415035248e-06,
      "loss": 5.7226,
      "loss/crossentropy": 1.3368876352906227,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0894131688401103,
      "step": 4957
    },
    {
      "epoch": 0.8263333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 2.2337890625,
      "learning_rate": 7.272525484575588e-06,
      "loss": 5.989,
      "loss/crossentropy": 1.6858406066894531,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18417222425341606,
      "step": 4958
    },
    {
      "epoch": 0.8265,
      "grad_norm": 20.25,
      "grad_norm_var": 2.1952473958333334,
      "learning_rate": 7.258934268095402e-06,
      "loss": 6.1339,
      "loss/crossentropy": 1.1685433387756348,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09938836004585028,
      "step": 4959
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 2.018684895833333,
      "learning_rate": 7.2453547693208e-06,
      "loss": 6.2253,
      "loss/crossentropy": 1.753677248954773,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1528742704540491,
      "step": 4960
    },
    {
      "epoch": 0.8268333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.9416666666666667,
      "learning_rate": 7.2317869919746705e-06,
      "loss": 6.0604,
      "loss/crossentropy": 1.3410097360610962,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12815700471401215,
      "step": 4961
    },
    {
      "epoch": 0.827,
      "grad_norm": 20.875,
      "grad_norm_var": 1.6608723958333333,
      "learning_rate": 7.218230939776699e-06,
      "loss": 6.1464,
      "loss/crossentropy": 1.403733342885971,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17125358060002327,
      "step": 4962
    },
    {
      "epoch": 0.8271666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.6309895833333334,
      "learning_rate": 7.204686616443351e-06,
      "loss": 6.243,
      "loss/crossentropy": 1.806484192609787,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1633596122264862,
      "step": 4963
    },
    {
      "epoch": 0.8273333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 1.6426432291666666,
      "learning_rate": 7.191154025687885e-06,
      "loss": 6.4517,
      "loss/crossentropy": 1.4757625460624695,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11689830012619495,
      "step": 4964
    },
    {
      "epoch": 0.8275,
      "grad_norm": 22.625,
      "grad_norm_var": 1.7393229166666666,
      "learning_rate": 7.1776331712203385e-06,
      "loss": 6.4075,
      "loss/crossentropy": 1.1966232806444168,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07882243860512972,
      "step": 4965
    },
    {
      "epoch": 0.8276666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.5635416666666666,
      "learning_rate": 7.164124056747523e-06,
      "loss": 6.1577,
      "loss/crossentropy": 1.776446372270584,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16042379289865494,
      "step": 4966
    },
    {
      "epoch": 0.8278333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.51640625,
      "learning_rate": 7.150626685973044e-06,
      "loss": 6.2759,
      "loss/crossentropy": 1.196221873164177,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10796844772994518,
      "step": 4967
    },
    {
      "epoch": 0.828,
      "grad_norm": 20.5,
      "grad_norm_var": 0.9973307291666667,
      "learning_rate": 7.13714106259728e-06,
      "loss": 6.1941,
      "loss/crossentropy": 1.3634481877088547,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1811378300189972,
      "step": 4968
    },
    {
      "epoch": 0.8281666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.025,
      "learning_rate": 7.123667190317396e-06,
      "loss": 6.3691,
      "loss/crossentropy": 1.7727282047271729,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20765970274806023,
      "step": 4969
    },
    {
      "epoch": 0.8283333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 0.8791015625,
      "learning_rate": 7.110205072827309e-06,
      "loss": 6.0703,
      "loss/crossentropy": 1.2898946702480316,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1294018290936947,
      "step": 4970
    },
    {
      "epoch": 0.8285,
      "grad_norm": 18.875,
      "grad_norm_var": 1.0233723958333334,
      "learning_rate": 7.096754713817771e-06,
      "loss": 5.637,
      "loss/crossentropy": 1.7200124859809875,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13370893523097038,
      "step": 4971
    },
    {
      "epoch": 0.8286666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 1.0832682291666667,
      "learning_rate": 7.083316116976252e-06,
      "loss": 5.7632,
      "loss/crossentropy": 1.2978227734565735,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12459689006209373,
      "step": 4972
    },
    {
      "epoch": 0.8288333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.0030598958333334,
      "learning_rate": 7.0698892859870245e-06,
      "loss": 5.952,
      "loss/crossentropy": 1.589631050825119,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.213472668081522,
      "step": 4973
    },
    {
      "epoch": 0.829,
      "grad_norm": 21.375,
      "grad_norm_var": 0.9514973958333334,
      "learning_rate": 7.056474224531128e-06,
      "loss": 6.1214,
      "loss/crossentropy": 1.6132382154464722,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12963859364390373,
      "step": 4974
    },
    {
      "epoch": 0.8291666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 0.8858723958333333,
      "learning_rate": 7.0430709362863945e-06,
      "loss": 5.9398,
      "loss/crossentropy": 1.362213209271431,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1178450658917427,
      "step": 4975
    },
    {
      "epoch": 0.8293333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 0.8931640625,
      "learning_rate": 7.029679424927365e-06,
      "loss": 5.9142,
      "loss/crossentropy": 1.4057330787181854,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09631001763045788,
      "step": 4976
    },
    {
      "epoch": 0.8295,
      "grad_norm": 23.125,
      "grad_norm_var": 1.0934895833333333,
      "learning_rate": 7.01629969412545e-06,
      "loss": 5.7694,
      "loss/crossentropy": 1.7553336769342422,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14197769202291965,
      "step": 4977
    },
    {
      "epoch": 0.8296666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.2051432291666666,
      "learning_rate": 7.002931747548752e-06,
      "loss": 5.9284,
      "loss/crossentropy": 1.1563624292612076,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10227609612047672,
      "step": 4978
    },
    {
      "epoch": 0.8298333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1837890625,
      "learning_rate": 6.989575588862174e-06,
      "loss": 6.3182,
      "loss/crossentropy": 1.4644521474838257,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13886399008333683,
      "step": 4979
    },
    {
      "epoch": 0.83,
      "grad_norm": 22.125,
      "grad_norm_var": 1.1955729166666667,
      "learning_rate": 6.976231221727386e-06,
      "loss": 6.1577,
      "loss/crossentropy": 1.3163914233446121,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14857648126780987,
      "step": 4980
    },
    {
      "epoch": 0.8301666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.0916666666666666,
      "learning_rate": 6.962898649802823e-06,
      "loss": 5.9856,
      "loss/crossentropy": 1.5965329706668854,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11638268828392029,
      "step": 4981
    },
    {
      "epoch": 0.8303333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 1.1577473958333333,
      "learning_rate": 6.949577876743668e-06,
      "loss": 6.1813,
      "loss/crossentropy": 1.5292182862758636,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13892706111073494,
      "step": 4982
    },
    {
      "epoch": 0.8305,
      "grad_norm": 23.875,
      "grad_norm_var": 1.5122395833333333,
      "learning_rate": 6.9362689062019145e-06,
      "loss": 6.4921,
      "loss/crossentropy": 1.0340429842472076,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09851323999464512,
      "step": 4983
    },
    {
      "epoch": 0.8306666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 1.6809895833333333,
      "learning_rate": 6.922971741826273e-06,
      "loss": 5.5827,
      "loss/crossentropy": 1.2972813993692398,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1072931569069624,
      "step": 4984
    },
    {
      "epoch": 0.8308333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.64140625,
      "learning_rate": 6.909686387262254e-06,
      "loss": 6.1427,
      "loss/crossentropy": 1.1518724709749222,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1295689232647419,
      "step": 4985
    },
    {
      "epoch": 0.831,
      "grad_norm": 23.0,
      "grad_norm_var": 1.8354166666666667,
      "learning_rate": 6.896412846152095e-06,
      "loss": 6.4068,
      "loss/crossentropy": 1.6172934770584106,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12912718206644058,
      "step": 4986
    },
    {
      "epoch": 0.8311666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.4561848958333334,
      "learning_rate": 6.883151122134812e-06,
      "loss": 6.2903,
      "loss/crossentropy": 1.2626962959766388,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1317084701731801,
      "step": 4987
    },
    {
      "epoch": 0.8313333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 1.3718098958333333,
      "learning_rate": 6.869901218846181e-06,
      "loss": 6.1208,
      "loss/crossentropy": 1.6431081295013428,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17216015979647636,
      "step": 4988
    },
    {
      "epoch": 0.8315,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3634765625,
      "learning_rate": 6.8566631399187505e-06,
      "loss": 6.2373,
      "loss/crossentropy": 1.964593917131424,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1683050487190485,
      "step": 4989
    },
    {
      "epoch": 0.8316666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.3879557291666667,
      "learning_rate": 6.843436888981813e-06,
      "loss": 6.3633,
      "loss/crossentropy": 1.1080811470746994,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.116554019972682,
      "step": 4990
    },
    {
      "epoch": 0.8318333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.5010416666666666,
      "learning_rate": 6.830222469661418e-06,
      "loss": 6.0422,
      "loss/crossentropy": 0.947826698422432,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14444646844640374,
      "step": 4991
    },
    {
      "epoch": 0.832,
      "grad_norm": 21.25,
      "grad_norm_var": 1.4988932291666666,
      "learning_rate": 6.817019885580373e-06,
      "loss": 6.1338,
      "loss/crossentropy": 1.914457380771637,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18904506415128708,
      "step": 4992
    },
    {
      "epoch": 0.8321666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 1.3645182291666667,
      "learning_rate": 6.803829140358237e-06,
      "loss": 6.235,
      "loss/crossentropy": 2.129686802625656,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17843744717538357,
      "step": 4993
    },
    {
      "epoch": 0.8323333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.3004557291666667,
      "learning_rate": 6.790650237611324e-06,
      "loss": 5.9528,
      "loss/crossentropy": 1.7197143137454987,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15609011054039001,
      "step": 4994
    },
    {
      "epoch": 0.8325,
      "grad_norm": 20.125,
      "grad_norm_var": 1.3405598958333333,
      "learning_rate": 6.777483180952732e-06,
      "loss": 6.2256,
      "loss/crossentropy": 2.1906148493289948,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14488878101110458,
      "step": 4995
    },
    {
      "epoch": 0.8326666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 1.2796223958333333,
      "learning_rate": 6.764327973992252e-06,
      "loss": 5.9667,
      "loss/crossentropy": 2.1999212205410004,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14557966962456703,
      "step": 4996
    },
    {
      "epoch": 0.8328333333333333,
      "grad_norm": 19.375,
      "grad_norm_var": 1.4499348958333333,
      "learning_rate": 6.751184620336471e-06,
      "loss": 5.7392,
      "loss/crossentropy": 1.2398434281349182,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13472704030573368,
      "step": 4997
    },
    {
      "epoch": 0.833,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4184895833333333,
      "learning_rate": 6.738053123588717e-06,
      "loss": 6.1804,
      "loss/crossentropy": 1.9496698081493378,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.24016390927135944,
      "step": 4998
    },
    {
      "epoch": 0.8331666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 0.8205729166666667,
      "learning_rate": 6.724933487349061e-06,
      "loss": 6.0229,
      "loss/crossentropy": 1.6505106985569,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16072538122534752,
      "step": 4999
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 0.7822265625,
      "learning_rate": 6.711825715214315e-06,
      "loss": 6.3105,
      "loss/crossentropy": 1.7024143934249878,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13378370366990566,
      "step": 5000
    },
    {
      "epoch": 0.8335,
      "grad_norm": 5435817984.0,
      "grad_norm_var": 1.8467573080145265e+18,
      "learning_rate": 6.698729810778065e-06,
      "loss": 5.8876,
      "loss/crossentropy": 0.7247914969921112,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10148533619940281,
      "step": 5001
    },
    {
      "epoch": 0.8336666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8467573080654874e+18,
      "learning_rate": 6.685645777630628e-06,
      "loss": 6.3105,
      "loss/crossentropy": 1.6227148473262787,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15440181456506252,
      "step": 5002
    },
    {
      "epoch": 0.8338333333333333,
      "grad_norm": 28.375,
      "grad_norm_var": 1.8467573077767094e+18,
      "learning_rate": 6.672573619359063e-06,
      "loss": 6.2078,
      "loss/crossentropy": 1.2695665583014488,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14350592158734798,
      "step": 5003
    },
    {
      "epoch": 0.834,
      "grad_norm": 23.375,
      "grad_norm_var": 1.8467573076691256e+18,
      "learning_rate": 6.659513339547169e-06,
      "loss": 6.1759,
      "loss/crossentropy": 1.4714035987854004,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1640638615936041,
      "step": 5004
    },
    {
      "epoch": 0.8341666666666666,
      "grad_norm": 22.875,
      "grad_norm_var": 1.8467573076011779e+18,
      "learning_rate": 6.646464941775499e-06,
      "loss": 6.7237,
      "loss/crossentropy": 1.4883295744657516,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15970507636666298,
      "step": 5005
    },
    {
      "epoch": 0.8343333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 1.8467573075955154e+18,
      "learning_rate": 6.6334284296213524e-06,
      "loss": 6.196,
      "loss/crossentropy": 1.744207426905632,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.26544068939983845,
      "step": 5006
    },
    {
      "epoch": 0.8345,
      "grad_norm": 20.125,
      "grad_norm_var": 1.8467573075955154e+18,
      "learning_rate": 6.620403806658753e-06,
      "loss": 5.8333,
      "loss/crossentropy": 1.1409754157066345,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0865812823176384,
      "step": 5007
    },
    {
      "epoch": 0.8346666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8467573075728663e+18,
      "learning_rate": 6.60739107645848e-06,
      "loss": 6.1609,
      "loss/crossentropy": 1.6190254390239716,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15926817432045937,
      "step": 5008
    },
    {
      "epoch": 0.8348333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.8467573074879316e+18,
      "learning_rate": 6.594390242588044e-06,
      "loss": 6.2373,
      "loss/crossentropy": 1.0859486013650894,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19065934978425503,
      "step": 5009
    },
    {
      "epoch": 0.835,
      "grad_norm": 20.75,
      "grad_norm_var": 1.846757307476607e+18,
      "learning_rate": 6.581401308611706e-06,
      "loss": 6.0057,
      "loss/crossentropy": 1.6833474040031433,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19222783669829369,
      "step": 5010
    },
    {
      "epoch": 0.8351666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 1.846757307425646e+18,
      "learning_rate": 6.568424278090446e-06,
      "loss": 6.0086,
      "loss/crossentropy": 1.5748587846755981,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18844940699636936,
      "step": 5011
    },
    {
      "epoch": 0.8353333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 1.8467573073916723e+18,
      "learning_rate": 6.555459154581995e-06,
      "loss": 6.1252,
      "loss/crossentropy": 1.5433246493339539,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14473114907741547,
      "step": 5012
    },
    {
      "epoch": 0.8355,
      "grad_norm": 22.875,
      "grad_norm_var": 1.8467573072331277e+18,
      "learning_rate": 6.542505941640803e-06,
      "loss": 6.2894,
      "loss/crossentropy": 1.3238707333803177,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15640138648450375,
      "step": 5013
    },
    {
      "epoch": 0.8356666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.8467573072671014e+18,
      "learning_rate": 6.529564642818087e-06,
      "loss": 6.0334,
      "loss/crossentropy": 2.036718398332596,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15226649306714535,
      "step": 5014
    },
    {
      "epoch": 0.8358333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 1.8467573073010755e+18,
      "learning_rate": 6.5166352616617745e-06,
      "loss": 5.5484,
      "loss/crossentropy": 1.1886801719665527,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.10660951770842075,
      "step": 5015
    },
    {
      "epoch": 0.836,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8467573073067377e+18,
      "learning_rate": 6.503717801716519e-06,
      "loss": 6.1912,
      "loss/crossentropy": 1.4184092730283737,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1373265329748392,
      "step": 5016
    },
    {
      "epoch": 0.8361666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 4.382747395833333,
      "learning_rate": 6.490812266523716e-06,
      "loss": 6.0678,
      "loss/crossentropy": 1.4481368511915207,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19994502887129784,
      "step": 5017
    },
    {
      "epoch": 0.8363333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 4.529166666666667,
      "learning_rate": 6.477918659621501e-06,
      "loss": 5.888,
      "loss/crossentropy": 1.8003189265727997,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1556022185832262,
      "step": 5018
    },
    {
      "epoch": 0.8365,
      "grad_norm": 22.5,
      "grad_norm_var": 1.4478515625,
      "learning_rate": 6.46503698454472e-06,
      "loss": 6.1106,
      "loss/crossentropy": 1.8057276904582977,
      "loss/hidden": 3.46484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22231333516538143,
      "step": 5019
    },
    {
      "epoch": 0.8366666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.21875,
      "learning_rate": 6.4521672448249584e-06,
      "loss": 6.0971,
      "loss/crossentropy": 1.8493664860725403,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1676093526184559,
      "step": 5020
    },
    {
      "epoch": 0.8368333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.0322265625,
      "learning_rate": 6.439309443990532e-06,
      "loss": 6.2472,
      "loss/crossentropy": 1.8553218245506287,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12316027656197548,
      "step": 5021
    },
    {
      "epoch": 0.837,
      "grad_norm": 20.625,
      "grad_norm_var": 1.04765625,
      "learning_rate": 6.426463585566478e-06,
      "loss": 5.9385,
      "loss/crossentropy": 1.2526235356926918,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.157942287158221,
      "step": 5022
    },
    {
      "epoch": 0.8371666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 0.99765625,
      "learning_rate": 6.413629673074561e-06,
      "loss": 5.9436,
      "loss/crossentropy": 1.6641889438033104,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14897463284432888,
      "step": 5023
    },
    {
      "epoch": 0.8373333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 0.99375,
      "learning_rate": 6.400807710033274e-06,
      "loss": 5.9598,
      "loss/crossentropy": 1.3135425299406052,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12565938895568252,
      "step": 5024
    },
    {
      "epoch": 0.8375,
      "grad_norm": 20.25,
      "grad_norm_var": 0.96640625,
      "learning_rate": 6.3879976999578154e-06,
      "loss": 5.7955,
      "loss/crossentropy": 1.653342217206955,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12225272879004478,
      "step": 5025
    },
    {
      "epoch": 0.8376666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 0.9684895833333333,
      "learning_rate": 6.375199646360142e-06,
      "loss": 5.885,
      "loss/crossentropy": 1.6508298516273499,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1494675874710083,
      "step": 5026
    },
    {
      "epoch": 0.8378333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 0.9853515625,
      "learning_rate": 6.362413552748908e-06,
      "loss": 5.7737,
      "loss/crossentropy": 1.2709555178880692,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11442462634295225,
      "step": 5027
    },
    {
      "epoch": 0.838,
      "grad_norm": 22.625,
      "grad_norm_var": 1.1572265625,
      "learning_rate": 6.349639422629489e-06,
      "loss": 6.0559,
      "loss/crossentropy": 1.7988916337490082,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15932280011475086,
      "step": 5028
    },
    {
      "epoch": 0.8381666666666666,
      "grad_norm": 23.625,
      "grad_norm_var": 1.3791015625,
      "learning_rate": 6.336877259504004e-06,
      "loss": 6.3264,
      "loss/crossentropy": 1.518507495522499,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12210378050804138,
      "step": 5029
    },
    {
      "epoch": 0.8383333333333334,
      "grad_norm": 20.0,
      "grad_norm_var": 1.3395182291666667,
      "learning_rate": 6.3241270668712385e-06,
      "loss": 6.1798,
      "loss/crossentropy": 1.5513587892055511,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09659243375062943,
      "step": 5030
    },
    {
      "epoch": 0.8385,
      "grad_norm": 20.125,
      "grad_norm_var": 1.2587890625,
      "learning_rate": 6.31138884822674e-06,
      "loss": 5.9334,
      "loss/crossentropy": 1.70523239672184,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12045586109161377,
      "step": 5031
    },
    {
      "epoch": 0.8386666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.3,
      "learning_rate": 6.298662607062783e-06,
      "loss": 6.4125,
      "loss/crossentropy": 1.7384573221206665,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18742142245173454,
      "step": 5032
    },
    {
      "epoch": 0.8388333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.2739583333333333,
      "learning_rate": 6.28594834686832e-06,
      "loss": 6.2879,
      "loss/crossentropy": 1.4916142374277115,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12046915385872126,
      "step": 5033
    },
    {
      "epoch": 0.839,
      "grad_norm": 22.25,
      "grad_norm_var": 1.2489583333333334,
      "learning_rate": 6.273246071129052e-06,
      "loss": 6.7717,
      "loss/crossentropy": 1.3828303515911102,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11695745401084423,
      "step": 5034
    },
    {
      "epoch": 0.8391666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 1.1916666666666667,
      "learning_rate": 6.2605557833273656e-06,
      "loss": 6.1145,
      "loss/crossentropy": 1.8062202632427216,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12438628822565079,
      "step": 5035
    },
    {
      "epoch": 0.8393333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.1926432291666667,
      "learning_rate": 6.247877486942383e-06,
      "loss": 6.0167,
      "loss/crossentropy": 1.2218821495771408,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10525058396160603,
      "step": 5036
    },
    {
      "epoch": 0.8395,
      "grad_norm": 23.375,
      "grad_norm_var": 1.4635416666666667,
      "learning_rate": 6.235211185449919e-06,
      "loss": 6.2169,
      "loss/crossentropy": 1.65026193857193,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14249983057379723,
      "step": 5037
    },
    {
      "epoch": 0.8396666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.5768229166666667,
      "learning_rate": 6.222556882322534e-06,
      "loss": 5.8606,
      "loss/crossentropy": 1.5961803942918777,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11916485242545605,
      "step": 5038
    },
    {
      "epoch": 0.8398333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5705729166666667,
      "learning_rate": 6.209914581029475e-06,
      "loss": 6.4107,
      "loss/crossentropy": 1.2949169427156448,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15376218408346176,
      "step": 5039
    },
    {
      "epoch": 0.84,
      "grad_norm": 23.625,
      "grad_norm_var": 1.7837890625,
      "learning_rate": 6.197284285036681e-06,
      "loss": 6.5698,
      "loss/crossentropy": 1.4846194833517075,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11411409825086594,
      "step": 5040
    },
    {
      "epoch": 0.8401666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 1.8625,
      "learning_rate": 6.184665997806832e-06,
      "loss": 5.902,
      "loss/crossentropy": 1.7149045169353485,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19040311872959137,
      "step": 5041
    },
    {
      "epoch": 0.8403333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.9541015625,
      "learning_rate": 6.172059722799295e-06,
      "loss": 6.1477,
      "loss/crossentropy": 1.7818279564380646,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14374900609254837,
      "step": 5042
    },
    {
      "epoch": 0.8405,
      "grad_norm": 19.0,
      "grad_norm_var": 2.29140625,
      "learning_rate": 6.159465463470149e-06,
      "loss": 5.7239,
      "loss/crossentropy": 1.8136479258537292,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12377124466001987,
      "step": 5043
    },
    {
      "epoch": 0.8406666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 2.2018229166666665,
      "learning_rate": 6.1468832232721985e-06,
      "loss": 5.8565,
      "loss/crossentropy": 1.1326712518930435,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10456782206892967,
      "step": 5044
    },
    {
      "epoch": 0.8408333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 1.8666666666666667,
      "learning_rate": 6.134313005654929e-06,
      "loss": 6.109,
      "loss/crossentropy": 1.9914911389350891,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15188227593898773,
      "step": 5045
    },
    {
      "epoch": 0.841,
      "grad_norm": 21.125,
      "grad_norm_var": 1.7582682291666667,
      "learning_rate": 6.12175481406454e-06,
      "loss": 6.0324,
      "loss/crossentropy": 1.42901910841465,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1153340581804514,
      "step": 5046
    },
    {
      "epoch": 0.8411666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 1.6643229166666667,
      "learning_rate": 6.109208651943921e-06,
      "loss": 6.202,
      "loss/crossentropy": 1.6143535673618317,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18113525956869125,
      "step": 5047
    },
    {
      "epoch": 0.8413333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 1.6643229166666667,
      "learning_rate": 6.096674522732676e-06,
      "loss": 6.0951,
      "loss/crossentropy": 1.0967826843261719,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14304015692323446,
      "step": 5048
    },
    {
      "epoch": 0.8415,
      "grad_norm": 21.125,
      "grad_norm_var": 1.5875,
      "learning_rate": 6.084152429867113e-06,
      "loss": 6.1761,
      "loss/crossentropy": 1.5859073102474213,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15401137620210648,
      "step": 5049
    },
    {
      "epoch": 0.8416666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 1.5863932291666667,
      "learning_rate": 6.071642376780234e-06,
      "loss": 5.8717,
      "loss/crossentropy": 1.489424228668213,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17140678316354752,
      "step": 5050
    },
    {
      "epoch": 0.8418333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.6020833333333333,
      "learning_rate": 6.059144366901736e-06,
      "loss": 6.4688,
      "loss/crossentropy": 1.6215561032295227,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17043097876012325,
      "step": 5051
    },
    {
      "epoch": 0.842,
      "grad_norm": 19.375,
      "grad_norm_var": 1.7645833333333334,
      "learning_rate": 6.0466584036580235e-06,
      "loss": 6.2675,
      "loss/crossentropy": 1.0125989466905594,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0804430479183793,
      "step": 5052
    },
    {
      "epoch": 0.8421666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.4020833333333333,
      "learning_rate": 6.034184490472195e-06,
      "loss": 5.8101,
      "loss/crossentropy": 1.4106427878141403,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12219787761569023,
      "step": 5053
    },
    {
      "epoch": 0.8423333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.3504557291666666,
      "learning_rate": 6.021722630764043e-06,
      "loss": 6.0532,
      "loss/crossentropy": 1.6893568485975266,
      "loss/hidden": 3.41796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1698692850768566,
      "step": 5054
    },
    {
      "epoch": 0.8425,
      "grad_norm": 20.25,
      "grad_norm_var": 1.2830729166666666,
      "learning_rate": 6.009272827950041e-06,
      "loss": 5.8338,
      "loss/crossentropy": 1.1383837759494781,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14313842542469501,
      "step": 5055
    },
    {
      "epoch": 0.8426666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 0.7395182291666667,
      "learning_rate": 5.996835085443403e-06,
      "loss": 5.8984,
      "loss/crossentropy": 1.5877039432525635,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12004043906927109,
      "step": 5056
    },
    {
      "epoch": 0.8428333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.7431640625,
      "learning_rate": 5.98440940665399e-06,
      "loss": 6.1739,
      "loss/crossentropy": 1.3077647164463997,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10595584381371737,
      "step": 5057
    },
    {
      "epoch": 0.843,
      "grad_norm": 23.625,
      "grad_norm_var": 1.2238932291666667,
      "learning_rate": 5.971995794988378e-06,
      "loss": 6.3128,
      "loss/crossentropy": 1.345469132065773,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19191636890172958,
      "step": 5058
    },
    {
      "epoch": 0.8431666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 0.9426432291666667,
      "learning_rate": 5.95959425384982e-06,
      "loss": 6.0009,
      "loss/crossentropy": 1.5252685397863388,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12811212427914143,
      "step": 5059
    },
    {
      "epoch": 0.8433333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 0.9629557291666667,
      "learning_rate": 5.947204786638277e-06,
      "loss": 6.2624,
      "loss/crossentropy": 1.6492986381053925,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15964410081505775,
      "step": 5060
    },
    {
      "epoch": 0.8435,
      "grad_norm": 22.25,
      "grad_norm_var": 1.0309895833333333,
      "learning_rate": 5.934827396750392e-06,
      "loss": 6.4572,
      "loss/crossentropy": 2.1104433238506317,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17251711711287498,
      "step": 5061
    },
    {
      "epoch": 0.8436666666666667,
      "grad_norm": 19.25,
      "grad_norm_var": 1.2780598958333333,
      "learning_rate": 5.922462087579495e-06,
      "loss": 5.7075,
      "loss/crossentropy": 1.0117768347263336,
      "loss/hidden": 3.5078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14671916887164116,
      "step": 5062
    },
    {
      "epoch": 0.8438333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.2497395833333333,
      "learning_rate": 5.9101088625155954e-06,
      "loss": 6.5214,
      "loss/crossentropy": 1.3477910161018372,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23003767617046833,
      "step": 5063
    },
    {
      "epoch": 0.844,
      "grad_norm": 21.5,
      "grad_norm_var": 1.2447265625,
      "learning_rate": 5.897767724945419e-06,
      "loss": 6.2683,
      "loss/crossentropy": 2.03728187084198,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1426478996872902,
      "step": 5064
    },
    {
      "epoch": 0.8441666666666666,
      "grad_norm": 19.5,
      "grad_norm_var": 1.4114583333333333,
      "learning_rate": 5.885438678252342e-06,
      "loss": 5.5164,
      "loss/crossentropy": 1.006769374012947,
      "loss/hidden": 2.84375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08479536697268486,
      "step": 5065
    },
    {
      "epoch": 0.8443333333333334,
      "grad_norm": 19.625,
      "grad_norm_var": 1.4875,
      "learning_rate": 5.87312172581645e-06,
      "loss": 5.6707,
      "loss/crossentropy": 1.0127566903829575,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09138008579611778,
      "step": 5066
    },
    {
      "epoch": 0.8445,
      "grad_norm": 20.0,
      "grad_norm_var": 1.4509765625,
      "learning_rate": 5.860816871014496e-06,
      "loss": 5.8535,
      "loss/crossentropy": 1.8293428719043732,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17857807502150536,
      "step": 5067
    },
    {
      "epoch": 0.8446666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 1.3197265625,
      "learning_rate": 5.848524117219945e-06,
      "loss": 6.5374,
      "loss/crossentropy": 1.437575250864029,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13396703824400902,
      "step": 5068
    },
    {
      "epoch": 0.8448333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.3337890625,
      "learning_rate": 5.836243467802916e-06,
      "loss": 6.0851,
      "loss/crossentropy": 1.5264670848846436,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11704074032604694,
      "step": 5069
    },
    {
      "epoch": 0.845,
      "grad_norm": 19.625,
      "grad_norm_var": 1.45390625,
      "learning_rate": 5.8239749261302105e-06,
      "loss": 5.9359,
      "loss/crossentropy": 1.349695846438408,
      "loss/hidden": 2.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09161262027919292,
      "step": 5070
    },
    {
      "epoch": 0.8451666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4160807291666666,
      "learning_rate": 5.811718495565327e-06,
      "loss": 5.8426,
      "loss/crossentropy": 1.5848361104726791,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11809132806956768,
      "step": 5071
    },
    {
      "epoch": 0.8453333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.48125,
      "learning_rate": 5.7994741794684395e-06,
      "loss": 6.1016,
      "loss/crossentropy": 1.0076619684696198,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15777486003935337,
      "step": 5072
    },
    {
      "epoch": 0.8455,
      "grad_norm": 24.125,
      "grad_norm_var": 2.0385416666666667,
      "learning_rate": 5.787241981196384e-06,
      "loss": 6.2608,
      "loss/crossentropy": 1.252806305885315,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08229793794453144,
      "step": 5073
    },
    {
      "epoch": 0.8456666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 1.8676432291666667,
      "learning_rate": 5.775021904102701e-06,
      "loss": 5.9849,
      "loss/crossentropy": 1.7621107995510101,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18429370410740376,
      "step": 5074
    },
    {
      "epoch": 0.8458333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8927083333333334,
      "learning_rate": 5.762813951537583e-06,
      "loss": 5.93,
      "loss/crossentropy": 0.9543715640902519,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08068025577813387,
      "step": 5075
    },
    {
      "epoch": 0.846,
      "grad_norm": 19.25,
      "grad_norm_var": 2.1155598958333335,
      "learning_rate": 5.750618126847912e-06,
      "loss": 6.0264,
      "loss/crossentropy": 1.620234340429306,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1352082435041666,
      "step": 5076
    },
    {
      "epoch": 0.8461666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 2.0520833333333335,
      "learning_rate": 5.738434433377243e-06,
      "loss": 5.6605,
      "loss/crossentropy": 1.160250037908554,
      "loss/hidden": 3.578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09929084684699774,
      "step": 5077
    },
    {
      "epoch": 0.8463333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.8427083333333334,
      "learning_rate": 5.72626287446581e-06,
      "loss": 6.0208,
      "loss/crossentropy": 1.703203022480011,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14436747319996357,
      "step": 5078
    },
    {
      "epoch": 0.8465,
      "grad_norm": 19.375,
      "grad_norm_var": 2.0268229166666667,
      "learning_rate": 5.714103453450498e-06,
      "loss": 5.8279,
      "loss/crossentropy": 1.456640139222145,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.173300638794899,
      "step": 5079
    },
    {
      "epoch": 0.8466666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 2.014518229166667,
      "learning_rate": 5.701956173664902e-06,
      "loss": 6.3719,
      "loss/crossentropy": 1.5643164068460464,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13007014989852905,
      "step": 5080
    },
    {
      "epoch": 0.8468333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.9447916666666667,
      "learning_rate": 5.689821038439263e-06,
      "loss": 6.4944,
      "loss/crossentropy": 2.3192309141159058,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15643475018441677,
      "step": 5081
    },
    {
      "epoch": 0.847,
      "grad_norm": 21.25,
      "grad_norm_var": 1.7916015625,
      "learning_rate": 5.677698051100488e-06,
      "loss": 6.0327,
      "loss/crossentropy": 1.0795520842075348,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09111153334379196,
      "step": 5082
    },
    {
      "epoch": 0.8471666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.69140625,
      "learning_rate": 5.665587214972174e-06,
      "loss": 6.053,
      "loss/crossentropy": 1.8490939736366272,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1591815147548914,
      "step": 5083
    },
    {
      "epoch": 0.8473333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 1.76015625,
      "learning_rate": 5.653488533374579e-06,
      "loss": 6.1231,
      "loss/crossentropy": 1.262741580605507,
      "loss/hidden": 2.85546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0813768021762371,
      "step": 5084
    },
    {
      "epoch": 0.8475,
      "grad_norm": 22.0,
      "grad_norm_var": 1.7728515625,
      "learning_rate": 5.641402009624591e-06,
      "loss": 5.9836,
      "loss/crossentropy": 1.5703107118606567,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11981760896742344,
      "step": 5085
    },
    {
      "epoch": 0.8476666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.6452473958333333,
      "learning_rate": 5.629327647035843e-06,
      "loss": 6.3972,
      "loss/crossentropy": 1.4296799376606941,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10778955556452274,
      "step": 5086
    },
    {
      "epoch": 0.8478333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.6520833333333333,
      "learning_rate": 5.617265448918563e-06,
      "loss": 5.9435,
      "loss/crossentropy": 1.5501675307750702,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10286720283329487,
      "step": 5087
    },
    {
      "epoch": 0.848,
      "grad_norm": 19.375,
      "grad_norm_var": 1.8497395833333334,
      "learning_rate": 5.605215418579679e-06,
      "loss": 5.5655,
      "loss/crossentropy": 1.4251447916030884,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10543799959123135,
      "step": 5088
    },
    {
      "epoch": 0.8481666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 1.4059895833333333,
      "learning_rate": 5.593177559322777e-06,
      "loss": 6.208,
      "loss/crossentropy": 1.530158370733261,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10222219116985798,
      "step": 5089
    },
    {
      "epoch": 0.8483333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.1552083333333334,
      "learning_rate": 5.581151874448104e-06,
      "loss": 5.7246,
      "loss/crossentropy": 1.2952487766742706,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13092317059636116,
      "step": 5090
    },
    {
      "epoch": 0.8485,
      "grad_norm": 26.125,
      "grad_norm_var": 2.79765625,
      "learning_rate": 5.569138367252552e-06,
      "loss": 6.3817,
      "loss/crossentropy": 1.3531497865915298,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16244998201727867,
      "step": 5091
    },
    {
      "epoch": 0.8486666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 2.564583333333333,
      "learning_rate": 5.5571370410297255e-06,
      "loss": 5.7954,
      "loss/crossentropy": 1.6033350378274918,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16686042584478855,
      "step": 5092
    },
    {
      "epoch": 0.8488333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 2.721809895833333,
      "learning_rate": 5.545147899069836e-06,
      "loss": 6.2296,
      "loss/crossentropy": 1.9571417272090912,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14173832163214684,
      "step": 5093
    },
    {
      "epoch": 0.849,
      "grad_norm": 19.25,
      "grad_norm_var": 3.010872395833333,
      "learning_rate": 5.533170944659788e-06,
      "loss": 6.1119,
      "loss/crossentropy": 1.7592014074325562,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12189054861664772,
      "step": 5094
    },
    {
      "epoch": 0.8491666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 2.72265625,
      "learning_rate": 5.521206181083111e-06,
      "loss": 6.3519,
      "loss/crossentropy": 1.7747711688280106,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15893843211233616,
      "step": 5095
    },
    {
      "epoch": 0.8493333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 2.6768229166666666,
      "learning_rate": 5.509253611620019e-06,
      "loss": 6.0417,
      "loss/crossentropy": 1.388280250132084,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13455629907548428,
      "step": 5096
    },
    {
      "epoch": 0.8495,
      "grad_norm": 20.75,
      "grad_norm_var": 2.6947265625,
      "learning_rate": 5.497313239547375e-06,
      "loss": 6.2157,
      "loss/crossentropy": 1.247890293598175,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14595975168049335,
      "step": 5097
    },
    {
      "epoch": 0.8496666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 2.691666666666667,
      "learning_rate": 5.485385068138716e-06,
      "loss": 6.2753,
      "loss/crossentropy": 2.195884019136429,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16193744540214539,
      "step": 5098
    },
    {
      "epoch": 0.8498333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 2.689322916666667,
      "learning_rate": 5.473469100664208e-06,
      "loss": 6.0926,
      "loss/crossentropy": 1.2693376243114471,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14275575056672096,
      "step": 5099
    },
    {
      "epoch": 0.85,
      "grad_norm": 20.5,
      "grad_norm_var": 2.6270182291666666,
      "learning_rate": 5.461565340390678e-06,
      "loss": 6.2371,
      "loss/crossentropy": 1.937336653470993,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1333568412810564,
      "step": 5100
    },
    {
      "epoch": 0.8501666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 2.6192057291666666,
      "learning_rate": 5.449673790581611e-06,
      "loss": 6.0125,
      "loss/crossentropy": 1.9682769179344177,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16649711690843105,
      "step": 5101
    },
    {
      "epoch": 0.8503333333333334,
      "grad_norm": 23.875,
      "grad_norm_var": 2.9509765625,
      "learning_rate": 5.437794454497142e-06,
      "loss": 6.3023,
      "loss/crossentropy": 1.2249010801315308,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16394292563199997,
      "step": 5102
    },
    {
      "epoch": 0.8505,
      "grad_norm": 20.375,
      "grad_norm_var": 3.04765625,
      "learning_rate": 5.425927335394054e-06,
      "loss": 5.8941,
      "loss/crossentropy": 0.9703415408730507,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18414044380187988,
      "step": 5103
    },
    {
      "epoch": 0.8506666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 2.7145182291666665,
      "learning_rate": 5.4140724365258075e-06,
      "loss": 5.9331,
      "loss/crossentropy": 1.5040004253387451,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1664893887937069,
      "step": 5104
    },
    {
      "epoch": 0.8508333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 2.6869140625,
      "learning_rate": 5.402229761142463e-06,
      "loss": 6.2087,
      "loss/crossentropy": 1.5264241099357605,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17869623191654682,
      "step": 5105
    },
    {
      "epoch": 0.851,
      "grad_norm": 19.25,
      "grad_norm_var": 3.0103515625,
      "learning_rate": 5.3903993124907736e-06,
      "loss": 5.7612,
      "loss/crossentropy": 1.099719449877739,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13429020158946514,
      "step": 5106
    },
    {
      "epoch": 0.8511666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5811848958333334,
      "learning_rate": 5.378581093814111e-06,
      "loss": 6.2316,
      "loss/crossentropy": 1.2505665980279446,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1651456942781806,
      "step": 5107
    },
    {
      "epoch": 0.8513333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 1.6983723958333334,
      "learning_rate": 5.366775108352517e-06,
      "loss": 6.1204,
      "loss/crossentropy": 1.7810415923595428,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1717022191733122,
      "step": 5108
    },
    {
      "epoch": 0.8515,
      "grad_norm": 20.75,
      "grad_norm_var": 1.4978515625,
      "learning_rate": 5.354981359342659e-06,
      "loss": 6.0484,
      "loss/crossentropy": 1.4015804082155228,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10170107940211892,
      "step": 5109
    },
    {
      "epoch": 0.8516666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.3259765625,
      "learning_rate": 5.3431998500178716e-06,
      "loss": 6.0073,
      "loss/crossentropy": 1.261317029595375,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10973597876727581,
      "step": 5110
    },
    {
      "epoch": 0.8518333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.3333333333333333,
      "learning_rate": 5.331430583608121e-06,
      "loss": 6.0866,
      "loss/crossentropy": 1.2128858268260956,
      "loss/hidden": 3.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22243689373135567,
      "step": 5111
    },
    {
      "epoch": 0.852,
      "grad_norm": 22.0,
      "grad_norm_var": 1.3520182291666667,
      "learning_rate": 5.319673563340016e-06,
      "loss": 6.305,
      "loss/crossentropy": 2.0263369381427765,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18368508107960224,
      "step": 5112
    },
    {
      "epoch": 0.8521666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3567057291666667,
      "learning_rate": 5.307928792436811e-06,
      "loss": 6.2305,
      "loss/crossentropy": 1.3130041658878326,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1496668253093958,
      "step": 5113
    },
    {
      "epoch": 0.8523333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.4389973958333333,
      "learning_rate": 5.296196274118403e-06,
      "loss": 5.933,
      "loss/crossentropy": 1.1811706870794296,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10205710679292679,
      "step": 5114
    },
    {
      "epoch": 0.8525,
      "grad_norm": 21.625,
      "grad_norm_var": 1.4291015625,
      "learning_rate": 5.284476011601319e-06,
      "loss": 6.1962,
      "loss/crossentropy": 1.5231042504310608,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13404064252972603,
      "step": 5115
    },
    {
      "epoch": 0.8526666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4291015625,
      "learning_rate": 5.272768008098749e-06,
      "loss": 5.8532,
      "loss/crossentropy": 1.2782892733812332,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1804954595863819,
      "step": 5116
    },
    {
      "epoch": 0.8528333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4264973958333333,
      "learning_rate": 5.261072266820499e-06,
      "loss": 6.2382,
      "loss/crossentropy": 1.5893849432468414,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16198758222162724,
      "step": 5117
    },
    {
      "epoch": 0.853,
      "grad_norm": 22.0,
      "grad_norm_var": 1.0427083333333333,
      "learning_rate": 5.249388790973025e-06,
      "loss": 6.08,
      "loss/crossentropy": 1.643971711397171,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15444720908999443,
      "step": 5118
    },
    {
      "epoch": 0.8531666666666666,
      "grad_norm": 22.875,
      "grad_norm_var": 1.1104166666666666,
      "learning_rate": 5.2377175837594216e-06,
      "loss": 6.2309,
      "loss/crossentropy": 1.8027614057064056,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14494143426418304,
      "step": 5119
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 1.2510416666666666,
      "learning_rate": 5.226058648379411e-06,
      "loss": 6.3579,
      "loss/crossentropy": 1.1491783037781715,
      "loss/hidden": 2.8828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08671131497249007,
      "step": 5120
    },
    {
      "epoch": 0.8535,
      "grad_norm": 18.125,
      "grad_norm_var": 1.9372395833333333,
      "learning_rate": 5.214411988029355e-06,
      "loss": 5.7249,
      "loss/crossentropy": 0.6849795505404472,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.03984668618068099,
      "step": 5121
    },
    {
      "epoch": 0.8536666666666667,
      "grad_norm": 25.5,
      "grad_norm_var": 2.646875,
      "learning_rate": 5.202777605902259e-06,
      "loss": 6.3995,
      "loss/crossentropy": 1.5821297764778137,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18184723239392042,
      "step": 5122
    },
    {
      "epoch": 0.8538333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.647330729166667,
      "learning_rate": 5.191155505187756e-06,
      "loss": 5.7866,
      "loss/crossentropy": 1.3149002939462662,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11444823071360588,
      "step": 5123
    },
    {
      "epoch": 0.854,
      "grad_norm": 23.25,
      "grad_norm_var": 2.6957682291666667,
      "learning_rate": 5.179545689072107e-06,
      "loss": 6.2895,
      "loss/crossentropy": 1.435536839067936,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12908403389155865,
      "step": 5124
    },
    {
      "epoch": 0.8541666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 2.659375,
      "learning_rate": 5.1679481607382065e-06,
      "loss": 6.2132,
      "loss/crossentropy": 1.685917228460312,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.12398890033364296,
      "step": 5125
    },
    {
      "epoch": 0.8543333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 2.4666015625,
      "learning_rate": 5.156362923365588e-06,
      "loss": 6.2418,
      "loss/crossentropy": 1.8821577578783035,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1711653359234333,
      "step": 5126
    },
    {
      "epoch": 0.8545,
      "grad_norm": 20.75,
      "grad_norm_var": 2.55625,
      "learning_rate": 5.144789980130405e-06,
      "loss": 5.7342,
      "loss/crossentropy": 2.0046467185020447,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13431487046182156,
      "step": 5127
    },
    {
      "epoch": 0.8546666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 2.7729166666666667,
      "learning_rate": 5.133229334205441e-06,
      "loss": 5.849,
      "loss/crossentropy": 1.241044133901596,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15838733222335577,
      "step": 5128
    },
    {
      "epoch": 0.8548333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 2.95390625,
      "learning_rate": 5.1216809887601245e-06,
      "loss": 6.315,
      "loss/crossentropy": 2.114957571029663,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19354290701448917,
      "step": 5129
    },
    {
      "epoch": 0.855,
      "grad_norm": 22.0,
      "grad_norm_var": 2.8041015625,
      "learning_rate": 5.110144946960494e-06,
      "loss": 6.2868,
      "loss/crossentropy": 1.1101344525814056,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19243306759744883,
      "step": 5130
    },
    {
      "epoch": 0.8551666666666666,
      "grad_norm": 22.875,
      "grad_norm_var": 2.8509765625,
      "learning_rate": 5.098621211969223e-06,
      "loss": 6.3738,
      "loss/crossentropy": 1.7203342616558075,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12176080606877804,
      "step": 5131
    },
    {
      "epoch": 0.8553333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 2.8509765625,
      "learning_rate": 5.087109786945604e-06,
      "loss": 6.0011,
      "loss/crossentropy": 1.4731936156749725,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14857613295316696,
      "step": 5132
    },
    {
      "epoch": 0.8555,
      "grad_norm": 20.875,
      "grad_norm_var": 2.917708333333333,
      "learning_rate": 5.075610675045567e-06,
      "loss": 6.2022,
      "loss/crossentropy": 1.2958408892154694,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10654759779572487,
      "step": 5133
    },
    {
      "epoch": 0.8556666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 2.924934895833333,
      "learning_rate": 5.06412387942164e-06,
      "loss": 6.0265,
      "loss/crossentropy": 1.4810729771852493,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1350858984515071,
      "step": 5134
    },
    {
      "epoch": 0.8558333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.94375,
      "learning_rate": 5.052649403223014e-06,
      "loss": 5.864,
      "loss/crossentropy": 1.3327274322509766,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09249883517622948,
      "step": 5135
    },
    {
      "epoch": 0.856,
      "grad_norm": 20.75,
      "grad_norm_var": 2.90390625,
      "learning_rate": 5.04118724959548e-06,
      "loss": 6.161,
      "loss/crossentropy": 1.7104664146900177,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1144141498953104,
      "step": 5136
    },
    {
      "epoch": 0.8561666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 2.027083333333333,
      "learning_rate": 5.029737421681446e-06,
      "loss": 5.8366,
      "loss/crossentropy": 1.2112746685743332,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1294494029134512,
      "step": 5137
    },
    {
      "epoch": 0.8563333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.0962890625,
      "learning_rate": 5.018299922619962e-06,
      "loss": 6.1429,
      "loss/crossentropy": 1.4828229397535324,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11621595546603203,
      "step": 5138
    },
    {
      "epoch": 0.8565,
      "grad_norm": 22.625,
      "grad_norm_var": 1.14140625,
      "learning_rate": 5.006874755546653e-06,
      "loss": 6.3,
      "loss/crossentropy": 1.6478244960308075,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1418181248009205,
      "step": 5139
    },
    {
      "epoch": 0.8566666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 0.9931640625,
      "learning_rate": 4.995461923593808e-06,
      "loss": 6.0447,
      "loss/crossentropy": 1.5651670843362808,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1818052940070629,
      "step": 5140
    },
    {
      "epoch": 0.8568333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 0.9733723958333333,
      "learning_rate": 4.984061429890324e-06,
      "loss": 5.8647,
      "loss/crossentropy": 0.8463626503944397,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12472014641389251,
      "step": 5141
    },
    {
      "epoch": 0.857,
      "grad_norm": 19.5,
      "grad_norm_var": 1.1768229166666666,
      "learning_rate": 4.972673277561713e-06,
      "loss": 5.817,
      "loss/crossentropy": 1.1449261158704758,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09368481859564781,
      "step": 5142
    },
    {
      "epoch": 0.8571666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 1.1660807291666666,
      "learning_rate": 4.961297469730097e-06,
      "loss": 5.9303,
      "loss/crossentropy": 1.5124830603599548,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15967478789389133,
      "step": 5143
    },
    {
      "epoch": 0.8573333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.0337890625,
      "learning_rate": 4.949934009514223e-06,
      "loss": 5.7976,
      "loss/crossentropy": 1.6162969172000885,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13969073630869389,
      "step": 5144
    },
    {
      "epoch": 0.8575,
      "grad_norm": 24.25,
      "grad_norm_var": 1.2666015625,
      "learning_rate": 4.938582900029437e-06,
      "loss": 6.5639,
      "loss/crossentropy": 1.8639562726020813,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22691459208726883,
      "step": 5145
    },
    {
      "epoch": 0.8576666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.2587890625,
      "learning_rate": 4.927244144387711e-06,
      "loss": 6.0681,
      "loss/crossentropy": 1.7444190979003906,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13386260718107224,
      "step": 5146
    },
    {
      "epoch": 0.8578333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.140625,
      "learning_rate": 4.915917745697646e-06,
      "loss": 5.5999,
      "loss/crossentropy": 1.087363451719284,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11491050384938717,
      "step": 5147
    },
    {
      "epoch": 0.858,
      "grad_norm": 24.375,
      "grad_norm_var": 1.6108723958333333,
      "learning_rate": 4.904603707064432e-06,
      "loss": 6.6053,
      "loss/crossentropy": 1.541088029742241,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13519532699137926,
      "step": 5148
    },
    {
      "epoch": 0.8581666666666666,
      "grad_norm": 24.25,
      "grad_norm_var": 1.9747395833333334,
      "learning_rate": 4.893302031589864e-06,
      "loss": 6.9289,
      "loss/crossentropy": 2.0084414184093475,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18652798980474472,
      "step": 5149
    },
    {
      "epoch": 0.8583333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.9718098958333334,
      "learning_rate": 4.88201272237237e-06,
      "loss": 6.1981,
      "loss/crossentropy": 1.1059932187199593,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0812826557084918,
      "step": 5150
    },
    {
      "epoch": 0.8585,
      "grad_norm": 20.75,
      "grad_norm_var": 1.9718098958333334,
      "learning_rate": 4.87073578250698e-06,
      "loss": 5.9593,
      "loss/crossentropy": 1.0214306339621544,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1449426058679819,
      "step": 5151
    },
    {
      "epoch": 0.8586666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.89140625,
      "learning_rate": 4.859471215085315e-06,
      "loss": 5.9891,
      "loss/crossentropy": 1.0098006874322891,
      "loss/hidden": 2.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09896630980074406,
      "step": 5152
    },
    {
      "epoch": 0.8588333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8697265625,
      "learning_rate": 4.848219023195644e-06,
      "loss": 5.8873,
      "loss/crossentropy": 1.489814780652523,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11809507571160793,
      "step": 5153
    },
    {
      "epoch": 0.859,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8697265625,
      "learning_rate": 4.836979209922804e-06,
      "loss": 6.2213,
      "loss/crossentropy": 1.0873398184776306,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09721354022622108,
      "step": 5154
    },
    {
      "epoch": 0.8591666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 1.8809895833333334,
      "learning_rate": 4.825751778348258e-06,
      "loss": 6.1938,
      "loss/crossentropy": 0.9836203306913376,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09774369234219193,
      "step": 5155
    },
    {
      "epoch": 0.8593333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 2.097916666666667,
      "learning_rate": 4.814536731550073e-06,
      "loss": 6.1997,
      "loss/crossentropy": 1.021220088005066,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11834194324910641,
      "step": 5156
    },
    {
      "epoch": 0.8595,
      "grad_norm": 23.25,
      "grad_norm_var": 2.177018229166667,
      "learning_rate": 4.8033340726029165e-06,
      "loss": 6.3492,
      "loss/crossentropy": 1.4251264184713364,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10846131667494774,
      "step": 5157
    },
    {
      "epoch": 0.8596666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.7395182291666667,
      "learning_rate": 4.792143804578053e-06,
      "loss": 6.115,
      "loss/crossentropy": 1.760552078485489,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14411656744778156,
      "step": 5158
    },
    {
      "epoch": 0.8598333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.5830729166666666,
      "learning_rate": 4.780965930543369e-06,
      "loss": 6.0354,
      "loss/crossentropy": 1.3114061057567596,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18875942938029766,
      "step": 5159
    },
    {
      "epoch": 0.86,
      "grad_norm": 22.0,
      "grad_norm_var": 1.4434895833333334,
      "learning_rate": 4.769800453563333e-06,
      "loss": 5.7929,
      "loss/crossentropy": 1.499784879386425,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11201616749167442,
      "step": 5160
    },
    {
      "epoch": 0.8601666666666666,
      "grad_norm": 27.0,
      "grad_norm_var": 2.529166666666667,
      "learning_rate": 4.758647376699032e-06,
      "loss": 6.2866,
      "loss/crossentropy": 1.4882330894470215,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15121608413755894,
      "step": 5161
    },
    {
      "epoch": 0.8603333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.644791666666667,
      "learning_rate": 4.747506703008137e-06,
      "loss": 5.8467,
      "loss/crossentropy": 1.057059720158577,
      "loss/hidden": 2.828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07918752171099186,
      "step": 5162
    },
    {
      "epoch": 0.8605,
      "grad_norm": 22.5,
      "grad_norm_var": 2.441666666666667,
      "learning_rate": 4.73637843554493e-06,
      "loss": 6.1426,
      "loss/crossentropy": 1.7398838698863983,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16029461845755577,
      "step": 5163
    },
    {
      "epoch": 0.8606666666666667,
      "grad_norm": 23.75,
      "grad_norm_var": 2.3358723958333334,
      "learning_rate": 4.725262577360284e-06,
      "loss": 6.3634,
      "loss/crossentropy": 1.8587495386600494,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15707014501094818,
      "step": 5164
    },
    {
      "epoch": 0.8608333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 2.183333333333333,
      "learning_rate": 4.714159131501689e-06,
      "loss": 6.2061,
      "loss/crossentropy": 1.1927016079425812,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12997790426015854,
      "step": 5165
    },
    {
      "epoch": 0.861,
      "grad_norm": 21.875,
      "grad_norm_var": 2.1957682291666667,
      "learning_rate": 4.703068101013208e-06,
      "loss": 5.9888,
      "loss/crossentropy": 1.738679215312004,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15391364693641663,
      "step": 5166
    },
    {
      "epoch": 0.8611666666666666,
      "grad_norm": 19.75,
      "grad_norm_var": 2.5155598958333334,
      "learning_rate": 4.691989488935511e-06,
      "loss": 6.2446,
      "loss/crossentropy": 1.5489177703857422,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17977812141180038,
      "step": 5167
    },
    {
      "epoch": 0.8613333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 2.519791666666667,
      "learning_rate": 4.680923298305862e-06,
      "loss": 6.153,
      "loss/crossentropy": 0.9816114902496338,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13296630792319775,
      "step": 5168
    },
    {
      "epoch": 0.8615,
      "grad_norm": 21.25,
      "grad_norm_var": 2.595833333333333,
      "learning_rate": 4.6698695321581165e-06,
      "loss": 6.2282,
      "loss/crossentropy": 1.5259840786457062,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.137020044028759,
      "step": 5169
    },
    {
      "epoch": 0.8616666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 2.818489583333333,
      "learning_rate": 4.658828193522735e-06,
      "loss": 6.0764,
      "loss/crossentropy": 1.80972820520401,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15806223452091217,
      "step": 5170
    },
    {
      "epoch": 0.8618333333333333,
      "grad_norm": 24.125,
      "grad_norm_var": 2.973893229166667,
      "learning_rate": 4.647799285426757e-06,
      "loss": 6.4929,
      "loss/crossentropy": 1.4414328932762146,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19748806953430176,
      "step": 5171
    },
    {
      "epoch": 0.862,
      "grad_norm": 21.625,
      "grad_norm_var": 2.9176432291666665,
      "learning_rate": 4.636782810893819e-06,
      "loss": 6.0006,
      "loss/crossentropy": 1.678930640220642,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1258387565612793,
      "step": 5172
    },
    {
      "epoch": 0.8621666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 3.0556640625,
      "learning_rate": 4.625778772944156e-06,
      "loss": 6.2398,
      "loss/crossentropy": 1.6660537421703339,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.14989501610398293,
      "step": 5173
    },
    {
      "epoch": 0.8623333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 2.9936848958333333,
      "learning_rate": 4.614787174594587e-06,
      "loss": 6.7232,
      "loss/crossentropy": 2.037140339612961,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15891535580158234,
      "step": 5174
    },
    {
      "epoch": 0.8625,
      "grad_norm": 21.5,
      "grad_norm_var": 3.0296223958333335,
      "learning_rate": 4.603808018858513e-06,
      "loss": 6.4711,
      "loss/crossentropy": 1.4506537020206451,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21976879984140396,
      "step": 5175
    },
    {
      "epoch": 0.8626666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 3.1497395833333335,
      "learning_rate": 4.592841308745932e-06,
      "loss": 6.2373,
      "loss/crossentropy": 1.0319512784481049,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11348051950335503,
      "step": 5176
    },
    {
      "epoch": 0.8628333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5171223958333333,
      "learning_rate": 4.5818870472634444e-06,
      "loss": 6.1588,
      "loss/crossentropy": 1.9188531637191772,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14628509804606438,
      "step": 5177
    },
    {
      "epoch": 0.863,
      "grad_norm": 20.0,
      "grad_norm_var": 1.6671223958333334,
      "learning_rate": 4.5709452374142095e-06,
      "loss": 6.1013,
      "loss/crossentropy": 1.3446556329727173,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10615508258342743,
      "step": 5178
    },
    {
      "epoch": 0.8631666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 1.7889973958333334,
      "learning_rate": 4.560015882197993e-06,
      "loss": 6.1287,
      "loss/crossentropy": 1.0965748876333237,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1617661607451737,
      "step": 5179
    },
    {
      "epoch": 0.8633333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 1.5468098958333334,
      "learning_rate": 4.549098984611138e-06,
      "loss": 5.92,
      "loss/crossentropy": 1.6677862107753754,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19424127042293549,
      "step": 5180
    },
    {
      "epoch": 0.8635,
      "grad_norm": 20.25,
      "grad_norm_var": 1.5427083333333333,
      "learning_rate": 4.538194547646574e-06,
      "loss": 5.4553,
      "loss/crossentropy": 1.2385598719120026,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11520753800868988,
      "step": 5181
    },
    {
      "epoch": 0.8636666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.5863932291666667,
      "learning_rate": 4.527302574293812e-06,
      "loss": 6.0011,
      "loss/crossentropy": 1.7114842534065247,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11963513493537903,
      "step": 5182
    },
    {
      "epoch": 0.8638333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.4311848958333333,
      "learning_rate": 4.51642306753895e-06,
      "loss": 6.2211,
      "loss/crossentropy": 1.781734049320221,
      "loss/hidden": 2.77734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11652439460158348,
      "step": 5183
    },
    {
      "epoch": 0.864,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3108723958333333,
      "learning_rate": 4.505556030364666e-06,
      "loss": 6.2791,
      "loss/crossentropy": 1.254526972770691,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.138190483674407,
      "step": 5184
    },
    {
      "epoch": 0.8641666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.3760416666666666,
      "learning_rate": 4.494701465750217e-06,
      "loss": 6.1613,
      "loss/crossentropy": 1.7614161521196365,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1478909980505705,
      "step": 5185
    },
    {
      "epoch": 0.8643333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.4395833333333334,
      "learning_rate": 4.483859376671451e-06,
      "loss": 5.9587,
      "loss/crossentropy": 1.6931995749473572,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16438283398747444,
      "step": 5186
    },
    {
      "epoch": 0.8645,
      "grad_norm": 21.5,
      "grad_norm_var": 0.8858723958333333,
      "learning_rate": 4.473029766100783e-06,
      "loss": 5.999,
      "loss/crossentropy": 1.4928084909915924,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15313062071800232,
      "step": 5187
    },
    {
      "epoch": 0.8646666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 0.95,
      "learning_rate": 4.462212637007202e-06,
      "loss": 6.2364,
      "loss/crossentropy": 1.785016193985939,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1745845228433609,
      "step": 5188
    },
    {
      "epoch": 0.8648333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.0488932291666666,
      "learning_rate": 4.45140799235631e-06,
      "loss": 5.6067,
      "loss/crossentropy": 1.4300688356161118,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13401047885417938,
      "step": 5189
    },
    {
      "epoch": 0.865,
      "grad_norm": 23.875,
      "grad_norm_var": 1.3145833333333334,
      "learning_rate": 4.44061583511024e-06,
      "loss": 5.8068,
      "loss/crossentropy": 1.1720304042100906,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.1261354386806488,
      "step": 5190
    },
    {
      "epoch": 0.8651666666666666,
      "grad_norm": 23.0,
      "grad_norm_var": 1.5177083333333334,
      "learning_rate": 4.429836168227735e-06,
      "loss": 6.3018,
      "loss/crossentropy": 2.007813721895218,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16598276607692242,
      "step": 5191
    },
    {
      "epoch": 0.8653333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 1.5759765625,
      "learning_rate": 4.419068994664111e-06,
      "loss": 5.944,
      "loss/crossentropy": 1.914063811302185,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22176418080925941,
      "step": 5192
    },
    {
      "epoch": 0.8655,
      "grad_norm": 21.0,
      "grad_norm_var": 1.52265625,
      "learning_rate": 4.408314317371221e-06,
      "loss": 5.7774,
      "loss/crossentropy": 1.1136075034737587,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10064580896869302,
      "step": 5193
    },
    {
      "epoch": 0.8656666666666667,
      "grad_norm": 19.25,
      "grad_norm_var": 1.675,
      "learning_rate": 4.397572139297529e-06,
      "loss": 5.693,
      "loss/crossentropy": 0.8408171981573105,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08236587047576904,
      "step": 5194
    },
    {
      "epoch": 0.8658333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.640625,
      "learning_rate": 4.38684246338808e-06,
      "loss": 6.1964,
      "loss/crossentropy": 1.4342092126607895,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11060729622840881,
      "step": 5195
    },
    {
      "epoch": 0.866,
      "grad_norm": 19.25,
      "grad_norm_var": 1.7455729166666667,
      "learning_rate": 4.376125292584466e-06,
      "loss": 6.1563,
      "loss/crossentropy": 1.9764433205127716,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14516537636518478,
      "step": 5196
    },
    {
      "epoch": 0.8661666666666666,
      "grad_norm": 20.0,
      "grad_norm_var": 1.775,
      "learning_rate": 4.365420629824863e-06,
      "loss": 6.0887,
      "loss/crossentropy": 1.7412845194339752,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11859867349267006,
      "step": 5197
    },
    {
      "epoch": 0.8663333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.8317057291666667,
      "learning_rate": 4.354728478044012e-06,
      "loss": 6.3076,
      "loss/crossentropy": 2.045074313879013,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1257293615490198,
      "step": 5198
    },
    {
      "epoch": 0.8665,
      "grad_norm": 22.0,
      "grad_norm_var": 1.8707682291666667,
      "learning_rate": 4.344048840173226e-06,
      "loss": 6.2265,
      "loss/crossentropy": 1.387032002210617,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17836301401257515,
      "step": 5199
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 2.012955729166667,
      "learning_rate": 4.333381719140384e-06,
      "loss": 6.6602,
      "loss/crossentropy": 1.686660647392273,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.21564290300011635,
      "step": 5200
    },
    {
      "epoch": 0.8668333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.975,
      "learning_rate": 4.322727117869951e-06,
      "loss": 6.1283,
      "loss/crossentropy": 1.4063067585229874,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1313978061079979,
      "step": 5201
    },
    {
      "epoch": 0.867,
      "grad_norm": 21.25,
      "grad_norm_var": 1.8759765625,
      "learning_rate": 4.312085039282948e-06,
      "loss": 5.9619,
      "loss/crossentropy": 1.5094768404960632,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14332817494869232,
      "step": 5202
    },
    {
      "epoch": 0.8671666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 1.9931640625,
      "learning_rate": 4.301455486296946e-06,
      "loss": 6.2576,
      "loss/crossentropy": 1.6213599145412445,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1757803838700056,
      "step": 5203
    },
    {
      "epoch": 0.8673333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 2.255989583333333,
      "learning_rate": 4.290838461826102e-06,
      "loss": 6.4471,
      "loss/crossentropy": 1.1856514289975166,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10025336127728224,
      "step": 5204
    },
    {
      "epoch": 0.8675,
      "grad_norm": 21.5,
      "grad_norm_var": 2.0587890625,
      "learning_rate": 4.2802339687811385e-06,
      "loss": 6.0613,
      "loss/crossentropy": 1.1253196075558662,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12053686892613769,
      "step": 5205
    },
    {
      "epoch": 0.8676666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.71015625,
      "learning_rate": 4.269642010069319e-06,
      "loss": 6.3315,
      "loss/crossentropy": 1.0527487248182297,
      "loss/hidden": 2.66796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.055370742455124855,
      "step": 5206
    },
    {
      "epoch": 0.8678333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 1.66640625,
      "learning_rate": 4.25906258859452e-06,
      "loss": 5.4843,
      "loss/crossentropy": 1.3722637593746185,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13068945705890656,
      "step": 5207
    },
    {
      "epoch": 0.868,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6122395833333334,
      "learning_rate": 4.248495707257128e-06,
      "loss": 5.904,
      "loss/crossentropy": 1.3229211866855621,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11774645000696182,
      "step": 5208
    },
    {
      "epoch": 0.8681666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 1.6552083333333334,
      "learning_rate": 4.237941368954124e-06,
      "loss": 6.0463,
      "loss/crossentropy": 1.4584718495607376,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13767250999808311,
      "step": 5209
    },
    {
      "epoch": 0.8683333333333333,
      "grad_norm": 78.5,
      "grad_norm_var": 204.03098958333334,
      "learning_rate": 4.227399576579033e-06,
      "loss": 6.0552,
      "loss/crossentropy": 1.94070503115654,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17591694556176662,
      "step": 5210
    },
    {
      "epoch": 0.8685,
      "grad_norm": 22.625,
      "grad_norm_var": 203.6869140625,
      "learning_rate": 4.216870333021949e-06,
      "loss": 6.2655,
      "loss/crossentropy": 1.528629094362259,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11293274164199829,
      "step": 5211
    },
    {
      "epoch": 0.8686666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 202.49837239583334,
      "learning_rate": 4.206353641169525e-06,
      "loss": 6.1495,
      "loss/crossentropy": 1.2935711443424225,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13035105541348457,
      "step": 5212
    },
    {
      "epoch": 0.8688333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 202.86555989583334,
      "learning_rate": 4.195849503904975e-06,
      "loss": 5.6381,
      "loss/crossentropy": 1.3553402125835419,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14626449160277843,
      "step": 5213
    },
    {
      "epoch": 0.869,
      "grad_norm": 22.0,
      "grad_norm_var": 202.91848958333333,
      "learning_rate": 4.185357924108058e-06,
      "loss": 6.0924,
      "loss/crossentropy": 1.6700259745121002,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14541369304060936,
      "step": 5214
    },
    {
      "epoch": 0.8691666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 202.76555989583332,
      "learning_rate": 4.174878904655105e-06,
      "loss": 6.6401,
      "loss/crossentropy": 1.9211653470993042,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1419130638241768,
      "step": 5215
    },
    {
      "epoch": 0.8693333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 204.4041015625,
      "learning_rate": 4.164412448419003e-06,
      "loss": 5.6485,
      "loss/crossentropy": 1.4782332852482796,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1879474390298128,
      "step": 5216
    },
    {
      "epoch": 0.8695,
      "grad_norm": 19.875,
      "grad_norm_var": 205.45,
      "learning_rate": 4.153958558269189e-06,
      "loss": 5.774,
      "loss/crossentropy": 1.1865477040410042,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12696983385831118,
      "step": 5217
    },
    {
      "epoch": 0.8696666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 205.02083333333334,
      "learning_rate": 4.143517237071642e-06,
      "loss": 6.1129,
      "loss/crossentropy": 1.6962182968854904,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15166643634438515,
      "step": 5218
    },
    {
      "epoch": 0.8698333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 205.67337239583333,
      "learning_rate": 4.13308848768893e-06,
      "loss": 5.9673,
      "loss/crossentropy": 1.7365219593048096,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12955687940120697,
      "step": 5219
    },
    {
      "epoch": 0.87,
      "grad_norm": 20.5,
      "grad_norm_var": 206.81432291666667,
      "learning_rate": 4.122672312980147e-06,
      "loss": 6.0788,
      "loss/crossentropy": 1.2625721469521523,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15028837323188782,
      "step": 5220
    },
    {
      "epoch": 0.8701666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 206.98326822916667,
      "learning_rate": 4.112268715800943e-06,
      "loss": 6.256,
      "loss/crossentropy": 1.8017815947532654,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1830484364181757,
      "step": 5221
    },
    {
      "epoch": 0.8703333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 206.3744140625,
      "learning_rate": 4.1018776990035255e-06,
      "loss": 6.5146,
      "loss/crossentropy": 1.897339403629303,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19242529943585396,
      "step": 5222
    },
    {
      "epoch": 0.8705,
      "grad_norm": 21.25,
      "grad_norm_var": 205.67389322916668,
      "learning_rate": 4.091499265436649e-06,
      "loss": 6.0776,
      "loss/crossentropy": 1.292475938796997,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13640893809497356,
      "step": 5223
    },
    {
      "epoch": 0.8706666666666667,
      "grad_norm": 19.25,
      "grad_norm_var": 206.63795572916666,
      "learning_rate": 4.081133417945626e-06,
      "loss": 5.773,
      "loss/crossentropy": 1.6142478436231613,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1360323242843151,
      "step": 5224
    },
    {
      "epoch": 0.8708333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 207.48854166666666,
      "learning_rate": 4.0707801593723e-06,
      "loss": 6.1753,
      "loss/crossentropy": 1.0806050226092339,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08634444721974432,
      "step": 5225
    },
    {
      "epoch": 0.871,
      "grad_norm": 22.375,
      "grad_norm_var": 1.4337890625,
      "learning_rate": 4.06043949255509e-06,
      "loss": 6.2694,
      "loss/crossentropy": 1.5543890446424484,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15749308466911316,
      "step": 5226
    },
    {
      "epoch": 0.8711666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.3072265625,
      "learning_rate": 4.050111420328939e-06,
      "loss": 6.023,
      "loss/crossentropy": 1.6462136059999466,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09181981161236763,
      "step": 5227
    },
    {
      "epoch": 0.8713333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.4705729166666666,
      "learning_rate": 4.039795945525348e-06,
      "loss": 6.1897,
      "loss/crossentropy": 1.675684243440628,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10486165806651115,
      "step": 5228
    },
    {
      "epoch": 0.8715,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4333333333333333,
      "learning_rate": 4.029493070972362e-06,
      "loss": 6.342,
      "loss/crossentropy": 1.9465306401252747,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2670258404687047,
      "step": 5229
    },
    {
      "epoch": 0.8716666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 1.4254557291666667,
      "learning_rate": 4.019202799494565e-06,
      "loss": 6.1797,
      "loss/crossentropy": 1.6032581627368927,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11523964628577232,
      "step": 5230
    },
    {
      "epoch": 0.8718333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.3393229166666667,
      "learning_rate": 4.008925133913116e-06,
      "loss": 5.9823,
      "loss/crossentropy": 1.8117438852787018,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1722428910434246,
      "step": 5231
    },
    {
      "epoch": 0.872,
      "grad_norm": 21.375,
      "grad_norm_var": 1.1962890625,
      "learning_rate": 3.998660077045679e-06,
      "loss": 6.0713,
      "loss/crossentropy": 1.2013590931892395,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14677280187606812,
      "step": 5232
    },
    {
      "epoch": 0.8721666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.0809895833333334,
      "learning_rate": 3.9884076317064814e-06,
      "loss": 6.0425,
      "loss/crossentropy": 2.0461379885673523,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1723686046898365,
      "step": 5233
    },
    {
      "epoch": 0.8723333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.0205729166666666,
      "learning_rate": 3.9781678007062895e-06,
      "loss": 6.3043,
      "loss/crossentropy": 1.4750656634569168,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1791907399892807,
      "step": 5234
    },
    {
      "epoch": 0.8725,
      "grad_norm": 21.125,
      "grad_norm_var": 1.0205729166666666,
      "learning_rate": 3.967940586852409e-06,
      "loss": 6.1973,
      "loss/crossentropy": 1.7794208526611328,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15657380037009716,
      "step": 5235
    },
    {
      "epoch": 0.8726666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 0.9848307291666667,
      "learning_rate": 3.957725992948691e-06,
      "loss": 6.2038,
      "loss/crossentropy": 1.6700274497270584,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1917306510731578,
      "step": 5236
    },
    {
      "epoch": 0.8728333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 1.1270182291666666,
      "learning_rate": 3.947524021795518e-06,
      "loss": 6.1478,
      "loss/crossentropy": 1.2165844589471817,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12685437873005867,
      "step": 5237
    },
    {
      "epoch": 0.873,
      "grad_norm": 22.125,
      "grad_norm_var": 0.9934895833333334,
      "learning_rate": 3.93733467618983e-06,
      "loss": 5.9408,
      "loss/crossentropy": 1.5637186914682388,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1431904211640358,
      "step": 5238
    },
    {
      "epoch": 0.8731666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.0577473958333334,
      "learning_rate": 3.9271579589250816e-06,
      "loss": 5.8664,
      "loss/crossentropy": 1.2774009108543396,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11919870786368847,
      "step": 5239
    },
    {
      "epoch": 0.8733333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 0.8843098958333333,
      "learning_rate": 3.916993872791286e-06,
      "loss": 5.6718,
      "loss/crossentropy": 1.177475944161415,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12226189207285643,
      "step": 5240
    },
    {
      "epoch": 0.8735,
      "grad_norm": 22.875,
      "grad_norm_var": 0.9389973958333333,
      "learning_rate": 3.90684242057498e-06,
      "loss": 6.1023,
      "loss/crossentropy": 1.2350633293390274,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12541926838457584,
      "step": 5241
    },
    {
      "epoch": 0.8736666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 0.9150390625,
      "learning_rate": 3.896703605059232e-06,
      "loss": 6.2503,
      "loss/crossentropy": 1.0334890484809875,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.06994410417973995,
      "step": 5242
    },
    {
      "epoch": 0.8738333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 0.8587890625,
      "learning_rate": 3.88657742902368e-06,
      "loss": 6.2633,
      "loss/crossentropy": 2.0530953407287598,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.1541167702525854,
      "step": 5243
    },
    {
      "epoch": 0.874,
      "grad_norm": 21.5,
      "grad_norm_var": 0.79140625,
      "learning_rate": 3.876463895244464e-06,
      "loss": 6.1094,
      "loss/crossentropy": 1.4273488372564316,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12149586994200945,
      "step": 5244
    },
    {
      "epoch": 0.8741666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 0.79140625,
      "learning_rate": 3.866363006494255e-06,
      "loss": 6.0147,
      "loss/crossentropy": 1.2020464986562729,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10569332027807832,
      "step": 5245
    },
    {
      "epoch": 0.8743333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 0.79140625,
      "learning_rate": 3.85627476554229e-06,
      "loss": 5.9661,
      "loss/crossentropy": 1.28663270175457,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10492316447198391,
      "step": 5246
    },
    {
      "epoch": 0.8745,
      "grad_norm": 19.75,
      "grad_norm_var": 0.9645833333333333,
      "learning_rate": 3.846199175154297e-06,
      "loss": 5.7134,
      "loss/crossentropy": 1.5273785889148712,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12321039475500584,
      "step": 5247
    },
    {
      "epoch": 0.8746666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 0.9760416666666667,
      "learning_rate": 3.836136238092553e-06,
      "loss": 6.1712,
      "loss/crossentropy": 1.718456894159317,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23137615621089935,
      "step": 5248
    },
    {
      "epoch": 0.8748333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 0.9677083333333333,
      "learning_rate": 3.826085957115888e-06,
      "loss": 6.2191,
      "loss/crossentropy": 1.4844906628131866,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19280455633997917,
      "step": 5249
    },
    {
      "epoch": 0.875,
      "grad_norm": 20.75,
      "grad_norm_var": 0.9895833333333334,
      "learning_rate": 3.816048334979633e-06,
      "loss": 5.694,
      "loss/crossentropy": 1.352000780403614,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13905051536858082,
      "step": 5250
    },
    {
      "epoch": 0.8751666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 0.9895833333333334,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 6.1139,
      "loss/crossentropy": 0.9953155219554901,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08792353607714176,
      "step": 5251
    },
    {
      "epoch": 0.8753333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 0.984375,
      "learning_rate": 3.7960110782323753e-06,
      "loss": 6.1245,
      "loss/crossentropy": 1.5379169285297394,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16501901112496853,
      "step": 5252
    },
    {
      "epoch": 0.8755,
      "grad_norm": 19.875,
      "grad_norm_var": 0.909375,
      "learning_rate": 3.7860114491147016e-06,
      "loss": 5.7349,
      "loss/crossentropy": 1.3090536445379257,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12420052848756313,
      "step": 5253
    },
    {
      "epoch": 0.8756666666666667,
      "grad_norm": 18.875,
      "grad_norm_var": 1.12265625,
      "learning_rate": 3.7760244898240925e-06,
      "loss": 5.7539,
      "loss/crossentropy": 1.1928358227014542,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12416692450642586,
      "step": 5254
    },
    {
      "epoch": 0.8758333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 1.11640625,
      "learning_rate": 3.7660502030985202e-06,
      "loss": 6.0991,
      "loss/crossentropy": 1.4948702603578568,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09912083111703396,
      "step": 5255
    },
    {
      "epoch": 0.876,
      "grad_norm": 22.625,
      "grad_norm_var": 1.2134765625,
      "learning_rate": 3.756088591672513e-06,
      "loss": 6.3924,
      "loss/crossentropy": 1.7695896923542023,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20839276537299156,
      "step": 5256
    },
    {
      "epoch": 0.8761666666666666,
      "grad_norm": 22.625,
      "grad_norm_var": 1.1587890625,
      "learning_rate": 3.7461396582771035e-06,
      "loss": 6.3548,
      "loss/crossentropy": 1.2141185253858566,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1014632610604167,
      "step": 5257
    },
    {
      "epoch": 0.8763333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.084375,
      "learning_rate": 3.7362034056398265e-06,
      "loss": 6.1138,
      "loss/crossentropy": 1.5780299007892609,
      "loss/hidden": 3.76171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.28536879271268845,
      "step": 5258
    },
    {
      "epoch": 0.8765,
      "grad_norm": 21.125,
      "grad_norm_var": 0.9580729166666667,
      "learning_rate": 3.726279836484775e-06,
      "loss": 6.0218,
      "loss/crossentropy": 1.6067934483289719,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13494650647044182,
      "step": 5259
    },
    {
      "epoch": 0.8766666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 0.9372395833333333,
      "learning_rate": 3.7163689535325453e-06,
      "loss": 6.0053,
      "loss/crossentropy": 1.1915398389101028,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10163263976573944,
      "step": 5260
    },
    {
      "epoch": 0.8768333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 0.9067057291666667,
      "learning_rate": 3.7064707595002635e-06,
      "loss": 5.9311,
      "loss/crossentropy": 1.1261046379804611,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15839365683495998,
      "step": 5261
    },
    {
      "epoch": 0.877,
      "grad_norm": 23.125,
      "grad_norm_var": 1.1801432291666667,
      "learning_rate": 3.6965852571015814e-06,
      "loss": 6.0444,
      "loss/crossentropy": 1.4253966808319092,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12190700881183147,
      "step": 5262
    },
    {
      "epoch": 0.8771666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.1801432291666667,
      "learning_rate": 3.6867124490466698e-06,
      "loss": 6.0171,
      "loss/crossentropy": 2.0028198659420013,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.149160947650671,
      "step": 5263
    },
    {
      "epoch": 0.8773333333333333,
      "grad_norm": 19.375,
      "grad_norm_var": 1.3723307291666667,
      "learning_rate": 3.6768523380422026e-06,
      "loss": 5.8321,
      "loss/crossentropy": 1.0301559194922447,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11856793146580458,
      "step": 5264
    },
    {
      "epoch": 0.8775,
      "grad_norm": 19.25,
      "grad_norm_var": 1.5259765625,
      "learning_rate": 3.6670049267913952e-06,
      "loss": 5.6997,
      "loss/crossentropy": 1.1838896423578262,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14857280254364014,
      "step": 5265
    },
    {
      "epoch": 0.8776666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.528125,
      "learning_rate": 3.6571702179939603e-06,
      "loss": 6.0621,
      "loss/crossentropy": 1.759444311261177,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1304564168676734,
      "step": 5266
    },
    {
      "epoch": 0.8778333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.5707682291666667,
      "learning_rate": 3.6473482143461523e-06,
      "loss": 6.3589,
      "loss/crossentropy": 1.4254592657089233,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1349460333585739,
      "step": 5267
    },
    {
      "epoch": 0.878,
      "grad_norm": 22.125,
      "grad_norm_var": 1.6572265625,
      "learning_rate": 3.6375389185407173e-06,
      "loss": 6.2209,
      "loss/crossentropy": 1.6071776747703552,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14529681950807571,
      "step": 5268
    },
    {
      "epoch": 0.8781666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 1.7395833333333333,
      "learning_rate": 3.627742333266937e-06,
      "loss": 6.1094,
      "loss/crossentropy": 1.642729178071022,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14484992623329163,
      "step": 5269
    },
    {
      "epoch": 0.8783333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.39140625,
      "learning_rate": 3.617958461210602e-06,
      "loss": 5.9725,
      "loss/crossentropy": 1.7624629437923431,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15535011515021324,
      "step": 5270
    },
    {
      "epoch": 0.8785,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4301432291666667,
      "learning_rate": 3.608187305054006e-06,
      "loss": 5.9915,
      "loss/crossentropy": 1.3724493980407715,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11824433505535126,
      "step": 5271
    },
    {
      "epoch": 0.8786666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.4166666666666667,
      "learning_rate": 3.5984288674759782e-06,
      "loss": 5.9255,
      "loss/crossentropy": 1.3992277532815933,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12213069945573807,
      "step": 5272
    },
    {
      "epoch": 0.8788333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 1.2431640625,
      "learning_rate": 3.5886831511518336e-06,
      "loss": 6.067,
      "loss/crossentropy": 1.3505842238664627,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11193720949813724,
      "step": 5273
    },
    {
      "epoch": 0.879,
      "grad_norm": 21.125,
      "grad_norm_var": 1.2447916666666667,
      "learning_rate": 3.5789501587534356e-06,
      "loss": 5.7791,
      "loss/crossentropy": 1.4921784698963165,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15788017865270376,
      "step": 5274
    },
    {
      "epoch": 0.8791666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 1.2708333333333333,
      "learning_rate": 3.569229892949133e-06,
      "loss": 6.0271,
      "loss/crossentropy": 1.0984640568494797,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15513605810701847,
      "step": 5275
    },
    {
      "epoch": 0.8793333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.3499348958333333,
      "learning_rate": 3.5595223564037884e-06,
      "loss": 6.3313,
      "loss/crossentropy": 1.4421594738960266,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16512448713183403,
      "step": 5276
    },
    {
      "epoch": 0.8795,
      "grad_norm": 21.5,
      "grad_norm_var": 1.3614583333333334,
      "learning_rate": 3.549827551778778e-06,
      "loss": 5.9532,
      "loss/crossentropy": 0.8848854750394821,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0831522773951292,
      "step": 5277
    },
    {
      "epoch": 0.8796666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 1.29765625,
      "learning_rate": 3.5401454817319935e-06,
      "loss": 5.9707,
      "loss/crossentropy": 1.2994562834501266,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1669501978904009,
      "step": 5278
    },
    {
      "epoch": 0.8798333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.2113932291666667,
      "learning_rate": 3.5304761489178163e-06,
      "loss": 6.0428,
      "loss/crossentropy": 1.9310785830020905,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17019910365343094,
      "step": 5279
    },
    {
      "epoch": 0.88,
      "grad_norm": 22.5,
      "grad_norm_var": 1.0958333333333334,
      "learning_rate": 3.5208195559871594e-06,
      "loss": 6.2945,
      "loss/crossentropy": 1.7439289093017578,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17818881571292877,
      "step": 5280
    },
    {
      "epoch": 0.8801666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 0.8622395833333333,
      "learning_rate": 3.511175705587433e-06,
      "loss": 6.1882,
      "loss/crossentropy": 1.3876675218343735,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1960233962163329,
      "step": 5281
    },
    {
      "epoch": 0.8803333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 0.8567057291666667,
      "learning_rate": 3.5015446003625494e-06,
      "loss": 5.9883,
      "loss/crossentropy": 1.2389871329069138,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11043041571974754,
      "step": 5282
    },
    {
      "epoch": 0.8805,
      "grad_norm": 22.375,
      "grad_norm_var": 0.9,
      "learning_rate": 3.4919262429529308e-06,
      "loss": 6.3925,
      "loss/crossentropy": 1.5194469392299652,
      "loss/hidden": 3.5625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23937010765075684,
      "step": 5283
    },
    {
      "epoch": 0.8806666666666667,
      "grad_norm": 23.375,
      "grad_norm_var": 1.09140625,
      "learning_rate": 3.4823206359955065e-06,
      "loss": 6.034,
      "loss/crossentropy": 1.027965635061264,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1394343813881278,
      "step": 5284
    },
    {
      "epoch": 0.8808333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.0233723958333334,
      "learning_rate": 3.472727782123697e-06,
      "loss": 6.1055,
      "loss/crossentropy": 2.1622263491153717,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1738487035036087,
      "step": 5285
    },
    {
      "epoch": 0.881,
      "grad_norm": 20.375,
      "grad_norm_var": 1.0598307291666667,
      "learning_rate": 3.463147683967455e-06,
      "loss": 6.0463,
      "loss/crossentropy": 1.4184822291135788,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11142011731863022,
      "step": 5286
    },
    {
      "epoch": 0.8811666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 0.9809895833333333,
      "learning_rate": 3.4535803441532123e-06,
      "loss": 6.2559,
      "loss/crossentropy": 1.4416012167930603,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11485423147678375,
      "step": 5287
    },
    {
      "epoch": 0.8813333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.7280598958333333,
      "learning_rate": 3.4440257653039097e-06,
      "loss": 6.4534,
      "loss/crossentropy": 1.580454558134079,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1664892639964819,
      "step": 5288
    },
    {
      "epoch": 0.8815,
      "grad_norm": 20.125,
      "grad_norm_var": 0.8643229166666667,
      "learning_rate": 3.434483950038986e-06,
      "loss": 5.7111,
      "loss/crossentropy": 1.3969101309776306,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1382059883326292,
      "step": 5289
    },
    {
      "epoch": 0.8816666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 0.9796223958333333,
      "learning_rate": 3.4249549009743866e-06,
      "loss": 5.9007,
      "loss/crossentropy": 1.3839199990034103,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.2054026685655117,
      "step": 5290
    },
    {
      "epoch": 0.8818333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.0811848958333334,
      "learning_rate": 3.4154386207225554e-06,
      "loss": 6.0953,
      "loss/crossentropy": 1.966653048992157,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1986728087067604,
      "step": 5291
    },
    {
      "epoch": 0.882,
      "grad_norm": 20.25,
      "grad_norm_var": 1.1622395833333334,
      "learning_rate": 3.405935111892428e-06,
      "loss": 6.084,
      "loss/crossentropy": 2.2016668617725372,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15401016175746918,
      "step": 5292
    },
    {
      "epoch": 0.8821666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.2343098958333334,
      "learning_rate": 3.3964443770894528e-06,
      "loss": 6.0397,
      "loss/crossentropy": 1.190835103392601,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0941742341965437,
      "step": 5293
    },
    {
      "epoch": 0.8823333333333333,
      "grad_norm": 19.25,
      "grad_norm_var": 1.334375,
      "learning_rate": 3.386966418915566e-06,
      "loss": 5.4674,
      "loss/crossentropy": 0.8665326833724976,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0994161693379283,
      "step": 5294
    },
    {
      "epoch": 0.8825,
      "grad_norm": 22.5,
      "grad_norm_var": 1.3952473958333333,
      "learning_rate": 3.3775012399692054e-06,
      "loss": 6.2939,
      "loss/crossentropy": 1.3908997923135757,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12886034324765205,
      "step": 5295
    },
    {
      "epoch": 0.8826666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.29140625,
      "learning_rate": 3.3680488428453005e-06,
      "loss": 5.8711,
      "loss/crossentropy": 1.5196168720722198,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12808599323034286,
      "step": 5296
    },
    {
      "epoch": 0.8828333333333334,
      "grad_norm": 22.5,
      "grad_norm_var": 1.29140625,
      "learning_rate": 3.358609230135268e-06,
      "loss": 6.4518,
      "loss/crossentropy": 1.9340366870164871,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1919790394604206,
      "step": 5297
    },
    {
      "epoch": 0.883,
      "grad_norm": 24.125,
      "grad_norm_var": 1.8259765625,
      "learning_rate": 3.349182404427054e-06,
      "loss": 6.6402,
      "loss/crossentropy": 1.3966848403215408,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14278516545891762,
      "step": 5298
    },
    {
      "epoch": 0.8831666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.79765625,
      "learning_rate": 3.3397683683050685e-06,
      "loss": 6.2266,
      "loss/crossentropy": 1.589463323354721,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14357129111886024,
      "step": 5299
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.4900390625,
      "learning_rate": 3.33036712435022e-06,
      "loss": 6.2562,
      "loss/crossentropy": 1.3700763881206512,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20979101955890656,
      "step": 5300
    },
    {
      "epoch": 0.8835,
      "grad_norm": 22.125,
      "grad_norm_var": 1.4900390625,
      "learning_rate": 3.3209786751399187e-06,
      "loss": 6.3174,
      "loss/crossentropy": 1.6889682486653328,
      "loss/hidden": 2.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11561885289847851,
      "step": 5301
    },
    {
      "epoch": 0.8836666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.4572265625,
      "learning_rate": 3.31160302324805e-06,
      "loss": 5.9296,
      "loss/crossentropy": 1.387073278427124,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14419714733958244,
      "step": 5302
    },
    {
      "epoch": 0.8838333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 1.4889973958333333,
      "learning_rate": 3.302240171245002e-06,
      "loss": 5.9656,
      "loss/crossentropy": 1.4519546627998352,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20974334701895714,
      "step": 5303
    },
    {
      "epoch": 0.884,
      "grad_norm": 20.0,
      "grad_norm_var": 1.5541666666666667,
      "learning_rate": 3.2928901216976616e-06,
      "loss": 6.1197,
      "loss/crossentropy": 1.4134936332702637,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11212694458663464,
      "step": 5304
    },
    {
      "epoch": 0.8841666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1.5160807291666667,
      "learning_rate": 3.2835528771693992e-06,
      "loss": 6.2332,
      "loss/crossentropy": 1.9789955168962479,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.234270341694355,
      "step": 5305
    },
    {
      "epoch": 0.8843333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.4567057291666667,
      "learning_rate": 3.2742284402200674e-06,
      "loss": 6.0803,
      "loss/crossentropy": 1.6140470206737518,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13155481033027172,
      "step": 5306
    },
    {
      "epoch": 0.8845,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4067057291666667,
      "learning_rate": 3.2649168134060216e-06,
      "loss": 6.1378,
      "loss/crossentropy": 1.124578908085823,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11427615769207478,
      "step": 5307
    },
    {
      "epoch": 0.8846666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4561848958333334,
      "learning_rate": 3.2556179992800862e-06,
      "loss": 6.4047,
      "loss/crossentropy": 1.8736509382724762,
      "loss/hidden": 3.5703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.21549168229103088,
      "step": 5308
    },
    {
      "epoch": 0.8848333333333334,
      "grad_norm": 24.125,
      "grad_norm_var": 1.8077473958333334,
      "learning_rate": 3.246332000391583e-06,
      "loss": 6.2312,
      "loss/crossentropy": 1.4909703731536865,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12234998866915703,
      "step": 5309
    },
    {
      "epoch": 0.885,
      "grad_norm": 20.625,
      "grad_norm_var": 1.4833333333333334,
      "learning_rate": 3.237058819286337e-06,
      "loss": 6.0027,
      "loss/crossentropy": 0.8742438852787018,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12610313668847084,
      "step": 5310
    },
    {
      "epoch": 0.8851666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.4997395833333333,
      "learning_rate": 3.2277984585066366e-06,
      "loss": 5.8572,
      "loss/crossentropy": 1.1028599590063095,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13215475529432297,
      "step": 5311
    },
    {
      "epoch": 0.8853333333333333,
      "grad_norm": 23.75,
      "grad_norm_var": 1.7499348958333334,
      "learning_rate": 3.2185509205912568e-06,
      "loss": 6.415,
      "loss/crossentropy": 1.8185645639896393,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1297660730779171,
      "step": 5312
    },
    {
      "epoch": 0.8855,
      "grad_norm": 21.0,
      "grad_norm_var": 1.7514973958333333,
      "learning_rate": 3.2093162080754637e-06,
      "loss": 6.3744,
      "loss/crossentropy": 1.689233809709549,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13751592114567757,
      "step": 5313
    },
    {
      "epoch": 0.8856666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.3427083333333334,
      "learning_rate": 3.2000943234910097e-06,
      "loss": 6.0717,
      "loss/crossentropy": 1.2099671363830566,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15695161186158657,
      "step": 5314
    },
    {
      "epoch": 0.8858333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 1.2934895833333333,
      "learning_rate": 3.190885269366112e-06,
      "loss": 6.188,
      "loss/crossentropy": 1.729537010192871,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1457534283399582,
      "step": 5315
    },
    {
      "epoch": 0.886,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2389973958333333,
      "learning_rate": 3.1816890482255056e-06,
      "loss": 6.0063,
      "loss/crossentropy": 1.6666025519371033,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1350908726453781,
      "step": 5316
    },
    {
      "epoch": 0.8861666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.40390625,
      "learning_rate": 3.172505662590386e-06,
      "loss": 5.6494,
      "loss/crossentropy": 1.0275103449821472,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08038884773850441,
      "step": 5317
    },
    {
      "epoch": 0.8863333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.3775390625,
      "learning_rate": 3.163335114978416e-06,
      "loss": 6.4185,
      "loss/crossentropy": 1.7408124655485153,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16968201659619808,
      "step": 5318
    },
    {
      "epoch": 0.8865,
      "grad_norm": 23.75,
      "grad_norm_var": 1.665625,
      "learning_rate": 3.1541774079037635e-06,
      "loss": 6.118,
      "loss/crossentropy": 1.3214190304279327,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14411887153983116,
      "step": 5319
    },
    {
      "epoch": 0.8866666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.4768229166666667,
      "learning_rate": 3.145032543877063e-06,
      "loss": 6.2579,
      "loss/crossentropy": 1.331343375146389,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11380315013229847,
      "step": 5320
    },
    {
      "epoch": 0.8868333333333334,
      "grad_norm": 26.0,
      "grad_norm_var": 2.5791666666666666,
      "learning_rate": 3.1359005254054273e-06,
      "loss": 6.4409,
      "loss/crossentropy": 1.1216050386428833,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14191399328410625,
      "step": 5321
    },
    {
      "epoch": 0.887,
      "grad_norm": 22.0,
      "grad_norm_var": 2.533072916666667,
      "learning_rate": 3.1267813549924585e-06,
      "loss": 5.9006,
      "loss/crossentropy": 0.9427486583590508,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12965910835191607,
      "step": 5322
    },
    {
      "epoch": 0.8871666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 2.4707682291666666,
      "learning_rate": 3.1176750351382235e-06,
      "loss": 6.1059,
      "loss/crossentropy": 1.5213295444846153,
      "loss/hidden": 3.328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15649727825075388,
      "step": 5323
    },
    {
      "epoch": 0.8873333333333333,
      "grad_norm": 18.875,
      "grad_norm_var": 3.12265625,
      "learning_rate": 3.1085815683392695e-06,
      "loss": 5.3689,
      "loss/crossentropy": 1.3007254004478455,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16147584840655327,
      "step": 5324
    },
    {
      "epoch": 0.8875,
      "grad_norm": 21.375,
      "grad_norm_var": 2.798958333333333,
      "learning_rate": 3.0995009570886303e-06,
      "loss": 6.4132,
      "loss/crossentropy": 1.9723505079746246,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19628863409161568,
      "step": 5325
    },
    {
      "epoch": 0.8876666666666667,
      "grad_norm": 18.375,
      "grad_norm_var": 3.4622395833333335,
      "learning_rate": 3.0904332038757977e-06,
      "loss": 5.6922,
      "loss/crossentropy": 1.5975971221923828,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10906613059341908,
      "step": 5326
    },
    {
      "epoch": 0.8878333333333334,
      "grad_norm": 19.75,
      "grad_norm_var": 3.6434895833333334,
      "learning_rate": 3.08137831118675e-06,
      "loss": 5.8438,
      "loss/crossentropy": 1.3320690989494324,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.1147324126213789,
      "step": 5327
    },
    {
      "epoch": 0.888,
      "grad_norm": 22.25,
      "grad_norm_var": 3.349739583333333,
      "learning_rate": 3.07233628150394e-06,
      "loss": 6.704,
      "loss/crossentropy": 1.7635058462619781,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18159202486276627,
      "step": 5328
    },
    {
      "epoch": 0.8881666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 3.433333333333333,
      "learning_rate": 3.0633071173062967e-06,
      "loss": 5.9899,
      "loss/crossentropy": 2.3149361312389374,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15717801824212074,
      "step": 5329
    },
    {
      "epoch": 0.8883333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 3.562239583333333,
      "learning_rate": 3.0542908210692057e-06,
      "loss": 5.6287,
      "loss/crossentropy": 1.781073436141014,
      "loss/hidden": 2.86328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10783981252461672,
      "step": 5330
    },
    {
      "epoch": 0.8885,
      "grad_norm": 22.375,
      "grad_norm_var": 3.5780598958333334,
      "learning_rate": 3.0452873952645453e-06,
      "loss": 6.2805,
      "loss/crossentropy": 1.6397139132022858,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13771735318005085,
      "step": 5331
    },
    {
      "epoch": 0.8886666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 3.570572916666667,
      "learning_rate": 3.0362968423606474e-06,
      "loss": 6.4332,
      "loss/crossentropy": 1.5923840552568436,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17839809507131577,
      "step": 5332
    },
    {
      "epoch": 0.8888333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 3.4791666666666665,
      "learning_rate": 3.0273191648223287e-06,
      "loss": 5.9732,
      "loss/crossentropy": 1.7147724330425262,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1496274769306183,
      "step": 5333
    },
    {
      "epoch": 0.889,
      "grad_norm": 22.0,
      "grad_norm_var": 3.4893229166666666,
      "learning_rate": 3.0183543651108704e-06,
      "loss": 6.3465,
      "loss/crossentropy": 1.4042308032512665,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1514263078570366,
      "step": 5334
    },
    {
      "epoch": 0.8891666666666667,
      "grad_norm": 20.25,
      "grad_norm_var": 3.226822916666667,
      "learning_rate": 3.0094024456840174e-06,
      "loss": 5.77,
      "loss/crossentropy": 1.5732203722000122,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1713710930198431,
      "step": 5335
    },
    {
      "epoch": 0.8893333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 3.2577473958333334,
      "learning_rate": 3.000463408995996e-06,
      "loss": 5.9145,
      "loss/crossentropy": 1.8743512332439423,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2160966731607914,
      "step": 5336
    },
    {
      "epoch": 0.8895,
      "grad_norm": 19.5,
      "grad_norm_var": 1.8155598958333334,
      "learning_rate": 2.99153725749749e-06,
      "loss": 6.0086,
      "loss/crossentropy": 1.356374517083168,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19590821862220764,
      "step": 5337
    },
    {
      "epoch": 0.8896666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.7968098958333334,
      "learning_rate": 2.982623993635658e-06,
      "loss": 6.0346,
      "loss/crossentropy": 1.5790814757347107,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14920464344322681,
      "step": 5338
    },
    {
      "epoch": 0.8898333333333334,
      "grad_norm": 25.375,
      "grad_norm_var": 2.9872395833333334,
      "learning_rate": 2.9737236198541076e-06,
      "loss": 6.3023,
      "loss/crossentropy": 2.1530097126960754,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1643214225769043,
      "step": 5339
    },
    {
      "epoch": 0.89,
      "grad_norm": 19.875,
      "grad_norm_var": 2.7768229166666667,
      "learning_rate": 2.9648361385929523e-06,
      "loss": 5.9247,
      "loss/crossentropy": 1.6233234852552414,
      "loss/hidden": 2.82421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10955443792045116,
      "step": 5340
    },
    {
      "epoch": 0.8901666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 2.784309895833333,
      "learning_rate": 2.9559615522887273e-06,
      "loss": 5.9858,
      "loss/crossentropy": 1.1033617705106735,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17480291705578566,
      "step": 5341
    },
    {
      "epoch": 0.8903333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.29765625,
      "learning_rate": 2.9470998633744527e-06,
      "loss": 6.4197,
      "loss/crossentropy": 1.9877795279026031,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1581773329526186,
      "step": 5342
    },
    {
      "epoch": 0.8905,
      "grad_norm": 20.625,
      "grad_norm_var": 2.1796223958333334,
      "learning_rate": 2.9382510742796188e-06,
      "loss": 5.912,
      "loss/crossentropy": 1.498017743229866,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13167295884341002,
      "step": 5343
    },
    {
      "epoch": 0.8906666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 2.2634765625,
      "learning_rate": 2.9294151874301623e-06,
      "loss": 5.9594,
      "loss/crossentropy": 1.2521570026874542,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09969156607985497,
      "step": 5344
    },
    {
      "epoch": 0.8908333333333334,
      "grad_norm": 21.375,
      "grad_norm_var": 2.19140625,
      "learning_rate": 2.9205922052484958e-06,
      "loss": 6.3436,
      "loss/crossentropy": 1.443090245127678,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12078115716576576,
      "step": 5345
    },
    {
      "epoch": 0.891,
      "grad_norm": 21.375,
      "grad_norm_var": 2.0660807291666665,
      "learning_rate": 2.911782130153484e-06,
      "loss": 5.7344,
      "loss/crossentropy": 1.2054631114006042,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1582336537539959,
      "step": 5346
    },
    {
      "epoch": 0.8911666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 2.0332682291666666,
      "learning_rate": 2.9029849645604733e-06,
      "loss": 6.0939,
      "loss/crossentropy": 1.185308501124382,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11770588718354702,
      "step": 5347
    },
    {
      "epoch": 0.8913333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 2.0192057291666665,
      "learning_rate": 2.8942007108812395e-06,
      "loss": 6.0306,
      "loss/crossentropy": 1.547625333070755,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14287043549120426,
      "step": 5348
    },
    {
      "epoch": 0.8915,
      "grad_norm": 20.375,
      "grad_norm_var": 1.9947916666666667,
      "learning_rate": 2.8854293715240456e-06,
      "loss": 6.0935,
      "loss/crossentropy": 1.274205431342125,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12014365196228027,
      "step": 5349
    },
    {
      "epoch": 0.8916666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 2.037955729166667,
      "learning_rate": 2.876670948893606e-06,
      "loss": 5.7459,
      "loss/crossentropy": 1.276007503271103,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10506664775311947,
      "step": 5350
    },
    {
      "epoch": 0.8918333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 1.9979166666666666,
      "learning_rate": 2.8679254453910785e-06,
      "loss": 5.8989,
      "loss/crossentropy": 1.2568219900131226,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08445360325276852,
      "step": 5351
    },
    {
      "epoch": 0.892,
      "grad_norm": 22.0,
      "grad_norm_var": 2.035872395833333,
      "learning_rate": 2.8591928634141065e-06,
      "loss": 6.5143,
      "loss/crossentropy": 1.7965548038482666,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.25704636611044407,
      "step": 5352
    },
    {
      "epoch": 0.8921666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.9041015625,
      "learning_rate": 2.850473205356774e-06,
      "loss": 6.2303,
      "loss/crossentropy": 1.4946571737527847,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15094010904431343,
      "step": 5353
    },
    {
      "epoch": 0.8923333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 1.93125,
      "learning_rate": 2.841766473609625e-06,
      "loss": 5.9432,
      "loss/crossentropy": 1.6793365180492401,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13732089288532734,
      "step": 5354
    },
    {
      "epoch": 0.8925,
      "grad_norm": 21.25,
      "grad_norm_var": 0.7603515625,
      "learning_rate": 2.833072670559661e-06,
      "loss": 5.8288,
      "loss/crossentropy": 1.3948076963424683,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11134584806859493,
      "step": 5355
    },
    {
      "epoch": 0.8926666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 0.9093098958333333,
      "learning_rate": 2.8243917985903258e-06,
      "loss": 6.1863,
      "loss/crossentropy": 1.750695914030075,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.14281337708234787,
      "step": 5356
    },
    {
      "epoch": 0.8928333333333334,
      "grad_norm": 18.375,
      "grad_norm_var": 1.41875,
      "learning_rate": 2.8157238600815372e-06,
      "loss": 5.587,
      "loss/crossentropy": 0.8984322622418404,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07378308195620775,
      "step": 5357
    },
    {
      "epoch": 0.893,
      "grad_norm": 22.375,
      "grad_norm_var": 1.5259765625,
      "learning_rate": 2.8070688574096613e-06,
      "loss": 6.1076,
      "loss/crossentropy": 1.4822192937135696,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.19976839050650597,
      "step": 5358
    },
    {
      "epoch": 0.8931666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.5809895833333334,
      "learning_rate": 2.7984267929475173e-06,
      "loss": 6.2423,
      "loss/crossentropy": 1.652541160583496,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1554666105657816,
      "step": 5359
    },
    {
      "epoch": 0.8933333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.4535807291666667,
      "learning_rate": 2.78979766906437e-06,
      "loss": 5.7354,
      "loss/crossentropy": 1.4948410540819168,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11426704749464989,
      "step": 5360
    },
    {
      "epoch": 0.8935,
      "grad_norm": 22.25,
      "grad_norm_var": 1.53515625,
      "learning_rate": 2.7811814881259503e-06,
      "loss": 6.2549,
      "loss/crossentropy": 1.0368038564920425,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.08021962875500321,
      "step": 5361
    },
    {
      "epoch": 0.8936666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 1.59375,
      "learning_rate": 2.7725782524944286e-06,
      "loss": 5.7373,
      "loss/crossentropy": 1.26191945374012,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1619260199368,
      "step": 5362
    },
    {
      "epoch": 0.8938333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 1.5802083333333334,
      "learning_rate": 2.763987964528425e-06,
      "loss": 6.3534,
      "loss/crossentropy": 2.0657368898391724,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1765233762562275,
      "step": 5363
    },
    {
      "epoch": 0.894,
      "grad_norm": 21.375,
      "grad_norm_var": 1.5837890625,
      "learning_rate": 2.755410626583027e-06,
      "loss": 6.2093,
      "loss/crossentropy": 1.4869768917560577,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21464532986283302,
      "step": 5364
    },
    {
      "epoch": 0.8941666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.6478515625,
      "learning_rate": 2.746846241009765e-06,
      "loss": 5.9804,
      "loss/crossentropy": 1.1560895293951035,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.10602258890867233,
      "step": 5365
    },
    {
      "epoch": 0.8943333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.55390625,
      "learning_rate": 2.738294810156594e-06,
      "loss": 5.7697,
      "loss/crossentropy": 1.3305783122777939,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11856568977236748,
      "step": 5366
    },
    {
      "epoch": 0.8945,
      "grad_norm": 19.625,
      "grad_norm_var": 1.7010416666666666,
      "learning_rate": 2.72975633636795e-06,
      "loss": 5.9283,
      "loss/crossentropy": 1.2011305093765259,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.059744601137936115,
      "step": 5367
    },
    {
      "epoch": 0.8946666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 1.7010416666666666,
      "learning_rate": 2.7212308219846993e-06,
      "loss": 6.6554,
      "loss/crossentropy": 2.238695502281189,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1413096785545349,
      "step": 5368
    },
    {
      "epoch": 0.8948333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.6104166666666666,
      "learning_rate": 2.712718269344161e-06,
      "loss": 5.8737,
      "loss/crossentropy": 1.3704633116722107,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13696634955704212,
      "step": 5369
    },
    {
      "epoch": 0.895,
      "grad_norm": 18.5,
      "grad_norm_var": 1.8957682291666667,
      "learning_rate": 2.704218680780102e-06,
      "loss": 5.4728,
      "loss/crossentropy": 1.0236009359359741,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.07659932598471642,
      "step": 5370
    },
    {
      "epoch": 0.8951666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.9552083333333334,
      "learning_rate": 2.695732058622735e-06,
      "loss": 5.8505,
      "loss/crossentropy": 1.3732174336910248,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15047136321663857,
      "step": 5371
    },
    {
      "epoch": 0.8953333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 1.5910807291666667,
      "learning_rate": 2.6872584051987117e-06,
      "loss": 5.9297,
      "loss/crossentropy": 1.4586098194122314,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1332846311852336,
      "step": 5372
    },
    {
      "epoch": 0.8955,
      "grad_norm": 20.75,
      "grad_norm_var": 1.20390625,
      "learning_rate": 2.6787977228311334e-06,
      "loss": 5.5815,
      "loss/crossentropy": 1.447274073958397,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1802491694688797,
      "step": 5373
    },
    {
      "epoch": 0.8956666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.0405598958333333,
      "learning_rate": 2.67035001383954e-06,
      "loss": 6.3232,
      "loss/crossentropy": 1.5278185606002808,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14439605921506882,
      "step": 5374
    },
    {
      "epoch": 0.8958333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 1.0405598958333333,
      "learning_rate": 2.6619152805399283e-06,
      "loss": 6.1961,
      "loss/crossentropy": 1.39380544424057,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13752849772572517,
      "step": 5375
    },
    {
      "epoch": 0.896,
      "grad_norm": 19.5,
      "grad_norm_var": 1.1330729166666667,
      "learning_rate": 2.653493525244721e-06,
      "loss": 6.2361,
      "loss/crossentropy": 1.3797552287578583,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09824802074581385,
      "step": 5376
    },
    {
      "epoch": 0.8961666666666667,
      "grad_norm": 18.875,
      "grad_norm_var": 1.1488932291666667,
      "learning_rate": 2.6450847502627884e-06,
      "loss": 5.6787,
      "loss/crossentropy": 1.2574191093444824,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07361410278826952,
      "step": 5377
    },
    {
      "epoch": 0.8963333333333333,
      "grad_norm": 19.125,
      "grad_norm_var": 1.2603515625,
      "learning_rate": 2.6366889578994526e-06,
      "loss": 5.8866,
      "loss/crossentropy": 2.030182659626007,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11370556987822056,
      "step": 5378
    },
    {
      "epoch": 0.8965,
      "grad_norm": 19.875,
      "grad_norm_var": 1.2421223958333334,
      "learning_rate": 2.6283061504564554e-06,
      "loss": 5.6897,
      "loss/crossentropy": 1.2514668330550194,
      "loss/hidden": 2.87109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09265657793730497,
      "step": 5379
    },
    {
      "epoch": 0.8966666666666666,
      "grad_norm": 24.0,
      "grad_norm_var": 2.030989583333333,
      "learning_rate": 2.6199363302320036e-06,
      "loss": 6.3812,
      "loss/crossentropy": 1.4973348677158356,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12814546190202236,
      "step": 5380
    },
    {
      "epoch": 0.8968333333333334,
      "grad_norm": 21.25,
      "grad_norm_var": 2.0317057291666667,
      "learning_rate": 2.611579499520722e-06,
      "loss": 6.4199,
      "loss/crossentropy": 1.5377477705478668,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10326036997139454,
      "step": 5381
    },
    {
      "epoch": 0.897,
      "grad_norm": 21.75,
      "grad_norm_var": 2.065559895833333,
      "learning_rate": 2.603235660613679e-06,
      "loss": 6.4086,
      "loss/crossentropy": 1.7761392295360565,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15130135789513588,
      "step": 5382
    },
    {
      "epoch": 0.8971666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 2.037239583333333,
      "learning_rate": 2.594904815798399e-06,
      "loss": 5.9444,
      "loss/crossentropy": 1.5489932000637054,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10193587746471167,
      "step": 5383
    },
    {
      "epoch": 0.8973333333333333,
      "grad_norm": 24.875,
      "grad_norm_var": 3.0389973958333334,
      "learning_rate": 2.586586967358823e-06,
      "loss": 6.0737,
      "loss/crossentropy": 1.9530885219573975,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20987286046147346,
      "step": 5384
    },
    {
      "epoch": 0.8975,
      "grad_norm": 21.125,
      "grad_norm_var": 3.0395833333333333,
      "learning_rate": 2.5782821175753422e-06,
      "loss": 5.6282,
      "loss/crossentropy": 1.1961186826229095,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1042203544639051,
      "step": 5385
    },
    {
      "epoch": 0.8976666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 2.6177083333333333,
      "learning_rate": 2.56999026872477e-06,
      "loss": 6.1174,
      "loss/crossentropy": 2.24172642827034,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15613414719700813,
      "step": 5386
    },
    {
      "epoch": 0.8978333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 2.518684895833333,
      "learning_rate": 2.5617114230803652e-06,
      "loss": 6.1329,
      "loss/crossentropy": 1.7639446556568146,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16515463590621948,
      "step": 5387
    },
    {
      "epoch": 0.898,
      "grad_norm": 22.875,
      "grad_norm_var": 2.689583333333333,
      "learning_rate": 2.5534455829118233e-06,
      "loss": 5.6916,
      "loss/crossentropy": 1.139611080288887,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15237160213291645,
      "step": 5388
    },
    {
      "epoch": 0.8981666666666667,
      "grad_norm": 22.75,
      "grad_norm_var": 2.7895833333333333,
      "learning_rate": 2.5451927504852757e-06,
      "loss": 6.8898,
      "loss/crossentropy": 1.9186785817146301,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2766898013651371,
      "step": 5389
    },
    {
      "epoch": 0.8983333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 2.94375,
      "learning_rate": 2.5369529280632686e-06,
      "loss": 5.813,
      "loss/crossentropy": 1.9113249480724335,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15630081668496132,
      "step": 5390
    },
    {
      "epoch": 0.8985,
      "grad_norm": 22.75,
      "grad_norm_var": 3.017708333333333,
      "learning_rate": 2.528726117904812e-06,
      "loss": 6.7304,
      "loss/crossentropy": 1.5809389352798462,
      "loss/hidden": 3.65625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23261432722210884,
      "step": 5391
    },
    {
      "epoch": 0.8986666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 2.8431640625,
      "learning_rate": 2.5205123222653228e-06,
      "loss": 5.9606,
      "loss/crossentropy": 1.2252063527703285,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10548798693343997,
      "step": 5392
    },
    {
      "epoch": 0.8988333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 2.4479166666666665,
      "learning_rate": 2.5123115433966614e-06,
      "loss": 6.0026,
      "loss/crossentropy": 1.3733635991811752,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09318561479449272,
      "step": 5393
    },
    {
      "epoch": 0.899,
      "grad_norm": 21.625,
      "grad_norm_var": 2.0260416666666665,
      "learning_rate": 2.5041237835471133e-06,
      "loss": 6.348,
      "loss/crossentropy": 1.4948445558547974,
      "loss/hidden": 3.58203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.28421562537550926,
      "step": 5394
    },
    {
      "epoch": 0.8991666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 1.9082682291666666,
      "learning_rate": 2.4959490449614096e-06,
      "loss": 6.3063,
      "loss/crossentropy": 1.0745112001895905,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13903842866420746,
      "step": 5395
    },
    {
      "epoch": 0.8993333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.6166015625,
      "learning_rate": 2.487787329880703e-06,
      "loss": 6.713,
      "loss/crossentropy": 1.4363462552428246,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12024989724159241,
      "step": 5396
    },
    {
      "epoch": 0.8995,
      "grad_norm": 23.25,
      "grad_norm_var": 1.7145182291666667,
      "learning_rate": 2.4796386405425643e-06,
      "loss": 6.1846,
      "loss/crossentropy": 1.5391040444374084,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20718582719564438,
      "step": 5397
    },
    {
      "epoch": 0.8996666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.71875,
      "learning_rate": 2.4715029791810006e-06,
      "loss": 6.0562,
      "loss/crossentropy": 0.6895401701331139,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.057772025000303984,
      "step": 5398
    },
    {
      "epoch": 0.8998333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 1.7494140625,
      "learning_rate": 2.463380348026467e-06,
      "loss": 6.2169,
      "loss/crossentropy": 1.694665402173996,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12594426050782204,
      "step": 5399
    },
    {
      "epoch": 0.9,
      "grad_norm": 22.375,
      "grad_norm_var": 1.1530598958333333,
      "learning_rate": 2.455270749305805e-06,
      "loss": 6.2107,
      "loss/crossentropy": 1.3659071624279022,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13740760274231434,
      "step": 5400
    },
    {
      "epoch": 0.9001666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1.1452473958333333,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 6.2809,
      "loss/crossentropy": 1.5194331407546997,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.151223698630929,
      "step": 5401
    },
    {
      "epoch": 0.9003333333333333,
      "grad_norm": 22.75,
      "grad_norm_var": 1.1416015625,
      "learning_rate": 2.439090658055737e-06,
      "loss": 6.4201,
      "loss/crossentropy": 1.6035756468772888,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1904628463089466,
      "step": 5402
    },
    {
      "epoch": 0.9005,
      "grad_norm": 21.125,
      "grad_norm_var": 1.17265625,
      "learning_rate": 2.431020169962189e-06,
      "loss": 6.1884,
      "loss/crossentropy": 1.7317285537719727,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1646796353161335,
      "step": 5403
    },
    {
      "epoch": 0.9006666666666666,
      "grad_norm": 18.75,
      "grad_norm_var": 1.7119140625,
      "learning_rate": 2.4229627231742545e-06,
      "loss": 5.6374,
      "loss/crossentropy": 0.9646095782518387,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08863762579858303,
      "step": 5404
    },
    {
      "epoch": 0.9008333333333334,
      "grad_norm": 21.0,
      "grad_norm_var": 1.6499348958333333,
      "learning_rate": 2.4149183199009216e-06,
      "loss": 6.1601,
      "loss/crossentropy": 0.9618509262800217,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11194374598562717,
      "step": 5405
    },
    {
      "epoch": 0.901,
      "grad_norm": 21.75,
      "grad_norm_var": 1.4186848958333333,
      "learning_rate": 2.4068869623476097e-06,
      "loss": 5.9925,
      "loss/crossentropy": 1.3972931951284409,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11466639675199986,
      "step": 5406
    },
    {
      "epoch": 0.9011666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 1.4747395833333334,
      "learning_rate": 2.3988686527161687e-06,
      "loss": 5.9472,
      "loss/crossentropy": 1.3437021225690842,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10798304714262486,
      "step": 5407
    },
    {
      "epoch": 0.9013333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 1.5061848958333333,
      "learning_rate": 2.390863393204856e-06,
      "loss": 6.1486,
      "loss/crossentropy": 1.035106286406517,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15197116509079933,
      "step": 5408
    },
    {
      "epoch": 0.9015,
      "grad_norm": 22.125,
      "grad_norm_var": 1.415625,
      "learning_rate": 2.3828711860083674e-06,
      "loss": 5.8884,
      "loss/crossentropy": 1.4117276519536972,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12090987339615822,
      "step": 5409
    },
    {
      "epoch": 0.9016666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 1.4530598958333334,
      "learning_rate": 2.3748920333178048e-06,
      "loss": 6.2616,
      "loss/crossentropy": 1.43275785446167,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12343314290046692,
      "step": 5410
    },
    {
      "epoch": 0.9018333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.3728515625,
      "learning_rate": 2.366925937320691e-06,
      "loss": 6.0111,
      "loss/crossentropy": 1.5789558067917824,
      "loss/hidden": 2.875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10290305828675628,
      "step": 5411
    },
    {
      "epoch": 0.902,
      "grad_norm": 22.625,
      "grad_norm_var": 1.415625,
      "learning_rate": 2.358972900200984e-06,
      "loss": 5.9442,
      "loss/crossentropy": 1.1441315114498138,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11211634799838066,
      "step": 5412
    },
    {
      "epoch": 0.9021666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.2973307291666667,
      "learning_rate": 2.351032924139063e-06,
      "loss": 5.9318,
      "loss/crossentropy": 1.1943779438734055,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16159377433359623,
      "step": 5413
    },
    {
      "epoch": 0.9023333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3393229166666667,
      "learning_rate": 2.343106011311702e-06,
      "loss": 6.3098,
      "loss/crossentropy": 0.9843152388930321,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08245607139542699,
      "step": 5414
    },
    {
      "epoch": 0.9025,
      "grad_norm": 21.5,
      "grad_norm_var": 1.3317057291666667,
      "learning_rate": 2.3351921638921194e-06,
      "loss": 6.0584,
      "loss/crossentropy": 2.045255959033966,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1452779620885849,
      "step": 5415
    },
    {
      "epoch": 0.9026666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 1.3421223958333333,
      "learning_rate": 2.32729138404994e-06,
      "loss": 5.8172,
      "loss/crossentropy": 2.2895936965942383,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1401426810771227,
      "step": 5416
    },
    {
      "epoch": 0.9028333333333334,
      "grad_norm": 4211081216.0,
      "grad_norm_var": 1.1083253017810218e+18,
      "learning_rate": 2.319403673951204e-06,
      "loss": 6.3544,
      "loss/crossentropy": 1.5605921000242233,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16214092262089252,
      "step": 5417
    },
    {
      "epoch": 0.903,
      "grad_norm": 20.625,
      "grad_norm_var": 1.108325301855593e+18,
      "learning_rate": 2.3115290357583696e-06,
      "loss": 5.8832,
      "loss/crossentropy": 1.7414822578430176,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1221072431653738,
      "step": 5418
    },
    {
      "epoch": 0.9031666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 1.1083253018906853e+18,
      "learning_rate": 2.3036674716303275e-06,
      "loss": 6.0514,
      "loss/crossentropy": 1.4941213726997375,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1269630827009678,
      "step": 5419
    },
    {
      "epoch": 0.9033333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 1.1083253017459295e+18,
      "learning_rate": 2.295818983722353e-06,
      "loss": 6.0291,
      "loss/crossentropy": 1.5240130871534348,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15556636080145836,
      "step": 5420
    },
    {
      "epoch": 0.9035,
      "grad_norm": 20.625,
      "grad_norm_var": 1.108325301759089e+18,
      "learning_rate": 2.2879835741861586e-06,
      "loss": 6.0362,
      "loss/crossentropy": 1.141378253698349,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15979039669036865,
      "step": 5421
    },
    {
      "epoch": 0.9036666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.1083253017941814e+18,
      "learning_rate": 2.2801612451698705e-06,
      "loss": 5.8647,
      "loss/crossentropy": 0.9322891384363174,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10079632373526692,
      "step": 5422
    },
    {
      "epoch": 0.9038333333333334,
      "grad_norm": 22.0,
      "grad_norm_var": 1.1083253017283832e+18,
      "learning_rate": 2.272351998818023e-06,
      "loss": 6.22,
      "loss/crossentropy": 1.8314469456672668,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14745765179395676,
      "step": 5423
    },
    {
      "epoch": 0.904,
      "grad_norm": 19.875,
      "grad_norm_var": 1.1083253018380468e+18,
      "learning_rate": 2.2645558372715593e-06,
      "loss": 6.3328,
      "loss/crossentropy": 2.2047685086727142,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1577009279280901,
      "step": 5424
    },
    {
      "epoch": 0.9041666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.1083253018950719e+18,
      "learning_rate": 2.2567727626678527e-06,
      "loss": 6.293,
      "loss/crossentropy": 1.93081334233284,
      "loss/hidden": 3.34765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20890106074512005,
      "step": 5425
    },
    {
      "epoch": 0.9043333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.108325301903845e+18,
      "learning_rate": 2.2490027771406687e-06,
      "loss": 6.1567,
      "loss/crossentropy": 1.7871509790420532,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15488820150494576,
      "step": 5426
    },
    {
      "epoch": 0.9045,
      "grad_norm": 22.5,
      "grad_norm_var": 1.1083253018336603e+18,
      "learning_rate": 2.2412458828201977e-06,
      "loss": 6.3072,
      "loss/crossentropy": 1.254314363002777,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10286910086870193,
      "step": 5427
    },
    {
      "epoch": 0.9046666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 1.10832530184682e+18,
      "learning_rate": 2.2335020818330333e-06,
      "loss": 5.9874,
      "loss/crossentropy": 1.4565833508968353,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.23774731904268265,
      "step": 5428
    },
    {
      "epoch": 0.9048333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.1083253017854083e+18,
      "learning_rate": 2.2257713763021827e-06,
      "loss": 6.2058,
      "loss/crossentropy": 0.9005925059318542,
      "loss/hidden": 2.8046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.06799862999469042,
      "step": 5429
    },
    {
      "epoch": 0.905,
      "grad_norm": 22.875,
      "grad_norm_var": 1.1083253017634756e+18,
      "learning_rate": 2.2180537683470616e-06,
      "loss": 6.2218,
      "loss/crossentropy": 1.2587446719408035,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.07625420019030571,
      "step": 5430
    },
    {
      "epoch": 0.9051666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1083253017503159e+18,
      "learning_rate": 2.210349260083494e-06,
      "loss": 6.2127,
      "loss/crossentropy": 1.448257401585579,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12016473524272442,
      "step": 5431
    },
    {
      "epoch": 0.9053333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.108325301759089e+18,
      "learning_rate": 2.202657853623724e-06,
      "loss": 6.0415,
      "loss/crossentropy": 1.1672315299510956,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1679523978382349,
      "step": 5432
    },
    {
      "epoch": 0.9055,
      "grad_norm": 25.0,
      "grad_norm_var": 1.8936848958333334,
      "learning_rate": 2.194979551076387e-06,
      "loss": 6.2292,
      "loss/crossentropy": 1.0436833053827286,
      "loss/hidden": 2.84765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08682290837168694,
      "step": 5433
    },
    {
      "epoch": 0.9056666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.8473307291666667,
      "learning_rate": 2.1873143545465323e-06,
      "loss": 5.7338,
      "loss/crossentropy": 1.6190034747123718,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11366681754589081,
      "step": 5434
    },
    {
      "epoch": 0.9058333333333334,
      "grad_norm": 22.375,
      "grad_norm_var": 1.7254557291666666,
      "learning_rate": 2.1796622661356237e-06,
      "loss": 5.6307,
      "loss/crossentropy": 1.3750124871730804,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1194332018494606,
      "step": 5435
    },
    {
      "epoch": 0.906,
      "grad_norm": 21.875,
      "grad_norm_var": 1.6348307291666666,
      "learning_rate": 2.17202328794151e-06,
      "loss": 6.4732,
      "loss/crossentropy": 1.7258742153644562,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.27165910229086876,
      "step": 5436
    },
    {
      "epoch": 0.9061666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 1.8697916666666667,
      "learning_rate": 2.164397422058473e-06,
      "loss": 5.6607,
      "loss/crossentropy": 0.8619639873504639,
      "loss/hidden": 3.43359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1418046746402979,
      "step": 5437
    },
    {
      "epoch": 0.9063333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.8197916666666667,
      "learning_rate": 2.156784670577189e-06,
      "loss": 6.3503,
      "loss/crossentropy": 1.2940338253974915,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16775134578347206,
      "step": 5438
    },
    {
      "epoch": 0.9065,
      "grad_norm": 22.75,
      "grad_norm_var": 1.8893229166666667,
      "learning_rate": 2.1491850355847332e-06,
      "loss": 6.2655,
      "loss/crossentropy": 1.3395503759384155,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09056897275149822,
      "step": 5439
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 23.0,
      "grad_norm_var": 1.7379557291666667,
      "learning_rate": 2.1415985191645893e-06,
      "loss": 6.8014,
      "loss/crossentropy": 1.6576715111732483,
      "loss/hidden": 3.7578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.491631705313921,
      "step": 5440
    },
    {
      "epoch": 0.9068333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 1.715625,
      "learning_rate": 2.134025123396638e-06,
      "loss": 5.9118,
      "loss/crossentropy": 1.4179762601852417,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13868249580264091,
      "step": 5441
    },
    {
      "epoch": 0.907,
      "grad_norm": 22.375,
      "grad_norm_var": 1.6301432291666667,
      "learning_rate": 2.126464850357174e-06,
      "loss": 6.0995,
      "loss/crossentropy": 1.6406600326299667,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1481540179811418,
      "step": 5442
    },
    {
      "epoch": 0.9071666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 2.6254557291666667,
      "learning_rate": 2.118917702118889e-06,
      "loss": 6.1028,
      "loss/crossentropy": 1.4368171244859695,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13287665881216526,
      "step": 5443
    },
    {
      "epoch": 0.9073333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 3.0082682291666667,
      "learning_rate": 2.111383680750878e-06,
      "loss": 5.9283,
      "loss/crossentropy": 1.8034101575613022,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13259277865290642,
      "step": 5444
    },
    {
      "epoch": 0.9075,
      "grad_norm": 22.125,
      "grad_norm_var": 3.0082682291666667,
      "learning_rate": 2.103862788318628e-06,
      "loss": 6.1268,
      "loss/crossentropy": 1.4625092148780823,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16319109871983528,
      "step": 5445
    },
    {
      "epoch": 0.9076666666666666,
      "grad_norm": 20.375,
      "grad_norm_var": 3.1306640625,
      "learning_rate": 2.096355026884045e-06,
      "loss": 5.7967,
      "loss/crossentropy": 1.5170694291591644,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.21832679770886898,
      "step": 5446
    },
    {
      "epoch": 0.9078333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 3.135872395833333,
      "learning_rate": 2.0888603985054154e-06,
      "loss": 6.1405,
      "loss/crossentropy": 1.6174076199531555,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1699169985949993,
      "step": 5447
    },
    {
      "epoch": 0.908,
      "grad_norm": 20.125,
      "grad_norm_var": 3.135872395833333,
      "learning_rate": 2.0813789052374353e-06,
      "loss": 6.1209,
      "loss/crossentropy": 1.4394062161445618,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.205320468172431,
      "step": 5448
    },
    {
      "epoch": 0.9081666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 2.457747395833333,
      "learning_rate": 2.0739105491312027e-06,
      "loss": 5.8422,
      "loss/crossentropy": 1.0478209555149078,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16846244409680367,
      "step": 5449
    },
    {
      "epoch": 0.9083333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 2.434309895833333,
      "learning_rate": 2.066455332234213e-06,
      "loss": 6.3352,
      "loss/crossentropy": 1.5150584429502487,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.11388188786804676,
      "step": 5450
    },
    {
      "epoch": 0.9085,
      "grad_norm": 19.5,
      "grad_norm_var": 2.7143229166666667,
      "learning_rate": 2.0590132565903476e-06,
      "loss": 6.0745,
      "loss/crossentropy": 1.208293616771698,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09808390773832798,
      "step": 5451
    },
    {
      "epoch": 0.9086666666666666,
      "grad_norm": 23.25,
      "grad_norm_var": 2.8869140625,
      "learning_rate": 2.051584324239897e-06,
      "loss": 6.1896,
      "loss/crossentropy": 0.9843189269304276,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08771347999572754,
      "step": 5452
    },
    {
      "epoch": 0.9088333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 2.5660807291666665,
      "learning_rate": 2.0441685372195484e-06,
      "loss": 6.1219,
      "loss/crossentropy": 1.200455829501152,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09092726372182369,
      "step": 5453
    },
    {
      "epoch": 0.909,
      "grad_norm": 19.625,
      "grad_norm_var": 2.87265625,
      "learning_rate": 2.036765897562376e-06,
      "loss": 5.7565,
      "loss/crossentropy": 1.293506681919098,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1693121986463666,
      "step": 5454
    },
    {
      "epoch": 0.9091666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 3.0468098958333334,
      "learning_rate": 2.0293764072978618e-06,
      "loss": 5.7784,
      "loss/crossentropy": 1.875516265630722,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16119500994682312,
      "step": 5455
    },
    {
      "epoch": 0.9093333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 3.012434895833333,
      "learning_rate": 2.022000068451868e-06,
      "loss": 6.2041,
      "loss/crossentropy": 1.6025805622339249,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13339624740183353,
      "step": 5456
    },
    {
      "epoch": 0.9095,
      "grad_norm": 21.625,
      "grad_norm_var": 2.9822265625,
      "learning_rate": 2.0146368830466667e-06,
      "loss": 6.0526,
      "loss/crossentropy": 1.6039432436227798,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.12509585544466972,
      "step": 5457
    },
    {
      "epoch": 0.9096666666666666,
      "grad_norm": 22.125,
      "grad_norm_var": 2.9530598958333334,
      "learning_rate": 2.007286853100915e-06,
      "loss": 6.0868,
      "loss/crossentropy": 1.3162090480327606,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10837204940617085,
      "step": 5458
    },
    {
      "epoch": 0.9098333333333334,
      "grad_norm": 20.0,
      "grad_norm_var": 1.4968098958333333,
      "learning_rate": 1.9999499806296675e-06,
      "loss": 5.9596,
      "loss/crossentropy": 1.678779274225235,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15057976730167866,
      "step": 5459
    },
    {
      "epoch": 0.91,
      "grad_norm": 23.375,
      "grad_norm_var": 1.7177083333333334,
      "learning_rate": 1.99262626764436e-06,
      "loss": 6.0984,
      "loss/crossentropy": 1.2688935697078705,
      "loss/hidden": 3.45703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1428951406851411,
      "step": 5460
    },
    {
      "epoch": 0.9101666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.7177083333333334,
      "learning_rate": 1.985315716152847e-06,
      "loss": 6.1449,
      "loss/crossentropy": 1.5215014219284058,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1244499608874321,
      "step": 5461
    },
    {
      "epoch": 0.9103333333333333,
      "grad_norm": 19.625,
      "grad_norm_var": 1.8372395833333333,
      "learning_rate": 1.978018328159342e-06,
      "loss": 6.1795,
      "loss/crossentropy": 1.3899450898170471,
      "loss/hidden": 2.93359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08411075174808502,
      "step": 5462
    },
    {
      "epoch": 0.9105,
      "grad_norm": 23.75,
      "grad_norm_var": 2.2478515625,
      "learning_rate": 1.9707341056644736e-06,
      "loss": 6.2531,
      "loss/crossentropy": 1.7537308931350708,
      "loss/hidden": 3.48046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1958265770226717,
      "step": 5463
    },
    {
      "epoch": 0.9106666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 2.2478515625,
      "learning_rate": 1.963463050665254e-06,
      "loss": 6.1249,
      "loss/crossentropy": 1.6209390759468079,
      "loss/hidden": 3.484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19426671043038368,
      "step": 5464
    },
    {
      "epoch": 0.9108333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 2.221875,
      "learning_rate": 1.956205165155078e-06,
      "loss": 5.7276,
      "loss/crossentropy": 1.1081483364105225,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08502906374633312,
      "step": 5465
    },
    {
      "epoch": 0.911,
      "grad_norm": 22.75,
      "grad_norm_var": 2.338997395833333,
      "learning_rate": 1.9489604511237326e-06,
      "loss": 6.121,
      "loss/crossentropy": 1.9708252549171448,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1740864235907793,
      "step": 5466
    },
    {
      "epoch": 0.9111666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 2.184375,
      "learning_rate": 1.9417289105574053e-06,
      "loss": 5.9774,
      "loss/crossentropy": 1.0781335458159447,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11557960323989391,
      "step": 5467
    },
    {
      "epoch": 0.9113333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 2.0317057291666667,
      "learning_rate": 1.9345105454386613e-06,
      "loss": 5.873,
      "loss/crossentropy": 1.3650506436824799,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14812667667865753,
      "step": 5468
    },
    {
      "epoch": 0.9115,
      "grad_norm": 21.5,
      "grad_norm_var": 1.9895182291666667,
      "learning_rate": 1.9273053577464618e-06,
      "loss": 6.2723,
      "loss/crossentropy": 1.7646154463291168,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12175111845135689,
      "step": 5469
    },
    {
      "epoch": 0.9116666666666666,
      "grad_norm": 19.5,
      "grad_norm_var": 2.0205729166666666,
      "learning_rate": 1.920113349456143e-06,
      "loss": 5.8671,
      "loss/crossentropy": 0.894794762134552,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10054020956158638,
      "step": 5470
    },
    {
      "epoch": 0.9118333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 1.91640625,
      "learning_rate": 1.9129345225394334e-06,
      "loss": 5.9195,
      "loss/crossentropy": 1.6464198529720306,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13761139661073685,
      "step": 5471
    },
    {
      "epoch": 0.912,
      "grad_norm": 20.5,
      "grad_norm_var": 1.83515625,
      "learning_rate": 1.9057688789644478e-06,
      "loss": 6.1059,
      "loss/crossentropy": 1.3743648827075958,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11501817218959332,
      "step": 5472
    },
    {
      "epoch": 0.9121666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.8931640625,
      "learning_rate": 1.8986164206957035e-06,
      "loss": 5.9,
      "loss/crossentropy": 1.7444036900997162,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1680748499929905,
      "step": 5473
    },
    {
      "epoch": 0.9123333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1.9059895833333333,
      "learning_rate": 1.8914771496940764e-06,
      "loss": 6.5197,
      "loss/crossentropy": 1.4937400668859482,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1263498105108738,
      "step": 5474
    },
    {
      "epoch": 0.9125,
      "grad_norm": 23.5,
      "grad_norm_var": 2.008072916666667,
      "learning_rate": 1.8843510679168341e-06,
      "loss": 6.5778,
      "loss/crossentropy": 1.593506708741188,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18464303389191628,
      "step": 5475
    },
    {
      "epoch": 0.9126666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 1.8879557291666667,
      "learning_rate": 1.8772381773176417e-06,
      "loss": 6.3505,
      "loss/crossentropy": 2.016690254211426,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15844753198325634,
      "step": 5476
    },
    {
      "epoch": 0.9128333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.9572265625,
      "learning_rate": 1.8701384798465281e-06,
      "loss": 6.1617,
      "loss/crossentropy": 1.3422678261995316,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0861116461455822,
      "step": 5477
    },
    {
      "epoch": 0.913,
      "grad_norm": 22.625,
      "grad_norm_var": 1.7728515625,
      "learning_rate": 1.8630519774499144e-06,
      "loss": 6.5001,
      "loss/crossentropy": 1.0974986925721169,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11684961058199406,
      "step": 5478
    },
    {
      "epoch": 0.9131666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4681640625,
      "learning_rate": 1.8559786720706184e-06,
      "loss": 6.4777,
      "loss/crossentropy": 1.579323947429657,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14984086714684963,
      "step": 5479
    },
    {
      "epoch": 0.9133333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.3270833333333334,
      "learning_rate": 1.8489185656478225e-06,
      "loss": 6.2244,
      "loss/crossentropy": 1.0918266475200653,
      "loss/hidden": 3.46875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13942034915089607,
      "step": 5480
    },
    {
      "epoch": 0.9135,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3309895833333334,
      "learning_rate": 1.841871660117095e-06,
      "loss": 5.8434,
      "loss/crossentropy": 1.2120979875326157,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11568544246256351,
      "step": 5481
    },
    {
      "epoch": 0.9136666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 1.3624348958333334,
      "learning_rate": 1.8348379574103791e-06,
      "loss": 5.9994,
      "loss/crossentropy": 1.4975523501634598,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13986298628151417,
      "step": 5482
    },
    {
      "epoch": 0.9138333333333334,
      "grad_norm": 22.625,
      "grad_norm_var": 1.3624348958333334,
      "learning_rate": 1.8278174594560049e-06,
      "loss": 6.3052,
      "loss/crossentropy": 1.8137272894382477,
      "loss/hidden": 3.54296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2320825457572937,
      "step": 5483
    },
    {
      "epoch": 0.914,
      "grad_norm": 18.25,
      "grad_norm_var": 1.9145833333333333,
      "learning_rate": 1.8208101681786882e-06,
      "loss": 5.7841,
      "loss/crossentropy": 0.9879933781921864,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07787206396460533,
      "step": 5484
    },
    {
      "epoch": 0.9141666666666667,
      "grad_norm": 25.75,
      "grad_norm_var": 3.220572916666667,
      "learning_rate": 1.8138160854995145e-06,
      "loss": 6.6784,
      "loss/crossentropy": 1.2572120279073715,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1532947514206171,
      "step": 5485
    },
    {
      "epoch": 0.9143333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.952018229166667,
      "learning_rate": 1.8068352133359557e-06,
      "loss": 5.952,
      "loss/crossentropy": 1.4911123663187027,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12564536929130554,
      "step": 5486
    },
    {
      "epoch": 0.9145,
      "grad_norm": 21.875,
      "grad_norm_var": 2.8061848958333333,
      "learning_rate": 1.7998675536018472e-06,
      "loss": 6.2251,
      "loss/crossentropy": 1.3861779272556305,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16036061756312847,
      "step": 5487
    },
    {
      "epoch": 0.9146666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 2.7431640625,
      "learning_rate": 1.792913108207417e-06,
      "loss": 6.0124,
      "loss/crossentropy": 1.7484987378120422,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16894741728901863,
      "step": 5488
    },
    {
      "epoch": 0.9148333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 2.7067057291666665,
      "learning_rate": 1.7859718790592727e-06,
      "loss": 6.0259,
      "loss/crossentropy": 1.4137415140867233,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10554033890366554,
      "step": 5489
    },
    {
      "epoch": 0.915,
      "grad_norm": 24.0,
      "grad_norm_var": 3.020247395833333,
      "learning_rate": 1.779043868060376e-06,
      "loss": 6.3436,
      "loss/crossentropy": 1.6452992409467697,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11881773918867111,
      "step": 5490
    },
    {
      "epoch": 0.9151666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 2.8264973958333335,
      "learning_rate": 1.7721290771100961e-06,
      "loss": 5.8651,
      "loss/crossentropy": 1.0028902292251587,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12865445669740438,
      "step": 5491
    },
    {
      "epoch": 0.9153333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 2.749739583333333,
      "learning_rate": 1.7652275081041557e-06,
      "loss": 6.3262,
      "loss/crossentropy": 1.5801464319229126,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1550314910709858,
      "step": 5492
    },
    {
      "epoch": 0.9155,
      "grad_norm": 19.375,
      "grad_norm_var": 2.9809895833333333,
      "learning_rate": 1.758339162934658e-06,
      "loss": 5.5804,
      "loss/crossentropy": 1.6982615292072296,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1459333375096321,
      "step": 5493
    },
    {
      "epoch": 0.9156666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 2.9114583333333335,
      "learning_rate": 1.7514640434900865e-06,
      "loss": 6.2271,
      "loss/crossentropy": 1.6325962543487549,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1267104707658291,
      "step": 5494
    },
    {
      "epoch": 0.9158333333333334,
      "grad_norm": 19.0,
      "grad_norm_var": 3.3125,
      "learning_rate": 1.744602151655289e-06,
      "loss": 5.7327,
      "loss/crossentropy": 1.799307495355606,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17471033334732056,
      "step": 5495
    },
    {
      "epoch": 0.916,
      "grad_norm": 20.875,
      "grad_norm_var": 3.3264973958333335,
      "learning_rate": 1.7377534893115e-06,
      "loss": 6.4297,
      "loss/crossentropy": 1.8342776596546173,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12520248629152775,
      "step": 5496
    },
    {
      "epoch": 0.9161666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 3.3577473958333335,
      "learning_rate": 1.730918058336306e-06,
      "loss": 6.0972,
      "loss/crossentropy": 1.4734138250350952,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15911111794412136,
      "step": 5497
    },
    {
      "epoch": 0.9163333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 3.324934895833333,
      "learning_rate": 1.7240958606036916e-06,
      "loss": 6.257,
      "loss/crossentropy": 0.9877547174692154,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09778949618339539,
      "step": 5498
    },
    {
      "epoch": 0.9165,
      "grad_norm": 21.875,
      "grad_norm_var": 3.2405598958333335,
      "learning_rate": 1.717286897983994e-06,
      "loss": 6.2246,
      "loss/crossentropy": 1.6610780358314514,
      "loss/hidden": 3.44140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.250664547085762,
      "step": 5499
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 20.0,
      "grad_norm_var": 2.7009765625,
      "learning_rate": 1.7104911723439309e-06,
      "loss": 5.7597,
      "loss/crossentropy": 1.1868464648723602,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13659527897834778,
      "step": 5500
    },
    {
      "epoch": 0.9168333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4122395833333334,
      "learning_rate": 1.70370868554659e-06,
      "loss": 6.0597,
      "loss/crossentropy": 1.3646446913480759,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10036017186939716,
      "step": 5501
    },
    {
      "epoch": 0.917,
      "grad_norm": 20.875,
      "grad_norm_var": 1.41640625,
      "learning_rate": 1.6969394394514281e-06,
      "loss": 6.0756,
      "loss/crossentropy": 1.205509565770626,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11592604778707027,
      "step": 5502
    },
    {
      "epoch": 0.9171666666666667,
      "grad_norm": 19.375,
      "grad_norm_var": 1.57265625,
      "learning_rate": 1.690183435914261e-06,
      "loss": 5.5116,
      "loss/crossentropy": 2.064783424139023,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14353611692786217,
      "step": 5503
    },
    {
      "epoch": 0.9173333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.6330729166666667,
      "learning_rate": 1.6834406767873068e-06,
      "loss": 6.1244,
      "loss/crossentropy": 2.031541168689728,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14810393005609512,
      "step": 5504
    },
    {
      "epoch": 0.9175,
      "grad_norm": 19.25,
      "grad_norm_var": 1.8393229166666667,
      "learning_rate": 1.6767111639191202e-06,
      "loss": 6.0807,
      "loss/crossentropy": 1.2534254342317581,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1530299074947834,
      "step": 5505
    },
    {
      "epoch": 0.9176666666666666,
      "grad_norm": 21.0,
      "grad_norm_var": 1.1955729166666667,
      "learning_rate": 1.6699948991546366e-06,
      "loss": 5.9946,
      "loss/crossentropy": 1.2214931547641754,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11691256333142519,
      "step": 5506
    },
    {
      "epoch": 0.9178333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.3801432291666667,
      "learning_rate": 1.6632918843351553e-06,
      "loss": 6.0199,
      "loss/crossentropy": 1.0755364745855331,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09345713071525097,
      "step": 5507
    },
    {
      "epoch": 0.918,
      "grad_norm": 22.375,
      "grad_norm_var": 1.4910807291666666,
      "learning_rate": 1.6566021212983507e-06,
      "loss": 6.1806,
      "loss/crossentropy": 1.146351732313633,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11761198751628399,
      "step": 5508
    },
    {
      "epoch": 0.9181666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.3872395833333333,
      "learning_rate": 1.6499256118782503e-06,
      "loss": 5.8875,
      "loss/crossentropy": 1.6251339763402939,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16860124468803406,
      "step": 5509
    },
    {
      "epoch": 0.9183333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 1.4082682291666666,
      "learning_rate": 1.643262357905262e-06,
      "loss": 6.2849,
      "loss/crossentropy": 2.490282416343689,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1523008979856968,
      "step": 5510
    },
    {
      "epoch": 0.9185,
      "grad_norm": 18.25,
      "grad_norm_var": 1.6254557291666667,
      "learning_rate": 1.6366123612061636e-06,
      "loss": 5.6373,
      "loss/crossentropy": 1.2160076797008514,
      "loss/hidden": 2.9140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09718965832144022,
      "step": 5511
    },
    {
      "epoch": 0.9186666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 1.6478515625,
      "learning_rate": 1.629975623604074e-06,
      "loss": 5.9318,
      "loss/crossentropy": 1.6924434304237366,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12752769142389297,
      "step": 5512
    },
    {
      "epoch": 0.9188333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 1.7166666666666666,
      "learning_rate": 1.6233521469185054e-06,
      "loss": 5.5415,
      "loss/crossentropy": 1.276771292090416,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13132480531930923,
      "step": 5513
    },
    {
      "epoch": 0.919,
      "grad_norm": 21.125,
      "grad_norm_var": 1.5434895833333333,
      "learning_rate": 1.6167419329653156e-06,
      "loss": 5.9096,
      "loss/crossentropy": 1.3732537925243378,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16786978393793106,
      "step": 5514
    },
    {
      "epoch": 0.9191666666666667,
      "grad_norm": 19.0,
      "grad_norm_var": 1.5988932291666667,
      "learning_rate": 1.6101449835567273e-06,
      "loss": 5.606,
      "loss/crossentropy": 1.2851319015026093,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1031350176781416,
      "step": 5515
    },
    {
      "epoch": 0.9193333333333333,
      "grad_norm": 19.0,
      "grad_norm_var": 1.7270182291666667,
      "learning_rate": 1.6035613005013383e-06,
      "loss": 5.5362,
      "loss/crossentropy": 1.000225841999054,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1296076299622655,
      "step": 5516
    },
    {
      "epoch": 0.9195,
      "grad_norm": 21.125,
      "grad_norm_var": 1.7270182291666667,
      "learning_rate": 1.596990885604105e-06,
      "loss": 6.0478,
      "loss/crossentropy": 1.6558326035737991,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15912321209907532,
      "step": 5517
    },
    {
      "epoch": 0.9196666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 1.7885416666666667,
      "learning_rate": 1.5904337406663416e-06,
      "loss": 6.0652,
      "loss/crossentropy": 1.5904809534549713,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12183374259620905,
      "step": 5518
    },
    {
      "epoch": 0.9198333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.70390625,
      "learning_rate": 1.5838898674857272e-06,
      "loss": 5.9929,
      "loss/crossentropy": 1.3803631365299225,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16513856872916222,
      "step": 5519
    },
    {
      "epoch": 0.92,
      "grad_norm": 23.0,
      "grad_norm_var": 1.96015625,
      "learning_rate": 1.5773592678562932e-06,
      "loss": 6.4142,
      "loss/crossentropy": 1.575990453362465,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12910529226064682,
      "step": 5520
    },
    {
      "epoch": 0.9201666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.8712890625,
      "learning_rate": 1.5708419435684462e-06,
      "loss": 5.9161,
      "loss/crossentropy": 0.9370524808764458,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0903430893085897,
      "step": 5521
    },
    {
      "epoch": 0.9203333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 2.3791015625,
      "learning_rate": 1.5643378964089518e-06,
      "loss": 6.0846,
      "loss/crossentropy": 1.3870977014303207,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1841896641999483,
      "step": 5522
    },
    {
      "epoch": 0.9205,
      "grad_norm": 19.875,
      "grad_norm_var": 2.184309895833333,
      "learning_rate": 1.5578471281609276e-06,
      "loss": 5.8439,
      "loss/crossentropy": 1.1091274917125702,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15718104876577854,
      "step": 5523
    },
    {
      "epoch": 0.9206666666666666,
      "grad_norm": 18.375,
      "grad_norm_var": 2.255143229166667,
      "learning_rate": 1.5513696406038558e-06,
      "loss": 5.4731,
      "loss/crossentropy": 1.740315020084381,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12330458126962185,
      "step": 5524
    },
    {
      "epoch": 0.9208333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 2.379166666666667,
      "learning_rate": 1.5449054355135717e-06,
      "loss": 6.3246,
      "loss/crossentropy": 2.06974758207798,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14715324342250824,
      "step": 5525
    },
    {
      "epoch": 0.921,
      "grad_norm": 21.25,
      "grad_norm_var": 2.3697916666666665,
      "learning_rate": 1.5384545146622852e-06,
      "loss": 6.2779,
      "loss/crossentropy": 1.6121246963739395,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16345964930951595,
      "step": 5526
    },
    {
      "epoch": 0.9211666666666667,
      "grad_norm": 23.625,
      "grad_norm_var": 2.4957682291666665,
      "learning_rate": 1.532016879818532e-06,
      "loss": 6.1595,
      "loss/crossentropy": 1.3608491122722626,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11885320767760277,
      "step": 5527
    },
    {
      "epoch": 0.9213333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.5268229166666667,
      "learning_rate": 1.5255925327472553e-06,
      "loss": 6.2275,
      "loss/crossentropy": 1.683426395058632,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14934473671019077,
      "step": 5528
    },
    {
      "epoch": 0.9215,
      "grad_norm": 22.375,
      "grad_norm_var": 2.536393229166667,
      "learning_rate": 1.5191814752097023e-06,
      "loss": 6.1524,
      "loss/crossentropy": 1.3485284596681595,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10726277204230428,
      "step": 5529
    },
    {
      "epoch": 0.9216666666666666,
      "grad_norm": 22.5,
      "grad_norm_var": 2.655989583333333,
      "learning_rate": 1.5127837089635111e-06,
      "loss": 6.0909,
      "loss/crossentropy": 1.2002671509981155,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16272313240915537,
      "step": 5530
    },
    {
      "epoch": 0.9218333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 2.324934895833333,
      "learning_rate": 1.506399235762662e-06,
      "loss": 6.0221,
      "loss/crossentropy": 1.7921080589294434,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17202049307525158,
      "step": 5531
    },
    {
      "epoch": 0.922,
      "grad_norm": 20.0,
      "grad_norm_var": 2.0780598958333334,
      "learning_rate": 1.5000280573574998e-06,
      "loss": 5.8547,
      "loss/crossentropy": 1.6257236003875732,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17967767640948296,
      "step": 5532
    },
    {
      "epoch": 0.9221666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.0833333333333335,
      "learning_rate": 1.4936701754947101e-06,
      "loss": 6.0772,
      "loss/crossentropy": 2.0150513350963593,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14297548681497574,
      "step": 5533
    },
    {
      "epoch": 0.9223333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 2.1166015625,
      "learning_rate": 1.487325591917349e-06,
      "loss": 6.0088,
      "loss/crossentropy": 1.3574664741754532,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14529965352267027,
      "step": 5534
    },
    {
      "epoch": 0.9225,
      "grad_norm": 24.125,
      "grad_norm_var": 2.557747395833333,
      "learning_rate": 1.4809943083648192e-06,
      "loss": 6.5096,
      "loss/crossentropy": 1.3115672767162323,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16478554904460907,
      "step": 5535
    },
    {
      "epoch": 0.9226666666666666,
      "grad_norm": 23.0,
      "grad_norm_var": 2.557747395833333,
      "learning_rate": 1.474676326572877e-06,
      "loss": 6.2662,
      "loss/crossentropy": 1.2443228662014008,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1279154885560274,
      "step": 5536
    },
    {
      "epoch": 0.9228333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 2.363997395833333,
      "learning_rate": 1.4683716482736366e-06,
      "loss": 6.0998,
      "loss/crossentropy": 1.3012931048870087,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18721232190728188,
      "step": 5537
    },
    {
      "epoch": 0.923,
      "grad_norm": 18.75,
      "grad_norm_var": 2.6113932291666666,
      "learning_rate": 1.4620802751955541e-06,
      "loss": 5.7697,
      "loss/crossentropy": 2.1180707216262817,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1735629364848137,
      "step": 5538
    },
    {
      "epoch": 0.9231666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 2.4749348958333335,
      "learning_rate": 1.4558022090634504e-06,
      "loss": 5.9632,
      "loss/crossentropy": 1.983092874288559,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18503043428063393,
      "step": 5539
    },
    {
      "epoch": 0.9233333333333333,
      "grad_norm": 23.875,
      "grad_norm_var": 2.1254557291666667,
      "learning_rate": 1.4495374515984928e-06,
      "loss": 6.1959,
      "loss/crossentropy": 1.9640268385410309,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.2016095519065857,
      "step": 5540
    },
    {
      "epoch": 0.9235,
      "grad_norm": 23.5,
      "grad_norm_var": 2.3125,
      "learning_rate": 1.4432860045182017e-06,
      "loss": 6.0691,
      "loss/crossentropy": 1.432532325387001,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2007366232573986,
      "step": 5541
    },
    {
      "epoch": 0.9236666666666666,
      "grad_norm": 24.375,
      "grad_norm_var": 2.6624348958333335,
      "learning_rate": 1.4370478695364398e-06,
      "loss": 6.2061,
      "loss/crossentropy": 1.4815983697772026,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12991147860884666,
      "step": 5542
    },
    {
      "epoch": 0.9238333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 2.542122395833333,
      "learning_rate": 1.4308230483634333e-06,
      "loss": 6.2861,
      "loss/crossentropy": 2.010363221168518,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14467916265130043,
      "step": 5543
    },
    {
      "epoch": 0.924,
      "grad_norm": 24.25,
      "grad_norm_var": 2.8416015625,
      "learning_rate": 1.4246115427057504e-06,
      "loss": 6.3725,
      "loss/crossentropy": 1.3080825358629227,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12688695825636387,
      "step": 5544
    },
    {
      "epoch": 0.9241666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 2.9067057291666667,
      "learning_rate": 1.4184133542663014e-06,
      "loss": 5.7114,
      "loss/crossentropy": 1.6903190612792969,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1383884958922863,
      "step": 5545
    },
    {
      "epoch": 0.9243333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 2.9020182291666665,
      "learning_rate": 1.4122284847443713e-06,
      "loss": 6.0915,
      "loss/crossentropy": 0.9460279196500778,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0772966155782342,
      "step": 5546
    },
    {
      "epoch": 0.9245,
      "grad_norm": 19.125,
      "grad_norm_var": 3.3686848958333333,
      "learning_rate": 1.4060569358355702e-06,
      "loss": 5.6988,
      "loss/crossentropy": 1.5489919558167458,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09275137260556221,
      "step": 5547
    },
    {
      "epoch": 0.9246666666666666,
      "grad_norm": 23.125,
      "grad_norm_var": 3.1684895833333333,
      "learning_rate": 1.3998987092318672e-06,
      "loss": 6.4263,
      "loss/crossentropy": 1.6847748160362244,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14019982516765594,
      "step": 5548
    },
    {
      "epoch": 0.9248333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 3.0978515625,
      "learning_rate": 1.3937538066215672e-06,
      "loss": 6.2806,
      "loss/crossentropy": 1.7082254886627197,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17824435234069824,
      "step": 5549
    },
    {
      "epoch": 0.925,
      "grad_norm": 21.875,
      "grad_norm_var": 2.936393229166667,
      "learning_rate": 1.3876222296893337e-06,
      "loss": 6.2282,
      "loss/crossentropy": 1.040559932589531,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13174678198993206,
      "step": 5550
    },
    {
      "epoch": 0.9251666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 2.7244140625,
      "learning_rate": 1.3815039801161721e-06,
      "loss": 6.0585,
      "loss/crossentropy": 1.005318894982338,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10076368600130081,
      "step": 5551
    },
    {
      "epoch": 0.9253333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 2.890625,
      "learning_rate": 1.3753990595794352e-06,
      "loss": 5.9001,
      "loss/crossentropy": 1.284743294119835,
      "loss/hidden": 3.05078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11925562284886837,
      "step": 5552
    },
    {
      "epoch": 0.9255,
      "grad_norm": 21.25,
      "grad_norm_var": 2.9176432291666665,
      "learning_rate": 1.369307469752823e-06,
      "loss": 5.9118,
      "loss/crossentropy": 1.0817098319530487,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07694222033023834,
      "step": 5553
    },
    {
      "epoch": 0.9256666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 2.233268229166667,
      "learning_rate": 1.3632292123063828e-06,
      "loss": 6.0304,
      "loss/crossentropy": 1.5032632648944855,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11034255241975188,
      "step": 5554
    },
    {
      "epoch": 0.9258333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 2.18125,
      "learning_rate": 1.3571642889064984e-06,
      "loss": 6.1363,
      "loss/crossentropy": 1.9354488849639893,
      "loss/hidden": 3.44921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2751616984605789,
      "step": 5555
    },
    {
      "epoch": 0.926,
      "grad_norm": 22.0,
      "grad_norm_var": 1.9791015625,
      "learning_rate": 1.3511127012159007e-06,
      "loss": 6.3334,
      "loss/crossentropy": 1.8531910628080368,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20200730860233307,
      "step": 5556
    },
    {
      "epoch": 0.9261666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.909375,
      "learning_rate": 1.3450744508936686e-06,
      "loss": 5.931,
      "loss/crossentropy": 2.1503605991601944,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15415192767977715,
      "step": 5557
    },
    {
      "epoch": 0.9263333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.484375,
      "learning_rate": 1.339049539595233e-06,
      "loss": 6.0927,
      "loss/crossentropy": 1.9216615855693817,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1347041167318821,
      "step": 5558
    },
    {
      "epoch": 0.9265,
      "grad_norm": 21.5,
      "grad_norm_var": 1.3905598958333334,
      "learning_rate": 1.333037968972345e-06,
      "loss": 5.8729,
      "loss/crossentropy": 1.1477721333503723,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13331098295748234,
      "step": 5559
    },
    {
      "epoch": 0.9266666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 0.9247395833333333,
      "learning_rate": 1.327039740673114e-06,
      "loss": 6.3931,
      "loss/crossentropy": 1.2691755294799805,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13010836765170097,
      "step": 5560
    },
    {
      "epoch": 0.9268333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 1.0072265625,
      "learning_rate": 1.3210548563419856e-06,
      "loss": 5.5146,
      "loss/crossentropy": 1.422405794262886,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0990930013358593,
      "step": 5561
    },
    {
      "epoch": 0.927,
      "grad_norm": 22.75,
      "grad_norm_var": 1.1207682291666667,
      "learning_rate": 1.3150833176197641e-06,
      "loss": 6.1797,
      "loss/crossentropy": 1.5204676389694214,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1620219722390175,
      "step": 5562
    },
    {
      "epoch": 0.9271666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 0.7483723958333334,
      "learning_rate": 1.3091251261435566e-06,
      "loss": 6.1052,
      "loss/crossentropy": 2.0327113568782806,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.22396083921194077,
      "step": 5563
    },
    {
      "epoch": 0.9273333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 0.6458333333333334,
      "learning_rate": 1.303180283546851e-06,
      "loss": 6.0294,
      "loss/crossentropy": 1.966007113456726,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16223732754588127,
      "step": 5564
    },
    {
      "epoch": 0.9275,
      "grad_norm": 21.25,
      "grad_norm_var": 0.6452473958333333,
      "learning_rate": 1.29724879145946e-06,
      "loss": 6.0912,
      "loss/crossentropy": 1.4594491869211197,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15704546310007572,
      "step": 5565
    },
    {
      "epoch": 0.9276666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 0.7104166666666667,
      "learning_rate": 1.291330651507533e-06,
      "loss": 5.9952,
      "loss/crossentropy": 1.5335444808006287,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15679537877440453,
      "step": 5566
    },
    {
      "epoch": 0.9278333333333333,
      "grad_norm": 18.875,
      "grad_norm_var": 1.0802083333333334,
      "learning_rate": 1.285425865313561e-06,
      "loss": 5.8063,
      "loss/crossentropy": 1.2651313543319702,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08109968435019255,
      "step": 5567
    },
    {
      "epoch": 0.928,
      "grad_norm": 20.875,
      "grad_norm_var": 1.0122395833333333,
      "learning_rate": 1.2795344344963767e-06,
      "loss": 5.8361,
      "loss/crossentropy": 1.760406345129013,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11497770808637142,
      "step": 5568
    },
    {
      "epoch": 0.9281666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1.0309895833333333,
      "learning_rate": 1.2736563606711382e-06,
      "loss": 6.1542,
      "loss/crossentropy": 1.1022970378398895,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10311652440577745,
      "step": 5569
    },
    {
      "epoch": 0.9283333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.0247395833333333,
      "learning_rate": 1.2677916454493732e-06,
      "loss": 6.4278,
      "loss/crossentropy": 1.3459851294755936,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.14897356601431966,
      "step": 5570
    },
    {
      "epoch": 0.9285,
      "grad_norm": 28.625,
      "grad_norm_var": 4.373372395833333,
      "learning_rate": 1.2619402904389121e-06,
      "loss": 5.9585,
      "loss/crossentropy": 1.021810606122017,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1296622585505247,
      "step": 5571
    },
    {
      "epoch": 0.9286666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 4.358072916666667,
      "learning_rate": 1.2561022972439441e-06,
      "loss": 6.2869,
      "loss/crossentropy": 1.5104714259505272,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12091682152822614,
      "step": 5572
    },
    {
      "epoch": 0.9288333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 4.364518229166666,
      "learning_rate": 1.2502776674649774e-06,
      "loss": 5.9891,
      "loss/crossentropy": 1.728777527809143,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1513490527868271,
      "step": 5573
    },
    {
      "epoch": 0.929,
      "grad_norm": 23.75,
      "grad_norm_var": 4.655208333333333,
      "learning_rate": 1.2444664026988795e-06,
      "loss": 6.2604,
      "loss/crossentropy": 1.706827163696289,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13346624374389648,
      "step": 5574
    },
    {
      "epoch": 0.9291666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 4.846875,
      "learning_rate": 1.2386685045388313e-06,
      "loss": 6.4902,
      "loss/crossentropy": 1.8018641471862793,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1273442581295967,
      "step": 5575
    },
    {
      "epoch": 0.9293333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 4.79375,
      "learning_rate": 1.232883974574367e-06,
      "loss": 6.1102,
      "loss/crossentropy": 1.7045316770672798,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14912218321114779,
      "step": 5576
    },
    {
      "epoch": 0.9295,
      "grad_norm": 21.125,
      "grad_norm_var": 4.6447265625,
      "learning_rate": 1.2271128143913457e-06,
      "loss": 6.1491,
      "loss/crossentropy": 1.8105352073907852,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11800945922732353,
      "step": 5577
    },
    {
      "epoch": 0.9296666666666666,
      "grad_norm": 20.0,
      "grad_norm_var": 4.839518229166667,
      "learning_rate": 1.221355025571963e-06,
      "loss": 5.888,
      "loss/crossentropy": 1.530384749174118,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13347017019987106,
      "step": 5578
    },
    {
      "epoch": 0.9298333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 4.839518229166667,
      "learning_rate": 1.2156106096947562e-06,
      "loss": 6.0416,
      "loss/crossentropy": 1.6063650697469711,
      "loss/hidden": 3.421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23977477848529816,
      "step": 5579
    },
    {
      "epoch": 0.93,
      "grad_norm": 19.375,
      "grad_norm_var": 5.116666666666666,
      "learning_rate": 1.2098795683345766e-06,
      "loss": 5.9734,
      "loss/crossentropy": 1.475161761045456,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12302475422620773,
      "step": 5580
    },
    {
      "epoch": 0.9301666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 5.150455729166667,
      "learning_rate": 1.2041619030626284e-06,
      "loss": 6.4068,
      "loss/crossentropy": 1.3817967921495438,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11742798332124949,
      "step": 5581
    },
    {
      "epoch": 0.9303333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 5.026041666666667,
      "learning_rate": 1.1984576154464521e-06,
      "loss": 6.0721,
      "loss/crossentropy": 1.4507499635219574,
      "loss/hidden": 2.7421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08417070377618074,
      "step": 5582
    },
    {
      "epoch": 0.9305,
      "grad_norm": 22.25,
      "grad_norm_var": 4.430143229166666,
      "learning_rate": 1.1927667070498916e-06,
      "loss": 5.75,
      "loss/crossentropy": 1.442549668252468,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11631327029317617,
      "step": 5583
    },
    {
      "epoch": 0.9306666666666666,
      "grad_norm": 23.375,
      "grad_norm_var": 4.448372395833333,
      "learning_rate": 1.187089179433154e-06,
      "loss": 6.263,
      "loss/crossentropy": 1.2686699628829956,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13361993059515953,
      "step": 5584
    },
    {
      "epoch": 0.9308333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 4.437434895833333,
      "learning_rate": 1.1814250341527611e-06,
      "loss": 6.1566,
      "loss/crossentropy": 1.6436303555965424,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16309138387441635,
      "step": 5585
    },
    {
      "epoch": 0.931,
      "grad_norm": 21.25,
      "grad_norm_var": 4.357747395833333,
      "learning_rate": 1.1757742727615706e-06,
      "loss": 6.3905,
      "loss/crossentropy": 1.8832277953624725,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1564861759543419,
      "step": 5586
    },
    {
      "epoch": 0.9311666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.4426432291666667,
      "learning_rate": 1.1701368968087712e-06,
      "loss": 6.2438,
      "loss/crossentropy": 1.1867990791797638,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11016319505870342,
      "step": 5587
    },
    {
      "epoch": 0.9313333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.6598307291666667,
      "learning_rate": 1.164512907839882e-06,
      "loss": 6.0868,
      "loss/crossentropy": 1.395630657672882,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12057230807840824,
      "step": 5588
    },
    {
      "epoch": 0.9315,
      "grad_norm": 20.375,
      "grad_norm_var": 1.7330729166666667,
      "learning_rate": 1.1589023073967587e-06,
      "loss": 6.0292,
      "loss/crossentropy": 1.7392421960830688,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12319286726415157,
      "step": 5589
    },
    {
      "epoch": 0.9316666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 1.3893229166666667,
      "learning_rate": 1.1533050970175651e-06,
      "loss": 6.0051,
      "loss/crossentropy": 1.2813938856124878,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08835970982909203,
      "step": 5590
    },
    {
      "epoch": 0.9318333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.0885416666666667,
      "learning_rate": 1.1477212782368185e-06,
      "loss": 6.129,
      "loss/crossentropy": 1.5159317702054977,
      "loss/hidden": 3.546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.29616034775972366,
      "step": 5591
    },
    {
      "epoch": 0.932,
      "grad_norm": 21.625,
      "grad_norm_var": 1.0080729166666667,
      "learning_rate": 1.1421508525853553e-06,
      "loss": 5.6196,
      "loss/crossentropy": 0.8049804046750069,
      "loss/hidden": 3.02734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11364698270335793,
      "step": 5592
    },
    {
      "epoch": 0.9321666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.1348307291666666,
      "learning_rate": 1.136593821590326e-06,
      "loss": 5.9286,
      "loss/crossentropy": 1.036613941192627,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09274778515100479,
      "step": 5593
    },
    {
      "epoch": 0.9323333333333333,
      "grad_norm": 20.25,
      "grad_norm_var": 1.1025390625,
      "learning_rate": 1.13105018677524e-06,
      "loss": 5.8609,
      "loss/crossentropy": 1.451992079615593,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0968509092926979,
      "step": 5594
    },
    {
      "epoch": 0.9325,
      "grad_norm": 21.75,
      "grad_norm_var": 1.090625,
      "learning_rate": 1.1255199496599034e-06,
      "loss": 6.143,
      "loss/crossentropy": 1.9232749044895172,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1631733551621437,
      "step": 5595
    },
    {
      "epoch": 0.9326666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 0.965625,
      "learning_rate": 1.1200031117604704e-06,
      "loss": 6.382,
      "loss/crossentropy": 1.4478616118431091,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15711750462651253,
      "step": 5596
    },
    {
      "epoch": 0.9328333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1895182291666666,
      "learning_rate": 1.1144996745894032e-06,
      "loss": 6.5504,
      "loss/crossentropy": 1.8544169962406158,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1380194965749979,
      "step": 5597
    },
    {
      "epoch": 0.933,
      "grad_norm": 22.875,
      "grad_norm_var": 1.3098307291666667,
      "learning_rate": 1.1090096396555116e-06,
      "loss": 6.7939,
      "loss/crossentropy": 2.1976623833179474,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16536292433738708,
      "step": 5598
    },
    {
      "epoch": 0.9331666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 1.275,
      "learning_rate": 1.1035330084639083e-06,
      "loss": 6.4159,
      "loss/crossentropy": 1.3860515803098679,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12076499499380589,
      "step": 5599
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 20.125,
      "grad_norm_var": 1.12265625,
      "learning_rate": 1.0980697825160535e-06,
      "loss": 6.2358,
      "loss/crossentropy": 0.6180315688252449,
      "loss/hidden": 2.7734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.043741471134126186,
      "step": 5600
    },
    {
      "epoch": 0.9335,
      "grad_norm": 23.625,
      "grad_norm_var": 1.4155598958333333,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 6.3091,
      "loss/crossentropy": 1.5401983112096786,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14803637191653252,
      "step": 5601
    },
    {
      "epoch": 0.9336666666666666,
      "grad_norm": 22.0,
      "grad_norm_var": 1.4374348958333334,
      "learning_rate": 1.0871835523389995e-06,
      "loss": 5.9386,
      "loss/crossentropy": 1.644002228975296,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2000844106078148,
      "step": 5602
    },
    {
      "epoch": 0.9338333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 1.5671223958333333,
      "learning_rate": 1.081760551094324e-06,
      "loss": 6.4999,
      "loss/crossentropy": 1.370680645108223,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18521656654775143,
      "step": 5603
    },
    {
      "epoch": 0.934,
      "grad_norm": 22.25,
      "grad_norm_var": 1.39765625,
      "learning_rate": 1.0763509610624279e-06,
      "loss": 6.223,
      "loss/crossentropy": 1.9408303201198578,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15571389347314835,
      "step": 5604
    },
    {
      "epoch": 0.9341666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.5301432291666666,
      "learning_rate": 1.0709547837263966e-06,
      "loss": 5.9331,
      "loss/crossentropy": 1.6326164603233337,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13612419180572033,
      "step": 5605
    },
    {
      "epoch": 0.9343333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 1.7317057291666667,
      "learning_rate": 1.0655720205656083e-06,
      "loss": 6.0608,
      "loss/crossentropy": 1.5002569556236267,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15145561657845974,
      "step": 5606
    },
    {
      "epoch": 0.9345,
      "grad_norm": 21.875,
      "grad_norm_var": 1.6572916666666666,
      "learning_rate": 1.060202673055788e-06,
      "loss": 6.0863,
      "loss/crossentropy": 1.3230434209108353,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18250415660440922,
      "step": 5607
    },
    {
      "epoch": 0.9346666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 1.65390625,
      "learning_rate": 1.054846742668969e-06,
      "loss": 6.2369,
      "loss/crossentropy": 1.33197420835495,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1112396465614438,
      "step": 5608
    },
    {
      "epoch": 0.9348333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 1.478125,
      "learning_rate": 1.0495042308735103e-06,
      "loss": 5.9866,
      "loss/crossentropy": 1.332581803202629,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12467997800558805,
      "step": 5609
    },
    {
      "epoch": 0.935,
      "grad_norm": 25.375,
      "grad_norm_var": 1.9879557291666667,
      "learning_rate": 1.0441751391340904e-06,
      "loss": 6.5587,
      "loss/crossentropy": 1.3955131769180298,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.23660925403237343,
      "step": 5610
    },
    {
      "epoch": 0.9351666666666667,
      "grad_norm": 23.625,
      "grad_norm_var": 2.0885416666666665,
      "learning_rate": 1.0388594689117071e-06,
      "loss": 6.4074,
      "loss/crossentropy": 1.2973792850971222,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12958143465220928,
      "step": 5611
    },
    {
      "epoch": 0.9353333333333333,
      "grad_norm": 24.75,
      "grad_norm_var": 2.4509765625,
      "learning_rate": 1.0335572216636947e-06,
      "loss": 6.4902,
      "loss/crossentropy": 1.931476652622223,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1871418133378029,
      "step": 5612
    },
    {
      "epoch": 0.9355,
      "grad_norm": 22.0,
      "grad_norm_var": 2.4223307291666667,
      "learning_rate": 1.0282683988436792e-06,
      "loss": 5.7285,
      "loss/crossentropy": 1.450163260102272,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11842499300837517,
      "step": 5613
    },
    {
      "epoch": 0.9356666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 2.573958333333333,
      "learning_rate": 1.0229930019016288e-06,
      "loss": 5.9852,
      "loss/crossentropy": 1.355835534632206,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20280347857624292,
      "step": 5614
    },
    {
      "epoch": 0.9358333333333333,
      "grad_norm": 22.5,
      "grad_norm_var": 2.5452473958333335,
      "learning_rate": 1.0177310322838252e-06,
      "loss": 6.0799,
      "loss/crossentropy": 1.4528509378433228,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13668575510382652,
      "step": 5615
    },
    {
      "epoch": 0.936,
      "grad_norm": 20.625,
      "grad_norm_var": 2.4134765625,
      "learning_rate": 1.0124824914328645e-06,
      "loss": 5.9403,
      "loss/crossentropy": 1.4731397032737732,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11249247938394547,
      "step": 5616
    },
    {
      "epoch": 0.9361666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 2.3525390625,
      "learning_rate": 1.007247380787657e-06,
      "loss": 6.2542,
      "loss/crossentropy": 1.7590011954307556,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12929891794919968,
      "step": 5617
    },
    {
      "epoch": 0.9363333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 2.363997395833333,
      "learning_rate": 1.002025701783449e-06,
      "loss": 6.1502,
      "loss/crossentropy": 1.5385536700487137,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13027776591479778,
      "step": 5618
    },
    {
      "epoch": 0.9365,
      "grad_norm": 21.25,
      "grad_norm_var": 2.38515625,
      "learning_rate": 9.968174558517895e-07,
      "loss": 6.0726,
      "loss/crossentropy": 1.343224212527275,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1359406290575862,
      "step": 5619
    },
    {
      "epoch": 0.9366666666666666,
      "grad_norm": 21.875,
      "grad_norm_var": 2.3869140625,
      "learning_rate": 9.916226444205478e-07,
      "loss": 6.0789,
      "loss/crossentropy": 1.6930669844150543,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16720494627952576,
      "step": 5620
    },
    {
      "epoch": 0.9368333333333333,
      "grad_norm": 23.375,
      "grad_norm_var": 2.0791666666666666,
      "learning_rate": 9.864412689139123e-07,
      "loss": 6.6529,
      "loss/crossentropy": 1.6272746622562408,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.281990060582757,
      "step": 5621
    },
    {
      "epoch": 0.937,
      "grad_norm": 20.375,
      "grad_norm_var": 2.1947265625,
      "learning_rate": 9.812733307523803e-07,
      "loss": 5.838,
      "loss/crossentropy": 0.9347042143344879,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1888419035822153,
      "step": 5622
    },
    {
      "epoch": 0.9371666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 2.332747395833333,
      "learning_rate": 9.761188313527791e-07,
      "loss": 6.3094,
      "loss/crossentropy": 1.2212824076414108,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14888774883002043,
      "step": 5623
    },
    {
      "epoch": 0.9373333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 2.533333333333333,
      "learning_rate": 9.709777721282399e-07,
      "loss": 6.0681,
      "loss/crossentropy": 1.3486874401569366,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1690051443874836,
      "step": 5624
    },
    {
      "epoch": 0.9375,
      "grad_norm": 22.625,
      "grad_norm_var": 2.4082682291666666,
      "learning_rate": 9.65850154488218e-07,
      "loss": 6.3468,
      "loss/crossentropy": 1.5999167561531067,
      "loss/hidden": 3.48828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.3274817243218422,
      "step": 5625
    },
    {
      "epoch": 0.9376666666666666,
      "grad_norm": 19.75,
      "grad_norm_var": 1.9072916666666666,
      "learning_rate": 9.607359798384785e-07,
      "loss": 5.369,
      "loss/crossentropy": 1.1005585193634033,
      "loss/hidden": 2.9453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.09308069199323654,
      "step": 5626
    },
    {
      "epoch": 0.9378333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 1.8072265625,
      "learning_rate": 9.556352495810994e-07,
      "loss": 5.9592,
      "loss/crossentropy": 1.225676842033863,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14846252463757992,
      "step": 5627
    },
    {
      "epoch": 0.938,
      "grad_norm": 21.625,
      "grad_norm_var": 1.06015625,
      "learning_rate": 9.505479651144678e-07,
      "loss": 6.2165,
      "loss/crossentropy": 1.7267653942108154,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19776776432991028,
      "step": 5628
    },
    {
      "epoch": 0.9381666666666667,
      "grad_norm": 23.5,
      "grad_norm_var": 1.34140625,
      "learning_rate": 9.454741278333012e-07,
      "loss": 6.1826,
      "loss/crossentropy": 0.9649179130792618,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.11220874451100826,
      "step": 5629
    },
    {
      "epoch": 0.9383333333333334,
      "grad_norm": 20.125,
      "grad_norm_var": 1.4192057291666667,
      "learning_rate": 9.404137391286095e-07,
      "loss": 5.7412,
      "loss/crossentropy": 1.3735345676541328,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09160792594775558,
      "step": 5630
    },
    {
      "epoch": 0.9385,
      "grad_norm": 22.0,
      "grad_norm_var": 1.3582682291666666,
      "learning_rate": 9.353668003877437e-07,
      "loss": 6.2893,
      "loss/crossentropy": 1.4030208885669708,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17889939341694117,
      "step": 5631
    },
    {
      "epoch": 0.9386666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.34765625,
      "learning_rate": 9.303333129943359e-07,
      "loss": 5.8956,
      "loss/crossentropy": 1.577527403831482,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1586058996617794,
      "step": 5632
    },
    {
      "epoch": 0.9388333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.40390625,
      "learning_rate": 9.253132783283547e-07,
      "loss": 5.7134,
      "loss/crossentropy": 1.2433874160051346,
      "loss/hidden": 2.89453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10277622938156128,
      "step": 5633
    },
    {
      "epoch": 0.939,
      "grad_norm": 20.875,
      "grad_norm_var": 1.3952473958333333,
      "learning_rate": 9.203066977660713e-07,
      "loss": 6.2226,
      "loss/crossentropy": 1.6558195501565933,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1126596350222826,
      "step": 5634
    },
    {
      "epoch": 0.9391666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.4229166666666666,
      "learning_rate": 9.153135726800599e-07,
      "loss": 6.1588,
      "loss/crossentropy": 1.6660134494304657,
      "loss/hidden": 3.515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19989293068647385,
      "step": 5635
    },
    {
      "epoch": 0.9393333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 1.3955729166666666,
      "learning_rate": 9.103339044392145e-07,
      "loss": 6.1874,
      "loss/crossentropy": 1.319780394434929,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16130763106048107,
      "step": 5636
    },
    {
      "epoch": 0.9395,
      "grad_norm": 18.5,
      "grad_norm_var": 1.4692057291666667,
      "learning_rate": 9.053676944087541e-07,
      "loss": 5.7588,
      "loss/crossentropy": 1.067313328385353,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12214251793920994,
      "step": 5637
    },
    {
      "epoch": 0.9396666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.4499348958333333,
      "learning_rate": 9.00414943950173e-07,
      "loss": 6.3171,
      "loss/crossentropy": 1.5901550352573395,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14192583598196507,
      "step": 5638
    },
    {
      "epoch": 0.9398333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 1.4436848958333333,
      "learning_rate": 8.954756544213127e-07,
      "loss": 5.9201,
      "loss/crossentropy": 1.385850191116333,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1669596778228879,
      "step": 5639
    },
    {
      "epoch": 0.94,
      "grad_norm": 19.75,
      "grad_norm_var": 1.5056640625,
      "learning_rate": 8.905498271762957e-07,
      "loss": 6.1825,
      "loss/crossentropy": 1.1697548031806946,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1267169676721096,
      "step": 5640
    },
    {
      "epoch": 0.9401666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.36640625,
      "learning_rate": 8.856374635655695e-07,
      "loss": 5.9284,
      "loss/crossentropy": 1.7941638231277466,
      "loss/hidden": 3.03125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12956124544143677,
      "step": 5641
    },
    {
      "epoch": 0.9403333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 1.2994140625,
      "learning_rate": 8.807385649358846e-07,
      "loss": 6.3049,
      "loss/crossentropy": 1.6021605134010315,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23771429061889648,
      "step": 5642
    },
    {
      "epoch": 0.9405,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3791015625,
      "learning_rate": 8.758531326303055e-07,
      "loss": 6.2994,
      "loss/crossentropy": 1.636902779340744,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1554137971252203,
      "step": 5643
    },
    {
      "epoch": 0.9406666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.4061848958333334,
      "learning_rate": 8.709811679882052e-07,
      "loss": 6.1833,
      "loss/crossentropy": 1.5432769060134888,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1376354657113552,
      "step": 5644
    },
    {
      "epoch": 0.9408333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 0.9927083333333333,
      "learning_rate": 8.661226723452543e-07,
      "loss": 5.8794,
      "loss/crossentropy": 1.1765699833631516,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1721333097666502,
      "step": 5645
    },
    {
      "epoch": 0.941,
      "grad_norm": 21.0,
      "grad_norm_var": 0.9712890625,
      "learning_rate": 8.612776470334316e-07,
      "loss": 6.2217,
      "loss/crossentropy": 2.221040576696396,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14347748085856438,
      "step": 5646
    },
    {
      "epoch": 0.9411666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 1.0686848958333333,
      "learning_rate": 8.564460933810415e-07,
      "loss": 5.9596,
      "loss/crossentropy": 1.6853355914354324,
      "loss/hidden": 3.3515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1828586608171463,
      "step": 5647
    },
    {
      "epoch": 0.9413333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.0983723958333333,
      "learning_rate": 8.516280127126685e-07,
      "loss": 5.8402,
      "loss/crossentropy": 1.1257647275924683,
      "loss/hidden": 2.75390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0844038687646389,
      "step": 5648
    },
    {
      "epoch": 0.9415,
      "grad_norm": 23.875,
      "grad_norm_var": 1.6416015625,
      "learning_rate": 8.468234063492286e-07,
      "loss": 5.9897,
      "loss/crossentropy": 1.5820999145507812,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16351985931396484,
      "step": 5649
    },
    {
      "epoch": 0.9416666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6572265625,
      "learning_rate": 8.420322756079235e-07,
      "loss": 5.8654,
      "loss/crossentropy": 2.0700406432151794,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1722969189286232,
      "step": 5650
    },
    {
      "epoch": 0.9418333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 1.7697916666666667,
      "learning_rate": 8.372546218022747e-07,
      "loss": 5.4854,
      "loss/crossentropy": 1.1266876459121704,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09410971961915493,
      "step": 5651
    },
    {
      "epoch": 0.942,
      "grad_norm": 21.875,
      "grad_norm_var": 1.8205729166666667,
      "learning_rate": 8.324904462420957e-07,
      "loss": 6.1925,
      "loss/crossentropy": 1.6751551181077957,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2030948456376791,
      "step": 5652
    },
    {
      "epoch": 0.9421666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3728515625,
      "learning_rate": 8.277397502335194e-07,
      "loss": 6.1548,
      "loss/crossentropy": 1.1764531135559082,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14207903295755386,
      "step": 5653
    },
    {
      "epoch": 0.9423333333333334,
      "grad_norm": 19.875,
      "grad_norm_var": 1.4780598958333333,
      "learning_rate": 8.230025350789649e-07,
      "loss": 5.6064,
      "loss/crossentropy": 1.365143358707428,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14664839953184128,
      "step": 5654
    },
    {
      "epoch": 0.9425,
      "grad_norm": 22.375,
      "grad_norm_var": 1.5671223958333333,
      "learning_rate": 8.182788020771825e-07,
      "loss": 6.2835,
      "loss/crossentropy": 1.6015700995922089,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13227473571896553,
      "step": 5655
    },
    {
      "epoch": 0.9426666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 1.4427083333333333,
      "learning_rate": 8.135685525232028e-07,
      "loss": 6.1781,
      "loss/crossentropy": 0.9156512022018433,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.07334433635696769,
      "step": 5656
    },
    {
      "epoch": 0.9428333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.3103515625,
      "learning_rate": 8.088717877083707e-07,
      "loss": 6.0188,
      "loss/crossentropy": 1.2361214309930801,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1152674201875925,
      "step": 5657
    },
    {
      "epoch": 0.943,
      "grad_norm": 20.375,
      "grad_norm_var": 1.3410807291666667,
      "learning_rate": 8.041885089203227e-07,
      "loss": 5.7732,
      "loss/crossentropy": 0.9301715791225433,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08545200806111097,
      "step": 5658
    },
    {
      "epoch": 0.9431666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 1.42890625,
      "learning_rate": 7.995187174430152e-07,
      "loss": 5.3445,
      "loss/crossentropy": 0.8636505380272865,
      "loss/hidden": 2.953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10494833625853062,
      "step": 5659
    },
    {
      "epoch": 0.9433333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 1.403125,
      "learning_rate": 7.948624145566907e-07,
      "loss": 6.1535,
      "loss/crossentropy": 1.6074872314929962,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17421024665236473,
      "step": 5660
    },
    {
      "epoch": 0.9435,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2947916666666666,
      "learning_rate": 7.90219601537906e-07,
      "loss": 6.097,
      "loss/crossentropy": 1.9347065091133118,
      "loss/hidden": 3.51171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2580614350736141,
      "step": 5661
    },
    {
      "epoch": 0.9436666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 1.3478515625,
      "learning_rate": 7.855902796595094e-07,
      "loss": 5.8443,
      "loss/crossentropy": 1.4296883046627045,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13339370302855968,
      "step": 5662
    },
    {
      "epoch": 0.9438333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.2462890625,
      "learning_rate": 7.809744501906635e-07,
      "loss": 6.1734,
      "loss/crossentropy": 0.7489238381385803,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.05105844186618924,
      "step": 5663
    },
    {
      "epoch": 0.944,
      "grad_norm": 20.75,
      "grad_norm_var": 1.2541015625,
      "learning_rate": 7.763721143968172e-07,
      "loss": 6.4101,
      "loss/crossentropy": 1.838576465845108,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11704721674323082,
      "step": 5664
    },
    {
      "epoch": 0.9441666666666667,
      "grad_norm": 22.0,
      "grad_norm_var": 0.8,
      "learning_rate": 7.717832735397335e-07,
      "loss": 6.1393,
      "loss/crossentropy": 1.6819589138031006,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17993435077369213,
      "step": 5665
    },
    {
      "epoch": 0.9443333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 0.77890625,
      "learning_rate": 7.672079288774614e-07,
      "loss": 5.9154,
      "loss/crossentropy": 2.0717503130435944,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1682501845061779,
      "step": 5666
    },
    {
      "epoch": 0.9445,
      "grad_norm": 22.625,
      "grad_norm_var": 0.7577473958333333,
      "learning_rate": 7.626460816643588e-07,
      "loss": 6.3965,
      "loss/crossentropy": 1.3877943307161331,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17702161893248558,
      "step": 5667
    },
    {
      "epoch": 0.9446666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 0.7268229166666667,
      "learning_rate": 7.580977331510919e-07,
      "loss": 6.2817,
      "loss/crossentropy": 2.1022448241710663,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19525101222097874,
      "step": 5668
    },
    {
      "epoch": 0.9448333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 1.0666015625,
      "learning_rate": 7.535628845846076e-07,
      "loss": 6.8798,
      "loss/crossentropy": 1.5541688799858093,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16987305134534836,
      "step": 5669
    },
    {
      "epoch": 0.945,
      "grad_norm": 21.0,
      "grad_norm_var": 0.93125,
      "learning_rate": 7.490415372081616e-07,
      "loss": 6.432,
      "loss/crossentropy": 1.2474876940250397,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1764899156987667,
      "step": 5670
    },
    {
      "epoch": 0.9451666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 0.9009765625,
      "learning_rate": 7.445336922613067e-07,
      "loss": 5.6116,
      "loss/crossentropy": 1.1361773908138275,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14262324199080467,
      "step": 5671
    },
    {
      "epoch": 0.9453333333333334,
      "grad_norm": 21.25,
      "grad_norm_var": 0.87265625,
      "learning_rate": 7.400393509798931e-07,
      "loss": 5.9799,
      "loss/crossentropy": 1.2449975311756134,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18006683327257633,
      "step": 5672
    },
    {
      "epoch": 0.9455,
      "grad_norm": 21.0,
      "grad_norm_var": 0.8275390625,
      "learning_rate": 7.355585145960742e-07,
      "loss": 6.0594,
      "loss/crossentropy": 1.8708730936050415,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13548140600323677,
      "step": 5673
    },
    {
      "epoch": 0.9456666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 0.9229166666666667,
      "learning_rate": 7.310911843382895e-07,
      "loss": 5.8051,
      "loss/crossentropy": 1.4996293038129807,
      "loss/hidden": 2.9765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10370903182774782,
      "step": 5674
    },
    {
      "epoch": 0.9458333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 0.8332682291666667,
      "learning_rate": 7.266373614312927e-07,
      "loss": 6.4337,
      "loss/crossentropy": 1.6983342617750168,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17679208889603615,
      "step": 5675
    },
    {
      "epoch": 0.946,
      "grad_norm": 21.25,
      "grad_norm_var": 0.8309895833333333,
      "learning_rate": 7.221970470961125e-07,
      "loss": 5.9657,
      "loss/crossentropy": 1.415473073720932,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14524485915899277,
      "step": 5676
    },
    {
      "epoch": 0.9461666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 0.9139973958333333,
      "learning_rate": 7.177702425500976e-07,
      "loss": 6.0016,
      "loss/crossentropy": 1.2031189501285553,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10083262762054801,
      "step": 5677
    },
    {
      "epoch": 0.9463333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 0.9247395833333333,
      "learning_rate": 7.13356949006877e-07,
      "loss": 6.1944,
      "loss/crossentropy": 1.6446905732154846,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19075703993439674,
      "step": 5678
    },
    {
      "epoch": 0.9465,
      "grad_norm": 21.125,
      "grad_norm_var": 0.9270182291666667,
      "learning_rate": 7.089571676763774e-07,
      "loss": 5.7642,
      "loss/crossentropy": 1.101324051618576,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07978610973805189,
      "step": 5679
    },
    {
      "epoch": 0.9466666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 1.0989583333333333,
      "learning_rate": 7.045708997648337e-07,
      "loss": 6.1642,
      "loss/crossentropy": 1.8864567503333092,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18388972245156765,
      "step": 5680
    },
    {
      "epoch": 0.9468333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.0910807291666667,
      "learning_rate": 7.001981464747565e-07,
      "loss": 6.0835,
      "loss/crossentropy": 1.7211567163467407,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13306351751089096,
      "step": 5681
    },
    {
      "epoch": 0.947,
      "grad_norm": 22.5,
      "grad_norm_var": 1.1291666666666667,
      "learning_rate": 6.958389090049644e-07,
      "loss": 6.2624,
      "loss/crossentropy": 1.2100250869989395,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15779943205416203,
      "step": 5682
    },
    {
      "epoch": 0.9471666666666667,
      "grad_norm": 23.625,
      "grad_norm_var": 1.3333333333333333,
      "learning_rate": 6.914931885505627e-07,
      "loss": 6.9897,
      "loss/crossentropy": 1.2646266222000122,
      "loss/hidden": 3.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.3114084452390671,
      "step": 5683
    },
    {
      "epoch": 0.9473333333333334,
      "grad_norm": 21.125,
      "grad_norm_var": 1.3405598958333333,
      "learning_rate": 6.871609863029538e-07,
      "loss": 6.3286,
      "loss/crossentropy": 2.067287504673004,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14881163276731968,
      "step": 5684
    },
    {
      "epoch": 0.9475,
      "grad_norm": 21.875,
      "grad_norm_var": 1.09765625,
      "learning_rate": 6.828423034498488e-07,
      "loss": 6.1715,
      "loss/crossentropy": 1.5783241391181946,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14405660331249237,
      "step": 5685
    },
    {
      "epoch": 0.9476666666666667,
      "grad_norm": 25.875,
      "grad_norm_var": 2.2478515625,
      "learning_rate": 6.785371411752283e-07,
      "loss": 6.4816,
      "loss/crossentropy": 0.9906598553061485,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1689223125576973,
      "step": 5686
    },
    {
      "epoch": 0.9478333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 2.207747395833333,
      "learning_rate": 6.742455006593762e-07,
      "loss": 5.9683,
      "loss/crossentropy": 1.31801837682724,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20129261910915375,
      "step": 5687
    },
    {
      "epoch": 0.948,
      "grad_norm": 23.375,
      "grad_norm_var": 2.323958333333333,
      "learning_rate": 6.699673830788789e-07,
      "loss": 6.1059,
      "loss/crossentropy": 1.8743132650852203,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1468621101230383,
      "step": 5688
    },
    {
      "epoch": 0.9481666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 2.301497395833333,
      "learning_rate": 6.657027896065982e-07,
      "loss": 6.3118,
      "loss/crossentropy": 1.086662232875824,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1268920199945569,
      "step": 5689
    },
    {
      "epoch": 0.9483333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 1.9285807291666666,
      "learning_rate": 6.614517214116933e-07,
      "loss": 6.2026,
      "loss/crossentropy": 1.7282800674438477,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1280907839536667,
      "step": 5690
    },
    {
      "epoch": 0.9485,
      "grad_norm": 21.0,
      "grad_norm_var": 2.0192057291666665,
      "learning_rate": 6.572141796596376e-07,
      "loss": 6.1738,
      "loss/crossentropy": 1.9369440078735352,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17031450755894184,
      "step": 5691
    },
    {
      "epoch": 0.9486666666666667,
      "grad_norm": 19.625,
      "grad_norm_var": 2.37890625,
      "learning_rate": 6.529901655121573e-07,
      "loss": 6.1012,
      "loss/crossentropy": 1.9240536391735077,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1457415074110031,
      "step": 5692
    },
    {
      "epoch": 0.9488333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 2.1684895833333333,
      "learning_rate": 6.487796801272983e-07,
      "loss": 6.0616,
      "loss/crossentropy": 1.3688431531190872,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11566194333136082,
      "step": 5693
    },
    {
      "epoch": 0.949,
      "grad_norm": 22.375,
      "grad_norm_var": 2.1718098958333334,
      "learning_rate": 6.445827246593871e-07,
      "loss": 6.4731,
      "loss/crossentropy": 2.0165690928697586,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15823587216436863,
      "step": 5694
    },
    {
      "epoch": 0.9491666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 2.1041015625,
      "learning_rate": 6.403993002590425e-07,
      "loss": 6.1302,
      "loss/crossentropy": 1.2729254961013794,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15137492399662733,
      "step": 5695
    },
    {
      "epoch": 0.9493333333333334,
      "grad_norm": 23.25,
      "grad_norm_var": 2.1205729166666667,
      "learning_rate": 6.362294080731745e-07,
      "loss": 6.8276,
      "loss/crossentropy": 1.3139915466308594,
      "loss/hidden": 3.265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11698288097977638,
      "step": 5696
    },
    {
      "epoch": 0.9495,
      "grad_norm": 22.125,
      "grad_norm_var": 2.113541666666667,
      "learning_rate": 6.3207304924498e-07,
      "loss": 6.2768,
      "loss/crossentropy": 0.8583894819021225,
      "loss/hidden": 3.15625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16878039436414838,
      "step": 5697
    },
    {
      "epoch": 0.9496666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 2.1801432291666667,
      "learning_rate": 6.279302249139585e-07,
      "loss": 6.3559,
      "loss/crossentropy": 1.8311196863651276,
      "loss/hidden": 3.39453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1716174427419901,
      "step": 5698
    },
    {
      "epoch": 0.9498333333333333,
      "grad_norm": 23.5,
      "grad_norm_var": 2.15625,
      "learning_rate": 6.238009362158792e-07,
      "loss": 6.2044,
      "loss/crossentropy": 1.7575354278087616,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1646517999470234,
      "step": 5699
    },
    {
      "epoch": 0.95,
      "grad_norm": 22.0,
      "grad_norm_var": 2.0874348958333333,
      "learning_rate": 6.196851842828144e-07,
      "loss": 6.2404,
      "loss/crossentropy": 1.970372349023819,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16259323433041573,
      "step": 5700
    },
    {
      "epoch": 0.9501666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.1708333333333334,
      "learning_rate": 6.15582970243117e-07,
      "loss": 6.1006,
      "loss/crossentropy": 1.4066876471042633,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12361589074134827,
      "step": 5701
    },
    {
      "epoch": 0.9503333333333334,
      "grad_norm": 20.75,
      "grad_norm_var": 1.2499348958333334,
      "learning_rate": 6.114942952214319e-07,
      "loss": 5.9676,
      "loss/crossentropy": 1.1994720548391342,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11539047677069902,
      "step": 5702
    },
    {
      "epoch": 0.9505,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1708333333333334,
      "learning_rate": 6.074191603386958e-07,
      "loss": 6.2083,
      "loss/crossentropy": 1.6759812533855438,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1654677763581276,
      "step": 5703
    },
    {
      "epoch": 0.9506666666666667,
      "grad_norm": 21.375,
      "grad_norm_var": 1.0208333333333333,
      "learning_rate": 6.033575667121317e-07,
      "loss": 6.2187,
      "loss/crossentropy": 1.614012986421585,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17833032086491585,
      "step": 5704
    },
    {
      "epoch": 0.9508333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.1333333333333333,
      "learning_rate": 5.993095154552431e-07,
      "loss": 5.8706,
      "loss/crossentropy": 1.377431482076645,
      "loss/hidden": 2.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0883146463893354,
      "step": 5705
    },
    {
      "epoch": 0.951,
      "grad_norm": 20.625,
      "grad_norm_var": 1.1843098958333333,
      "learning_rate": 5.952750076778312e-07,
      "loss": 6.0791,
      "loss/crossentropy": 1.9068458080291748,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10868935473263264,
      "step": 5706
    },
    {
      "epoch": 0.9511666666666667,
      "grad_norm": 19.75,
      "grad_norm_var": 1.3639973958333333,
      "learning_rate": 5.912540444859782e-07,
      "loss": 6.0575,
      "loss/crossentropy": 1.9177202880382538,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1500030905008316,
      "step": 5707
    },
    {
      "epoch": 0.9513333333333334,
      "grad_norm": 19.0,
      "grad_norm_var": 1.5375,
      "learning_rate": 5.872466269820465e-07,
      "loss": 5.6581,
      "loss/crossentropy": 1.2473376542329788,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12695804052054882,
      "step": 5708
    },
    {
      "epoch": 0.9515,
      "grad_norm": 20.875,
      "grad_norm_var": 1.5447265625,
      "learning_rate": 5.832527562647016e-07,
      "loss": 6.173,
      "loss/crossentropy": 1.2785880416631699,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14951929915696383,
      "step": 5709
    },
    {
      "epoch": 0.9516666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.5125,
      "learning_rate": 5.792724334288846e-07,
      "loss": 6.395,
      "loss/crossentropy": 1.8431583642959595,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14217332005500793,
      "step": 5710
    },
    {
      "epoch": 0.9518333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.42265625,
      "learning_rate": 5.753056595658224e-07,
      "loss": 6.2702,
      "loss/crossentropy": 1.715443342924118,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.20073087140917778,
      "step": 5711
    },
    {
      "epoch": 0.952,
      "grad_norm": 22.875,
      "grad_norm_var": 1.3275390625,
      "learning_rate": 5.713524357630284e-07,
      "loss": 6.1585,
      "loss/crossentropy": 1.1425478532910347,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12866088934242725,
      "step": 5712
    },
    {
      "epoch": 0.9521666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 1.38515625,
      "learning_rate": 5.674127631043025e-07,
      "loss": 6.0661,
      "loss/crossentropy": 1.0852811485528946,
      "loss/hidden": 3.4609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18480874225497246,
      "step": 5713
    },
    {
      "epoch": 0.9523333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.4134765625,
      "learning_rate": 5.634866426697194e-07,
      "loss": 5.8262,
      "loss/crossentropy": 1.1615483164787292,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12932395935058594,
      "step": 5714
    },
    {
      "epoch": 0.9525,
      "grad_norm": 20.25,
      "grad_norm_var": 1.0478515625,
      "learning_rate": 5.595740755356627e-07,
      "loss": 5.5121,
      "loss/crossentropy": 1.4424476623535156,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13502909429371357,
      "step": 5715
    },
    {
      "epoch": 0.9526666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 1.0160807291666667,
      "learning_rate": 5.556750627747743e-07,
      "loss": 6.4046,
      "loss/crossentropy": 1.446184664964676,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15602339711040258,
      "step": 5716
    },
    {
      "epoch": 0.9528333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 1.0671223958333333,
      "learning_rate": 5.51789605455988e-07,
      "loss": 6.1355,
      "loss/crossentropy": 1.722479671239853,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1624692790210247,
      "step": 5717
    },
    {
      "epoch": 0.953,
      "grad_norm": 21.0,
      "grad_norm_var": 1.0676432291666667,
      "learning_rate": 5.479177046445349e-07,
      "loss": 5.8083,
      "loss/crossentropy": 1.3173744827508926,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.07650031801313162,
      "step": 5718
    },
    {
      "epoch": 0.9531666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.0010416666666666,
      "learning_rate": 5.440593614019108e-07,
      "loss": 6.3447,
      "loss/crossentropy": 1.8846754431724548,
      "loss/hidden": 3.0078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12327179126441479,
      "step": 5719
    },
    {
      "epoch": 0.9533333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 1.2947265625,
      "learning_rate": 5.402145767859023e-07,
      "loss": 6.2594,
      "loss/crossentropy": 1.6416171044111252,
      "loss/hidden": 2.98828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11090853251516819,
      "step": 5720
    },
    {
      "epoch": 0.9535,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2759765625,
      "learning_rate": 5.363833518505834e-07,
      "loss": 5.8829,
      "loss/crossentropy": 1.017445906996727,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15297255525365472,
      "step": 5721
    },
    {
      "epoch": 0.9536666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 1.2759765625,
      "learning_rate": 5.325656876463026e-07,
      "loss": 6.1286,
      "loss/crossentropy": 1.1665332168340683,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14367163181304932,
      "step": 5722
    },
    {
      "epoch": 0.9538333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.1738932291666666,
      "learning_rate": 5.287615852196947e-07,
      "loss": 5.9139,
      "loss/crossentropy": 1.2033057510852814,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10430465452373028,
      "step": 5723
    },
    {
      "epoch": 0.954,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1030598958333333,
      "learning_rate": 5.249710456136814e-07,
      "loss": 6.42,
      "loss/crossentropy": 1.1961613893508911,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.171299172565341,
      "step": 5724
    },
    {
      "epoch": 0.9541666666666667,
      "grad_norm": 18.5,
      "grad_norm_var": 1.61640625,
      "learning_rate": 5.211940698674534e-07,
      "loss": 5.8186,
      "loss/crossentropy": 1.5458099842071533,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10496209934353828,
      "step": 5725
    },
    {
      "epoch": 0.9543333333333334,
      "grad_norm": 23.75,
      "grad_norm_var": 1.9583333333333333,
      "learning_rate": 5.174306590164879e-07,
      "loss": 6.3759,
      "loss/crossentropy": 1.9838829338550568,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15135636925697327,
      "step": 5726
    },
    {
      "epoch": 0.9545,
      "grad_norm": 24.75,
      "grad_norm_var": 2.6285807291666665,
      "learning_rate": 5.136808140925541e-07,
      "loss": 6.2026,
      "loss/crossentropy": 0.8464147225022316,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12764453887939453,
      "step": 5727
    },
    {
      "epoch": 0.9546666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 2.5426432291666665,
      "learning_rate": 5.09944536123691e-07,
      "loss": 6.332,
      "loss/crossentropy": 1.6982152462005615,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13515615090727806,
      "step": 5728
    },
    {
      "epoch": 0.9548333333333333,
      "grad_norm": 22.875,
      "grad_norm_var": 2.595572916666667,
      "learning_rate": 5.062218261342122e-07,
      "loss": 6.1748,
      "loss/crossentropy": 1.5291326344013214,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12061324808746576,
      "step": 5729
    },
    {
      "epoch": 0.955,
      "grad_norm": 22.875,
      "grad_norm_var": 2.5869140625,
      "learning_rate": 5.025126851447293e-07,
      "loss": 6.2103,
      "loss/crossentropy": 1.717305451631546,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18404747173190117,
      "step": 5730
    },
    {
      "epoch": 0.9551666666666667,
      "grad_norm": 26.0,
      "grad_norm_var": 3.473372395833333,
      "learning_rate": 4.988171141721232e-07,
      "loss": 5.8703,
      "loss/crossentropy": 1.3563827276229858,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12298906780779362,
      "step": 5731
    },
    {
      "epoch": 0.9553333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 3.6936848958333335,
      "learning_rate": 4.951351142295502e-07,
      "loss": 5.9071,
      "loss/crossentropy": 1.513294592499733,
      "loss/hidden": 3.1171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11487817578017712,
      "step": 5732
    },
    {
      "epoch": 0.9555,
      "grad_norm": 24.25,
      "grad_norm_var": 3.6582682291666666,
      "learning_rate": 4.914666863264528e-07,
      "loss": 6.5219,
      "loss/crossentropy": 2.095442146062851,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.20177383720874786,
      "step": 5733
    },
    {
      "epoch": 0.9556666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 3.8968098958333335,
      "learning_rate": 4.878118314685598e-07,
      "loss": 6.0741,
      "loss/crossentropy": 1.0705634355545044,
      "loss/hidden": 3.0859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12898983247578144,
      "step": 5734
    },
    {
      "epoch": 0.9558333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 4.029622395833333,
      "learning_rate": 4.841705506578587e-07,
      "loss": 5.7447,
      "loss/crossentropy": 1.719130739569664,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13040782324969769,
      "step": 5735
    },
    {
      "epoch": 0.956,
      "grad_norm": 21.0,
      "grad_norm_var": 4.073372395833333,
      "learning_rate": 4.805428448926341e-07,
      "loss": 6.1567,
      "loss/crossentropy": 1.4814050793647766,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10582897253334522,
      "step": 5736
    },
    {
      "epoch": 0.9561666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 4.317643229166666,
      "learning_rate": 4.769287151674406e-07,
      "loss": 5.9473,
      "loss/crossentropy": 1.7004725337028503,
      "loss/hidden": 3.16015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11850726418197155,
      "step": 5737
    },
    {
      "epoch": 0.9563333333333334,
      "grad_norm": 22.75,
      "grad_norm_var": 4.2125,
      "learning_rate": 4.7332816247310784e-07,
      "loss": 6.3005,
      "loss/crossentropy": 1.7246530055999756,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22129977121949196,
      "step": 5738
    },
    {
      "epoch": 0.9565,
      "grad_norm": 21.0,
      "grad_norm_var": 4.269791666666666,
      "learning_rate": 4.6974118779675724e-07,
      "loss": 5.8912,
      "loss/crossentropy": 1.5439038574695587,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15451784804463387,
      "step": 5739
    },
    {
      "epoch": 0.9566666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 4.189322916666667,
      "learning_rate": 4.661677921217744e-07,
      "loss": 5.9989,
      "loss/crossentropy": 1.1481648087501526,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.19887814484536648,
      "step": 5740
    },
    {
      "epoch": 0.9568333333333333,
      "grad_norm": 19.125,
      "grad_norm_var": 3.9181640625,
      "learning_rate": 4.6260797642782014e-07,
      "loss": 6.0175,
      "loss/crossentropy": 1.3906999081373215,
      "loss/hidden": 3.03515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0907850842922926,
      "step": 5741
    },
    {
      "epoch": 0.957,
      "grad_norm": 21.375,
      "grad_norm_var": 3.74375,
      "learning_rate": 4.5906174169084716e-07,
      "loss": 6.0542,
      "loss/crossentropy": 1.0096140578389168,
      "loss/hidden": 2.68359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07543205749243498,
      "step": 5742
    },
    {
      "epoch": 0.9571666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 3.2603515625,
      "learning_rate": 4.5552908888306655e-07,
      "loss": 6.452,
      "loss/crossentropy": 1.7520110607147217,
      "loss/hidden": 3.625,
      "loss/jsd": 0.0,
      "loss/logits": 0.268305029720068,
      "step": 5743
    },
    {
      "epoch": 0.9573333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 3.40390625,
      "learning_rate": 4.520100189729759e-07,
      "loss": 5.9804,
      "loss/crossentropy": 1.6912074387073517,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15628918260335922,
      "step": 5744
    },
    {
      "epoch": 0.9575,
      "grad_norm": 18.625,
      "grad_norm_var": 3.86875,
      "learning_rate": 4.4850453292536454e-07,
      "loss": 5.8188,
      "loss/crossentropy": 0.678413026034832,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.05748323816806078,
      "step": 5745
    },
    {
      "epoch": 0.9576666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 3.76015625,
      "learning_rate": 4.450126317012637e-07,
      "loss": 5.9075,
      "loss/crossentropy": 1.1550516486167908,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08960529789328575,
      "step": 5746
    },
    {
      "epoch": 0.9578333333333333,
      "grad_norm": 19.25,
      "grad_norm_var": 2.459375,
      "learning_rate": 4.415343162580021e-07,
      "loss": 5.7043,
      "loss/crossentropy": 1.522130697965622,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10297788120806217,
      "step": 5747
    },
    {
      "epoch": 0.958,
      "grad_norm": 24.25,
      "grad_norm_var": 3.076041666666667,
      "learning_rate": 4.3806958754917804e-07,
      "loss": 6.0284,
      "loss/crossentropy": 1.1565409302711487,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12911849841475487,
      "step": 5748
    },
    {
      "epoch": 0.9581666666666667,
      "grad_norm": 23.0,
      "grad_norm_var": 2.6684895833333333,
      "learning_rate": 4.3461844652467607e-07,
      "loss": 6.0357,
      "loss/crossentropy": 1.9278590232133865,
      "loss/hidden": 3.33984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19105908647179604,
      "step": 5749
    },
    {
      "epoch": 0.9583333333333334,
      "grad_norm": 20.0,
      "grad_norm_var": 2.6684895833333333,
      "learning_rate": 4.3118089413062835e-07,
      "loss": 5.5433,
      "loss/crossentropy": 1.0071744620800018,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12560937460511923,
      "step": 5750
    },
    {
      "epoch": 0.9585,
      "grad_norm": 25.125,
      "grad_norm_var": 3.5306640625,
      "learning_rate": 4.277569313094809e-07,
      "loss": 6.4841,
      "loss/crossentropy": 1.7602656036615372,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17243433091789484,
      "step": 5751
    },
    {
      "epoch": 0.9586666666666667,
      "grad_norm": 23.625,
      "grad_norm_var": 3.8,
      "learning_rate": 4.2434655899991627e-07,
      "loss": 6.6901,
      "loss/crossentropy": 1.8591794073581696,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16663691028952599,
      "step": 5752
    },
    {
      "epoch": 0.9588333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 3.64140625,
      "learning_rate": 4.2094977813691426e-07,
      "loss": 6.1059,
      "loss/crossentropy": 1.057272583246231,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11109570413827896,
      "step": 5753
    },
    {
      "epoch": 0.959,
      "grad_norm": 24.0,
      "grad_norm_var": 3.908333333333333,
      "learning_rate": 4.175665896517245e-07,
      "loss": 6.0566,
      "loss/crossentropy": 1.2970714718103409,
      "loss/hidden": 2.80859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0948322918266058,
      "step": 5754
    },
    {
      "epoch": 0.9591666666666666,
      "grad_norm": 18.75,
      "grad_norm_var": 4.468489583333334,
      "learning_rate": 4.1419699447186045e-07,
      "loss": 5.7237,
      "loss/crossentropy": 1.4409502297639847,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13411546126008034,
      "step": 5755
    },
    {
      "epoch": 0.9593333333333334,
      "grad_norm": 21.75,
      "grad_norm_var": 4.420833333333333,
      "learning_rate": 4.108409935211166e-07,
      "loss": 5.808,
      "loss/crossentropy": 1.3901467472314835,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16596502251923084,
      "step": 5756
    },
    {
      "epoch": 0.9595,
      "grad_norm": 23.625,
      "grad_norm_var": 4.186458333333333,
      "learning_rate": 4.074985877195625e-07,
      "loss": 6.233,
      "loss/crossentropy": 1.2939423620700836,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.177365493029356,
      "step": 5757
    },
    {
      "epoch": 0.9596666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 4.433333333333334,
      "learning_rate": 4.0416977798353737e-07,
      "loss": 5.8695,
      "loss/crossentropy": 1.161271333694458,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2473631352186203,
      "step": 5758
    },
    {
      "epoch": 0.9598333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 4.3681640625,
      "learning_rate": 4.0085456522565014e-07,
      "loss": 6.5153,
      "loss/crossentropy": 2.201170563697815,
      "loss/hidden": 3.29296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20354440435767174,
      "step": 5759
    },
    {
      "epoch": 0.96,
      "grad_norm": 20.5,
      "grad_norm_var": 4.323372395833333,
      "learning_rate": 3.9755295035479035e-07,
      "loss": 6.0702,
      "loss/crossentropy": 1.4687983691692352,
      "loss/hidden": 2.8984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13065442815423012,
      "step": 5760
    },
    {
      "epoch": 0.9601666666666666,
      "grad_norm": 21.375,
      "grad_norm_var": 3.6587890625,
      "learning_rate": 3.9426493427611177e-07,
      "loss": 5.8753,
      "loss/crossentropy": 1.344965711236,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12310727685689926,
      "step": 5761
    },
    {
      "epoch": 0.9603333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 3.659309895833333,
      "learning_rate": 3.909905178910378e-07,
      "loss": 6.2193,
      "loss/crossentropy": 1.9748249053955078,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1503160074353218,
      "step": 5762
    },
    {
      "epoch": 0.9605,
      "grad_norm": 19.125,
      "grad_norm_var": 3.70390625,
      "learning_rate": 3.877297020972781e-07,
      "loss": 5.8033,
      "loss/crossentropy": 1.6631076037883759,
      "loss/hidden": 3.140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13632259517908096,
      "step": 5763
    },
    {
      "epoch": 0.9606666666666667,
      "grad_norm": 22.625,
      "grad_norm_var": 3.3509765625,
      "learning_rate": 3.844824877887954e-07,
      "loss": 6.1164,
      "loss/crossentropy": 1.4018013179302216,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20594613440334797,
      "step": 5764
    },
    {
      "epoch": 0.9608333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 3.25390625,
      "learning_rate": 3.812488758558386e-07,
      "loss": 6.1301,
      "loss/crossentropy": 1.8766569048166275,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13344228640198708,
      "step": 5765
    },
    {
      "epoch": 0.961,
      "grad_norm": 21.0,
      "grad_norm_var": 3.0893229166666667,
      "learning_rate": 3.7802886718491526e-07,
      "loss": 5.8735,
      "loss/crossentropy": 1.077700361609459,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.2549576573073864,
      "step": 5766
    },
    {
      "epoch": 0.9611666666666666,
      "grad_norm": 19.625,
      "grad_norm_var": 2.51640625,
      "learning_rate": 3.748224626588137e-07,
      "loss": 6.0546,
      "loss/crossentropy": 1.5967099368572235,
      "loss/hidden": 3.62109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.22182277962565422,
      "step": 5767
    },
    {
      "epoch": 0.9613333333333334,
      "grad_norm": 22.5,
      "grad_norm_var": 2.2650390625,
      "learning_rate": 3.716296631565863e-07,
      "loss": 6.3295,
      "loss/crossentropy": 1.6553967148065567,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.20307215675711632,
      "step": 5768
    },
    {
      "epoch": 0.9615,
      "grad_norm": 22.875,
      "grad_norm_var": 2.397330729166667,
      "learning_rate": 3.684504695535496e-07,
      "loss": 6.0891,
      "loss/crossentropy": 1.484856441617012,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1398944715037942,
      "step": 5769
    },
    {
      "epoch": 0.9616666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.92265625,
      "learning_rate": 3.652848827213118e-07,
      "loss": 6.4207,
      "loss/crossentropy": 1.9026255011558533,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17230749316513538,
      "step": 5770
    },
    {
      "epoch": 0.9618333333333333,
      "grad_norm": 19.25,
      "grad_norm_var": 1.77265625,
      "learning_rate": 3.621329035277232e-07,
      "loss": 5.8983,
      "loss/crossentropy": 1.4039035141468048,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.130036735907197,
      "step": 5771
    },
    {
      "epoch": 0.962,
      "grad_norm": 20.625,
      "grad_norm_var": 1.7791015625,
      "learning_rate": 3.58994532836926e-07,
      "loss": 6.0881,
      "loss/crossentropy": 1.3354605287313461,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09122485294938087,
      "step": 5772
    },
    {
      "epoch": 0.9621666666666666,
      "grad_norm": 23.625,
      "grad_norm_var": 1.7791015625,
      "learning_rate": 3.558697715093207e-07,
      "loss": 6.5144,
      "loss/crossentropy": 1.7900317013263702,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1785887684673071,
      "step": 5773
    },
    {
      "epoch": 0.9623333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 1.6994140625,
      "learning_rate": 3.5275862040157203e-07,
      "loss": 6.2987,
      "loss/crossentropy": 1.0561789125204086,
      "loss/hidden": 2.90234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1432821648195386,
      "step": 5774
    },
    {
      "epoch": 0.9625,
      "grad_norm": 20.375,
      "grad_norm_var": 1.7572916666666667,
      "learning_rate": 3.4966108036662e-07,
      "loss": 6.2608,
      "loss/crossentropy": 1.9839609265327454,
      "loss/hidden": 3.2890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2515190504491329,
      "step": 5775
    },
    {
      "epoch": 0.9626666666666667,
      "grad_norm": 21.25,
      "grad_norm_var": 1.7143229166666667,
      "learning_rate": 3.465771522536854e-07,
      "loss": 5.9079,
      "loss/crossentropy": 1.1624673157930374,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14049060083925724,
      "step": 5776
    },
    {
      "epoch": 0.9628333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.7330729166666667,
      "learning_rate": 3.435068369082306e-07,
      "loss": 6.3265,
      "loss/crossentropy": 1.7027967050671577,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10468089021742344,
      "step": 5777
    },
    {
      "epoch": 0.963,
      "grad_norm": 20.875,
      "grad_norm_var": 1.7416666666666667,
      "learning_rate": 3.404501351720102e-07,
      "loss": 5.9518,
      "loss/crossentropy": 1.2940895855426788,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12598974257707596,
      "step": 5778
    },
    {
      "epoch": 0.9631666666666666,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4083333333333334,
      "learning_rate": 3.3740704788303157e-07,
      "loss": 5.8866,
      "loss/crossentropy": 1.0168618857860565,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15554583817720413,
      "step": 5779
    },
    {
      "epoch": 0.9633333333333334,
      "grad_norm": 21.25,
      "grad_norm_var": 1.3087890625,
      "learning_rate": 3.343775758755718e-07,
      "loss": 5.9177,
      "loss/crossentropy": 1.198466643691063,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20501986891031265,
      "step": 5780
    },
    {
      "epoch": 0.9635,
      "grad_norm": 22.0,
      "grad_norm_var": 1.296875,
      "learning_rate": 3.3136171998017775e-07,
      "loss": 6.0789,
      "loss/crossentropy": 1.227841168642044,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.129226453602314,
      "step": 5781
    },
    {
      "epoch": 0.9636666666666667,
      "grad_norm": 21.125,
      "grad_norm_var": 1.2921223958333334,
      "learning_rate": 3.283594810236712e-07,
      "loss": 5.9731,
      "loss/crossentropy": 1.6052296161651611,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17644641362130642,
      "step": 5782
    },
    {
      "epoch": 0.9638333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1.0830729166666666,
      "learning_rate": 3.253708598291272e-07,
      "loss": 6.4228,
      "loss/crossentropy": 1.4002619534730911,
      "loss/hidden": 3.23828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1808858271688223,
      "step": 5783
    },
    {
      "epoch": 0.964,
      "grad_norm": 21.25,
      "grad_norm_var": 1.00625,
      "learning_rate": 3.2239585721589026e-07,
      "loss": 6.0706,
      "loss/crossentropy": 1.098330095410347,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13060394022613764,
      "step": 5784
    },
    {
      "epoch": 0.9641666666666666,
      "grad_norm": 23.25,
      "grad_norm_var": 1.0900390625,
      "learning_rate": 3.1943447399958027e-07,
      "loss": 6.3114,
      "loss/crossentropy": 1.5736072659492493,
      "loss/hidden": 3.27734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.134323138743639,
      "step": 5785
    },
    {
      "epoch": 0.9643333333333334,
      "grad_norm": 21.625,
      "grad_norm_var": 1.0874348958333333,
      "learning_rate": 3.164867109920755e-07,
      "loss": 6.6437,
      "loss/crossentropy": 1.8196676075458527,
      "loss/hidden": 3.32421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16466012969613075,
      "step": 5786
    },
    {
      "epoch": 0.9645,
      "grad_norm": 21.25,
      "grad_norm_var": 0.7561848958333334,
      "learning_rate": 3.135525690015184e-07,
      "loss": 6.344,
      "loss/crossentropy": 1.4948711767792702,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09888353757560253,
      "step": 5787
    },
    {
      "epoch": 0.9646666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 0.7291015625,
      "learning_rate": 3.1063204883232664e-07,
      "loss": 6.1905,
      "loss/crossentropy": 1.2267951667308807,
      "loss/hidden": 3.0234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13359124399721622,
      "step": 5788
    },
    {
      "epoch": 0.9648333333333333,
      "grad_norm": 21.0,
      "grad_norm_var": 0.440625,
      "learning_rate": 3.0772515128517085e-07,
      "loss": 6.1074,
      "loss/crossentropy": 1.163225270807743,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12799165584146976,
      "step": 5789
    },
    {
      "epoch": 0.965,
      "grad_norm": 21.0,
      "grad_norm_var": 0.4119140625,
      "learning_rate": 3.0483187715700247e-07,
      "loss": 6.5288,
      "loss/crossentropy": 1.828549861907959,
      "loss/hidden": 3.53125,
      "loss/jsd": 0.0,
      "loss/logits": 0.25168146193027496,
      "step": 5790
    },
    {
      "epoch": 0.9651666666666666,
      "grad_norm": 23.125,
      "grad_norm_var": 0.5322265625,
      "learning_rate": 3.019522272410202e-07,
      "loss": 6.1606,
      "loss/crossentropy": 1.4587783813476562,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10919100791215897,
      "step": 5791
    },
    {
      "epoch": 0.9653333333333334,
      "grad_norm": 23.125,
      "grad_norm_var": 0.6875,
      "learning_rate": 2.990862023266983e-07,
      "loss": 6.0512,
      "loss/crossentropy": 0.9824569523334503,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11465490236878395,
      "step": 5792
    },
    {
      "epoch": 0.9655,
      "grad_norm": 22.375,
      "grad_norm_var": 0.7197916666666667,
      "learning_rate": 2.962338031997691e-07,
      "loss": 6.2485,
      "loss/crossentropy": 1.084403395652771,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.14823437668383121,
      "step": 5793
    },
    {
      "epoch": 0.9656666666666667,
      "grad_norm": 23.25,
      "grad_norm_var": 0.8249348958333333,
      "learning_rate": 2.9339503064224615e-07,
      "loss": 6.1958,
      "loss/crossentropy": 1.7510323226451874,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14899005368351936,
      "step": 5794
    },
    {
      "epoch": 0.9658333333333333,
      "grad_norm": 24.375,
      "grad_norm_var": 1.1905598958333334,
      "learning_rate": 2.9056988543239014e-07,
      "loss": 6.5194,
      "loss/crossentropy": 1.6422593146562576,
      "loss/hidden": 3.109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15190378576517105,
      "step": 5795
    },
    {
      "epoch": 0.966,
      "grad_norm": 20.625,
      "grad_norm_var": 1.278125,
      "learning_rate": 2.877583683447316e-07,
      "loss": 6.1569,
      "loss/crossentropy": 1.1215807050466537,
      "loss/hidden": 3.37890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12954978691413999,
      "step": 5796
    },
    {
      "epoch": 0.9661666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 1.31015625,
      "learning_rate": 2.849604801500538e-07,
      "loss": 6.3912,
      "loss/crossentropy": 1.7598800659179688,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15977654233574867,
      "step": 5797
    },
    {
      "epoch": 0.9663333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 1.340625,
      "learning_rate": 2.8217622161542667e-07,
      "loss": 6.3982,
      "loss/crossentropy": 1.6511498242616653,
      "loss/hidden": 3.4765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1924518346786499,
      "step": 5798
    },
    {
      "epoch": 0.9665,
      "grad_norm": 21.75,
      "grad_norm_var": 1.3125,
      "learning_rate": 2.794055935041673e-07,
      "loss": 5.9805,
      "loss/crossentropy": 1.3672862648963928,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14079048298299313,
      "step": 5799
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 19.5,
      "grad_norm_var": 1.6643229166666667,
      "learning_rate": 2.766485965758514e-07,
      "loss": 5.8954,
      "loss/crossentropy": 1.3971002846956253,
      "loss/hidden": 3.4921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18498722463846207,
      "step": 5800
    },
    {
      "epoch": 0.9668333333333333,
      "grad_norm": 4496293888.0,
      "grad_norm_var": 1.263541158239203e+18,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 6.4041,
      "loss/crossentropy": 1.3932437747716904,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10948913544416428,
      "step": 5801
    },
    {
      "epoch": 0.967,
      "grad_norm": 20.25,
      "grad_norm_var": 1.263541158290723e+18,
      "learning_rate": 2.7117549928772354e-07,
      "loss": 5.9282,
      "loss/crossentropy": 1.619510293006897,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15392248705029488,
      "step": 5802
    },
    {
      "epoch": 0.9671666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.2635411582766723e+18,
      "learning_rate": 2.684594004283836e-07,
      "loss": 6.224,
      "loss/crossentropy": 1.1008094027638435,
      "loss/hidden": 2.859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10151989012956619,
      "step": 5803
    },
    {
      "epoch": 0.9673333333333334,
      "grad_norm": 23.0,
      "grad_norm_var": 1.2635411581970504e+18,
      "learning_rate": 2.657569357529588e-07,
      "loss": 6.1981,
      "loss/crossentropy": 1.1380825191736221,
      "loss/hidden": 3.30859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.136157869361341,
      "step": 5804
    },
    {
      "epoch": 0.9675,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2635411581642647e+18,
      "learning_rate": 2.630681060023343e-07,
      "loss": 6.324,
      "loss/crossentropy": 1.3368062674999237,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1529394742101431,
      "step": 5805
    },
    {
      "epoch": 0.9676666666666667,
      "grad_norm": 23.125,
      "grad_norm_var": 1.263541158084643e+18,
      "learning_rate": 2.603929119136761e-07,
      "loss": 6.3278,
      "loss/crossentropy": 1.1300605237483978,
      "loss/hidden": 3.0,
      "loss/jsd": 0.0,
      "loss/logits": 0.09087923634797335,
      "step": 5806
    },
    {
      "epoch": 0.9678333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.263541158150214e+18,
      "learning_rate": 2.5773135422040296e-07,
      "loss": 6.2007,
      "loss/crossentropy": 1.3938584327697754,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1316992100328207,
      "step": 5807
    },
    {
      "epoch": 0.968,
      "grad_norm": 21.125,
      "grad_norm_var": 1.2635411582251523e+18,
      "learning_rate": 2.5508343365219233e-07,
      "loss": 6.4071,
      "loss/crossentropy": 2.0821584165096283,
      "loss/hidden": 3.22265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15439038258045912,
      "step": 5808
    },
    {
      "epoch": 0.9681666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 1.2635411582111012e+18,
      "learning_rate": 2.5244915093499134e-07,
      "loss": 6.4569,
      "loss/crossentropy": 1.441016361117363,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1695447750389576,
      "step": 5809
    },
    {
      "epoch": 0.9683333333333334,
      "grad_norm": 20.875,
      "grad_norm_var": 1.2635411583000904e+18,
      "learning_rate": 2.49828506791e-07,
      "loss": 5.9224,
      "loss/crossentropy": 1.2255215346813202,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1870537083595991,
      "step": 5810
    },
    {
      "epoch": 0.9685,
      "grad_norm": 21.75,
      "grad_norm_var": 1.2635411583984468e+18,
      "learning_rate": 2.472215019386881e-07,
      "loss": 6.2846,
      "loss/crossentropy": 1.8716281652450562,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15802190266549587,
      "step": 5811
    },
    {
      "epoch": 0.9686666666666667,
      "grad_norm": 22.5,
      "grad_norm_var": 1.2635411583281923e+18,
      "learning_rate": 2.4462813709277277e-07,
      "loss": 5.9126,
      "loss/crossentropy": 1.8128826320171356,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1626450978219509,
      "step": 5812
    },
    {
      "epoch": 0.9688333333333333,
      "grad_norm": 19.375,
      "grad_norm_var": 1.2635411583984468e+18,
      "learning_rate": 2.4204841296424085e-07,
      "loss": 6.0798,
      "loss/crossentropy": 1.4206162095069885,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1747019663453102,
      "step": 5813
    },
    {
      "epoch": 0.969,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2635411583609777e+18,
      "learning_rate": 2.3948233026034326e-07,
      "loss": 6.0859,
      "loss/crossentropy": 1.2338882833719254,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11433839239180088,
      "step": 5814
    },
    {
      "epoch": 0.9691666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 1.2635411583609777e+18,
      "learning_rate": 2.3692988968458395e-07,
      "loss": 5.8759,
      "loss/crossentropy": 1.2915132120251656,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.132582550868392,
      "step": 5815
    },
    {
      "epoch": 0.9693333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.2635411583235085e+18,
      "learning_rate": 2.3439109193673091e-07,
      "loss": 6.0982,
      "loss/crossentropy": 1.5768397748470306,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.142079321667552,
      "step": 5816
    },
    {
      "epoch": 0.9695,
      "grad_norm": 21.5,
      "grad_norm_var": 1.0268229166666667,
      "learning_rate": 2.3186593771280517e-07,
      "loss": 6.2134,
      "loss/crossentropy": 1.169230304658413,
      "loss/hidden": 2.96484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.0984652228653431,
      "step": 5817
    },
    {
      "epoch": 0.9696666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 0.9291666666666667,
      "learning_rate": 2.2935442770509187e-07,
      "loss": 5.9722,
      "loss/crossentropy": 1.3952680230140686,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1132366694509983,
      "step": 5818
    },
    {
      "epoch": 0.9698333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 0.9301432291666667,
      "learning_rate": 2.2685656260214572e-07,
      "loss": 6.0329,
      "loss/crossentropy": 1.6443820893764496,
      "loss/hidden": 3.1328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.14597276411950588,
      "step": 5819
    },
    {
      "epoch": 0.97,
      "grad_norm": 21.5,
      "grad_norm_var": 0.7942057291666667,
      "learning_rate": 2.2437234308875788e-07,
      "loss": 6.0398,
      "loss/crossentropy": 1.0209312438964844,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09119416773319244,
      "step": 5820
    },
    {
      "epoch": 0.9701666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 0.8205729166666667,
      "learning_rate": 2.219017698460002e-07,
      "loss": 6.1943,
      "loss/crossentropy": 1.3989079594612122,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10691914334893227,
      "step": 5821
    },
    {
      "epoch": 0.9703333333333334,
      "grad_norm": 20.25,
      "grad_norm_var": 0.6962890625,
      "learning_rate": 2.19444843551192e-07,
      "loss": 5.7803,
      "loss/crossentropy": 1.2552156075835228,
      "loss/hidden": 3.42578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15209864173084497,
      "step": 5822
    },
    {
      "epoch": 0.9705,
      "grad_norm": 21.375,
      "grad_norm_var": 0.6962890625,
      "learning_rate": 2.1700156487790558e-07,
      "loss": 6.209,
      "loss/crossentropy": 0.9557372629642487,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09088430646806955,
      "step": 5823
    },
    {
      "epoch": 0.9706666666666667,
      "grad_norm": 20.625,
      "grad_norm_var": 0.7218098958333333,
      "learning_rate": 2.14571934495994e-07,
      "loss": 5.9704,
      "loss/crossentropy": 1.3748431354761124,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13907171413302422,
      "step": 5824
    },
    {
      "epoch": 0.9708333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 0.5747395833333333,
      "learning_rate": 2.1215595307154667e-07,
      "loss": 6.338,
      "loss/crossentropy": 1.6524716317653656,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12842296436429024,
      "step": 5825
    },
    {
      "epoch": 0.971,
      "grad_norm": 20.25,
      "grad_norm_var": 0.6238932291666667,
      "learning_rate": 2.0975362126691712e-07,
      "loss": 6.2812,
      "loss/crossentropy": 1.065319001674652,
      "loss/hidden": 3.0703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1061614416539669,
      "step": 5826
    },
    {
      "epoch": 0.9711666666666666,
      "grad_norm": 23.5,
      "grad_norm_var": 0.9593098958333334,
      "learning_rate": 2.0736493974071736e-07,
      "loss": 6.268,
      "loss/crossentropy": 1.581451952457428,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.219586580991745,
      "step": 5827
    },
    {
      "epoch": 0.9713333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 0.87890625,
      "learning_rate": 2.0498990914782358e-07,
      "loss": 6.1698,
      "loss/crossentropy": 1.325374111533165,
      "loss/hidden": 2.91796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09714966267347336,
      "step": 5828
    },
    {
      "epoch": 0.9715,
      "grad_norm": 22.375,
      "grad_norm_var": 0.71015625,
      "learning_rate": 2.0262853013935378e-07,
      "loss": 6.3664,
      "loss/crossentropy": 1.80723237991333,
      "loss/hidden": 3.16796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15441440790891647,
      "step": 5829
    },
    {
      "epoch": 0.9716666666666667,
      "grad_norm": 20.375,
      "grad_norm_var": 0.75390625,
      "learning_rate": 2.0028080336270683e-07,
      "loss": 5.9754,
      "loss/crossentropy": 1.7525825500488281,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12733182683587074,
      "step": 5830
    },
    {
      "epoch": 0.9718333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 0.7853515625,
      "learning_rate": 1.9794672946152336e-07,
      "loss": 6.0765,
      "loss/crossentropy": 1.2727203518152237,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10966666880995035,
      "step": 5831
    },
    {
      "epoch": 0.972,
      "grad_norm": 23.25,
      "grad_norm_var": 0.9572265625,
      "learning_rate": 1.9562630907569157e-07,
      "loss": 6.3086,
      "loss/crossentropy": 1.6305420696735382,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1481760572642088,
      "step": 5832
    },
    {
      "epoch": 0.9721666666666666,
      "grad_norm": 23.5,
      "grad_norm_var": 1.2093098958333333,
      "learning_rate": 1.9331954284137476e-07,
      "loss": 6.449,
      "loss/crossentropy": 1.512198030948639,
      "loss/hidden": 3.359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17022504471242428,
      "step": 5833
    },
    {
      "epoch": 0.9723333333333334,
      "grad_norm": 21.875,
      "grad_norm_var": 1.18515625,
      "learning_rate": 1.9102643139099486e-07,
      "loss": 6.2988,
      "loss/crossentropy": 1.3101020753383636,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10181890800595284,
      "step": 5834
    },
    {
      "epoch": 0.9725,
      "grad_norm": 21.0,
      "grad_norm_var": 1.2122395833333333,
      "learning_rate": 1.8874697535319895e-07,
      "loss": 6.0881,
      "loss/crossentropy": 1.209220990538597,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09247073158621788,
      "step": 5835
    },
    {
      "epoch": 0.9726666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1.2139973958333334,
      "learning_rate": 1.8648117535293718e-07,
      "loss": 6.5764,
      "loss/crossentropy": 2.0450620353221893,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1351049393415451,
      "step": 5836
    },
    {
      "epoch": 0.9728333333333333,
      "grad_norm": 20.875,
      "grad_norm_var": 1.1997395833333333,
      "learning_rate": 1.8422903201137932e-07,
      "loss": 5.9247,
      "loss/crossentropy": 1.7811121344566345,
      "loss/hidden": 3.67578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2107323817908764,
      "step": 5837
    },
    {
      "epoch": 0.973,
      "grad_norm": 22.0,
      "grad_norm_var": 1.059375,
      "learning_rate": 1.8199054594595922e-07,
      "loss": 6.133,
      "loss/crossentropy": 1.1555032432079315,
      "loss/hidden": 3.24609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.157687293831259,
      "step": 5838
    },
    {
      "epoch": 0.9731666666666666,
      "grad_norm": 20.625,
      "grad_norm_var": 1.13515625,
      "learning_rate": 1.7976571777038044e-07,
      "loss": 5.8814,
      "loss/crossentropy": 1.6773097217082977,
      "loss/hidden": 3.23046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16402298025786877,
      "step": 5839
    },
    {
      "epoch": 0.9733333333333334,
      "grad_norm": 24.25,
      "grad_norm_var": 1.4202473958333333,
      "learning_rate": 1.7755454809458839e-07,
      "loss": 6.0825,
      "loss/crossentropy": 0.7024214938282967,
      "loss/hidden": 3.0390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08194089075550437,
      "step": 5840
    },
    {
      "epoch": 0.9735,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4489583333333333,
      "learning_rate": 1.753570375247815e-07,
      "loss": 6.2554,
      "loss/crossentropy": 1.3329669684171677,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17510806769132614,
      "step": 5841
    },
    {
      "epoch": 0.9736666666666667,
      "grad_norm": 24.375,
      "grad_norm_var": 1.5327473958333333,
      "learning_rate": 1.7317318666342786e-07,
      "loss": 6.5446,
      "loss/crossentropy": 1.7612431049346924,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1710120588541031,
      "step": 5842
    },
    {
      "epoch": 0.9738333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.58515625,
      "learning_rate": 1.7100299610924298e-07,
      "loss": 6.242,
      "loss/crossentropy": 1.2988244369626045,
      "loss/hidden": 2.8203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.08638207707554102,
      "step": 5843
    },
    {
      "epoch": 0.974,
      "grad_norm": 24.25,
      "grad_norm_var": 1.8634765625,
      "learning_rate": 1.6884646645719538e-07,
      "loss": 6.7753,
      "loss/crossentropy": 1.1693215891718864,
      "loss/hidden": 3.50390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13797377701848745,
      "step": 5844
    },
    {
      "epoch": 0.9741666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 1.878125,
      "learning_rate": 1.6670359829850657e-07,
      "loss": 6.1162,
      "loss/crossentropy": 1.3076319098472595,
      "loss/hidden": 3.3125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12389996647834778,
      "step": 5845
    },
    {
      "epoch": 0.9743333333333334,
      "grad_norm": 20.375,
      "grad_norm_var": 1.878125,
      "learning_rate": 1.6457439222065663e-07,
      "loss": 6.1063,
      "loss/crossentropy": 1.6624860912561417,
      "loss/hidden": 3.390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1708109099417925,
      "step": 5846
    },
    {
      "epoch": 0.9745,
      "grad_norm": 21.0,
      "grad_norm_var": 1.9712890625,
      "learning_rate": 1.6245884880738415e-07,
      "loss": 6.054,
      "loss/crossentropy": 1.894763022661209,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14078759029507637,
      "step": 5847
    },
    {
      "epoch": 0.9746666666666667,
      "grad_norm": 22.875,
      "grad_norm_var": 1.925,
      "learning_rate": 1.6035696863866967e-07,
      "loss": 6.1351,
      "loss/crossentropy": 1.1221453696489334,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0939364805817604,
      "step": 5848
    },
    {
      "epoch": 0.9748333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 1.8489583333333333,
      "learning_rate": 1.5826875229076333e-07,
      "loss": 6.6373,
      "loss/crossentropy": 1.0596527308225632,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08084216807037592,
      "step": 5849
    },
    {
      "epoch": 0.975,
      "grad_norm": 22.5,
      "grad_norm_var": 1.8551432291666667,
      "learning_rate": 1.5619420033615716e-07,
      "loss": 6.2449,
      "loss/crossentropy": 1.4821669533848763,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12991903070360422,
      "step": 5850
    },
    {
      "epoch": 0.9751666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 2.03515625,
      "learning_rate": 1.5413331334360182e-07,
      "loss": 6.0877,
      "loss/crossentropy": 1.3977928161621094,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1267072819173336,
      "step": 5851
    },
    {
      "epoch": 0.9753333333333334,
      "grad_norm": 22.125,
      "grad_norm_var": 2.0322916666666666,
      "learning_rate": 1.5208609187810086e-07,
      "loss": 5.8974,
      "loss/crossentropy": 1.5992170423269272,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16856537200510502,
      "step": 5852
    },
    {
      "epoch": 0.9755,
      "grad_norm": 23.375,
      "grad_norm_var": 2.0166666666666666,
      "learning_rate": 1.500525365009109e-07,
      "loss": 6.1548,
      "loss/crossentropy": 1.6369817554950714,
      "loss/hidden": 3.17578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18470971658825874,
      "step": 5853
    },
    {
      "epoch": 0.9756666666666667,
      "grad_norm": 19.875,
      "grad_norm_var": 2.3697265625,
      "learning_rate": 1.4803264776955262e-07,
      "loss": 5.6178,
      "loss/crossentropy": 1.1957334131002426,
      "loss/hidden": 2.796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.06896512396633625,
      "step": 5854
    },
    {
      "epoch": 0.9758333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 2.4233723958333333,
      "learning_rate": 1.4602642623777752e-07,
      "loss": 5.752,
      "loss/crossentropy": 0.8188463449478149,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08400871139019728,
      "step": 5855
    },
    {
      "epoch": 0.976,
      "grad_norm": 20.5,
      "grad_norm_var": 2.2280598958333333,
      "learning_rate": 1.4403387245560117e-07,
      "loss": 6.1162,
      "loss/crossentropy": 1.2885004729032516,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1314768437296152,
      "step": 5856
    },
    {
      "epoch": 0.9761666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 2.1927083333333335,
      "learning_rate": 1.420549869693033e-07,
      "loss": 6.0515,
      "loss/crossentropy": 1.228621706366539,
      "loss/hidden": 2.95703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11354948952794075,
      "step": 5857
    },
    {
      "epoch": 0.9763333333333334,
      "grad_norm": 21.5,
      "grad_norm_var": 1.7389973958333333,
      "learning_rate": 1.4008977032140548e-07,
      "loss": 6.0293,
      "loss/crossentropy": 1.2805616408586502,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12751240748912096,
      "step": 5858
    },
    {
      "epoch": 0.9765,
      "grad_norm": 23.25,
      "grad_norm_var": 1.8059895833333333,
      "learning_rate": 1.3813822305067116e-07,
      "loss": 6.3589,
      "loss/crossentropy": 1.474975124001503,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1259030243381858,
      "step": 5859
    },
    {
      "epoch": 0.9766666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.4020182291666667,
      "learning_rate": 1.3620034569214458e-07,
      "loss": 6.0786,
      "loss/crossentropy": 1.333926722407341,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.0992037933319807,
      "step": 5860
    },
    {
      "epoch": 0.9768333333333333,
      "grad_norm": 21.5,
      "grad_norm_var": 1.4041015625,
      "learning_rate": 1.342761387770952e-07,
      "loss": 6.1759,
      "loss/crossentropy": 1.8223848640918732,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15080000087618828,
      "step": 5861
    },
    {
      "epoch": 0.977,
      "grad_norm": 20.75,
      "grad_norm_var": 1.34765625,
      "learning_rate": 1.3236560283305666e-07,
      "loss": 6.1334,
      "loss/crossentropy": 1.7106998413801193,
      "loss/hidden": 3.34375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16394598595798016,
      "step": 5862
    },
    {
      "epoch": 0.9771666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.375,
      "learning_rate": 1.3046873838381546e-07,
      "loss": 6.1351,
      "loss/crossentropy": 1.470188856124878,
      "loss/hidden": 2.97265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13383203744888306,
      "step": 5863
    },
    {
      "epoch": 0.9773333333333334,
      "grad_norm": 20.5,
      "grad_norm_var": 1.3514973958333334,
      "learning_rate": 1.285855459494112e-07,
      "loss": 6.2101,
      "loss/crossentropy": 1.169315829873085,
      "loss/hidden": 3.4375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13494913838803768,
      "step": 5864
    },
    {
      "epoch": 0.9775,
      "grad_norm": 22.75,
      "grad_norm_var": 1.3067057291666666,
      "learning_rate": 1.267160260461253e-07,
      "loss": 6.2842,
      "loss/crossentropy": 1.5373520851135254,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17460757680237293,
      "step": 5865
    },
    {
      "epoch": 0.9776666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.2666666666666666,
      "learning_rate": 1.2486017918649784e-07,
      "loss": 6.4237,
      "loss/crossentropy": 1.299797348678112,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.21998450811952353,
      "step": 5866
    },
    {
      "epoch": 0.9778333333333333,
      "grad_norm": 21.875,
      "grad_norm_var": 1.1372395833333333,
      "learning_rate": 1.2301800587932178e-07,
      "loss": 6.2521,
      "loss/crossentropy": 1.5151448249816895,
      "loss/hidden": 3.36328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.18244574218988419,
      "step": 5867
    },
    {
      "epoch": 0.978,
      "grad_norm": 21.0,
      "grad_norm_var": 1.1389973958333333,
      "learning_rate": 1.2118950662963757e-07,
      "loss": 6.1998,
      "loss/crossentropy": 1.3826670348644257,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19319761916995049,
      "step": 5868
    },
    {
      "epoch": 0.9781666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 0.984375,
      "learning_rate": 1.193746819387387e-07,
      "loss": 6.126,
      "loss/crossentropy": 1.2044027298688889,
      "loss/hidden": 3.12890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.07862443942576647,
      "step": 5869
    },
    {
      "epoch": 0.9783333333333334,
      "grad_norm": 20.625,
      "grad_norm_var": 0.87265625,
      "learning_rate": 1.1757353230417712e-07,
      "loss": 6.0613,
      "loss/crossentropy": 1.2732182890176773,
      "loss/hidden": 3.203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1694983970373869,
      "step": 5870
    },
    {
      "epoch": 0.9785,
      "grad_norm": 21.75,
      "grad_norm_var": 0.8046223958333333,
      "learning_rate": 1.1578605821973565e-07,
      "loss": 6.1909,
      "loss/crossentropy": 1.487119510769844,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13105967827141285,
      "step": 5871
    },
    {
      "epoch": 0.9786666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 0.74375,
      "learning_rate": 1.1401226017546673e-07,
      "loss": 6.3509,
      "loss/crossentropy": 1.3288538604974747,
      "loss/hidden": 3.2421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11775338463485241,
      "step": 5872
    },
    {
      "epoch": 0.9788333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 0.7327473958333334,
      "learning_rate": 1.1225213865767026e-07,
      "loss": 6.1679,
      "loss/crossentropy": 1.8426973521709442,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.16996241733431816,
      "step": 5873
    },
    {
      "epoch": 0.979,
      "grad_norm": 19.375,
      "grad_norm_var": 1.00390625,
      "learning_rate": 1.1050569414889355e-07,
      "loss": 5.3442,
      "loss/crossentropy": 1.2488695979118347,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.0872756764292717,
      "step": 5874
    },
    {
      "epoch": 0.9791666666666666,
      "grad_norm": 21.75,
      "grad_norm_var": 0.76015625,
      "learning_rate": 1.0877292712792585e-07,
      "loss": 5.9261,
      "loss/crossentropy": 1.3575677573680878,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12368728592991829,
      "step": 5875
    },
    {
      "epoch": 0.9793333333333333,
      "grad_norm": 19.125,
      "grad_norm_var": 0.96640625,
      "learning_rate": 1.0705383806982606e-07,
      "loss": 5.6899,
      "loss/crossentropy": 1.6409567669034004,
      "loss/hidden": 3.01171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11895760707557201,
      "step": 5876
    },
    {
      "epoch": 0.9795,
      "grad_norm": 21.0,
      "grad_norm_var": 0.9518229166666666,
      "learning_rate": 1.053484274458838e-07,
      "loss": 6.0849,
      "loss/crossentropy": 1.4722857922315598,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.10111426562070847,
      "step": 5877
    },
    {
      "epoch": 0.9796666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 0.9983723958333334,
      "learning_rate": 1.0365669572364733e-07,
      "loss": 6.0865,
      "loss/crossentropy": 1.5275148749351501,
      "loss/hidden": 3.3359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.17618669383227825,
      "step": 5878
    },
    {
      "epoch": 0.9798333333333333,
      "grad_norm": 23.125,
      "grad_norm_var": 1.2791666666666666,
      "learning_rate": 1.0197864336691787e-07,
      "loss": 6.4117,
      "loss/crossentropy": 1.697925329208374,
      "loss/hidden": 3.37109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.23985699750483036,
      "step": 5879
    },
    {
      "epoch": 0.98,
      "grad_norm": 22.5,
      "grad_norm_var": 1.3625,
      "learning_rate": 1.0031427083574407e-07,
      "loss": 5.9623,
      "loss/crossentropy": 1.2290141582489014,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16280769184231758,
      "step": 5880
    },
    {
      "epoch": 0.9801666666666666,
      "grad_norm": 20.75,
      "grad_norm_var": 1.2125,
      "learning_rate": 9.866357858642205e-08,
      "loss": 6.2089,
      "loss/crossentropy": 1.8768450617790222,
      "loss/hidden": 2.984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.128978680819273,
      "step": 5881
    },
    {
      "epoch": 0.9803333333333333,
      "grad_norm": 23.0,
      "grad_norm_var": 1.3770182291666666,
      "learning_rate": 9.702656707149538e-08,
      "loss": 6.5172,
      "loss/crossentropy": 1.8499039113521576,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20210756734013557,
      "step": 5882
    },
    {
      "epoch": 0.9805,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4205729166666667,
      "learning_rate": 9.540323673976614e-08,
      "loss": 6.5477,
      "loss/crossentropy": 1.2922979146242142,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13551330007612705,
      "step": 5883
    },
    {
      "epoch": 0.9806666666666667,
      "grad_norm": 21.625,
      "grad_norm_var": 1.4280598958333333,
      "learning_rate": 9.379358803627281e-08,
      "loss": 6.1434,
      "loss/crossentropy": 1.800403743982315,
      "loss/hidden": 3.3203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17664187215268612,
      "step": 5884
    },
    {
      "epoch": 0.9808333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.36015625,
      "learning_rate": 9.219762140231236e-08,
      "loss": 5.7513,
      "loss/crossentropy": 0.9957592934370041,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13481076434254646,
      "step": 5885
    },
    {
      "epoch": 0.981,
      "grad_norm": 18.625,
      "grad_norm_var": 1.7893229166666667,
      "learning_rate": 9.061533727542371e-08,
      "loss": 5.772,
      "loss/crossentropy": 1.2021667212247849,
      "loss/hidden": 2.8359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07262881891801953,
      "step": 5886
    },
    {
      "epoch": 0.9811666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 1.7739583333333333,
      "learning_rate": 8.904673608940983e-08,
      "loss": 5.7801,
      "loss/crossentropy": 1.0631364583969116,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.16174465790390968,
      "step": 5887
    },
    {
      "epoch": 0.9813333333333333,
      "grad_norm": 19.5,
      "grad_norm_var": 1.8988932291666667,
      "learning_rate": 8.749181827430453e-08,
      "loss": 5.8394,
      "loss/crossentropy": 1.4303537756204605,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12410406209528446,
      "step": 5888
    },
    {
      "epoch": 0.9815,
      "grad_norm": 20.375,
      "grad_norm_var": 1.9205729166666667,
      "learning_rate": 8.595058425640013e-08,
      "loss": 5.7772,
      "loss/crossentropy": 1.1507951021194458,
      "loss/hidden": 3.1875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10089916922152042,
      "step": 5889
    },
    {
      "epoch": 0.9816666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.7436848958333333,
      "learning_rate": 8.442303445823085e-08,
      "loss": 6.2969,
      "loss/crossentropy": 1.8682872354984283,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1424731221050024,
      "step": 5890
    },
    {
      "epoch": 0.9818333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 1.7372395833333334,
      "learning_rate": 8.290916929858394e-08,
      "loss": 5.801,
      "loss/crossentropy": 1.302285224199295,
      "loss/hidden": 3.4296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20558476634323597,
      "step": 5891
    },
    {
      "epoch": 0.982,
      "grad_norm": 21.25,
      "grad_norm_var": 1.4926432291666667,
      "learning_rate": 8.140898919249407e-08,
      "loss": 6.2775,
      "loss/crossentropy": 1.2730808705091476,
      "loss/hidden": 3.4140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1557960556820035,
      "step": 5892
    },
    {
      "epoch": 0.9821666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 1.5541666666666667,
      "learning_rate": 7.99224945512489e-08,
      "loss": 5.8795,
      "loss/crossentropy": 1.569688767194748,
      "loss/hidden": 3.28125,
      "loss/jsd": 0.0,
      "loss/logits": 0.13292139396071434,
      "step": 5893
    },
    {
      "epoch": 0.9823333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.5893229166666667,
      "learning_rate": 7.844968578237244e-08,
      "loss": 5.5867,
      "loss/crossentropy": 1.307762786746025,
      "loss/hidden": 2.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10351004358381033,
      "step": 5894
    },
    {
      "epoch": 0.9825,
      "grad_norm": 22.75,
      "grad_norm_var": 1.4942057291666666,
      "learning_rate": 7.699056328964726e-08,
      "loss": 6.4597,
      "loss/crossentropy": 2.122705638408661,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1444724015891552,
      "step": 5895
    },
    {
      "epoch": 0.9826666666666667,
      "grad_norm": 20.0,
      "grad_norm_var": 1.3926432291666666,
      "learning_rate": 7.554512747310339e-08,
      "loss": 6.0572,
      "loss/crossentropy": 1.5175270736217499,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13955184258520603,
      "step": 5896
    },
    {
      "epoch": 0.9828333333333333,
      "grad_norm": 21.625,
      "grad_norm_var": 1.4268229166666666,
      "learning_rate": 7.411337872900714e-08,
      "loss": 6.0808,
      "loss/crossentropy": 1.3856891989707947,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12925854697823524,
      "step": 5897
    },
    {
      "epoch": 0.983,
      "grad_norm": 19.375,
      "grad_norm_var": 1.2436848958333333,
      "learning_rate": 7.2695317449889e-08,
      "loss": 5.8299,
      "loss/crossentropy": 2.361772909760475,
      "loss/hidden": 3.21484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1489882953464985,
      "step": 5898
    },
    {
      "epoch": 0.9831666666666666,
      "grad_norm": 21.25,
      "grad_norm_var": 1.0988932291666667,
      "learning_rate": 7.129094402451575e-08,
      "loss": 6.1063,
      "loss/crossentropy": 1.9213762283325195,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13488369435071945,
      "step": 5899
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 23.625,
      "grad_norm_var": 1.6134765625,
      "learning_rate": 6.990025883789608e-08,
      "loss": 6.4063,
      "loss/crossentropy": 1.6209112852811813,
      "loss/hidden": 3.33203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.209738377481699,
      "step": 5900
    },
    {
      "epoch": 0.9835,
      "grad_norm": 21.625,
      "grad_norm_var": 1.6535807291666667,
      "learning_rate": 6.852326227130834e-08,
      "loss": 5.9059,
      "loss/crossentropy": 1.6047703325748444,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16304261982440948,
      "step": 5901
    },
    {
      "epoch": 0.9836666666666667,
      "grad_norm": 20.5,
      "grad_norm_var": 1.3322916666666667,
      "learning_rate": 6.715995470225056e-08,
      "loss": 5.8556,
      "loss/crossentropy": 2.046364039182663,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15374571457505226,
      "step": 5902
    },
    {
      "epoch": 0.9838333333333333,
      "grad_norm": 22.375,
      "grad_norm_var": 1.4494140625,
      "learning_rate": 6.581033650449042e-08,
      "loss": 6.3864,
      "loss/crossentropy": 1.0975421518087387,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1822090893983841,
      "step": 5903
    },
    {
      "epoch": 0.984,
      "grad_norm": 19.875,
      "grad_norm_var": 1.38515625,
      "learning_rate": 6.447440804803195e-08,
      "loss": 6.0684,
      "loss/crossentropy": 1.0684805363416672,
      "loss/hidden": 3.05859375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11837104335427284,
      "step": 5904
    },
    {
      "epoch": 0.9841666666666666,
      "grad_norm": 20.875,
      "grad_norm_var": 1.36015625,
      "learning_rate": 6.315216969912663e-08,
      "loss": 6.0539,
      "loss/crossentropy": 1.3378277570009232,
      "loss/hidden": 3.09375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11478680651634932,
      "step": 5905
    },
    {
      "epoch": 0.9843333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3624348958333334,
      "learning_rate": 6.184362182026781e-08,
      "loss": 6.3897,
      "loss/crossentropy": 1.3909151926636696,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.14290234819054604,
      "step": 5906
    },
    {
      "epoch": 0.9845,
      "grad_norm": 19.25,
      "grad_norm_var": 1.5434895833333333,
      "learning_rate": 6.054876477021299e-08,
      "loss": 5.7575,
      "loss/crossentropy": 1.4334254264831543,
      "loss/hidden": 2.890625,
      "loss/jsd": 0.0,
      "loss/logits": 0.08928020298480988,
      "step": 5907
    },
    {
      "epoch": 0.9846666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.54140625,
      "learning_rate": 5.926759890394484e-08,
      "loss": 5.8733,
      "loss/crossentropy": 1.4599981009960175,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.10901760496199131,
      "step": 5908
    },
    {
      "epoch": 0.9848333333333333,
      "grad_norm": 21.75,
      "grad_norm_var": 1.5270182291666667,
      "learning_rate": 5.800012457270465e-08,
      "loss": 6.2646,
      "loss/crossentropy": 1.609900325536728,
      "loss/hidden": 3.375,
      "loss/jsd": 0.0,
      "loss/logits": 0.18534531444311142,
      "step": 5909
    },
    {
      "epoch": 0.985,
      "grad_norm": 21.125,
      "grad_norm_var": 1.4280598958333333,
      "learning_rate": 5.674634212398111e-08,
      "loss": 5.8982,
      "loss/crossentropy": 1.3735174760222435,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09735875111073256,
      "step": 5910
    },
    {
      "epoch": 0.9851666666666666,
      "grad_norm": 21.5,
      "grad_norm_var": 1.2561848958333333,
      "learning_rate": 5.550625190150483e-08,
      "loss": 6.1707,
      "loss/crossentropy": 1.4332339763641357,
      "loss/hidden": 2.8515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09944713488221169,
      "step": 5911
    },
    {
      "epoch": 0.9853333333333333,
      "grad_norm": 193.0,
      "grad_norm_var": 1847.4905598958333,
      "learning_rate": 5.4279854245248285e-08,
      "loss": 6.1482,
      "loss/crossentropy": 1.459284171462059,
      "loss/hidden": 3.1484375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11224003788083792,
      "step": 5912
    },
    {
      "epoch": 0.9855,
      "grad_norm": 23.5,
      "grad_norm_var": 1845.1497395833333,
      "learning_rate": 5.306714949143699e-08,
      "loss": 6.3573,
      "loss/crossentropy": 1.8937934637069702,
      "loss/hidden": 3.40625,
      "loss/jsd": 0.0,
      "loss/logits": 0.26604361087083817,
      "step": 5913
    },
    {
      "epoch": 0.9856666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1840.9989583333333,
      "learning_rate": 5.186813797254386e-08,
      "loss": 6.3435,
      "loss/crossentropy": 1.687331110239029,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1312167625874281,
      "step": 5914
    },
    {
      "epoch": 0.9858333333333333,
      "grad_norm": 21.25,
      "grad_norm_var": 1840.9989583333333,
      "learning_rate": 5.06828200172893e-08,
      "loss": 5.9493,
      "loss/crossentropy": 1.4266825914382935,
      "loss/hidden": 3.046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12955883890390396,
      "step": 5915
    },
    {
      "epoch": 0.986,
      "grad_norm": 21.0,
      "grad_norm_var": 1844.4155598958334,
      "learning_rate": 4.951119595062448e-08,
      "loss": 6.1678,
      "loss/crossentropy": 1.3897788226604462,
      "loss/hidden": 2.96875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11322854273021221,
      "step": 5916
    },
    {
      "epoch": 0.9861666666666666,
      "grad_norm": 22.75,
      "grad_norm_var": 1842.9395833333333,
      "learning_rate": 4.835326609376467e-08,
      "loss": 6.3639,
      "loss/crossentropy": 1.7484683245420456,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12461219914257526,
      "step": 5917
    },
    {
      "epoch": 0.9863333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 1842.9395833333333,
      "learning_rate": 4.720903076415595e-08,
      "loss": 5.7997,
      "loss/crossentropy": 1.8506957590579987,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12854087259620428,
      "step": 5918
    },
    {
      "epoch": 0.9865,
      "grad_norm": 20.25,
      "grad_norm_var": 1845.9666015625,
      "learning_rate": 4.607849027550293e-08,
      "loss": 6.1724,
      "loss/crossentropy": 1.9880662858486176,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18719515949487686,
      "step": 5919
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 22.375,
      "grad_norm_var": 1842.3389973958333,
      "learning_rate": 4.496164493775212e-08,
      "loss": 6.2824,
      "loss/crossentropy": 1.6036482602357864,
      "loss/hidden": 3.3671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20079513266682625,
      "step": 5920
    },
    {
      "epoch": 0.9868333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1839.14140625,
      "learning_rate": 4.385849505708084e-08,
      "loss": 6.051,
      "loss/crossentropy": 1.0847611725330353,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09292352199554443,
      "step": 5921
    },
    {
      "epoch": 0.987,
      "grad_norm": 18.75,
      "grad_norm_var": 1843.3728515625,
      "learning_rate": 4.2769040935936033e-08,
      "loss": 5.855,
      "loss/crossentropy": 1.573438361287117,
      "loss/hidden": 2.94921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11297979764640331,
      "step": 5922
    },
    {
      "epoch": 0.9871666666666666,
      "grad_norm": 19.375,
      "grad_norm_var": 1843.16015625,
      "learning_rate": 4.169328287299545e-08,
      "loss": 5.901,
      "loss/crossentropy": 2.052638679742813,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12495188415050507,
      "step": 5923
    },
    {
      "epoch": 0.9873333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1841.2014973958333,
      "learning_rate": 4.063122116317874e-08,
      "loss": 6.6472,
      "loss/crossentropy": 1.5159221589565277,
      "loss/hidden": 3.25,
      "loss/jsd": 0.0,
      "loss/logits": 0.257925970479846,
      "step": 5924
    },
    {
      "epoch": 0.9875,
      "grad_norm": 19.75,
      "grad_norm_var": 1844.2285807291667,
      "learning_rate": 3.958285609765855e-08,
      "loss": 5.7469,
      "loss/crossentropy": 1.682202011346817,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.13109184429049492,
      "step": 5925
    },
    {
      "epoch": 0.9876666666666667,
      "grad_norm": 21.875,
      "grad_norm_var": 1843.1723307291666,
      "learning_rate": 3.8548187963854956e-08,
      "loss": 6.3949,
      "loss/crossentropy": 1.6457992196083069,
      "loss/hidden": 3.3828125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17726943269371986,
      "step": 5926
    },
    {
      "epoch": 0.9878333333333333,
      "grad_norm": 22.25,
      "grad_norm_var": 1842.1488932291666,
      "learning_rate": 3.752721704541884e-08,
      "loss": 6.2623,
      "loss/crossentropy": 1.7922681868076324,
      "loss/hidden": 3.2109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15513816103339195,
      "step": 5927
    },
    {
      "epoch": 0.988,
      "grad_norm": 20.625,
      "grad_norm_var": 1.9559895833333334,
      "learning_rate": 3.651994362226518e-08,
      "loss": 6.1273,
      "loss/crossentropy": 1.455212526023388,
      "loss/hidden": 3.13671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1468452550470829,
      "step": 5928
    },
    {
      "epoch": 0.9881666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 1.6885416666666666,
      "learning_rate": 3.5526367970539765e-08,
      "loss": 6.0872,
      "loss/crossentropy": 2.347291588783264,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.16308950260281563,
      "step": 5929
    },
    {
      "epoch": 0.9883333333333333,
      "grad_norm": 23.25,
      "grad_norm_var": 1.9129557291666666,
      "learning_rate": 3.4546490362630244e-08,
      "loss": 6.3544,
      "loss/crossentropy": 1.6783693432807922,
      "loss/hidden": 3.1953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.22008422948420048,
      "step": 5930
    },
    {
      "epoch": 0.9885,
      "grad_norm": 20.125,
      "grad_norm_var": 1.9885416666666667,
      "learning_rate": 3.35803110671884e-08,
      "loss": 6.0787,
      "loss/crossentropy": 0.920447826385498,
      "loss/hidden": 3.296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10931381583213806,
      "step": 5931
    },
    {
      "epoch": 0.9886666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 2.0546223958333334,
      "learning_rate": 3.2627830349085675e-08,
      "loss": 5.791,
      "loss/crossentropy": 1.945217490196228,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1485537849366665,
      "step": 5932
    },
    {
      "epoch": 0.9888333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 2.028125,
      "learning_rate": 3.168904846945764e-08,
      "loss": 6.2376,
      "loss/crossentropy": 1.5438722670078278,
      "loss/hidden": 3.08984375,
      "loss/jsd": 0.0,
      "loss/logits": 0.1337715983390808,
      "step": 5933
    },
    {
      "epoch": 0.989,
      "grad_norm": 24.125,
      "grad_norm_var": 2.5624348958333334,
      "learning_rate": 3.076396568567619e-08,
      "loss": 6.2053,
      "loss/crossentropy": 1.4767476618289948,
      "loss/hidden": 3.15234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11576794926077127,
      "step": 5934
    },
    {
      "epoch": 0.9891666666666666,
      "grad_norm": 19.375,
      "grad_norm_var": 2.73515625,
      "learning_rate": 2.985258225135512e-08,
      "loss": 5.9584,
      "loss/crossentropy": 1.7087168097496033,
      "loss/hidden": 3.47265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.17111996188759804,
      "step": 5935
    },
    {
      "epoch": 0.9893333333333333,
      "grad_norm": 20.375,
      "grad_norm_var": 2.689322916666667,
      "learning_rate": 2.895489841635568e-08,
      "loss": 6.0658,
      "loss/crossentropy": 1.8592059910297394,
      "loss/hidden": 3.2265625,
      "loss/jsd": 0.0,
      "loss/logits": 0.15669912472367287,
      "step": 5936
    },
    {
      "epoch": 0.9895,
      "grad_norm": 21.625,
      "grad_norm_var": 2.397330729166667,
      "learning_rate": 2.8070914426786553e-08,
      "loss": 6.2745,
      "loss/crossentropy": 1.2924270182847977,
      "loss/hidden": 3.2578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.15427862107753754,
      "step": 5937
    },
    {
      "epoch": 0.9896666666666667,
      "grad_norm": 21.75,
      "grad_norm_var": 2.044205729166667,
      "learning_rate": 2.7200630524992775e-08,
      "loss": 6.5294,
      "loss/crossentropy": 1.3004481345415115,
      "loss/hidden": 3.015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.1402638591825962,
      "step": 5938
    },
    {
      "epoch": 0.9898333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 1.8004557291666667,
      "learning_rate": 2.6344046949566824e-08,
      "loss": 6.0271,
      "loss/crossentropy": 1.5420924723148346,
      "loss/hidden": 2.92578125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1029045581817627,
      "step": 5939
    },
    {
      "epoch": 0.99,
      "grad_norm": 20.5,
      "grad_norm_var": 1.7979166666666666,
      "learning_rate": 2.5501163935348626e-08,
      "loss": 6.1349,
      "loss/crossentropy": 2.0143646001815796,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.152736384421587,
      "step": 5940
    },
    {
      "epoch": 0.9901666666666666,
      "grad_norm": 23.375,
      "grad_norm_var": 1.8942057291666667,
      "learning_rate": 2.467198171342e-08,
      "loss": 6.4524,
      "loss/crossentropy": 1.4079070836305618,
      "loss/hidden": 3.81640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.2832290381193161,
      "step": 5941
    },
    {
      "epoch": 0.9903333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.9254557291666667,
      "learning_rate": 2.3856500511110215e-08,
      "loss": 6.2681,
      "loss/crossentropy": 0.986164353787899,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.07847005035728216,
      "step": 5942
    },
    {
      "epoch": 0.9905,
      "grad_norm": 21.625,
      "grad_norm_var": 1.87890625,
      "learning_rate": 2.3054720551973775e-08,
      "loss": 5.7275,
      "loss/crossentropy": 1.0775079727172852,
      "loss/hidden": 3.40234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.08085927367210388,
      "step": 5943
    },
    {
      "epoch": 0.9906666666666667,
      "grad_norm": 20.125,
      "grad_norm_var": 1.9434895833333334,
      "learning_rate": 2.2266642055834842e-08,
      "loss": 5.8793,
      "loss/crossentropy": 1.7165679335594177,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13592668995261192,
      "step": 5944
    },
    {
      "epoch": 0.9908333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 1.8833333333333333,
      "learning_rate": 2.1492265238748366e-08,
      "loss": 6.3597,
      "loss/crossentropy": 1.4565976858139038,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14355527609586716,
      "step": 5945
    },
    {
      "epoch": 0.991,
      "grad_norm": 23.5,
      "grad_norm_var": 1.94765625,
      "learning_rate": 2.0731590313016746e-08,
      "loss": 5.8944,
      "loss/crossentropy": 2.0165736377239227,
      "loss/hidden": 3.0546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11555910855531693,
      "step": 5946
    },
    {
      "epoch": 0.9911666666666666,
      "grad_norm": 20.5,
      "grad_norm_var": 1.8900390625,
      "learning_rate": 1.9984617487173174e-08,
      "loss": 6.1956,
      "loss/crossentropy": 1.8323769569396973,
      "loss/hidden": 3.35546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1314819697290659,
      "step": 5947
    },
    {
      "epoch": 0.9913333333333333,
      "grad_norm": 20.625,
      "grad_norm_var": 1.8155598958333334,
      "learning_rate": 1.9251346966014937e-08,
      "loss": 5.972,
      "loss/crossentropy": 1.7015061974525452,
      "loss/hidden": 2.99609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.12215718999505043,
      "step": 5948
    },
    {
      "epoch": 0.9915,
      "grad_norm": 21.75,
      "grad_norm_var": 1.7330729166666667,
      "learning_rate": 1.8531778950564572e-08,
      "loss": 6.3113,
      "loss/crossentropy": 1.7087583243846893,
      "loss/hidden": 2.9609375,
      "loss/jsd": 0.0,
      "loss/logits": 0.16061315452679992,
      "step": 5949
    },
    {
      "epoch": 0.9916666666666667,
      "grad_norm": 20.75,
      "grad_norm_var": 1.2426432291666667,
      "learning_rate": 1.7825913638097602e-08,
      "loss": 6.2621,
      "loss/crossentropy": 1.5477126836776733,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11810776218771935,
      "step": 5950
    },
    {
      "epoch": 0.9918333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.0184895833333334,
      "learning_rate": 1.7133751222137007e-08,
      "loss": 6.4379,
      "loss/crossentropy": 1.5929032787680626,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15273092035204172,
      "step": 5951
    },
    {
      "epoch": 0.992,
      "grad_norm": 5804916736.0,
      "grad_norm_var": 2.1060661289712003e+18,
      "learning_rate": 1.6455291892436554e-08,
      "loss": 6.2673,
      "loss/crossentropy": 1.3915380388498306,
      "loss/hidden": 3.30078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.2086063139140606,
      "step": 5952
    },
    {
      "epoch": 0.9921666666666666,
      "grad_norm": 20.0,
      "grad_norm_var": 2.1060661290498086e+18,
      "learning_rate": 1.5790535835003008e-08,
      "loss": 5.693,
      "loss/crossentropy": 1.6351237893104553,
      "loss/hidden": 2.94140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.0953568397089839,
      "step": 5953
    },
    {
      "epoch": 0.9923333333333333,
      "grad_norm": 18.75,
      "grad_norm_var": 2.1060661291949315e+18,
      "learning_rate": 1.5139483232079476e-08,
      "loss": 5.7652,
      "loss/crossentropy": 1.2582744359970093,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.09170175902545452,
      "step": 5954
    },
    {
      "epoch": 0.9925,
      "grad_norm": 22.75,
      "grad_norm_var": 2.1060661291284168e+18,
      "learning_rate": 1.450213426215652e-08,
      "loss": 6.4529,
      "loss/crossentropy": 1.3246663063764572,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.17515276558697224,
      "step": 5955
    },
    {
      "epoch": 0.9926666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 2.1060661290800425e+18,
      "learning_rate": 1.3878489099972136e-08,
      "loss": 6.171,
      "loss/crossentropy": 1.7278579473495483,
      "loss/hidden": 3.28515625,
      "loss/jsd": 0.0,
      "loss/logits": 0.19847837463021278,
      "step": 5956
    },
    {
      "epoch": 0.9928333333333333,
      "grad_norm": 24.875,
      "grad_norm_var": 2.106066129007481e+18,
      "learning_rate": 1.3268547916495122e-08,
      "loss": 6.098,
      "loss/crossentropy": 1.317619875073433,
      "loss/hidden": 3.10546875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15017655864357948,
      "step": 5957
    },
    {
      "epoch": 0.993,
      "grad_norm": 19.125,
      "grad_norm_var": 2.1060661290800425e+18,
      "learning_rate": 1.267231087895282e-08,
      "loss": 5.617,
      "loss/crossentropy": 1.3095300793647766,
      "loss/hidden": 2.98046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1216198205947876,
      "step": 5958
    },
    {
      "epoch": 0.9931666666666666,
      "grad_norm": 22.5,
      "grad_norm_var": 2.106066129037715e+18,
      "learning_rate": 1.2089778150797815e-08,
      "loss": 6.2204,
      "loss/crossentropy": 1.4245473444461823,
      "loss/hidden": 3.12109375,
      "loss/jsd": 0.0,
      "loss/logits": 0.13172622956335545,
      "step": 5959
    },
    {
      "epoch": 0.9933333333333333,
      "grad_norm": 22.0,
      "grad_norm_var": 2.106066128947013e+18,
      "learning_rate": 1.152094989174124e-08,
      "loss": 5.9905,
      "loss/crossentropy": 1.2934826612472534,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10580854304134846,
      "step": 5960
    },
    {
      "epoch": 0.9935,
      "grad_norm": 20.375,
      "grad_norm_var": 2.1060661290256215e+18,
      "learning_rate": 1.096582625772502e-08,
      "loss": 5.8936,
      "loss/crossentropy": 1.5825625732541084,
      "loss/hidden": 2.88671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.12291352357715368,
      "step": 5961
    },
    {
      "epoch": 0.9936666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 2.1060661290860895e+18,
      "learning_rate": 1.042440740094408e-08,
      "loss": 6.0629,
      "loss/crossentropy": 1.7391747534275055,
      "loss/hidden": 3.25390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.24257436022162437,
      "step": 5962
    },
    {
      "epoch": 0.9938333333333333,
      "grad_norm": 20.0,
      "grad_norm_var": 2.1060661291102766e+18,
      "learning_rate": 9.896693469829688e-09,
      "loss": 5.8549,
      "loss/crossentropy": 1.2763370722532272,
      "loss/hidden": 2.8671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08314494974911213,
      "step": 5963
    },
    {
      "epoch": 0.994,
      "grad_norm": 20.25,
      "grad_norm_var": 2.1060661291284168e+18,
      "learning_rate": 9.382684609060555e-09,
      "loss": 5.8312,
      "loss/crossentropy": 1.4805763810873032,
      "loss/hidden": 2.90625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10745657701045275,
      "step": 5964
    },
    {
      "epoch": 0.9941666666666666,
      "grad_norm": 22.25,
      "grad_norm_var": 2.1060661291042296e+18,
      "learning_rate": 8.882380959551739e-09,
      "loss": 6.2867,
      "loss/crossentropy": 1.549708992242813,
      "loss/hidden": 3.078125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12170352414250374,
      "step": 5965
    },
    {
      "epoch": 0.9943333333333333,
      "grad_norm": 20.5,
      "grad_norm_var": 2.1060661291163233e+18,
      "learning_rate": 8.395782658460194e-09,
      "loss": 5.8828,
      "loss/crossentropy": 1.9941593557596207,
      "loss/hidden": 3.01953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1173320822417736,
      "step": 5966
    },
    {
      "epoch": 0.9945,
      "grad_norm": 20.375,
      "grad_norm_var": 2.1060661291344637e+18,
      "learning_rate": 7.92288983920142e-09,
      "loss": 6.0982,
      "loss/crossentropy": 0.8029385507106781,
      "loss/hidden": 2.91015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.06286749988794327,
      "step": 5967
    },
    {
      "epoch": 0.9946666666666667,
      "grad_norm": 21.0,
      "grad_norm_var": 2.4322916666666665,
      "learning_rate": 7.463702631410607e-09,
      "loss": 6.2179,
      "loss/crossentropy": 2.0279014110565186,
      "loss/hidden": 3.3046875,
      "loss/jsd": 0.0,
      "loss/logits": 0.20705408044159412,
      "step": 5968
    },
    {
      "epoch": 0.9948333333333333,
      "grad_norm": 21.375,
      "grad_norm_var": 2.3384765625,
      "learning_rate": 7.018221160981497e-09,
      "loss": 6.0319,
      "loss/crossentropy": 1.4839587658643723,
      "loss/hidden": 3.2734375,
      "loss/jsd": 0.0,
      "loss/logits": 0.19040351919829845,
      "step": 5969
    },
    {
      "epoch": 0.995,
      "grad_norm": 22.375,
      "grad_norm_var": 1.9552083333333334,
      "learning_rate": 6.586445550044174e-09,
      "loss": 6.0906,
      "loss/crossentropy": 1.638750672340393,
      "loss/hidden": 3.11328125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1264859214425087,
      "step": 5970
    },
    {
      "epoch": 0.9951666666666666,
      "grad_norm": 21.625,
      "grad_norm_var": 1.8421223958333333,
      "learning_rate": 6.1683759169706146e-09,
      "loss": 5.9792,
      "loss/crossentropy": 1.1536128520965576,
      "loss/hidden": 3.07421875,
      "loss/jsd": 0.0,
      "loss/logits": 0.08941156882792711,
      "step": 5971
    },
    {
      "epoch": 0.9953333333333333,
      "grad_norm": 19.75,
      "grad_norm_var": 2.0098307291666666,
      "learning_rate": 5.764012376380246e-09,
      "loss": 5.9038,
      "loss/crossentropy": 1.4827645123004913,
      "loss/hidden": 3.06640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11823252961039543,
      "step": 5972
    },
    {
      "epoch": 0.9955,
      "grad_norm": 22.625,
      "grad_norm_var": 1.2504557291666667,
      "learning_rate": 5.373355039128835e-09,
      "loss": 6.581,
      "loss/crossentropy": 1.1209636181592941,
      "loss/hidden": 2.921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10418720357120037,
      "step": 5973
    },
    {
      "epoch": 0.9956666666666667,
      "grad_norm": 22.125,
      "grad_norm_var": 1.0035807291666667,
      "learning_rate": 4.996404012325151e-09,
      "loss": 6.2389,
      "loss/crossentropy": 1.365373969078064,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.13482739217579365,
      "step": 5974
    },
    {
      "epoch": 0.9958333333333333,
      "grad_norm": 19.875,
      "grad_norm_var": 1.0268229166666667,
      "learning_rate": 4.6331593993032e-09,
      "loss": 5.7914,
      "loss/crossentropy": 1.373528316617012,
      "loss/hidden": 3.04296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.10948082059621811,
      "step": 5975
    },
    {
      "epoch": 0.996,
      "grad_norm": 21.375,
      "grad_norm_var": 0.9822265625,
      "learning_rate": 4.2836212996499865e-09,
      "loss": 6.262,
      "loss/crossentropy": 1.200120821595192,
      "loss/hidden": 3.21875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15746424812823534,
      "step": 5976
    },
    {
      "epoch": 0.9961666666666666,
      "grad_norm": 20.25,
      "grad_norm_var": 0.9958333333333333,
      "learning_rate": 3.947789809194414e-09,
      "loss": 5.8614,
      "loss/crossentropy": 1.357173889875412,
      "loss/hidden": 3.234375,
      "loss/jsd": 0.0,
      "loss/logits": 0.11038760468363762,
      "step": 5977
    },
    {
      "epoch": 0.9963333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 0.9114583333333334,
      "learning_rate": 3.625665020007274e-09,
      "loss": 5.8041,
      "loss/crossentropy": 1.3766496777534485,
      "loss/hidden": 3.00390625,
      "loss/jsd": 0.0,
      "loss/logits": 0.10940901003777981,
      "step": 5978
    },
    {
      "epoch": 0.9965,
      "grad_norm": 23.25,
      "grad_norm_var": 1.1247395833333333,
      "learning_rate": 3.3172470204012594e-09,
      "loss": 6.3845,
      "loss/crossentropy": 1.3970017284154892,
      "loss/hidden": 3.1640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.18955037742853165,
      "step": 5979
    },
    {
      "epoch": 0.9966666666666667,
      "grad_norm": 20.875,
      "grad_norm_var": 1.0671223958333333,
      "learning_rate": 3.022535894930956e-09,
      "loss": 6.1119,
      "loss/crossentropy": 1.7057040631771088,
      "loss/hidden": 3.125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12243919633328915,
      "step": 5980
    },
    {
      "epoch": 0.9968333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 0.9997395833333333,
      "learning_rate": 2.741531724392843e-09,
      "loss": 6.3013,
      "loss/crossentropy": 1.2603930979967117,
      "loss/hidden": 3.20703125,
      "loss/jsd": 0.0,
      "loss/logits": 0.11082665622234344,
      "step": 5981
    },
    {
      "epoch": 0.997,
      "grad_norm": 20.5,
      "grad_norm_var": 0.9997395833333333,
      "learning_rate": 2.474234585825297e-09,
      "loss": 6.1828,
      "loss/crossentropy": 1.563881903886795,
      "loss/hidden": 3.26953125,
      "loss/jsd": 0.0,
      "loss/logits": 0.17134509794414043,
      "step": 5982
    },
    {
      "epoch": 0.9971666666666666,
      "grad_norm": 20.125,
      "grad_norm_var": 1.03125,
      "learning_rate": 2.2206445525085883e-09,
      "loss": 5.8965,
      "loss/crossentropy": 1.2948206961154938,
      "loss/hidden": 3.38671875,
      "loss/jsd": 0.0,
      "loss/logits": 0.11222044751048088,
      "step": 5983
    },
    {
      "epoch": 0.9973333333333333,
      "grad_norm": 21.125,
      "grad_norm_var": 1.0291015625,
      "learning_rate": 1.9807616939704342e-09,
      "loss": 5.8214,
      "loss/crossentropy": 1.3399889320135117,
      "loss/hidden": 3.09765625,
      "loss/jsd": 0.0,
      "loss/logits": 0.117879968136549,
      "step": 5984
    },
    {
      "epoch": 0.9975,
      "grad_norm": 22.0,
      "grad_norm_var": 1.0684895833333334,
      "learning_rate": 1.7545860759693445e-09,
      "loss": 6.2695,
      "loss/crossentropy": 1.8525531589984894,
      "loss/hidden": 3.6171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.23825163766741753,
      "step": 5985
    },
    {
      "epoch": 0.9976666666666667,
      "grad_norm": 24.0,
      "grad_norm_var": 1.4806640625,
      "learning_rate": 1.5421177605168258e-09,
      "loss": 6.5153,
      "loss/crossentropy": 1.760817065834999,
      "loss/hidden": 3.14453125,
      "loss/jsd": 0.0,
      "loss/logits": 0.1995876096189022,
      "step": 5986
    },
    {
      "epoch": 0.9978333333333333,
      "grad_norm": 22.625,
      "grad_norm_var": 1.5817057291666667,
      "learning_rate": 1.3433568058607293e-09,
      "loss": 6.3627,
      "loss/crossentropy": 1.2167703583836555,
      "loss/hidden": 3.31640625,
      "loss/jsd": 0.0,
      "loss/logits": 0.197163219563663,
      "step": 5987
    },
    {
      "epoch": 0.998,
      "grad_norm": 22.25,
      "grad_norm_var": 1.4228515625,
      "learning_rate": 1.1583032664908011e-09,
      "loss": 6.1058,
      "loss/crossentropy": 1.2773728594183922,
      "loss/hidden": 3.1015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.11392981559038162,
      "step": 5988
    },
    {
      "epoch": 0.9981666666666666,
      "grad_norm": 19.875,
      "grad_norm_var": 1.5030598958333334,
      "learning_rate": 9.869571931442334e-10,
      "loss": 5.7606,
      "loss/crossentropy": 1.5516952276229858,
      "loss/hidden": 3.19140625,
      "loss/jsd": 0.0,
      "loss/logits": 0.12842338904738426,
      "step": 5989
    },
    {
      "epoch": 0.9983333333333333,
      "grad_norm": 22.125,
      "grad_norm_var": 1.5030598958333334,
      "learning_rate": 8.293186327945624e-10,
      "loss": 6.1404,
      "loss/crossentropy": 1.058487430214882,
      "loss/hidden": 3.41015625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14110859856009483,
      "step": 5990
    },
    {
      "epoch": 0.9985,
      "grad_norm": 22.375,
      "grad_norm_var": 1.3910807291666667,
      "learning_rate": 6.853876286627702e-10,
      "loss": 6.5549,
      "loss/crossentropy": 1.7144450843334198,
      "loss/hidden": 3.26171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.14069160260260105,
      "step": 5991
    },
    {
      "epoch": 0.9986666666666667,
      "grad_norm": 21.5,
      "grad_norm_var": 1.3893229166666667,
      "learning_rate": 5.551642202006324e-10,
      "loss": 6.2823,
      "loss/crossentropy": 1.9367163181304932,
      "loss/hidden": 3.171875,
      "loss/jsd": 0.0,
      "loss/logits": 0.18513184413313866,
      "step": 5992
    },
    {
      "epoch": 0.9988333333333334,
      "grad_norm": 19.75,
      "grad_norm_var": 1.49140625,
      "learning_rate": 4.386484431184723e-10,
      "loss": 5.9631,
      "loss/crossentropy": 1.964501053094864,
      "loss/hidden": 3.19921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.15534980222582817,
      "step": 5993
    },
    {
      "epoch": 0.999,
      "grad_norm": 20.375,
      "grad_norm_var": 1.5384765625,
      "learning_rate": 3.3584032935185526e-10,
      "loss": 5.964,
      "loss/crossentropy": 1.3995226472616196,
      "loss/hidden": 3.1796875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1314184106886387,
      "step": 5994
    },
    {
      "epoch": 0.9991666666666666,
      "grad_norm": 22.375,
      "grad_norm_var": 1.38125,
      "learning_rate": 2.4673990708934393e-10,
      "loss": 6.1556,
      "loss/crossentropy": 1.1075121015310287,
      "loss/hidden": 3.08203125,
      "loss/jsd": 0.0,
      "loss/logits": 0.12413959391415119,
      "step": 5995
    },
    {
      "epoch": 0.9993333333333333,
      "grad_norm": 20.75,
      "grad_norm_var": 1.3916015625,
      "learning_rate": 1.713472007613959e-10,
      "loss": 6.1662,
      "loss/crossentropy": 1.4034058302640915,
      "loss/hidden": 3.0625,
      "loss/jsd": 0.0,
      "loss/logits": 0.14194430597126484,
      "step": 5996
    },
    {
      "epoch": 0.9995,
      "grad_norm": 21.375,
      "grad_norm_var": 1.3853515625,
      "learning_rate": 1.0966223103481276e-10,
      "loss": 6.1236,
      "loss/crossentropy": 1.8318566381931305,
      "loss/hidden": 2.9296875,
      "loss/jsd": 0.0,
      "loss/logits": 0.1255084164440632,
      "step": 5997
    },
    {
      "epoch": 0.9996666666666667,
      "grad_norm": 22.25,
      "grad_norm_var": 1.3561848958333333,
      "learning_rate": 6.168501482384237e-11,
      "loss": 5.9819,
      "loss/crossentropy": 1.405708134174347,
      "loss/hidden": 2.9921875,
      "loss/jsd": 0.0,
      "loss/logits": 0.09656247682869434,
      "step": 5998
    },
    {
      "epoch": 0.9998333333333334,
      "grad_norm": 22.25,
      "grad_norm_var": 1.2333333333333334,
      "learning_rate": 2.741556527352529e-11,
      "loss": 6.177,
      "loss/crossentropy": 1.2004786357283592,
      "loss/hidden": 2.9375,
      "loss/jsd": 0.0,
      "loss/logits": 0.09742245636880398,
      "step": 5999
    },
    {
      "epoch": 1.0,
      "grad_norm": 23.0,
      "grad_norm_var": 1.3124348958333334,
      "learning_rate": 6.853891787450551e-12,
      "loss": 6.2155,
      "loss/crossentropy": 1.8153426945209503,
      "loss/hidden": 3.18359375,
      "loss/jsd": 0.0,
      "loss/logits": 0.15634934604167938,
      "step": 6000
    }
  ],
  "logging_steps": 1,
  "max_steps": 6000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.7145059547807744e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}