diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,24018 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 250,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0005,
+      "grad_norm": 1.8149200677871704,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 0.6055,
+      "loss/crossentropy": 2.1694753170013428,
+      "loss/hidden": 0.296875,
+      "loss/logits": 0.04434104636311531,
+      "loss/reg": 0.026429571211338043,
+      "step": 1
+    },
+    {
+      "epoch": 0.001,
+      "grad_norm": 2.5396013259887695,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.6507,
+      "loss/crossentropy": 2.5328911542892456,
+      "loss/hidden": 0.314453125,
+      "loss/logits": 0.07194863818585873,
+      "loss/reg": 0.026429571211338043,
+      "step": 2
+    },
+    {
+      "epoch": 0.0015,
+      "grad_norm": 1.488558292388916,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 0.5344,
+      "loss/crossentropy": 2.451871395111084,
+      "loss/hidden": 0.2373046875,
+      "loss/logits": 0.03276057913899422,
+      "loss/reg": 0.02642955631017685,
+      "step": 3
+    },
+    {
+      "epoch": 0.002,
+      "grad_norm": 2.1853861808776855,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.5659,
+      "loss/crossentropy": 2.3267983198165894,
+      "loss/hidden": 0.2646484375,
+      "loss/logits": 0.03696209378540516,
+      "loss/reg": 0.02642953395843506,
+      "step": 4
+    },
+    {
+      "epoch": 0.0025,
+      "grad_norm": 1.4397950172424316,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.5414,
+      "loss/crossentropy": 2.410401225090027,
+      "loss/hidden": 0.24462890625,
+      "loss/logits": 0.03243397735059261,
+      "loss/reg": 0.02642953023314476,
+      "step": 5
+    },
+    {
+      "epoch": 0.003,
+      "grad_norm": 5.599375247955322,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.7887,
+      "loss/crossentropy": 2.808457851409912,
+      "loss/hidden": 0.4482421875,
+      "loss/logits": 0.07614399120211601,
+      "loss/reg": 0.02642950788140297,
+      "step": 6
+    },
+    {
+      "epoch": 0.0035,
+      "grad_norm": 1.8009779453277588,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 0.6491,
+      "loss/crossentropy": 2.0596200227737427,
+      "loss/hidden": 0.3349609375,
+      "loss/logits": 0.049886807799339294,
+      "loss/reg": 0.02642947994172573,
+      "step": 7
+    },
+    {
+      "epoch": 0.004,
+      "grad_norm": 1.524167776107788,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.5283,
+      "loss/crossentropy": 2.5316779613494873,
+      "loss/hidden": 0.234375,
+      "loss/logits": 0.029637396335601807,
+      "loss/reg": 0.026429446414113045,
+      "step": 8
+    },
+    {
+      "epoch": 0.0045,
+      "grad_norm": 1.5922240018844604,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 0.5713,
+      "loss/crossentropy": 2.3954519033432007,
+      "loss/hidden": 0.26171875,
+      "loss/logits": 0.04526849649846554,
+      "loss/reg": 0.02642940729856491,
+      "step": 9
+    },
+    {
+      "epoch": 0.005,
+      "grad_norm": 1.6532399654388428,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.5624,
+      "loss/crossentropy": 2.3280714750289917,
+      "loss/hidden": 0.2578125,
+      "loss/logits": 0.040291883051395416,
+      "loss/reg": 0.02642936259508133,
+      "step": 10
+    },
+    {
+      "epoch": 0.0055,
+      "grad_norm": 2.008364200592041,
+      "learning_rate": 2.2e-06,
+      "loss": 0.5498,
+      "loss/crossentropy": 2.3053948879241943,
+      "loss/hidden": 0.24609375,
+      "loss/logits": 0.039378101006150246,
+      "loss/reg": 0.026429304853081703,
+      "step": 11
+    },
+    {
+      "epoch": 0.006,
+      "grad_norm": 1.6782885789871216,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.5776,
+      "loss/crossentropy": 2.244460344314575,
+      "loss/hidden": 0.2724609375,
+      "loss/logits": 0.04084986075758934,
+      "loss/reg": 0.026429247111082077,
+      "step": 12
+    },
+    {
+      "epoch": 0.0065,
+      "grad_norm": 1.4042738676071167,
+      "learning_rate": 2.6e-06,
+      "loss": 0.5512,
+      "loss/crossentropy": 2.2852554321289062,
+      "loss/hidden": 0.25634765625,
+      "loss/logits": 0.03055955469608307,
+      "loss/reg": 0.026429180055856705,
+      "step": 13
+    },
+    {
+      "epoch": 0.007,
+      "grad_norm": 3.2632105350494385,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.5593,
+      "loss/crossentropy": 2.300649642944336,
+      "loss/hidden": 0.2568359375,
+      "loss/logits": 0.03812449052929878,
+      "loss/reg": 0.02642911858856678,
+      "step": 14
+    },
+    {
+      "epoch": 0.0075,
+      "grad_norm": 1.1468082666397095,
+      "learning_rate": 3e-06,
+      "loss": 0.5263,
+      "loss/crossentropy": 2.4939738512039185,
+      "loss/hidden": 0.23046875,
+      "loss/logits": 0.03151892125606537,
+      "loss/reg": 0.02642902545630932,
+      "step": 15
+    },
+    {
+      "epoch": 0.008,
+      "grad_norm": 1.2633907794952393,
+      "grad_norm_var": 1.1838536622732618,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.5162,
+      "loss/crossentropy": 2.3341073989868164,
+      "loss/hidden": 0.22216796875,
+      "loss/logits": 0.02972777932882309,
+      "loss/reg": 0.02642892673611641,
+      "step": 16
+    },
+    {
+      "epoch": 0.0085,
+      "grad_norm": 1.3773301839828491,
+      "grad_norm_var": 1.2080880649963361,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 0.57,
+      "loss/crossentropy": 2.4178860187530518,
+      "loss/hidden": 0.2705078125,
+      "loss/logits": 0.03520551137626171,
+      "loss/reg": 0.02642882987856865,
+      "step": 17
+    },
+    {
+      "epoch": 0.009,
+      "grad_norm": 2.9784727096557617,
+      "grad_norm_var": 1.2518295142571243,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 0.7119,
+      "loss/crossentropy": 2.143317699432373,
+      "loss/hidden": 0.39453125,
+      "loss/logits": 0.053122956305742264,
+      "loss/reg": 0.026428721845149994,
+      "step": 18
+    },
+    {
+      "epoch": 0.0095,
+      "grad_norm": 3.6081793308258057,
+      "grad_norm_var": 1.3809537706703447,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 0.616,
+      "loss/crossentropy": 2.280970811843872,
+      "loss/hidden": 0.306640625,
+      "loss/logits": 0.0450353492051363,
+      "loss/reg": 0.02642863430082798,
+      "step": 19
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 2.2921319007873535,
+      "grad_norm_var": 1.3820597339022322,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6631,
+      "loss/crossentropy": 2.447663187980652,
+      "loss/hidden": 0.3447265625,
+      "loss/logits": 0.05406281352043152,
+      "loss/reg": 0.02642853744328022,
+      "step": 20
+    },
+    {
+      "epoch": 0.0105,
+      "grad_norm": 1.4713051319122314,
+      "grad_norm_var": 1.3790775157724358,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 0.5979,
+      "loss/crossentropy": 2.0740893483161926,
+      "loss/hidden": 0.28515625,
+      "loss/logits": 0.04845273308455944,
+      "loss/reg": 0.02642839401960373,
+      "step": 21
+    },
+    {
+      "epoch": 0.011,
+      "grad_norm": 1.3936915397644043,
+      "grad_norm_var": 0.5594726223515398,
+      "learning_rate": 4.4e-06,
+      "loss": 0.5342,
+      "loss/crossentropy": 2.308709979057312,
+      "loss/hidden": 0.23681640625,
+      "loss/logits": 0.03306800499558449,
+      "loss/reg": 0.026428284123539925,
+      "step": 22
+    },
+    {
+      "epoch": 0.0115,
+      "grad_norm": 1.5905181169509888,
+      "grad_norm_var": 0.5651179587326415,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 0.5387,
+      "loss/crossentropy": 2.518093228340149,
+      "loss/hidden": 0.2392578125,
+      "loss/logits": 0.03512653335928917,
+      "loss/reg": 0.02642817609012127,
+      "step": 23
+    },
+    {
+      "epoch": 0.012,
+      "grad_norm": 1.5539664030075073,
+      "grad_norm_var": 0.5637185598957045,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.5216,
+      "loss/crossentropy": 2.4222742319107056,
+      "loss/hidden": 0.22900390625,
+      "loss/logits": 0.028284232132136822,
+      "loss/reg": 0.02642805129289627,
+      "step": 24
+    },
+    {
+      "epoch": 0.0125,
+      "grad_norm": 1.4515613317489624,
+      "grad_norm_var": 0.5705814698960205,
+      "learning_rate": 5e-06,
+      "loss": 0.5546,
+      "loss/crossentropy": 2.1840826272964478,
+      "loss/hidden": 0.26025390625,
+      "loss/logits": 0.03005337156355381,
+      "loss/reg": 0.02642790600657463,
+      "step": 25
+    },
+    {
+      "epoch": 0.013,
+      "grad_norm": 1.3925954103469849,
+      "grad_norm_var": 0.5828268281563851,
+      "learning_rate": 5.2e-06,
+      "loss": 0.5187,
+      "loss/crossentropy": 2.417304754257202,
+      "loss/hidden": 0.2255859375,
+      "loss/logits": 0.028857468627393246,
+      "loss/reg": 0.0264277420938015,
+      "step": 26
+    },
+    {
+      "epoch": 0.0135,
+      "grad_norm": 1.3494521379470825,
+      "grad_norm_var": 0.5975540703483029,
+      "learning_rate": 5.400000000000001e-06,
+      "loss": 0.581,
+      "loss/crossentropy": 2.4872124195098877,
+      "loss/hidden": 0.275390625,
+      "loss/logits": 0.04128789156675339,
+      "loss/reg": 0.02642754837870598,
+      "step": 27
+    },
+    {
+      "epoch": 0.014,
+      "grad_norm": 1.7983005046844482,
+      "grad_norm_var": 0.5960914554887113,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.5793,
+      "loss/crossentropy": 2.5761152505874634,
+      "loss/hidden": 0.28125,
+      "loss/logits": 0.03379652462899685,
+      "loss/reg": 0.02642735280096531,
+      "step": 28
+    },
+    {
+      "epoch": 0.0145,
+      "grad_norm": 1.2769767045974731,
+      "grad_norm_var": 0.6043886156117831,
+      "learning_rate": 5.8e-06,
+      "loss": 0.5439,
+      "loss/crossentropy": 2.338332176208496,
+      "loss/hidden": 0.24658203125,
+      "loss/logits": 0.03306223638355732,
+      "loss/reg": 0.02642717957496643,
+      "step": 29
+    },
+    {
+      "epoch": 0.015,
+      "grad_norm": 1.1405447721481323,
+      "grad_norm_var": 0.47908970131792705,
+      "learning_rate": 6e-06,
+      "loss": 0.4911,
+      "loss/crossentropy": 2.541923403739929,
+      "loss/hidden": 0.201171875,
+      "loss/logits": 0.025660399347543716,
+      "loss/reg": 0.026426956057548523,
+      "step": 30
+    },
+    {
+      "epoch": 0.0155,
+      "grad_norm": 1.4948232173919678,
+      "grad_norm_var": 0.4613230136594038,
+      "learning_rate": 6.200000000000001e-06,
+      "loss": 0.5016,
+      "loss/crossentropy": 2.3482922315597534,
+      "loss/hidden": 0.2109375,
+      "loss/logits": 0.026443324983119965,
+      "loss/reg": 0.026426780968904495,
+      "step": 31
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 1.9969562292099,
+      "grad_norm_var": 0.45082540579723746,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.5719,
+      "loss/crossentropy": 2.294642925262451,
+      "loss/hidden": 0.27392578125,
+      "loss/logits": 0.03373559284955263,
+      "loss/reg": 0.02642657607793808,
+      "step": 32
+    },
+    {
+      "epoch": 0.0165,
+      "grad_norm": 1.2221813201904297,
+      "grad_norm_var": 0.46025475791477294,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 0.5252,
+      "loss/crossentropy": 2.3495378494262695,
+      "loss/hidden": 0.22900390625,
+      "loss/logits": 0.03191899135708809,
+      "loss/reg": 0.026426387950778008,
+      "step": 33
+    },
+    {
+      "epoch": 0.017,
+      "grad_norm": 1.5299986600875854,
+      "grad_norm_var": 0.3542705004937232,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.5302,
+      "loss/crossentropy": 2.421632170677185,
+      "loss/hidden": 0.23095703125,
+      "loss/logits": 0.03493742551654577,
+      "loss/reg": 0.02642618492245674,
+      "step": 34
+    },
+    {
+      "epoch": 0.0175,
+      "grad_norm": 1.3914459943771362,
+      "grad_norm_var": 0.08563591942271481,
+      "learning_rate": 7e-06,
+      "loss": 0.5396,
+      "loss/crossentropy": 2.501790404319763,
+      "loss/hidden": 0.2412109375,
+      "loss/logits": 0.03411697968840599,
+      "loss/reg": 0.02642594650387764,
+      "step": 35
+    },
+    {
+      "epoch": 0.018,
+      "grad_norm": 1.2283117771148682,
+      "grad_norm_var": 0.04708121548131293,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.5276,
+      "loss/crossentropy": 2.369629979133606,
+      "loss/hidden": 0.22802734375,
+      "loss/logits": 0.03534604236483574,
+      "loss/reg": 0.026425734162330627,
+      "step": 36
+    },
+    {
+      "epoch": 0.0185,
+      "grad_norm": 2.441415548324585,
+      "grad_norm_var": 0.1079886358057666,
+      "learning_rate": 7.4e-06,
+      "loss": 0.6458,
+      "loss/crossentropy": 2.286492109298706,
+      "loss/hidden": 0.333984375,
+      "loss/logits": 0.047583552077412605,
+      "loss/reg": 0.02642551064491272,
+      "step": 37
+    },
+    {
+      "epoch": 0.019,
+      "grad_norm": 1.4532129764556885,
+      "grad_norm_var": 0.107241014688942,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 0.5401,
+      "loss/crossentropy": 2.5449851751327515,
+      "loss/hidden": 0.24072265625,
+      "loss/logits": 0.035121435299515724,
+      "loss/reg": 0.026425251737236977,
+      "step": 38
+    },
+    {
+      "epoch": 0.0195,
+      "grad_norm": 2.312504768371582,
+      "grad_norm_var": 0.1466550400336051,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 0.6225,
+      "loss/crossentropy": 2.248945951461792,
+      "loss/hidden": 0.3115234375,
+      "loss/logits": 0.04672851786017418,
+      "loss/reg": 0.02642502635717392,
+      "step": 39
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.8888795375823975,
+      "grad_norm_var": 0.15318881349217175,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.5732,
+      "loss/crossentropy": 2.476779580116272,
+      "loss/hidden": 0.26953125,
+      "loss/logits": 0.03942425549030304,
+      "loss/reg": 0.02642476186156273,
+      "step": 40
+    },
+    {
+      "epoch": 0.0205,
+      "grad_norm": 1.5608994960784912,
+      "grad_norm_var": 0.15198231846540716,
+      "learning_rate": 8.2e-06,
+      "loss": 0.5381,
+      "loss/crossentropy": 2.38312304019928,
+      "loss/hidden": 0.24072265625,
+      "loss/logits": 0.03310199826955795,
+      "loss/reg": 0.0264244694262743,
+      "step": 41
+    },
+    {
+      "epoch": 0.021,
+      "grad_norm": 1.2987440824508667,
+      "grad_norm_var": 0.15503315722776131,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.4821,
+      "loss/crossentropy": 2.515058755874634,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.024530705995857716,
+      "loss/reg": 0.026424190029501915,
+      "step": 42
+    },
+    {
+      "epoch": 0.0215,
+      "grad_norm": 1.6956250667572021,
+      "grad_norm_var": 0.15157974603150895,
+      "learning_rate": 8.6e-06,
+      "loss": 0.6312,
+      "loss/crossentropy": 2.2517104148864746,
+      "loss/hidden": 0.3251953125,
+      "loss/logits": 0.041729243472218513,
+      "loss/reg": 0.026423903182148933,
+      "step": 43
+    },
+    {
+      "epoch": 0.022,
+      "grad_norm": 1.4108027219772339,
+      "grad_norm_var": 0.15114137609056771,
+      "learning_rate": 8.8e-06,
+      "loss": 0.5171,
+      "loss/crossentropy": 2.4841147661209106,
+      "loss/hidden": 0.22412109375,
+      "loss/logits": 0.02869710698723793,
+      "loss/reg": 0.026423608884215355,
+      "step": 44
+    },
+    {
+      "epoch": 0.0225,
+      "grad_norm": 1.3235130310058594,
+      "grad_norm_var": 0.14937195903162886,
+      "learning_rate": 9e-06,
+      "loss": 0.52,
+      "loss/crossentropy": 2.2738723754882812,
+      "loss/hidden": 0.2275390625,
+      "loss/logits": 0.028268495574593544,
+      "loss/reg": 0.026423312723636627,
+      "step": 45
+    },
+    {
+      "epoch": 0.023,
+      "grad_norm": 1.3061593770980835,
+      "grad_norm_var": 0.14123057510749676,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 0.4971,
+      "loss/crossentropy": 2.326944351196289,
+      "loss/hidden": 0.2080078125,
+      "loss/logits": 0.024814478121697903,
+      "loss/reg": 0.026423051953315735,
+      "step": 46
+    },
+    {
+      "epoch": 0.0235,
+      "grad_norm": 1.972931146621704,
+      "grad_norm_var": 0.14898989683507768,
+      "learning_rate": 9.4e-06,
+      "loss": 0.5559,
+      "loss/crossentropy": 2.4830580949783325,
+      "loss/hidden": 0.26025390625,
+      "loss/logits": 0.03139444626867771,
+      "loss/reg": 0.026422718539834023,
+      "step": 47
+    },
+    {
+      "epoch": 0.024,
+      "grad_norm": 1.698211669921875,
+      "grad_norm_var": 0.13983553268258544,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.5664,
+      "loss/crossentropy": 2.416160821914673,
+      "loss/hidden": 0.2578125,
+      "loss/logits": 0.04433598928153515,
+      "loss/reg": 0.026422368362545967,
+      "step": 48
+    },
+    {
+      "epoch": 0.0245,
+      "grad_norm": 7.356233596801758,
+      "grad_norm_var": 2.1755974425683684,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.6608,
+      "loss/crossentropy": 2.1511300802230835,
+      "loss/hidden": 0.3544921875,
+      "loss/logits": 0.042037611827254295,
+      "loss/reg": 0.02642207033932209,
+      "step": 49
+    },
+    {
+      "epoch": 0.025,
+      "grad_norm": 1.6962363719940186,
+      "grad_norm_var": 2.1670886649573458,
+      "learning_rate": 1e-05,
+      "loss": 0.5114,
+      "loss/crossentropy": 2.493433117866516,
+      "loss/hidden": 0.21875,
+      "loss/logits": 0.028404117561876774,
+      "loss/reg": 0.026421738788485527,
+      "step": 50
+    },
+    {
+      "epoch": 0.0255,
+      "grad_norm": 1.5135979652404785,
+      "grad_norm_var": 2.1580740006997834,
+      "learning_rate": 1.02e-05,
+      "loss": 0.4992,
+      "loss/crossentropy": 2.4469869136810303,
+      "loss/hidden": 0.20947265625,
+      "loss/logits": 0.025465765967965126,
+      "loss/reg": 0.02642141655087471,
+      "step": 51
+    },
+    {
+      "epoch": 0.026,
+      "grad_norm": 2.1058454513549805,
+      "grad_norm_var": 2.1147619503580235,
+      "learning_rate": 1.04e-05,
+      "loss": 0.5947,
+      "loss/crossentropy": 2.0783703327178955,
+      "loss/hidden": 0.29736328125,
+      "loss/logits": 0.03310043551027775,
+      "loss/reg": 0.02642105147242546,
+      "step": 52
+    },
+    {
+      "epoch": 0.0265,
+      "grad_norm": 1.4466326236724854,
+      "grad_norm_var": 2.126641614633889,
+      "learning_rate": 1.0600000000000002e-05,
+      "loss": 0.5175,
+      "loss/crossentropy": 2.5233154296875,
+      "loss/hidden": 0.22607421875,
+      "loss/logits": 0.027255047112703323,
+      "loss/reg": 0.0264207124710083,
+      "step": 53
+    },
+    {
+      "epoch": 0.027,
+      "grad_norm": 1.2315421104431152,
+      "grad_norm_var": 2.145947583831748,
+      "learning_rate": 1.0800000000000002e-05,
+      "loss": 0.4939,
+      "loss/crossentropy": 2.482948899269104,
+      "loss/hidden": 0.20263671875,
+      "loss/logits": 0.02701568230986595,
+      "loss/reg": 0.02642032690346241,
+      "step": 54
+    },
+    {
+      "epoch": 0.0275,
+      "grad_norm": 1.3502835035324097,
+      "grad_norm_var": 2.1622647893893476,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.5642,
+      "loss/crossentropy": 2.4037868976593018,
+      "loss/hidden": 0.26220703125,
+      "loss/logits": 0.03778073936700821,
+      "loss/reg": 0.02641993761062622,
+      "step": 55
+    },
+    {
+      "epoch": 0.028,
+      "grad_norm": 1.66973078250885,
+      "grad_norm_var": 2.166424380346859,
+      "learning_rate": 1.1200000000000001e-05,
+      "loss": 0.5326,
+      "loss/crossentropy": 2.3202576637268066,
+      "loss/hidden": 0.23681640625,
+      "loss/logits": 0.03157219849526882,
+      "loss/reg": 0.02641947939991951,
+      "step": 56
+    },
+    {
+      "epoch": 0.0285,
+      "grad_norm": 1.4568390846252441,
+      "grad_norm_var": 2.1720116007570036,
+      "learning_rate": 1.14e-05,
+      "loss": 0.5873,
+      "loss/crossentropy": 2.3086094856262207,
+      "loss/hidden": 0.27783203125,
+      "loss/logits": 0.0453144833445549,
+      "loss/reg": 0.026419078931212425,
+      "step": 57
+    },
+    {
+      "epoch": 0.029,
+      "grad_norm": 1.2021527290344238,
+      "grad_norm_var": 2.1804451998311927,
+      "learning_rate": 1.16e-05,
+      "loss": 0.4861,
+      "loss/crossentropy": 2.5664894580841064,
+      "loss/hidden": 0.19580078125,
+      "loss/logits": 0.0260773915797472,
+      "loss/reg": 0.02641867846250534,
+      "step": 58
+    },
+    {
+      "epoch": 0.0295,
+      "grad_norm": 1.2372887134552002,
+      "grad_norm_var": 2.2062031636320434,
+      "learning_rate": 1.18e-05,
+      "loss": 0.5491,
+      "loss/crossentropy": 2.3016046285629272,
+      "loss/hidden": 0.2490234375,
+      "loss/logits": 0.035935116931796074,
+      "loss/reg": 0.0264182947576046,
+      "step": 59
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 1.4047211408615112,
+      "grad_norm_var": 2.206580767441871,
+      "learning_rate": 1.2e-05,
+      "loss": 0.5279,
+      "loss/crossentropy": 2.2995004653930664,
+      "loss/hidden": 0.23095703125,
+      "loss/logits": 0.032775900326669216,
+      "loss/reg": 0.026417918503284454,
+      "step": 60
+    },
+    {
+      "epoch": 0.0305,
+      "grad_norm": 1.2555537223815918,
+      "grad_norm_var": 2.211850675210066,
+      "learning_rate": 1.22e-05,
+      "loss": 0.5124,
+      "loss/crossentropy": 2.3773516416549683,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.028029106557369232,
+      "loss/reg": 0.026417534798383713,
+      "step": 61
+    },
+    {
+      "epoch": 0.031,
+      "grad_norm": 1.3694956302642822,
+      "grad_norm_var": 2.207348318396743,
+      "learning_rate": 1.2400000000000002e-05,
+      "loss": 0.5246,
+      "loss/crossentropy": 2.462360382080078,
+      "loss/hidden": 0.2294921875,
+      "loss/logits": 0.030931759625673294,
+      "loss/reg": 0.026417037472128868,
+      "step": 62
+    },
+    {
+      "epoch": 0.0315,
+      "grad_norm": 0.8940879106521606,
+      "grad_norm_var": 2.2657112396397707,
+      "learning_rate": 1.2600000000000001e-05,
+      "loss": 0.4918,
+      "loss/crossentropy": 2.4237685203552246,
+      "loss/hidden": 0.20166015625,
+      "loss/logits": 0.026003433391451836,
+      "loss/reg": 0.02641662023961544,
+      "step": 63
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 1.3153444528579712,
+      "grad_norm_var": 2.2803513495186505,
+      "learning_rate": 1.2800000000000001e-05,
+      "loss": 0.5112,
+      "loss/crossentropy": 2.3414171934127808,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.026362700387835503,
+      "loss/reg": 0.026416106149554253,
+      "step": 64
+    },
+    {
+      "epoch": 0.0325,
+      "grad_norm": 1.281063437461853,
+      "grad_norm_var": 0.0715017189536231,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.52,
+      "loss/crossentropy": 2.420620918273926,
+      "loss/hidden": 0.2255859375,
+      "loss/logits": 0.030298630706965923,
+      "loss/reg": 0.026415672153234482,
+      "step": 65
+    },
+    {
+      "epoch": 0.033,
+      "grad_norm": 1.3108336925506592,
+      "grad_norm_var": 0.0656601505461642,
+      "learning_rate": 1.3200000000000002e-05,
+      "loss": 0.5189,
+      "loss/crossentropy": 2.2853455543518066,
+      "loss/hidden": 0.22265625,
+      "loss/logits": 0.0321119399741292,
+      "loss/reg": 0.026415223255753517,
+      "step": 66
+    },
+    {
+      "epoch": 0.0335,
+      "grad_norm": 1.0983670949935913,
+      "grad_norm_var": 0.06891859533181677,
+      "learning_rate": 1.3400000000000002e-05,
+      "loss": 0.5318,
+      "loss/crossentropy": 2.3410117626190186,
+      "loss/hidden": 0.23681640625,
+      "loss/logits": 0.030876386910676956,
+      "loss/reg": 0.026414690539240837,
+      "step": 67
+    },
+    {
+      "epoch": 0.034,
+      "grad_norm": 1.7166627645492554,
+      "grad_norm_var": 0.039260036839271824,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 0.5701,
+      "loss/crossentropy": 2.407397150993347,
+      "loss/hidden": 0.2685546875,
+      "loss/logits": 0.03741579130291939,
+      "loss/reg": 0.026414209976792336,
+      "step": 68
+    },
+    {
+      "epoch": 0.0345,
+      "grad_norm": 0.9616859555244446,
+      "grad_norm_var": 0.046257726034885954,
+      "learning_rate": 1.38e-05,
+      "loss": 0.455,
+      "loss/crossentropy": 2.5552138090133667,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.02096631657332182,
+      "loss/reg": 0.02641364373266697,
+      "step": 69
+    },
+    {
+      "epoch": 0.035,
+      "grad_norm": 1.3926982879638672,
+      "grad_norm_var": 0.046469501868423045,
+      "learning_rate": 1.4e-05,
+      "loss": 0.5899,
+      "loss/crossentropy": 2.184352159500122,
+      "loss/hidden": 0.2880859375,
+      "loss/logits": 0.03772860765457153,
+      "loss/reg": 0.02641312964260578,
+      "step": 70
+    },
+    {
+      "epoch": 0.0355,
+      "grad_norm": 1.6911873817443848,
+      "grad_norm_var": 0.055686708202271486,
+      "learning_rate": 1.4200000000000001e-05,
+      "loss": 0.5065,
+      "loss/crossentropy": 2.3083138465881348,
+      "loss/hidden": 0.21533203125,
+      "loss/logits": 0.026994884945452213,
+      "loss/reg": 0.02641255594789982,
+      "step": 71
+    },
+    {
+      "epoch": 0.036,
+      "grad_norm": 1.5207164287567139,
+      "grad_norm_var": 0.05029689369081134,
+      "learning_rate": 1.4400000000000001e-05,
+      "loss": 0.5155,
+      "loss/crossentropy": 2.514549493789673,
+      "loss/hidden": 0.2265625,
+      "loss/logits": 0.024821529164910316,
+      "loss/reg": 0.02641192451119423,
+      "step": 72
+    },
+    {
+      "epoch": 0.0365,
+      "grad_norm": 1.5217493772506714,
+      "grad_norm_var": 0.05175064306116064,
+      "learning_rate": 1.46e-05,
+      "loss": 0.5331,
+      "loss/crossentropy": 2.2549461126327515,
+      "loss/hidden": 0.2353515625,
+      "loss/logits": 0.03362779691815376,
+      "loss/reg": 0.026411263272166252,
+      "step": 73
+    },
+    {
+      "epoch": 0.037,
+      "grad_norm": 1.4319448471069336,
+      "grad_norm_var": 0.05133754544456459,
+      "learning_rate": 1.48e-05,
+      "loss": 0.543,
+      "loss/crossentropy": 2.2208691835403442,
+      "loss/hidden": 0.251953125,
+      "loss/logits": 0.026933430694043636,
+      "loss/reg": 0.026410607621073723,
+      "step": 74
+    },
+    {
+      "epoch": 0.0375,
+      "grad_norm": 1.5548027753829956,
+      "grad_norm_var": 0.05338703002904901,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.5053,
+      "loss/crossentropy": 2.4420419931411743,
+      "loss/hidden": 0.21630859375,
+      "loss/logits": 0.02489750273525715,
+      "loss/reg": 0.026409907266497612,
+      "step": 75
+    },
+    {
+      "epoch": 0.038,
+      "grad_norm": 1.0714695453643799,
+      "grad_norm_var": 0.058232407176660186,
+      "learning_rate": 1.5200000000000002e-05,
+      "loss": 0.4938,
+      "loss/crossentropy": 2.3792872428894043,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.025158749893307686,
+      "loss/reg": 0.026409264653921127,
+      "step": 76
+    },
+    {
+      "epoch": 0.0385,
+      "grad_norm": 1.2519381046295166,
+      "grad_norm_var": 0.05827235736891852,
+      "learning_rate": 1.54e-05,
+      "loss": 0.4813,
+      "loss/crossentropy": 2.3257339000701904,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.02092126850038767,
+      "loss/reg": 0.026408692821860313,
+      "step": 77
+    },
+    {
+      "epoch": 0.039,
+      "grad_norm": 1.2653789520263672,
+      "grad_norm_var": 0.05849186368942368,
+      "learning_rate": 1.5600000000000003e-05,
+      "loss": 0.5246,
+      "loss/crossentropy": 2.5811800956726074,
+      "loss/hidden": 0.23095703125,
+      "loss/logits": 0.029558134265244007,
+      "loss/reg": 0.02640816569328308,
+      "step": 78
+    },
+    {
+      "epoch": 0.0395,
+      "grad_norm": 2.259216070175171,
+      "grad_norm_var": 0.09562263018362811,
+      "learning_rate": 1.58e-05,
+      "loss": 0.5206,
+      "loss/crossentropy": 2.4250094890594482,
+      "loss/hidden": 0.2265625,
+      "loss/logits": 0.03000534698367119,
+      "loss/reg": 0.026407474651932716,
+      "step": 79
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.7354488372802734,
+      "grad_norm_var": 0.10105330191861767,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.5139,
+      "loss/crossentropy": 2.3155272006988525,
+      "loss/hidden": 0.22509765625,
+      "loss/logits": 0.02471769694238901,
+      "loss/reg": 0.026406768709421158,
+      "step": 80
+    },
+    {
+      "epoch": 0.0405,
+      "grad_norm": 1.6819829940795898,
+      "grad_norm_var": 0.1025191577706432,
+      "learning_rate": 1.62e-05,
+      "loss": 0.5918,
+      "loss/crossentropy": 2.446201205253601,
+      "loss/hidden": 0.2861328125,
+      "loss/logits": 0.04164840281009674,
+      "loss/reg": 0.02640613541007042,
+      "step": 81
+    },
+    {
+      "epoch": 0.041,
+      "grad_norm": 1.1699199676513672,
+      "grad_norm_var": 0.1066873821895888,
+      "learning_rate": 1.64e-05,
+      "loss": 0.5134,
+      "loss/crossentropy": 2.456650495529175,
+      "loss/hidden": 0.2177734375,
+      "loss/logits": 0.031566061079502106,
+      "loss/reg": 0.026405589655041695,
+      "step": 82
+    },
+    {
+      "epoch": 0.0415,
+      "grad_norm": 1.0190843343734741,
+      "grad_norm_var": 0.11088006372520322,
+      "learning_rate": 1.66e-05,
+      "loss": 0.4661,
+      "loss/crossentropy": 2.4336618185043335,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.02087457850575447,
+      "loss/reg": 0.0264048483222723,
+      "step": 83
+    },
+    {
+      "epoch": 0.042,
+      "grad_norm": 1.3154826164245605,
+      "grad_norm_var": 0.10682859054876676,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.5325,
+      "loss/crossentropy": 2.4335875511169434,
+      "loss/hidden": 0.2392578125,
+      "loss/logits": 0.029201870784163475,
+      "loss/reg": 0.026404235512018204,
+      "step": 84
+    },
+    {
+      "epoch": 0.0425,
+      "grad_norm": 1.1499496698379517,
+      "grad_norm_var": 0.0973436240677034,
+      "learning_rate": 1.7e-05,
+      "loss": 0.4708,
+      "loss/crossentropy": 2.3389049768447876,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.024132695980370045,
+      "loss/reg": 0.02640344202518463,
+      "step": 85
+    },
+    {
+      "epoch": 0.043,
+      "grad_norm": 1.07028067111969,
+      "grad_norm_var": 0.10585526029347007,
+      "learning_rate": 1.72e-05,
+      "loss": 0.4749,
+      "loss/crossentropy": 2.347036838531494,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.02186472900211811,
+      "loss/reg": 0.02640284039080143,
+      "step": 86
+    },
+    {
+      "epoch": 0.0435,
+      "grad_norm": 2.0228259563446045,
+      "grad_norm_var": 0.12474687162745439,
+      "learning_rate": 1.7400000000000003e-05,
+      "loss": 0.5076,
+      "loss/crossentropy": 2.3726253509521484,
+      "loss/hidden": 0.21240234375,
+      "loss/logits": 0.03117395006120205,
+      "loss/reg": 0.026402218267321587,
+      "step": 87
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 1.689095377922058,
+      "grad_norm_var": 0.12832789033596606,
+      "learning_rate": 1.76e-05,
+      "loss": 0.5393,
+      "loss/crossentropy": 2.6106048822402954,
+      "loss/hidden": 0.2451171875,
+      "loss/logits": 0.030183403752744198,
+      "loss/reg": 0.026401378214359283,
+      "step": 88
+    },
+    {
+      "epoch": 0.0445,
+      "grad_norm": 1.4513983726501465,
+      "grad_norm_var": 0.1279703973651166,
+      "learning_rate": 1.7800000000000002e-05,
+      "loss": 0.5203,
+      "loss/crossentropy": 2.3146345615386963,
+      "loss/hidden": 0.22705078125,
+      "loss/logits": 0.029247512109577656,
+      "loss/reg": 0.02640063315629959,
+      "step": 89
+    },
+    {
+      "epoch": 0.045,
+      "grad_norm": 1.0706562995910645,
+      "grad_norm_var": 0.13681825045996157,
+      "learning_rate": 1.8e-05,
+      "loss": 0.472,
+      "loss/crossentropy": 2.458780884742737,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.024928967468440533,
+      "loss/reg": 0.026399986818432808,
+      "step": 90
+    },
+    {
+      "epoch": 0.0455,
+      "grad_norm": 1.243531346321106,
+      "grad_norm_var": 0.13743203065561993,
+      "learning_rate": 1.8200000000000002e-05,
+      "loss": 0.46,
+      "loss/crossentropy": 2.273237943649292,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.021158389747142792,
+      "loss/reg": 0.026399333029985428,
+      "step": 91
+    },
+    {
+      "epoch": 0.046,
+      "grad_norm": 1.248246669769287,
+      "grad_norm_var": 0.13154193773160655,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 0.5025,
+      "loss/crossentropy": 2.7035024166107178,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.024649174883961678,
+      "loss/reg": 0.026398882269859314,
+      "step": 92
+    },
+    {
+      "epoch": 0.0465,
+      "grad_norm": 1.5103347301483154,
+      "grad_norm_var": 0.13008748368884535,
+      "learning_rate": 1.86e-05,
+      "loss": 0.4831,
+      "loss/crossentropy": 2.3471440076828003,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.025768487714231014,
+      "loss/reg": 0.026398463174700737,
+      "step": 93
+    },
+    {
+      "epoch": 0.047,
+      "grad_norm": 1.6160238981246948,
+      "grad_norm_var": 0.1300087857040161,
+      "learning_rate": 1.88e-05,
+      "loss": 0.5294,
+      "loss/crossentropy": 2.2618273496627808,
+      "loss/hidden": 0.23681640625,
+      "loss/logits": 0.028604180552065372,
+      "loss/reg": 0.02639804780483246,
+      "step": 94
+    },
+    {
+      "epoch": 0.0475,
+      "grad_norm": 1.6858937740325928,
+      "grad_norm_var": 0.08894905728247575,
+      "learning_rate": 1.9e-05,
+      "loss": 0.5078,
+      "loss/crossentropy": 2.2833045721054077,
+      "loss/hidden": 0.21630859375,
+      "loss/logits": 0.027537615969777107,
+      "loss/reg": 0.0263975840061903,
+      "step": 95
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 1.3516885042190552,
+      "grad_norm_var": 0.08188523397349545,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 0.5472,
+      "loss/crossentropy": 2.288330078125,
+      "loss/hidden": 0.25244140625,
+      "loss/logits": 0.030751955695450306,
+      "loss/reg": 0.026396671310067177,
+      "step": 96
+    },
+    {
+      "epoch": 0.0485,
+      "grad_norm": 1.1249408721923828,
+      "grad_norm_var": 0.07985427321204851,
+      "learning_rate": 1.94e-05,
+      "loss": 0.4777,
+      "loss/crossentropy": 2.3718440532684326,
+      "loss/hidden": 0.1923828125,
+      "loss/logits": 0.021322906017303467,
+      "loss/reg": 0.026395753026008606,
+      "step": 97
+    },
+    {
+      "epoch": 0.049,
+      "grad_norm": 1.2627309560775757,
+      "grad_norm_var": 0.07805640745137694,
+      "learning_rate": 1.9600000000000002e-05,
+      "loss": 0.5154,
+      "loss/crossentropy": 2.2158303260803223,
+      "loss/hidden": 0.21923828125,
+      "loss/logits": 0.03221841435879469,
+      "loss/reg": 0.026394877582788467,
+      "step": 98
+    },
+    {
+      "epoch": 0.0495,
+      "grad_norm": 1.2408559322357178,
+      "grad_norm_var": 0.07091623482815752,
+      "learning_rate": 1.98e-05,
+      "loss": 0.5423,
+      "loss/crossentropy": 2.3226230144500732,
+      "loss/hidden": 0.23828125,
+      "loss/logits": 0.04008352570235729,
+      "loss/reg": 0.026393810287117958,
+      "step": 99
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.1801763772964478,
+      "grad_norm_var": 0.07319502933235617,
+      "learning_rate": 2e-05,
+      "loss": 0.5028,
+      "loss/crossentropy": 2.242385983467102,
+      "loss/hidden": 0.20947265625,
+      "loss/logits": 0.02935761120170355,
+      "loss/reg": 0.026393063366413116,
+      "step": 100
+    },
+    {
+      "epoch": 0.0505,
+      "grad_norm": 1.55876624584198,
+      "grad_norm_var": 0.07165068938641829,
+      "learning_rate": 2e-05,
+      "loss": 0.6025,
+      "loss/crossentropy": 2.240237832069397,
+      "loss/hidden": 0.28955078125,
+      "loss/logits": 0.04904773272573948,
+      "loss/reg": 0.02639206498861313,
+      "step": 101
+    },
+    {
+      "epoch": 0.051,
+      "grad_norm": 2.615293025970459,
+      "grad_norm_var": 0.15385355345349763,
+      "learning_rate": 2e-05,
+      "loss": 0.5793,
+      "loss/crossentropy": 2.32190477848053,
+      "loss/hidden": 0.283203125,
+      "loss/logits": 0.03213760443031788,
+      "loss/reg": 0.026391005143523216,
+      "step": 102
+    },
+    {
+      "epoch": 0.0515,
+      "grad_norm": 1.30605149269104,
+      "grad_norm_var": 0.1352356444631638,
+      "learning_rate": 2e-05,
+      "loss": 0.4823,
+      "loss/crossentropy": 2.4284926652908325,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.025081547908484936,
+      "loss/reg": 0.02638992853462696,
+      "step": 103
+    },
+    {
+      "epoch": 0.052,
+      "grad_norm": 1.141875147819519,
+      "grad_norm_var": 0.13630413553074583,
+      "learning_rate": 2e-05,
+      "loss": 0.508,
+      "loss/crossentropy": 2.3841702938079834,
+      "loss/hidden": 0.2158203125,
+      "loss/logits": 0.02830567955970764,
+      "loss/reg": 0.026389040052890778,
+      "step": 104
+    },
+    {
+      "epoch": 0.0525,
+      "grad_norm": 1.3670423030853271,
+      "grad_norm_var": 0.1363173233399147,
+      "learning_rate": 2e-05,
+      "loss": 0.5535,
+      "loss/crossentropy": 2.3601726293563843,
+      "loss/hidden": 0.25048828125,
+      "loss/logits": 0.03918229416012764,
+      "loss/reg": 0.02638789638876915,
+      "step": 105
+    },
+    {
+      "epoch": 0.053,
+      "grad_norm": 1.5876195430755615,
+      "grad_norm_var": 0.1297847067338589,
+      "learning_rate": 2e-05,
+      "loss": 0.5052,
+      "loss/crossentropy": 2.3636826276779175,
+      "loss/hidden": 0.21484375,
+      "loss/logits": 0.026523033156991005,
+      "loss/reg": 0.02638677880167961,
+      "step": 106
+    },
+    {
+      "epoch": 0.0535,
+      "grad_norm": 1.3877314329147339,
+      "grad_norm_var": 0.12730558444343335,
+      "learning_rate": 2e-05,
+      "loss": 0.5385,
+      "loss/crossentropy": 2.2610294818878174,
+      "loss/hidden": 0.2421875,
+      "loss/logits": 0.03246981091797352,
+      "loss/reg": 0.02638590894639492,
+      "step": 107
+    },
+    {
+      "epoch": 0.054,
+      "grad_norm": 1.3986035585403442,
+      "grad_norm_var": 0.12469232217100033,
+      "learning_rate": 2e-05,
+      "loss": 0.5716,
+      "loss/crossentropy": 2.212199330329895,
+      "loss/hidden": 0.2626953125,
+      "loss/logits": 0.045047592371702194,
+      "loss/reg": 0.026384945958852768,
+      "step": 108
+    },
+    {
+      "epoch": 0.0545,
+      "grad_norm": 1.056304931640625,
+      "grad_norm_var": 0.1344369200763623,
+      "learning_rate": 2e-05,
+      "loss": 0.4859,
+      "loss/crossentropy": 2.617898106575012,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.02872647438198328,
+      "loss/reg": 0.026384029537439346,
+      "step": 109
+    },
+    {
+      "epoch": 0.055,
+      "grad_norm": 3.573809862136841,
+      "grad_norm_var": 0.42252804674691424,
+      "learning_rate": 2e-05,
+      "loss": 0.6846,
+      "loss/crossentropy": 2.3089191913604736,
+      "loss/hidden": 0.33984375,
+      "loss/logits": 0.08094017207622528,
+      "loss/reg": 0.026383111253380775,
+      "step": 110
+    },
+    {
+      "epoch": 0.0555,
+      "grad_norm": 1.2283390760421753,
+      "grad_norm_var": 0.42747247360055096,
+      "learning_rate": 2e-05,
+      "loss": 0.5406,
+      "loss/crossentropy": 2.066853880882263,
+      "loss/hidden": 0.24658203125,
+      "loss/logits": 0.030207395553588867,
+      "loss/reg": 0.026382330805063248,
+      "step": 111
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 1.1344459056854248,
+      "grad_norm_var": 0.4354093100708122,
+      "learning_rate": 2e-05,
+      "loss": 0.4825,
+      "loss/crossentropy": 2.4759345054626465,
+      "loss/hidden": 0.19384765625,
+      "loss/logits": 0.02485422883182764,
+      "loss/reg": 0.02638155035674572,
+      "step": 112
+    },
+    {
+      "epoch": 0.0565,
+      "grad_norm": 1.476331353187561,
+      "grad_norm_var": 0.425072268588233,
+      "learning_rate": 2e-05,
+      "loss": 0.4962,
+      "loss/crossentropy": 2.257875084877014,
+      "loss/hidden": 0.20751953125,
+      "loss/logits": 0.024832582101225853,
+      "loss/reg": 0.026380501687526703,
+      "step": 113
+    },
+    {
+      "epoch": 0.057,
+      "grad_norm": 1.1095691919326782,
+      "grad_norm_var": 0.43204239892278623,
+      "learning_rate": 2e-05,
+      "loss": 0.494,
+      "loss/crossentropy": 2.5208946466445923,
+      "loss/hidden": 0.20361328125,
+      "loss/logits": 0.02655248437076807,
+      "loss/reg": 0.026379412040114403,
+      "step": 114
+    },
+    {
+      "epoch": 0.0575,
+      "grad_norm": 1.2755762338638306,
+      "grad_norm_var": 0.4308130924435341,
+      "learning_rate": 2e-05,
+      "loss": 0.494,
+      "loss/crossentropy": 2.5310138463974,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.025613101199269295,
+      "loss/reg": 0.026378460228443146,
+      "step": 115
+    },
+    {
+      "epoch": 0.058,
+      "grad_norm": 1.1098158359527588,
+      "grad_norm_var": 0.4343559906164728,
+      "learning_rate": 2e-05,
+      "loss": 0.4746,
+      "loss/crossentropy": 2.6709823608398438,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.023796855472028255,
+      "loss/reg": 0.02637753076851368,
+      "step": 116
+    },
+    {
+      "epoch": 0.0585,
+      "grad_norm": 1.940610647201538,
+      "grad_norm_var": 0.44541967059291204,
+      "learning_rate": 2e-05,
+      "loss": 0.5661,
+      "loss/crossentropy": 2.4929665327072144,
+      "loss/hidden": 0.26611328125,
+      "loss/logits": 0.036208903416991234,
+      "loss/reg": 0.026376651600003242,
+      "step": 117
+    },
+    {
+      "epoch": 0.059,
+      "grad_norm": 2.426042318344116,
+      "grad_norm_var": 0.42063368115552174,
+      "learning_rate": 2e-05,
+      "loss": 0.5937,
+      "loss/crossentropy": 2.052187740802765,
+      "loss/hidden": 0.298828125,
+      "loss/logits": 0.031148137524724007,
+      "loss/reg": 0.026375625282526016,
+      "step": 118
+    },
+    {
+      "epoch": 0.0595,
+      "grad_norm": 1.9228861331939697,
+      "grad_norm_var": 0.4257910091262336,
+      "learning_rate": 2e-05,
+      "loss": 0.6001,
+      "loss/crossentropy": 2.324827551841736,
+      "loss/hidden": 0.291015625,
+      "loss/logits": 0.04536169767379761,
+      "loss/reg": 0.02637471817433834,
+      "step": 119
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.3524922132492065,
+      "grad_norm_var": 0.41651161943220427,
+      "learning_rate": 2e-05,
+      "loss": 0.5096,
+      "loss/crossentropy": 2.5075470209121704,
+      "loss/hidden": 0.2177734375,
+      "loss/logits": 0.028110167011618614,
+      "loss/reg": 0.02637365460395813,
+      "step": 120
+    },
+    {
+      "epoch": 0.0605,
+      "grad_norm": 1.4671199321746826,
+      "grad_norm_var": 0.4142398893830403,
+      "learning_rate": 2e-05,
+      "loss": 0.5239,
+      "loss/crossentropy": 2.441853404045105,
+      "loss/hidden": 0.22607421875,
+      "loss/logits": 0.03414294868707657,
+      "loss/reg": 0.026372529566287994,
+      "step": 121
+    },
+    {
+      "epoch": 0.061,
+      "grad_norm": 1.0777528285980225,
+      "grad_norm_var": 0.4306804814207595,
+      "learning_rate": 2e-05,
+      "loss": 0.5097,
+      "loss/crossentropy": 2.321939468383789,
+      "loss/hidden": 0.21533203125,
+      "loss/logits": 0.03067285381257534,
+      "loss/reg": 0.026371382176876068,
+      "step": 122
+    },
+    {
+      "epoch": 0.0615,
+      "grad_norm": 1.3190155029296875,
+      "grad_norm_var": 0.4325410213447808,
+      "learning_rate": 2e-05,
+      "loss": 0.5256,
+      "loss/crossentropy": 2.414122700691223,
+      "loss/hidden": 0.2294921875,
+      "loss/logits": 0.032370791770517826,
+      "loss/reg": 0.026370296254754066,
+      "step": 123
+    },
+    {
+      "epoch": 0.062,
+      "grad_norm": 1.133116364479065,
+      "grad_norm_var": 0.44245743827275397,
+      "learning_rate": 2e-05,
+      "loss": 0.5005,
+      "loss/crossentropy": 2.212061285972595,
+      "loss/hidden": 0.2080078125,
+      "loss/logits": 0.02877300512045622,
+      "loss/reg": 0.026369236409664154,
+      "step": 124
+    },
+    {
+      "epoch": 0.0625,
+      "grad_norm": 1.609708547592163,
+      "grad_norm_var": 0.4260775107173165,
+      "learning_rate": 2e-05,
+      "loss": 0.5155,
+      "loss/crossentropy": 2.397601008415222,
+      "loss/hidden": 0.21923828125,
+      "loss/logits": 0.03255470283329487,
+      "loss/reg": 0.026368040591478348,
+      "step": 125
+    },
+    {
+      "epoch": 0.063,
+      "grad_norm": 1.7017152309417725,
+      "grad_norm_var": 0.14551891758514066,
+      "learning_rate": 2e-05,
+      "loss": 0.5923,
+      "loss/crossentropy": 2.1400970220565796,
+      "loss/hidden": 0.283203125,
+      "loss/logits": 0.04546245560050011,
+      "loss/reg": 0.026366816833615303,
+      "step": 126
+    },
+    {
+      "epoch": 0.0635,
+      "grad_norm": 1.1147139072418213,
+      "grad_norm_var": 0.14976404939792326,
+      "learning_rate": 2e-05,
+      "loss": 0.4842,
+      "loss/crossentropy": 2.1656835079193115,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.022837044671177864,
+      "loss/reg": 0.02636570855975151,
+      "step": 127
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 1.277297854423523,
+      "grad_norm_var": 0.14506375834877663,
+      "learning_rate": 2e-05,
+      "loss": 0.5123,
+      "loss/crossentropy": 2.5118154287338257,
+      "loss/hidden": 0.21875,
+      "loss/logits": 0.029942544177174568,
+      "loss/reg": 0.02636442333459854,
+      "step": 128
+    },
+    {
+      "epoch": 0.0645,
+      "grad_norm": 1.191677451133728,
+      "grad_norm_var": 0.14939848388545987,
+      "learning_rate": 2e-05,
+      "loss": 0.4912,
+      "loss/crossentropy": 2.3038079738616943,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.02833767607808113,
+      "loss/reg": 0.026363197714090347,
+      "step": 129
+    },
+    {
+      "epoch": 0.065,
+      "grad_norm": 1.2800445556640625,
+      "grad_norm_var": 0.14371961156019347,
+      "learning_rate": 2e-05,
+      "loss": 0.4781,
+      "loss/crossentropy": 2.164215087890625,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.02550451084971428,
+      "loss/reg": 0.026361893862485886,
+      "step": 130
+    },
+    {
+      "epoch": 0.0655,
+      "grad_norm": 2.83632230758667,
+      "grad_norm_var": 0.2596730266397259,
+      "learning_rate": 2e-05,
+      "loss": 0.5199,
+      "loss/crossentropy": 2.4381964206695557,
+      "loss/hidden": 0.228515625,
+      "loss/logits": 0.027756940573453903,
+      "loss/reg": 0.02636053040623665,
+      "step": 131
+    },
+    {
+      "epoch": 0.066,
+      "grad_norm": 1.4346998929977417,
+      "grad_norm_var": 0.24730943436193792,
+      "learning_rate": 2e-05,
+      "loss": 0.4843,
+      "loss/crossentropy": 2.401941180229187,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.030300754122436047,
+      "loss/reg": 0.026359396055340767,
+      "step": 132
+    },
+    {
+      "epoch": 0.0665,
+      "grad_norm": 1.3330755233764648,
+      "grad_norm_var": 0.24018081345897185,
+      "learning_rate": 2e-05,
+      "loss": 0.5346,
+      "loss/crossentropy": 2.3078893423080444,
+      "loss/hidden": 0.244140625,
+      "loss/logits": 0.02686551958322525,
+      "loss/reg": 0.02635829895734787,
+      "step": 133
+    },
+    {
+      "epoch": 0.067,
+      "grad_norm": 3.5527265071868896,
+      "grad_norm_var": 0.4541487312436425,
+      "learning_rate": 2e-05,
+      "loss": 0.5719,
+      "loss/crossentropy": 2.3654850721359253,
+      "loss/hidden": 0.271484375,
+      "loss/logits": 0.03688213415443897,
+      "loss/reg": 0.02635718323290348,
+      "step": 134
+    },
+    {
+      "epoch": 0.0675,
+      "grad_norm": 1.5558003187179565,
+      "grad_norm_var": 0.4467804937083296,
+      "learning_rate": 2e-05,
+      "loss": 0.5577,
+      "loss/crossentropy": 2.413025140762329,
+      "loss/hidden": 0.255859375,
+      "loss/logits": 0.03832230344414711,
+      "loss/reg": 0.026355979964137077,
+      "step": 135
+    },
+    {
+      "epoch": 0.068,
+      "grad_norm": 1.61518394947052,
+      "grad_norm_var": 0.44321835982398144,
+      "learning_rate": 2e-05,
+      "loss": 0.5304,
+      "loss/crossentropy": 2.3400243520736694,
+      "loss/hidden": 0.232421875,
+      "loss/logits": 0.034462086856365204,
+      "loss/reg": 0.026354758068919182,
+      "step": 136
+    },
+    {
+      "epoch": 0.0685,
+      "grad_norm": 1.122028112411499,
+      "grad_norm_var": 0.45648783165066575,
+      "learning_rate": 2e-05,
+      "loss": 0.5084,
+      "loss/crossentropy": 2.297537922859192,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.030963504686951637,
+      "loss/reg": 0.02635359950363636,
+      "step": 137
+    },
+    {
+      "epoch": 0.069,
+      "grad_norm": 1.678496241569519,
+      "grad_norm_var": 0.43944044570977725,
+      "learning_rate": 2e-05,
+      "loss": 0.5425,
+      "loss/crossentropy": 1.9657554626464844,
+      "loss/hidden": 0.25048828125,
+      "loss/logits": 0.028447046875953674,
+      "loss/reg": 0.02635251358151436,
+      "step": 138
+    },
+    {
+      "epoch": 0.0695,
+      "grad_norm": 1.2920198440551758,
+      "grad_norm_var": 0.44053238449102083,
+      "learning_rate": 2e-05,
+      "loss": 0.5061,
+      "loss/crossentropy": 2.2413735389709473,
+      "loss/hidden": 0.212890625,
+      "loss/logits": 0.029677780345082283,
+      "loss/reg": 0.026351330801844597,
+      "step": 139
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.7133574485778809,
+      "grad_norm_var": 0.4248322374530742,
+      "learning_rate": 2e-05,
+      "loss": 0.5116,
+      "loss/crossentropy": 2.4616912603378296,
+      "loss/hidden": 0.21728515625,
+      "loss/logits": 0.03084972407668829,
+      "loss/reg": 0.026350252330303192,
+      "step": 140
+    },
+    {
+      "epoch": 0.0705,
+      "grad_norm": 1.637211561203003,
+      "grad_norm_var": 0.42475264869840973,
+      "learning_rate": 2e-05,
+      "loss": 0.5188,
+      "loss/crossentropy": 2.404749631881714,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.03416546434164047,
+      "loss/reg": 0.02634907327592373,
+      "step": 141
+    },
+    {
+      "epoch": 0.071,
+      "grad_norm": 1.6117165088653564,
+      "grad_norm_var": 0.4245905890698488,
+      "learning_rate": 2e-05,
+      "loss": 0.5128,
+      "loss/crossentropy": 2.2999398708343506,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.0286036329343915,
+      "loss/reg": 0.026347877457737923,
+      "step": 142
+    },
+    {
+      "epoch": 0.0715,
+      "grad_norm": 1.5995277166366577,
+      "grad_norm_var": 0.40529966216021474,
+      "learning_rate": 2e-05,
+      "loss": 0.5082,
+      "loss/crossentropy": 2.391393780708313,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.030896139331161976,
+      "loss/reg": 0.02634662576019764,
+      "step": 143
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 1.5376816987991333,
+      "grad_norm_var": 0.3958791020628865,
+      "learning_rate": 2e-05,
+      "loss": 0.4819,
+      "loss/crossentropy": 2.288747191429138,
+      "loss/hidden": 0.19091796875,
+      "loss/logits": 0.027577555738389492,
+      "loss/reg": 0.026345305144786835,
+      "step": 144
+    },
+    {
+      "epoch": 0.0725,
+      "grad_norm": 1.2494720220565796,
+      "grad_norm_var": 0.39227114538706565,
+      "learning_rate": 2e-05,
+      "loss": 0.4809,
+      "loss/crossentropy": 2.2762606143951416,
+      "loss/hidden": 0.19091796875,
+      "loss/logits": 0.026529721915721893,
+      "loss/reg": 0.02634395658969879,
+      "step": 145
+    },
+    {
+      "epoch": 0.073,
+      "grad_norm": 1.2957813739776611,
+      "grad_norm_var": 0.39142520941635195,
+      "learning_rate": 2e-05,
+      "loss": 0.5373,
+      "loss/crossentropy": 2.247607469558716,
+      "loss/hidden": 0.236328125,
+      "loss/logits": 0.037526827305555344,
+      "loss/reg": 0.026342619210481644,
+      "step": 146
+    },
+    {
+      "epoch": 0.0735,
+      "grad_norm": 1.5920614004135132,
+      "grad_norm_var": 0.2982705153831809,
+      "learning_rate": 2e-05,
+      "loss": 0.5551,
+      "loss/crossentropy": 2.5578393936157227,
+      "loss/hidden": 0.25634765625,
+      "loss/logits": 0.035370574332773685,
+      "loss/reg": 0.026341425254940987,
+      "step": 147
+    },
+    {
+      "epoch": 0.074,
+      "grad_norm": 1.115143895149231,
+      "grad_norm_var": 0.3122838762450205,
+      "learning_rate": 2e-05,
+      "loss": 0.4949,
+      "loss/crossentropy": 2.293186843395233,
+      "loss/hidden": 0.20263671875,
+      "loss/logits": 0.028887784108519554,
+      "loss/reg": 0.02634003758430481,
+      "step": 148
+    },
+    {
+      "epoch": 0.0745,
+      "grad_norm": 1.2242144346237183,
+      "grad_norm_var": 0.3168093531880851,
+      "learning_rate": 2e-05,
+      "loss": 0.4976,
+      "loss/crossentropy": 2.541364312171936,
+      "loss/hidden": 0.205078125,
+      "loss/logits": 0.029183853417634964,
+      "loss/reg": 0.026338616386055946,
+      "step": 149
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 1.2801847457885742,
+      "grad_norm_var": 0.043969165908166435,
+      "learning_rate": 2e-05,
+      "loss": 0.5246,
+      "loss/crossentropy": 2.365533709526062,
+      "loss/hidden": 0.22607421875,
+      "loss/logits": 0.035141369327902794,
+      "loss/reg": 0.02633722312748432,
+      "step": 150
+    },
+    {
+      "epoch": 0.0755,
+      "grad_norm": 1.456945538520813,
+      "grad_norm_var": 0.0431194160041447,
+      "learning_rate": 2e-05,
+      "loss": 0.4969,
+      "loss/crossentropy": 2.5154623985290527,
+      "loss/hidden": 0.20361328125,
+      "loss/logits": 0.029950300231575966,
+      "loss/reg": 0.02633577026426792,
+      "step": 151
+    },
+    {
+      "epoch": 0.076,
+      "grad_norm": 1.2066655158996582,
+      "grad_norm_var": 0.043943164667008955,
+      "learning_rate": 2e-05,
+      "loss": 0.4752,
+      "loss/crossentropy": 2.528536558151245,
+      "loss/hidden": 0.18798828125,
+      "loss/logits": 0.023877541534602642,
+      "loss/reg": 0.026334302499890327,
+      "step": 152
+    },
+    {
+      "epoch": 0.0765,
+      "grad_norm": 1.2901597023010254,
+      "grad_norm_var": 0.03918073743505299,
+      "learning_rate": 2e-05,
+      "loss": 0.521,
+      "loss/crossentropy": 2.3224003314971924,
+      "loss/hidden": 0.21484375,
+      "loss/logits": 0.04283316247165203,
+      "loss/reg": 0.02633279375731945,
+      "step": 153
+    },
+    {
+      "epoch": 0.077,
+      "grad_norm": 1.74579656124115,
+      "grad_norm_var": 0.04174939581046431,
+      "learning_rate": 2e-05,
+      "loss": 0.4896,
+      "loss/crossentropy": 2.3139768838882446,
+      "loss/hidden": 0.201171875,
+      "loss/logits": 0.02508167363703251,
+      "loss/reg": 0.026331480592489243,
+      "step": 154
+    },
+    {
+      "epoch": 0.0775,
+      "grad_norm": 1.2306878566741943,
+      "grad_norm_var": 0.04309645701489041,
+      "learning_rate": 2e-05,
+      "loss": 0.4816,
+      "loss/crossentropy": 2.252236247062683,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.029315452091395855,
+      "loss/reg": 0.02633025124669075,
+      "step": 155
+    },
+    {
+      "epoch": 0.078,
+      "grad_norm": 1.297144889831543,
+      "grad_norm_var": 0.03787466463763825,
+      "learning_rate": 2e-05,
+      "loss": 0.5241,
+      "loss/crossentropy": 2.2772055864334106,
+      "loss/hidden": 0.22900390625,
+      "loss/logits": 0.03178275562822819,
+      "loss/reg": 0.026328938081860542,
+      "step": 156
+    },
+    {
+      "epoch": 0.0785,
+      "grad_norm": 1.3461697101593018,
+      "grad_norm_var": 0.033891815904075646,
+      "learning_rate": 2e-05,
+      "loss": 0.5533,
+      "loss/crossentropy": 2.2572057247161865,
+      "loss/hidden": 0.2568359375,
+      "loss/logits": 0.03316341433674097,
+      "loss/reg": 0.02632747031748295,
+      "step": 157
+    },
+    {
+      "epoch": 0.079,
+      "grad_norm": 1.6142765283584595,
+      "grad_norm_var": 0.033971332471514334,
+      "learning_rate": 2e-05,
+      "loss": 0.477,
+      "loss/crossentropy": 2.3103591203689575,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.02428613882511854,
+      "loss/reg": 0.026326211169362068,
+      "step": 158
+    },
+    {
+      "epoch": 0.0795,
+      "grad_norm": 1.0435117483139038,
+      "grad_norm_var": 0.03702752005093206,
+      "learning_rate": 2e-05,
+      "loss": 0.4774,
+      "loss/crossentropy": 2.236763596534729,
+      "loss/hidden": 0.18994140625,
+      "loss/logits": 0.02417835220694542,
+      "loss/reg": 0.026324694976210594,
+      "step": 159
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 3.194502115249634,
+      "grad_norm_var": 0.251077157144137,
+      "learning_rate": 2e-05,
+      "loss": 0.5767,
+      "loss/crossentropy": 2.4404300451278687,
+      "loss/hidden": 0.2236328125,
+      "loss/logits": 0.0898615438491106,
+      "loss/reg": 0.02632344886660576,
+      "step": 160
+    },
+    {
+      "epoch": 0.0805,
+      "grad_norm": 1.223811149597168,
+      "grad_norm_var": 0.25180071296473483,
+      "learning_rate": 2e-05,
+      "loss": 0.4781,
+      "loss/crossentropy": 2.2644309997558594,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.023457905277609825,
+      "loss/reg": 0.026322180405259132,
+      "step": 161
+    },
+    {
+      "epoch": 0.081,
+      "grad_norm": 1.5841586589813232,
+      "grad_norm_var": 0.25117174878087756,
+      "learning_rate": 2e-05,
+      "loss": 0.5629,
+      "loss/crossentropy": 1.9194682240486145,
+      "loss/hidden": 0.25048828125,
+      "loss/logits": 0.049169132485985756,
+      "loss/reg": 0.026320787146687508,
+      "step": 162
+    },
+    {
+      "epoch": 0.0815,
+      "grad_norm": 1.2795405387878418,
+      "grad_norm_var": 0.2519956540566284,
+      "learning_rate": 2e-05,
+      "loss": 0.5141,
+      "loss/crossentropy": 2.444055438041687,
+      "loss/hidden": 0.2177734375,
+      "loss/logits": 0.03311499021947384,
+      "loss/reg": 0.026319410651922226,
+      "step": 163
+    },
+    {
+      "epoch": 0.082,
+      "grad_norm": 1.0281555652618408,
+      "grad_norm_var": 0.25630376830439533,
+      "learning_rate": 2e-05,
+      "loss": 0.4718,
+      "loss/crossentropy": 2.4007210731506348,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.024980327114462852,
+      "loss/reg": 0.026317832991480827,
+      "step": 164
+    },
+    {
+      "epoch": 0.0825,
+      "grad_norm": 1.3523935079574585,
+      "grad_norm_var": 0.25363641385507896,
+      "learning_rate": 2e-05,
+      "loss": 0.5099,
+      "loss/crossentropy": 2.6051762104034424,
+      "loss/hidden": 0.21630859375,
+      "loss/logits": 0.030417022295296192,
+      "loss/reg": 0.026316583156585693,
+      "step": 165
+    },
+    {
+      "epoch": 0.083,
+      "grad_norm": 1.538618564605713,
+      "grad_norm_var": 0.2520149682902304,
+      "learning_rate": 2e-05,
+      "loss": 0.5429,
+      "loss/crossentropy": 2.453674077987671,
+      "loss/hidden": 0.24951171875,
+      "loss/logits": 0.030248504132032394,
+      "loss/reg": 0.026315055787563324,
+      "step": 166
+    },
+    {
+      "epoch": 0.0835,
+      "grad_norm": 1.152441143989563,
+      "grad_norm_var": 0.25811823232553094,
+      "learning_rate": 2e-05,
+      "loss": 0.5287,
+      "loss/crossentropy": 2.23244309425354,
+      "loss/hidden": 0.2294921875,
+      "loss/logits": 0.03604980930685997,
+      "loss/reg": 0.02631353586912155,
+      "step": 167
+    },
+    {
+      "epoch": 0.084,
+      "grad_norm": 3.3678812980651855,
+      "grad_norm_var": 0.4812229304062583,
+      "learning_rate": 2e-05,
+      "loss": 0.6537,
+      "loss/crossentropy": 2.2121087312698364,
+      "loss/hidden": 0.322265625,
+      "loss/logits": 0.06832050159573555,
+      "loss/reg": 0.026312291622161865,
+      "step": 168
+    },
+    {
+      "epoch": 0.0845,
+      "grad_norm": 1.3094780445098877,
+      "grad_norm_var": 0.48049820171389107,
+      "learning_rate": 2e-05,
+      "loss": 0.5458,
+      "loss/crossentropy": 2.29573655128479,
+      "loss/hidden": 0.24365234375,
+      "loss/logits": 0.03900368791073561,
+      "loss/reg": 0.026311108842492104,
+      "step": 169
+    },
+    {
+      "epoch": 0.085,
+      "grad_norm": 1.4413907527923584,
+      "grad_norm_var": 0.47963284313486815,
+      "learning_rate": 2e-05,
+      "loss": 0.5115,
+      "loss/crossentropy": 2.3498464822769165,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.028182944282889366,
+      "loss/reg": 0.026309916749596596,
+      "step": 170
+    },
+    {
+      "epoch": 0.0855,
+      "grad_norm": 1.1035057306289673,
+      "grad_norm_var": 0.48627495331464554,
+      "learning_rate": 2e-05,
+      "loss": 0.5094,
+      "loss/crossentropy": 2.3309890031814575,
+      "loss/hidden": 0.20947265625,
+      "loss/logits": 0.036838797852396965,
+      "loss/reg": 0.02630869299173355,
+      "step": 171
+    },
+    {
+      "epoch": 0.086,
+      "grad_norm": 1.0321089029312134,
+      "grad_norm_var": 0.4997706555859033,
+      "learning_rate": 2e-05,
+      "loss": 0.4599,
+      "loss/crossentropy": 2.512625813484192,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.023489498533308506,
+      "loss/reg": 0.026307322084903717,
+      "step": 172
+    },
+    {
+      "epoch": 0.0865,
+      "grad_norm": 1.2687665224075317,
+      "grad_norm_var": 0.5021274230125977,
+      "learning_rate": 2e-05,
+      "loss": 0.4478,
+      "loss/crossentropy": 2.55221164226532,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.020719519816339016,
+      "loss/reg": 0.026306064799427986,
+      "step": 173
+    },
+    {
+      "epoch": 0.087,
+      "grad_norm": 1.6230545043945312,
+      "grad_norm_var": 0.5022268861494524,
+      "learning_rate": 2e-05,
+      "loss": 0.5206,
+      "loss/crossentropy": 2.54874849319458,
+      "loss/hidden": 0.22216796875,
+      "loss/logits": 0.03534366935491562,
+      "loss/reg": 0.026304682716727257,
+      "step": 174
+    },
+    {
+      "epoch": 0.0875,
+      "grad_norm": 1.4153763055801392,
+      "grad_norm_var": 0.4865523407786817,
+      "learning_rate": 2e-05,
+      "loss": 0.4923,
+      "loss/crossentropy": 2.5351545810699463,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.04026305489242077,
+      "loss/reg": 0.026303274556994438,
+      "step": 175
+    },
+    {
+      "epoch": 0.088,
+      "grad_norm": 1.0160194635391235,
+      "grad_norm_var": 0.3075858037077518,
+      "learning_rate": 2e-05,
+      "loss": 0.439,
+      "loss/crossentropy": 2.543141722679138,
+      "loss/hidden": 0.15869140625,
+      "loss/logits": 0.017316540703177452,
+      "loss/reg": 0.0263019111007452,
+      "step": 176
+    },
+    {
+      "epoch": 0.0885,
+      "grad_norm": 1.3745949268341064,
+      "grad_norm_var": 0.3050415235722406,
+      "learning_rate": 2e-05,
+      "loss": 0.5442,
+      "loss/crossentropy": 2.3582804203033447,
+      "loss/hidden": 0.24169921875,
+      "loss/logits": 0.03952281177043915,
+      "loss/reg": 0.026300618425011635,
+      "step": 177
+    },
+    {
+      "epoch": 0.089,
+      "grad_norm": 1.2340662479400635,
+      "grad_norm_var": 0.30552768222984095,
+      "learning_rate": 2e-05,
+      "loss": 0.5201,
+      "loss/crossentropy": 2.3681315183639526,
+      "loss/hidden": 0.22412109375,
+      "loss/logits": 0.03298753686249256,
+      "loss/reg": 0.026299230754375458,
+      "step": 178
+    },
+    {
+      "epoch": 0.0895,
+      "grad_norm": 2.601248264312744,
+      "grad_norm_var": 0.39196807835765096,
+      "learning_rate": 2e-05,
+      "loss": 0.5363,
+      "loss/crossentropy": 2.617705225944519,
+      "loss/hidden": 0.240234375,
+      "loss/logits": 0.03311354760080576,
+      "loss/reg": 0.026297833770513535,
+      "step": 179
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.4031890630722046,
+      "grad_norm_var": 0.37760473459329563,
+      "learning_rate": 2e-05,
+      "loss": 0.5719,
+      "loss/crossentropy": 2.3656851053237915,
+      "loss/hidden": 0.26318359375,
+      "loss/logits": 0.045768093317747116,
+      "loss/reg": 0.02629653364419937,
+      "step": 180
+    },
+    {
+      "epoch": 0.0905,
+      "grad_norm": 1.2391202449798584,
+      "grad_norm_var": 0.38085698610252045,
+      "learning_rate": 2e-05,
+      "loss": 0.4815,
+      "loss/crossentropy": 2.306247353553772,
+      "loss/hidden": 0.18798828125,
+      "loss/logits": 0.03056285623461008,
+      "loss/reg": 0.026295220479369164,
+      "step": 181
+    },
+    {
+      "epoch": 0.091,
+      "grad_norm": 1.3922662734985352,
+      "grad_norm_var": 0.3815894855763109,
+      "learning_rate": 2e-05,
+      "loss": 0.5416,
+      "loss/crossentropy": 2.421887755393982,
+      "loss/hidden": 0.2333984375,
+      "loss/logits": 0.04522215947508812,
+      "loss/reg": 0.026293916627764702,
+      "step": 182
+    },
+    {
+      "epoch": 0.0915,
+      "grad_norm": 1.1777185201644897,
+      "grad_norm_var": 0.38046340604863593,
+      "learning_rate": 2e-05,
+      "loss": 0.481,
+      "loss/crossentropy": 2.294826030731201,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.024756859987974167,
+      "loss/reg": 0.026292625814676285,
+      "step": 183
+    },
+    {
+      "epoch": 0.092,
+      "grad_norm": 1.3863762617111206,
+      "grad_norm_var": 0.13236200174767798,
+      "learning_rate": 2e-05,
+      "loss": 0.5306,
+      "loss/crossentropy": 2.2481424808502197,
+      "loss/hidden": 0.234375,
+      "loss/logits": 0.03326253779232502,
+      "loss/reg": 0.026291374117136,
+      "step": 184
+    },
+    {
+      "epoch": 0.0925,
+      "grad_norm": 1.0816987752914429,
+      "grad_norm_var": 0.13762935148172814,
+      "learning_rate": 2e-05,
+      "loss": 0.4559,
+      "loss/crossentropy": 2.3464468717575073,
+      "loss/hidden": 0.1689453125,
+      "loss/logits": 0.02402583882212639,
+      "loss/reg": 0.026290148496627808,
+      "step": 185
+    },
+    {
+      "epoch": 0.093,
+      "grad_norm": 1.0776005983352661,
+      "grad_norm_var": 0.1420453846262613,
+      "learning_rate": 2e-05,
+      "loss": 0.4634,
+      "loss/crossentropy": 2.316567063331604,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.025691150687634945,
+      "loss/reg": 0.02628881298005581,
+      "step": 186
+    },
+    {
+      "epoch": 0.0935,
+      "grad_norm": 2.1526918411254883,
+      "grad_norm_var": 0.17787751141178104,
+      "learning_rate": 2e-05,
+      "loss": 0.4898,
+      "loss/crossentropy": 2.2931246757507324,
+      "loss/hidden": 0.20361328125,
+      "loss/logits": 0.023339038714766502,
+      "loss/reg": 0.026287470012903214,
+      "step": 187
+    },
+    {
+      "epoch": 0.094,
+      "grad_norm": 1.3883178234100342,
+      "grad_norm_var": 0.16810970663468652,
+      "learning_rate": 2e-05,
+      "loss": 0.4682,
+      "loss/crossentropy": 2.4850372076034546,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.036926812492311,
+      "loss/reg": 0.0262861680239439,
+      "step": 188
+    },
+    {
+      "epoch": 0.0945,
+      "grad_norm": 1.1316860914230347,
+      "grad_norm_var": 0.172176362699476,
+      "learning_rate": 2e-05,
+      "loss": 0.4799,
+      "loss/crossentropy": 2.5390676259994507,
+      "loss/hidden": 0.19091796875,
+      "loss/logits": 0.02617151476442814,
+      "loss/reg": 0.026284806430339813,
+      "step": 189
+    },
+    {
+      "epoch": 0.095,
+      "grad_norm": 1.310356616973877,
+      "grad_norm_var": 0.1697565690965554,
+      "learning_rate": 2e-05,
+      "loss": 0.5577,
+      "loss/crossentropy": 2.2394298315048218,
+      "loss/hidden": 0.2578125,
+      "loss/logits": 0.03705478459596634,
+      "loss/reg": 0.026283571496605873,
+      "step": 190
+    },
+    {
+      "epoch": 0.0955,
+      "grad_norm": 1.224501371383667,
+      "grad_norm_var": 0.1716142091861707,
+      "learning_rate": 2e-05,
+      "loss": 0.4853,
+      "loss/crossentropy": 2.3653067350387573,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.03547767084091902,
+      "loss/reg": 0.026282308623194695,
+      "step": 191
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 1.1369792222976685,
+      "grad_norm_var": 0.16654605297517922,
+      "learning_rate": 2e-05,
+      "loss": 0.4612,
+      "loss/crossentropy": 2.4437299966812134,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.024531416594982147,
+      "loss/reg": 0.02628110721707344,
+      "step": 192
+    },
+    {
+      "epoch": 0.0965,
+      "grad_norm": 1.639382004737854,
+      "grad_norm_var": 0.1702244083590602,
+      "learning_rate": 2e-05,
+      "loss": 0.5584,
+      "loss/crossentropy": 2.369232177734375,
+      "loss/hidden": 0.251953125,
+      "loss/logits": 0.04362649656832218,
+      "loss/reg": 0.026279788464307785,
+      "step": 193
+    },
+    {
+      "epoch": 0.097,
+      "grad_norm": 1.7320666313171387,
+      "grad_norm_var": 0.17397129527364066,
+      "learning_rate": 2e-05,
+      "loss": 0.584,
+      "loss/crossentropy": 2.290635347366333,
+      "loss/hidden": 0.25537109375,
+      "loss/logits": 0.0658609364181757,
+      "loss/reg": 0.026278505101799965,
+      "step": 194
+    },
+    {
+      "epoch": 0.0975,
+      "grad_norm": 1.3818726539611816,
+      "grad_norm_var": 0.07845907156529677,
+      "learning_rate": 2e-05,
+      "loss": 0.47,
+      "loss/crossentropy": 2.1524158716201782,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.024603160098195076,
+      "loss/reg": 0.02627725526690483,
+      "step": 195
+    },
+    {
+      "epoch": 0.098,
+      "grad_norm": 1.499199628829956,
+      "grad_norm_var": 0.07951141157999278,
+      "learning_rate": 2e-05,
+      "loss": 0.5272,
+      "loss/crossentropy": 2.4975160360336304,
+      "loss/hidden": 0.22265625,
+      "loss/logits": 0.04179301019757986,
+      "loss/reg": 0.02627602592110634,
+      "step": 196
+    },
+    {
+      "epoch": 0.0985,
+      "grad_norm": 1.5929518938064575,
+      "grad_norm_var": 0.0810677599209079,
+      "learning_rate": 2e-05,
+      "loss": 0.6116,
+      "loss/crossentropy": 2.5046887397766113,
+      "loss/hidden": 0.306640625,
+      "loss/logits": 0.04225216433405876,
+      "loss/reg": 0.026274660602211952,
+      "step": 197
+    },
+    {
+      "epoch": 0.099,
+      "grad_norm": 1.1331342458724976,
+      "grad_norm_var": 0.0853280978459693,
+      "learning_rate": 2e-05,
+      "loss": 0.4498,
+      "loss/crossentropy": 2.4783315658569336,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.022989329881966114,
+      "loss/reg": 0.026273364201188087,
+      "step": 198
+    },
+    {
+      "epoch": 0.0995,
+      "grad_norm": 1.2823922634124756,
+      "grad_norm_var": 0.0832189351924588,
+      "learning_rate": 2e-05,
+      "loss": 0.5028,
+      "loss/crossentropy": 2.428224563598633,
+      "loss/hidden": 0.21044921875,
+      "loss/logits": 0.029634020291268826,
+      "loss/reg": 0.02627207711338997,
+      "step": 199
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.5657204389572144,
+      "grad_norm_var": 0.0852752560623344,
+      "learning_rate": 2e-05,
+      "loss": 0.5566,
+      "loss/crossentropy": 2.205379009246826,
+      "loss/hidden": 0.25341796875,
+      "loss/logits": 0.04043233580887318,
+      "loss/reg": 0.026270678266882896,
+      "step": 200
+    },
+    {
+      "epoch": 0.1005,
+      "grad_norm": 2.498617649078369,
+      "grad_norm_var": 0.15143969810336458,
+      "learning_rate": 2e-05,
+      "loss": 0.5453,
+      "loss/crossentropy": 2.2436362504959106,
+      "loss/hidden": 0.25048828125,
+      "loss/logits": 0.03208579681813717,
+      "loss/reg": 0.026269439607858658,
+      "step": 201
+    },
+    {
+      "epoch": 0.101,
+      "grad_norm": 1.1255189180374146,
+      "grad_norm_var": 0.1489852922170759,
+      "learning_rate": 2e-05,
+      "loss": 0.4846,
+      "loss/crossentropy": 2.423098921775818,
+      "loss/hidden": 0.19384765625,
+      "loss/logits": 0.02810557559132576,
+      "loss/reg": 0.02626824378967285,
+      "step": 202
+    },
+    {
+      "epoch": 0.1015,
+      "grad_norm": 1.7557874917984009,
+      "grad_norm_var": 0.1236135205651595,
+      "learning_rate": 2e-05,
+      "loss": 0.5679,
+      "loss/crossentropy": 2.62020206451416,
+      "loss/hidden": 0.2685546875,
+      "loss/logits": 0.03669197857379913,
+      "loss/reg": 0.026267159730196,
+      "step": 203
+    },
+    {
+      "epoch": 0.102,
+      "grad_norm": 1.1842639446258545,
+      "grad_norm_var": 0.12823160649832796,
+      "learning_rate": 2e-05,
+      "loss": 0.5182,
+      "loss/crossentropy": 2.43496835231781,
+      "loss/hidden": 0.22412109375,
+      "loss/logits": 0.03145230747759342,
+      "loss/reg": 0.026265980675816536,
+      "step": 204
+    },
+    {
+      "epoch": 0.1025,
+      "grad_norm": 3.2057254314422607,
+      "grad_norm_var": 0.30915423120596724,
+      "learning_rate": 2e-05,
+      "loss": 0.495,
+      "loss/crossentropy": 2.6262258291244507,
+      "loss/hidden": 0.2099609375,
+      "loss/logits": 0.022387961857020855,
+      "loss/reg": 0.026264773681759834,
+      "step": 205
+    },
+    {
+      "epoch": 0.103,
+      "grad_norm": 1.5268100500106812,
+      "grad_norm_var": 0.3043212521218976,
+      "learning_rate": 2e-05,
+      "loss": 0.5423,
+      "loss/crossentropy": 2.3472981452941895,
+      "loss/hidden": 0.2353515625,
+      "loss/logits": 0.04430149123072624,
+      "loss/reg": 0.026263581588864326,
+      "step": 206
+    },
+    {
+      "epoch": 0.1035,
+      "grad_norm": 1.2183657884597778,
+      "grad_norm_var": 0.30462490819346133,
+      "learning_rate": 2e-05,
+      "loss": 0.5171,
+      "loss/crossentropy": 2.2207844257354736,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.0333048552274704,
+      "loss/reg": 0.026262367144227028,
+      "step": 207
+    },
+    {
+      "epoch": 0.104,
+      "grad_norm": 1.3168612718582153,
+      "grad_norm_var": 0.29572373678734315,
+      "learning_rate": 2e-05,
+      "loss": 0.4704,
+      "loss/crossentropy": 2.4785603284835815,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.025700876489281654,
+      "loss/reg": 0.026260942220687866,
+      "step": 208
+    },
+    {
+      "epoch": 0.1045,
+      "grad_norm": 1.104201316833496,
+      "grad_norm_var": 0.31107634650352317,
+      "learning_rate": 2e-05,
+      "loss": 0.5125,
+      "loss/crossentropy": 2.440949320793152,
+      "loss/hidden": 0.21435546875,
+      "loss/logits": 0.03553314134478569,
+      "loss/reg": 0.026259683072566986,
+      "step": 209
+    },
+    {
+      "epoch": 0.105,
+      "grad_norm": 1.179359793663025,
+      "grad_norm_var": 0.3182418442890669,
+      "learning_rate": 2e-05,
+      "loss": 0.5404,
+      "loss/crossentropy": 2.4222298860549927,
+      "loss/hidden": 0.23583984375,
+      "loss/logits": 0.04196472465991974,
+      "loss/reg": 0.026258250698447227,
+      "step": 210
+    },
+    {
+      "epoch": 0.1055,
+      "grad_norm": 1.9198130369186401,
+      "grad_norm_var": 0.3252966300662526,
+      "learning_rate": 2e-05,
+      "loss": 0.7362,
+      "loss/crossentropy": 2.1343027353286743,
+      "loss/hidden": 0.42236328125,
+      "loss/logits": 0.051308806985616684,
+      "loss/reg": 0.02625690959393978,
+      "step": 211
+    },
+    {
+      "epoch": 0.106,
+      "grad_norm": 1.945879578590393,
+      "grad_norm_var": 0.33359211146878015,
+      "learning_rate": 2e-05,
+      "loss": 0.5191,
+      "loss/crossentropy": 2.629801630973816,
+      "loss/hidden": 0.22802734375,
+      "loss/logits": 0.028506163507699966,
+      "loss/reg": 0.026255663484334946,
+      "step": 212
+    },
+    {
+      "epoch": 0.1065,
+      "grad_norm": 1.10844886302948,
+      "grad_norm_var": 0.3485388100979046,
+      "learning_rate": 2e-05,
+      "loss": 0.5026,
+      "loss/crossentropy": 2.4873945713043213,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.033975718542933464,
+      "loss/reg": 0.026254238560795784,
+      "step": 213
+    },
+    {
+      "epoch": 0.107,
+      "grad_norm": 1.5501041412353516,
+      "grad_norm_var": 0.3352879309740613,
+      "learning_rate": 2e-05,
+      "loss": 0.5128,
+      "loss/crossentropy": 2.2922143936157227,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.029572436586022377,
+      "loss/reg": 0.026252800598740578,
+      "step": 214
+    },
+    {
+      "epoch": 0.1075,
+      "grad_norm": 1.4351506233215332,
+      "grad_norm_var": 0.3304201508174941,
+      "learning_rate": 2e-05,
+      "loss": 0.5019,
+      "loss/crossentropy": 2.3728071451187134,
+      "loss/hidden": 0.208984375,
+      "loss/logits": 0.030389025807380676,
+      "loss/reg": 0.02625151537358761,
+      "step": 215
+    },
+    {
+      "epoch": 0.108,
+      "grad_norm": 1.1031361818313599,
+      "grad_norm_var": 0.3460650712842908,
+      "learning_rate": 2e-05,
+      "loss": 0.491,
+      "loss/crossentropy": 2.4348747730255127,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.028779378160834312,
+      "loss/reg": 0.026250220835208893,
+      "step": 216
+    },
+    {
+      "epoch": 0.1085,
+      "grad_norm": 1.664985179901123,
+      "grad_norm_var": 0.28668546672827777,
+      "learning_rate": 2e-05,
+      "loss": 0.5599,
+      "loss/crossentropy": 2.399816870689392,
+      "loss/hidden": 0.248046875,
+      "loss/logits": 0.04935701750218868,
+      "loss/reg": 0.026248781010508537,
+      "step": 217
+    },
+    {
+      "epoch": 0.109,
+      "grad_norm": 1.4927318096160889,
+      "grad_norm_var": 0.2757241244708178,
+      "learning_rate": 2e-05,
+      "loss": 0.5111,
+      "loss/crossentropy": 2.343783974647522,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.02840256877243519,
+      "loss/reg": 0.026247289031744003,
+      "step": 218
+    },
+    {
+      "epoch": 0.1095,
+      "grad_norm": 1.477570652961731,
+      "grad_norm_var": 0.2727232102389791,
+      "learning_rate": 2e-05,
+      "loss": 0.5197,
+      "loss/crossentropy": 2.4229984283447266,
+      "loss/hidden": 0.22314453125,
+      "loss/logits": 0.034054605290293694,
+      "loss/reg": 0.026245808228850365,
+      "step": 219
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.3535478115081787,
+      "grad_norm_var": 0.26677633070284795,
+      "learning_rate": 2e-05,
+      "loss": 0.4955,
+      "loss/crossentropy": 2.4335192441940308,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.03086682688444853,
+      "loss/reg": 0.02624441497027874,
+      "step": 220
+    },
+    {
+      "epoch": 0.1105,
+      "grad_norm": 1.4819797277450562,
+      "grad_norm_var": 0.06910834048590857,
+      "learning_rate": 2e-05,
+      "loss": 0.494,
+      "loss/crossentropy": 2.3202240467071533,
+      "loss/hidden": 0.1982421875,
+      "loss/logits": 0.03335183020681143,
+      "loss/reg": 0.026242973282933235,
+      "step": 221
+    },
+    {
+      "epoch": 0.111,
+      "grad_norm": 3.001047372817993,
+      "grad_norm_var": 0.2239867367636629,
+      "learning_rate": 2e-05,
+      "loss": 0.5824,
+      "loss/crossentropy": 2.5001453161239624,
+      "loss/hidden": 0.259765625,
+      "loss/logits": 0.06020928919315338,
+      "loss/reg": 0.02624150738120079,
+      "step": 222
+    },
+    {
+      "epoch": 0.1115,
+      "grad_norm": 1.3792407512664795,
+      "grad_norm_var": 0.21908974537501535,
+      "learning_rate": 2e-05,
+      "loss": 0.5162,
+      "loss/crossentropy": 2.067277252674103,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.03264045529067516,
+      "loss/reg": 0.026240520179271698,
+      "step": 223
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 1.0752317905426025,
+      "grad_norm_var": 0.2296741211773119,
+      "learning_rate": 2e-05,
+      "loss": 0.4715,
+      "loss/crossentropy": 2.3376221656799316,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.028950211592018604,
+      "loss/reg": 0.026239832863211632,
+      "step": 224
+    },
+    {
+      "epoch": 0.1125,
+      "grad_norm": 1.2668484449386597,
+      "grad_norm_var": 0.22237485135677842,
+      "learning_rate": 2e-05,
+      "loss": 0.4997,
+      "loss/crossentropy": 2.0572392344474792,
+      "loss/hidden": 0.20654296875,
+      "loss/logits": 0.03081146441400051,
+      "loss/reg": 0.026238473132252693,
+      "step": 225
+    },
+    {
+      "epoch": 0.113,
+      "grad_norm": 1.2038859128952026,
+      "grad_norm_var": 0.2212749830240483,
+      "learning_rate": 2e-05,
+      "loss": 0.496,
+      "loss/crossentropy": 2.3101898431777954,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.032975198701024055,
+      "loss/reg": 0.026237143203616142,
+      "step": 226
+    },
+    {
+      "epoch": 0.1135,
+      "grad_norm": 1.1962757110595703,
+      "grad_norm_var": 0.21626523006927076,
+      "learning_rate": 2e-05,
+      "loss": 0.5397,
+      "loss/crossentropy": 2.3421201705932617,
+      "loss/hidden": 0.234375,
+      "loss/logits": 0.042991749942302704,
+      "loss/reg": 0.026236219331622124,
+      "step": 227
+    },
+    {
+      "epoch": 0.114,
+      "grad_norm": 1.3072717189788818,
+      "grad_norm_var": 0.20238375910022696,
+      "learning_rate": 2e-05,
+      "loss": 0.4899,
+      "loss/crossentropy": 2.545662522315979,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.028848190791904926,
+      "loss/reg": 0.02623477764427662,
+      "step": 228
+    },
+    {
+      "epoch": 0.1145,
+      "grad_norm": 1.4646738767623901,
+      "grad_norm_var": 0.1943966383373566,
+      "learning_rate": 2e-05,
+      "loss": 0.5319,
+      "loss/crossentropy": 2.481440782546997,
+      "loss/hidden": 0.236328125,
+      "loss/logits": 0.03321322426199913,
+      "loss/reg": 0.02623329870402813,
+      "step": 229
+    },
+    {
+      "epoch": 0.115,
+      "grad_norm": 1.460798978805542,
+      "grad_norm_var": 0.1938919184279494,
+      "learning_rate": 2e-05,
+      "loss": 0.5487,
+      "loss/crossentropy": 2.2658169269561768,
+      "loss/hidden": 0.25048828125,
+      "loss/logits": 0.03588264063000679,
+      "loss/reg": 0.026232033967971802,
+      "step": 230
+    },
+    {
+      "epoch": 0.1155,
+      "grad_norm": 1.8251186609268188,
+      "grad_norm_var": 0.20209032603179977,
+      "learning_rate": 2e-05,
+      "loss": 0.4954,
+      "loss/crossentropy": 2.0918792486190796,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.028470170684158802,
+      "loss/reg": 0.02623056247830391,
+      "step": 231
+    },
+    {
+      "epoch": 0.116,
+      "grad_norm": 1.0807620286941528,
+      "grad_norm_var": 0.20325974318190695,
+      "learning_rate": 2e-05,
+      "loss": 0.4663,
+      "loss/crossentropy": 2.4854743480682373,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.023857600055634975,
+      "loss/reg": 0.026229269802570343,
+      "step": 232
+    },
+    {
+      "epoch": 0.1165,
+      "grad_norm": 1.2416105270385742,
+      "grad_norm_var": 0.20420357740239006,
+      "learning_rate": 2e-05,
+      "loss": 0.4939,
+      "loss/crossentropy": 2.5404441356658936,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.031377360224723816,
+      "loss/reg": 0.0262277964502573,
+      "step": 233
+    },
+    {
+      "epoch": 0.117,
+      "grad_norm": 1.0784002542495728,
+      "grad_norm_var": 0.21294726278598167,
+      "learning_rate": 2e-05,
+      "loss": 0.4764,
+      "loss/crossentropy": 2.1334633231163025,
+      "loss/hidden": 0.18603515625,
+      "loss/logits": 0.028105400502681732,
+      "loss/reg": 0.02622636966407299,
+      "step": 234
+    },
+    {
+      "epoch": 0.1175,
+      "grad_norm": 1.4805059432983398,
+      "grad_norm_var": 0.21296607019170413,
+      "learning_rate": 2e-05,
+      "loss": 0.5299,
+      "loss/crossentropy": 2.363998532295227,
+      "loss/hidden": 0.22998046875,
+      "loss/logits": 0.03765851445496082,
+      "loss/reg": 0.026224961504340172,
+      "step": 235
+    },
+    {
+      "epoch": 0.118,
+      "grad_norm": 1.4707082509994507,
+      "grad_norm_var": 0.21261289860814922,
+      "learning_rate": 2e-05,
+      "loss": 0.5063,
+      "loss/crossentropy": 2.5150575637817383,
+      "loss/hidden": 0.21142578125,
+      "loss/logits": 0.032685703597962856,
+      "loss/reg": 0.02622355706989765,
+      "step": 236
+    },
+    {
+      "epoch": 0.1185,
+      "grad_norm": 1.2693709135055542,
+      "grad_norm_var": 0.2142025931629329,
+      "learning_rate": 2e-05,
+      "loss": 0.4777,
+      "loss/crossentropy": 2.364490509033203,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.026029310189187527,
+      "loss/reg": 0.026222191751003265,
+      "step": 237
+    },
+    {
+      "epoch": 0.119,
+      "grad_norm": 1.4452778100967407,
+      "grad_norm_var": 0.03857260853696444,
+      "learning_rate": 2e-05,
+      "loss": 0.4884,
+      "loss/crossentropy": 2.370029330253601,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.027492761611938477,
+      "loss/reg": 0.026220764964818954,
+      "step": 238
+    },
+    {
+      "epoch": 0.1195,
+      "grad_norm": 1.3660000562667847,
+      "grad_norm_var": 0.03849288132132358,
+      "learning_rate": 2e-05,
+      "loss": 0.4504,
+      "loss/crossentropy": 2.579773426055908,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.02312152460217476,
+      "loss/reg": 0.026219261810183525,
+      "step": 239
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.1201462745666504,
+      "grad_norm_var": 0.03711094738648981,
+      "learning_rate": 2e-05,
+      "loss": 0.4707,
+      "loss/crossentropy": 2.5026135444641113,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.037659027613699436,
+      "loss/reg": 0.02621796354651451,
+      "step": 240
+    },
+    {
+      "epoch": 0.1205,
+      "grad_norm": 1.5148764848709106,
+      "grad_norm_var": 0.03887221528161528,
+      "learning_rate": 2e-05,
+      "loss": 0.5356,
+      "loss/crossentropy": 2.2153124809265137,
+      "loss/hidden": 0.23974609375,
+      "loss/logits": 0.03367053158581257,
+      "loss/reg": 0.02621665596961975,
+      "step": 241
+    },
+    {
+      "epoch": 0.121,
+      "grad_norm": 4.675024509429932,
+      "grad_norm_var": 0.726447806322074,
+      "learning_rate": 2e-05,
+      "loss": 0.9674,
+      "loss/crossentropy": 2.5507571697235107,
+      "loss/hidden": 0.47119140625,
+      "loss/logits": 0.23407735768705606,
+      "loss/reg": 0.026215286925435066,
+      "step": 242
+    },
+    {
+      "epoch": 0.1215,
+      "grad_norm": 1.3312729597091675,
+      "grad_norm_var": 0.7209984947184022,
+      "learning_rate": 2e-05,
+      "loss": 0.4611,
+      "loss/crossentropy": 2.38046658039093,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.022188683971762657,
+      "loss/reg": 0.02621396817266941,
+      "step": 243
+    },
+    {
+      "epoch": 0.122,
+      "grad_norm": 2.4490838050842285,
+      "grad_norm_var": 0.7623712839956812,
+      "learning_rate": 2e-05,
+      "loss": 0.6231,
+      "loss/crossentropy": 2.5406309366226196,
+      "loss/hidden": 0.3056640625,
+      "loss/logits": 0.0553472563624382,
+      "loss/reg": 0.02621266432106495,
+      "step": 244
+    },
+    {
+      "epoch": 0.1225,
+      "grad_norm": 1.5570958852767944,
+      "grad_norm_var": 0.7607187136014618,
+      "learning_rate": 2e-05,
+      "loss": 0.4948,
+      "loss/crossentropy": 2.2163580656051636,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.026676415465772152,
+      "loss/reg": 0.02621115930378437,
+      "step": 245
+    },
+    {
+      "epoch": 0.123,
+      "grad_norm": 1.2748626470565796,
+      "grad_norm_var": 0.767517463439591,
+      "learning_rate": 2e-05,
+      "loss": 0.5207,
+      "loss/crossentropy": 2.3726441860198975,
+      "loss/hidden": 0.2294921875,
+      "loss/logits": 0.02906488999724388,
+      "loss/reg": 0.026209814473986626,
+      "step": 246
+    },
+    {
+      "epoch": 0.1235,
+      "grad_norm": 1.5057262182235718,
+      "grad_norm_var": 0.7658503992600496,
+      "learning_rate": 2e-05,
+      "loss": 0.4962,
+      "loss/crossentropy": 2.442053437232971,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.0319626173004508,
+      "loss/reg": 0.02620851993560791,
+      "step": 247
+    },
+    {
+      "epoch": 0.124,
+      "grad_norm": 1.2367428541183472,
+      "grad_norm_var": 0.7562333027864989,
+      "learning_rate": 2e-05,
+      "loss": 0.4891,
+      "loss/crossentropy": 2.32527756690979,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.029276075772941113,
+      "loss/reg": 0.02620730549097061,
+      "step": 248
+    },
+    {
+      "epoch": 0.1245,
+      "grad_norm": 1.3585014343261719,
+      "grad_norm_var": 0.7510956988655692,
+      "learning_rate": 2e-05,
+      "loss": 0.505,
+      "loss/crossentropy": 2.4313305616378784,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.036865890957415104,
+      "loss/reg": 0.02620592899620533,
+      "step": 249
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 1.1339526176452637,
+      "grad_norm_var": 0.7471780769863924,
+      "learning_rate": 2e-05,
+      "loss": 0.4488,
+      "loss/crossentropy": 2.309004545211792,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.021719621494412422,
+      "loss/reg": 0.0262046679854393,
+      "step": 250
+    },
+    {
+      "epoch": 0.1255,
+      "grad_norm": 1.6961034536361694,
+      "grad_norm_var": 0.7455897121963819,
+      "learning_rate": 2e-05,
+      "loss": 0.4853,
+      "loss/crossentropy": 2.3145781755447388,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.03134002722799778,
+      "loss/reg": 0.02620331011712551,
+      "step": 251
+    },
+    {
+      "epoch": 0.126,
+      "grad_norm": 1.137927532196045,
+      "grad_norm_var": 0.760479623698442,
+      "learning_rate": 2e-05,
+      "loss": 0.4469,
+      "loss/crossentropy": 2.371696949005127,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.021795951761305332,
+      "loss/reg": 0.02620198018848896,
+      "step": 252
+    },
+    {
+      "epoch": 0.1265,
+      "grad_norm": 1.1879764795303345,
+      "grad_norm_var": 0.7648019998891016,
+      "learning_rate": 2e-05,
+      "loss": 0.4938,
+      "loss/crossentropy": 2.3237900733947754,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.02474562544375658,
+      "loss/reg": 0.026200512424111366,
+      "step": 253
+    },
+    {
+      "epoch": 0.127,
+      "grad_norm": 1.437303066253662,
+      "grad_norm_var": 0.7649964465157646,
+      "learning_rate": 2e-05,
+      "loss": 0.4641,
+      "loss/crossentropy": 2.4125940799713135,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.025886863470077515,
+      "loss/reg": 0.026198983192443848,
+      "step": 254
+    },
+    {
+      "epoch": 0.1275,
+      "grad_norm": 1.298660159111023,
+      "grad_norm_var": 0.7675955671113466,
+      "learning_rate": 2e-05,
+      "loss": 0.4572,
+      "loss/crossentropy": 2.531725764274597,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.025743640959262848,
+      "loss/reg": 0.02619752287864685,
+      "step": 255
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 1.39458429813385,
+      "grad_norm_var": 0.7540231641910907,
+      "learning_rate": 2e-05,
+      "loss": 0.4862,
+      "loss/crossentropy": 2.186591327190399,
+      "loss/hidden": 0.20166015625,
+      "loss/logits": 0.022591713815927505,
+      "loss/reg": 0.026196002960205078,
+      "step": 256
+    },
+    {
+      "epoch": 0.1285,
+      "grad_norm": 1.212915062904358,
+      "grad_norm_var": 0.7646330349939954,
+      "learning_rate": 2e-05,
+      "loss": 0.5087,
+      "loss/crossentropy": 2.471588611602783,
+      "loss/hidden": 0.21337890625,
+      "loss/logits": 0.033330729231238365,
+      "loss/reg": 0.026194443926215172,
+      "step": 257
+    },
+    {
+      "epoch": 0.129,
+      "grad_norm": 1.0683094263076782,
+      "grad_norm_var": 0.10754076085599748,
+      "learning_rate": 2e-05,
+      "loss": 0.4712,
+      "loss/crossentropy": 2.2822721004486084,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.028153350576758385,
+      "loss/reg": 0.026192834600806236,
+      "step": 258
+    },
+    {
+      "epoch": 0.1295,
+      "grad_norm": 1.2983660697937012,
+      "grad_norm_var": 0.10787735781459536,
+      "learning_rate": 2e-05,
+      "loss": 0.5124,
+      "loss/crossentropy": 2.3575881719589233,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.03026559017598629,
+      "loss/reg": 0.02619129605591297,
+      "step": 259
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.4962793588638306,
+      "grad_norm_var": 0.030134894623511776,
+      "learning_rate": 2e-05,
+      "loss": 0.4676,
+      "loss/crossentropy": 2.409846782684326,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.02358458936214447,
+      "loss/reg": 0.026189813390374184,
+      "step": 260
+    },
+    {
+      "epoch": 0.1305,
+      "grad_norm": 1.3754230737686157,
+      "grad_norm_var": 0.026719927934763098,
+      "learning_rate": 2e-05,
+      "loss": 0.5312,
+      "loss/crossentropy": 2.177566409111023,
+      "loss/hidden": 0.23876953125,
+      "loss/logits": 0.030562346801161766,
+      "loss/reg": 0.026188237592577934,
+      "step": 261
+    },
+    {
+      "epoch": 0.131,
+      "grad_norm": 1.342571496963501,
+      "grad_norm_var": 0.02660255745073622,
+      "learning_rate": 2e-05,
+      "loss": 0.4839,
+      "loss/crossentropy": 2.513023018836975,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.033111236058175564,
+      "loss/reg": 0.026186756789684296,
+      "step": 262
+    },
+    {
+      "epoch": 0.1315,
+      "grad_norm": 1.2367901802062988,
+      "grad_norm_var": 0.02460065001579365,
+      "learning_rate": 2e-05,
+      "loss": 0.4956,
+      "loss/crossentropy": 2.3763153553009033,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.029151923954486847,
+      "loss/reg": 0.02618517354130745,
+      "step": 263
+    },
+    {
+      "epoch": 0.132,
+      "grad_norm": 1.9415297508239746,
+      "grad_norm_var": 0.04904137234389789,
+      "learning_rate": 2e-05,
+      "loss": 0.5627,
+      "loss/crossentropy": 2.240867018699646,
+      "loss/hidden": 0.26611328125,
+      "loss/logits": 0.03479018062353134,
+      "loss/reg": 0.026183558627963066,
+      "step": 264
+    },
+    {
+      "epoch": 0.1325,
+      "grad_norm": 0.9934033751487732,
+      "grad_norm_var": 0.05701087259719828,
+      "learning_rate": 2e-05,
+      "loss": 0.4713,
+      "loss/crossentropy": 2.3560155630111694,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.029294829815626144,
+      "loss/reg": 0.026182031258940697,
+      "step": 265
+    },
+    {
+      "epoch": 0.133,
+      "grad_norm": 1.0373915433883667,
+      "grad_norm_var": 0.06009524379270439,
+      "learning_rate": 2e-05,
+      "loss": 0.494,
+      "loss/crossentropy": 2.400221347808838,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.031994713470339775,
+      "loss/reg": 0.026180392131209373,
+      "step": 266
+    },
+    {
+      "epoch": 0.1335,
+      "grad_norm": 1.267191767692566,
+      "grad_norm_var": 0.05021139115474562,
+      "learning_rate": 2e-05,
+      "loss": 0.5615,
+      "loss/crossentropy": 2.1523420810699463,
+      "loss/hidden": 0.2490234375,
+      "loss/logits": 0.05070135369896889,
+      "loss/reg": 0.026178674772381783,
+      "step": 267
+    },
+    {
+      "epoch": 0.134,
+      "grad_norm": 1.6182429790496826,
+      "grad_norm_var": 0.05454457187013859,
+      "learning_rate": 2e-05,
+      "loss": 0.5,
+      "loss/crossentropy": 2.299275279045105,
+      "loss/hidden": 0.20166015625,
+      "loss/logits": 0.03661351092159748,
+      "loss/reg": 0.02617703191936016,
+      "step": 268
+    },
+    {
+      "epoch": 0.1345,
+      "grad_norm": 1.1830179691314697,
+      "grad_norm_var": 0.05463698624171962,
+      "learning_rate": 2e-05,
+      "loss": 0.542,
+      "loss/crossentropy": 2.237685799598694,
+      "loss/hidden": 0.24462890625,
+      "loss/logits": 0.03558643162250519,
+      "loss/reg": 0.02617518976330757,
+      "step": 269
+    },
+    {
+      "epoch": 0.135,
+      "grad_norm": 1.0215861797332764,
+      "grad_norm_var": 0.05922028974216963,
+      "learning_rate": 2e-05,
+      "loss": 0.4509,
+      "loss/crossentropy": 2.386792778968811,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.02410146687179804,
+      "loss/reg": 0.026173612102866173,
+      "step": 270
+    },
+    {
+      "epoch": 0.1355,
+      "grad_norm": 1.2516766786575317,
+      "grad_norm_var": 0.059361270037086425,
+      "learning_rate": 2e-05,
+      "loss": 0.5417,
+      "loss/crossentropy": 2.2572768926620483,
+      "loss/hidden": 0.23974609375,
+      "loss/logits": 0.04025658965110779,
+      "loss/reg": 0.026171868667006493,
+      "step": 271
+    },
+    {
+      "epoch": 0.136,
+      "grad_norm": 1.1899913549423218,
+      "grad_norm_var": 0.05929371602914331,
+      "learning_rate": 2e-05,
+      "loss": 0.4991,
+      "loss/crossentropy": 2.5554966926574707,
+      "loss/hidden": 0.208984375,
+      "loss/logits": 0.028443695977330208,
+      "loss/reg": 0.026170162484049797,
+      "step": 272
+    },
+    {
+      "epoch": 0.1365,
+      "grad_norm": 1.716871976852417,
+      "grad_norm_var": 0.0704296166532296,
+      "learning_rate": 2e-05,
+      "loss": 0.512,
+      "loss/crossentropy": 2.3532203435897827,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.04425806552171707,
+      "loss/reg": 0.026168543845415115,
+      "step": 273
+    },
+    {
+      "epoch": 0.137,
+      "grad_norm": 1.4646930694580078,
+      "grad_norm_var": 0.06721621691666481,
+      "learning_rate": 2e-05,
+      "loss": 0.5178,
+      "loss/crossentropy": 2.343596935272217,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.034918731078505516,
+      "loss/reg": 0.026166997849941254,
+      "step": 274
+    },
+    {
+      "epoch": 0.1375,
+      "grad_norm": 1.0874199867248535,
+      "grad_norm_var": 0.07115961720678651,
+      "learning_rate": 2e-05,
+      "loss": 0.4609,
+      "loss/crossentropy": 2.172752797603607,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.02447379007935524,
+      "loss/reg": 0.026165394112467766,
+      "step": 275
+    },
+    {
+      "epoch": 0.138,
+      "grad_norm": 1.1732720136642456,
+      "grad_norm_var": 0.07036869627631123,
+      "learning_rate": 2e-05,
+      "loss": 0.4846,
+      "loss/crossentropy": 2.4434475898742676,
+      "loss/hidden": 0.1943359375,
+      "loss/logits": 0.02860554587095976,
+      "loss/reg": 0.026163768023252487,
+      "step": 276
+    },
+    {
+      "epoch": 0.1385,
+      "grad_norm": 1.5107827186584473,
+      "grad_norm_var": 0.07276105744027898,
+      "learning_rate": 2e-05,
+      "loss": 0.5892,
+      "loss/crossentropy": 2.5824127197265625,
+      "loss/hidden": 0.287109375,
+      "loss/logits": 0.04050498828291893,
+      "loss/reg": 0.026162203401327133,
+      "step": 277
+    },
+    {
+      "epoch": 0.139,
+      "grad_norm": 1.420068621635437,
+      "grad_norm_var": 0.07342361868488892,
+      "learning_rate": 2e-05,
+      "loss": 0.5488,
+      "loss/crossentropy": 2.234652519226074,
+      "loss/hidden": 0.2470703125,
+      "loss/logits": 0.04010407812893391,
+      "loss/reg": 0.026160722598433495,
+      "step": 278
+    },
+    {
+      "epoch": 0.1395,
+      "grad_norm": 0.9972831010818481,
+      "grad_norm_var": 0.0796539769611795,
+      "learning_rate": 2e-05,
+      "loss": 0.4622,
+      "loss/crossentropy": 2.396607279777527,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.030245795845985413,
+      "loss/reg": 0.026159239932894707,
+      "step": 279
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 2.338772773742676,
+      "grad_norm_var": 0.1232493317334492,
+      "learning_rate": 2e-05,
+      "loss": 0.5912,
+      "loss/crossentropy": 2.0176676511764526,
+      "loss/hidden": 0.27783203125,
+      "loss/logits": 0.05181618873029947,
+      "loss/reg": 0.026157628744840622,
+      "step": 280
+    },
+    {
+      "epoch": 0.1405,
+      "grad_norm": 1.2386250495910645,
+      "grad_norm_var": 0.11601927811151326,
+      "learning_rate": 2e-05,
+      "loss": 0.454,
+      "loss/crossentropy": 2.2258787155151367,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.02302493341267109,
+      "loss/reg": 0.02615603432059288,
+      "step": 281
+    },
+    {
+      "epoch": 0.141,
+      "grad_norm": 3.4386959075927734,
+      "grad_norm_var": 0.37798476794662456,
+      "learning_rate": 2e-05,
+      "loss": 0.6987,
+      "loss/crossentropy": 2.291516423225403,
+      "loss/hidden": 0.39892578125,
+      "loss/logits": 0.038274774327874184,
+      "loss/reg": 0.026154499500989914,
+      "step": 282
+    },
+    {
+      "epoch": 0.1415,
+      "grad_norm": 2.358877658843994,
+      "grad_norm_var": 0.4193280072280107,
+      "learning_rate": 2e-05,
+      "loss": 0.5369,
+      "loss/crossentropy": 2.0343876481056213,
+      "loss/hidden": 0.2392578125,
+      "loss/logits": 0.036153580993413925,
+      "loss/reg": 0.026152830570936203,
+      "step": 283
+    },
+    {
+      "epoch": 0.142,
+      "grad_norm": 1.7734060287475586,
+      "grad_norm_var": 0.42197319133869365,
+      "learning_rate": 2e-05,
+      "loss": 0.5995,
+      "loss/crossentropy": 2.410479426383972,
+      "loss/hidden": 0.28271484375,
+      "loss/logits": 0.055306099355220795,
+      "loss/reg": 0.026151135563850403,
+      "step": 284
+    },
+    {
+      "epoch": 0.1425,
+      "grad_norm": 1.7683607339859009,
+      "grad_norm_var": 0.4129653376453054,
+      "learning_rate": 2e-05,
+      "loss": 0.4774,
+      "loss/crossentropy": 2.422680377960205,
+      "loss/hidden": 0.17138671875,
+      "loss/logits": 0.04454575851559639,
+      "loss/reg": 0.026149341836571693,
+      "step": 285
+    },
+    {
+      "epoch": 0.143,
+      "grad_norm": 1.890203833580017,
+      "grad_norm_var": 0.3920434322764975,
+      "learning_rate": 2e-05,
+      "loss": 0.6648,
+      "loss/crossentropy": 2.3643598556518555,
+      "loss/hidden": 0.3388671875,
+      "loss/logits": 0.06448590569198132,
+      "loss/reg": 0.02614753320813179,
+      "step": 286
+    },
+    {
+      "epoch": 0.1435,
+      "grad_norm": 1.29023015499115,
+      "grad_norm_var": 0.39001840335736465,
+      "learning_rate": 2e-05,
+      "loss": 0.4522,
+      "loss/crossentropy": 2.5188199281692505,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.02329123578965664,
+      "loss/reg": 0.02614591456949711,
+      "step": 287
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 10.653407096862793,
+      "grad_norm_var": 5.386538257885738,
+      "learning_rate": 2e-05,
+      "loss": 0.5673,
+      "loss/crossentropy": 2.5609625577926636,
+      "loss/hidden": 0.27880859375,
+      "loss/logits": 0.02702578529715538,
+      "loss/reg": 0.026144322007894516,
+      "step": 288
+    },
+    {
+      "epoch": 0.1445,
+      "grad_norm": 1.2127407789230347,
+      "grad_norm_var": 5.43876626293414,
+      "learning_rate": 2e-05,
+      "loss": 0.5081,
+      "loss/crossentropy": 2.4100780487060547,
+      "loss/hidden": 0.21044921875,
+      "loss/logits": 0.03620042186230421,
+      "loss/reg": 0.02614261396229267,
+      "step": 289
+    },
+    {
+      "epoch": 0.145,
+      "grad_norm": 1.4402183294296265,
+      "grad_norm_var": 5.4412882443615285,
+      "learning_rate": 2e-05,
+      "loss": 0.4768,
+      "loss/crossentropy": 2.271009087562561,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.02590431459248066,
+      "loss/reg": 0.026140958070755005,
+      "step": 290
+    },
+    {
+      "epoch": 0.1455,
+      "grad_norm": 1.5095008611679077,
+      "grad_norm_var": 5.388429514304694,
+      "learning_rate": 2e-05,
+      "loss": 0.5205,
+      "loss/crossentropy": 2.3384816646575928,
+      "loss/hidden": 0.22265625,
+      "loss/logits": 0.036461083218455315,
+      "loss/reg": 0.026139242574572563,
+      "step": 291
+    },
+    {
+      "epoch": 0.146,
+      "grad_norm": 1.1620471477508545,
+      "grad_norm_var": 5.390050224047064,
+      "learning_rate": 2e-05,
+      "loss": 0.4969,
+      "loss/crossentropy": 2.433851480484009,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.0348251610994339,
+      "loss/reg": 0.026137609034776688,
+      "step": 292
+    },
+    {
+      "epoch": 0.1465,
+      "grad_norm": 1.4650121927261353,
+      "grad_norm_var": 5.394693634841302,
+      "learning_rate": 2e-05,
+      "loss": 0.4378,
+      "loss/crossentropy": 2.5522985458374023,
+      "loss/hidden": 0.154296875,
+      "loss/logits": 0.022188137285411358,
+      "loss/reg": 0.02613597922027111,
+      "step": 293
+    },
+    {
+      "epoch": 0.147,
+      "grad_norm": 1.9892516136169434,
+      "grad_norm_var": 5.352159159580765,
+      "learning_rate": 2e-05,
+      "loss": 0.5504,
+      "loss/crossentropy": 2.1993319392204285,
+      "loss/hidden": 0.24267578125,
+      "loss/logits": 0.04638373479247093,
+      "loss/reg": 0.026134170591831207,
+      "step": 294
+    },
+    {
+      "epoch": 0.1475,
+      "grad_norm": 1.465166687965393,
+      "grad_norm_var": 5.285637901292613,
+      "learning_rate": 2e-05,
+      "loss": 0.494,
+      "loss/crossentropy": 2.223472237586975,
+      "loss/hidden": 0.19287109375,
+      "loss/logits": 0.03982667811214924,
+      "loss/reg": 0.026132365688681602,
+      "step": 295
+    },
+    {
+      "epoch": 0.148,
+      "grad_norm": 2.5565261840820312,
+      "grad_norm_var": 5.2893741834582775,
+      "learning_rate": 2e-05,
+      "loss": 0.5916,
+      "loss/crossentropy": 2.2553144693374634,
+      "loss/hidden": 0.27392578125,
+      "loss/logits": 0.056398073211312294,
+      "loss/reg": 0.026130499318242073,
+      "step": 296
+    },
+    {
+      "epoch": 0.1485,
+      "grad_norm": 1.2621214389801025,
+      "grad_norm_var": 5.286002834073586,
+      "learning_rate": 2e-05,
+      "loss": 0.4855,
+      "loss/crossentropy": 2.241385817527771,
+      "loss/hidden": 0.1953125,
+      "loss/logits": 0.028942352160811424,
+      "loss/reg": 0.026128675788640976,
+      "step": 297
+    },
+    {
+      "epoch": 0.149,
+      "grad_norm": 1.841597080230713,
+      "grad_norm_var": 5.2087414924686675,
+      "learning_rate": 2e-05,
+      "loss": 0.5784,
+      "loss/crossentropy": 2.296829104423523,
+      "loss/hidden": 0.2802734375,
+      "loss/logits": 0.03681251127272844,
+      "loss/reg": 0.026126863434910774,
+      "step": 298
+    },
+    {
+      "epoch": 0.1495,
+      "grad_norm": 1.258812427520752,
+      "grad_norm_var": 5.265093383729075,
+      "learning_rate": 2e-05,
+      "loss": 0.492,
+      "loss/crossentropy": 2.4392940998077393,
+      "loss/hidden": 0.20166015625,
+      "loss/logits": 0.0290931249037385,
+      "loss/reg": 0.026125235483050346,
+      "step": 299
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.3167269229888916,
+      "grad_norm_var": 5.3015866088773915,
+      "learning_rate": 2e-05,
+      "loss": 0.4889,
+      "loss/crossentropy": 2.401396870613098,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.029924746602773666,
+      "loss/reg": 0.02612358331680298,
+      "step": 300
+    },
+    {
+      "epoch": 0.1505,
+      "grad_norm": 1.6229465007781982,
+      "grad_norm_var": 5.309922187137865,
+      "learning_rate": 2e-05,
+      "loss": 0.5287,
+      "loss/crossentropy": 2.36386775970459,
+      "loss/hidden": 0.2255859375,
+      "loss/logits": 0.04194306582212448,
+      "loss/reg": 0.02612200565636158,
+      "step": 301
+    },
+    {
+      "epoch": 0.151,
+      "grad_norm": 1.777891755104065,
+      "grad_norm_var": 5.31416719857012,
+      "learning_rate": 2e-05,
+      "loss": 0.5103,
+      "loss/crossentropy": 2.4092063903808594,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.03518137149512768,
+      "loss/reg": 0.026120424270629883,
+      "step": 302
+    },
+    {
+      "epoch": 0.1515,
+      "grad_norm": 1.1520640850067139,
+      "grad_norm_var": 5.330536147630553,
+      "learning_rate": 2e-05,
+      "loss": 0.5057,
+      "loss/crossentropy": 2.2741400003433228,
+      "loss/hidden": 0.21142578125,
+      "loss/logits": 0.03307824395596981,
+      "loss/reg": 0.0261188056319952,
+      "step": 303
+    },
+    {
+      "epoch": 0.152,
+      "grad_norm": 1.2208960056304932,
+      "grad_norm_var": 0.1407175104424084,
+      "learning_rate": 2e-05,
+      "loss": 0.4876,
+      "loss/crossentropy": 2.202619433403015,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.03499259799718857,
+      "loss/reg": 0.026117179542779922,
+      "step": 304
+    },
+    {
+      "epoch": 0.1525,
+      "grad_norm": 1.2294107675552368,
+      "grad_norm_var": 0.14006117928402068,
+      "learning_rate": 2e-05,
+      "loss": 0.4935,
+      "loss/crossentropy": 2.3829336166381836,
+      "loss/hidden": 0.1982421875,
+      "loss/logits": 0.03412310779094696,
+      "loss/reg": 0.026115482673048973,
+      "step": 305
+    },
+    {
+      "epoch": 0.153,
+      "grad_norm": 1.2149832248687744,
+      "grad_norm_var": 0.1455343172725079,
+      "learning_rate": 2e-05,
+      "loss": 0.4618,
+      "loss/crossentropy": 2.3216532468795776,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.025372054427862167,
+      "loss/reg": 0.02611370198428631,
+      "step": 306
+    },
+    {
+      "epoch": 0.1535,
+      "grad_norm": 1.4385122060775757,
+      "grad_norm_var": 0.14578594604365136,
+      "learning_rate": 2e-05,
+      "loss": 0.51,
+      "loss/crossentropy": 2.449226975440979,
+      "loss/hidden": 0.20654296875,
+      "loss/logits": 0.04237618204206228,
+      "loss/reg": 0.026111874729394913,
+      "step": 307
+    },
+    {
+      "epoch": 0.154,
+      "grad_norm": 1.118850588798523,
+      "grad_norm_var": 0.14783964943001873,
+      "learning_rate": 2e-05,
+      "loss": 0.4752,
+      "loss/crossentropy": 2.3721216917037964,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.027595724910497665,
+      "loss/reg": 0.0261102132499218,
+      "step": 308
+    },
+    {
+      "epoch": 0.1545,
+      "grad_norm": 1.3892052173614502,
+      "grad_norm_var": 0.14850872616204683,
+      "learning_rate": 2e-05,
+      "loss": 0.4986,
+      "loss/crossentropy": 2.3415383100509644,
+      "loss/hidden": 0.205078125,
+      "loss/logits": 0.03244547359645367,
+      "loss/reg": 0.02610846608877182,
+      "step": 309
+    },
+    {
+      "epoch": 0.155,
+      "grad_norm": 1.1625828742980957,
+      "grad_norm_var": 0.13629436785804921,
+      "learning_rate": 2e-05,
+      "loss": 0.4995,
+      "loss/crossentropy": 2.3235228061676025,
+      "loss/hidden": 0.2099609375,
+      "loss/logits": 0.028443023562431335,
+      "loss/reg": 0.026106812059879303,
+      "step": 310
+    },
+    {
+      "epoch": 0.1555,
+      "grad_norm": 1.27708899974823,
+      "grad_norm_var": 0.1378557412128671,
+      "learning_rate": 2e-05,
+      "loss": 0.517,
+      "loss/crossentropy": 2.4090656042099,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.035252392292022705,
+      "loss/reg": 0.026105303317308426,
+      "step": 311
+    },
+    {
+      "epoch": 0.156,
+      "grad_norm": 1.1573866605758667,
+      "grad_norm_var": 0.049585704844170665,
+      "learning_rate": 2e-05,
+      "loss": 0.509,
+      "loss/crossentropy": 2.1680856943130493,
+      "loss/hidden": 0.2158203125,
+      "loss/logits": 0.03210577368736267,
+      "loss/reg": 0.026103774085640907,
+      "step": 312
+    },
+    {
+      "epoch": 0.1565,
+      "grad_norm": 1.265214443206787,
+      "grad_norm_var": 0.04955415784550207,
+      "learning_rate": 2e-05,
+      "loss": 0.4997,
+      "loss/crossentropy": 2.3472299575805664,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.03409944660961628,
+      "loss/reg": 0.026102419942617416,
+      "step": 313
+    },
+    {
+      "epoch": 0.157,
+      "grad_norm": 1.9698238372802734,
+      "grad_norm_var": 0.05915308914134864,
+      "learning_rate": 2e-05,
+      "loss": 0.5882,
+      "loss/crossentropy": 2.3045787811279297,
+      "loss/hidden": 0.27392578125,
+      "loss/logits": 0.05324920453131199,
+      "loss/reg": 0.02610074356198311,
+      "step": 314
+    },
+    {
+      "epoch": 0.1575,
+      "grad_norm": 1.3615264892578125,
+      "grad_norm_var": 0.058587269718664695,
+      "learning_rate": 2e-05,
+      "loss": 0.5097,
+      "loss/crossentropy": 2.010044515132904,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.0348639115691185,
+      "loss/reg": 0.026099352166056633,
+      "step": 315
+    },
+    {
+      "epoch": 0.158,
+      "grad_norm": 1.450539231300354,
+      "grad_norm_var": 0.05902897578693942,
+      "learning_rate": 2e-05,
+      "loss": 0.5259,
+      "loss/crossentropy": 2.258197784423828,
+      "loss/hidden": 0.22412109375,
+      "loss/logits": 0.040814803913235664,
+      "loss/reg": 0.026097897440195084,
+      "step": 316
+    },
+    {
+      "epoch": 0.1585,
+      "grad_norm": 1.2342588901519775,
+      "grad_norm_var": 0.055002612504784484,
+      "learning_rate": 2e-05,
+      "loss": 0.5114,
+      "loss/crossentropy": 2.450056791305542,
+      "loss/hidden": 0.212890625,
+      "loss/logits": 0.03752759099006653,
+      "loss/reg": 0.026096461340785027,
+      "step": 317
+    },
+    {
+      "epoch": 0.159,
+      "grad_norm": 1.5264660120010376,
+      "grad_norm_var": 0.04423249803009378,
+      "learning_rate": 2e-05,
+      "loss": 0.5069,
+      "loss/crossentropy": 2.3556759357452393,
+      "loss/hidden": 0.212890625,
+      "loss/logits": 0.03307069279253483,
+      "loss/reg": 0.026094747707247734,
+      "step": 318
+    },
+    {
+      "epoch": 0.1595,
+      "grad_norm": 1.394983172416687,
+      "grad_norm_var": 0.04238248493052742,
+      "learning_rate": 2e-05,
+      "loss": 0.4826,
+      "loss/crossentropy": 2.3402878046035767,
+      "loss/hidden": 0.19384765625,
+      "loss/logits": 0.027848311699926853,
+      "loss/reg": 0.026093317195773125,
+      "step": 319
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.3035892248153687,
+      "grad_norm_var": 0.04151614019492621,
+      "learning_rate": 2e-05,
+      "loss": 0.5366,
+      "loss/crossentropy": 2.4592941999435425,
+      "loss/hidden": 0.2333984375,
+      "loss/logits": 0.04223489202558994,
+      "loss/reg": 0.026091884821653366,
+      "step": 320
+    },
+    {
+      "epoch": 0.1605,
+      "grad_norm": 1.8944873809814453,
+      "grad_norm_var": 0.05905324081961657,
+      "learning_rate": 2e-05,
+      "loss": 0.5082,
+      "loss/crossentropy": 2.2413108348846436,
+      "loss/hidden": 0.21142578125,
+      "loss/logits": 0.03591745160520077,
+      "loss/reg": 0.026090335100889206,
+      "step": 321
+    },
+    {
+      "epoch": 0.161,
+      "grad_norm": 2.45639705657959,
+      "grad_norm_var": 0.12723620805793795,
+      "learning_rate": 2e-05,
+      "loss": 0.6455,
+      "loss/crossentropy": 1.9915293455123901,
+      "loss/hidden": 0.3408203125,
+      "loss/logits": 0.043817924335598946,
+      "loss/reg": 0.02608887292444706,
+      "step": 322
+    },
+    {
+      "epoch": 0.1615,
+      "grad_norm": 1.7480417490005493,
+      "grad_norm_var": 0.13223189773490632,
+      "learning_rate": 2e-05,
+      "loss": 0.5439,
+      "loss/crossentropy": 2.4047733545303345,
+      "loss/hidden": 0.22265625,
+      "loss/logits": 0.06036931276321411,
+      "loss/reg": 0.026087457314133644,
+      "step": 323
+    },
+    {
+      "epoch": 0.162,
+      "grad_norm": 1.853732705116272,
+      "grad_norm_var": 0.1304117384352215,
+      "learning_rate": 2e-05,
+      "loss": 0.4878,
+      "loss/crossentropy": 2.5980257987976074,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.037442656233906746,
+      "loss/reg": 0.02608575113117695,
+      "step": 324
+    },
+    {
+      "epoch": 0.1625,
+      "grad_norm": 1.894579291343689,
+      "grad_norm_var": 0.13703325521176069,
+      "learning_rate": 2e-05,
+      "loss": 0.6235,
+      "loss/crossentropy": 2.3670873641967773,
+      "loss/hidden": 0.2626953125,
+      "loss/logits": 0.09991350024938583,
+      "loss/reg": 0.02608424238860607,
+      "step": 325
+    },
+    {
+      "epoch": 0.163,
+      "grad_norm": 1.3630772829055786,
+      "grad_norm_var": 0.1289371841207372,
+      "learning_rate": 2e-05,
+      "loss": 0.5014,
+      "loss/crossentropy": 2.1478903889656067,
+      "loss/hidden": 0.2099609375,
+      "loss/logits": 0.030608470551669598,
+      "loss/reg": 0.026082569733262062,
+      "step": 326
+    },
+    {
+      "epoch": 0.1635,
+      "grad_norm": 1.2252777814865112,
+      "grad_norm_var": 0.13114190368244535,
+      "learning_rate": 2e-05,
+      "loss": 0.5137,
+      "loss/crossentropy": 2.228654980659485,
+      "loss/hidden": 0.216796875,
+      "loss/logits": 0.036048877984285355,
+      "loss/reg": 0.026081033051013947,
+      "step": 327
+    },
+    {
+      "epoch": 0.164,
+      "grad_norm": 1.1830672025680542,
+      "grad_norm_var": 0.12977471644483457,
+      "learning_rate": 2e-05,
+      "loss": 0.4567,
+      "loss/crossentropy": 2.5576133728027344,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.02798423543572426,
+      "loss/reg": 0.026079514995217323,
+      "step": 328
+    },
+    {
+      "epoch": 0.1645,
+      "grad_norm": 1.9584394693374634,
+      "grad_norm_var": 0.13160920382139138,
+      "learning_rate": 2e-05,
+      "loss": 0.5043,
+      "loss/crossentropy": 2.321745753288269,
+      "loss/hidden": 0.2109375,
+      "loss/logits": 0.032608283683657646,
+      "loss/reg": 0.02607780508697033,
+      "step": 329
+    },
+    {
+      "epoch": 0.165,
+      "grad_norm": 2.176175355911255,
+      "grad_norm_var": 0.14407030947683092,
+      "learning_rate": 2e-05,
+      "loss": 0.5287,
+      "loss/crossentropy": 2.5101382732391357,
+      "loss/hidden": 0.23388671875,
+      "loss/logits": 0.03408687189221382,
+      "loss/reg": 0.026076283305883408,
+      "step": 330
+    },
+    {
+      "epoch": 0.1655,
+      "grad_norm": 1.3150840997695923,
+      "grad_norm_var": 0.14584616287976904,
+      "learning_rate": 2e-05,
+      "loss": 0.5012,
+      "loss/crossentropy": 2.4776118993759155,
+      "loss/hidden": 0.20751953125,
+      "loss/logits": 0.032900793477892876,
+      "loss/reg": 0.026074586436152458,
+      "step": 331
+    },
+    {
+      "epoch": 0.166,
+      "grad_norm": 1.6297320127487183,
+      "grad_norm_var": 0.14371731927044115,
+      "learning_rate": 2e-05,
+      "loss": 0.5161,
+      "loss/crossentropy": 2.4321337938308716,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.03421984426677227,
+      "loss/reg": 0.02607305720448494,
+      "step": 332
+    },
+    {
+      "epoch": 0.1665,
+      "grad_norm": 1.3825711011886597,
+      "grad_norm_var": 0.13717068867274657,
+      "learning_rate": 2e-05,
+      "loss": 0.4764,
+      "loss/crossentropy": 2.212525486946106,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.028680726885795593,
+      "loss/reg": 0.026071617379784584,
+      "step": 333
+    },
+    {
+      "epoch": 0.167,
+      "grad_norm": 1.1411490440368652,
+      "grad_norm_var": 0.15249385172816404,
+      "learning_rate": 2e-05,
+      "loss": 0.4697,
+      "loss/crossentropy": 2.309118866920471,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.028305926360189915,
+      "loss/reg": 0.026069944724440575,
+      "step": 334
+    },
+    {
+      "epoch": 0.1675,
+      "grad_norm": 1.5472488403320312,
+      "grad_norm_var": 0.14937410499563786,
+      "learning_rate": 2e-05,
+      "loss": 0.5375,
+      "loss/crossentropy": 2.2855429649353027,
+      "loss/hidden": 0.24072265625,
+      "loss/logits": 0.03612595796585083,
+      "loss/reg": 0.026068488135933876,
+      "step": 335
+    },
+    {
+      "epoch": 0.168,
+      "grad_norm": 5.691341400146484,
+      "grad_norm_var": 1.161954663002865,
+      "learning_rate": 2e-05,
+      "loss": 0.5703,
+      "loss/crossentropy": 2.4927643537521362,
+      "loss/hidden": 0.26953125,
+      "loss/logits": 0.04008688498288393,
+      "loss/reg": 0.026066886261105537,
+      "step": 336
+    },
+    {
+      "epoch": 0.1685,
+      "grad_norm": 2.456817388534546,
+      "grad_norm_var": 1.1810217336131037,
+      "learning_rate": 2e-05,
+      "loss": 0.7493,
+      "loss/crossentropy": 2.5297993421554565,
+      "loss/hidden": 0.37744140625,
+      "loss/logits": 0.11121575441211462,
+      "loss/reg": 0.026065362617373466,
+      "step": 337
+    },
+    {
+      "epoch": 0.169,
+      "grad_norm": 1.8542064428329468,
+      "grad_norm_var": 1.1621370785149523,
+      "learning_rate": 2e-05,
+      "loss": 0.5021,
+      "loss/crossentropy": 2.4378503561019897,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.03930371440947056,
+      "loss/reg": 0.026063820347189903,
+      "step": 338
+    },
+    {
+      "epoch": 0.1695,
+      "grad_norm": 1.8168195486068726,
+      "grad_norm_var": 1.1610274406018892,
+      "learning_rate": 2e-05,
+      "loss": 0.4994,
+      "loss/crossentropy": 2.1696581840515137,
+      "loss/hidden": 0.201171875,
+      "loss/logits": 0.03763199597597122,
+      "loss/reg": 0.02606227435171604,
+      "step": 339
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.1088804006576538,
+      "grad_norm_var": 1.20085213579918,
+      "learning_rate": 2e-05,
+      "loss": 0.4517,
+      "loss/crossentropy": 2.512749671936035,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.02365376614034176,
+      "loss/reg": 0.026060722768306732,
+      "step": 340
+    },
+    {
+      "epoch": 0.1705,
+      "grad_norm": 1.490470051765442,
+      "grad_norm_var": 1.2091431686160143,
+      "learning_rate": 2e-05,
+      "loss": 0.4908,
+      "loss/crossentropy": 2.487561345100403,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.030045345425605774,
+      "loss/reg": 0.026059186086058617,
+      "step": 341
+    },
+    {
+      "epoch": 0.171,
+      "grad_norm": 1.0408867597579956,
+      "grad_norm_var": 1.2358515542870572,
+      "learning_rate": 2e-05,
+      "loss": 0.4727,
+      "loss/crossentropy": 2.2461780309677124,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.025552313774824142,
+      "loss/reg": 0.02605745941400528,
+      "step": 342
+    },
+    {
+      "epoch": 0.1715,
+      "grad_norm": 1.5709069967269897,
+      "grad_norm_var": 1.2162039640705784,
+      "learning_rate": 2e-05,
+      "loss": 0.4876,
+      "loss/crossentropy": 2.2603927850723267,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.02933008223772049,
+      "loss/reg": 0.026055721566081047,
+      "step": 343
+    },
+    {
+      "epoch": 0.172,
+      "grad_norm": 1.2913998365402222,
+      "grad_norm_var": 1.2075172882359821,
+      "learning_rate": 2e-05,
+      "loss": 0.5198,
+      "loss/crossentropy": 2.196273446083069,
+      "loss/hidden": 0.2216796875,
+      "loss/logits": 0.03755245357751846,
+      "loss/reg": 0.026053981855511665,
+      "step": 344
+    },
+    {
+      "epoch": 0.1725,
+      "grad_norm": 1.2019914388656616,
+      "grad_norm_var": 1.2315373969600656,
+      "learning_rate": 2e-05,
+      "loss": 0.4743,
+      "loss/crossentropy": 2.2306121587753296,
+      "loss/hidden": 0.18994140625,
+      "loss/logits": 0.023790341801941395,
+      "loss/reg": 0.02605227194726467,
+      "step": 345
+    },
+    {
+      "epoch": 0.173,
+      "grad_norm": 1.3895491361618042,
+      "grad_norm_var": 1.2302038798211163,
+      "learning_rate": 2e-05,
+      "loss": 0.4963,
+      "loss/crossentropy": 2.4988722801208496,
+      "loss/hidden": 0.2080078125,
+      "loss/logits": 0.02780199982225895,
+      "loss/reg": 0.02605038322508335,
+      "step": 346
+    },
+    {
+      "epoch": 0.1735,
+      "grad_norm": 1.50831937789917,
+      "grad_norm_var": 1.2214463856538722,
+      "learning_rate": 2e-05,
+      "loss": 0.4932,
+      "loss/crossentropy": 2.409302234649658,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.03346476424485445,
+      "loss/reg": 0.02604857087135315,
+      "step": 347
+    },
+    {
+      "epoch": 0.174,
+      "grad_norm": 1.7516964673995972,
+      "grad_norm_var": 1.220296012686515,
+      "learning_rate": 2e-05,
+      "loss": 0.5642,
+      "loss/crossentropy": 2.2191531658172607,
+      "loss/hidden": 0.25927734375,
+      "loss/logits": 0.04449588805437088,
+      "loss/reg": 0.02604682371020317,
+      "step": 348
+    },
+    {
+      "epoch": 0.1745,
+      "grad_norm": 2.329723358154297,
+      "grad_norm_var": 1.228035235727617,
+      "learning_rate": 2e-05,
+      "loss": 0.5682,
+      "loss/crossentropy": 2.1749590635299683,
+      "loss/hidden": 0.2646484375,
+      "loss/logits": 0.04313355404883623,
+      "loss/reg": 0.026045063510537148,
+      "step": 349
+    },
+    {
+      "epoch": 0.175,
+      "grad_norm": 1.3271498680114746,
+      "grad_norm_var": 1.2132512460490317,
+      "learning_rate": 2e-05,
+      "loss": 0.45,
+      "loss/crossentropy": 2.588584542274475,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.02306409552693367,
+      "loss/reg": 0.026043301448225975,
+      "step": 350
+    },
+    {
+      "epoch": 0.1755,
+      "grad_norm": 1.875108003616333,
+      "grad_norm_var": 1.2073429995003617,
+      "learning_rate": 2e-05,
+      "loss": 0.5202,
+      "loss/crossentropy": 2.287582039833069,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.052729660645127296,
+      "loss/reg": 0.026041487231850624,
+      "step": 351
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 1.146688461303711,
+      "grad_norm_var": 0.1745214276224876,
+      "learning_rate": 2e-05,
+      "loss": 0.4424,
+      "loss/crossentropy": 2.3722145557403564,
+      "loss/hidden": 0.159912109375,
+      "loss/logits": 0.022133183665573597,
+      "loss/reg": 0.026039764285087585,
+      "step": 352
+    },
+    {
+      "epoch": 0.1765,
+      "grad_norm": 1.562357783317566,
+      "grad_norm_var": 0.11906480060907014,
+      "learning_rate": 2e-05,
+      "loss": 0.5252,
+      "loss/crossentropy": 2.2052918672561646,
+      "loss/hidden": 0.2275390625,
+      "loss/logits": 0.0372452475130558,
+      "loss/reg": 0.02603817544877529,
+      "step": 353
+    },
+    {
+      "epoch": 0.177,
+      "grad_norm": 1.3673954010009766,
+      "grad_norm_var": 0.11196520379043946,
+      "learning_rate": 2e-05,
+      "loss": 0.462,
+      "loss/crossentropy": 2.3004499673843384,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.025897801853716373,
+      "loss/reg": 0.026036500930786133,
+      "step": 354
+    },
+    {
+      "epoch": 0.1775,
+      "grad_norm": 1.2918845415115356,
+      "grad_norm_var": 0.10604762311465758,
+      "learning_rate": 2e-05,
+      "loss": 0.4731,
+      "loss/crossentropy": 2.265425443649292,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.025708286091685295,
+      "loss/reg": 0.026034945622086525,
+      "step": 355
+    },
+    {
+      "epoch": 0.178,
+      "grad_norm": 7.662310600280762,
+      "grad_norm_var": 2.4892246344001143,
+      "learning_rate": 2e-05,
+      "loss": 0.5369,
+      "loss/crossentropy": 2.398472547531128,
+      "loss/hidden": 0.2412109375,
+      "loss/logits": 0.0353584922850132,
+      "loss/reg": 0.026033204048871994,
+      "step": 356
+    },
+    {
+      "epoch": 0.1785,
+      "grad_norm": 1.422759771347046,
+      "grad_norm_var": 2.492874299968556,
+      "learning_rate": 2e-05,
+      "loss": 0.5149,
+      "loss/crossentropy": 2.226934790611267,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.03390590753406286,
+      "loss/reg": 0.026031551882624626,
+      "step": 357
+    },
+    {
+      "epoch": 0.179,
+      "grad_norm": 1.271759271621704,
+      "grad_norm_var": 2.471029150963487,
+      "learning_rate": 2e-05,
+      "loss": 0.5199,
+      "loss/crossentropy": 2.3659080266952515,
+      "loss/hidden": 0.21630859375,
+      "loss/logits": 0.04329786077141762,
+      "loss/reg": 0.02602977305650711,
+      "step": 358
+    },
+    {
+      "epoch": 0.1795,
+      "grad_norm": 1.2337300777435303,
+      "grad_norm_var": 2.491724270181853,
+      "learning_rate": 2e-05,
+      "loss": 0.5058,
+      "loss/crossentropy": 2.3398635387420654,
+      "loss/hidden": 0.20849609375,
+      "loss/logits": 0.0370652936398983,
+      "loss/reg": 0.026028025895357132,
+      "step": 359
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.1331290006637573,
+      "grad_norm_var": 2.505122499555146,
+      "learning_rate": 2e-05,
+      "loss": 0.4673,
+      "loss/crossentropy": 2.4402376413345337,
+      "loss/hidden": 0.17919921875,
+      "loss/logits": 0.027860145084559917,
+      "loss/reg": 0.026026224717497826,
+      "step": 360
+    },
+    {
+      "epoch": 0.1805,
+      "grad_norm": 1.8800278902053833,
+      "grad_norm_var": 2.475975881369847,
+      "learning_rate": 2e-05,
+      "loss": 0.5447,
+      "loss/crossentropy": 2.1927571296691895,
+      "loss/hidden": 0.24658203125,
+      "loss/logits": 0.037921242415905,
+      "loss/reg": 0.02602434903383255,
+      "step": 361
+    },
+    {
+      "epoch": 0.181,
+      "grad_norm": 1.1613508462905884,
+      "grad_norm_var": 2.4942931489268525,
+      "learning_rate": 2e-05,
+      "loss": 0.4629,
+      "loss/crossentropy": 2.3627922534942627,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.02883315272629261,
+      "loss/reg": 0.026022551581263542,
+      "step": 362
+    },
+    {
+      "epoch": 0.1815,
+      "grad_norm": 1.2477275133132935,
+      "grad_norm_var": 2.5111159165951857,
+      "learning_rate": 2e-05,
+      "loss": 0.5399,
+      "loss/crossentropy": 2.3385051488876343,
+      "loss/hidden": 0.23779296875,
+      "loss/logits": 0.041944630444049835,
+      "loss/reg": 0.026020534336566925,
+      "step": 363
+    },
+    {
+      "epoch": 0.182,
+      "grad_norm": 1.0904345512390137,
+      "grad_norm_var": 2.547469450312644,
+      "learning_rate": 2e-05,
+      "loss": 0.4478,
+      "loss/crossentropy": 2.353084683418274,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.02504115179181099,
+      "loss/reg": 0.0260187778621912,
+      "step": 364
+    },
+    {
+      "epoch": 0.1825,
+      "grad_norm": 1.6713463068008423,
+      "grad_norm_var": 2.5291763950799013,
+      "learning_rate": 2e-05,
+      "loss": 0.4939,
+      "loss/crossentropy": 2.2228282690048218,
+      "loss/hidden": 0.2099609375,
+      "loss/logits": 0.023817350156605244,
+      "loss/reg": 0.026017041876912117,
+      "step": 365
+    },
+    {
+      "epoch": 0.183,
+      "grad_norm": 1.2542800903320312,
+      "grad_norm_var": 2.5338262674117384,
+      "learning_rate": 2e-05,
+      "loss": 0.5238,
+      "loss/crossentropy": 2.228682041168213,
+      "loss/hidden": 0.2275390625,
+      "loss/logits": 0.03613369073718786,
+      "loss/reg": 0.026015128940343857,
+      "step": 366
+    },
+    {
+      "epoch": 0.1835,
+      "grad_norm": 1.2646586894989014,
+      "grad_norm_var": 2.548319005158211,
+      "learning_rate": 2e-05,
+      "loss": 0.4777,
+      "loss/crossentropy": 2.3304578065872192,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.030102724209427834,
+      "loss/reg": 0.026013074442744255,
+      "step": 367
+    },
+    {
+      "epoch": 0.184,
+      "grad_norm": 1.0247364044189453,
+      "grad_norm_var": 2.5587148751606645,
+      "learning_rate": 2e-05,
+      "loss": 0.4394,
+      "loss/crossentropy": 2.5192004442214966,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.022060595452785492,
+      "loss/reg": 0.026011094450950623,
+      "step": 368
+    },
+    {
+      "epoch": 0.1845,
+      "grad_norm": 1.4839156866073608,
+      "grad_norm_var": 2.5607612202403485,
+      "learning_rate": 2e-05,
+      "loss": 0.5208,
+      "loss/crossentropy": 2.1315367221832275,
+      "loss/hidden": 0.22705078125,
+      "loss/logits": 0.03365152329206467,
+      "loss/reg": 0.02600909397006035,
+      "step": 369
+    },
+    {
+      "epoch": 0.185,
+      "grad_norm": 1.2327549457550049,
+      "grad_norm_var": 2.5681585055774634,
+      "learning_rate": 2e-05,
+      "loss": 0.441,
+      "loss/crossentropy": 2.418115019798279,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.022698544897139072,
+      "loss/reg": 0.026007305830717087,
+      "step": 370
+    },
+    {
+      "epoch": 0.1855,
+      "grad_norm": 1.2444417476654053,
+      "grad_norm_var": 2.5709309337522748,
+      "learning_rate": 2e-05,
+      "loss": 0.467,
+      "loss/crossentropy": 2.2915507555007935,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.026262402534484863,
+      "loss/reg": 0.02600536122918129,
+      "step": 371
+    },
+    {
+      "epoch": 0.186,
+      "grad_norm": 1.2689179182052612,
+      "grad_norm_var": 0.0472904244491535,
+      "learning_rate": 2e-05,
+      "loss": 0.4999,
+      "loss/crossentropy": 2.518853783607483,
+      "loss/hidden": 0.21435546875,
+      "loss/logits": 0.025527067482471466,
+      "loss/reg": 0.026003584265708923,
+      "step": 372
+    },
+    {
+      "epoch": 0.1865,
+      "grad_norm": 1.4123287200927734,
+      "grad_norm_var": 0.047133962787962426,
+      "learning_rate": 2e-05,
+      "loss": 0.4964,
+      "loss/crossentropy": 2.3583970069885254,
+      "loss/hidden": 0.2080078125,
+      "loss/logits": 0.028406362980604172,
+      "loss/reg": 0.02600177377462387,
+      "step": 373
+    },
+    {
+      "epoch": 0.187,
+      "grad_norm": 1.3444428443908691,
+      "grad_norm_var": 0.04714470510582007,
+      "learning_rate": 2e-05,
+      "loss": 0.4758,
+      "loss/crossentropy": 2.250472664833069,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.02829747088253498,
+      "loss/reg": 0.02599998004734516,
+      "step": 374
+    },
+    {
+      "epoch": 0.1875,
+      "grad_norm": 1.2682015895843506,
+      "grad_norm_var": 0.046871804013897095,
+      "learning_rate": 2e-05,
+      "loss": 0.5168,
+      "loss/crossentropy": 2.1512317657470703,
+      "loss/hidden": 0.2216796875,
+      "loss/logits": 0.03511458821594715,
+      "loss/reg": 0.025998059660196304,
+      "step": 375
+    },
+    {
+      "epoch": 0.188,
+      "grad_norm": 1.2203181982040405,
+      "grad_norm_var": 0.04527427140258874,
+      "learning_rate": 2e-05,
+      "loss": 0.4928,
+      "loss/crossentropy": 2.4670302867889404,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.028278429992496967,
+      "loss/reg": 0.025996318086981773,
+      "step": 376
+    },
+    {
+      "epoch": 0.1885,
+      "grad_norm": 1.6124721765518188,
+      "grad_norm_var": 0.02965817159038971,
+      "learning_rate": 2e-05,
+      "loss": 0.5482,
+      "loss/crossentropy": 2.2732619047164917,
+      "loss/hidden": 0.24169921875,
+      "loss/logits": 0.046598936431109905,
+      "loss/reg": 0.02599457837641239,
+      "step": 377
+    },
+    {
+      "epoch": 0.189,
+      "grad_norm": 1.2982152700424194,
+      "grad_norm_var": 0.0282961065281843,
+      "learning_rate": 2e-05,
+      "loss": 0.4767,
+      "loss/crossentropy": 2.362215518951416,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.02727901004254818,
+      "loss/reg": 0.025992868468165398,
+      "step": 378
+    },
+    {
+      "epoch": 0.1895,
+      "grad_norm": 1.4476395845413208,
+      "grad_norm_var": 0.02916870288535254,
+      "learning_rate": 2e-05,
+      "loss": 0.5588,
+      "loss/crossentropy": 2.1909669637680054,
+      "loss/hidden": 0.25244140625,
+      "loss/logits": 0.04647276923060417,
+      "loss/reg": 0.02599099464714527,
+      "step": 379
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.3061769008636475,
+      "grad_norm_var": 0.025439804416175528,
+      "learning_rate": 2e-05,
+      "loss": 0.4942,
+      "loss/crossentropy": 2.291175603866577,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.034558966755867004,
+      "loss/reg": 0.02598922699689865,
+      "step": 380
+    },
+    {
+      "epoch": 0.1905,
+      "grad_norm": 1.635046362876892,
+      "grad_norm_var": 0.02389268741876922,
+      "learning_rate": 2e-05,
+      "loss": 0.5255,
+      "loss/crossentropy": 2.6519399881362915,
+      "loss/hidden": 0.22705078125,
+      "loss/logits": 0.0385761484503746,
+      "loss/reg": 0.02598743885755539,
+      "step": 381
+    },
+    {
+      "epoch": 0.191,
+      "grad_norm": 1.4028866291046143,
+      "grad_norm_var": 0.023724865257600848,
+      "learning_rate": 2e-05,
+      "loss": 0.4627,
+      "loss/crossentropy": 2.4420300722122192,
+      "loss/hidden": 0.17724609375,
+      "loss/logits": 0.025584472343325615,
+      "loss/reg": 0.025985730811953545,
+      "step": 382
+    },
+    {
+      "epoch": 0.1915,
+      "grad_norm": 3.43645977973938,
+      "grad_norm_var": 0.29621158197049285,
+      "learning_rate": 2e-05,
+      "loss": 0.509,
+      "loss/crossentropy": 2.3477495908737183,
+      "loss/hidden": 0.216796875,
+      "loss/logits": 0.03231562860310078,
+      "loss/reg": 0.02598407492041588,
+      "step": 383
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 1.156148076057434,
+      "grad_norm_var": 0.28935891803297004,
+      "learning_rate": 2e-05,
+      "loss": 0.4697,
+      "loss/crossentropy": 2.4156278371810913,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.0316650066524744,
+      "loss/reg": 0.0259822029620409,
+      "step": 384
+    },
+    {
+      "epoch": 0.1925,
+      "grad_norm": 1.7708622217178345,
+      "grad_norm_var": 0.2944387889021565,
+      "learning_rate": 2e-05,
+      "loss": 0.5722,
+      "loss/crossentropy": 2.334781527519226,
+      "loss/hidden": 0.2587890625,
+      "loss/logits": 0.05361687205731869,
+      "loss/reg": 0.025980478152632713,
+      "step": 385
+    },
+    {
+      "epoch": 0.193,
+      "grad_norm": 2.3118906021118164,
+      "grad_norm_var": 0.3282542563962823,
+      "learning_rate": 2e-05,
+      "loss": 0.5078,
+      "loss/crossentropy": 2.3158434629440308,
+      "loss/hidden": 0.21875,
+      "loss/logits": 0.029261935502290726,
+      "loss/reg": 0.02597857639193535,
+      "step": 386
+    },
+    {
+      "epoch": 0.1935,
+      "grad_norm": 2.3003060817718506,
+      "grad_norm_var": 0.3519549073980194,
+      "learning_rate": 2e-05,
+      "loss": 0.5687,
+      "loss/crossentropy": 2.4877541065216064,
+      "loss/hidden": 0.2783203125,
+      "loss/logits": 0.03062661923468113,
+      "loss/reg": 0.02597683109343052,
+      "step": 387
+    },
+    {
+      "epoch": 0.194,
+      "grad_norm": 1.1055262088775635,
+      "grad_norm_var": 0.3616427614209148,
+      "learning_rate": 2e-05,
+      "loss": 0.5022,
+      "loss/crossentropy": 2.312312960624695,
+      "loss/hidden": 0.20947265625,
+      "loss/logits": 0.03301689215004444,
+      "loss/reg": 0.025975055992603302,
+      "step": 388
+    },
+    {
+      "epoch": 0.1945,
+      "grad_norm": 1.2821520566940308,
+      "grad_norm_var": 0.3664245697624286,
+      "learning_rate": 2e-05,
+      "loss": 0.461,
+      "loss/crossentropy": 2.3373734951019287,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.026956655085086823,
+      "loss/reg": 0.02597302943468094,
+      "step": 389
+    },
+    {
+      "epoch": 0.195,
+      "grad_norm": 1.158923625946045,
+      "grad_norm_var": 0.37535894838822137,
+      "learning_rate": 2e-05,
+      "loss": 0.4653,
+      "loss/crossentropy": 2.3373029232025146,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.02689830120652914,
+      "loss/reg": 0.025970980525016785,
+      "step": 390
+    },
+    {
+      "epoch": 0.1955,
+      "grad_norm": 4.394406318664551,
+      "grad_norm_var": 0.8449288503424893,
+      "learning_rate": 2e-05,
+      "loss": 0.621,
+      "loss/crossentropy": 2.483940362930298,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.14109261147677898,
+      "loss/reg": 0.025968806818127632,
+      "step": 391
+    },
+    {
+      "epoch": 0.196,
+      "grad_norm": 1.3220263719558716,
+      "grad_norm_var": 0.837680848201209,
+      "learning_rate": 2e-05,
+      "loss": 0.571,
+      "loss/crossentropy": 2.3968313932418823,
+      "loss/hidden": 0.26318359375,
+      "loss/logits": 0.04814390931278467,
+      "loss/reg": 0.02596699632704258,
+      "step": 392
+    },
+    {
+      "epoch": 0.1965,
+      "grad_norm": 1.476704478263855,
+      "grad_norm_var": 0.8423872820531374,
+      "learning_rate": 2e-05,
+      "loss": 0.4767,
+      "loss/crossentropy": 2.6665027141571045,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.03589140065014362,
+      "loss/reg": 0.025965221226215363,
+      "step": 393
+    },
+    {
+      "epoch": 0.197,
+      "grad_norm": 1.3346498012542725,
+      "grad_norm_var": 0.8400309797725388,
+      "learning_rate": 2e-05,
+      "loss": 0.4879,
+      "loss/crossentropy": 2.550223231315613,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.03877757303416729,
+      "loss/reg": 0.025963468477129936,
+      "step": 394
+    },
+    {
+      "epoch": 0.1975,
+      "grad_norm": 1.381104826927185,
+      "grad_norm_var": 0.8434567338089674,
+      "learning_rate": 2e-05,
+      "loss": 0.4542,
+      "loss/crossentropy": 2.3325024843215942,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.03194664418697357,
+      "loss/reg": 0.02596171200275421,
+      "step": 395
+    },
+    {
+      "epoch": 0.198,
+      "grad_norm": 1.517006516456604,
+      "grad_norm_var": 0.8323965808807104,
+      "learning_rate": 2e-05,
+      "loss": 0.5682,
+      "loss/crossentropy": 2.144330859184265,
+      "loss/hidden": 0.2607421875,
+      "loss/logits": 0.04788592271506786,
+      "loss/reg": 0.025959979742765427,
+      "step": 396
+    },
+    {
+      "epoch": 0.1985,
+      "grad_norm": 1.0620001554489136,
+      "grad_norm_var": 0.8664126262366226,
+      "learning_rate": 2e-05,
+      "loss": 0.4494,
+      "loss/crossentropy": 2.410404920578003,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.027681468054652214,
+      "loss/reg": 0.025957921519875526,
+      "step": 397
+    },
+    {
+      "epoch": 0.199,
+      "grad_norm": 1.4343640804290771,
+      "grad_norm_var": 0.8649093715486228,
+      "learning_rate": 2e-05,
+      "loss": 0.5069,
+      "loss/crossentropy": 2.295978307723999,
+      "loss/hidden": 0.21142578125,
+      "loss/logits": 0.035917842760682106,
+      "loss/reg": 0.025956083089113235,
+      "step": 398
+    },
+    {
+      "epoch": 0.1995,
+      "grad_norm": 1.325333595275879,
+      "grad_norm_var": 0.676572657470614,
+      "learning_rate": 2e-05,
+      "loss": 0.4739,
+      "loss/crossentropy": 2.3820759057998657,
+      "loss/hidden": 0.18603515625,
+      "loss/logits": 0.028354477137327194,
+      "loss/reg": 0.025954021140933037,
+      "step": 399
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.790135622024536,
+      "grad_norm_var": 0.736756106069653,
+      "learning_rate": 2e-05,
+      "loss": 0.5812,
+      "loss/crossentropy": 2.283258855342865,
+      "loss/hidden": 0.26953125,
+      "loss/logits": 0.05216490104794502,
+      "loss/reg": 0.02595207281410694,
+      "step": 400
+    },
+    {
+      "epoch": 0.2005,
+      "grad_norm": 2.0463712215423584,
+      "grad_norm_var": 0.7423414092941923,
+      "learning_rate": 2e-05,
+      "loss": 0.5143,
+      "loss/crossentropy": 2.5675315856933594,
+      "loss/hidden": 0.21728515625,
+      "loss/logits": 0.037514453753829,
+      "loss/reg": 0.025950025767087936,
+      "step": 401
+    },
+    {
+      "epoch": 0.201,
+      "grad_norm": 1.8808186054229736,
+      "grad_norm_var": 0.7225325442870276,
+      "learning_rate": 2e-05,
+      "loss": 0.463,
+      "loss/crossentropy": 2.3908499479293823,
+      "loss/hidden": 0.17724609375,
+      "loss/logits": 0.026285232976078987,
+      "loss/reg": 0.02594805508852005,
+      "step": 402
+    },
+    {
+      "epoch": 0.2015,
+      "grad_norm": 1.2097140550613403,
+      "grad_norm_var": 0.7151380800453793,
+      "learning_rate": 2e-05,
+      "loss": 0.4623,
+      "loss/crossentropy": 2.3907727003097534,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.031923141330480576,
+      "loss/reg": 0.025945995002985,
+      "step": 403
+    },
+    {
+      "epoch": 0.202,
+      "grad_norm": 1.301154613494873,
+      "grad_norm_var": 0.7028043528110918,
+      "learning_rate": 2e-05,
+      "loss": 0.4544,
+      "loss/crossentropy": 2.606261968612671,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.02846657857298851,
+      "loss/reg": 0.02594408206641674,
+      "step": 404
+    },
+    {
+      "epoch": 0.2025,
+      "grad_norm": 1.1995950937271118,
+      "grad_norm_var": 0.7076350429627898,
+      "learning_rate": 2e-05,
+      "loss": 0.4391,
+      "loss/crossentropy": 2.3680388927459717,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.022917790338397026,
+      "loss/reg": 0.025941966101527214,
+      "step": 405
+    },
+    {
+      "epoch": 0.203,
+      "grad_norm": 8.632776260375977,
+      "grad_norm_var": 3.6823756133748495,
+      "learning_rate": 2e-05,
+      "loss": 1.2499,
+      "loss/crossentropy": 2.4126373529434204,
+      "loss/hidden": 0.72021484375,
+      "loss/logits": 0.270312886685133,
+      "loss/reg": 0.025939757004380226,
+      "step": 406
+    },
+    {
+      "epoch": 0.2035,
+      "grad_norm": 1.2286854982376099,
+      "grad_norm_var": 3.358959418903309,
+      "learning_rate": 2e-05,
+      "loss": 0.4674,
+      "loss/crossentropy": 2.290730118751526,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.029834291897714138,
+      "loss/reg": 0.025937531143426895,
+      "step": 407
+    },
+    {
+      "epoch": 0.204,
+      "grad_norm": 1.3198645114898682,
+      "grad_norm_var": 3.359139686229141,
+      "learning_rate": 2e-05,
+      "loss": 0.4864,
+      "loss/crossentropy": 2.424551844596863,
+      "loss/hidden": 0.1953125,
+      "loss/logits": 0.03177413158118725,
+      "loss/reg": 0.025935430079698563,
+      "step": 408
+    },
+    {
+      "epoch": 0.2045,
+      "grad_norm": 1.1165919303894043,
+      "grad_norm_var": 3.389790819966483,
+      "learning_rate": 2e-05,
+      "loss": 0.5246,
+      "loss/crossentropy": 2.2340330481529236,
+      "loss/hidden": 0.22509765625,
+      "loss/logits": 0.04018213599920273,
+      "loss/reg": 0.02593357115983963,
+      "step": 409
+    },
+    {
+      "epoch": 0.205,
+      "grad_norm": 1.4326255321502686,
+      "grad_norm_var": 3.382694967184837,
+      "learning_rate": 2e-05,
+      "loss": 0.4669,
+      "loss/crossentropy": 2.4408915042877197,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.02933754399418831,
+      "loss/reg": 0.0259317085146904,
+      "step": 410
+    },
+    {
+      "epoch": 0.2055,
+      "grad_norm": 1.4279175996780396,
+      "grad_norm_var": 3.379406616020368,
+      "learning_rate": 2e-05,
+      "loss": 0.4722,
+      "loss/crossentropy": 2.398142695426941,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.02931864559650421,
+      "loss/reg": 0.02592984400689602,
+      "step": 411
+    },
+    {
+      "epoch": 0.206,
+      "grad_norm": 3.493486166000366,
+      "grad_norm_var": 3.5139842381908477,
+      "learning_rate": 2e-05,
+      "loss": 0.5326,
+      "loss/crossentropy": 2.3516749143600464,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.0990044642239809,
+      "loss/reg": 0.025927875190973282,
+      "step": 412
+    },
+    {
+      "epoch": 0.2065,
+      "grad_norm": 1.1578741073608398,
+      "grad_norm_var": 3.5018478922430516,
+      "learning_rate": 2e-05,
+      "loss": 0.4537,
+      "loss/crossentropy": 2.4094560146331787,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.025964444503188133,
+      "loss/reg": 0.0259258896112442,
+      "step": 413
+    },
+    {
+      "epoch": 0.207,
+      "grad_norm": 1.1830717325210571,
+      "grad_norm_var": 3.5268350962116277,
+      "learning_rate": 2e-05,
+      "loss": 0.4649,
+      "loss/crossentropy": 2.5271745920181274,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.04061662219464779,
+      "loss/reg": 0.02592400461435318,
+      "step": 414
+    },
+    {
+      "epoch": 0.2075,
+      "grad_norm": 1.8626422882080078,
+      "grad_norm_var": 3.493204661138373,
+      "learning_rate": 2e-05,
+      "loss": 0.5312,
+      "loss/crossentropy": 2.4808900356292725,
+      "loss/hidden": 0.23193359375,
+      "loss/logits": 0.040002613328397274,
+      "loss/reg": 0.025921940803527832,
+      "step": 415
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 1.3317103385925293,
+      "grad_norm_var": 3.4880922061323294,
+      "learning_rate": 2e-05,
+      "loss": 0.4776,
+      "loss/crossentropy": 2.2604642510414124,
+      "loss/hidden": 0.1884765625,
+      "loss/logits": 0.029966252855956554,
+      "loss/reg": 0.0259199608117342,
+      "step": 416
+    },
+    {
+      "epoch": 0.2085,
+      "grad_norm": 1.5000430345535278,
+      "grad_norm_var": 3.502571821664609,
+      "learning_rate": 2e-05,
+      "loss": 0.4815,
+      "loss/crossentropy": 2.813089966773987,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.0347793884575367,
+      "loss/reg": 0.025918107479810715,
+      "step": 417
+    },
+    {
+      "epoch": 0.209,
+      "grad_norm": 2.0012242794036865,
+      "grad_norm_var": 3.502288435747643,
+      "learning_rate": 2e-05,
+      "loss": 0.5129,
+      "loss/crossentropy": 2.4542036056518555,
+      "loss/hidden": 0.21923828125,
+      "loss/logits": 0.034517631866037846,
+      "loss/reg": 0.025916218757629395,
+      "step": 418
+    },
+    {
+      "epoch": 0.2095,
+      "grad_norm": 1.627580165863037,
+      "grad_norm_var": 3.4712634219787057,
+      "learning_rate": 2e-05,
+      "loss": 0.5077,
+      "loss/crossentropy": 2.2533979415893555,
+      "loss/hidden": 0.2109375,
+      "loss/logits": 0.0376081969588995,
+      "loss/reg": 0.02591414749622345,
+      "step": 419
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.2047749757766724,
+      "grad_norm_var": 3.480677477073349,
+      "learning_rate": 2e-05,
+      "loss": 0.4928,
+      "loss/crossentropy": 2.3260152339935303,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.03491301275789738,
+      "loss/reg": 0.02591288462281227,
+      "step": 420
+    },
+    {
+      "epoch": 0.2105,
+      "grad_norm": 1.4506651163101196,
+      "grad_norm_var": 3.4584077400506277,
+      "learning_rate": 2e-05,
+      "loss": 0.4793,
+      "loss/crossentropy": 2.378847122192383,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.038035670295357704,
+      "loss/reg": 0.02591102570295334,
+      "step": 421
+    },
+    {
+      "epoch": 0.211,
+      "grad_norm": 1.5155658721923828,
+      "grad_norm_var": 0.3283885764687509,
+      "learning_rate": 2e-05,
+      "loss": 0.4815,
+      "loss/crossentropy": 2.5136163234710693,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.03193356655538082,
+      "loss/reg": 0.025909241288900375,
+      "step": 422
+    },
+    {
+      "epoch": 0.2115,
+      "grad_norm": 1.1012701988220215,
+      "grad_norm_var": 0.3349196404218929,
+      "learning_rate": 2e-05,
+      "loss": 0.4696,
+      "loss/crossentropy": 2.4695777893066406,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.02937779761850834,
+      "loss/reg": 0.025907844305038452,
+      "step": 423
+    },
+    {
+      "epoch": 0.212,
+      "grad_norm": 1.069792628288269,
+      "grad_norm_var": 0.3463492066639103,
+      "learning_rate": 2e-05,
+      "loss": 0.4535,
+      "loss/crossentropy": 2.4616788625717163,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.024515327997505665,
+      "loss/reg": 0.025905968621373177,
+      "step": 424
+    },
+    {
+      "epoch": 0.2125,
+      "grad_norm": 1.3047641515731812,
+      "grad_norm_var": 0.3381949619476723,
+      "learning_rate": 2e-05,
+      "loss": 0.4452,
+      "loss/crossentropy": 2.3210073709487915,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.022073786705732346,
+      "loss/reg": 0.025904452428221703,
+      "step": 425
+    },
+    {
+      "epoch": 0.213,
+      "grad_norm": 1.2246006727218628,
+      "grad_norm_var": 0.34392116884757395,
+      "learning_rate": 2e-05,
+      "loss": 0.439,
+      "loss/crossentropy": 2.378546953201294,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.022725941613316536,
+      "loss/reg": 0.025902574881911278,
+      "step": 426
+    },
+    {
+      "epoch": 0.2135,
+      "grad_norm": 1.0174260139465332,
+      "grad_norm_var": 0.35996108865228293,
+      "learning_rate": 2e-05,
+      "loss": 0.4365,
+      "loss/crossentropy": 2.5196746587753296,
+      "loss/hidden": 0.1552734375,
+      "loss/logits": 0.02219019364565611,
+      "loss/reg": 0.025900712236762047,
+      "step": 427
+    },
+    {
+      "epoch": 0.214,
+      "grad_norm": 1.0695523023605347,
+      "grad_norm_var": 0.08383900724757207,
+      "learning_rate": 2e-05,
+      "loss": 0.4605,
+      "loss/crossentropy": 2.321962356567383,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.025690771639347076,
+      "loss/reg": 0.025898825377225876,
+      "step": 428
+    },
+    {
+      "epoch": 0.2145,
+      "grad_norm": 2.6451644897460938,
+      "grad_norm_var": 0.183711866568535,
+      "learning_rate": 2e-05,
+      "loss": 0.609,
+      "loss/crossentropy": 2.2449337244033813,
+      "loss/hidden": 0.28857421875,
+      "loss/logits": 0.061411263421177864,
+      "loss/reg": 0.02589711733162403,
+      "step": 429
+    },
+    {
+      "epoch": 0.215,
+      "grad_norm": 1.713813304901123,
+      "grad_norm_var": 0.1828266836214993,
+      "learning_rate": 2e-05,
+      "loss": 0.5079,
+      "loss/crossentropy": 2.4451547861099243,
+      "loss/hidden": 0.21533203125,
+      "loss/logits": 0.033602748066186905,
+      "loss/reg": 0.025895224884152412,
+      "step": 430
+    },
+    {
+      "epoch": 0.2155,
+      "grad_norm": 1.0962016582489014,
+      "grad_norm_var": 0.1801864102764767,
+      "learning_rate": 2e-05,
+      "loss": 0.4605,
+      "loss/crossentropy": 2.357746958732605,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.025804596953094006,
+      "loss/reg": 0.025893518701195717,
+      "step": 431
+    },
+    {
+      "epoch": 0.216,
+      "grad_norm": 4.617275238037109,
+      "grad_norm_var": 0.8119718727911261,
+      "learning_rate": 2e-05,
+      "loss": 0.8169,
+      "loss/crossentropy": 2.3531649112701416,
+      "loss/hidden": 0.4423828125,
+      "loss/logits": 0.11559372302144766,
+      "loss/reg": 0.025891879573464394,
+      "step": 432
+    },
+    {
+      "epoch": 0.2165,
+      "grad_norm": 0.9944002032279968,
+      "grad_norm_var": 0.8370490047784728,
+      "learning_rate": 2e-05,
+      "loss": 0.4543,
+      "loss/crossentropy": 2.474943161010742,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.024509361945092678,
+      "loss/reg": 0.02588999830186367,
+      "step": 433
+    },
+    {
+      "epoch": 0.217,
+      "grad_norm": 1.6105306148529053,
+      "grad_norm_var": 0.8258643739880323,
+      "learning_rate": 2e-05,
+      "loss": 0.5185,
+      "loss/crossentropy": 2.1941992044448853,
+      "loss/hidden": 0.22705078125,
+      "loss/logits": 0.03256234619766474,
+      "loss/reg": 0.025888269767165184,
+      "step": 434
+    },
+    {
+      "epoch": 0.2175,
+      "grad_norm": 1.2945845127105713,
+      "grad_norm_var": 0.8306360972250484,
+      "learning_rate": 2e-05,
+      "loss": 0.4599,
+      "loss/crossentropy": 2.3870290517807007,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.026204396039247513,
+      "loss/reg": 0.025886395946145058,
+      "step": 435
+    },
+    {
+      "epoch": 0.218,
+      "grad_norm": 1.646968126296997,
+      "grad_norm_var": 0.8220224189189824,
+      "learning_rate": 2e-05,
+      "loss": 0.5252,
+      "loss/crossentropy": 2.1381598711013794,
+      "loss/hidden": 0.22705078125,
+      "loss/logits": 0.03925580158829689,
+      "loss/reg": 0.025884483009576797,
+      "step": 436
+    },
+    {
+      "epoch": 0.2185,
+      "grad_norm": 1.2482175827026367,
+      "grad_norm_var": 0.8282312987681753,
+      "learning_rate": 2e-05,
+      "loss": 0.4699,
+      "loss/crossentropy": 2.4693511724472046,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.027454238384962082,
+      "loss/reg": 0.025882598012685776,
+      "step": 437
+    },
+    {
+      "epoch": 0.219,
+      "grad_norm": 1.6927727460861206,
+      "grad_norm_var": 0.828833769560893,
+      "learning_rate": 2e-05,
+      "loss": 0.6173,
+      "loss/crossentropy": 2.264186978340149,
+      "loss/hidden": 0.30419921875,
+      "loss/logits": 0.05433515552431345,
+      "loss/reg": 0.025880809873342514,
+      "step": 438
+    },
+    {
+      "epoch": 0.2195,
+      "grad_norm": 1.3382420539855957,
+      "grad_norm_var": 0.8170844633700326,
+      "learning_rate": 2e-05,
+      "loss": 0.4594,
+      "loss/crossentropy": 2.4065046310424805,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.03115204442292452,
+      "loss/reg": 0.025879191234707832,
+      "step": 439
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.280760407447815,
+      "grad_norm_var": 0.8049795437588958,
+      "learning_rate": 2e-05,
+      "loss": 0.4746,
+      "loss/crossentropy": 2.4252418279647827,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.028856026008725166,
+      "loss/reg": 0.025877289474010468,
+      "step": 440
+    },
+    {
+      "epoch": 0.2205,
+      "grad_norm": 1.1407486200332642,
+      "grad_norm_var": 0.8133841973004384,
+      "learning_rate": 2e-05,
+      "loss": 0.4791,
+      "loss/crossentropy": 2.264625906944275,
+      "loss/hidden": 0.19091796875,
+      "loss/logits": 0.029384871013462543,
+      "loss/reg": 0.02587556093931198,
+      "step": 441
+    },
+    {
+      "epoch": 0.221,
+      "grad_norm": 1.1531625986099243,
+      "grad_norm_var": 0.8172974757844712,
+      "learning_rate": 2e-05,
+      "loss": 0.4645,
+      "loss/crossentropy": 2.3819206953048706,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.045620132237672806,
+      "loss/reg": 0.025873858481645584,
+      "step": 442
+    },
+    {
+      "epoch": 0.2215,
+      "grad_norm": 1.2209059000015259,
+      "grad_norm_var": 0.8041477490589808,
+      "learning_rate": 2e-05,
+      "loss": 0.4922,
+      "loss/crossentropy": 2.2260149717330933,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.03575233928859234,
+      "loss/reg": 0.025872183963656425,
+      "step": 443
+    },
+    {
+      "epoch": 0.222,
+      "grad_norm": 1.4616377353668213,
+      "grad_norm_var": 0.7854915962697572,
+      "learning_rate": 2e-05,
+      "loss": 0.4759,
+      "loss/crossentropy": 2.326699376106262,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.02973231580108404,
+      "loss/reg": 0.02587028034031391,
+      "step": 444
+    },
+    {
+      "epoch": 0.2225,
+      "grad_norm": 1.1616874933242798,
+      "grad_norm_var": 0.7231711161910169,
+      "learning_rate": 2e-05,
+      "loss": 0.477,
+      "loss/crossentropy": 2.3070465326309204,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.03132193721830845,
+      "loss/reg": 0.02586846426129341,
+      "step": 445
+    },
+    {
+      "epoch": 0.223,
+      "grad_norm": 1.1598429679870605,
+      "grad_norm_var": 0.7296602944536337,
+      "learning_rate": 2e-05,
+      "loss": 0.4613,
+      "loss/crossentropy": 2.353983521461487,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.030772192403674126,
+      "loss/reg": 0.025866517797112465,
+      "step": 446
+    },
+    {
+      "epoch": 0.2235,
+      "grad_norm": 1.3874998092651367,
+      "grad_norm_var": 0.7189939859161824,
+      "learning_rate": 2e-05,
+      "loss": 0.5004,
+      "loss/crossentropy": 2.47870934009552,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.04206428676843643,
+      "loss/reg": 0.025864504277706146,
+      "step": 447
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 2.931767463684082,
+      "grad_norm_var": 0.2017417237659708,
+      "learning_rate": 2e-05,
+      "loss": 0.8347,
+      "loss/crossentropy": 2.5819171667099,
+      "loss/hidden": 0.40234375,
+      "loss/logits": 0.1736808605492115,
+      "loss/reg": 0.025862593203783035,
+      "step": 448
+    },
+    {
+      "epoch": 0.2245,
+      "grad_norm": 1.3012363910675049,
+      "grad_norm_var": 0.19020454457909727,
+      "learning_rate": 2e-05,
+      "loss": 0.4471,
+      "loss/crossentropy": 2.3639878034591675,
+      "loss/hidden": 0.16162109375,
+      "loss/logits": 0.026854592375457287,
+      "loss/reg": 0.025860626250505447,
+      "step": 449
+    },
+    {
+      "epoch": 0.225,
+      "grad_norm": 1.6675218343734741,
+      "grad_norm_var": 0.19170785847398542,
+      "learning_rate": 2e-05,
+      "loss": 0.5328,
+      "loss/crossentropy": 2.3093976974487305,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.05306573584675789,
+      "loss/reg": 0.025858718901872635,
+      "step": 450
+    },
+    {
+      "epoch": 0.2255,
+      "grad_norm": 1.4241790771484375,
+      "grad_norm_var": 0.19019349759976567,
+      "learning_rate": 2e-05,
+      "loss": 0.4946,
+      "loss/crossentropy": 2.3994137048721313,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.029971184208989143,
+      "loss/reg": 0.02585672214627266,
+      "step": 451
+    },
+    {
+      "epoch": 0.226,
+      "grad_norm": 2.4200472831726074,
+      "grad_norm_var": 0.24773914499477828,
+      "learning_rate": 2e-05,
+      "loss": 0.4804,
+      "loss/crossentropy": 2.349528431892395,
+      "loss/hidden": 0.19482421875,
+      "loss/logits": 0.02699958346784115,
+      "loss/reg": 0.02585473842918873,
+      "step": 452
+    },
+    {
+      "epoch": 0.2265,
+      "grad_norm": 1.597848653793335,
+      "grad_norm_var": 0.24367026793009636,
+      "learning_rate": 2e-05,
+      "loss": 0.4561,
+      "loss/crossentropy": 2.2601643800735474,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.027189917862415314,
+      "loss/reg": 0.025852810591459274,
+      "step": 453
+    },
+    {
+      "epoch": 0.227,
+      "grad_norm": 1.4791680574417114,
+      "grad_norm_var": 0.24163663071934274,
+      "learning_rate": 2e-05,
+      "loss": 0.5426,
+      "loss/crossentropy": 2.184678077697754,
+      "loss/hidden": 0.2412109375,
+      "loss/logits": 0.04290330223739147,
+      "loss/reg": 0.025850806385278702,
+      "step": 454
+    },
+    {
+      "epoch": 0.2275,
+      "grad_norm": 1.54658842086792,
+      "grad_norm_var": 0.2396368776147885,
+      "learning_rate": 2e-05,
+      "loss": 0.495,
+      "loss/crossentropy": 2.427361249923706,
+      "loss/hidden": 0.203125,
+      "loss/logits": 0.03336675837635994,
+      "loss/reg": 0.025848930701613426,
+      "step": 455
+    },
+    {
+      "epoch": 0.228,
+      "grad_norm": 1.0083175897598267,
+      "grad_norm_var": 0.2529996468682663,
+      "learning_rate": 2e-05,
+      "loss": 0.51,
+      "loss/crossentropy": 2.1102696657180786,
+      "loss/hidden": 0.21484375,
+      "loss/logits": 0.03667537495493889,
+      "loss/reg": 0.025847142562270164,
+      "step": 456
+    },
+    {
+      "epoch": 0.2285,
+      "grad_norm": 1.2189358472824097,
+      "grad_norm_var": 0.2495960410376004,
+      "learning_rate": 2e-05,
+      "loss": 0.5198,
+      "loss/crossentropy": 2.3419077396392822,
+      "loss/hidden": 0.2275390625,
+      "loss/logits": 0.03385118395090103,
+      "loss/reg": 0.025845320895314217,
+      "step": 457
+    },
+    {
+      "epoch": 0.229,
+      "grad_norm": 1.3370299339294434,
+      "grad_norm_var": 0.24299100458264036,
+      "learning_rate": 2e-05,
+      "loss": 0.5765,
+      "loss/crossentropy": 1.9379181265830994,
+      "loss/hidden": 0.27734375,
+      "loss/logits": 0.0406951867043972,
+      "loss/reg": 0.025843370705842972,
+      "step": 458
+    },
+    {
+      "epoch": 0.2295,
+      "grad_norm": 1.1177793741226196,
+      "grad_norm_var": 0.24777192368354406,
+      "learning_rate": 2e-05,
+      "loss": 0.4456,
+      "loss/crossentropy": 2.4968008995056152,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.02897755615413189,
+      "loss/reg": 0.02584136091172695,
+      "step": 459
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.4649550914764404,
+      "grad_norm_var": 0.24774953141933906,
+      "learning_rate": 2e-05,
+      "loss": 0.4868,
+      "loss/crossentropy": 2.2792553901672363,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.035073790699243546,
+      "loss/reg": 0.025839168578386307,
+      "step": 460
+    },
+    {
+      "epoch": 0.2305,
+      "grad_norm": 2.2920172214508057,
+      "grad_norm_var": 0.2745013047452227,
+      "learning_rate": 2e-05,
+      "loss": 0.621,
+      "loss/crossentropy": 2.418063998222351,
+      "loss/hidden": 0.29736328125,
+      "loss/logits": 0.06528288684785366,
+      "loss/reg": 0.025837266817688942,
+      "step": 461
+    },
+    {
+      "epoch": 0.231,
+      "grad_norm": 1.5773580074310303,
+      "grad_norm_var": 0.2617466213370638,
+      "learning_rate": 2e-05,
+      "loss": 0.5073,
+      "loss/crossentropy": 2.2258150577545166,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.03509692847728729,
+      "loss/reg": 0.025835072621703148,
+      "step": 462
+    },
+    {
+      "epoch": 0.2315,
+      "grad_norm": 1.6675801277160645,
+      "grad_norm_var": 0.2583117846520134,
+      "learning_rate": 2e-05,
+      "loss": 0.5136,
+      "loss/crossentropy": 2.485268235206604,
+      "loss/hidden": 0.22412109375,
+      "loss/logits": 0.031180618330836296,
+      "loss/reg": 0.025833170861005783,
+      "step": 463
+    },
+    {
+      "epoch": 0.232,
+      "grad_norm": 1.4492632150650024,
+      "grad_norm_var": 0.13801685370827765,
+      "learning_rate": 2e-05,
+      "loss": 0.4973,
+      "loss/crossentropy": 2.257757544517517,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.03195131104439497,
+      "loss/reg": 0.025831099599599838,
+      "step": 464
+    },
+    {
+      "epoch": 0.2325,
+      "grad_norm": 1.2513377666473389,
+      "grad_norm_var": 0.1397318210080442,
+      "learning_rate": 2e-05,
+      "loss": 0.4871,
+      "loss/crossentropy": 2.425398826599121,
+      "loss/hidden": 0.1953125,
+      "loss/logits": 0.0334627740085125,
+      "loss/reg": 0.025828994810581207,
+      "step": 465
+    },
+    {
+      "epoch": 0.233,
+      "grad_norm": 1.3394722938537598,
+      "grad_norm_var": 0.14055180736722211,
+      "learning_rate": 2e-05,
+      "loss": 0.4586,
+      "loss/crossentropy": 2.373073101043701,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.02840618882328272,
+      "loss/reg": 0.025827039033174515,
+      "step": 466
+    },
+    {
+      "epoch": 0.2335,
+      "grad_norm": 1.447240948677063,
+      "grad_norm_var": 0.14031502946211252,
+      "learning_rate": 2e-05,
+      "loss": 0.5055,
+      "loss/crossentropy": 2.207805633544922,
+      "loss/hidden": 0.21337890625,
+      "loss/logits": 0.03383456543087959,
+      "loss/reg": 0.025825195014476776,
+      "step": 467
+    },
+    {
+      "epoch": 0.234,
+      "grad_norm": 2.395975351333618,
+      "grad_norm_var": 0.13744138699080868,
+      "learning_rate": 2e-05,
+      "loss": 0.5234,
+      "loss/crossentropy": 2.323424220085144,
+      "loss/hidden": 0.232421875,
+      "loss/logits": 0.03275643941015005,
+      "loss/reg": 0.02582353726029396,
+      "step": 468
+    },
+    {
+      "epoch": 0.2345,
+      "grad_norm": 2.5749197006225586,
+      "grad_norm_var": 0.2083013754485968,
+      "learning_rate": 2e-05,
+      "loss": 0.5199,
+      "loss/crossentropy": 2.2507615089416504,
+      "loss/hidden": 0.2275390625,
+      "loss/logits": 0.0341134462505579,
+      "loss/reg": 0.025821637362241745,
+      "step": 469
+    },
+    {
+      "epoch": 0.235,
+      "grad_norm": 1.052276611328125,
+      "grad_norm_var": 0.22503173458550182,
+      "learning_rate": 2e-05,
+      "loss": 0.4509,
+      "loss/crossentropy": 2.543000817298889,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.024687878787517548,
+      "loss/reg": 0.025819703936576843,
+      "step": 470
+    },
+    {
+      "epoch": 0.2355,
+      "grad_norm": 1.2194154262542725,
+      "grad_norm_var": 0.2317099631068041,
+      "learning_rate": 2e-05,
+      "loss": 0.4424,
+      "loss/crossentropy": 2.2912293672561646,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.024061255156993866,
+      "loss/reg": 0.025817908346652985,
+      "step": 471
+    },
+    {
+      "epoch": 0.236,
+      "grad_norm": 1.3160464763641357,
+      "grad_norm_var": 0.2163932029026758,
+      "learning_rate": 2e-05,
+      "loss": 0.5102,
+      "loss/crossentropy": 2.2214205265045166,
+      "loss/hidden": 0.2119140625,
+      "loss/logits": 0.040074046701192856,
+      "loss/reg": 0.025816213339567184,
+      "step": 472
+    },
+    {
+      "epoch": 0.2365,
+      "grad_norm": 1.4499560594558716,
+      "grad_norm_var": 0.20968210761966072,
+      "learning_rate": 2e-05,
+      "loss": 0.465,
+      "loss/crossentropy": 2.4633235931396484,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.030628393404185772,
+      "loss/reg": 0.025814484804868698,
+      "step": 473
+    },
+    {
+      "epoch": 0.237,
+      "grad_norm": 1.5795156955718994,
+      "grad_norm_var": 0.20616303007269987,
+      "learning_rate": 2e-05,
+      "loss": 0.4987,
+      "loss/crossentropy": 2.5177139043807983,
+      "loss/hidden": 0.21240234375,
+      "loss/logits": 0.02812807820737362,
+      "loss/reg": 0.025812778621912003,
+      "step": 474
+    },
+    {
+      "epoch": 0.2375,
+      "grad_norm": 1.834425449371338,
+      "grad_norm_var": 0.19460237139374303,
+      "learning_rate": 2e-05,
+      "loss": 0.548,
+      "loss/crossentropy": 2.566522002220154,
+      "loss/hidden": 0.251953125,
+      "loss/logits": 0.03790239989757538,
+      "loss/reg": 0.0258110873401165,
+      "step": 475
+    },
+    {
+      "epoch": 0.238,
+      "grad_norm": 1.8921895027160645,
+      "grad_norm_var": 0.19720773265526592,
+      "learning_rate": 2e-05,
+      "loss": 0.4895,
+      "loss/crossentropy": 2.6173768043518066,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.0326268021017313,
+      "loss/reg": 0.025809384882450104,
+      "step": 476
+    },
+    {
+      "epoch": 0.2385,
+      "grad_norm": 1.4226226806640625,
+      "grad_norm_var": 0.16958397715451046,
+      "learning_rate": 2e-05,
+      "loss": 0.498,
+      "loss/crossentropy": 2.3383296728134155,
+      "loss/hidden": 0.20751953125,
+      "loss/logits": 0.03235785476863384,
+      "loss/reg": 0.025807524099946022,
+      "step": 477
+    },
+    {
+      "epoch": 0.239,
+      "grad_norm": 1.141805648803711,
+      "grad_norm_var": 0.1822821790845537,
+      "learning_rate": 2e-05,
+      "loss": 0.4543,
+      "loss/crossentropy": 2.428423523902893,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.026319866999983788,
+      "loss/reg": 0.025805801153182983,
+      "step": 478
+    },
+    {
+      "epoch": 0.2395,
+      "grad_norm": 1.0476349592208862,
+      "grad_norm_var": 0.19779294720925691,
+      "learning_rate": 2e-05,
+      "loss": 0.4542,
+      "loss/crossentropy": 2.3026620149612427,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.027672583237290382,
+      "loss/reg": 0.025803864002227783,
+      "step": 479
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.3201205730438232,
+      "grad_norm_var": 0.20015459609518108,
+      "learning_rate": 2e-05,
+      "loss": 0.4768,
+      "loss/crossentropy": 2.4549564123153687,
+      "loss/hidden": 0.18603515625,
+      "loss/logits": 0.0327040059491992,
+      "loss/reg": 0.025801965966820717,
+      "step": 480
+    },
+    {
+      "epoch": 0.2405,
+      "grad_norm": 2.7316701412200928,
+      "grad_norm_var": 0.28452048900647253,
+      "learning_rate": 2e-05,
+      "loss": 0.6865,
+      "loss/crossentropy": 2.420086145401001,
+      "loss/hidden": 0.318359375,
+      "loss/logits": 0.11013734713196754,
+      "loss/reg": 0.025800272822380066,
+      "step": 481
+    },
+    {
+      "epoch": 0.241,
+      "grad_norm": 1.2162243127822876,
+      "grad_norm_var": 0.28992089783955044,
+      "learning_rate": 2e-05,
+      "loss": 0.5028,
+      "loss/crossentropy": 2.3521331548690796,
+      "loss/hidden": 0.2177734375,
+      "loss/logits": 0.027009712532162666,
+      "loss/reg": 0.025798635557293892,
+      "step": 482
+    },
+    {
+      "epoch": 0.2415,
+      "grad_norm": 1.079655647277832,
+      "grad_norm_var": 0.3059815393422553,
+      "learning_rate": 2e-05,
+      "loss": 0.4912,
+      "loss/crossentropy": 2.3484867811203003,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.03451688028872013,
+      "loss/reg": 0.025796744972467422,
+      "step": 483
+    },
+    {
+      "epoch": 0.242,
+      "grad_norm": 1.3099355697631836,
+      "grad_norm_var": 0.2614914398097065,
+      "learning_rate": 2e-05,
+      "loss": 0.4762,
+      "loss/crossentropy": 2.4110331535339355,
+      "loss/hidden": 0.18798828125,
+      "loss/logits": 0.03024720586836338,
+      "loss/reg": 0.025794848799705505,
+      "step": 484
+    },
+    {
+      "epoch": 0.2425,
+      "grad_norm": 1.11648690700531,
+      "grad_norm_var": 0.1876940743940563,
+      "learning_rate": 2e-05,
+      "loss": 0.4663,
+      "loss/crossentropy": 2.3808969259262085,
+      "loss/hidden": 0.17919921875,
+      "loss/logits": 0.02915147691965103,
+      "loss/reg": 0.025793053209781647,
+      "step": 485
+    },
+    {
+      "epoch": 0.243,
+      "grad_norm": 1.1367552280426025,
+      "grad_norm_var": 0.18399111878470176,
+      "learning_rate": 2e-05,
+      "loss": 0.4665,
+      "loss/crossentropy": 2.3539984226226807,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.02986688818782568,
+      "loss/reg": 0.02579127438366413,
+      "step": 486
+    },
+    {
+      "epoch": 0.2435,
+      "grad_norm": 1.1363672018051147,
+      "grad_norm_var": 0.18670864710500906,
+      "learning_rate": 2e-05,
+      "loss": 0.457,
+      "loss/crossentropy": 2.5751640796661377,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.028702068142592907,
+      "loss/reg": 0.02578934282064438,
+      "step": 487
+    },
+    {
+      "epoch": 0.244,
+      "grad_norm": 1.59341299533844,
+      "grad_norm_var": 0.1876461007769971,
+      "learning_rate": 2e-05,
+      "loss": 0.549,
+      "loss/crossentropy": 2.4539562463760376,
+      "loss/hidden": 0.248046875,
+      "loss/logits": 0.043077923357486725,
+      "loss/reg": 0.02578747272491455,
+      "step": 488
+    },
+    {
+      "epoch": 0.2445,
+      "grad_norm": 1.3884077072143555,
+      "grad_norm_var": 0.18778514582004005,
+      "learning_rate": 2e-05,
+      "loss": 0.4548,
+      "loss/crossentropy": 2.4432852268218994,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.0251072458922863,
+      "loss/reg": 0.025785457342863083,
+      "step": 489
+    },
+    {
+      "epoch": 0.245,
+      "grad_norm": 1.168309211730957,
+      "grad_norm_var": 0.1903861218173105,
+      "learning_rate": 2e-05,
+      "loss": 0.4505,
+      "loss/crossentropy": 2.2845112085342407,
+      "loss/hidden": 0.16162109375,
+      "loss/logits": 0.031048119068145752,
+      "loss/reg": 0.025783469900488853,
+      "step": 490
+    },
+    {
+      "epoch": 0.2455,
+      "grad_norm": 1.2630984783172607,
+      "grad_norm_var": 0.17834144864876003,
+      "learning_rate": 2e-05,
+      "loss": 0.4489,
+      "loss/crossentropy": 2.357891082763672,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.02602921612560749,
+      "loss/reg": 0.02578144334256649,
+      "step": 491
+    },
+    {
+      "epoch": 0.246,
+      "grad_norm": 1.0908071994781494,
+      "grad_norm_var": 0.16298183484375428,
+      "learning_rate": 2e-05,
+      "loss": 0.453,
+      "loss/crossentropy": 2.3261715173721313,
+      "loss/hidden": 0.15625,
+      "loss/logits": 0.03899524360895157,
+      "loss/reg": 0.02577943727374077,
+      "step": 492
+    },
+    {
+      "epoch": 0.2465,
+      "grad_norm": 1.1049315929412842,
+      "grad_norm_var": 0.165057508559335,
+      "learning_rate": 2e-05,
+      "loss": 0.4612,
+      "loss/crossentropy": 2.347619652748108,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.028116335161030293,
+      "loss/reg": 0.025777503848075867,
+      "step": 493
+    },
+    {
+      "epoch": 0.247,
+      "grad_norm": 1.2722063064575195,
+      "grad_norm_var": 0.1633202153049367,
+      "learning_rate": 2e-05,
+      "loss": 0.4791,
+      "loss/crossentropy": 2.428340435028076,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.030900001525878906,
+      "loss/reg": 0.02577553130686283,
+      "step": 494
+    },
+    {
+      "epoch": 0.2475,
+      "grad_norm": 1.0491212606430054,
+      "grad_norm_var": 0.16326816109757653,
+      "learning_rate": 2e-05,
+      "loss": 0.4459,
+      "loss/crossentropy": 2.44633686542511,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.02505970373749733,
+      "loss/reg": 0.025773610919713974,
+      "step": 495
+    },
+    {
+      "epoch": 0.248,
+      "grad_norm": 1.4577767848968506,
+      "grad_norm_var": 0.1646181560542212,
+      "learning_rate": 2e-05,
+      "loss": 0.5875,
+      "loss/crossentropy": 2.1383886337280273,
+      "loss/hidden": 0.2783203125,
+      "loss/logits": 0.05150237772613764,
+      "loss/reg": 0.02577175572514534,
+      "step": 496
+    },
+    {
+      "epoch": 0.2485,
+      "grad_norm": 1.1691800355911255,
+      "grad_norm_var": 0.023045095234002843,
+      "learning_rate": 2e-05,
+      "loss": 0.4948,
+      "loss/crossentropy": 2.406825542449951,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.036906635388731956,
+      "loss/reg": 0.025769958272576332,
+      "step": 497
+    },
+    {
+      "epoch": 0.249,
+      "grad_norm": 1.1311383247375488,
+      "grad_norm_var": 0.023563575455448373,
+      "learning_rate": 2e-05,
+      "loss": 0.4495,
+      "loss/crossentropy": 2.2107361555099487,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.02235421910881996,
+      "loss/reg": 0.025767968967556953,
+      "step": 498
+    },
+    {
+      "epoch": 0.2495,
+      "grad_norm": 1.2846966981887817,
+      "grad_norm_var": 0.022443893755450736,
+      "learning_rate": 2e-05,
+      "loss": 0.484,
+      "loss/crossentropy": 2.169008255004883,
+      "loss/hidden": 0.18798828125,
+      "loss/logits": 0.03831418417394161,
+      "loss/reg": 0.025765718892216682,
+      "step": 499
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.2635072469711304,
+      "grad_norm_var": 0.02208093059473833,
+      "learning_rate": 2e-05,
+      "loss": 0.5241,
+      "loss/crossentropy": 2.3311681747436523,
+      "loss/hidden": 0.228515625,
+      "loss/logits": 0.037904972210526466,
+      "loss/reg": 0.025763733312487602,
+      "step": 500
+    },
+    {
+      "epoch": 0.2505,
+      "grad_norm": 1.8094271421432495,
+      "grad_norm_var": 0.04191426078620844,
+      "learning_rate": 2e-05,
+      "loss": 0.5198,
+      "loss/crossentropy": 2.18564236164093,
+      "loss/hidden": 0.22705078125,
+      "loss/logits": 0.03517603315412998,
+      "loss/reg": 0.025761688128113747,
+      "step": 501
+    },
+    {
+      "epoch": 0.251,
+      "grad_norm": 1.4268393516540527,
+      "grad_norm_var": 0.042022005671670054,
+      "learning_rate": 2e-05,
+      "loss": 0.5027,
+      "loss/crossentropy": 2.3186033964157104,
+      "loss/hidden": 0.2109375,
+      "loss/logits": 0.03412244841456413,
+      "loss/reg": 0.025759579613804817,
+      "step": 502
+    },
+    {
+      "epoch": 0.2515,
+      "grad_norm": 1.6704895496368408,
+      "grad_norm_var": 0.04904823070484075,
+      "learning_rate": 2e-05,
+      "loss": 0.507,
+      "loss/crossentropy": 2.444745898246765,
+      "loss/hidden": 0.21240234375,
+      "loss/logits": 0.03699003718793392,
+      "loss/reg": 0.02575748972594738,
+      "step": 503
+    },
+    {
+      "epoch": 0.252,
+      "grad_norm": 1.4041507244110107,
+      "grad_norm_var": 0.04442425217177727,
+      "learning_rate": 2e-05,
+      "loss": 0.4537,
+      "loss/crossentropy": 2.3990856409072876,
+      "loss/hidden": 0.166015625,
+      "loss/logits": 0.030156807973980904,
+      "loss/reg": 0.025755319744348526,
+      "step": 504
+    },
+    {
+      "epoch": 0.2525,
+      "grad_norm": 1.5246555805206299,
+      "grad_norm_var": 0.04701556722156628,
+      "learning_rate": 2e-05,
+      "loss": 0.5252,
+      "loss/crossentropy": 2.551340937614441,
+      "loss/hidden": 0.23583984375,
+      "loss/logits": 0.031838640570640564,
+      "loss/reg": 0.025753194466233253,
+      "step": 505
+    },
+    {
+      "epoch": 0.253,
+      "grad_norm": 1.8362479209899902,
+      "grad_norm_var": 0.06155521373344843,
+      "learning_rate": 2e-05,
+      "loss": 0.5572,
+      "loss/crossentropy": 2.1370293498039246,
+      "loss/hidden": 0.23974609375,
+      "loss/logits": 0.05993914417922497,
+      "loss/reg": 0.02575111947953701,
+      "step": 506
+    },
+    {
+      "epoch": 0.2535,
+      "grad_norm": 1.1423455476760864,
+      "grad_norm_var": 0.06402495885733686,
+      "learning_rate": 2e-05,
+      "loss": 0.4659,
+      "loss/crossentropy": 2.4107199907302856,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.027789254672825336,
+      "loss/reg": 0.025749139487743378,
+      "step": 507
+    },
+    {
+      "epoch": 0.254,
+      "grad_norm": 1.2471706867218018,
+      "grad_norm_var": 0.06010039179400053,
+      "learning_rate": 2e-05,
+      "loss": 0.5008,
+      "loss/crossentropy": 2.2391830682754517,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.03628289885818958,
+      "loss/reg": 0.025747055187821388,
+      "step": 508
+    },
+    {
+      "epoch": 0.2545,
+      "grad_norm": 1.6316094398498535,
+      "grad_norm_var": 0.059376668774846306,
+      "learning_rate": 2e-05,
+      "loss": 0.5185,
+      "loss/crossentropy": 2.4537373781204224,
+      "loss/hidden": 0.2294921875,
+      "loss/logits": 0.031561460345983505,
+      "loss/reg": 0.02574506774544716,
+      "step": 509
+    },
+    {
+      "epoch": 0.255,
+      "grad_norm": 1.7221488952636719,
+      "grad_norm_var": 0.06466089846806326,
+      "learning_rate": 2e-05,
+      "loss": 0.5166,
+      "loss/crossentropy": 2.008660316467285,
+      "loss/hidden": 0.2294921875,
+      "loss/logits": 0.029630004428327084,
+      "loss/reg": 0.02574305608868599,
+      "step": 510
+    },
+    {
+      "epoch": 0.2555,
+      "grad_norm": 2.063495635986328,
+      "grad_norm_var": 0.07838236427375302,
+      "learning_rate": 2e-05,
+      "loss": 0.6291,
+      "loss/crossentropy": 2.2193583250045776,
+      "loss/hidden": 0.3251953125,
+      "loss/logits": 0.04652561619877815,
+      "loss/reg": 0.025741035118699074,
+      "step": 511
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 2.1549365520477295,
+      "grad_norm_var": 0.10608428210922506,
+      "learning_rate": 2e-05,
+      "loss": 0.5281,
+      "loss/crossentropy": 1.9776748418807983,
+      "loss/hidden": 0.2412109375,
+      "loss/logits": 0.029531195759773254,
+      "loss/reg": 0.025739166885614395,
+      "step": 512
+    },
+    {
+      "epoch": 0.2565,
+      "grad_norm": 2.0352017879486084,
+      "grad_norm_var": 0.11128044423135464,
+      "learning_rate": 2e-05,
+      "loss": 0.5546,
+      "loss/crossentropy": 2.393476963043213,
+      "loss/hidden": 0.25341796875,
+      "loss/logits": 0.043846890330314636,
+      "loss/reg": 0.02573738433420658,
+      "step": 513
+    },
+    {
+      "epoch": 0.257,
+      "grad_norm": 1.3759031295776367,
+      "grad_norm_var": 0.10023724397306069,
+      "learning_rate": 2e-05,
+      "loss": 0.5094,
+      "loss/crossentropy": 2.3285356760025024,
+      "loss/hidden": 0.21875,
+      "loss/logits": 0.03326238878071308,
+      "loss/reg": 0.02573556825518608,
+      "step": 514
+    },
+    {
+      "epoch": 0.2575,
+      "grad_norm": 2.0449092388153076,
+      "grad_norm_var": 0.10444321701007618,
+      "learning_rate": 2e-05,
+      "loss": 0.5387,
+      "loss/crossentropy": 2.3776673078536987,
+      "loss/hidden": 0.22216796875,
+      "loss/logits": 0.05914916470646858,
+      "loss/reg": 0.025733835995197296,
+      "step": 515
+    },
+    {
+      "epoch": 0.258,
+      "grad_norm": 1.2532458305358887,
+      "grad_norm_var": 0.10497457736165051,
+      "learning_rate": 2e-05,
+      "loss": 0.4725,
+      "loss/crossentropy": 2.5611300468444824,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.035542636178433895,
+      "loss/reg": 0.025731824338436127,
+      "step": 516
+    },
+    {
+      "epoch": 0.2585,
+      "grad_norm": 1.166143774986267,
+      "grad_norm_var": 0.11685692171310862,
+      "learning_rate": 2e-05,
+      "loss": 0.4871,
+      "loss/crossentropy": 2.292641520500183,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.031022757291793823,
+      "loss/reg": 0.025729816406965256,
+      "step": 517
+    },
+    {
+      "epoch": 0.259,
+      "grad_norm": 0.9319448471069336,
+      "grad_norm_var": 0.14400094830482596,
+      "learning_rate": 2e-05,
+      "loss": 0.4359,
+      "loss/crossentropy": 2.2908148765563965,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.021897392347455025,
+      "loss/reg": 0.025727812200784683,
+      "step": 518
+    },
+    {
+      "epoch": 0.2595,
+      "grad_norm": 1.3351777791976929,
+      "grad_norm_var": 0.146771754161323,
+      "learning_rate": 2e-05,
+      "loss": 0.5675,
+      "loss/crossentropy": 2.117431879043579,
+      "loss/hidden": 0.26708984375,
+      "loss/logits": 0.04313970357179642,
+      "loss/reg": 0.025725772604346275,
+      "step": 519
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.2591443061828613,
+      "grad_norm_var": 0.1509895364147709,
+      "learning_rate": 2e-05,
+      "loss": 0.472,
+      "loss/crossentropy": 2.2097796201705933,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.027306508272886276,
+      "loss/reg": 0.025723854079842567,
+      "step": 520
+    },
+    {
+      "epoch": 0.2605,
+      "grad_norm": 1.4675482511520386,
+      "grad_norm_var": 0.15135031036683486,
+      "learning_rate": 2e-05,
+      "loss": 0.5158,
+      "loss/crossentropy": 2.1767526865005493,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.037375250831246376,
+      "loss/reg": 0.025722013786435127,
+      "step": 521
+    },
+    {
+      "epoch": 0.261,
+      "grad_norm": 1.318777322769165,
+      "grad_norm_var": 0.1477635335278175,
+      "learning_rate": 2e-05,
+      "loss": 0.4433,
+      "loss/crossentropy": 2.3265219926834106,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.025505591183900833,
+      "loss/reg": 0.025719961151480675,
+      "step": 522
+    },
+    {
+      "epoch": 0.2615,
+      "grad_norm": 1.4309393167495728,
+      "grad_norm_var": 0.13884665705610644,
+      "learning_rate": 2e-05,
+      "loss": 0.4473,
+      "loss/crossentropy": 2.297981858253479,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.025057895109057426,
+      "loss/reg": 0.025717932730913162,
+      "step": 523
+    },
+    {
+      "epoch": 0.262,
+      "grad_norm": 2.0628879070281982,
+      "grad_norm_var": 0.14995613654657897,
+      "learning_rate": 2e-05,
+      "loss": 0.4881,
+      "loss/crossentropy": 2.3760178089141846,
+      "loss/hidden": 0.1982421875,
+      "loss/logits": 0.032686688005924225,
+      "loss/reg": 0.025715861469507217,
+      "step": 524
+    },
+    {
+      "epoch": 0.2625,
+      "grad_norm": 1.75223970413208,
+      "grad_norm_var": 0.1517218258554711,
+      "learning_rate": 2e-05,
+      "loss": 0.4799,
+      "loss/crossentropy": 2.3368886709213257,
+      "loss/hidden": 0.19287109375,
+      "loss/logits": 0.02990109659731388,
+      "loss/reg": 0.02571384236216545,
+      "step": 525
+    },
+    {
+      "epoch": 0.263,
+      "grad_norm": 1.1534109115600586,
+      "grad_norm_var": 0.16160742489911778,
+      "learning_rate": 2e-05,
+      "loss": 0.4834,
+      "loss/crossentropy": 2.2142513394355774,
+      "loss/hidden": 0.19482421875,
+      "loss/logits": 0.031417591497302055,
+      "loss/reg": 0.025711748749017715,
+      "step": 526
+    },
+    {
+      "epoch": 0.2635,
+      "grad_norm": 1.425850510597229,
+      "grad_norm_var": 0.143393700633121,
+      "learning_rate": 2e-05,
+      "loss": 0.4661,
+      "loss/crossentropy": 2.439908742904663,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.029349423944950104,
+      "loss/reg": 0.02570977620780468,
+      "step": 527
+    },
+    {
+      "epoch": 0.264,
+      "grad_norm": 1.4983434677124023,
+      "grad_norm_var": 0.11392210677285745,
+      "learning_rate": 2e-05,
+      "loss": 0.508,
+      "loss/crossentropy": 2.310701370239258,
+      "loss/hidden": 0.1728515625,
+      "loss/logits": 0.078089265152812,
+      "loss/reg": 0.025707799941301346,
+      "step": 528
+    },
+    {
+      "epoch": 0.2645,
+      "grad_norm": 1.6121326684951782,
+      "grad_norm_var": 0.09319685976795024,
+      "learning_rate": 2e-05,
+      "loss": 0.5862,
+      "loss/crossentropy": 2.195641279220581,
+      "loss/hidden": 0.28857421875,
+      "loss/logits": 0.04055267106741667,
+      "loss/reg": 0.025705868378281593,
+      "step": 529
+    },
+    {
+      "epoch": 0.265,
+      "grad_norm": 1.4942004680633545,
+      "grad_norm_var": 0.09301259307607192,
+      "learning_rate": 2e-05,
+      "loss": 0.5006,
+      "loss/crossentropy": 2.2726430892944336,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.037457194179296494,
+      "loss/reg": 0.025703880935907364,
+      "step": 530
+    },
+    {
+      "epoch": 0.2655,
+      "grad_norm": 2.3016085624694824,
+      "grad_norm_var": 0.11747795625703147,
+      "learning_rate": 2e-05,
+      "loss": 0.5752,
+      "loss/crossentropy": 2.360868453979492,
+      "loss/hidden": 0.28515625,
+      "loss/logits": 0.03298346884548664,
+      "loss/reg": 0.02570200525224209,
+      "step": 531
+    },
+    {
+      "epoch": 0.266,
+      "grad_norm": 1.9155231714248657,
+      "grad_norm_var": 0.12606227216750904,
+      "learning_rate": 2e-05,
+      "loss": 0.5386,
+      "loss/crossentropy": 2.1607614755630493,
+      "loss/hidden": 0.23974609375,
+      "loss/logits": 0.04186772648245096,
+      "loss/reg": 0.025700142607092857,
+      "step": 532
+    },
+    {
+      "epoch": 0.2665,
+      "grad_norm": 1.9601225852966309,
+      "grad_norm_var": 0.12928627941643545,
+      "learning_rate": 2e-05,
+      "loss": 0.5628,
+      "loss/crossentropy": 2.4702740907669067,
+      "loss/hidden": 0.2607421875,
+      "loss/logits": 0.04509196989238262,
+      "loss/reg": 0.025698326528072357,
+      "step": 533
+    },
+    {
+      "epoch": 0.267,
+      "grad_norm": 1.6414953470230103,
+      "grad_norm_var": 0.10157179579757945,
+      "learning_rate": 2e-05,
+      "loss": 0.435,
+      "loss/crossentropy": 2.3161516189575195,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.022296501323580742,
+      "loss/reg": 0.025696277618408203,
+      "step": 534
+    },
+    {
+      "epoch": 0.2675,
+      "grad_norm": 1.7865321636199951,
+      "grad_norm_var": 0.09825659810908008,
+      "learning_rate": 2e-05,
+      "loss": 0.4618,
+      "loss/crossentropy": 2.3330507278442383,
+      "loss/hidden": 0.17724609375,
+      "loss/logits": 0.02764590922743082,
+      "loss/reg": 0.025694238021969795,
+      "step": 535
+    },
+    {
+      "epoch": 0.268,
+      "grad_norm": 1.8025976419448853,
+      "grad_norm_var": 0.08983964833530009,
+      "learning_rate": 2e-05,
+      "loss": 0.5996,
+      "loss/crossentropy": 2.1311851739883423,
+      "loss/hidden": 0.2939453125,
+      "loss/logits": 0.04878038726747036,
+      "loss/reg": 0.025692163035273552,
+      "step": 536
+    },
+    {
+      "epoch": 0.2685,
+      "grad_norm": 1.3388440608978271,
+      "grad_norm_var": 0.09424639337241937,
+      "learning_rate": 2e-05,
+      "loss": 0.4705,
+      "loss/crossentropy": 2.276059627532959,
+      "loss/hidden": 0.17919921875,
+      "loss/logits": 0.03437704313546419,
+      "loss/reg": 0.02569023333489895,
+      "step": 537
+    },
+    {
+      "epoch": 0.269,
+      "grad_norm": 1.1625409126281738,
+      "grad_norm_var": 0.10279622484355831,
+      "learning_rate": 2e-05,
+      "loss": 0.4461,
+      "loss/crossentropy": 2.515538215637207,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.02611909992992878,
+      "loss/reg": 0.025688180699944496,
+      "step": 538
+    },
+    {
+      "epoch": 0.2695,
+      "grad_norm": 1.3560576438903809,
+      "grad_norm_var": 0.10529593288305386,
+      "learning_rate": 2e-05,
+      "loss": 0.4713,
+      "loss/crossentropy": 2.333776354789734,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.03480132482945919,
+      "loss/reg": 0.02568606473505497,
+      "step": 539
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.033890724182129,
+      "grad_norm_var": 0.11366219521287153,
+      "learning_rate": 2e-05,
+      "loss": 0.4471,
+      "loss/crossentropy": 2.451215624809265,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.02763993013650179,
+      "loss/reg": 0.02568388171494007,
+      "step": 540
+    },
+    {
+      "epoch": 0.2705,
+      "grad_norm": 1.3294425010681152,
+      "grad_norm_var": 0.11496770242969863,
+      "learning_rate": 2e-05,
+      "loss": 0.4625,
+      "loss/crossentropy": 2.5572686195373535,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.03091136459261179,
+      "loss/reg": 0.025681814178824425,
+      "step": 541
+    },
+    {
+      "epoch": 0.271,
+      "grad_norm": 1.6161302328109741,
+      "grad_norm_var": 0.10383304121057577,
+      "learning_rate": 2e-05,
+      "loss": 0.5046,
+      "loss/crossentropy": 2.4156856536865234,
+      "loss/hidden": 0.21923828125,
+      "loss/logits": 0.02856369875371456,
+      "loss/reg": 0.02568003162741661,
+      "step": 542
+    },
+    {
+      "epoch": 0.2715,
+      "grad_norm": 1.6249600648880005,
+      "grad_norm_var": 0.10222625558776764,
+      "learning_rate": 2e-05,
+      "loss": 0.5214,
+      "loss/crossentropy": 2.5546233654022217,
+      "loss/hidden": 0.2255859375,
+      "loss/logits": 0.03906646929681301,
+      "loss/reg": 0.025678148493170738,
+      "step": 543
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 1.2705844640731812,
+      "grad_norm_var": 0.10831713729850012,
+      "learning_rate": 2e-05,
+      "loss": 0.5189,
+      "loss/crossentropy": 2.3757272958755493,
+      "loss/hidden": 0.21728515625,
+      "loss/logits": 0.04489796422421932,
+      "loss/reg": 0.025676140561699867,
+      "step": 544
+    },
+    {
+      "epoch": 0.2725,
+      "grad_norm": 1.05636727809906,
+      "grad_norm_var": 0.1250863434263256,
+      "learning_rate": 2e-05,
+      "loss": 0.46,
+      "loss/crossentropy": 2.383628726005554,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.02797263953834772,
+      "loss/reg": 0.025674104690551758,
+      "step": 545
+    },
+    {
+      "epoch": 0.273,
+      "grad_norm": 1.2423522472381592,
+      "grad_norm_var": 0.13069532228992856,
+      "learning_rate": 2e-05,
+      "loss": 0.4639,
+      "loss/crossentropy": 2.595247983932495,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.030470484867691994,
+      "loss/reg": 0.02567211352288723,
+      "step": 546
+    },
+    {
+      "epoch": 0.2735,
+      "grad_norm": 1.1715264320373535,
+      "grad_norm_var": 0.09386338960438909,
+      "learning_rate": 2e-05,
+      "loss": 0.4501,
+      "loss/crossentropy": 2.321129322052002,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.027902510948479176,
+      "loss/reg": 0.025670204311609268,
+      "step": 547
+    },
+    {
+      "epoch": 0.274,
+      "grad_norm": 1.5972819328308105,
+      "grad_norm_var": 0.08072905924476359,
+      "learning_rate": 2e-05,
+      "loss": 0.5185,
+      "loss/crossentropy": 2.2606377601623535,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.04160183481872082,
+      "loss/reg": 0.025668160989880562,
+      "step": 548
+    },
+    {
+      "epoch": 0.2745,
+      "grad_norm": 1.0867489576339722,
+      "grad_norm_var": 0.067476102626288,
+      "learning_rate": 2e-05,
+      "loss": 0.4364,
+      "loss/crossentropy": 2.463867425918579,
+      "loss/hidden": 0.15625,
+      "loss/logits": 0.02346113882958889,
+      "loss/reg": 0.02566620334982872,
+      "step": 549
+    },
+    {
+      "epoch": 0.275,
+      "grad_norm": 2.4649062156677246,
+      "grad_norm_var": 0.13830422072727325,
+      "learning_rate": 2e-05,
+      "loss": 0.5387,
+      "loss/crossentropy": 2.7201980352401733,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.07749359030276537,
+      "loss/reg": 0.02566409669816494,
+      "step": 550
+    },
+    {
+      "epoch": 0.2755,
+      "grad_norm": 1.4529809951782227,
+      "grad_norm_var": 0.1295704130285588,
+      "learning_rate": 2e-05,
+      "loss": 0.4755,
+      "loss/crossentropy": 2.4272106885910034,
+      "loss/hidden": 0.1943359375,
+      "loss/logits": 0.024497310630977154,
+      "loss/reg": 0.025662219151854515,
+      "step": 551
+    },
+    {
+      "epoch": 0.276,
+      "grad_norm": 1.18130362033844,
+      "grad_norm_var": 0.12141776800456393,
+      "learning_rate": 2e-05,
+      "loss": 0.4905,
+      "loss/crossentropy": 2.2826067209243774,
+      "loss/hidden": 0.19677734375,
+      "loss/logits": 0.03717024438083172,
+      "loss/reg": 0.025659961625933647,
+      "step": 552
+    },
+    {
+      "epoch": 0.2765,
+      "grad_norm": 1.4119619131088257,
+      "grad_norm_var": 0.12140800103305664,
+      "learning_rate": 2e-05,
+      "loss": 0.4373,
+      "loss/crossentropy": 2.6987099647521973,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.024006612598896027,
+      "loss/reg": 0.02565770410001278,
+      "step": 553
+    },
+    {
+      "epoch": 0.277,
+      "grad_norm": 1.4704711437225342,
+      "grad_norm_var": 0.11845981336057979,
+      "learning_rate": 2e-05,
+      "loss": 0.506,
+      "loss/crossentropy": 2.258659243583679,
+      "loss/hidden": 0.21728515625,
+      "loss/logits": 0.032203953713178635,
+      "loss/reg": 0.025655701756477356,
+      "step": 554
+    },
+    {
+      "epoch": 0.2775,
+      "grad_norm": 1.6067429780960083,
+      "grad_norm_var": 0.12098775757429862,
+      "learning_rate": 2e-05,
+      "loss": 0.4385,
+      "loss/crossentropy": 2.5011746883392334,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.024782009422779083,
+      "loss/reg": 0.025653747841715813,
+      "step": 555
+    },
+    {
+      "epoch": 0.278,
+      "grad_norm": 1.1298900842666626,
+      "grad_norm_var": 0.1167034622019452,
+      "learning_rate": 2e-05,
+      "loss": 0.4405,
+      "loss/crossentropy": 2.2035679817199707,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.024293298833072186,
+      "loss/reg": 0.02565157227218151,
+      "step": 556
+    },
+    {
+      "epoch": 0.2785,
+      "grad_norm": 0.9485200047492981,
+      "grad_norm_var": 0.13035156532443523,
+      "learning_rate": 2e-05,
+      "loss": 0.4479,
+      "loss/crossentropy": 2.5580928325653076,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.027810726314783096,
+      "loss/reg": 0.025649361312389374,
+      "step": 557
+    },
+    {
+      "epoch": 0.279,
+      "grad_norm": 1.709061622619629,
+      "grad_norm_var": 0.13362146514691972,
+      "learning_rate": 2e-05,
+      "loss": 0.4703,
+      "loss/crossentropy": 2.4233322143554688,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.031242147088050842,
+      "loss/reg": 0.025647401809692383,
+      "step": 558
+    },
+    {
+      "epoch": 0.2795,
+      "grad_norm": 1.1522104740142822,
+      "grad_norm_var": 0.13351084508299657,
+      "learning_rate": 2e-05,
+      "loss": 0.4706,
+      "loss/crossentropy": 2.5604687929153442,
+      "loss/hidden": 0.18798828125,
+      "loss/logits": 0.026114785112440586,
+      "loss/reg": 0.025645434856414795,
+      "step": 559
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.5035618543624878,
+      "grad_norm_var": 0.13375114473651117,
+      "learning_rate": 2e-05,
+      "loss": 0.49,
+      "loss/crossentropy": 2.5127099752426147,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.03332594968378544,
+      "loss/reg": 0.02564323879778385,
+      "step": 560
+    },
+    {
+      "epoch": 0.2805,
+      "grad_norm": 1.3412765264511108,
+      "grad_norm_var": 0.12627894398200917,
+      "learning_rate": 2e-05,
+      "loss": 0.4533,
+      "loss/crossentropy": 2.3233593702316284,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.038642819970846176,
+      "loss/reg": 0.02564125321805477,
+      "step": 561
+    },
+    {
+      "epoch": 0.281,
+      "grad_norm": 1.3613826036453247,
+      "grad_norm_var": 0.124592250727938,
+      "learning_rate": 2e-05,
+      "loss": 0.4388,
+      "loss/crossentropy": 2.6328701972961426,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.02416001632809639,
+      "loss/reg": 0.025639118626713753,
+      "step": 562
+    },
+    {
+      "epoch": 0.2815,
+      "grad_norm": 1.4453518390655518,
+      "grad_norm_var": 0.12050377751008766,
+      "learning_rate": 2e-05,
+      "loss": 0.467,
+      "loss/crossentropy": 2.379120349884033,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.03583723120391369,
+      "loss/reg": 0.02563699148595333,
+      "step": 563
+    },
+    {
+      "epoch": 0.282,
+      "grad_norm": 1.1511297225952148,
+      "grad_norm_var": 0.12293264284763053,
+      "learning_rate": 2e-05,
+      "loss": 0.4638,
+      "loss/crossentropy": 2.211379051208496,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.026775190606713295,
+      "loss/reg": 0.025634942576289177,
+      "step": 564
+    },
+    {
+      "epoch": 0.2825,
+      "grad_norm": 1.229429841041565,
+      "grad_norm_var": 0.11822487448682713,
+      "learning_rate": 2e-05,
+      "loss": 0.465,
+      "loss/crossentropy": 2.3449004888534546,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.04653145559132099,
+      "loss/reg": 0.02563273347914219,
+      "step": 565
+    },
+    {
+      "epoch": 0.283,
+      "grad_norm": 1.7746120691299438,
+      "grad_norm_var": 0.05091479897566722,
+      "learning_rate": 2e-05,
+      "loss": 0.5206,
+      "loss/crossentropy": 2.4769328832626343,
+      "loss/hidden": 0.2275390625,
+      "loss/logits": 0.036771247163414955,
+      "loss/reg": 0.025630656629800797,
+      "step": 566
+    },
+    {
+      "epoch": 0.2835,
+      "grad_norm": 1.0254523754119873,
+      "grad_norm_var": 0.0574298221699075,
+      "learning_rate": 2e-05,
+      "loss": 0.4352,
+      "loss/crossentropy": 2.4587230682373047,
+      "loss/hidden": 0.15625,
+      "loss/logits": 0.022636396810412407,
+      "loss/reg": 0.025628428906202316,
+      "step": 567
+    },
+    {
+      "epoch": 0.284,
+      "grad_norm": 1.4086933135986328,
+      "grad_norm_var": 0.05584552607974088,
+      "learning_rate": 2e-05,
+      "loss": 0.5428,
+      "loss/crossentropy": 2.3397552967071533,
+      "loss/hidden": 0.25244140625,
+      "loss/logits": 0.03410719987004995,
+      "loss/reg": 0.025626273825764656,
+      "step": 568
+    },
+    {
+      "epoch": 0.2845,
+      "grad_norm": 1.1368968486785889,
+      "grad_norm_var": 0.058461728907536765,
+      "learning_rate": 2e-05,
+      "loss": 0.4463,
+      "loss/crossentropy": 2.4085217714309692,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.027470089495182037,
+      "loss/reg": 0.025624196976423264,
+      "step": 569
+    },
+    {
+      "epoch": 0.285,
+      "grad_norm": 1.3466085195541382,
+      "grad_norm_var": 0.0572190922863477,
+      "learning_rate": 2e-05,
+      "loss": 0.4488,
+      "loss/crossentropy": 2.454616904258728,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.029985230416059494,
+      "loss/reg": 0.025622138753533363,
+      "step": 570
+    },
+    {
+      "epoch": 0.2855,
+      "grad_norm": 1.1087514162063599,
+      "grad_norm_var": 0.05430530108740682,
+      "learning_rate": 2e-05,
+      "loss": 0.4377,
+      "loss/crossentropy": 2.381610155105591,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.024281597696244717,
+      "loss/reg": 0.025620009750127792,
+      "step": 571
+    },
+    {
+      "epoch": 0.286,
+      "grad_norm": 2.252387046813965,
+      "grad_norm_var": 0.10784971065445176,
+      "learning_rate": 2e-05,
+      "loss": 0.5819,
+      "loss/crossentropy": 2.284385323524475,
+      "loss/hidden": 0.26611328125,
+      "loss/logits": 0.05961132235825062,
+      "loss/reg": 0.025618063285946846,
+      "step": 572
+    },
+    {
+      "epoch": 0.2865,
+      "grad_norm": 1.2841176986694336,
+      "grad_norm_var": 0.09609813291731933,
+      "learning_rate": 2e-05,
+      "loss": 0.4665,
+      "loss/crossentropy": 2.3138378858566284,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.027231371961534023,
+      "loss/reg": 0.025616133585572243,
+      "step": 573
+    },
+    {
+      "epoch": 0.287,
+      "grad_norm": 0.9297242164611816,
+      "grad_norm_var": 0.10084539110608777,
+      "learning_rate": 2e-05,
+      "loss": 0.4129,
+      "loss/crossentropy": 2.41566002368927,
+      "loss/hidden": 0.13671875,
+      "loss/logits": 0.020072663202881813,
+      "loss/reg": 0.02561403624713421,
+      "step": 574
+    },
+    {
+      "epoch": 0.2875,
+      "grad_norm": 1.3601016998291016,
+      "grad_norm_var": 0.09832118521838087,
+      "learning_rate": 2e-05,
+      "loss": 0.4644,
+      "loss/crossentropy": 2.2336788177490234,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.029539520852267742,
+      "loss/reg": 0.025612102821469307,
+      "step": 575
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 1.6692289113998413,
+      "grad_norm_var": 0.10334643999860299,
+      "learning_rate": 2e-05,
+      "loss": 0.4483,
+      "loss/crossentropy": 2.3380844593048096,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.02669445425271988,
+      "loss/reg": 0.02561003342270851,
+      "step": 576
+    },
+    {
+      "epoch": 0.2885,
+      "grad_norm": 2.4334895610809326,
+      "grad_norm_var": 0.17458492052786573,
+      "learning_rate": 2e-05,
+      "loss": 0.558,
+      "loss/crossentropy": 2.2851526737213135,
+      "loss/hidden": 0.2548828125,
+      "loss/logits": 0.0470340047031641,
+      "loss/reg": 0.02560798078775406,
+      "step": 577
+    },
+    {
+      "epoch": 0.289,
+      "grad_norm": 1.154819130897522,
+      "grad_norm_var": 0.17920585225899094,
+      "learning_rate": 2e-05,
+      "loss": 0.4925,
+      "loss/crossentropy": 2.4699753522872925,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.02939967904239893,
+      "loss/reg": 0.025605909526348114,
+      "step": 578
+    },
+    {
+      "epoch": 0.2895,
+      "grad_norm": 1.2029677629470825,
+      "grad_norm_var": 0.18203981769593008,
+      "learning_rate": 2e-05,
+      "loss": 0.4405,
+      "loss/crossentropy": 2.388526439666748,
+      "loss/hidden": 0.15771484375,
+      "loss/logits": 0.026735836640000343,
+      "loss/reg": 0.025603823363780975,
+      "step": 579
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.2292884588241577,
+      "grad_norm_var": 0.17978354168637148,
+      "learning_rate": 2e-05,
+      "loss": 0.4722,
+      "loss/crossentropy": 2.2643179893493652,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.03162453696131706,
+      "loss/reg": 0.025601672008633614,
+      "step": 580
+    },
+    {
+      "epoch": 0.2905,
+      "grad_norm": 1.381611704826355,
+      "grad_norm_var": 0.1775840985068174,
+      "learning_rate": 2e-05,
+      "loss": 0.5298,
+      "loss/crossentropy": 2.317778706550598,
+      "loss/hidden": 0.22802734375,
+      "loss/logits": 0.04581563360989094,
+      "loss/reg": 0.025599613785743713,
+      "step": 581
+    },
+    {
+      "epoch": 0.291,
+      "grad_norm": 1.9058457612991333,
+      "grad_norm_var": 0.18488866977521237,
+      "learning_rate": 2e-05,
+      "loss": 0.5568,
+      "loss/crossentropy": 2.329615592956543,
+      "loss/hidden": 0.265625,
+      "loss/logits": 0.03523416444659233,
+      "loss/reg": 0.02559736929833889,
+      "step": 582
+    },
+    {
+      "epoch": 0.2915,
+      "grad_norm": 2.325834035873413,
+      "grad_norm_var": 0.22097551825223125,
+      "learning_rate": 2e-05,
+      "loss": 0.5317,
+      "loss/crossentropy": 2.537761688232422,
+      "loss/hidden": 0.2373046875,
+      "loss/logits": 0.038454240188002586,
+      "loss/reg": 0.025595253333449364,
+      "step": 583
+    },
+    {
+      "epoch": 0.292,
+      "grad_norm": 1.53029203414917,
+      "grad_norm_var": 0.22028718572734055,
+      "learning_rate": 2e-05,
+      "loss": 0.5085,
+      "loss/crossentropy": 2.4244139194488525,
+      "loss/hidden": 0.208984375,
+      "loss/logits": 0.04360722564160824,
+      "loss/reg": 0.025593377649784088,
+      "step": 584
+    },
+    {
+      "epoch": 0.2925,
+      "grad_norm": 1.2639271020889282,
+      "grad_norm_var": 0.21487899090266935,
+      "learning_rate": 2e-05,
+      "loss": 0.4995,
+      "loss/crossentropy": 2.2803802490234375,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.04435891658067703,
+      "loss/reg": 0.025591382756829262,
+      "step": 585
+    },
+    {
+      "epoch": 0.293,
+      "grad_norm": 1.27842116355896,
+      "grad_norm_var": 0.21677952247985388,
+      "learning_rate": 2e-05,
+      "loss": 0.4548,
+      "loss/crossentropy": 2.3663710355758667,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.030416646972298622,
+      "loss/reg": 0.02558933198451996,
+      "step": 586
+    },
+    {
+      "epoch": 0.2935,
+      "grad_norm": 1.7024108171463013,
+      "grad_norm_var": 0.20629975430104253,
+      "learning_rate": 2e-05,
+      "loss": 0.5827,
+      "loss/crossentropy": 2.059163510799408,
+      "loss/hidden": 0.29248046875,
+      "loss/logits": 0.03431258723139763,
+      "loss/reg": 0.02558741346001625,
+      "step": 587
+    },
+    {
+      "epoch": 0.294,
+      "grad_norm": 1.4503967761993408,
+      "grad_norm_var": 0.1720895319235313,
+      "learning_rate": 2e-05,
+      "loss": 0.4796,
+      "loss/crossentropy": 2.4850029945373535,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.02503114379942417,
+      "loss/reg": 0.025585299357771873,
+      "step": 588
+    },
+    {
+      "epoch": 0.2945,
+      "grad_norm": 1.933565378189087,
+      "grad_norm_var": 0.1792024124736713,
+      "learning_rate": 2e-05,
+      "loss": 0.4693,
+      "loss/crossentropy": 2.4364657402038574,
+      "loss/hidden": 0.18408203125,
+      "loss/logits": 0.029408352449536324,
+      "loss/reg": 0.025583306327462196,
+      "step": 589
+    },
+    {
+      "epoch": 0.295,
+      "grad_norm": 1.8611115217208862,
+      "grad_norm_var": 0.15676426573083635,
+      "learning_rate": 2e-05,
+      "loss": 0.4429,
+      "loss/crossentropy": 2.441853404045105,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.02446013130247593,
+      "loss/reg": 0.025581372901797295,
+      "step": 590
+    },
+    {
+      "epoch": 0.2955,
+      "grad_norm": 1.1267725229263306,
+      "grad_norm_var": 0.1677922843229851,
+      "learning_rate": 2e-05,
+      "loss": 0.441,
+      "loss/crossentropy": 2.560555934906006,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.026059484109282494,
+      "loss/reg": 0.025579283013939857,
+      "step": 591
+    },
+    {
+      "epoch": 0.296,
+      "grad_norm": 9.252140998840332,
+      "grad_norm_var": 3.841050987302196,
+      "learning_rate": 2e-05,
+      "loss": 0.5664,
+      "loss/crossentropy": 2.2949132919311523,
+      "loss/hidden": 0.2783203125,
+      "loss/logits": 0.032294947654008865,
+      "loss/reg": 0.0255771204829216,
+      "step": 592
+    },
+    {
+      "epoch": 0.2965,
+      "grad_norm": 1.3007549047470093,
+      "grad_norm_var": 3.8655234521870527,
+      "learning_rate": 2e-05,
+      "loss": 0.441,
+      "loss/crossentropy": 2.31974720954895,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.02411063387989998,
+      "loss/reg": 0.025574954226613045,
+      "step": 593
+    },
+    {
+      "epoch": 0.297,
+      "grad_norm": 1.7131131887435913,
+      "grad_norm_var": 3.822554124166938,
+      "learning_rate": 2e-05,
+      "loss": 0.4643,
+      "loss/crossentropy": 2.39312207698822,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.026430404745042324,
+      "loss/reg": 0.0255727581679821,
+      "step": 594
+    },
+    {
+      "epoch": 0.2975,
+      "grad_norm": 1.6008955240249634,
+      "grad_norm_var": 3.7886423499076054,
+      "learning_rate": 2e-05,
+      "loss": 0.512,
+      "loss/crossentropy": 2.3966288566589355,
+      "loss/hidden": 0.2109375,
+      "loss/logits": 0.045352160930633545,
+      "loss/reg": 0.025570496916770935,
+      "step": 595
+    },
+    {
+      "epoch": 0.298,
+      "grad_norm": 1.7445118427276611,
+      "grad_norm_var": 3.748611248289865,
+      "learning_rate": 2e-05,
+      "loss": 0.538,
+      "loss/crossentropy": 1.9948007464408875,
+      "loss/hidden": 0.23388671875,
+      "loss/logits": 0.0484439916908741,
+      "loss/reg": 0.025568410754203796,
+      "step": 596
+    },
+    {
+      "epoch": 0.2985,
+      "grad_norm": 1.8626893758773804,
+      "grad_norm_var": 3.7179115354234606,
+      "learning_rate": 2e-05,
+      "loss": 0.5166,
+      "loss/crossentropy": 2.4233922958374023,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.03974040970206261,
+      "loss/reg": 0.025566227734088898,
+      "step": 597
+    },
+    {
+      "epoch": 0.299,
+      "grad_norm": 1.2042471170425415,
+      "grad_norm_var": 3.7683163733932923,
+      "learning_rate": 2e-05,
+      "loss": 0.4547,
+      "loss/crossentropy": 2.1347005367279053,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.028620691038668156,
+      "loss/reg": 0.025564009323716164,
+      "step": 598
+    },
+    {
+      "epoch": 0.2995,
+      "grad_norm": 1.5764883756637573,
+      "grad_norm_var": 3.778044329930853,
+      "learning_rate": 2e-05,
+      "loss": 0.4981,
+      "loss/crossentropy": 2.4556859731674194,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.0403362512588501,
+      "loss/reg": 0.025561654940247536,
+      "step": 599
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.096451997756958,
+      "grad_norm_var": 3.8184307388690244,
+      "learning_rate": 2e-05,
+      "loss": 0.5136,
+      "loss/crossentropy": 2.321175456047058,
+      "loss/hidden": 0.21875,
+      "loss/logits": 0.03927676286548376,
+      "loss/reg": 0.02555953338742256,
+      "step": 600
+    },
+    {
+      "epoch": 0.3005,
+      "grad_norm": 1.2970784902572632,
+      "grad_norm_var": 3.8152547172108693,
+      "learning_rate": 2e-05,
+      "loss": 0.4625,
+      "loss/crossentropy": 2.479397773742676,
+      "loss/hidden": 0.166015625,
+      "loss/logits": 0.040870534256100655,
+      "loss/reg": 0.02555713802576065,
+      "step": 601
+    },
+    {
+      "epoch": 0.301,
+      "grad_norm": 1.2297303676605225,
+      "grad_norm_var": 3.8200878842337733,
+      "learning_rate": 2e-05,
+      "loss": 0.4696,
+      "loss/crossentropy": 2.384745955467224,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.031467003747820854,
+      "loss/reg": 0.02555503323674202,
+      "step": 602
+    },
+    {
+      "epoch": 0.3015,
+      "grad_norm": 0.9617077112197876,
+      "grad_norm_var": 3.883473919292651,
+      "learning_rate": 2e-05,
+      "loss": 0.4283,
+      "loss/crossentropy": 2.3142151832580566,
+      "loss/hidden": 0.14990234375,
+      "loss/logits": 0.022820310667157173,
+      "loss/reg": 0.02555287443101406,
+      "step": 603
+    },
+    {
+      "epoch": 0.302,
+      "grad_norm": 1.0868256092071533,
+      "grad_norm_var": 3.9159895776620384,
+      "learning_rate": 2e-05,
+      "loss": 0.445,
+      "loss/crossentropy": 2.4487764835357666,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.02884063497185707,
+      "loss/reg": 0.02555077336728573,
+      "step": 604
+    },
+    {
+      "epoch": 0.3025,
+      "grad_norm": 1.2197123765945435,
+      "grad_norm_var": 3.94730949969078,
+      "learning_rate": 2e-05,
+      "loss": 0.4717,
+      "loss/crossentropy": 2.4810107946395874,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.02972548082470894,
+      "loss/reg": 0.02554868534207344,
+      "step": 605
+    },
+    {
+      "epoch": 0.303,
+      "grad_norm": 1.2248950004577637,
+      "grad_norm_var": 3.974497531375912,
+      "learning_rate": 2e-05,
+      "loss": 0.4324,
+      "loss/crossentropy": 2.4361231327056885,
+      "loss/hidden": 0.15380859375,
+      "loss/logits": 0.023081100545823574,
+      "loss/reg": 0.025546491146087646,
+      "step": 606
+    },
+    {
+      "epoch": 0.3035,
+      "grad_norm": 1.5527586936950684,
+      "grad_norm_var": 3.945123091404479,
+      "learning_rate": 2e-05,
+      "loss": 0.4697,
+      "loss/crossentropy": 2.5113409757614136,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.02533858921378851,
+      "loss/reg": 0.02554413489997387,
+      "step": 607
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 2.6096105575561523,
+      "grad_norm_var": 0.16489908848412535,
+      "learning_rate": 2e-05,
+      "loss": 0.442,
+      "loss/crossentropy": 2.345840811729431,
+      "loss/hidden": 0.15771484375,
+      "loss/logits": 0.028883887454867363,
+      "loss/reg": 0.02554202266037464,
+      "step": 608
+    },
+    {
+      "epoch": 0.3045,
+      "grad_norm": 1.2581703662872314,
+      "grad_norm_var": 0.1658887448879168,
+      "learning_rate": 2e-05,
+      "loss": 0.4535,
+      "loss/crossentropy": 2.4540570974349976,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.029606305062770844,
+      "loss/reg": 0.025539804250001907,
+      "step": 609
+    },
+    {
+      "epoch": 0.305,
+      "grad_norm": 1.0741705894470215,
+      "grad_norm_var": 0.16919604526549956,
+      "learning_rate": 2e-05,
+      "loss": 0.4519,
+      "loss/crossentropy": 2.4377275705337524,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.031461406499147415,
+      "loss/reg": 0.02553771249949932,
+      "step": 610
+    },
+    {
+      "epoch": 0.3055,
+      "grad_norm": 1.2582398653030396,
+      "grad_norm_var": 0.1679268859736533,
+      "learning_rate": 2e-05,
+      "loss": 0.4509,
+      "loss/crossentropy": 2.414643406867981,
+      "loss/hidden": 0.166015625,
+      "loss/logits": 0.029505026526749134,
+      "loss/reg": 0.025535589084029198,
+      "step": 611
+    },
+    {
+      "epoch": 0.306,
+      "grad_norm": 1.128620982170105,
+      "grad_norm_var": 0.16261113353333864,
+      "learning_rate": 2e-05,
+      "loss": 0.4456,
+      "loss/crossentropy": 2.4645986557006836,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.02667510323226452,
+      "loss/reg": 0.025533363223075867,
+      "step": 612
+    },
+    {
+      "epoch": 0.3065,
+      "grad_norm": 1.2573778629302979,
+      "grad_norm_var": 0.14434184243498857,
+      "learning_rate": 2e-05,
+      "loss": 0.4809,
+      "loss/crossentropy": 2.4240217208862305,
+      "loss/hidden": 0.1953125,
+      "loss/logits": 0.030296322889626026,
+      "loss/reg": 0.025531131774187088,
+      "step": 613
+    },
+    {
+      "epoch": 0.307,
+      "grad_norm": 7.996622562408447,
+      "grad_norm_var": 2.9277827960594167,
+      "learning_rate": 2e-05,
+      "loss": 0.9676,
+      "loss/crossentropy": 2.0657594203948975,
+      "loss/hidden": 0.5224609375,
+      "loss/logits": 0.1897994950413704,
+      "loss/reg": 0.02552902325987816,
+      "step": 614
+    },
+    {
+      "epoch": 0.3075,
+      "grad_norm": 0.9756619930267334,
+      "grad_norm_var": 2.963385991390479,
+      "learning_rate": 2e-05,
+      "loss": 0.4192,
+      "loss/crossentropy": 2.511542320251465,
+      "loss/hidden": 0.142578125,
+      "loss/logits": 0.02132318541407585,
+      "loss/reg": 0.025526810437440872,
+      "step": 615
+    },
+    {
+      "epoch": 0.308,
+      "grad_norm": 1.9326781034469604,
+      "grad_norm_var": 2.939604367144011,
+      "learning_rate": 2e-05,
+      "loss": 0.4602,
+      "loss/crossentropy": 2.2573784589767456,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.02284115180373192,
+      "loss/reg": 0.025524748489260674,
+      "step": 616
+    },
+    {
+      "epoch": 0.3085,
+      "grad_norm": 1.3322287797927856,
+      "grad_norm_var": 2.9375401728012682,
+      "learning_rate": 2e-05,
+      "loss": 0.4746,
+      "loss/crossentropy": 2.328918933868408,
+      "loss/hidden": 0.1884765625,
+      "loss/logits": 0.03090812638401985,
+      "loss/reg": 0.02552272193133831,
+      "step": 617
+    },
+    {
+      "epoch": 0.309,
+      "grad_norm": 1.368570327758789,
+      "grad_norm_var": 2.92899917136145,
+      "learning_rate": 2e-05,
+      "loss": 0.4906,
+      "loss/crossentropy": 2.449865460395813,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.04598201438784599,
+      "loss/reg": 0.025520512834191322,
+      "step": 618
+    },
+    {
+      "epoch": 0.3095,
+      "grad_norm": 1.2598553895950317,
+      "grad_norm_var": 2.902626964663748,
+      "learning_rate": 2e-05,
+      "loss": 0.4644,
+      "loss/crossentropy": 2.4811675548553467,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.03438819758594036,
+      "loss/reg": 0.025518309324979782,
+      "step": 619
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.5200271606445312,
+      "grad_norm_var": 2.8741158851437234,
+      "learning_rate": 2e-05,
+      "loss": 0.4648,
+      "loss/crossentropy": 2.443149447441101,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.02990366704761982,
+      "loss/reg": 0.025516200810670853,
+      "step": 620
+    },
+    {
+      "epoch": 0.3105,
+      "grad_norm": 1.1189664602279663,
+      "grad_norm_var": 2.882687177244717,
+      "learning_rate": 2e-05,
+      "loss": 0.4401,
+      "loss/crossentropy": 2.3359590768814087,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.025752616114914417,
+      "loss/reg": 0.02551414631307125,
+      "step": 621
+    },
+    {
+      "epoch": 0.311,
+      "grad_norm": 1.1328538656234741,
+      "grad_norm_var": 2.8903269313735427,
+      "learning_rate": 2e-05,
+      "loss": 0.4446,
+      "loss/crossentropy": 2.3448485136032104,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.025948218069970608,
+      "loss/reg": 0.025512101128697395,
+      "step": 622
+    },
+    {
+      "epoch": 0.3115,
+      "grad_norm": 1.3280351161956787,
+      "grad_norm_var": 2.9008471808041234,
+      "learning_rate": 2e-05,
+      "loss": 0.502,
+      "loss/crossentropy": 2.3840510845184326,
+      "loss/hidden": 0.203125,
+      "loss/logits": 0.04378024488687515,
+      "loss/reg": 0.025509938597679138,
+      "step": 623
+    },
+    {
+      "epoch": 0.312,
+      "grad_norm": 1.2119669914245605,
+      "grad_norm_var": 2.8691701461931562,
+      "learning_rate": 2e-05,
+      "loss": 0.4384,
+      "loss/crossentropy": 2.5495107173919678,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.025127064436674118,
+      "loss/reg": 0.025507742539048195,
+      "step": 624
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 1.3906071186065674,
+      "grad_norm_var": 2.862515149821022,
+      "learning_rate": 2e-05,
+      "loss": 0.4877,
+      "loss/crossentropy": 2.418786406517029,
+      "loss/hidden": 0.1953125,
+      "loss/logits": 0.037290943786501884,
+      "loss/reg": 0.02550552599132061,
+      "step": 625
+    },
+    {
+      "epoch": 0.313,
+      "grad_norm": 1.1530770063400269,
+      "grad_norm_var": 2.8562631605775035,
+      "learning_rate": 2e-05,
+      "loss": 0.4523,
+      "loss/crossentropy": 2.5153443813323975,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.029278968460857868,
+      "loss/reg": 0.02550341933965683,
+      "step": 626
+    },
+    {
+      "epoch": 0.3135,
+      "grad_norm": 1.9171541929244995,
+      "grad_norm_var": 2.843679575594864,
+      "learning_rate": 2e-05,
+      "loss": 0.4798,
+      "loss/crossentropy": 2.592397689819336,
+      "loss/hidden": 0.19482421875,
+      "loss/logits": 0.029941866174340248,
+      "loss/reg": 0.025501396507024765,
+      "step": 627
+    },
+    {
+      "epoch": 0.314,
+      "grad_norm": 1.4067423343658447,
+      "grad_norm_var": 2.8254152118389118,
+      "learning_rate": 2e-05,
+      "loss": 0.4421,
+      "loss/crossentropy": 2.360334277153015,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.02205614186823368,
+      "loss/reg": 0.02549940161406994,
+      "step": 628
+    },
+    {
+      "epoch": 0.3145,
+      "grad_norm": 1.271565318107605,
+      "grad_norm_var": 2.8244601627756833,
+      "learning_rate": 2e-05,
+      "loss": 0.492,
+      "loss/crossentropy": 2.323120355606079,
+      "loss/hidden": 0.20556640625,
+      "loss/logits": 0.031410202383995056,
+      "loss/reg": 0.025497442111372948,
+      "step": 629
+    },
+    {
+      "epoch": 0.315,
+      "grad_norm": 1.192052960395813,
+      "grad_norm_var": 0.06888867322267149,
+      "learning_rate": 2e-05,
+      "loss": 0.5017,
+      "loss/crossentropy": 2.176342010498047,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.032856905832886696,
+      "loss/reg": 0.025495316833257675,
+      "step": 630
+    },
+    {
+      "epoch": 0.3155,
+      "grad_norm": 1.0660690069198608,
+      "grad_norm_var": 0.06495340762153295,
+      "learning_rate": 2e-05,
+      "loss": 0.4197,
+      "loss/crossentropy": 2.4988861083984375,
+      "loss/hidden": 0.1416015625,
+      "loss/logits": 0.023143235594034195,
+      "loss/reg": 0.025493212044239044,
+      "step": 631
+    },
+    {
+      "epoch": 0.316,
+      "grad_norm": 1.3349320888519287,
+      "grad_norm_var": 0.04085774566783152,
+      "learning_rate": 2e-05,
+      "loss": 0.4506,
+      "loss/crossentropy": 2.455591082572937,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.0257937153801322,
+      "loss/reg": 0.025491099804639816,
+      "step": 632
+    },
+    {
+      "epoch": 0.3165,
+      "grad_norm": 3.0417232513427734,
+      "grad_norm_var": 0.22793577307115717,
+      "learning_rate": 2e-05,
+      "loss": 0.5239,
+      "loss/crossentropy": 2.37486732006073,
+      "loss/hidden": 0.2314453125,
+      "loss/logits": 0.03756898641586304,
+      "loss/reg": 0.025489188730716705,
+      "step": 633
+    },
+    {
+      "epoch": 0.317,
+      "grad_norm": 1.2681235074996948,
+      "grad_norm_var": 0.22925030763110257,
+      "learning_rate": 2e-05,
+      "loss": 0.5084,
+      "loss/crossentropy": 2.259597897529602,
+      "loss/hidden": 0.21337890625,
+      "loss/logits": 0.040193804539740086,
+      "loss/reg": 0.025486983358860016,
+      "step": 634
+    },
+    {
+      "epoch": 0.3175,
+      "grad_norm": 1.7327830791473389,
+      "grad_norm_var": 0.2335495834433952,
+      "learning_rate": 2e-05,
+      "loss": 0.464,
+      "loss/crossentropy": 2.754118800163269,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.027960547246038914,
+      "loss/reg": 0.025484783574938774,
+      "step": 635
+    },
+    {
+      "epoch": 0.318,
+      "grad_norm": 1.1379330158233643,
+      "grad_norm_var": 0.23874590770987894,
+      "learning_rate": 2e-05,
+      "loss": 0.4394,
+      "loss/crossentropy": 2.275562047958374,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.021530453115701675,
+      "loss/reg": 0.02548276260495186,
+      "step": 636
+    },
+    {
+      "epoch": 0.3185,
+      "grad_norm": 2.230278253555298,
+      "grad_norm_var": 0.2714714145474554,
+      "learning_rate": 2e-05,
+      "loss": 0.5173,
+      "loss/crossentropy": 2.338230013847351,
+      "loss/hidden": 0.23681640625,
+      "loss/logits": 0.025674378499388695,
+      "loss/reg": 0.025480857118964195,
+      "step": 637
+    },
+    {
+      "epoch": 0.319,
+      "grad_norm": 1.439009428024292,
+      "grad_norm_var": 0.26281213986055435,
+      "learning_rate": 2e-05,
+      "loss": 0.4592,
+      "loss/crossentropy": 2.2542585134506226,
+      "loss/hidden": 0.177734375,
+      "loss/logits": 0.026685651391744614,
+      "loss/reg": 0.025478988885879517,
+      "step": 638
+    },
+    {
+      "epoch": 0.3195,
+      "grad_norm": 1.2269906997680664,
+      "grad_norm_var": 0.26586984825830745,
+      "learning_rate": 2e-05,
+      "loss": 0.484,
+      "loss/crossentropy": 2.4006763696670532,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.03735353797674179,
+      "loss/reg": 0.02547682449221611,
+      "step": 639
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.4380499124526978,
+      "grad_norm_var": 0.2603422819560449,
+      "learning_rate": 2e-05,
+      "loss": 0.4904,
+      "loss/crossentropy": 2.2535301446914673,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.035440364852547646,
+      "loss/reg": 0.02547490783035755,
+      "step": 640
+    },
+    {
+      "epoch": 0.3205,
+      "grad_norm": 1.1311625242233276,
+      "grad_norm_var": 0.268867656697473,
+      "learning_rate": 2e-05,
+      "loss": 0.4509,
+      "loss/crossentropy": 2.3959745168685913,
+      "loss/hidden": 0.1689453125,
+      "loss/logits": 0.027200866490602493,
+      "loss/reg": 0.025472737848758698,
+      "step": 641
+    },
+    {
+      "epoch": 0.321,
+      "grad_norm": 1.5106732845306396,
+      "grad_norm_var": 0.2603555469624775,
+      "learning_rate": 2e-05,
+      "loss": 0.4666,
+      "loss/crossentropy": 2.3994356393814087,
+      "loss/hidden": 0.17919921875,
+      "loss/logits": 0.03274068981409073,
+      "loss/reg": 0.025470787659287453,
+      "step": 642
+    },
+    {
+      "epoch": 0.3215,
+      "grad_norm": 1.823555588722229,
+      "grad_norm_var": 0.25596636935256256,
+      "learning_rate": 2e-05,
+      "loss": 0.5589,
+      "loss/crossentropy": 2.1762577295303345,
+      "loss/hidden": 0.255859375,
+      "loss/logits": 0.04833154007792473,
+      "loss/reg": 0.025468602776527405,
+      "step": 643
+    },
+    {
+      "epoch": 0.322,
+      "grad_norm": 1.4282046556472778,
+      "grad_norm_var": 0.2556832814253122,
+      "learning_rate": 2e-05,
+      "loss": 0.4487,
+      "loss/crossentropy": 2.3608391284942627,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.02895598392933607,
+      "loss/reg": 0.0254666730761528,
+      "step": 644
+    },
+    {
+      "epoch": 0.3225,
+      "grad_norm": 1.1915183067321777,
+      "grad_norm_var": 0.2587039981971661,
+      "learning_rate": 2e-05,
+      "loss": 0.4567,
+      "loss/crossentropy": 2.160835921764374,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.026723448187112808,
+      "loss/reg": 0.02546459622681141,
+      "step": 645
+    },
+    {
+      "epoch": 0.323,
+      "grad_norm": 1.0989381074905396,
+      "grad_norm_var": 0.2632189617332703,
+      "learning_rate": 2e-05,
+      "loss": 0.4694,
+      "loss/crossentropy": 2.429106831550598,
+      "loss/hidden": 0.181640625,
+      "loss/logits": 0.03316484112292528,
+      "loss/reg": 0.025462418794631958,
+      "step": 646
+    },
+    {
+      "epoch": 0.3235,
+      "grad_norm": 2.257662296295166,
+      "grad_norm_var": 0.28202735887923397,
+      "learning_rate": 2e-05,
+      "loss": 0.5176,
+      "loss/crossentropy": 2.431147336959839,
+      "loss/hidden": 0.22216796875,
+      "loss/logits": 0.04080248158425093,
+      "loss/reg": 0.02546020597219467,
+      "step": 647
+    },
+    {
+      "epoch": 0.324,
+      "grad_norm": 1.9271612167358398,
+      "grad_norm_var": 0.28453986075382054,
+      "learning_rate": 2e-05,
+      "loss": 0.4812,
+      "loss/crossentropy": 2.2328370809555054,
+      "loss/hidden": 0.19580078125,
+      "loss/logits": 0.03081681113690138,
+      "loss/reg": 0.02545810490846634,
+      "step": 648
+    },
+    {
+      "epoch": 0.3245,
+      "grad_norm": 1.57036554813385,
+      "grad_norm_var": 0.14048631360791,
+      "learning_rate": 2e-05,
+      "loss": 0.4572,
+      "loss/crossentropy": 2.3384969234466553,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.027865654788911343,
+      "loss/reg": 0.02545584924519062,
+      "step": 649
+    },
+    {
+      "epoch": 0.325,
+      "grad_norm": 3.972613573074341,
+      "grad_norm_var": 0.5047189714591601,
+      "learning_rate": 2e-05,
+      "loss": 0.8007,
+      "loss/crossentropy": 2.171482264995575,
+      "loss/hidden": 0.39306640625,
+      "loss/logits": 0.1530690910294652,
+      "loss/reg": 0.0254536010324955,
+      "step": 650
+    },
+    {
+      "epoch": 0.3255,
+      "grad_norm": 1.2306694984436035,
+      "grad_norm_var": 0.5179338564331883,
+      "learning_rate": 2e-05,
+      "loss": 0.4915,
+      "loss/crossentropy": 2.2794147729873657,
+      "loss/hidden": 0.203125,
+      "loss/logits": 0.033877959474921227,
+      "loss/reg": 0.025451431050896645,
+      "step": 651
+    },
+    {
+      "epoch": 0.326,
+      "grad_norm": 6.3861775398254395,
+      "grad_norm_var": 1.8717174937138472,
+      "learning_rate": 2e-05,
+      "loss": 0.6826,
+      "loss/crossentropy": 2.2695876359939575,
+      "loss/hidden": 0.35986328125,
+      "loss/logits": 0.06826404109597206,
+      "loss/reg": 0.02544919028878212,
+      "step": 652
+    },
+    {
+      "epoch": 0.3265,
+      "grad_norm": 0.9534096717834473,
+      "grad_norm_var": 1.932954969588551,
+      "learning_rate": 2e-05,
+      "loss": 0.4184,
+      "loss/crossentropy": 2.4821490049362183,
+      "loss/hidden": 0.14208984375,
+      "loss/logits": 0.02188246138393879,
+      "loss/reg": 0.02544700726866722,
+      "step": 653
+    },
+    {
+      "epoch": 0.327,
+      "grad_norm": 1.8388314247131348,
+      "grad_norm_var": 1.917750585249983,
+      "learning_rate": 2e-05,
+      "loss": 0.5184,
+      "loss/crossentropy": 2.622692823410034,
+      "loss/hidden": 0.21337890625,
+      "loss/logits": 0.05053009279072285,
+      "loss/reg": 0.025444859638810158,
+      "step": 654
+    },
+    {
+      "epoch": 0.3275,
+      "grad_norm": 1.0860503911972046,
+      "grad_norm_var": 1.9323275539076297,
+      "learning_rate": 2e-05,
+      "loss": 0.4528,
+      "loss/crossentropy": 2.4405031204223633,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.027923785150051117,
+      "loss/reg": 0.02544267661869526,
+      "step": 655
+    },
+    {
+      "epoch": 0.328,
+      "grad_norm": 1.8346869945526123,
+      "grad_norm_var": 1.9162589037726556,
+      "learning_rate": 2e-05,
+      "loss": 0.4467,
+      "loss/crossentropy": 2.561371684074402,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.02681200671941042,
+      "loss/reg": 0.025440504774451256,
+      "step": 656
+    },
+    {
+      "epoch": 0.3285,
+      "grad_norm": 1.7516165971755981,
+      "grad_norm_var": 1.8723634601240877,
+      "learning_rate": 2e-05,
+      "loss": 0.5473,
+      "loss/crossentropy": 2.1868897676467896,
+      "loss/hidden": 0.24951171875,
+      "loss/logits": 0.04336274042725563,
+      "loss/reg": 0.025438381358981133,
+      "step": 657
+    },
+    {
+      "epoch": 0.329,
+      "grad_norm": 1.1200268268585205,
+      "grad_norm_var": 1.906939612518704,
+      "learning_rate": 2e-05,
+      "loss": 0.4269,
+      "loss/crossentropy": 2.5193029642105103,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.023628379218280315,
+      "loss/reg": 0.025436177849769592,
+      "step": 658
+    },
+    {
+      "epoch": 0.3295,
+      "grad_norm": 1.2578015327453613,
+      "grad_norm_var": 1.9377626206597995,
+      "learning_rate": 2e-05,
+      "loss": 0.4864,
+      "loss/crossentropy": 2.4258992671966553,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.040623242035508156,
+      "loss/reg": 0.02543400041759014,
+      "step": 659
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.0507436990737915,
+      "grad_norm_var": 1.9720027861822638,
+      "learning_rate": 2e-05,
+      "loss": 0.4556,
+      "loss/crossentropy": 2.3461010456085205,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.033318827860057354,
+      "loss/reg": 0.02543184906244278,
+      "step": 660
+    },
+    {
+      "epoch": 0.3305,
+      "grad_norm": 1.2176129817962646,
+      "grad_norm_var": 1.969552437425464,
+      "learning_rate": 2e-05,
+      "loss": 0.469,
+      "loss/crossentropy": 2.3208965063095093,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.03600373677909374,
+      "loss/reg": 0.025429651141166687,
+      "step": 661
+    },
+    {
+      "epoch": 0.331,
+      "grad_norm": 1.1113396883010864,
+      "grad_norm_var": 1.9682215053201066,
+      "learning_rate": 2e-05,
+      "loss": 0.4615,
+      "loss/crossentropy": 1.9688389897346497,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.024597243405878544,
+      "loss/reg": 0.025427548214793205,
+      "step": 662
+    },
+    {
+      "epoch": 0.3315,
+      "grad_norm": 2.15281343460083,
+      "grad_norm_var": 1.9640542341909926,
+      "learning_rate": 2e-05,
+      "loss": 0.5739,
+      "loss/crossentropy": 2.476504325866699,
+      "loss/hidden": 0.2392578125,
+      "loss/logits": 0.08039886690676212,
+      "loss/reg": 0.025425344705581665,
+      "step": 663
+    },
+    {
+      "epoch": 0.332,
+      "grad_norm": 1.142524003982544,
+      "grad_norm_var": 2.0000960230816474,
+      "learning_rate": 2e-05,
+      "loss": 0.4834,
+      "loss/crossentropy": 2.45276939868927,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.042642902582883835,
+      "loss/reg": 0.025423116981983185,
+      "step": 664
+    },
+    {
+      "epoch": 0.3325,
+      "grad_norm": 1.3945834636688232,
+      "grad_norm_var": 2.0086944041381836,
+      "learning_rate": 2e-05,
+      "loss": 0.5291,
+      "loss/crossentropy": 2.2395424842834473,
+      "loss/hidden": 0.22265625,
+      "loss/logits": 0.05220697447657585,
+      "loss/reg": 0.025420982390642166,
+      "step": 665
+    },
+    {
+      "epoch": 0.333,
+      "grad_norm": 1.2921602725982666,
+      "grad_norm_var": 1.6969372224034807,
+      "learning_rate": 2e-05,
+      "loss": 0.5112,
+      "loss/crossentropy": 2.4718152284622192,
+      "loss/hidden": 0.2158203125,
+      "loss/logits": 0.041200825944542885,
+      "loss/reg": 0.025418834760785103,
+      "step": 666
+    },
+    {
+      "epoch": 0.3335,
+      "grad_norm": 1.8263285160064697,
+      "grad_norm_var": 1.6837190851105295,
+      "learning_rate": 2e-05,
+      "loss": 0.6125,
+      "loss/crossentropy": 2.3179105520248413,
+      "loss/hidden": 0.30029296875,
+      "loss/logits": 0.058010220527648926,
+      "loss/reg": 0.02541666105389595,
+      "step": 667
+    },
+    {
+      "epoch": 0.334,
+      "grad_norm": 0.9793453216552734,
+      "grad_norm_var": 0.14228114450421098,
+      "learning_rate": 2e-05,
+      "loss": 0.421,
+      "loss/crossentropy": 2.375541925430298,
+      "loss/hidden": 0.1435546875,
+      "loss/logits": 0.023268045857548714,
+      "loss/reg": 0.025414319708943367,
+      "step": 668
+    },
+    {
+      "epoch": 0.3345,
+      "grad_norm": 1.0925960540771484,
+      "grad_norm_var": 0.13565654288369539,
+      "learning_rate": 2e-05,
+      "loss": 0.4561,
+      "loss/crossentropy": 2.314823031425476,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.028134356252849102,
+      "loss/reg": 0.025411993265151978,
+      "step": 669
+    },
+    {
+      "epoch": 0.335,
+      "grad_norm": 1.2090929746627808,
+      "grad_norm_var": 0.12227878219406557,
+      "learning_rate": 2e-05,
+      "loss": 0.4747,
+      "loss/crossentropy": 2.471633553504944,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.02871632482856512,
+      "loss/reg": 0.025409623980522156,
+      "step": 670
+    },
+    {
+      "epoch": 0.3355,
+      "grad_norm": 1.2346880435943604,
+      "grad_norm_var": 0.11852848812049478,
+      "learning_rate": 2e-05,
+      "loss": 0.4636,
+      "loss/crossentropy": 2.414598226547241,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.034768104553222656,
+      "loss/reg": 0.02540736459195614,
+      "step": 671
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 1.069199800491333,
+      "grad_norm_var": 0.10611561855972672,
+      "learning_rate": 2e-05,
+      "loss": 0.4507,
+      "loss/crossentropy": 2.2887717485427856,
+      "loss/hidden": 0.1689453125,
+      "loss/logits": 0.027695579454302788,
+      "loss/reg": 0.025404995307326317,
+      "step": 672
+    },
+    {
+      "epoch": 0.3365,
+      "grad_norm": 1.3578476905822754,
+      "grad_norm_var": 0.09243173709434505,
+      "learning_rate": 2e-05,
+      "loss": 0.4806,
+      "loss/crossentropy": 2.090680956840515,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.026400449685752392,
+      "loss/reg": 0.025402558967471123,
+      "step": 673
+    },
+    {
+      "epoch": 0.337,
+      "grad_norm": 1.222834587097168,
+      "grad_norm_var": 0.09087487045602523,
+      "learning_rate": 2e-05,
+      "loss": 0.4371,
+      "loss/crossentropy": 2.3926587104797363,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.03075406327843666,
+      "loss/reg": 0.025400325655937195,
+      "step": 674
+    },
+    {
+      "epoch": 0.3375,
+      "grad_norm": 1.2310668230056763,
+      "grad_norm_var": 0.09102797075126906,
+      "learning_rate": 2e-05,
+      "loss": 0.487,
+      "loss/crossentropy": 2.3810113668441772,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.03329848870635033,
+      "loss/reg": 0.0253978930413723,
+      "step": 675
+    },
+    {
+      "epoch": 0.338,
+      "grad_norm": 1.1485071182250977,
+      "grad_norm_var": 0.08855158055118005,
+      "learning_rate": 2e-05,
+      "loss": 0.4242,
+      "loss/crossentropy": 2.513722538948059,
+      "loss/hidden": 0.1455078125,
+      "loss/logits": 0.02471320889890194,
+      "loss/reg": 0.025395726785063744,
+      "step": 676
+    },
+    {
+      "epoch": 0.3385,
+      "grad_norm": 1.302976369857788,
+      "grad_norm_var": 0.08815285694720097,
+      "learning_rate": 2e-05,
+      "loss": 0.408,
+      "loss/crossentropy": 2.3934881687164307,
+      "loss/hidden": 0.132568359375,
+      "loss/logits": 0.0214870385825634,
+      "loss/reg": 0.025393173098564148,
+      "step": 677
+    },
+    {
+      "epoch": 0.339,
+      "grad_norm": 1.2492976188659668,
+      "grad_norm_var": 0.08590898883028307,
+      "learning_rate": 2e-05,
+      "loss": 0.4409,
+      "loss/crossentropy": 2.4734569787979126,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.02638374548405409,
+      "loss/reg": 0.025390924885869026,
+      "step": 678
+    },
+    {
+      "epoch": 0.3395,
+      "grad_norm": 1.4173915386199951,
+      "grad_norm_var": 0.03673691192539176,
+      "learning_rate": 2e-05,
+      "loss": 0.423,
+      "loss/crossentropy": 2.4406436681747437,
+      "loss/hidden": 0.14453125,
+      "loss/logits": 0.024627392180263996,
+      "loss/reg": 0.025388652458786964,
+      "step": 679
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.9957833290100098,
+      "grad_norm_var": 0.04039394780387108,
+      "learning_rate": 2e-05,
+      "loss": 0.4216,
+      "loss/crossentropy": 2.472551703453064,
+      "loss/hidden": 0.14453125,
+      "loss/logits": 0.023214499466121197,
+      "loss/reg": 0.025386210530996323,
+      "step": 680
+    },
+    {
+      "epoch": 0.3405,
+      "grad_norm": 1.3958747386932373,
+      "grad_norm_var": 0.040418689929556946,
+      "learning_rate": 2e-05,
+      "loss": 0.4807,
+      "loss/crossentropy": 2.636582612991333,
+      "loss/hidden": 0.18798828125,
+      "loss/logits": 0.038843123242259026,
+      "loss/reg": 0.02538374997675419,
+      "step": 681
+    },
+    {
+      "epoch": 0.341,
+      "grad_norm": 1.2559229135513306,
+      "grad_norm_var": 0.04030460464576505,
+      "learning_rate": 2e-05,
+      "loss": 0.4735,
+      "loss/crossentropy": 2.2572195529937744,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.03318110667169094,
+      "loss/reg": 0.02538151666522026,
+      "step": 682
+    },
+    {
+      "epoch": 0.3415,
+      "grad_norm": 1.437334418296814,
+      "grad_norm_var": 0.019833637621310865,
+      "learning_rate": 2e-05,
+      "loss": 0.4508,
+      "loss/crossentropy": 2.4471691846847534,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.026614676229655743,
+      "loss/reg": 0.0253791194409132,
+      "step": 683
+    },
+    {
+      "epoch": 0.342,
+      "grad_norm": 1.7899738550186157,
+      "grad_norm_var": 0.03435388481276878,
+      "learning_rate": 2e-05,
+      "loss": 0.4697,
+      "loss/crossentropy": 2.3129884004592896,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.029374102130532265,
+      "loss/reg": 0.025376921519637108,
+      "step": 684
+    },
+    {
+      "epoch": 0.3425,
+      "grad_norm": 1.0163391828536987,
+      "grad_norm_var": 0.03657853766482973,
+      "learning_rate": 2e-05,
+      "loss": 0.4382,
+      "loss/crossentropy": 2.441192150115967,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.024306317791342735,
+      "loss/reg": 0.025374585762619972,
+      "step": 685
+    },
+    {
+      "epoch": 0.343,
+      "grad_norm": 1.1746463775634766,
+      "grad_norm_var": 0.03693649317759663,
+      "learning_rate": 2e-05,
+      "loss": 0.4359,
+      "loss/crossentropy": 2.3794326782226562,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.026386510580778122,
+      "loss/reg": 0.025372277945280075,
+      "step": 686
+    },
+    {
+      "epoch": 0.3435,
+      "grad_norm": 1.0302844047546387,
+      "grad_norm_var": 0.04047557695632419,
+      "learning_rate": 2e-05,
+      "loss": 0.4222,
+      "loss/crossentropy": 2.421720266342163,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.022049223072826862,
+      "loss/reg": 0.025370018556714058,
+      "step": 687
+    },
+    {
+      "epoch": 0.344,
+      "grad_norm": 1.4138187170028687,
+      "grad_norm_var": 0.039316962171863895,
+      "learning_rate": 2e-05,
+      "loss": 0.4613,
+      "loss/crossentropy": 2.4710036516189575,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.03138366714119911,
+      "loss/reg": 0.02536788582801819,
+      "step": 688
+    },
+    {
+      "epoch": 0.3445,
+      "grad_norm": 1.39634108543396,
+      "grad_norm_var": 0.03982198390903117,
+      "learning_rate": 2e-05,
+      "loss": 0.4409,
+      "loss/crossentropy": 2.50797963142395,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.029052263125777245,
+      "loss/reg": 0.02536572329699993,
+      "step": 689
+    },
+    {
+      "epoch": 0.345,
+      "grad_norm": 1.4006764888763428,
+      "grad_norm_var": 0.040445578503683306,
+      "learning_rate": 2e-05,
+      "loss": 0.4874,
+      "loss/crossentropy": 2.327502489089966,
+      "loss/hidden": 0.20947265625,
+      "loss/logits": 0.0243146987631917,
+      "loss/reg": 0.025363536551594734,
+      "step": 690
+    },
+    {
+      "epoch": 0.3455,
+      "grad_norm": 1.3401939868927002,
+      "grad_norm_var": 0.04031761591638811,
+      "learning_rate": 2e-05,
+      "loss": 0.4645,
+      "loss/crossentropy": 2.4942984580993652,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.03075546585023403,
+      "loss/reg": 0.02536129206418991,
+      "step": 691
+    },
+    {
+      "epoch": 0.346,
+      "grad_norm": 1.1368129253387451,
+      "grad_norm_var": 0.040558999133186016,
+      "learning_rate": 2e-05,
+      "loss": 0.4513,
+      "loss/crossentropy": 2.5324333906173706,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.02676941640675068,
+      "loss/reg": 0.025359032675623894,
+      "step": 692
+    },
+    {
+      "epoch": 0.3465,
+      "grad_norm": 10.904756546020508,
+      "grad_norm_var": 5.81021311974864,
+      "learning_rate": 2e-05,
+      "loss": 0.6749,
+      "loss/crossentropy": 2.5305880308151245,
+      "loss/hidden": 0.39306640625,
+      "loss/logits": 0.028291589580476284,
+      "loss/reg": 0.02535676583647728,
+      "step": 693
+    },
+    {
+      "epoch": 0.347,
+      "grad_norm": 1.0383360385894775,
+      "grad_norm_var": 5.831219439922715,
+      "learning_rate": 2e-05,
+      "loss": 0.4407,
+      "loss/crossentropy": 2.347463846206665,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.02308377344161272,
+      "loss/reg": 0.025354566052556038,
+      "step": 694
+    },
+    {
+      "epoch": 0.3475,
+      "grad_norm": 1.1074702739715576,
+      "grad_norm_var": 5.856505480500767,
+      "learning_rate": 2e-05,
+      "loss": 0.4515,
+      "loss/crossentropy": 2.6167062520980835,
+      "loss/hidden": 0.1689453125,
+      "loss/logits": 0.029017897322773933,
+      "loss/reg": 0.025352245196700096,
+      "step": 695
+    },
+    {
+      "epoch": 0.348,
+      "grad_norm": 1.6335835456848145,
+      "grad_norm_var": 5.808040474999217,
+      "learning_rate": 2e-05,
+      "loss": 0.4665,
+      "loss/crossentropy": 2.2225993871688843,
+      "loss/hidden": 0.181640625,
+      "loss/logits": 0.031376788392663,
+      "loss/reg": 0.025349974632263184,
+      "step": 696
+    },
+    {
+      "epoch": 0.3485,
+      "grad_norm": 2.073458194732666,
+      "grad_norm_var": 5.790781894960122,
+      "learning_rate": 2e-05,
+      "loss": 0.513,
+      "loss/crossentropy": 2.1957470178604126,
+      "loss/hidden": 0.23193359375,
+      "loss/logits": 0.027595311403274536,
+      "loss/reg": 0.02534763514995575,
+      "step": 697
+    },
+    {
+      "epoch": 0.349,
+      "grad_norm": 4.3756818771362305,
+      "grad_norm_var": 6.1116753594536,
+      "learning_rate": 2e-05,
+      "loss": 0.6104,
+      "loss/crossentropy": 2.120497226715088,
+      "loss/hidden": 0.32080078125,
+      "loss/logits": 0.03617184329777956,
+      "loss/reg": 0.025345396250486374,
+      "step": 698
+    },
+    {
+      "epoch": 0.3495,
+      "grad_norm": 2.3373966217041016,
+      "grad_norm_var": 6.07775883522955,
+      "learning_rate": 2e-05,
+      "loss": 0.574,
+      "loss/crossentropy": 2.3245344161987305,
+      "loss/hidden": 0.2373046875,
+      "loss/logits": 0.08329359069466591,
+      "loss/reg": 0.025343157351017,
+      "step": 699
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.0438388586044312,
+      "grad_norm_var": 6.153157025860973,
+      "learning_rate": 2e-05,
+      "loss": 0.4362,
+      "loss/crossentropy": 2.362974166870117,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.026995157822966576,
+      "loss/reg": 0.025340832769870758,
+      "step": 700
+    },
+    {
+      "epoch": 0.3505,
+      "grad_norm": 1.6430028676986694,
+      "grad_norm_var": 6.082854600769767,
+      "learning_rate": 2e-05,
+      "loss": 0.5277,
+      "loss/crossentropy": 2.102017641067505,
+      "loss/hidden": 0.2333984375,
+      "loss/logits": 0.04095187783241272,
+      "loss/reg": 0.025338461622595787,
+      "step": 701
+    },
+    {
+      "epoch": 0.351,
+      "grad_norm": 1.5996311902999878,
+      "grad_norm_var": 6.036571733599795,
+      "learning_rate": 2e-05,
+      "loss": 0.566,
+      "loss/crossentropy": 2.1797362565994263,
+      "loss/hidden": 0.271484375,
+      "loss/logits": 0.04117584228515625,
+      "loss/reg": 0.025335904210805893,
+      "step": 702
+    },
+    {
+      "epoch": 0.3515,
+      "grad_norm": 1.128166913986206,
+      "grad_norm_var": 6.021680040096112,
+      "learning_rate": 2e-05,
+      "loss": 0.4406,
+      "loss/crossentropy": 2.4110106229782104,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.026095453649759293,
+      "loss/reg": 0.025333648547530174,
+      "step": 703
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 1.8349699974060059,
+      "grad_norm_var": 5.987309069676893,
+      "learning_rate": 2e-05,
+      "loss": 0.5493,
+      "loss/crossentropy": 2.0857229232788086,
+      "loss/hidden": 0.2529296875,
+      "loss/logits": 0.04306299611926079,
+      "loss/reg": 0.0253314059227705,
+      "step": 704
+    },
+    {
+      "epoch": 0.3525,
+      "grad_norm": 1.496748924255371,
+      "grad_norm_var": 5.9765153933005,
+      "learning_rate": 2e-05,
+      "loss": 0.4725,
+      "loss/crossentropy": 2.4090970754623413,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.0321922991424799,
+      "loss/reg": 0.0253291055560112,
+      "step": 705
+    },
+    {
+      "epoch": 0.353,
+      "grad_norm": 1.9091578722000122,
+      "grad_norm_var": 5.9346915662249025,
+      "learning_rate": 2e-05,
+      "loss": 0.4712,
+      "loss/crossentropy": 2.4798312187194824,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.03674683719873428,
+      "loss/reg": 0.025326747447252274,
+      "step": 706
+    },
+    {
+      "epoch": 0.3535,
+      "grad_norm": 1.3746347427368164,
+      "grad_norm_var": 5.930414656573596,
+      "learning_rate": 2e-05,
+      "loss": 0.4387,
+      "loss/crossentropy": 2.332283616065979,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.02867988497018814,
+      "loss/reg": 0.025324523448944092,
+      "step": 707
+    },
+    {
+      "epoch": 0.354,
+      "grad_norm": 1.2437435388565063,
+      "grad_norm_var": 5.914689920860994,
+      "learning_rate": 2e-05,
+      "loss": 0.4413,
+      "loss/crossentropy": 2.4120808839797974,
+      "loss/hidden": 0.15869140625,
+      "loss/logits": 0.029423246160149574,
+      "loss/reg": 0.025322169065475464,
+      "step": 708
+    },
+    {
+      "epoch": 0.3545,
+      "grad_norm": 1.5218226909637451,
+      "grad_norm_var": 0.6477736948298792,
+      "learning_rate": 2e-05,
+      "loss": 0.4785,
+      "loss/crossentropy": 2.4414559602737427,
+      "loss/hidden": 0.1923828125,
+      "loss/logits": 0.032884806394577026,
+      "loss/reg": 0.02531973458826542,
+      "step": 709
+    },
+    {
+      "epoch": 0.355,
+      "grad_norm": 1.0013576745986938,
+      "grad_norm_var": 0.651171268534646,
+      "learning_rate": 2e-05,
+      "loss": 0.4448,
+      "loss/crossentropy": 2.2079886198043823,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.033450678922235966,
+      "loss/reg": 0.025317512452602386,
+      "step": 710
+    },
+    {
+      "epoch": 0.3555,
+      "grad_norm": 1.558840274810791,
+      "grad_norm_var": 0.6277757593685663,
+      "learning_rate": 2e-05,
+      "loss": 0.5398,
+      "loss/crossentropy": 2.2513808012008667,
+      "loss/hidden": 0.23974609375,
+      "loss/logits": 0.046865444630384445,
+      "loss/reg": 0.025314999744296074,
+      "step": 711
+    },
+    {
+      "epoch": 0.356,
+      "grad_norm": 1.1995527744293213,
+      "grad_norm_var": 0.6454767272231472,
+      "learning_rate": 2e-05,
+      "loss": 0.5245,
+      "loss/crossentropy": 2.1171988248825073,
+      "loss/hidden": 0.2294921875,
+      "loss/logits": 0.041836922988295555,
+      "loss/reg": 0.025312749668955803,
+      "step": 712
+    },
+    {
+      "epoch": 0.3565,
+      "grad_norm": 1.0955619812011719,
+      "grad_norm_var": 0.6577077274442764,
+      "learning_rate": 2e-05,
+      "loss": 0.4366,
+      "loss/crossentropy": 2.375182032585144,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.027697966434061527,
+      "loss/reg": 0.02531055547297001,
+      "step": 713
+    },
+    {
+      "epoch": 0.357,
+      "grad_norm": 1.287891149520874,
+      "grad_norm_var": 0.13050938322241734,
+      "learning_rate": 2e-05,
+      "loss": 0.4445,
+      "loss/crossentropy": 2.4279476404190063,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.027320224791765213,
+      "loss/reg": 0.025308314710855484,
+      "step": 714
+    },
+    {
+      "epoch": 0.3575,
+      "grad_norm": 1.1665476560592651,
+      "grad_norm_var": 0.07840015841878997,
+      "learning_rate": 2e-05,
+      "loss": 0.4761,
+      "loss/crossentropy": 2.3419547080993652,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.03259772714227438,
+      "loss/reg": 0.02530606836080551,
+      "step": 715
+    },
+    {
+      "epoch": 0.358,
+      "grad_norm": 1.0555628538131714,
+      "grad_norm_var": 0.07788077396049188,
+      "learning_rate": 2e-05,
+      "loss": 0.4214,
+      "loss/crossentropy": 2.2978007793426514,
+      "loss/hidden": 0.142578125,
+      "loss/logits": 0.025796832516789436,
+      "loss/reg": 0.025303872302174568,
+      "step": 716
+    },
+    {
+      "epoch": 0.3585,
+      "grad_norm": 0.9452884793281555,
+      "grad_norm_var": 0.084055576139029,
+      "learning_rate": 2e-05,
+      "loss": 0.4439,
+      "loss/crossentropy": 2.2497235536575317,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.027815911918878555,
+      "loss/reg": 0.025301622226834297,
+      "step": 717
+    },
+    {
+      "epoch": 0.359,
+      "grad_norm": 1.4938298463821411,
+      "grad_norm_var": 0.08107452606832148,
+      "learning_rate": 2e-05,
+      "loss": 0.4895,
+      "loss/crossentropy": 2.2590330839157104,
+      "loss/hidden": 0.203125,
+      "loss/logits": 0.0333606218919158,
+      "loss/reg": 0.025299306958913803,
+      "step": 718
+    },
+    {
+      "epoch": 0.3595,
+      "grad_norm": 1.3809986114501953,
+      "grad_norm_var": 0.07819483831579542,
+      "learning_rate": 2e-05,
+      "loss": 0.4289,
+      "loss/crossentropy": 2.3282105922698975,
+      "loss/hidden": 0.1474609375,
+      "loss/logits": 0.028477998450398445,
+      "loss/reg": 0.025296946987509727,
+      "step": 719
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.4700795412063599,
+      "grad_norm_var": 0.062819776138249,
+      "learning_rate": 2e-05,
+      "loss": 0.4491,
+      "loss/crossentropy": 2.4214909076690674,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.024313151836395264,
+      "loss/reg": 0.025294575840234756,
+      "step": 720
+    },
+    {
+      "epoch": 0.3605,
+      "grad_norm": 1.8786181211471558,
+      "grad_norm_var": 0.08067338037888813,
+      "learning_rate": 2e-05,
+      "loss": 0.4645,
+      "loss/crossentropy": 2.574108123779297,
+      "loss/hidden": 0.177734375,
+      "loss/logits": 0.03380656335502863,
+      "loss/reg": 0.025292182341217995,
+      "step": 721
+    },
+    {
+      "epoch": 0.361,
+      "grad_norm": 1.4755817651748657,
+      "grad_norm_var": 0.06003798552636786,
+      "learning_rate": 2e-05,
+      "loss": 0.4538,
+      "loss/crossentropy": 2.327579617500305,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.029062069952487946,
+      "loss/reg": 0.025289788842201233,
+      "step": 722
+    },
+    {
+      "epoch": 0.3615,
+      "grad_norm": 1.5997651815414429,
+      "grad_norm_var": 0.06478959320761259,
+      "learning_rate": 2e-05,
+      "loss": 0.4824,
+      "loss/crossentropy": 2.248897910118103,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.037585300393402576,
+      "loss/reg": 0.025287389755249023,
+      "step": 723
+    },
+    {
+      "epoch": 0.362,
+      "grad_norm": 0.9326217770576477,
+      "grad_norm_var": 0.07466397239676793,
+      "learning_rate": 2e-05,
+      "loss": 0.4426,
+      "loss/crossentropy": 2.4139727354049683,
+      "loss/hidden": 0.16162109375,
+      "loss/logits": 0.028111821971833706,
+      "loss/reg": 0.025284940376877785,
+      "step": 724
+    },
+    {
+      "epoch": 0.3625,
+      "grad_norm": 1.4016598463058472,
+      "grad_norm_var": 0.07227671584546869,
+      "learning_rate": 2e-05,
+      "loss": 0.4875,
+      "loss/crossentropy": 2.2318572402000427,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.04322698712348938,
+      "loss/reg": 0.02528252638876438,
+      "step": 725
+    },
+    {
+      "epoch": 0.363,
+      "grad_norm": 2.276989698410034,
+      "grad_norm_var": 0.12165648929605381,
+      "learning_rate": 2e-05,
+      "loss": 0.5242,
+      "loss/crossentropy": 2.2202149629592896,
+      "loss/hidden": 0.23095703125,
+      "loss/logits": 0.040427614003419876,
+      "loss/reg": 0.0252800602465868,
+      "step": 726
+    },
+    {
+      "epoch": 0.3635,
+      "grad_norm": 1.3967205286026,
+      "grad_norm_var": 0.11962167472225668,
+      "learning_rate": 2e-05,
+      "loss": 0.4749,
+      "loss/crossentropy": 2.4266481399536133,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.03263301961123943,
+      "loss/reg": 0.025277448818087578,
+      "step": 727
+    },
+    {
+      "epoch": 0.364,
+      "grad_norm": 1.777940273284912,
+      "grad_norm_var": 0.12672369877618006,
+      "learning_rate": 2e-05,
+      "loss": 0.4827,
+      "loss/crossentropy": 2.5460067987442017,
+      "loss/hidden": 0.19384765625,
+      "loss/logits": 0.03612758591771126,
+      "loss/reg": 0.025274960324168205,
+      "step": 728
+    },
+    {
+      "epoch": 0.3645,
+      "grad_norm": 1.3306031227111816,
+      "grad_norm_var": 0.12017416562564118,
+      "learning_rate": 2e-05,
+      "loss": 0.4589,
+      "loss/crossentropy": 2.3280850648880005,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.033771621994674206,
+      "loss/reg": 0.025272710248827934,
+      "step": 729
+    },
+    {
+      "epoch": 0.365,
+      "grad_norm": 1.8370397090911865,
+      "grad_norm_var": 0.12865930776388695,
+      "learning_rate": 2e-05,
+      "loss": 0.477,
+      "loss/crossentropy": 2.3396809101104736,
+      "loss/hidden": 0.1923828125,
+      "loss/logits": 0.03194649703800678,
+      "loss/reg": 0.025270242244005203,
+      "step": 730
+    },
+    {
+      "epoch": 0.3655,
+      "grad_norm": 1.231892704963684,
+      "grad_norm_var": 0.12633683764280407,
+      "learning_rate": 2e-05,
+      "loss": 0.4522,
+      "loss/crossentropy": 2.5270928144454956,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.029576458036899567,
+      "loss/reg": 0.0252678282558918,
+      "step": 731
+    },
+    {
+      "epoch": 0.366,
+      "grad_norm": 1.4518746137619019,
+      "grad_norm_var": 0.11436872382724275,
+      "learning_rate": 2e-05,
+      "loss": 0.4706,
+      "loss/crossentropy": 2.5901981592178345,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.05386000592261553,
+      "loss/reg": 0.02526557259261608,
+      "step": 732
+    },
+    {
+      "epoch": 0.3665,
+      "grad_norm": 1.6061288118362427,
+      "grad_norm_var": 0.09343888808112574,
+      "learning_rate": 2e-05,
+      "loss": 0.4847,
+      "loss/crossentropy": 2.3777267932891846,
+      "loss/hidden": 0.19482421875,
+      "loss/logits": 0.03727641887962818,
+      "loss/reg": 0.02526322938501835,
+      "step": 733
+    },
+    {
+      "epoch": 0.367,
+      "grad_norm": 1.2036224603652954,
+      "grad_norm_var": 0.10025301072385275,
+      "learning_rate": 2e-05,
+      "loss": 0.4686,
+      "loss/crossentropy": 2.4308606386184692,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.0324308592826128,
+      "loss/reg": 0.02526094578206539,
+      "step": 734
+    },
+    {
+      "epoch": 0.3675,
+      "grad_norm": 1.1550683975219727,
+      "grad_norm_var": 0.10750280174214168,
+      "learning_rate": 2e-05,
+      "loss": 0.4347,
+      "loss/crossentropy": 2.320576786994934,
+      "loss/hidden": 0.1533203125,
+      "loss/logits": 0.028841860592365265,
+      "loss/reg": 0.025258498266339302,
+      "step": 735
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 1.1622178554534912,
+      "grad_norm_var": 0.1147218928368229,
+      "learning_rate": 2e-05,
+      "loss": 0.4227,
+      "loss/crossentropy": 2.37722384929657,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.021224712021648884,
+      "loss/reg": 0.025255965068936348,
+      "step": 736
+    },
+    {
+      "epoch": 0.3685,
+      "grad_norm": 1.2075239419937134,
+      "grad_norm_var": 0.1074162568700674,
+      "learning_rate": 2e-05,
+      "loss": 0.4463,
+      "loss/crossentropy": 2.341481566429138,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.031207844614982605,
+      "loss/reg": 0.025253457948565483,
+      "step": 737
+    },
+    {
+      "epoch": 0.369,
+      "grad_norm": 1.5584073066711426,
+      "grad_norm_var": 0.10823295060967611,
+      "learning_rate": 2e-05,
+      "loss": 0.4797,
+      "loss/crossentropy": 2.2698925733566284,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.04022688418626785,
+      "loss/reg": 0.025251101702451706,
+      "step": 738
+    },
+    {
+      "epoch": 0.3695,
+      "grad_norm": 1.0440956354141235,
+      "grad_norm_var": 0.11611120991532643,
+      "learning_rate": 2e-05,
+      "loss": 0.4302,
+      "loss/crossentropy": 2.3013094663619995,
+      "loss/hidden": 0.1533203125,
+      "loss/logits": 0.024398976005613804,
+      "loss/reg": 0.025248851627111435,
+      "step": 739
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.4074509143829346,
+      "grad_norm_var": 0.09992254468936514,
+      "learning_rate": 2e-05,
+      "loss": 0.4871,
+      "loss/crossentropy": 2.5492948293685913,
+      "loss/hidden": 0.2041015625,
+      "loss/logits": 0.03054051846265793,
+      "loss/reg": 0.025246579200029373,
+      "step": 740
+    },
+    {
+      "epoch": 0.3705,
+      "grad_norm": 1.2850230932235718,
+      "grad_norm_var": 0.10137802938979425,
+      "learning_rate": 2e-05,
+      "loss": 0.463,
+      "loss/crossentropy": 2.3693546056747437,
+      "loss/hidden": 0.17919921875,
+      "loss/logits": 0.031334346160292625,
+      "loss/reg": 0.02524430677294731,
+      "step": 741
+    },
+    {
+      "epoch": 0.371,
+      "grad_norm": 1.5320541858673096,
+      "grad_norm_var": 0.05226058368684695,
+      "learning_rate": 2e-05,
+      "loss": 0.4494,
+      "loss/crossentropy": 2.404141068458557,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.029474626295268536,
+      "loss/reg": 0.025241872295737267,
+      "step": 742
+    },
+    {
+      "epoch": 0.3715,
+      "grad_norm": 1.2663581371307373,
+      "grad_norm_var": 0.05314906099788974,
+      "learning_rate": 2e-05,
+      "loss": 0.4418,
+      "loss/crossentropy": 2.3754160404205322,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.0248889597132802,
+      "loss/reg": 0.0252396073192358,
+      "step": 743
+    },
+    {
+      "epoch": 0.372,
+      "grad_norm": 1.8194047212600708,
+      "grad_norm_var": 0.05546441039958623,
+      "learning_rate": 2e-05,
+      "loss": 0.4775,
+      "loss/crossentropy": 2.3306996822357178,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.051343479193747044,
+      "loss/reg": 0.02523711882531643,
+      "step": 744
+    },
+    {
+      "epoch": 0.3725,
+      "grad_norm": 1.1723297834396362,
+      "grad_norm_var": 0.05809724214908408,
+      "learning_rate": 2e-05,
+      "loss": 0.4121,
+      "loss/crossentropy": 2.492545485496521,
+      "loss/hidden": 0.13623046875,
+      "loss/logits": 0.02352056372910738,
+      "loss/reg": 0.025234658271074295,
+      "step": 745
+    },
+    {
+      "epoch": 0.373,
+      "grad_norm": 1.085463047027588,
+      "grad_norm_var": 0.04672765278327275,
+      "learning_rate": 2e-05,
+      "loss": 0.4431,
+      "loss/crossentropy": 2.5141403675079346,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.02963507827371359,
+      "loss/reg": 0.02523215487599373,
+      "step": 746
+    },
+    {
+      "epoch": 0.3735,
+      "grad_norm": 1.266335129737854,
+      "grad_norm_var": 0.04637739796541395,
+      "learning_rate": 2e-05,
+      "loss": 0.4577,
+      "loss/crossentropy": 2.527552366256714,
+      "loss/hidden": 0.177734375,
+      "loss/logits": 0.02770281210541725,
+      "loss/reg": 0.025229567661881447,
+      "step": 747
+    },
+    {
+      "epoch": 0.374,
+      "grad_norm": 1.704702377319336,
+      "grad_norm_var": 0.05460029232385371,
+      "learning_rate": 2e-05,
+      "loss": 0.448,
+      "loss/crossentropy": 2.5581319332122803,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.026291027665138245,
+      "loss/reg": 0.0252272579818964,
+      "step": 748
+    },
+    {
+      "epoch": 0.3745,
+      "grad_norm": 2.3668906688690186,
+      "grad_norm_var": 0.11753805177080157,
+      "learning_rate": 2e-05,
+      "loss": 0.5337,
+      "loss/crossentropy": 2.3304221630096436,
+      "loss/hidden": 0.24169921875,
+      "loss/logits": 0.03977209888398647,
+      "loss/reg": 0.025224953889846802,
+      "step": 749
+    },
+    {
+      "epoch": 0.375,
+      "grad_norm": 1.3969782590866089,
+      "grad_norm_var": 0.11507466699231461,
+      "learning_rate": 2e-05,
+      "loss": 0.4742,
+      "loss/crossentropy": 2.3295921087265015,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.030590247362852097,
+      "loss/reg": 0.02522265538573265,
+      "step": 750
+    },
+    {
+      "epoch": 0.3755,
+      "grad_norm": 1.4511960744857788,
+      "grad_norm_var": 0.11080980776827473,
+      "learning_rate": 2e-05,
+      "loss": 0.5357,
+      "loss/crossentropy": 2.506491780281067,
+      "loss/hidden": 0.2373046875,
+      "loss/logits": 0.04617682471871376,
+      "loss/reg": 0.025220239534974098,
+      "step": 751
+    },
+    {
+      "epoch": 0.376,
+      "grad_norm": 0.9766618609428406,
+      "grad_norm_var": 0.1193494277132064,
+      "learning_rate": 2e-05,
+      "loss": 0.4495,
+      "loss/crossentropy": 2.248973250389099,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.02738242596387863,
+      "loss/reg": 0.025217954069375992,
+      "step": 752
+    },
+    {
+      "epoch": 0.3765,
+      "grad_norm": 1.1288150548934937,
+      "grad_norm_var": 0.12184896532288716,
+      "learning_rate": 2e-05,
+      "loss": 0.4228,
+      "loss/crossentropy": 2.373740792274475,
+      "loss/hidden": 0.1474609375,
+      "loss/logits": 0.023226436227560043,
+      "loss/reg": 0.025215715169906616,
+      "step": 753
+    },
+    {
+      "epoch": 0.377,
+      "grad_norm": 1.3548938035964966,
+      "grad_norm_var": 0.12024460158514286,
+      "learning_rate": 2e-05,
+      "loss": 0.4838,
+      "loss/crossentropy": 2.304950475692749,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.04713786952197552,
+      "loss/reg": 0.02521336078643799,
+      "step": 754
+    },
+    {
+      "epoch": 0.3775,
+      "grad_norm": 1.3141090869903564,
+      "grad_norm_var": 0.1123061572966031,
+      "learning_rate": 2e-05,
+      "loss": 0.469,
+      "loss/crossentropy": 2.4102286100387573,
+      "loss/hidden": 0.185546875,
+      "loss/logits": 0.03135187551379204,
+      "loss/reg": 0.025211207568645477,
+      "step": 755
+    },
+    {
+      "epoch": 0.378,
+      "grad_norm": 2.194099187850952,
+      "grad_norm_var": 0.1509201675997546,
+      "learning_rate": 2e-05,
+      "loss": 0.5182,
+      "loss/crossentropy": 2.5629695653915405,
+      "loss/hidden": 0.21923828125,
+      "loss/logits": 0.04687961935997009,
+      "loss/reg": 0.02520875632762909,
+      "step": 756
+    },
+    {
+      "epoch": 0.3785,
+      "grad_norm": 1.8557016849517822,
+      "grad_norm_var": 0.15817322836116407,
+      "learning_rate": 2e-05,
+      "loss": 0.4778,
+      "loss/crossentropy": 2.405009627342224,
+      "loss/hidden": 0.19677734375,
+      "loss/logits": 0.028977664187550545,
+      "loss/reg": 0.025206197053194046,
+      "step": 757
+    },
+    {
+      "epoch": 0.379,
+      "grad_norm": 1.1612073183059692,
+      "grad_norm_var": 0.1648314055929359,
+      "learning_rate": 2e-05,
+      "loss": 0.4358,
+      "loss/crossentropy": 2.4666056632995605,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.024547006003558636,
+      "loss/reg": 0.02520374022424221,
+      "step": 758
+    },
+    {
+      "epoch": 0.3795,
+      "grad_norm": 1.2368805408477783,
+      "grad_norm_var": 0.16568490433094543,
+      "learning_rate": 2e-05,
+      "loss": 0.4821,
+      "loss/crossentropy": 2.499003052711487,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.03675047680735588,
+      "loss/reg": 0.025201212614774704,
+      "step": 759
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.1964080333709717,
+      "grad_norm_var": 0.16074074145114683,
+      "learning_rate": 2e-05,
+      "loss": 0.4833,
+      "loss/crossentropy": 2.2424347400665283,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.032082391902804375,
+      "loss/reg": 0.025198953226208687,
+      "step": 760
+    },
+    {
+      "epoch": 0.3805,
+      "grad_norm": 1.2416514158248901,
+      "grad_norm_var": 0.15866947858677752,
+      "learning_rate": 2e-05,
+      "loss": 0.4837,
+      "loss/crossentropy": 2.1305224299430847,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.031024353578686714,
+      "loss/reg": 0.02519652061164379,
+      "step": 761
+    },
+    {
+      "epoch": 0.381,
+      "grad_norm": 1.4174950122833252,
+      "grad_norm_var": 0.15016297167369203,
+      "learning_rate": 2e-05,
+      "loss": 0.4513,
+      "loss/crossentropy": 2.610305905342102,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.03143086936324835,
+      "loss/reg": 0.025194261223077774,
+      "step": 762
+    },
+    {
+      "epoch": 0.3815,
+      "grad_norm": 1.2875245809555054,
+      "grad_norm_var": 0.149660827140138,
+      "learning_rate": 2e-05,
+      "loss": 0.4411,
+      "loss/crossentropy": 2.418062686920166,
+      "loss/hidden": 0.16162109375,
+      "loss/logits": 0.027532209642231464,
+      "loss/reg": 0.02519218809902668,
+      "step": 763
+    },
+    {
+      "epoch": 0.382,
+      "grad_norm": 2.1845688819885254,
+      "grad_norm_var": 0.180008472094818,
+      "learning_rate": 2e-05,
+      "loss": 0.5501,
+      "loss/crossentropy": 2.4159024953842163,
+      "loss/hidden": 0.25244140625,
+      "loss/logits": 0.04572839289903641,
+      "loss/reg": 0.025189923122525215,
+      "step": 764
+    },
+    {
+      "epoch": 0.3825,
+      "grad_norm": 1.8935918807983398,
+      "grad_norm_var": 0.13837621014211632,
+      "learning_rate": 2e-05,
+      "loss": 0.4812,
+      "loss/crossentropy": 2.5697638988494873,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.03301386162638664,
+      "loss/reg": 0.025187674909830093,
+      "step": 765
+    },
+    {
+      "epoch": 0.383,
+      "grad_norm": 1.5216825008392334,
+      "grad_norm_var": 0.13837117134393406,
+      "learning_rate": 2e-05,
+      "loss": 0.4664,
+      "loss/crossentropy": 2.4129964113235474,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.032372357323765755,
+      "loss/reg": 0.025185411795973778,
+      "step": 766
+    },
+    {
+      "epoch": 0.3835,
+      "grad_norm": 1.0873256921768188,
+      "grad_norm_var": 0.14724468912793848,
+      "learning_rate": 2e-05,
+      "loss": 0.4436,
+      "loss/crossentropy": 2.3542500734329224,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.026738815940916538,
+      "loss/reg": 0.025183262303471565,
+      "step": 767
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 1.8608894348144531,
+      "grad_norm_var": 0.14139169238716037,
+      "learning_rate": 2e-05,
+      "loss": 0.4817,
+      "loss/crossentropy": 2.070446014404297,
+      "loss/hidden": 0.19677734375,
+      "loss/logits": 0.03307647071778774,
+      "loss/reg": 0.025181252509355545,
+      "step": 768
+    },
+    {
+      "epoch": 0.3845,
+      "grad_norm": 1.2290267944335938,
+      "grad_norm_var": 0.1371124714077353,
+      "learning_rate": 2e-05,
+      "loss": 0.4697,
+      "loss/crossentropy": 2.607566475868225,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.03431819751858711,
+      "loss/reg": 0.025178972631692886,
+      "step": 769
+    },
+    {
+      "epoch": 0.385,
+      "grad_norm": 1.6517506837844849,
+      "grad_norm_var": 0.13678511646327815,
+      "learning_rate": 2e-05,
+      "loss": 0.5167,
+      "loss/crossentropy": 2.214709520339966,
+      "loss/hidden": 0.22412109375,
+      "loss/logits": 0.04081333614885807,
+      "loss/reg": 0.0251768808811903,
+      "step": 770
+    },
+    {
+      "epoch": 0.3855,
+      "grad_norm": 1.0256072282791138,
+      "grad_norm_var": 0.14994063600200108,
+      "learning_rate": 2e-05,
+      "loss": 0.4487,
+      "loss/crossentropy": 2.3049023151397705,
+      "loss/hidden": 0.1689453125,
+      "loss/logits": 0.02800673432648182,
+      "loss/reg": 0.02517460659146309,
+      "step": 771
+    },
+    {
+      "epoch": 0.386,
+      "grad_norm": 1.1300290822982788,
+      "grad_norm_var": 0.12263260379390548,
+      "learning_rate": 2e-05,
+      "loss": 0.4688,
+      "loss/crossentropy": 2.4035372734069824,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.030027078464627266,
+      "loss/reg": 0.025172380730509758,
+      "step": 772
+    },
+    {
+      "epoch": 0.3865,
+      "grad_norm": 1.5945173501968384,
+      "grad_norm_var": 0.11229187265839163,
+      "learning_rate": 2e-05,
+      "loss": 0.509,
+      "loss/crossentropy": 2.2906605005264282,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.04339625872671604,
+      "loss/reg": 0.02517029643058777,
+      "step": 773
+    },
+    {
+      "epoch": 0.387,
+      "grad_norm": 1.2455098628997803,
+      "grad_norm_var": 0.1098270276560114,
+      "learning_rate": 2e-05,
+      "loss": 0.506,
+      "loss/crossentropy": 2.1885640621185303,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.033652519807219505,
+      "loss/reg": 0.025167938321828842,
+      "step": 774
+    },
+    {
+      "epoch": 0.3875,
+      "grad_norm": 1.943253755569458,
+      "grad_norm_var": 0.12326830210349768,
+      "learning_rate": 2e-05,
+      "loss": 0.4517,
+      "loss/crossentropy": 2.537282109260559,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.029665526933968067,
+      "loss/reg": 0.0251656174659729,
+      "step": 775
+    },
+    {
+      "epoch": 0.388,
+      "grad_norm": 1.6714816093444824,
+      "grad_norm_var": 0.12008035318969133,
+      "learning_rate": 2e-05,
+      "loss": 0.4953,
+      "loss/crossentropy": 2.1838293075561523,
+      "loss/hidden": 0.208984375,
+      "loss/logits": 0.034706905484199524,
+      "loss/reg": 0.025163283571600914,
+      "step": 776
+    },
+    {
+      "epoch": 0.3885,
+      "grad_norm": 1.2149651050567627,
+      "grad_norm_var": 0.12104097819330283,
+      "learning_rate": 2e-05,
+      "loss": 0.445,
+      "loss/crossentropy": 2.3864688873291016,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.03277465607970953,
+      "loss/reg": 0.025161121040582657,
+      "step": 777
+    },
+    {
+      "epoch": 0.389,
+      "grad_norm": 1.1848781108856201,
+      "grad_norm_var": 0.12690278069956282,
+      "learning_rate": 2e-05,
+      "loss": 0.4562,
+      "loss/crossentropy": 2.383737087249756,
+      "loss/hidden": 0.17138671875,
+      "loss/logits": 0.033218057826161385,
+      "loss/reg": 0.025158870965242386,
+      "step": 778
+    },
+    {
+      "epoch": 0.3895,
+      "grad_norm": 2.212529420852661,
+      "grad_norm_var": 0.1562819136879937,
+      "learning_rate": 2e-05,
+      "loss": 0.564,
+      "loss/crossentropy": 2.454702615737915,
+      "loss/hidden": 0.27734375,
+      "loss/logits": 0.03507992811501026,
+      "loss/reg": 0.025156671181321144,
+      "step": 779
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.3409082889556885,
+      "grad_norm_var": 0.12834240393133164,
+      "learning_rate": 2e-05,
+      "loss": 0.4781,
+      "loss/crossentropy": 2.3675941228866577,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.03905305452644825,
+      "loss/reg": 0.02515433356165886,
+      "step": 780
+    },
+    {
+      "epoch": 0.3905,
+      "grad_norm": 1.649703025817871,
+      "grad_norm_var": 0.1188706614056916,
+      "learning_rate": 2e-05,
+      "loss": 0.5103,
+      "loss/crossentropy": 1.9899500608444214,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.05418789014220238,
+      "loss/reg": 0.025151889771223068,
+      "step": 781
+    },
+    {
+      "epoch": 0.391,
+      "grad_norm": 1.539289951324463,
+      "grad_norm_var": 0.11900490617594,
+      "learning_rate": 2e-05,
+      "loss": 0.4399,
+      "loss/crossentropy": 2.3202253580093384,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.02825088147073984,
+      "loss/reg": 0.025149622932076454,
+      "step": 782
+    },
+    {
+      "epoch": 0.3915,
+      "grad_norm": 2.8615036010742188,
+      "grad_norm_var": 0.22430059081523435,
+      "learning_rate": 2e-05,
+      "loss": 0.5087,
+      "loss/crossentropy": 2.3681873083114624,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.07264281064271927,
+      "loss/reg": 0.025147197768092155,
+      "step": 783
+    },
+    {
+      "epoch": 0.392,
+      "grad_norm": 1.4059878587722778,
+      "grad_norm_var": 0.22048462683969675,
+      "learning_rate": 2e-05,
+      "loss": 0.4234,
+      "loss/crossentropy": 2.4366742372512817,
+      "loss/hidden": 0.14990234375,
+      "loss/logits": 0.022082606330513954,
+      "loss/reg": 0.025144780054688454,
+      "step": 784
+    },
+    {
+      "epoch": 0.3925,
+      "grad_norm": 1.011724591255188,
+      "grad_norm_var": 0.23291844077479976,
+      "learning_rate": 2e-05,
+      "loss": 0.4233,
+      "loss/crossentropy": 2.2704352140426636,
+      "loss/hidden": 0.1435546875,
+      "loss/logits": 0.028314979746937752,
+      "loss/reg": 0.02514229156076908,
+      "step": 785
+    },
+    {
+      "epoch": 0.393,
+      "grad_norm": 1.193475365638733,
+      "grad_norm_var": 0.23938277110281755,
+      "learning_rate": 2e-05,
+      "loss": 0.4774,
+      "loss/crossentropy": 2.372236728668213,
+      "loss/hidden": 0.19091796875,
+      "loss/logits": 0.0351157495751977,
+      "loss/reg": 0.0251397043466568,
+      "step": 786
+    },
+    {
+      "epoch": 0.3935,
+      "grad_norm": 1.1133381128311157,
+      "grad_norm_var": 0.23414986734980137,
+      "learning_rate": 2e-05,
+      "loss": 0.4323,
+      "loss/crossentropy": 2.2562466859817505,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.028081120923161507,
+      "loss/reg": 0.025137118995189667,
+      "step": 787
+    },
+    {
+      "epoch": 0.394,
+      "grad_norm": 1.4887886047363281,
+      "grad_norm_var": 0.22356068135045598,
+      "learning_rate": 2e-05,
+      "loss": 0.4772,
+      "loss/crossentropy": 2.218737244606018,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.0549413226544857,
+      "loss/reg": 0.025134827941656113,
+      "step": 788
+    },
+    {
+      "epoch": 0.3945,
+      "grad_norm": 1.6351099014282227,
+      "grad_norm_var": 0.22394795699470554,
+      "learning_rate": 2e-05,
+      "loss": 0.4897,
+      "loss/crossentropy": 2.6010366678237915,
+      "loss/hidden": 0.2099609375,
+      "loss/logits": 0.02844669111073017,
+      "loss/reg": 0.02513228729367256,
+      "step": 789
+    },
+    {
+      "epoch": 0.395,
+      "grad_norm": 1.6281384229660034,
+      "grad_norm_var": 0.21784319752439665,
+      "learning_rate": 2e-05,
+      "loss": 0.4864,
+      "loss/crossentropy": 2.3249675035476685,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.028079986572265625,
+      "loss/reg": 0.02512998878955841,
+      "step": 790
+    },
+    {
+      "epoch": 0.3955,
+      "grad_norm": 1.526131510734558,
+      "grad_norm_var": 0.20787200314066634,
+      "learning_rate": 2e-05,
+      "loss": 0.53,
+      "loss/crossentropy": 2.134896695613861,
+      "loss/hidden": 0.2412109375,
+      "loss/logits": 0.037468770518898964,
+      "loss/reg": 0.025127559900283813,
+      "step": 791
+    },
+    {
+      "epoch": 0.396,
+      "grad_norm": 1.2636619806289673,
+      "grad_norm_var": 0.211246353547789,
+      "learning_rate": 2e-05,
+      "loss": 0.4303,
+      "loss/crossentropy": 2.412594199180603,
+      "loss/hidden": 0.154296875,
+      "loss/logits": 0.024777178652584553,
+      "loss/reg": 0.02512528747320175,
+      "step": 792
+    },
+    {
+      "epoch": 0.3965,
+      "grad_norm": 1.5792723894119263,
+      "grad_norm_var": 0.2048758713311332,
+      "learning_rate": 2e-05,
+      "loss": 0.4862,
+      "loss/crossentropy": 2.2064541578292847,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.034297335892915726,
+      "loss/reg": 0.02512306347489357,
+      "step": 793
+    },
+    {
+      "epoch": 0.397,
+      "grad_norm": 1.3188270330429077,
+      "grad_norm_var": 0.199661045066693,
+      "learning_rate": 2e-05,
+      "loss": 0.4927,
+      "loss/crossentropy": 2.26226544380188,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.04274392127990723,
+      "loss/reg": 0.025120839476585388,
+      "step": 794
+    },
+    {
+      "epoch": 0.3975,
+      "grad_norm": 1.6991007328033447,
+      "grad_norm_var": 0.1706464817422428,
+      "learning_rate": 2e-05,
+      "loss": 0.4816,
+      "loss/crossentropy": 2.36691677570343,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.03702061250805855,
+      "loss/reg": 0.025118518620729446,
+      "step": 795
+    },
+    {
+      "epoch": 0.398,
+      "grad_norm": 1.7001802921295166,
+      "grad_norm_var": 0.1703294579580552,
+      "learning_rate": 2e-05,
+      "loss": 0.4837,
+      "loss/crossentropy": 2.2683218717575073,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.06313092540949583,
+      "loss/reg": 0.025116167962551117,
+      "step": 796
+    },
+    {
+      "epoch": 0.3985,
+      "grad_norm": 1.6777490377426147,
+      "grad_norm_var": 0.1707948722071741,
+      "learning_rate": 2e-05,
+      "loss": 0.4669,
+      "loss/crossentropy": 2.364277482032776,
+      "loss/hidden": 0.181640625,
+      "loss/logits": 0.03413047455251217,
+      "loss/reg": 0.02511376328766346,
+      "step": 797
+    },
+    {
+      "epoch": 0.399,
+      "grad_norm": 1.1140098571777344,
+      "grad_norm_var": 0.18214716036864212,
+      "learning_rate": 2e-05,
+      "loss": 0.4658,
+      "loss/crossentropy": 2.187538802623749,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.03205987066030502,
+      "loss/reg": 0.025110801681876183,
+      "step": 798
+    },
+    {
+      "epoch": 0.3995,
+      "grad_norm": 1.129773497581482,
+      "grad_norm_var": 0.058341697787046044,
+      "learning_rate": 2e-05,
+      "loss": 0.4369,
+      "loss/crossentropy": 2.3475732803344727,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.024723156355321407,
+      "loss/reg": 0.025107914581894875,
+      "step": 799
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.3154513835906982,
+      "grad_norm_var": 0.05884605160209707,
+      "learning_rate": 2e-05,
+      "loss": 0.4572,
+      "loss/crossentropy": 2.398823618888855,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.0318829407915473,
+      "loss/reg": 0.025105012580752373,
+      "step": 800
+    },
+    {
+      "epoch": 0.4005,
+      "grad_norm": 1.3138872385025024,
+      "grad_norm_var": 0.048922729616520874,
+      "learning_rate": 2e-05,
+      "loss": 0.4692,
+      "loss/crossentropy": 2.3344963788986206,
+      "loss/hidden": 0.181640625,
+      "loss/logits": 0.036580765619874,
+      "loss/reg": 0.025102730840444565,
+      "step": 801
+    },
+    {
+      "epoch": 0.401,
+      "grad_norm": 1.0770680904388428,
+      "grad_norm_var": 0.05326311463356787,
+      "learning_rate": 2e-05,
+      "loss": 0.4599,
+      "loss/crossentropy": 2.337261915206909,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.03461520001292229,
+      "loss/reg": 0.025099987164139748,
+      "step": 802
+    },
+    {
+      "epoch": 0.4015,
+      "grad_norm": 0.9409591555595398,
+      "grad_norm_var": 0.06196813771724311,
+      "learning_rate": 2e-05,
+      "loss": 0.4278,
+      "loss/crossentropy": 2.4044833183288574,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.030327575281262398,
+      "loss/reg": 0.025096973404288292,
+      "step": 803
+    },
+    {
+      "epoch": 0.402,
+      "grad_norm": 1.4571963548660278,
+      "grad_norm_var": 0.06165864774989793,
+      "learning_rate": 2e-05,
+      "loss": 0.4391,
+      "loss/crossentropy": 2.3775731325149536,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.028936855494976044,
+      "loss/reg": 0.025093907490372658,
+      "step": 804
+    },
+    {
+      "epoch": 0.4025,
+      "grad_norm": 1.3221757411956787,
+      "grad_norm_var": 0.05790803967387448,
+      "learning_rate": 2e-05,
+      "loss": 0.4374,
+      "loss/crossentropy": 2.535359501838684,
+      "loss/hidden": 0.15869140625,
+      "loss/logits": 0.027763372287154198,
+      "loss/reg": 0.02509160339832306,
+      "step": 805
+    },
+    {
+      "epoch": 0.403,
+      "grad_norm": 0.944514811038971,
+      "grad_norm_var": 0.064405569007729,
+      "learning_rate": 2e-05,
+      "loss": 0.4569,
+      "loss/crossentropy": 2.209794282913208,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.030202921479940414,
+      "loss/reg": 0.0250887181609869,
+      "step": 806
+    },
+    {
+      "epoch": 0.4035,
+      "grad_norm": 1.182153344154358,
+      "grad_norm_var": 0.06309183378906127,
+      "learning_rate": 2e-05,
+      "loss": 0.4521,
+      "loss/crossentropy": 2.2558337450027466,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.027920391410589218,
+      "loss/reg": 0.02508593164384365,
+      "step": 807
+    },
+    {
+      "epoch": 0.404,
+      "grad_norm": 1.3775771856307983,
+      "grad_norm_var": 0.06312693371007896,
+      "learning_rate": 2e-05,
+      "loss": 0.4939,
+      "loss/crossentropy": 2.2632880210876465,
+      "loss/hidden": 0.208984375,
+      "loss/logits": 0.03405469283461571,
+      "loss/reg": 0.025083083659410477,
+      "step": 808
+    },
+    {
+      "epoch": 0.4045,
+      "grad_norm": 1.5316611528396606,
+      "grad_norm_var": 0.06163456830326434,
+      "learning_rate": 2e-05,
+      "loss": 0.5141,
+      "loss/crossentropy": 2.223612070083618,
+      "loss/hidden": 0.22705078125,
+      "loss/logits": 0.036264341324567795,
+      "loss/reg": 0.02508021518588066,
+      "step": 809
+    },
+    {
+      "epoch": 0.405,
+      "grad_norm": 1.149705171585083,
+      "grad_norm_var": 0.06342368922468508,
+      "learning_rate": 2e-05,
+      "loss": 0.4366,
+      "loss/crossentropy": 2.47035813331604,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.02665360551327467,
+      "loss/reg": 0.02507762797176838,
+      "step": 810
+    },
+    {
+      "epoch": 0.4055,
+      "grad_norm": 1.2824203968048096,
+      "grad_norm_var": 0.052564492158762674,
+      "learning_rate": 2e-05,
+      "loss": 0.4829,
+      "loss/crossentropy": 2.478409767150879,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.034352305345237255,
+      "loss/reg": 0.02507534809410572,
+      "step": 811
+    },
+    {
+      "epoch": 0.406,
+      "grad_norm": 2.6002371311187744,
+      "grad_norm_var": 0.15334706854063704,
+      "learning_rate": 2e-05,
+      "loss": 0.5122,
+      "loss/crossentropy": 2.588177442550659,
+      "loss/hidden": 0.2373046875,
+      "loss/logits": 0.024176809936761856,
+      "loss/reg": 0.025072963908314705,
+      "step": 812
+    },
+    {
+      "epoch": 0.4065,
+      "grad_norm": 1.5694222450256348,
+      "grad_norm_var": 0.149181005955631,
+      "learning_rate": 2e-05,
+      "loss": 0.5268,
+      "loss/crossentropy": 2.154956102371216,
+      "loss/hidden": 0.232421875,
+      "loss/logits": 0.04367602989077568,
+      "loss/reg": 0.025070277974009514,
+      "step": 813
+    },
+    {
+      "epoch": 0.407,
+      "grad_norm": 1.2066580057144165,
+      "grad_norm_var": 0.1470275588442864,
+      "learning_rate": 2e-05,
+      "loss": 0.4439,
+      "loss/crossentropy": 2.4592679738998413,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.03256369009613991,
+      "loss/reg": 0.025067761540412903,
+      "step": 814
+    },
+    {
+      "epoch": 0.4075,
+      "grad_norm": 1.298493504524231,
+      "grad_norm_var": 0.1441324853666197,
+      "learning_rate": 2e-05,
+      "loss": 0.4939,
+      "loss/crossentropy": 2.1921013593673706,
+      "loss/hidden": 0.20263671875,
+      "loss/logits": 0.040627798065543175,
+      "loss/reg": 0.02506544440984726,
+      "step": 815
+    },
+    {
+      "epoch": 0.408,
+      "grad_norm": 1.0179194211959839,
+      "grad_norm_var": 0.15096046825236584,
+      "learning_rate": 2e-05,
+      "loss": 0.4628,
+      "loss/crossentropy": 2.2625861167907715,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.03002795670181513,
+      "loss/reg": 0.025062717497348785,
+      "step": 816
+    },
+    {
+      "epoch": 0.4085,
+      "grad_norm": 1.279781460762024,
+      "grad_norm_var": 0.1511041804692482,
+      "learning_rate": 2e-05,
+      "loss": 0.4842,
+      "loss/crossentropy": 2.138561725616455,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.035851323045790195,
+      "loss/reg": 0.025060279294848442,
+      "step": 817
+    },
+    {
+      "epoch": 0.409,
+      "grad_norm": 1.0807183980941772,
+      "grad_norm_var": 0.15098318869743482,
+      "learning_rate": 2e-05,
+      "loss": 0.4273,
+      "loss/crossentropy": 2.3973305225372314,
+      "loss/hidden": 0.150390625,
+      "loss/logits": 0.026333114132285118,
+      "loss/reg": 0.02505759336054325,
+      "step": 818
+    },
+    {
+      "epoch": 0.4095,
+      "grad_norm": 1.2695621252059937,
+      "grad_norm_var": 0.1407917737407074,
+      "learning_rate": 2e-05,
+      "loss": 0.4683,
+      "loss/crossentropy": 2.253230392932892,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.047788072377443314,
+      "loss/reg": 0.025055285543203354,
+      "step": 819
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.209682822227478,
+      "grad_norm_var": 0.14102156172926023,
+      "learning_rate": 2e-05,
+      "loss": 0.4417,
+      "loss/crossentropy": 2.182424545288086,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.030013758689165115,
+      "loss/reg": 0.02505277469754219,
+      "step": 820
+    },
+    {
+      "epoch": 0.4105,
+      "grad_norm": 1.6707624197006226,
+      "grad_norm_var": 0.1481284569685306,
+      "learning_rate": 2e-05,
+      "loss": 0.5191,
+      "loss/crossentropy": 2.2835570573806763,
+      "loss/hidden": 0.22802734375,
+      "loss/logits": 0.04061476141214371,
+      "loss/reg": 0.025050263851881027,
+      "step": 821
+    },
+    {
+      "epoch": 0.411,
+      "grad_norm": 1.1448094844818115,
+      "grad_norm_var": 0.1396880017606003,
+      "learning_rate": 2e-05,
+      "loss": 0.4704,
+      "loss/crossentropy": 2.227652668952942,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.041171809658408165,
+      "loss/reg": 0.02504797838628292,
+      "step": 822
+    },
+    {
+      "epoch": 0.4115,
+      "grad_norm": 1.3101500272750854,
+      "grad_norm_var": 0.13755777894761198,
+      "learning_rate": 2e-05,
+      "loss": 0.4425,
+      "loss/crossentropy": 2.4227746725082397,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.02695902157574892,
+      "loss/reg": 0.02504545822739601,
+      "step": 823
+    },
+    {
+      "epoch": 0.412,
+      "grad_norm": 1.7020496129989624,
+      "grad_norm_var": 0.14425061011981716,
+      "learning_rate": 2e-05,
+      "loss": 0.4481,
+      "loss/crossentropy": 2.5413230657577515,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.040394325740635395,
+      "loss/reg": 0.025042949244379997,
+      "step": 824
+    },
+    {
+      "epoch": 0.4125,
+      "grad_norm": 1.0356205701828003,
+      "grad_norm_var": 0.15060720196286131,
+      "learning_rate": 2e-05,
+      "loss": 0.4672,
+      "loss/crossentropy": 2.308974862098694,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.033710891380906105,
+      "loss/reg": 0.025040656328201294,
+      "step": 825
+    },
+    {
+      "epoch": 0.413,
+      "grad_norm": 1.0203226804733276,
+      "grad_norm_var": 0.1553545460901887,
+      "learning_rate": 2e-05,
+      "loss": 0.4106,
+      "loss/crossentropy": 2.477281332015991,
+      "loss/hidden": 0.13671875,
+      "loss/logits": 0.023489448241889477,
+      "loss/reg": 0.025038165971636772,
+      "step": 826
+    },
+    {
+      "epoch": 0.4135,
+      "grad_norm": 1.1076934337615967,
+      "grad_norm_var": 0.15898062007053398,
+      "learning_rate": 2e-05,
+      "loss": 0.4373,
+      "loss/crossentropy": 2.4935485124588013,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.027745064347982407,
+      "loss/reg": 0.02503584697842598,
+      "step": 827
+    },
+    {
+      "epoch": 0.414,
+      "grad_norm": 11.625944137573242,
+      "grad_norm_var": 6.76073723206649,
+      "learning_rate": 2e-05,
+      "loss": 0.5717,
+      "loss/crossentropy": 2.347122311592102,
+      "loss/hidden": 0.29052734375,
+      "loss/logits": 0.030792713165283203,
+      "loss/reg": 0.025033539161086082,
+      "step": 828
+    },
+    {
+      "epoch": 0.4145,
+      "grad_norm": 1.3114373683929443,
+      "grad_norm_var": 6.776589802928325,
+      "learning_rate": 2e-05,
+      "loss": 0.4495,
+      "loss/crossentropy": 2.408790349960327,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.028319708071649075,
+      "loss/reg": 0.02503122203052044,
+      "step": 829
+    },
+    {
+      "epoch": 0.415,
+      "grad_norm": 1.2084417343139648,
+      "grad_norm_var": 6.776426715144699,
+      "learning_rate": 2e-05,
+      "loss": 0.4981,
+      "loss/crossentropy": 2.4079878330230713,
+      "loss/hidden": 0.21044921875,
+      "loss/logits": 0.037383945658802986,
+      "loss/reg": 0.0250290185213089,
+      "step": 830
+    },
+    {
+      "epoch": 0.4155,
+      "grad_norm": 1.5227446556091309,
+      "grad_norm_var": 6.761783844737624,
+      "learning_rate": 2e-05,
+      "loss": 0.5666,
+      "loss/crossentropy": 2.316787838935852,
+      "loss/hidden": 0.2734375,
+      "loss/logits": 0.0429159477353096,
+      "loss/reg": 0.025026634335517883,
+      "step": 831
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 1.3830286264419556,
+      "grad_norm_var": 6.7268166954643736,
+      "learning_rate": 2e-05,
+      "loss": 0.5173,
+      "loss/crossentropy": 2.6073665618896484,
+      "loss/hidden": 0.22900390625,
+      "loss/logits": 0.03809538949280977,
+      "loss/reg": 0.025024237111210823,
+      "step": 832
+    },
+    {
+      "epoch": 0.4165,
+      "grad_norm": 0.9845668077468872,
+      "grad_norm_var": 6.757864312480587,
+      "learning_rate": 2e-05,
+      "loss": 0.4286,
+      "loss/crossentropy": 2.1612448692321777,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.026042289100587368,
+      "loss/reg": 0.025022020563483238,
+      "step": 833
+    },
+    {
+      "epoch": 0.417,
+      "grad_norm": 1.03498113155365,
+      "grad_norm_var": 6.763062760659847,
+      "learning_rate": 2e-05,
+      "loss": 0.4259,
+      "loss/crossentropy": 2.3577685356140137,
+      "loss/hidden": 0.1455078125,
+      "loss/logits": 0.030183385126292706,
+      "loss/reg": 0.025019681081175804,
+      "step": 834
+    },
+    {
+      "epoch": 0.4175,
+      "grad_norm": 1.4572676420211792,
+      "grad_norm_var": 6.749264821786343,
+      "learning_rate": 2e-05,
+      "loss": 0.443,
+      "loss/crossentropy": 2.2105389833450317,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.03076254576444626,
+      "loss/reg": 0.025017455220222473,
+      "step": 835
+    },
+    {
+      "epoch": 0.418,
+      "grad_norm": 1.650352954864502,
+      "grad_norm_var": 6.719631400519071,
+      "learning_rate": 2e-05,
+      "loss": 0.4355,
+      "loss/crossentropy": 2.2510547637939453,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.028081734664738178,
+      "loss/reg": 0.025015119463205338,
+      "step": 836
+    },
+    {
+      "epoch": 0.4185,
+      "grad_norm": 1.5497808456420898,
+      "grad_norm_var": 6.725020460592711,
+      "learning_rate": 2e-05,
+      "loss": 0.4611,
+      "loss/crossentropy": 2.534460186958313,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.03517400100827217,
+      "loss/reg": 0.02501281537115574,
+      "step": 837
+    },
+    {
+      "epoch": 0.419,
+      "grad_norm": 1.1171302795410156,
+      "grad_norm_var": 6.728005163235623,
+      "learning_rate": 2e-05,
+      "loss": 0.446,
+      "loss/crossentropy": 2.4289716482162476,
+      "loss/hidden": 0.1669921875,
+      "loss/logits": 0.028871508315205574,
+      "loss/reg": 0.025010673329234123,
+      "step": 838
+    },
+    {
+      "epoch": 0.4195,
+      "grad_norm": 1.721587061882019,
+      "grad_norm_var": 6.70409609664535,
+      "learning_rate": 2e-05,
+      "loss": 0.434,
+      "loss/crossentropy": 2.530004143714905,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.024708636105060577,
+      "loss/reg": 0.02500857040286064,
+      "step": 839
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.422298550605774,
+      "grad_norm_var": 6.718779037944629,
+      "learning_rate": 2e-05,
+      "loss": 0.4845,
+      "loss/crossentropy": 2.1376953125,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.03421156480908394,
+      "loss/reg": 0.025006268173456192,
+      "step": 840
+    },
+    {
+      "epoch": 0.4205,
+      "grad_norm": 1.2492433786392212,
+      "grad_norm_var": 6.695670215657393,
+      "learning_rate": 2e-05,
+      "loss": 0.4417,
+      "loss/crossentropy": 2.392310380935669,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.035860566422343254,
+      "loss/reg": 0.02500392496585846,
+      "step": 841
+    },
+    {
+      "epoch": 0.421,
+      "grad_norm": 1.8433566093444824,
+      "grad_norm_var": 6.634841808570999,
+      "learning_rate": 2e-05,
+      "loss": 0.5097,
+      "loss/crossentropy": 2.4924964904785156,
+      "loss/hidden": 0.21728515625,
+      "loss/logits": 0.042372843250632286,
+      "loss/reg": 0.025001544505357742,
+      "step": 842
+    },
+    {
+      "epoch": 0.4215,
+      "grad_norm": 1.458393931388855,
+      "grad_norm_var": 6.600249569106912,
+      "learning_rate": 2e-05,
+      "loss": 0.4652,
+      "loss/crossentropy": 2.4191232919692993,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.030173558741807938,
+      "loss/reg": 0.02499937266111374,
+      "step": 843
+    },
+    {
+      "epoch": 0.422,
+      "grad_norm": 1.5181694030761719,
+      "grad_norm_var": 0.05830908442588125,
+      "learning_rate": 2e-05,
+      "loss": 0.4305,
+      "loss/crossentropy": 2.543475866317749,
+      "loss/hidden": 0.1552734375,
+      "loss/logits": 0.02529764547944069,
+      "loss/reg": 0.024997074156999588,
+      "step": 844
+    },
+    {
+      "epoch": 0.4225,
+      "grad_norm": 1.4709956645965576,
+      "grad_norm_var": 0.057972554883919496,
+      "learning_rate": 2e-05,
+      "loss": 0.4453,
+      "loss/crossentropy": 2.40644907951355,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.023440631106495857,
+      "loss/reg": 0.02499477192759514,
+      "step": 845
+    },
+    {
+      "epoch": 0.423,
+      "grad_norm": 1.2264574766159058,
+      "grad_norm_var": 0.0575038222824185,
+      "learning_rate": 2e-05,
+      "loss": 0.453,
+      "loss/crossentropy": 2.4405059814453125,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.027810130268335342,
+      "loss/reg": 0.024992434307932854,
+      "step": 846
+    },
+    {
+      "epoch": 0.4235,
+      "grad_norm": 1.2261029481887817,
+      "grad_norm_var": 0.05866876723294444,
+      "learning_rate": 2e-05,
+      "loss": 0.4206,
+      "loss/crossentropy": 2.530023455619812,
+      "loss/hidden": 0.14697265625,
+      "loss/logits": 0.023748058825731277,
+      "loss/reg": 0.024990031495690346,
+      "step": 847
+    },
+    {
+      "epoch": 0.424,
+      "grad_norm": 1.2650319337844849,
+      "grad_norm_var": 0.05972113104539645,
+      "learning_rate": 2e-05,
+      "loss": 0.4805,
+      "loss/crossentropy": 2.4802552461624146,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.05189700424671173,
+      "loss/reg": 0.02498767152428627,
+      "step": 848
+    },
+    {
+      "epoch": 0.4245,
+      "grad_norm": 1.5666638612747192,
+      "grad_norm_var": 0.049646390274153636,
+      "learning_rate": 2e-05,
+      "loss": 0.4839,
+      "loss/crossentropy": 2.2816847562789917,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.04210854321718216,
+      "loss/reg": 0.024985330179333687,
+      "step": 849
+    },
+    {
+      "epoch": 0.425,
+      "grad_norm": 1.3735864162445068,
+      "grad_norm_var": 0.03926651318212458,
+      "learning_rate": 2e-05,
+      "loss": 0.4633,
+      "loss/crossentropy": 2.288491129875183,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.03332236781716347,
+      "loss/reg": 0.024982422590255737,
+      "step": 850
+    },
+    {
+      "epoch": 0.4255,
+      "grad_norm": 1.2534009218215942,
+      "grad_norm_var": 0.04152457000375349,
+      "learning_rate": 2e-05,
+      "loss": 0.505,
+      "loss/crossentropy": 2.300741195678711,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.04814612679183483,
+      "loss/reg": 0.02498042583465576,
+      "step": 851
+    },
+    {
+      "epoch": 0.426,
+      "grad_norm": 1.2829217910766602,
+      "grad_norm_var": 0.03926682396235221,
+      "learning_rate": 2e-05,
+      "loss": 0.4858,
+      "loss/crossentropy": 2.076082229614258,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.037287235260009766,
+      "loss/reg": 0.02497800998389721,
+      "step": 852
+    },
+    {
+      "epoch": 0.4265,
+      "grad_norm": 1.0537066459655762,
+      "grad_norm_var": 0.04534035977341985,
+      "learning_rate": 2e-05,
+      "loss": 0.4146,
+      "loss/crossentropy": 2.2343058586120605,
+      "loss/hidden": 0.14208984375,
+      "loss/logits": 0.022780392318964005,
+      "loss/reg": 0.024975987151265144,
+      "step": 853
+    },
+    {
+      "epoch": 0.427,
+      "grad_norm": 1.25690758228302,
+      "grad_norm_var": 0.04169842414173767,
+      "learning_rate": 2e-05,
+      "loss": 0.4457,
+      "loss/crossentropy": 2.2924128770828247,
+      "loss/hidden": 0.1689453125,
+      "loss/logits": 0.027037952095270157,
+      "loss/reg": 0.024973342195153236,
+      "step": 854
+    },
+    {
+      "epoch": 0.4275,
+      "grad_norm": 1.1707593202590942,
+      "grad_norm_var": 0.03607373501481727,
+      "learning_rate": 2e-05,
+      "loss": 0.4284,
+      "loss/crossentropy": 2.1742767095565796,
+      "loss/hidden": 0.15087890625,
+      "loss/logits": 0.027766499668359756,
+      "loss/reg": 0.024970991536974907,
+      "step": 855
+    },
+    {
+      "epoch": 0.428,
+      "grad_norm": 1.244330883026123,
+      "grad_norm_var": 0.03639404290223063,
+      "learning_rate": 2e-05,
+      "loss": 0.4646,
+      "loss/crossentropy": 2.283990740776062,
+      "loss/hidden": 0.181640625,
+      "loss/logits": 0.03325035236775875,
+      "loss/reg": 0.024968596175312996,
+      "step": 856
+    },
+    {
+      "epoch": 0.4285,
+      "grad_norm": 1.376844048500061,
+      "grad_norm_var": 0.0358462854612099,
+      "learning_rate": 2e-05,
+      "loss": 0.4368,
+      "loss/crossentropy": 2.340665102005005,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.027914387173950672,
+      "loss/reg": 0.024966033175587654,
+      "step": 857
+    },
+    {
+      "epoch": 0.429,
+      "grad_norm": 1.1170494556427002,
+      "grad_norm_var": 0.020964417363066385,
+      "learning_rate": 2e-05,
+      "loss": 0.4231,
+      "loss/crossentropy": 2.44227135181427,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.027010299265384674,
+      "loss/reg": 0.024963244795799255,
+      "step": 858
+    },
+    {
+      "epoch": 0.4295,
+      "grad_norm": 1.2896698713302612,
+      "grad_norm_var": 0.019266560970768804,
+      "learning_rate": 2e-05,
+      "loss": 0.4338,
+      "loss/crossentropy": 2.437178373336792,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.027423975989222527,
+      "loss/reg": 0.024961121380329132,
+      "step": 859
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.5006057024002075,
+      "grad_norm_var": 0.018759206476876972,
+      "learning_rate": 2e-05,
+      "loss": 0.4984,
+      "loss/crossentropy": 2.36915385723114,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.04180637001991272,
+      "loss/reg": 0.02495899423956871,
+      "step": 860
+    },
+    {
+      "epoch": 0.4305,
+      "grad_norm": 1.2376413345336914,
+      "grad_norm_var": 0.0165992425597094,
+      "learning_rate": 2e-05,
+      "loss": 0.4467,
+      "loss/crossentropy": 2.1004234552383423,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.026734575629234314,
+      "loss/reg": 0.0249563567340374,
+      "step": 861
+    },
+    {
+      "epoch": 0.431,
+      "grad_norm": 1.1335351467132568,
+      "grad_norm_var": 0.017772602276823986,
+      "learning_rate": 2e-05,
+      "loss": 0.4597,
+      "loss/crossentropy": 2.2476999759674072,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.029479091055691242,
+      "loss/reg": 0.02495376206934452,
+      "step": 862
+    },
+    {
+      "epoch": 0.4315,
+      "grad_norm": 1.1975138187408447,
+      "grad_norm_var": 0.017997867740444682,
+      "learning_rate": 2e-05,
+      "loss": 0.454,
+      "loss/crossentropy": 2.114013433456421,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.029184110462665558,
+      "loss/reg": 0.024951165542006493,
+      "step": 863
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 1.684401512145996,
+      "grad_norm_var": 0.028711411651534922,
+      "learning_rate": 2e-05,
+      "loss": 0.4371,
+      "loss/crossentropy": 2.5192021131515503,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.027418741025030613,
+      "loss/reg": 0.02494893968105316,
+      "step": 864
+    },
+    {
+      "epoch": 0.4325,
+      "grad_norm": 1.327570915222168,
+      "grad_norm_var": 0.023662792002424264,
+      "learning_rate": 2e-05,
+      "loss": 0.4681,
+      "loss/crossentropy": 2.387048840522766,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.036548664793372154,
+      "loss/reg": 0.024946413934230804,
+      "step": 865
+    },
+    {
+      "epoch": 0.433,
+      "grad_norm": 1.168529987335205,
+      "grad_norm_var": 0.02376700496530641,
+      "learning_rate": 2e-05,
+      "loss": 0.4656,
+      "loss/crossentropy": 2.4732731580734253,
+      "loss/hidden": 0.181640625,
+      "loss/logits": 0.034491341561079025,
+      "loss/reg": 0.02494383417069912,
+      "step": 866
+    },
+    {
+      "epoch": 0.4335,
+      "grad_norm": 1.0916374921798706,
+      "grad_norm_var": 0.02572730800574637,
+      "learning_rate": 2e-05,
+      "loss": 0.4188,
+      "loss/crossentropy": 2.4050283432006836,
+      "loss/hidden": 0.14404296875,
+      "loss/logits": 0.025381820276379585,
+      "loss/reg": 0.02494126372039318,
+      "step": 867
+    },
+    {
+      "epoch": 0.434,
+      "grad_norm": 1.173865795135498,
+      "grad_norm_var": 0.026113363341109638,
+      "learning_rate": 2e-05,
+      "loss": 0.4418,
+      "loss/crossentropy": 2.3439362049102783,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.02782224863767624,
+      "loss/reg": 0.024939002469182014,
+      "step": 868
+    },
+    {
+      "epoch": 0.4345,
+      "grad_norm": 1.1083062887191772,
+      "grad_norm_var": 0.02485949808100442,
+      "learning_rate": 2e-05,
+      "loss": 0.4429,
+      "loss/crossentropy": 2.08747261762619,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.029917718842625618,
+      "loss/reg": 0.024936381727457047,
+      "step": 869
+    },
+    {
+      "epoch": 0.435,
+      "grad_norm": 2.1887571811676025,
+      "grad_norm_var": 0.0793744402641759,
+      "learning_rate": 2e-05,
+      "loss": 0.5581,
+      "loss/crossentropy": 2.1568849086761475,
+      "loss/hidden": 0.26513671875,
+      "loss/logits": 0.04361843876540661,
+      "loss/reg": 0.024933794513344765,
+      "step": 870
+    },
+    {
+      "epoch": 0.4355,
+      "grad_norm": 1.2723170518875122,
+      "grad_norm_var": 0.07809042331594848,
+      "learning_rate": 2e-05,
+      "loss": 0.4427,
+      "loss/crossentropy": 2.4057594537734985,
+      "loss/hidden": 0.16162109375,
+      "loss/logits": 0.03172140009701252,
+      "loss/reg": 0.024931542575359344,
+      "step": 871
+    },
+    {
+      "epoch": 0.436,
+      "grad_norm": 1.2788238525390625,
+      "grad_norm_var": 0.07781891044481218,
+      "learning_rate": 2e-05,
+      "loss": 0.4932,
+      "loss/crossentropy": 2.2258142232894897,
+      "loss/hidden": 0.2109375,
+      "loss/logits": 0.032939719036221504,
+      "loss/reg": 0.024928996339440346,
+      "step": 872
+    },
+    {
+      "epoch": 0.4365,
+      "grad_norm": 1.833802342414856,
+      "grad_norm_var": 0.09422989175293613,
+      "learning_rate": 2e-05,
+      "loss": 0.4469,
+      "loss/crossentropy": 2.3266918659210205,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.02525283396244049,
+      "loss/reg": 0.024926558136940002,
+      "step": 873
+    },
+    {
+      "epoch": 0.437,
+      "grad_norm": 1.3627578020095825,
+      "grad_norm_var": 0.09036321255378343,
+      "learning_rate": 2e-05,
+      "loss": 0.4308,
+      "loss/crossentropy": 2.6098272800445557,
+      "loss/hidden": 0.15478515625,
+      "loss/logits": 0.026725860312581062,
+      "loss/reg": 0.02492396906018257,
+      "step": 874
+    },
+    {
+      "epoch": 0.4375,
+      "grad_norm": 1.3417320251464844,
+      "grad_norm_var": 0.09000547961185816,
+      "learning_rate": 2e-05,
+      "loss": 0.4348,
+      "loss/crossentropy": 2.27658474445343,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.028818843886256218,
+      "loss/reg": 0.02492145262658596,
+      "step": 875
+    },
+    {
+      "epoch": 0.438,
+      "grad_norm": 1.6484942436218262,
+      "grad_norm_var": 0.09397019522889086,
+      "learning_rate": 2e-05,
+      "loss": 0.4471,
+      "loss/crossentropy": 2.509611129760742,
+      "loss/hidden": 0.1689453125,
+      "loss/logits": 0.028927761130034924,
+      "loss/reg": 0.024918843060731888,
+      "step": 876
+    },
+    {
+      "epoch": 0.4385,
+      "grad_norm": 1.3224067687988281,
+      "grad_norm_var": 0.09283173563057918,
+      "learning_rate": 2e-05,
+      "loss": 0.4616,
+      "loss/crossentropy": 2.326986074447632,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.034166223369538784,
+      "loss/reg": 0.02491624280810356,
+      "step": 877
+    },
+    {
+      "epoch": 0.439,
+      "grad_norm": 1.520644187927246,
+      "grad_norm_var": 0.08930074610143818,
+      "learning_rate": 2e-05,
+      "loss": 0.4886,
+      "loss/crossentropy": 2.3941385746002197,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.039785370230674744,
+      "loss/reg": 0.0249137245118618,
+      "step": 878
+    },
+    {
+      "epoch": 0.4395,
+      "grad_norm": 1.2307255268096924,
+      "grad_norm_var": 0.0884393859627858,
+      "learning_rate": 2e-05,
+      "loss": 0.4364,
+      "loss/crossentropy": 2.3979439735412598,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.029046453535556793,
+      "loss/reg": 0.024911358952522278,
+      "step": 879
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.3595565557479858,
+      "grad_norm_var": 0.08313544190789533,
+      "learning_rate": 2e-05,
+      "loss": 0.4471,
+      "loss/crossentropy": 2.423276662826538,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.03002047911286354,
+      "loss/reg": 0.024909034371376038,
+      "step": 880
+    },
+    {
+      "epoch": 0.4405,
+      "grad_norm": 1.374289870262146,
+      "grad_norm_var": 0.08288689659587992,
+      "learning_rate": 2e-05,
+      "loss": 0.4752,
+      "loss/crossentropy": 2.37721049785614,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.032731397077441216,
+      "loss/reg": 0.024906881153583527,
+      "step": 881
+    },
+    {
+      "epoch": 0.441,
+      "grad_norm": 1.8934530019760132,
+      "grad_norm_var": 0.0941036028269572,
+      "learning_rate": 2e-05,
+      "loss": 0.4598,
+      "loss/crossentropy": 2.418339967727661,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.028664090670645237,
+      "loss/reg": 0.02490459941327572,
+      "step": 882
+    },
+    {
+      "epoch": 0.4415,
+      "grad_norm": 1.4956854581832886,
+      "grad_norm_var": 0.08566906663214482,
+      "learning_rate": 2e-05,
+      "loss": 0.4619,
+      "loss/crossentropy": 2.519649028778076,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.030213934369385242,
+      "loss/reg": 0.024902526289224625,
+      "step": 883
+    },
+    {
+      "epoch": 0.442,
+      "grad_norm": 1.841424822807312,
+      "grad_norm_var": 0.0877992890859374,
+      "learning_rate": 2e-05,
+      "loss": 0.455,
+      "loss/crossentropy": 2.4970178604125977,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.02974709589034319,
+      "loss/reg": 0.024900225922465324,
+      "step": 884
+    },
+    {
+      "epoch": 0.4425,
+      "grad_norm": 1.140735387802124,
+      "grad_norm_var": 0.0861516049042431,
+      "learning_rate": 2e-05,
+      "loss": 0.4212,
+      "loss/crossentropy": 2.385036587715149,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.0257627060636878,
+      "loss/reg": 0.024898122996091843,
+      "step": 885
+    },
+    {
+      "epoch": 0.443,
+      "grad_norm": 1.5280400514602661,
+      "grad_norm_var": 0.05334077575196729,
+      "learning_rate": 2e-05,
+      "loss": 0.4512,
+      "loss/crossentropy": 2.461831569671631,
+      "loss/hidden": 0.1669921875,
+      "loss/logits": 0.0352974608540535,
+      "loss/reg": 0.024895787239074707,
+      "step": 886
+    },
+    {
+      "epoch": 0.4435,
+      "grad_norm": 1.0629712343215942,
+      "grad_norm_var": 0.06146672512662115,
+      "learning_rate": 2e-05,
+      "loss": 0.4218,
+      "loss/crossentropy": 2.366239547729492,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.02493153791874647,
+      "loss/reg": 0.024893587455153465,
+      "step": 887
+    },
+    {
+      "epoch": 0.444,
+      "grad_norm": 1.745954155921936,
+      "grad_norm_var": 0.06430499243878576,
+      "learning_rate": 2e-05,
+      "loss": 0.4751,
+      "loss/crossentropy": 2.4183106422424316,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.043571919202804565,
+      "loss/reg": 0.024891452863812447,
+      "step": 888
+    },
+    {
+      "epoch": 0.4445,
+      "grad_norm": 1.5373462438583374,
+      "grad_norm_var": 0.055868980125863034,
+      "learning_rate": 2e-05,
+      "loss": 0.4825,
+      "loss/crossentropy": 2.448971748352051,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.046090008690953255,
+      "loss/reg": 0.024889154359698296,
+      "step": 889
+    },
+    {
+      "epoch": 0.445,
+      "grad_norm": 1.2213661670684814,
+      "grad_norm_var": 0.05900614209897312,
+      "learning_rate": 2e-05,
+      "loss": 0.4548,
+      "loss/crossentropy": 2.500189185142517,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.030193179845809937,
+      "loss/reg": 0.02488705888390541,
+      "step": 890
+    },
+    {
+      "epoch": 0.4455,
+      "grad_norm": 1.2715861797332764,
+      "grad_norm_var": 0.06036416983983243,
+      "learning_rate": 2e-05,
+      "loss": 0.4079,
+      "loss/crossentropy": 2.4891607761383057,
+      "loss/hidden": 0.13671875,
+      "loss/logits": 0.022357992827892303,
+      "loss/reg": 0.02488500438630581,
+      "step": 891
+    },
+    {
+      "epoch": 0.446,
+      "grad_norm": 1.2065671682357788,
+      "grad_norm_var": 0.06085480104910346,
+      "learning_rate": 2e-05,
+      "loss": 0.4132,
+      "loss/crossentropy": 2.3212687969207764,
+      "loss/hidden": 0.1416015625,
+      "loss/logits": 0.02274497877806425,
+      "loss/reg": 0.024882985278964043,
+      "step": 892
+    },
+    {
+      "epoch": 0.4465,
+      "grad_norm": 2.286463975906372,
+      "grad_norm_var": 0.10613483736873922,
+      "learning_rate": 2e-05,
+      "loss": 0.6098,
+      "loss/crossentropy": 1.9856956601142883,
+      "loss/hidden": 0.29248046875,
+      "loss/logits": 0.06851914338767529,
+      "loss/reg": 0.02488100528717041,
+      "step": 893
+    },
+    {
+      "epoch": 0.447,
+      "grad_norm": 1.3317387104034424,
+      "grad_norm_var": 0.10739939277282436,
+      "learning_rate": 2e-05,
+      "loss": 0.4361,
+      "loss/crossentropy": 2.180716037750244,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.026132527738809586,
+      "loss/reg": 0.024878744035959244,
+      "step": 894
+    },
+    {
+      "epoch": 0.4475,
+      "grad_norm": 1.1505863666534424,
+      "grad_norm_var": 0.11036276513544672,
+      "learning_rate": 2e-05,
+      "loss": 0.4076,
+      "loss/crossentropy": 2.4193174839019775,
+      "loss/hidden": 0.134765625,
+      "loss/logits": 0.02407541684806347,
+      "loss/reg": 0.024876724928617477,
+      "step": 895
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 1.2850412130355835,
+      "grad_norm_var": 0.11176224122004706,
+      "learning_rate": 2e-05,
+      "loss": 0.4134,
+      "loss/crossentropy": 2.3620327711105347,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.025503816083073616,
+      "loss/reg": 0.024874389171600342,
+      "step": 896
+    },
+    {
+      "epoch": 0.4485,
+      "grad_norm": 2.1535191535949707,
+      "grad_norm_var": 0.1407210477913499,
+      "learning_rate": 2e-05,
+      "loss": 0.523,
+      "loss/crossentropy": 2.0216793417930603,
+      "loss/hidden": 0.2353515625,
+      "loss/logits": 0.03891510330140591,
+      "loss/reg": 0.024871978908777237,
+      "step": 897
+    },
+    {
+      "epoch": 0.449,
+      "grad_norm": 1.4914774894714355,
+      "grad_norm_var": 0.1302430455595032,
+      "learning_rate": 2e-05,
+      "loss": 0.439,
+      "loss/crossentropy": 2.452531099319458,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.025756201706826687,
+      "loss/reg": 0.024869605898857117,
+      "step": 898
+    },
+    {
+      "epoch": 0.4495,
+      "grad_norm": 1.766234278678894,
+      "grad_norm_var": 0.13522470542034715,
+      "learning_rate": 2e-05,
+      "loss": 0.4881,
+      "loss/crossentropy": 2.4874242544174194,
+      "loss/hidden": 0.203125,
+      "loss/logits": 0.03627724573016167,
+      "loss/reg": 0.02486717328429222,
+      "step": 899
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.790714979171753,
+      "grad_norm_var": 0.13308583996840462,
+      "learning_rate": 2e-05,
+      "loss": 0.4733,
+      "loss/crossentropy": 2.4922057390213013,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.033293405547738075,
+      "loss/reg": 0.02486467733979225,
+      "step": 900
+    },
+    {
+      "epoch": 0.4505,
+      "grad_norm": 1.8885260820388794,
+      "grad_norm_var": 0.13239945321149568,
+      "learning_rate": 2e-05,
+      "loss": 0.4617,
+      "loss/crossentropy": 2.575096845626831,
+      "loss/hidden": 0.18603515625,
+      "loss/logits": 0.02701327670365572,
+      "loss/reg": 0.024862412363290787,
+      "step": 901
+    },
+    {
+      "epoch": 0.451,
+      "grad_norm": 1.5798112154006958,
+      "grad_norm_var": 0.13245070282555294,
+      "learning_rate": 2e-05,
+      "loss": 0.4422,
+      "loss/crossentropy": 2.324281692504883,
+      "loss/hidden": 0.166015625,
+      "loss/logits": 0.027567077428102493,
+      "loss/reg": 0.024859966710209846,
+      "step": 902
+    },
+    {
+      "epoch": 0.4515,
+      "grad_norm": 1.364610195159912,
+      "grad_norm_var": 0.11862540114961077,
+      "learning_rate": 2e-05,
+      "loss": 0.4362,
+      "loss/crossentropy": 2.336674928665161,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.028398605063557625,
+      "loss/reg": 0.024857668206095695,
+      "step": 903
+    },
+    {
+      "epoch": 0.452,
+      "grad_norm": 1.5987074375152588,
+      "grad_norm_var": 0.11646655255089418,
+      "learning_rate": 2e-05,
+      "loss": 0.4476,
+      "loss/crossentropy": 2.581295609474182,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.03499746974557638,
+      "loss/reg": 0.024855423718690872,
+      "step": 904
+    },
+    {
+      "epoch": 0.4525,
+      "grad_norm": 1.2477660179138184,
+      "grad_norm_var": 0.12249611635972564,
+      "learning_rate": 2e-05,
+      "loss": 0.471,
+      "loss/crossentropy": 2.3965861797332764,
+      "loss/hidden": 0.1923828125,
+      "loss/logits": 0.03011870291084051,
+      "loss/reg": 0.024853060021996498,
+      "step": 905
+    },
+    {
+      "epoch": 0.453,
+      "grad_norm": 1.091818928718567,
+      "grad_norm_var": 0.1290430691585063,
+      "learning_rate": 2e-05,
+      "loss": 0.4421,
+      "loss/crossentropy": 2.3112945556640625,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.02809662837535143,
+      "loss/reg": 0.024850843474268913,
+      "step": 906
+    },
+    {
+      "epoch": 0.4535,
+      "grad_norm": 1.2797828912734985,
+      "grad_norm_var": 0.1287631299307894,
+      "learning_rate": 2e-05,
+      "loss": 0.4194,
+      "loss/crossentropy": 2.327611804008484,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.024378618225455284,
+      "loss/reg": 0.024848705157637596,
+      "step": 907
+    },
+    {
+      "epoch": 0.454,
+      "grad_norm": 1.0900261402130127,
+      "grad_norm_var": 0.13467015675929944,
+      "learning_rate": 2e-05,
+      "loss": 0.4585,
+      "loss/crossentropy": 2.3121442794799805,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.03474980313330889,
+      "loss/reg": 0.024846620857715607,
+      "step": 908
+    },
+    {
+      "epoch": 0.4545,
+      "grad_norm": 1.530750036239624,
+      "grad_norm_var": 0.09361760922795549,
+      "learning_rate": 2e-05,
+      "loss": 0.4755,
+      "loss/crossentropy": 2.254515528678894,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.035164170898497105,
+      "loss/reg": 0.024844245985150337,
+      "step": 909
+    },
+    {
+      "epoch": 0.455,
+      "grad_norm": 1.4343830347061157,
+      "grad_norm_var": 0.09228027400132052,
+      "learning_rate": 2e-05,
+      "loss": 0.4977,
+      "loss/crossentropy": 2.3030155897140503,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.028591503389179707,
+      "loss/reg": 0.02484210580587387,
+      "step": 910
+    },
+    {
+      "epoch": 0.4555,
+      "grad_norm": 1.2215298414230347,
+      "grad_norm_var": 0.0894411767193444,
+      "learning_rate": 2e-05,
+      "loss": 0.4869,
+      "loss/crossentropy": 2.1451609134674072,
+      "loss/hidden": 0.203125,
+      "loss/logits": 0.03534893877804279,
+      "loss/reg": 0.024839749559760094,
+      "step": 911
+    },
+    {
+      "epoch": 0.456,
+      "grad_norm": 1.1733628511428833,
+      "grad_norm_var": 0.09324906194983575,
+      "learning_rate": 2e-05,
+      "loss": 0.4387,
+      "loss/crossentropy": 2.298704981803894,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.030184932053089142,
+      "loss/reg": 0.024837518110871315,
+      "step": 912
+    },
+    {
+      "epoch": 0.4565,
+      "grad_norm": 1.3525742292404175,
+      "grad_norm_var": 0.06157036227700316,
+      "learning_rate": 2e-05,
+      "loss": 0.4353,
+      "loss/crossentropy": 2.3784111738204956,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.031202757731080055,
+      "loss/reg": 0.02483524940907955,
+      "step": 913
+    },
+    {
+      "epoch": 0.457,
+      "grad_norm": 1.6027723550796509,
+      "grad_norm_var": 0.06323633110931534,
+      "learning_rate": 2e-05,
+      "loss": 0.5053,
+      "loss/crossentropy": 2.2770267724990845,
+      "loss/hidden": 0.21728515625,
+      "loss/logits": 0.03967934101819992,
+      "loss/reg": 0.024832794442772865,
+      "step": 914
+    },
+    {
+      "epoch": 0.4575,
+      "grad_norm": 1.939664602279663,
+      "grad_norm_var": 0.07269855280353182,
+      "learning_rate": 2e-05,
+      "loss": 0.5217,
+      "loss/crossentropy": 2.3569631576538086,
+      "loss/hidden": 0.2294921875,
+      "loss/logits": 0.04393378458917141,
+      "loss/reg": 0.024830317124724388,
+      "step": 915
+    },
+    {
+      "epoch": 0.458,
+      "grad_norm": 1.4609216451644897,
+      "grad_norm_var": 0.06447793501211076,
+      "learning_rate": 2e-05,
+      "loss": 0.457,
+      "loss/crossentropy": 2.481472373008728,
+      "loss/hidden": 0.17138671875,
+      "loss/logits": 0.03733105957508087,
+      "loss/reg": 0.02482791244983673,
+      "step": 916
+    },
+    {
+      "epoch": 0.4585,
+      "grad_norm": 2.2184019088745117,
+      "grad_norm_var": 0.09150982546446039,
+      "learning_rate": 2e-05,
+      "loss": 0.4721,
+      "loss/crossentropy": 2.2963072061538696,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.034421585500240326,
+      "loss/reg": 0.024825412780046463,
+      "step": 917
+    },
+    {
+      "epoch": 0.459,
+      "grad_norm": 1.441645622253418,
+      "grad_norm_var": 0.0902964389133101,
+      "learning_rate": 2e-05,
+      "loss": 0.4577,
+      "loss/crossentropy": 2.3010048866271973,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.03706255368888378,
+      "loss/reg": 0.024822838604450226,
+      "step": 918
+    },
+    {
+      "epoch": 0.4595,
+      "grad_norm": 2.116910219192505,
+      "grad_norm_var": 0.11805189358334474,
+      "learning_rate": 2e-05,
+      "loss": 0.5238,
+      "loss/crossentropy": 2.357789158821106,
+      "loss/hidden": 0.23095703125,
+      "loss/logits": 0.04468147084116936,
+      "loss/reg": 0.024820242077112198,
+      "step": 919
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.6940172910690308,
+      "grad_norm_var": 0.12003205518374636,
+      "learning_rate": 2e-05,
+      "loss": 0.462,
+      "loss/crossentropy": 2.6455941200256348,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.03263464197516441,
+      "loss/reg": 0.024817565456032753,
+      "step": 920
+    },
+    {
+      "epoch": 0.4605,
+      "grad_norm": 1.2647062540054321,
+      "grad_norm_var": 0.11949490577010594,
+      "learning_rate": 2e-05,
+      "loss": 0.4935,
+      "loss/crossentropy": 2.5739123821258545,
+      "loss/hidden": 0.21044921875,
+      "loss/logits": 0.03494640905410051,
+      "loss/reg": 0.02481519803404808,
+      "step": 921
+    },
+    {
+      "epoch": 0.461,
+      "grad_norm": 1.8925144672393799,
+      "grad_norm_var": 0.11656603854064347,
+      "learning_rate": 2e-05,
+      "loss": 0.4917,
+      "loss/crossentropy": 2.2864513397216797,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.04141218215227127,
+      "loss/reg": 0.024812612682580948,
+      "step": 922
+    },
+    {
+      "epoch": 0.4615,
+      "grad_norm": 1.816635251045227,
+      "grad_norm_var": 0.11562187436851393,
+      "learning_rate": 2e-05,
+      "loss": 0.4829,
+      "loss/crossentropy": 2.3441028594970703,
+      "loss/hidden": 0.18994140625,
+      "loss/logits": 0.044871050864458084,
+      "loss/reg": 0.02481023781001568,
+      "step": 923
+    },
+    {
+      "epoch": 0.462,
+      "grad_norm": 1.319472074508667,
+      "grad_norm_var": 0.10397834789190098,
+      "learning_rate": 2e-05,
+      "loss": 0.4607,
+      "loss/crossentropy": 2.5088049173355103,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.03244396485388279,
+      "loss/reg": 0.02480742521584034,
+      "step": 924
+    },
+    {
+      "epoch": 0.4625,
+      "grad_norm": 1.5024747848510742,
+      "grad_norm_var": 0.10426117709982438,
+      "learning_rate": 2e-05,
+      "loss": 0.4199,
+      "loss/crossentropy": 2.44161593914032,
+      "loss/hidden": 0.14404296875,
+      "loss/logits": 0.027814405038952827,
+      "loss/reg": 0.024804776534438133,
+      "step": 925
+    },
+    {
+      "epoch": 0.463,
+      "grad_norm": 1.0549204349517822,
+      "grad_norm_var": 0.12117201442257676,
+      "learning_rate": 2e-05,
+      "loss": 0.4289,
+      "loss/crossentropy": 2.441314697265625,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.029008976183831692,
+      "loss/reg": 0.024802392348647118,
+      "step": 926
+    },
+    {
+      "epoch": 0.4635,
+      "grad_norm": 1.2234230041503906,
+      "grad_norm_var": 0.12108502599879684,
+      "learning_rate": 2e-05,
+      "loss": 0.4649,
+      "loss/crossentropy": 2.360079288482666,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.03184010460972786,
+      "loss/reg": 0.024800008162856102,
+      "step": 927
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 1.3127866983413696,
+      "grad_norm_var": 0.11497950175635048,
+      "learning_rate": 2e-05,
+      "loss": 0.417,
+      "loss/crossentropy": 2.2916054725646973,
+      "loss/hidden": 0.1484375,
+      "loss/logits": 0.02055790089070797,
+      "loss/reg": 0.024797627702355385,
+      "step": 928
+    },
+    {
+      "epoch": 0.4645,
+      "grad_norm": 1.418331503868103,
+      "grad_norm_var": 0.11329202015476666,
+      "learning_rate": 2e-05,
+      "loss": 0.4367,
+      "loss/crossentropy": 2.228062152862549,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.02912633679807186,
+      "loss/reg": 0.024795077741146088,
+      "step": 929
+    },
+    {
+      "epoch": 0.465,
+      "grad_norm": 1.2717900276184082,
+      "grad_norm_var": 0.11913277672642243,
+      "learning_rate": 2e-05,
+      "loss": 0.4317,
+      "loss/crossentropy": 2.266680121421814,
+      "loss/hidden": 0.1552734375,
+      "loss/logits": 0.028470346704125404,
+      "loss/reg": 0.02479269914329052,
+      "step": 930
+    },
+    {
+      "epoch": 0.4655,
+      "grad_norm": 1.396073341369629,
+      "grad_norm_var": 0.11003177528165793,
+      "learning_rate": 2e-05,
+      "loss": 0.483,
+      "loss/crossentropy": 2.5918630361557007,
+      "loss/hidden": 0.1953125,
+      "loss/logits": 0.03977473732084036,
+      "loss/reg": 0.02479018084704876,
+      "step": 931
+    },
+    {
+      "epoch": 0.466,
+      "grad_norm": 1.1711387634277344,
+      "grad_norm_var": 0.11776813258662025,
+      "learning_rate": 2e-05,
+      "loss": 0.4211,
+      "loss/crossentropy": 2.1843584775924683,
+      "loss/hidden": 0.1494140625,
+      "loss/logits": 0.023802118375897408,
+      "loss/reg": 0.024787776172161102,
+      "step": 932
+    },
+    {
+      "epoch": 0.4665,
+      "grad_norm": 1.4844838380813599,
+      "grad_norm_var": 0.08183792965829349,
+      "learning_rate": 2e-05,
+      "loss": 0.4591,
+      "loss/crossentropy": 2.2599565982818604,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.040790168568491936,
+      "loss/reg": 0.024785393849015236,
+      "step": 933
+    },
+    {
+      "epoch": 0.467,
+      "grad_norm": 1.6613248586654663,
+      "grad_norm_var": 0.08427746877438451,
+      "learning_rate": 2e-05,
+      "loss": 0.4759,
+      "loss/crossentropy": 2.3885433673858643,
+      "loss/hidden": 0.1943359375,
+      "loss/logits": 0.033717614598572254,
+      "loss/reg": 0.02478303201496601,
+      "step": 934
+    },
+    {
+      "epoch": 0.4675,
+      "grad_norm": 2.4827864170074463,
+      "grad_norm_var": 0.12395562095072604,
+      "learning_rate": 2e-05,
+      "loss": 0.5939,
+      "loss/crossentropy": 2.383415699005127,
+      "loss/hidden": 0.302734375,
+      "loss/logits": 0.04333702102303505,
+      "loss/reg": 0.02478056028485298,
+      "step": 935
+    },
+    {
+      "epoch": 0.468,
+      "grad_norm": 1.4659557342529297,
+      "grad_norm_var": 0.12124371062594505,
+      "learning_rate": 2e-05,
+      "loss": 0.485,
+      "loss/crossentropy": 2.1564711332321167,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.03798619005829096,
+      "loss/reg": 0.024778055027127266,
+      "step": 936
+    },
+    {
+      "epoch": 0.4685,
+      "grad_norm": 1.528003454208374,
+      "grad_norm_var": 0.11788932977424474,
+      "learning_rate": 2e-05,
+      "loss": 0.4102,
+      "loss/crossentropy": 2.308253049850464,
+      "loss/hidden": 0.13623046875,
+      "loss/logits": 0.026196792721748352,
+      "loss/reg": 0.024775685742497444,
+      "step": 937
+    },
+    {
+      "epoch": 0.469,
+      "grad_norm": 1.1551241874694824,
+      "grad_norm_var": 0.11329483698475963,
+      "learning_rate": 2e-05,
+      "loss": 0.4444,
+      "loss/crossentropy": 2.2042760848999023,
+      "loss/hidden": 0.1689453125,
+      "loss/logits": 0.027680596336722374,
+      "loss/reg": 0.024773309007287025,
+      "step": 938
+    },
+    {
+      "epoch": 0.4695,
+      "grad_norm": 2.032935857772827,
+      "grad_norm_var": 0.1266760833029648,
+      "learning_rate": 2e-05,
+      "loss": 0.4807,
+      "loss/crossentropy": 2.7006815671920776,
+      "loss/hidden": 0.19091796875,
+      "loss/logits": 0.042035577818751335,
+      "loss/reg": 0.02477095276117325,
+      "step": 939
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.141130805015564,
+      "grad_norm_var": 0.1321853888846779,
+      "learning_rate": 2e-05,
+      "loss": 0.4271,
+      "loss/crossentropy": 2.4339696168899536,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.02268486563116312,
+      "loss/reg": 0.024768613278865814,
+      "step": 940
+    },
+    {
+      "epoch": 0.4705,
+      "grad_norm": 1.7656772136688232,
+      "grad_norm_var": 0.13813141921850866,
+      "learning_rate": 2e-05,
+      "loss": 0.4583,
+      "loss/crossentropy": 2.327541947364807,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.03389530163258314,
+      "loss/reg": 0.024766255170106888,
+      "step": 941
+    },
+    {
+      "epoch": 0.471,
+      "grad_norm": 1.3216570615768433,
+      "grad_norm_var": 0.12771394362122404,
+      "learning_rate": 2e-05,
+      "loss": 0.4448,
+      "loss/crossentropy": 2.4096368551254272,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.03215141408145428,
+      "loss/reg": 0.024764133617281914,
+      "step": 942
+    },
+    {
+      "epoch": 0.4715,
+      "grad_norm": 1.3881388902664185,
+      "grad_norm_var": 0.12356518206842436,
+      "learning_rate": 2e-05,
+      "loss": 0.416,
+      "loss/crossentropy": 2.585834264755249,
+      "loss/hidden": 0.1416015625,
+      "loss/logits": 0.02676891814917326,
+      "loss/reg": 0.024761632084846497,
+      "step": 943
+    },
+    {
+      "epoch": 0.472,
+      "grad_norm": 1.2373863458633423,
+      "grad_norm_var": 0.1258009621939289,
+      "learning_rate": 2e-05,
+      "loss": 0.4321,
+      "loss/crossentropy": 2.3134829998016357,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.02871276345103979,
+      "loss/reg": 0.024759074673056602,
+      "step": 944
+    },
+    {
+      "epoch": 0.4725,
+      "grad_norm": 1.1650878190994263,
+      "grad_norm_var": 0.1324021004505103,
+      "learning_rate": 2e-05,
+      "loss": 0.4674,
+      "loss/crossentropy": 2.1889017820358276,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.028469436801970005,
+      "loss/reg": 0.02475649118423462,
+      "step": 945
+    },
+    {
+      "epoch": 0.473,
+      "grad_norm": 3.083178997039795,
+      "grad_norm_var": 0.28735681279515096,
+      "learning_rate": 2e-05,
+      "loss": 0.4476,
+      "loss/crossentropy": 2.484034538269043,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.024776030331850052,
+      "loss/reg": 0.02475435845553875,
+      "step": 946
+    },
+    {
+      "epoch": 0.4735,
+      "grad_norm": 2.8552777767181396,
+      "grad_norm_var": 0.38221875854398485,
+      "learning_rate": 2e-05,
+      "loss": 0.6484,
+      "loss/crossentropy": 2.2809172868728638,
+      "loss/hidden": 0.328125,
+      "loss/logits": 0.07271300628781319,
+      "loss/reg": 0.024751881137490273,
+      "step": 947
+    },
+    {
+      "epoch": 0.474,
+      "grad_norm": 1.3637315034866333,
+      "grad_norm_var": 0.3713747885972831,
+      "learning_rate": 2e-05,
+      "loss": 0.4537,
+      "loss/crossentropy": 2.368937849998474,
+      "loss/hidden": 0.17724609375,
+      "loss/logits": 0.02893682010471821,
+      "loss/reg": 0.02474971115589142,
+      "step": 948
+    },
+    {
+      "epoch": 0.4745,
+      "grad_norm": 1.571547269821167,
+      "grad_norm_var": 0.36939615340519977,
+      "learning_rate": 2e-05,
+      "loss": 0.435,
+      "loss/crossentropy": 2.5506834983825684,
+      "loss/hidden": 0.15869140625,
+      "loss/logits": 0.028869743458926678,
+      "loss/reg": 0.024747245013713837,
+      "step": 949
+    },
+    {
+      "epoch": 0.475,
+      "grad_norm": 1.5900770425796509,
+      "grad_norm_var": 0.37009206946137085,
+      "learning_rate": 2e-05,
+      "loss": 0.4676,
+      "loss/crossentropy": 2.4405782222747803,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.033153336495161057,
+      "loss/reg": 0.02474481612443924,
+      "step": 950
+    },
+    {
+      "epoch": 0.4755,
+      "grad_norm": 1.2171446084976196,
+      "grad_norm_var": 0.3375590343649016,
+      "learning_rate": 2e-05,
+      "loss": 0.4351,
+      "loss/crossentropy": 2.6292362213134766,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.030438624322414398,
+      "loss/reg": 0.02474270388484001,
+      "step": 951
+    },
+    {
+      "epoch": 0.476,
+      "grad_norm": 1.5484012365341187,
+      "grad_norm_var": 0.3363165658381873,
+      "learning_rate": 2e-05,
+      "loss": 0.4397,
+      "loss/crossentropy": 2.4467194080352783,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.029697156511247158,
+      "loss/reg": 0.02474055252969265,
+      "step": 952
+    },
+    {
+      "epoch": 0.4765,
+      "grad_norm": 1.3582558631896973,
+      "grad_norm_var": 0.34026256323006543,
+      "learning_rate": 2e-05,
+      "loss": 0.449,
+      "loss/crossentropy": 2.439231514930725,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.027837133966386318,
+      "loss/reg": 0.024738363921642303,
+      "step": 953
+    },
+    {
+      "epoch": 0.477,
+      "grad_norm": 1.969158411026001,
+      "grad_norm_var": 0.33207128414330966,
+      "learning_rate": 2e-05,
+      "loss": 0.4533,
+      "loss/crossentropy": 2.452765464782715,
+      "loss/hidden": 0.17138671875,
+      "loss/logits": 0.03453033231198788,
+      "loss/reg": 0.024736056104302406,
+      "step": 954
+    },
+    {
+      "epoch": 0.4775,
+      "grad_norm": 1.4187953472137451,
+      "grad_norm_var": 0.32535599956763966,
+      "learning_rate": 2e-05,
+      "loss": 0.4805,
+      "loss/crossentropy": 2.3570865392684937,
+      "loss/hidden": 0.1953125,
+      "loss/logits": 0.0378948412835598,
+      "loss/reg": 0.024733752012252808,
+      "step": 955
+    },
+    {
+      "epoch": 0.478,
+      "grad_norm": 1.6787301301956177,
+      "grad_norm_var": 0.30875959889143295,
+      "learning_rate": 2e-05,
+      "loss": 0.4978,
+      "loss/crossentropy": 2.316788911819458,
+      "loss/hidden": 0.197265625,
+      "loss/logits": 0.0531964972615242,
+      "loss/reg": 0.02473163791000843,
+      "step": 956
+    },
+    {
+      "epoch": 0.4785,
+      "grad_norm": 1.398138403892517,
+      "grad_norm_var": 0.311938660042613,
+      "learning_rate": 2e-05,
+      "loss": 0.464,
+      "loss/crossentropy": 2.5198220014572144,
+      "loss/hidden": 0.177734375,
+      "loss/logits": 0.03894750215113163,
+      "loss/reg": 0.024729417636990547,
+      "step": 957
+    },
+    {
+      "epoch": 0.479,
+      "grad_norm": 1.1664695739746094,
+      "grad_norm_var": 0.3199335312784062,
+      "learning_rate": 2e-05,
+      "loss": 0.4793,
+      "loss/crossentropy": 2.3437399864196777,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.031378373503685,
+      "loss/reg": 0.024727249518036842,
+      "step": 958
+    },
+    {
+      "epoch": 0.4795,
+      "grad_norm": 1.1036415100097656,
+      "grad_norm_var": 0.33399962070790534,
+      "learning_rate": 2e-05,
+      "loss": 0.4159,
+      "loss/crossentropy": 2.387402892112732,
+      "loss/hidden": 0.14306640625,
+      "loss/logits": 0.025623535737395287,
+      "loss/reg": 0.02472485415637493,
+      "step": 959
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.7331931591033936,
+      "grad_norm_var": 0.32487558042496256,
+      "learning_rate": 2e-05,
+      "loss": 0.5184,
+      "loss/crossentropy": 2.3020901679992676,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.05047208443284035,
+      "loss/reg": 0.024722406640648842,
+      "step": 960
+    },
+    {
+      "epoch": 0.4805,
+      "grad_norm": 1.6267915964126587,
+      "grad_norm_var": 0.3090366583706251,
+      "learning_rate": 2e-05,
+      "loss": 0.4403,
+      "loss/crossentropy": 2.4366101026535034,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.03732542134821415,
+      "loss/reg": 0.024719906970858574,
+      "step": 961
+    },
+    {
+      "epoch": 0.481,
+      "grad_norm": 1.4028695821762085,
+      "grad_norm_var": 0.16836660240098808,
+      "learning_rate": 2e-05,
+      "loss": 0.4703,
+      "loss/crossentropy": 2.271396040916443,
+      "loss/hidden": 0.19287109375,
+      "loss/logits": 0.030256666243076324,
+      "loss/reg": 0.024717407301068306,
+      "step": 962
+    },
+    {
+      "epoch": 0.4815,
+      "grad_norm": 1.1878552436828613,
+      "grad_norm_var": 0.054751871241501014,
+      "learning_rate": 2e-05,
+      "loss": 0.4214,
+      "loss/crossentropy": 2.3253756761550903,
+      "loss/hidden": 0.14697265625,
+      "loss/logits": 0.02732379548251629,
+      "loss/reg": 0.024714868515729904,
+      "step": 963
+    },
+    {
+      "epoch": 0.482,
+      "grad_norm": 1.1242592334747314,
+      "grad_norm_var": 0.06135958658490489,
+      "learning_rate": 2e-05,
+      "loss": 0.4465,
+      "loss/crossentropy": 2.239442467689514,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.03284657001495361,
+      "loss/reg": 0.024712176993489265,
+      "step": 964
+    },
+    {
+      "epoch": 0.4825,
+      "grad_norm": 1.3463644981384277,
+      "grad_norm_var": 0.06068299245025669,
+      "learning_rate": 2e-05,
+      "loss": 0.4428,
+      "loss/crossentropy": 2.316848874092102,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.03217571787536144,
+      "loss/reg": 0.024709584191441536,
+      "step": 965
+    },
+    {
+      "epoch": 0.483,
+      "grad_norm": 1.765031099319458,
+      "grad_norm_var": 0.0663445679323234,
+      "learning_rate": 2e-05,
+      "loss": 0.4263,
+      "loss/crossentropy": 2.5315778255462646,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.030336866155266762,
+      "loss/reg": 0.024706894531846046,
+      "step": 966
+    },
+    {
+      "epoch": 0.4835,
+      "grad_norm": 1.2559092044830322,
+      "grad_norm_var": 0.06528498573976828,
+      "learning_rate": 2e-05,
+      "loss": 0.4667,
+      "loss/crossentropy": 2.440574526786804,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.036081746220588684,
+      "loss/reg": 0.024704458191990852,
+      "step": 967
+    },
+    {
+      "epoch": 0.484,
+      "grad_norm": 1.1820833683013916,
+      "grad_norm_var": 0.06851111155043531,
+      "learning_rate": 2e-05,
+      "loss": 0.413,
+      "loss/crossentropy": 2.4466443061828613,
+      "loss/hidden": 0.14453125,
+      "loss/logits": 0.02141994796693325,
+      "loss/reg": 0.024701889604330063,
+      "step": 968
+    },
+    {
+      "epoch": 0.4845,
+      "grad_norm": 2.0894601345062256,
+      "grad_norm_var": 0.09592261683346047,
+      "learning_rate": 2e-05,
+      "loss": 0.4239,
+      "loss/crossentropy": 2.4341933727264404,
+      "loss/hidden": 0.156005859375,
+      "loss/logits": 0.02092854119837284,
+      "loss/reg": 0.02469906210899353,
+      "step": 969
+    },
+    {
+      "epoch": 0.485,
+      "grad_norm": 1.430828332901001,
+      "grad_norm_var": 0.07788717528373278,
+      "learning_rate": 2e-05,
+      "loss": 0.4388,
+      "loss/crossentropy": 2.356964588165283,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.03270021267235279,
+      "loss/reg": 0.02469666488468647,
+      "step": 970
+    },
+    {
+      "epoch": 0.4855,
+      "grad_norm": 1.776854395866394,
+      "grad_norm_var": 0.08527437507114347,
+      "learning_rate": 2e-05,
+      "loss": 0.5232,
+      "loss/crossentropy": 2.171905517578125,
+      "loss/hidden": 0.2265625,
+      "loss/logits": 0.049691107124090195,
+      "loss/reg": 0.02469424158334732,
+      "step": 971
+    },
+    {
+      "epoch": 0.486,
+      "grad_norm": 1.2763676643371582,
+      "grad_norm_var": 0.08335147102312987,
+      "learning_rate": 2e-05,
+      "loss": 0.4638,
+      "loss/crossentropy": 2.0069618225097656,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.032350869849324226,
+      "loss/reg": 0.02469182200729847,
+      "step": 972
+    },
+    {
+      "epoch": 0.4865,
+      "grad_norm": 1.5993913412094116,
+      "grad_norm_var": 0.08505121055133316,
+      "learning_rate": 2e-05,
+      "loss": 0.4726,
+      "loss/crossentropy": 2.4825299978256226,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.03873500041663647,
+      "loss/reg": 0.024689404293894768,
+      "step": 973
+    },
+    {
+      "epoch": 0.487,
+      "grad_norm": 1.3979259729385376,
+      "grad_norm_var": 0.07990529104096797,
+      "learning_rate": 2e-05,
+      "loss": 0.4285,
+      "loss/crossentropy": 2.3328219652175903,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.028818014077842236,
+      "loss/reg": 0.024686843156814575,
+      "step": 974
+    },
+    {
+      "epoch": 0.4875,
+      "grad_norm": 2.5152621269226074,
+      "grad_norm_var": 0.138094556758349,
+      "learning_rate": 2e-05,
+      "loss": 0.5242,
+      "loss/crossentropy": 2.279319643974304,
+      "loss/hidden": 0.23974609375,
+      "loss/logits": 0.037576699629426,
+      "loss/reg": 0.024684444069862366,
+      "step": 975
+    },
+    {
+      "epoch": 0.488,
+      "grad_norm": 1.4693434238433838,
+      "grad_norm_var": 0.13580396599954264,
+      "learning_rate": 2e-05,
+      "loss": 0.4357,
+      "loss/crossentropy": 2.2661033868789673,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.026757996529340744,
+      "loss/reg": 0.024681907147169113,
+      "step": 976
+    },
+    {
+      "epoch": 0.4885,
+      "grad_norm": 2.0209670066833496,
+      "grad_norm_var": 0.15071162713445574,
+      "learning_rate": 2e-05,
+      "loss": 0.4782,
+      "loss/crossentropy": 2.4691094160079956,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.04630833398550749,
+      "loss/reg": 0.024679280817508698,
+      "step": 977
+    },
+    {
+      "epoch": 0.489,
+      "grad_norm": 1.5368741750717163,
+      "grad_norm_var": 0.1491596028383583,
+      "learning_rate": 2e-05,
+      "loss": 0.4838,
+      "loss/crossentropy": 2.272148370742798,
+      "loss/hidden": 0.2041015625,
+      "loss/logits": 0.032892788760364056,
+      "loss/reg": 0.02467675693333149,
+      "step": 978
+    },
+    {
+      "epoch": 0.4895,
+      "grad_norm": 1.4713010787963867,
+      "grad_norm_var": 0.14008166049740395,
+      "learning_rate": 2e-05,
+      "loss": 0.4665,
+      "loss/crossentropy": 2.202664375305176,
+      "loss/hidden": 0.18798828125,
+      "loss/logits": 0.03179653640836477,
+      "loss/reg": 0.024674372747540474,
+      "step": 979
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.870495080947876,
+      "grad_norm_var": 0.12967598326321478,
+      "learning_rate": 2e-05,
+      "loss": 0.462,
+      "loss/crossentropy": 2.598837971687317,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.04344309400767088,
+      "loss/reg": 0.024671973660588264,
+      "step": 980
+    },
+    {
+      "epoch": 0.4905,
+      "grad_norm": 1.2552647590637207,
+      "grad_norm_var": 0.1335825488275977,
+      "learning_rate": 2e-05,
+      "loss": 0.4263,
+      "loss/crossentropy": 2.2683433294296265,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.027212919667363167,
+      "loss/reg": 0.024669544771313667,
+      "step": 981
+    },
+    {
+      "epoch": 0.491,
+      "grad_norm": 1.5247058868408203,
+      "grad_norm_var": 0.13253172817718994,
+      "learning_rate": 2e-05,
+      "loss": 0.4795,
+      "loss/crossentropy": 2.3193823099136353,
+      "loss/hidden": 0.20166015625,
+      "loss/logits": 0.031176569871604443,
+      "loss/reg": 0.02466718479990959,
+      "step": 982
+    },
+    {
+      "epoch": 0.4915,
+      "grad_norm": 1.1023645401000977,
+      "grad_norm_var": 0.14114311646802283,
+      "learning_rate": 2e-05,
+      "loss": 0.4124,
+      "loss/crossentropy": 2.534896492958069,
+      "loss/hidden": 0.14111328125,
+      "loss/logits": 0.024660163559019566,
+      "loss/reg": 0.02466486021876335,
+      "step": 983
+    },
+    {
+      "epoch": 0.492,
+      "grad_norm": 1.2959052324295044,
+      "grad_norm_var": 0.13568678899981698,
+      "learning_rate": 2e-05,
+      "loss": 0.4442,
+      "loss/crossentropy": 2.2339383363723755,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.030090173706412315,
+      "loss/reg": 0.024662485346198082,
+      "step": 984
+    },
+    {
+      "epoch": 0.4925,
+      "grad_norm": 1.5475845336914062,
+      "grad_norm_var": 0.11882549883375754,
+      "learning_rate": 2e-05,
+      "loss": 0.4666,
+      "loss/crossentropy": 2.548925042152405,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.03245330601930618,
+      "loss/reg": 0.024660129100084305,
+      "step": 985
+    },
+    {
+      "epoch": 0.493,
+      "grad_norm": 1.518269658088684,
+      "grad_norm_var": 0.11770160652835292,
+      "learning_rate": 2e-05,
+      "loss": 0.4389,
+      "loss/crossentropy": 2.379398465156555,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.026743890717625618,
+      "loss/reg": 0.024657921865582466,
+      "step": 986
+    },
+    {
+      "epoch": 0.4935,
+      "grad_norm": 1.570279836654663,
+      "grad_norm_var": 0.11477257851482622,
+      "learning_rate": 2e-05,
+      "loss": 0.4243,
+      "loss/crossentropy": 2.4684702157974243,
+      "loss/hidden": 0.150390625,
+      "loss/logits": 0.027326886542141438,
+      "loss/reg": 0.02465582638978958,
+      "step": 987
+    },
+    {
+      "epoch": 0.494,
+      "grad_norm": 1.4916634559631348,
+      "grad_norm_var": 0.109505544141344,
+      "learning_rate": 2e-05,
+      "loss": 0.4294,
+      "loss/crossentropy": 2.4013638496398926,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.026141656562685966,
+      "loss/reg": 0.02465374581515789,
+      "step": 988
+    },
+    {
+      "epoch": 0.4945,
+      "grad_norm": 1.7180440425872803,
+      "grad_norm_var": 0.11078359056482606,
+      "learning_rate": 2e-05,
+      "loss": 0.5258,
+      "loss/crossentropy": 2.3340543508529663,
+      "loss/hidden": 0.22998046875,
+      "loss/logits": 0.049306683242321014,
+      "loss/reg": 0.024651547893881798,
+      "step": 989
+    },
+    {
+      "epoch": 0.495,
+      "grad_norm": 1.192015290260315,
+      "grad_norm_var": 0.11847738378988476,
+      "learning_rate": 2e-05,
+      "loss": 0.4235,
+      "loss/crossentropy": 2.4830812215805054,
+      "loss/hidden": 0.1513671875,
+      "loss/logits": 0.02562696486711502,
+      "loss/reg": 0.024649281054735184,
+      "step": 990
+    },
+    {
+      "epoch": 0.4955,
+      "grad_norm": 2.068011522293091,
+      "grad_norm_var": 0.07453697096159431,
+      "learning_rate": 2e-05,
+      "loss": 0.4613,
+      "loss/crossentropy": 2.6523276567459106,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.033670464530587196,
+      "loss/reg": 0.02464720420539379,
+      "step": 991
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 1.2752137184143066,
+      "grad_norm_var": 0.07874241495605147,
+      "learning_rate": 2e-05,
+      "loss": 0.4984,
+      "loss/crossentropy": 2.0650646686553955,
+      "loss/hidden": 0.2119140625,
+      "loss/logits": 0.04002711549401283,
+      "loss/reg": 0.024645155295729637,
+      "step": 992
+    },
+    {
+      "epoch": 0.4965,
+      "grad_norm": 1.5579633712768555,
+      "grad_norm_var": 0.06175023932142167,
+      "learning_rate": 2e-05,
+      "loss": 0.4986,
+      "loss/crossentropy": 2.3349034786224365,
+      "loss/hidden": 0.197265625,
+      "loss/logits": 0.054928943514823914,
+      "loss/reg": 0.02464275248348713,
+      "step": 993
+    },
+    {
+      "epoch": 0.497,
+      "grad_norm": 1.2338091135025024,
+      "grad_norm_var": 0.06599051690941451,
+      "learning_rate": 2e-05,
+      "loss": 0.4429,
+      "loss/crossentropy": 2.4117237329483032,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.031464939936995506,
+      "loss/reg": 0.024640321731567383,
+      "step": 994
+    },
+    {
+      "epoch": 0.4975,
+      "grad_norm": 1.5982106924057007,
+      "grad_norm_var": 0.0668363147457848,
+      "learning_rate": 2e-05,
+      "loss": 0.4563,
+      "loss/crossentropy": 2.387059211730957,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.03751287795603275,
+      "loss/reg": 0.024637887254357338,
+      "step": 995
+    },
+    {
+      "epoch": 0.498,
+      "grad_norm": 1.4983510971069336,
+      "grad_norm_var": 0.056549508629934485,
+      "learning_rate": 2e-05,
+      "loss": 0.4948,
+      "loss/crossentropy": 2.186620593070984,
+      "loss/hidden": 0.21337890625,
+      "loss/logits": 0.03502054139971733,
+      "loss/reg": 0.024635281413793564,
+      "step": 996
+    },
+    {
+      "epoch": 0.4985,
+      "grad_norm": 1.8561230897903442,
+      "grad_norm_var": 0.062272768724757795,
+      "learning_rate": 2e-05,
+      "loss": 0.5759,
+      "loss/crossentropy": 2.4618980884552,
+      "loss/hidden": 0.27197265625,
+      "loss/logits": 0.05761981941759586,
+      "loss/reg": 0.024632660672068596,
+      "step": 997
+    },
+    {
+      "epoch": 0.499,
+      "grad_norm": 1.5297044515609741,
+      "grad_norm_var": 0.06228877530962974,
+      "learning_rate": 2e-05,
+      "loss": 0.4652,
+      "loss/crossentropy": 2.2573466300964355,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.03383258357644081,
+      "loss/reg": 0.024630188941955566,
+      "step": 998
+    },
+    {
+      "epoch": 0.4995,
+      "grad_norm": 1.9509611129760742,
+      "grad_norm_var": 0.06192666000230999,
+      "learning_rate": 2e-05,
+      "loss": 0.4608,
+      "loss/crossentropy": 2.4582537412643433,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.03336348757147789,
+      "loss/reg": 0.024627676233649254,
+      "step": 999
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.263331413269043,
+      "grad_norm_var": 0.06312427179109174,
+      "learning_rate": 2e-05,
+      "loss": 0.4127,
+      "loss/crossentropy": 2.5180909633636475,
+      "loss/hidden": 0.1435546875,
+      "loss/logits": 0.022916819900274277,
+      "loss/reg": 0.024625113233923912,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5005,
+      "grad_norm": 2.315190553665161,
+      "grad_norm_var": 0.09925843788652339,
+      "learning_rate": 2e-05,
+      "loss": 0.5383,
+      "loss/crossentropy": 2.3459049463272095,
+      "loss/hidden": 0.244140625,
+      "loss/logits": 0.04792695306241512,
+      "loss/reg": 0.024622488766908646,
+      "step": 1001
+    },
+    {
+      "epoch": 0.501,
+      "grad_norm": 1.533280372619629,
+      "grad_norm_var": 0.09910429692047741,
+      "learning_rate": 2e-05,
+      "loss": 0.4648,
+      "loss/crossentropy": 2.3168352842330933,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.029631631448864937,
+      "loss/reg": 0.02461997978389263,
+      "step": 1002
+    },
+    {
+      "epoch": 0.5015,
+      "grad_norm": 2.5686206817626953,
+      "grad_norm_var": 0.1570070725080583,
+      "learning_rate": 2e-05,
+      "loss": 0.5058,
+      "loss/crossentropy": 2.1777498722076416,
+      "loss/hidden": 0.2099609375,
+      "loss/logits": 0.0496145635843277,
+      "loss/reg": 0.024617573246359825,
+      "step": 1003
+    },
+    {
+      "epoch": 0.502,
+      "grad_norm": 1.3942785263061523,
+      "grad_norm_var": 0.15985904345598664,
+      "learning_rate": 2e-05,
+      "loss": 0.4515,
+      "loss/crossentropy": 2.30439692735672,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.025181924924254417,
+      "loss/reg": 0.024615149945020676,
+      "step": 1004
+    },
+    {
+      "epoch": 0.5025,
+      "grad_norm": 1.6636312007904053,
+      "grad_norm_var": 0.15961985398144515,
+      "learning_rate": 2e-05,
+      "loss": 0.4799,
+      "loss/crossentropy": 2.387961268424988,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.04039803333580494,
+      "loss/reg": 0.02461281418800354,
+      "step": 1005
+    },
+    {
+      "epoch": 0.503,
+      "grad_norm": 1.175167202949524,
+      "grad_norm_var": 0.16068027431229595,
+      "learning_rate": 2e-05,
+      "loss": 0.4205,
+      "loss/crossentropy": 2.2776483297348022,
+      "loss/hidden": 0.14599609375,
+      "loss/logits": 0.028357837349176407,
+      "loss/reg": 0.024610213935375214,
+      "step": 1006
+    },
+    {
+      "epoch": 0.5035,
+      "grad_norm": 1.2402100563049316,
+      "grad_norm_var": 0.15793593833079214,
+      "learning_rate": 2e-05,
+      "loss": 0.4417,
+      "loss/crossentropy": 2.4232317209243774,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.027130945585668087,
+      "loss/reg": 0.024607809260487556,
+      "step": 1007
+    },
+    {
+      "epoch": 0.504,
+      "grad_norm": 1.4888067245483398,
+      "grad_norm_var": 0.15144150127088754,
+      "learning_rate": 2e-05,
+      "loss": 0.4199,
+      "loss/crossentropy": 2.17998468875885,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.021496030502021313,
+      "loss/reg": 0.02460542693734169,
+      "step": 1008
+    },
+    {
+      "epoch": 0.5045,
+      "grad_norm": 1.750985026359558,
+      "grad_norm_var": 0.15225772018986655,
+      "learning_rate": 2e-05,
+      "loss": 0.4642,
+      "loss/crossentropy": 2.200040578842163,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.031146997585892677,
+      "loss/reg": 0.02460303343832493,
+      "step": 1009
+    },
+    {
+      "epoch": 0.505,
+      "grad_norm": 1.1058796644210815,
+      "grad_norm_var": 0.16001790603834795,
+      "learning_rate": 2e-05,
+      "loss": 0.4448,
+      "loss/crossentropy": 2.094850778579712,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.030812044627964497,
+      "loss/reg": 0.024600572884082794,
+      "step": 1010
+    },
+    {
+      "epoch": 0.5055,
+      "grad_norm": 1.4799710512161255,
+      "grad_norm_var": 0.16124775408475406,
+      "learning_rate": 2e-05,
+      "loss": 0.4294,
+      "loss/crossentropy": 2.5933122634887695,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.03153660800307989,
+      "loss/reg": 0.024597788229584694,
+      "step": 1011
+    },
+    {
+      "epoch": 0.506,
+      "grad_norm": 2.6447713375091553,
+      "grad_norm_var": 0.22580341469373647,
+      "learning_rate": 2e-05,
+      "loss": 0.4916,
+      "loss/crossentropy": 2.423816442489624,
+      "loss/hidden": 0.212890625,
+      "loss/logits": 0.03276214189827442,
+      "loss/reg": 0.024594949558377266,
+      "step": 1012
+    },
+    {
+      "epoch": 0.5065,
+      "grad_norm": 1.3123342990875244,
+      "grad_norm_var": 0.23188188108190289,
+      "learning_rate": 2e-05,
+      "loss": 0.4473,
+      "loss/crossentropy": 2.268904685974121,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.03294616658240557,
+      "loss/reg": 0.024592256173491478,
+      "step": 1013
+    },
+    {
+      "epoch": 0.507,
+      "grad_norm": 1.6381093263626099,
+      "grad_norm_var": 0.23086213820556947,
+      "learning_rate": 2e-05,
+      "loss": 0.483,
+      "loss/crossentropy": 2.5634379386901855,
+      "loss/hidden": 0.1953125,
+      "loss/logits": 0.04177115485072136,
+      "loss/reg": 0.024589471518993378,
+      "step": 1014
+    },
+    {
+      "epoch": 0.5075,
+      "grad_norm": 1.9902760982513428,
+      "grad_norm_var": 0.2324952537472744,
+      "learning_rate": 2e-05,
+      "loss": 0.5418,
+      "loss/crossentropy": 2.2787784934043884,
+      "loss/hidden": 0.24169921875,
+      "loss/logits": 0.05426573008298874,
+      "loss/reg": 0.024587033316493034,
+      "step": 1015
+    },
+    {
+      "epoch": 0.508,
+      "grad_norm": 1.2062731981277466,
+      "grad_norm_var": 0.2357187944792192,
+      "learning_rate": 2e-05,
+      "loss": 0.4281,
+      "loss/crossentropy": 2.5111724138259888,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.02992274332791567,
+      "loss/reg": 0.024584423750638962,
+      "step": 1016
+    },
+    {
+      "epoch": 0.5085,
+      "grad_norm": 1.755979299545288,
+      "grad_norm_var": 0.20616830501869762,
+      "learning_rate": 2e-05,
+      "loss": 0.475,
+      "loss/crossentropy": 2.331393003463745,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.029994547367095947,
+      "loss/reg": 0.024581963196396828,
+      "step": 1017
+    },
+    {
+      "epoch": 0.509,
+      "grad_norm": 1.800107479095459,
+      "grad_norm_var": 0.2074693433041612,
+      "learning_rate": 2e-05,
+      "loss": 0.4413,
+      "loss/crossentropy": 2.3108561038970947,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.029039999470114708,
+      "loss/reg": 0.024579644203186035,
+      "step": 1018
+    },
+    {
+      "epoch": 0.5095,
+      "grad_norm": 1.8739287853240967,
+      "grad_norm_var": 0.15147520519188878,
+      "learning_rate": 2e-05,
+      "loss": 0.4338,
+      "loss/crossentropy": 2.204409599304199,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.025386362336575985,
+      "loss/reg": 0.024577105417847633,
+      "step": 1019
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 2.2447474002838135,
+      "grad_norm_var": 0.17391527788569666,
+      "learning_rate": 2e-05,
+      "loss": 0.4625,
+      "loss/crossentropy": 2.5994725227355957,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.0273160170763731,
+      "loss/reg": 0.024574514478445053,
+      "step": 1020
+    },
+    {
+      "epoch": 0.5105,
+      "grad_norm": 1.2325525283813477,
+      "grad_norm_var": 0.18464255921690906,
+      "learning_rate": 2e-05,
+      "loss": 0.4429,
+      "loss/crossentropy": 2.3073863983154297,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.029254252091050148,
+      "loss/reg": 0.024571970105171204,
+      "step": 1021
+    },
+    {
+      "epoch": 0.511,
+      "grad_norm": 1.2389066219329834,
+      "grad_norm_var": 0.18110535153355295,
+      "learning_rate": 2e-05,
+      "loss": 0.4033,
+      "loss/crossentropy": 2.50894033908844,
+      "loss/hidden": 0.13671875,
+      "loss/logits": 0.020873015746474266,
+      "loss/reg": 0.024569377303123474,
+      "step": 1022
+    },
+    {
+      "epoch": 0.5115,
+      "grad_norm": 1.7655569314956665,
+      "grad_norm_var": 0.17138478636465398,
+      "learning_rate": 2e-05,
+      "loss": 0.5674,
+      "loss/crossentropy": 1.9970663189888,
+      "loss/hidden": 0.2744140625,
+      "loss/logits": 0.04734223149716854,
+      "loss/reg": 0.02456682361662388,
+      "step": 1023
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 1.2552883625030518,
+      "grad_norm_var": 0.18006323532261087,
+      "learning_rate": 2e-05,
+      "loss": 0.4555,
+      "loss/crossentropy": 2.412826180458069,
+      "loss/hidden": 0.177734375,
+      "loss/logits": 0.03207558020949364,
+      "loss/reg": 0.024564214050769806,
+      "step": 1024
+    },
+    {
+      "epoch": 0.5125,
+      "grad_norm": 1.5279215574264526,
+      "grad_norm_var": 0.1799756513199552,
+      "learning_rate": 2e-05,
+      "loss": 0.4414,
+      "loss/crossentropy": 2.2349936962127686,
+      "loss/hidden": 0.166015625,
+      "loss/logits": 0.029770507477223873,
+      "loss/reg": 0.024561790749430656,
+      "step": 1025
+    },
+    {
+      "epoch": 0.513,
+      "grad_norm": 1.204811930656433,
+      "grad_norm_var": 0.17367981846485894,
+      "learning_rate": 2e-05,
+      "loss": 0.4652,
+      "loss/crossentropy": 2.3194793462753296,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.03311028238385916,
+      "loss/reg": 0.02455941028892994,
+      "step": 1026
+    },
+    {
+      "epoch": 0.5135,
+      "grad_norm": 1.3728058338165283,
+      "grad_norm_var": 0.17662305625485236,
+      "learning_rate": 2e-05,
+      "loss": 0.4484,
+      "loss/crossentropy": 2.6432000398635864,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.030997256748378277,
+      "loss/reg": 0.02455691620707512,
+      "step": 1027
+    },
+    {
+      "epoch": 0.514,
+      "grad_norm": 1.755271553993225,
+      "grad_norm_var": 0.10560597146194155,
+      "learning_rate": 2e-05,
+      "loss": 0.5098,
+      "loss/crossentropy": 2.364680051803589,
+      "loss/hidden": 0.23779296875,
+      "loss/logits": 0.026502804830670357,
+      "loss/reg": 0.024554504081606865,
+      "step": 1028
+    },
+    {
+      "epoch": 0.5145,
+      "grad_norm": 1.0920544862747192,
+      "grad_norm_var": 0.11630720334852303,
+      "learning_rate": 2e-05,
+      "loss": 0.4003,
+      "loss/crossentropy": 2.2761380672454834,
+      "loss/hidden": 0.1337890625,
+      "loss/logits": 0.020970601588487625,
+      "loss/reg": 0.024552173912525177,
+      "step": 1029
+    },
+    {
+      "epoch": 0.515,
+      "grad_norm": 6.667808532714844,
+      "grad_norm_var": 1.750033221105651,
+      "learning_rate": 2e-05,
+      "loss": 0.8699,
+      "loss/crossentropy": 2.0262590050697327,
+      "loss/hidden": 0.54443359375,
+      "loss/logits": 0.0799819864332676,
+      "loss/reg": 0.02454986795783043,
+      "step": 1030
+    },
+    {
+      "epoch": 0.5155,
+      "grad_norm": 1.4751737117767334,
+      "grad_norm_var": 1.7586317433690974,
+      "learning_rate": 2e-05,
+      "loss": 0.4788,
+      "loss/crossentropy": 2.3618550300598145,
+      "loss/hidden": 0.19677734375,
+      "loss/logits": 0.03654679283499718,
+      "loss/reg": 0.024547545239329338,
+      "step": 1031
+    },
+    {
+      "epoch": 0.516,
+      "grad_norm": 1.1540484428405762,
+      "grad_norm_var": 1.763227740616036,
+      "learning_rate": 2e-05,
+      "loss": 0.4253,
+      "loss/crossentropy": 2.479053497314453,
+      "loss/hidden": 0.1533203125,
+      "loss/logits": 0.026503758504986763,
+      "loss/reg": 0.024545062333345413,
+      "step": 1032
+    },
+    {
+      "epoch": 0.5165,
+      "grad_norm": 1.0233707427978516,
+      "grad_norm_var": 1.8048390448531781,
+      "learning_rate": 2e-05,
+      "loss": 0.4207,
+      "loss/crossentropy": 2.4981950521469116,
+      "loss/hidden": 0.14697265625,
+      "loss/logits": 0.028342297300696373,
+      "loss/reg": 0.024542683735489845,
+      "step": 1033
+    },
+    {
+      "epoch": 0.517,
+      "grad_norm": 1.6611769199371338,
+      "grad_norm_var": 1.8059095215172836,
+      "learning_rate": 2e-05,
+      "loss": 0.5209,
+      "loss/crossentropy": 2.3910595178604126,
+      "loss/hidden": 0.232421875,
+      "loss/logits": 0.04302603006362915,
+      "loss/reg": 0.024540260434150696,
+      "step": 1034
+    },
+    {
+      "epoch": 0.5175,
+      "grad_norm": 1.7571359872817993,
+      "grad_norm_var": 1.805363038051151,
+      "learning_rate": 2e-05,
+      "loss": 0.4273,
+      "loss/crossentropy": 2.403917074203491,
+      "loss/hidden": 0.15478515625,
+      "loss/logits": 0.02708614058792591,
+      "loss/reg": 0.024537930265069008,
+      "step": 1035
+    },
+    {
+      "epoch": 0.518,
+      "grad_norm": 1.377044677734375,
+      "grad_norm_var": 1.798280006459376,
+      "learning_rate": 2e-05,
+      "loss": 0.4691,
+      "loss/crossentropy": 2.070719838142395,
+      "loss/hidden": 0.19091796875,
+      "loss/logits": 0.03284468129277229,
+      "loss/reg": 0.02453547529876232,
+      "step": 1036
+    },
+    {
+      "epoch": 0.5185,
+      "grad_norm": 1.4872187376022339,
+      "grad_norm_var": 1.78569505647099,
+      "learning_rate": 2e-05,
+      "loss": 0.4843,
+      "loss/crossentropy": 2.3953222036361694,
+      "loss/hidden": 0.1982421875,
+      "loss/logits": 0.04068641737103462,
+      "loss/reg": 0.02453303523361683,
+      "step": 1037
+    },
+    {
+      "epoch": 0.519,
+      "grad_norm": 2.055389881134033,
+      "grad_norm_var": 1.7729751683139976,
+      "learning_rate": 2e-05,
+      "loss": 0.533,
+      "loss/crossentropy": 2.5933210849761963,
+      "loss/hidden": 0.23583984375,
+      "loss/logits": 0.05187349207699299,
+      "loss/reg": 0.024530693888664246,
+      "step": 1038
+    },
+    {
+      "epoch": 0.5195,
+      "grad_norm": 1.2173277139663696,
+      "grad_norm_var": 1.7935104026338773,
+      "learning_rate": 2e-05,
+      "loss": 0.4539,
+      "loss/crossentropy": 2.4251633882522583,
+      "loss/hidden": 0.17724609375,
+      "loss/logits": 0.03137340396642685,
+      "loss/reg": 0.024528371170163155,
+      "step": 1039
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.4174593687057495,
+      "grad_norm_var": 1.7843437503956898,
+      "learning_rate": 2e-05,
+      "loss": 0.4481,
+      "loss/crossentropy": 2.562455415725708,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.036311980336904526,
+      "loss/reg": 0.024526001885533333,
+      "step": 1040
+    },
+    {
+      "epoch": 0.5205,
+      "grad_norm": 1.6313014030456543,
+      "grad_norm_var": 1.7817386417632997,
+      "learning_rate": 2e-05,
+      "loss": 0.4698,
+      "loss/crossentropy": 2.3674226999282837,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.03119245171546936,
+      "loss/reg": 0.02452370524406433,
+      "step": 1041
+    },
+    {
+      "epoch": 0.521,
+      "grad_norm": 1.5067142248153687,
+      "grad_norm_var": 1.7646103614574096,
+      "learning_rate": 2e-05,
+      "loss": 0.4274,
+      "loss/crossentropy": 2.3603265285491943,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.02301643881946802,
+      "loss/reg": 0.024521449580788612,
+      "step": 1042
+    },
+    {
+      "epoch": 0.5215,
+      "grad_norm": 1.2168174982070923,
+      "grad_norm_var": 1.7748228156101766,
+      "learning_rate": 2e-05,
+      "loss": 0.4298,
+      "loss/crossentropy": 2.5000079870224,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.027365175541490316,
+      "loss/reg": 0.024519138038158417,
+      "step": 1043
+    },
+    {
+      "epoch": 0.522,
+      "grad_norm": 1.4697620868682861,
+      "grad_norm_var": 1.780895340312144,
+      "learning_rate": 2e-05,
+      "loss": 0.4368,
+      "loss/crossentropy": 2.4227681159973145,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.02705656923353672,
+      "loss/reg": 0.02451668120920658,
+      "step": 1044
+    },
+    {
+      "epoch": 0.5225,
+      "grad_norm": 1.3264552354812622,
+      "grad_norm_var": 1.7633564468147955,
+      "learning_rate": 2e-05,
+      "loss": 0.4162,
+      "loss/crossentropy": 2.35932993888855,
+      "loss/hidden": 0.1474609375,
+      "loss/logits": 0.023632820695638657,
+      "loss/reg": 0.02451416663825512,
+      "step": 1045
+    },
+    {
+      "epoch": 0.523,
+      "grad_norm": 2.0581815242767334,
+      "grad_norm_var": 0.08589286553724325,
+      "learning_rate": 2e-05,
+      "loss": 0.4888,
+      "loss/crossentropy": 2.554602861404419,
+      "loss/hidden": 0.19384765625,
+      "loss/logits": 0.04979093559086323,
+      "loss/reg": 0.024511631578207016,
+      "step": 1046
+    },
+    {
+      "epoch": 0.5235,
+      "grad_norm": 3.9287054538726807,
+      "grad_norm_var": 0.45739211083615405,
+      "learning_rate": 2e-05,
+      "loss": 0.589,
+      "loss/crossentropy": 2.350398898124695,
+      "loss/hidden": 0.302734375,
+      "loss/logits": 0.041149744763970375,
+      "loss/reg": 0.024509234353899956,
+      "step": 1047
+    },
+    {
+      "epoch": 0.524,
+      "grad_norm": 1.8000636100769043,
+      "grad_norm_var": 0.44135897770784704,
+      "learning_rate": 2e-05,
+      "loss": 0.4479,
+      "loss/crossentropy": 2.401803970336914,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.029028436169028282,
+      "loss/reg": 0.024506855756044388,
+      "step": 1048
+    },
+    {
+      "epoch": 0.5245,
+      "grad_norm": 1.3291693925857544,
+      "grad_norm_var": 0.4202927551272635,
+      "learning_rate": 2e-05,
+      "loss": 0.481,
+      "loss/crossentropy": 2.194493293762207,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.03670147806406021,
+      "loss/reg": 0.02450430393218994,
+      "step": 1049
+    },
+    {
+      "epoch": 0.525,
+      "grad_norm": 1.5405762195587158,
+      "grad_norm_var": 0.42186619050553964,
+      "learning_rate": 2e-05,
+      "loss": 0.4794,
+      "loss/crossentropy": 2.147883892059326,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.02983129769563675,
+      "loss/reg": 0.024501901119947433,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5255,
+      "grad_norm": 1.8504911661148071,
+      "grad_norm_var": 0.42318484533822676,
+      "learning_rate": 2e-05,
+      "loss": 0.5108,
+      "loss/crossentropy": 2.149976372718811,
+      "loss/hidden": 0.2236328125,
+      "loss/logits": 0.04220755770802498,
+      "loss/reg": 0.0244994405657053,
+      "step": 1051
+    },
+    {
+      "epoch": 0.526,
+      "grad_norm": 1.2600603103637695,
+      "grad_norm_var": 0.42908996868910637,
+      "learning_rate": 2e-05,
+      "loss": 0.4532,
+      "loss/crossentropy": 2.4726301431655884,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.03347236476838589,
+      "loss/reg": 0.024497076869010925,
+      "step": 1052
+    },
+    {
+      "epoch": 0.5265,
+      "grad_norm": 1.9423667192459106,
+      "grad_norm_var": 0.42952014360100654,
+      "learning_rate": 2e-05,
+      "loss": 0.4753,
+      "loss/crossentropy": 2.3846495151519775,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.03703247010707855,
+      "loss/reg": 0.024494826793670654,
+      "step": 1053
+    },
+    {
+      "epoch": 0.527,
+      "grad_norm": 1.3845815658569336,
+      "grad_norm_var": 0.4278188958703671,
+      "learning_rate": 2e-05,
+      "loss": 0.4507,
+      "loss/crossentropy": 2.388631224632263,
+      "loss/hidden": 0.17138671875,
+      "loss/logits": 0.03437050245702267,
+      "loss/reg": 0.024492528289556503,
+      "step": 1054
+    },
+    {
+      "epoch": 0.5275,
+      "grad_norm": 1.567394733428955,
+      "grad_norm_var": 0.41388247279120466,
+      "learning_rate": 2e-05,
+      "loss": 0.4495,
+      "loss/crossentropy": 2.368739128112793,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.03617890737950802,
+      "loss/reg": 0.024490313604474068,
+      "step": 1055
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 2.2830867767333984,
+      "grad_norm_var": 0.42788727790428427,
+      "learning_rate": 2e-05,
+      "loss": 0.5231,
+      "loss/crossentropy": 2.152646243572235,
+      "loss/hidden": 0.234375,
+      "loss/logits": 0.043883830308914185,
+      "loss/reg": 0.02448788657784462,
+      "step": 1056
+    },
+    {
+      "epoch": 0.5285,
+      "grad_norm": 1.6639432907104492,
+      "grad_norm_var": 0.427411225536909,
+      "learning_rate": 2e-05,
+      "loss": 0.5485,
+      "loss/crossentropy": 2.2220189571380615,
+      "loss/hidden": 0.2431640625,
+      "loss/logits": 0.06049743480980396,
+      "loss/reg": 0.02448536455631256,
+      "step": 1057
+    },
+    {
+      "epoch": 0.529,
+      "grad_norm": 1.5924744606018066,
+      "grad_norm_var": 0.4249972603969434,
+      "learning_rate": 2e-05,
+      "loss": 0.4682,
+      "loss/crossentropy": 2.237455129623413,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.04367717728018761,
+      "loss/reg": 0.02448287233710289,
+      "step": 1058
+    },
+    {
+      "epoch": 0.5295,
+      "grad_norm": 2.2733936309814453,
+      "grad_norm_var": 0.4177709041128878,
+      "learning_rate": 2e-05,
+      "loss": 0.4764,
+      "loss/crossentropy": 2.3304353952407837,
+      "loss/hidden": 0.1923828125,
+      "loss/logits": 0.03922894597053528,
+      "loss/reg": 0.02448027953505516,
+      "step": 1059
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.09116530418396,
+      "grad_norm_var": 0.44488470791259543,
+      "learning_rate": 2e-05,
+      "loss": 0.4262,
+      "loss/crossentropy": 2.195927619934082,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.029037375934422016,
+      "loss/reg": 0.02447788044810295,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5305,
+      "grad_norm": 1.77937650680542,
+      "grad_norm_var": 0.42876102735321137,
+      "learning_rate": 2e-05,
+      "loss": 0.4547,
+      "loss/crossentropy": 2.4653072357177734,
+      "loss/hidden": 0.177734375,
+      "loss/logits": 0.0321984738111496,
+      "loss/reg": 0.02447550557553768,
+      "step": 1061
+    },
+    {
+      "epoch": 0.531,
+      "grad_norm": 1.846907138824463,
+      "grad_norm_var": 0.42523747091545416,
+      "learning_rate": 2e-05,
+      "loss": 0.5053,
+      "loss/crossentropy": 2.340217351913452,
+      "loss/hidden": 0.21435546875,
+      "loss/logits": 0.046232474967837334,
+      "loss/reg": 0.02447315864264965,
+      "step": 1062
+    },
+    {
+      "epoch": 0.5315,
+      "grad_norm": 1.659089207649231,
+      "grad_norm_var": 0.10931806474138266,
+      "learning_rate": 2e-05,
+      "loss": 0.4724,
+      "loss/crossentropy": 2.350934624671936,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.04117522016167641,
+      "loss/reg": 0.024470685049891472,
+      "step": 1063
+    },
+    {
+      "epoch": 0.532,
+      "grad_norm": 1.4331797361373901,
+      "grad_norm_var": 0.11180905743439092,
+      "learning_rate": 2e-05,
+      "loss": 0.4513,
+      "loss/crossentropy": 2.3989791870117188,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.03085092268884182,
+      "loss/reg": 0.02446819841861725,
+      "step": 1064
+    },
+    {
+      "epoch": 0.5325,
+      "grad_norm": 1.4166337251663208,
+      "grad_norm_var": 0.10847479799077456,
+      "learning_rate": 2e-05,
+      "loss": 0.4312,
+      "loss/crossentropy": 2.507182240486145,
+      "loss/hidden": 0.15771484375,
+      "loss/logits": 0.02880854159593582,
+      "loss/reg": 0.02446584217250347,
+      "step": 1065
+    },
+    {
+      "epoch": 0.533,
+      "grad_norm": 1.7280267477035522,
+      "grad_norm_var": 0.10764748193198746,
+      "learning_rate": 2e-05,
+      "loss": 0.4635,
+      "loss/crossentropy": 2.478935956954956,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.03238129895180464,
+      "loss/reg": 0.0244633499532938,
+      "step": 1066
+    },
+    {
+      "epoch": 0.5335,
+      "grad_norm": 1.2200838327407837,
+      "grad_norm_var": 0.11758883412413562,
+      "learning_rate": 2e-05,
+      "loss": 0.4332,
+      "loss/crossentropy": 2.245327651500702,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.03184494376182556,
+      "loss/reg": 0.024460740387439728,
+      "step": 1067
+    },
+    {
+      "epoch": 0.534,
+      "grad_norm": 1.8010295629501343,
+      "grad_norm_var": 0.10891741560488928,
+      "learning_rate": 2e-05,
+      "loss": 0.5088,
+      "loss/crossentropy": 2.45032274723053,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.04397309757769108,
+      "loss/reg": 0.024458307772874832,
+      "step": 1068
+    },
+    {
+      "epoch": 0.5345,
+      "grad_norm": 3.2257442474365234,
+      "grad_norm_var": 0.2588636742482642,
+      "learning_rate": 2e-05,
+      "loss": 0.5897,
+      "loss/crossentropy": 2.250162959098816,
+      "loss/hidden": 0.2841796875,
+      "loss/logits": 0.06098415516316891,
+      "loss/reg": 0.024455880746245384,
+      "step": 1069
+    },
+    {
+      "epoch": 0.535,
+      "grad_norm": 1.5339529514312744,
+      "grad_norm_var": 0.2530226057684303,
+      "learning_rate": 2e-05,
+      "loss": 0.4264,
+      "loss/crossentropy": 2.2610918283462524,
+      "loss/hidden": 0.154296875,
+      "loss/logits": 0.02759288903325796,
+      "loss/reg": 0.024453405290842056,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5355,
+      "grad_norm": 1.972740888595581,
+      "grad_norm_var": 0.2530325031228223,
+      "learning_rate": 2e-05,
+      "loss": 0.521,
+      "loss/crossentropy": 2.1504000425338745,
+      "loss/hidden": 0.23681640625,
+      "loss/logits": 0.03967903181910515,
+      "loss/reg": 0.02445101924240589,
+      "step": 1071
+    },
+    {
+      "epoch": 0.536,
+      "grad_norm": 1.547863245010376,
+      "grad_norm_var": 0.23774975509498403,
+      "learning_rate": 2e-05,
+      "loss": 0.4831,
+      "loss/crossentropy": 2.2970356941223145,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.03990238159894943,
+      "loss/reg": 0.024448538199067116,
+      "step": 1072
+    },
+    {
+      "epoch": 0.5365,
+      "grad_norm": 1.686294674873352,
+      "grad_norm_var": 0.23756444788163353,
+      "learning_rate": 2e-05,
+      "loss": 0.436,
+      "loss/crossentropy": 2.4303818941116333,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.02797577064484358,
+      "loss/reg": 0.024446075782179832,
+      "step": 1073
+    },
+    {
+      "epoch": 0.537,
+      "grad_norm": 2.996263027191162,
+      "grad_norm_var": 0.3334905820123376,
+      "learning_rate": 2e-05,
+      "loss": 0.4512,
+      "loss/crossentropy": 2.3784351348876953,
+      "loss/hidden": 0.17724609375,
+      "loss/logits": 0.02949346974492073,
+      "loss/reg": 0.02444363757967949,
+      "step": 1074
+    },
+    {
+      "epoch": 0.5375,
+      "grad_norm": 1.6075915098190308,
+      "grad_norm_var": 0.32145599917045425,
+      "learning_rate": 2e-05,
+      "loss": 0.4564,
+      "loss/crossentropy": 2.3008534908294678,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.03131491877138615,
+      "loss/reg": 0.02444116212427616,
+      "step": 1075
+    },
+    {
+      "epoch": 0.538,
+      "grad_norm": 1.6602723598480225,
+      "grad_norm_var": 0.28911651671163174,
+      "learning_rate": 2e-05,
+      "loss": 0.5333,
+      "loss/crossentropy": 2.380239248275757,
+      "loss/hidden": 0.24072265625,
+      "loss/logits": 0.04818672500550747,
+      "loss/reg": 0.02443861961364746,
+      "step": 1076
+    },
+    {
+      "epoch": 0.5385,
+      "grad_norm": 1.4191992282867432,
+      "grad_norm_var": 0.2991605248784346,
+      "learning_rate": 2e-05,
+      "loss": 0.5074,
+      "loss/crossentropy": 1.901290237903595,
+      "loss/hidden": 0.22509765625,
+      "loss/logits": 0.03790563438087702,
+      "loss/reg": 0.02443600259721279,
+      "step": 1077
+    },
+    {
+      "epoch": 0.539,
+      "grad_norm": 3.096097230911255,
+      "grad_norm_var": 0.4049728367226398,
+      "learning_rate": 2e-05,
+      "loss": 0.5158,
+      "loss/crossentropy": 2.3517009019851685,
+      "loss/hidden": 0.23388671875,
+      "loss/logits": 0.037621984258294106,
+      "loss/reg": 0.024433549493551254,
+      "step": 1078
+    },
+    {
+      "epoch": 0.5395,
+      "grad_norm": 2.404075860977173,
+      "grad_norm_var": 0.4181886829541852,
+      "learning_rate": 2e-05,
+      "loss": 0.481,
+      "loss/crossentropy": 2.174505352973938,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.03792595863342285,
+      "loss/reg": 0.02443109266459942,
+      "step": 1079
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 2.0042619705200195,
+      "grad_norm_var": 0.40136528423351076,
+      "learning_rate": 2e-05,
+      "loss": 0.4407,
+      "loss/crossentropy": 2.4950019121170044,
+      "loss/hidden": 0.165283203125,
+      "loss/logits": 0.031170199625194073,
+      "loss/reg": 0.024428587406873703,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5405,
+      "grad_norm": 1.8745791912078857,
+      "grad_norm_var": 0.38144694441163024,
+      "learning_rate": 2e-05,
+      "loss": 0.5041,
+      "loss/crossentropy": 2.4403117895126343,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.03862900286912918,
+      "loss/reg": 0.024426110088825226,
+      "step": 1081
+    },
+    {
+      "epoch": 0.541,
+      "grad_norm": 1.9030897617340088,
+      "grad_norm_var": 0.3773378128842729,
+      "learning_rate": 2e-05,
+      "loss": 0.5108,
+      "loss/crossentropy": 2.2553837299346924,
+      "loss/hidden": 0.22802734375,
+      "loss/logits": 0.03854364529252052,
+      "loss/reg": 0.024423446506261826,
+      "step": 1082
+    },
+    {
+      "epoch": 0.5415,
+      "grad_norm": 1.5374236106872559,
+      "grad_norm_var": 0.350755978913394,
+      "learning_rate": 2e-05,
+      "loss": 0.426,
+      "loss/crossentropy": 2.549424886703491,
+      "loss/hidden": 0.1533203125,
+      "loss/logits": 0.02845953404903412,
+      "loss/reg": 0.024420736357569695,
+      "step": 1083
+    },
+    {
+      "epoch": 0.542,
+      "grad_norm": 1.7184265851974487,
+      "grad_norm_var": 0.3535600255487106,
+      "learning_rate": 2e-05,
+      "loss": 0.4644,
+      "loss/crossentropy": 2.3825089931488037,
+      "loss/hidden": 0.1884765625,
+      "loss/logits": 0.031747978180646896,
+      "loss/reg": 0.02441803179681301,
+      "step": 1084
+    },
+    {
+      "epoch": 0.5425,
+      "grad_norm": 1.4469131231307983,
+      "grad_norm_var": 0.26339110279265016,
+      "learning_rate": 2e-05,
+      "loss": 0.4765,
+      "loss/crossentropy": 2.2089916467666626,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.03606886602938175,
+      "loss/reg": 0.02441529557108879,
+      "step": 1085
+    },
+    {
+      "epoch": 0.543,
+      "grad_norm": 1.1277079582214355,
+      "grad_norm_var": 0.293563715509962,
+      "learning_rate": 2e-05,
+      "loss": 0.4419,
+      "loss/crossentropy": 2.1233601570129395,
+      "loss/hidden": 0.166015625,
+      "loss/logits": 0.03171114809811115,
+      "loss/reg": 0.02441273257136345,
+      "step": 1086
+    },
+    {
+      "epoch": 0.5435,
+      "grad_norm": 1.922126054763794,
+      "grad_norm_var": 0.2930653944445924,
+      "learning_rate": 2e-05,
+      "loss": 0.4729,
+      "loss/crossentropy": 2.306940197944641,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.035489412024617195,
+      "loss/reg": 0.02441009320318699,
+      "step": 1087
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 1.4455621242523193,
+      "grad_norm_var": 0.29814092122534225,
+      "learning_rate": 2e-05,
+      "loss": 0.4431,
+      "loss/crossentropy": 2.4753963947296143,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.028606380335986614,
+      "loss/reg": 0.02440747246146202,
+      "step": 1088
+    },
+    {
+      "epoch": 0.5445,
+      "grad_norm": 1.202568769454956,
+      "grad_norm_var": 0.3243311065439721,
+      "learning_rate": 2e-05,
+      "loss": 0.4296,
+      "loss/crossentropy": 2.5858423709869385,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.028857764787971973,
+      "loss/reg": 0.024404924362897873,
+      "step": 1089
+    },
+    {
+      "epoch": 0.545,
+      "grad_norm": 1.676564335823059,
+      "grad_norm_var": 0.228913483216607,
+      "learning_rate": 2e-05,
+      "loss": 0.4523,
+      "loss/crossentropy": 2.392747402191162,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.028122087940573692,
+      "loss/reg": 0.024402471259236336,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5455,
+      "grad_norm": 1.7542563676834106,
+      "grad_norm_var": 0.2274162683570199,
+      "learning_rate": 2e-05,
+      "loss": 0.455,
+      "loss/crossentropy": 2.146073818206787,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.02988947369158268,
+      "loss/reg": 0.024400051683187485,
+      "step": 1091
+    },
+    {
+      "epoch": 0.546,
+      "grad_norm": 1.9361008405685425,
+      "grad_norm_var": 0.22842751723861923,
+      "learning_rate": 2e-05,
+      "loss": 0.482,
+      "loss/crossentropy": 2.789412260055542,
+      "loss/hidden": 0.208740234375,
+      "loss/logits": 0.029331857338547707,
+      "loss/reg": 0.02439761720597744,
+      "step": 1092
+    },
+    {
+      "epoch": 0.5465,
+      "grad_norm": 1.5437133312225342,
+      "grad_norm_var": 0.2234179936427338,
+      "learning_rate": 2e-05,
+      "loss": 0.4217,
+      "loss/crossentropy": 2.3370405435562134,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.029778199270367622,
+      "loss/reg": 0.024395201355218887,
+      "step": 1093
+    },
+    {
+      "epoch": 0.547,
+      "grad_norm": 1.5581791400909424,
+      "grad_norm_var": 0.1028233910206414,
+      "learning_rate": 2e-05,
+      "loss": 0.4635,
+      "loss/crossentropy": 2.2354471683502197,
+      "loss/hidden": 0.185546875,
+      "loss/logits": 0.0340447872877121,
+      "loss/reg": 0.024392733350396156,
+      "step": 1094
+    },
+    {
+      "epoch": 0.5475,
+      "grad_norm": 1.944296956062317,
+      "grad_norm_var": 0.07231965473971678,
+      "learning_rate": 2e-05,
+      "loss": 0.4836,
+      "loss/crossentropy": 2.2027004957199097,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.03367648273706436,
+      "loss/reg": 0.024390380829572678,
+      "step": 1095
+    },
+    {
+      "epoch": 0.548,
+      "grad_norm": 1.5446677207946777,
+      "grad_norm_var": 0.0645622226297327,
+      "learning_rate": 2e-05,
+      "loss": 0.4729,
+      "loss/crossentropy": 2.347012758255005,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.03708443604409695,
+      "loss/reg": 0.024387938901782036,
+      "step": 1096
+    },
+    {
+      "epoch": 0.5485,
+      "grad_norm": 1.898376703262329,
+      "grad_norm_var": 0.06536252751224628,
+      "learning_rate": 2e-05,
+      "loss": 0.4712,
+      "loss/crossentropy": 2.2295031547546387,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.03696603327989578,
+      "loss/reg": 0.02438538894057274,
+      "step": 1097
+    },
+    {
+      "epoch": 0.549,
+      "grad_norm": 2.1913044452667236,
+      "grad_norm_var": 0.08085664370673058,
+      "learning_rate": 2e-05,
+      "loss": 0.5301,
+      "loss/crossentropy": 2.167301833629608,
+      "loss/hidden": 0.2392578125,
+      "loss/logits": 0.04704119265079498,
+      "loss/reg": 0.024382859468460083,
+      "step": 1098
+    },
+    {
+      "epoch": 0.5495,
+      "grad_norm": 1.253875970840454,
+      "grad_norm_var": 0.0902515637472618,
+      "learning_rate": 2e-05,
+      "loss": 0.4156,
+      "loss/crossentropy": 2.4487051963806152,
+      "loss/hidden": 0.1435546875,
+      "loss/logits": 0.028273213654756546,
+      "loss/reg": 0.024380315095186234,
+      "step": 1099
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.5682874917984009,
+      "grad_norm_var": 0.0899961499541573,
+      "learning_rate": 2e-05,
+      "loss": 0.4756,
+      "loss/crossentropy": 2.167448401451111,
+      "loss/hidden": 0.19580078125,
+      "loss/logits": 0.03600800037384033,
+      "loss/reg": 0.024377938359975815,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5505,
+      "grad_norm": 1.4174175262451172,
+      "grad_norm_var": 0.09075445922031561,
+      "learning_rate": 2e-05,
+      "loss": 0.4288,
+      "loss/crossentropy": 2.5550715923309326,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.02786921989172697,
+      "loss/reg": 0.02437533624470234,
+      "step": 1101
+    },
+    {
+      "epoch": 0.551,
+      "grad_norm": 1.3593388795852661,
+      "grad_norm_var": 0.07877827873621565,
+      "learning_rate": 2e-05,
+      "loss": 0.4321,
+      "loss/crossentropy": 2.7613970041275024,
+      "loss/hidden": 0.15625,
+      "loss/logits": 0.032078905031085014,
+      "loss/reg": 0.024372844025492668,
+      "step": 1102
+    },
+    {
+      "epoch": 0.5515,
+      "grad_norm": 1.4599738121032715,
+      "grad_norm_var": 0.07465265183359193,
+      "learning_rate": 2e-05,
+      "loss": 0.4598,
+      "loss/crossentropy": 2.228444457054138,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.024730762466788292,
+      "loss/reg": 0.024370355531573296,
+      "step": 1103
+    },
+    {
+      "epoch": 0.552,
+      "grad_norm": 1.7234889268875122,
+      "grad_norm_var": 0.07339957389561243,
+      "learning_rate": 2e-05,
+      "loss": 0.4523,
+      "loss/crossentropy": 2.0966050028800964,
+      "loss/hidden": 0.179443359375,
+      "loss/logits": 0.029166480526328087,
+      "loss/reg": 0.024367934092879295,
+      "step": 1104
+    },
+    {
+      "epoch": 0.5525,
+      "grad_norm": 1.4158674478530884,
+      "grad_norm_var": 0.06417161394244413,
+      "learning_rate": 2e-05,
+      "loss": 0.4406,
+      "loss/crossentropy": 2.503642201423645,
+      "loss/hidden": 0.166015625,
+      "loss/logits": 0.030960144475102425,
+      "loss/reg": 0.024365652352571487,
+      "step": 1105
+    },
+    {
+      "epoch": 0.553,
+      "grad_norm": 1.1149797439575195,
+      "grad_norm_var": 0.08117155153877267,
+      "learning_rate": 2e-05,
+      "loss": 0.4326,
+      "loss/crossentropy": 2.4113690853118896,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.02782568149268627,
+      "loss/reg": 0.02436315082013607,
+      "step": 1106
+    },
+    {
+      "epoch": 0.5535,
+      "grad_norm": 1.5629899501800537,
+      "grad_norm_var": 0.07965819036262284,
+      "learning_rate": 2e-05,
+      "loss": 0.469,
+      "loss/crossentropy": 2.565138816833496,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.03499189019203186,
+      "loss/reg": 0.02436099573969841,
+      "step": 1107
+    },
+    {
+      "epoch": 0.554,
+      "grad_norm": 1.3787304162979126,
+      "grad_norm_var": 0.07359921908290872,
+      "learning_rate": 2e-05,
+      "loss": 0.4357,
+      "loss/crossentropy": 2.3302866220474243,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.031937687657773495,
+      "loss/reg": 0.024358561262488365,
+      "step": 1108
+    },
+    {
+      "epoch": 0.5545,
+      "grad_norm": 1.5682357549667358,
+      "grad_norm_var": 0.07358856061888677,
+      "learning_rate": 2e-05,
+      "loss": 0.4596,
+      "loss/crossentropy": 2.4188989400863647,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.031012317165732384,
+      "loss/reg": 0.024356119334697723,
+      "step": 1109
+    },
+    {
+      "epoch": 0.555,
+      "grad_norm": 1.7214398384094238,
+      "grad_norm_var": 0.0752147876360846,
+      "learning_rate": 2e-05,
+      "loss": 0.4862,
+      "loss/crossentropy": 1.7631773948669434,
+      "loss/hidden": 0.21533203125,
+      "loss/logits": 0.027333957143127918,
+      "loss/reg": 0.024353839457035065,
+      "step": 1110
+    },
+    {
+      "epoch": 0.5555,
+      "grad_norm": 1.6694806814193726,
+      "grad_norm_var": 0.06622747638215376,
+      "learning_rate": 2e-05,
+      "loss": 0.4914,
+      "loss/crossentropy": 2.0741612911224365,
+      "loss/hidden": 0.21142578125,
+      "loss/logits": 0.03643079940229654,
+      "loss/reg": 0.02435164712369442,
+      "step": 1111
+    },
+    {
+      "epoch": 0.556,
+      "grad_norm": 1.240812063217163,
+      "grad_norm_var": 0.0723367202665381,
+      "learning_rate": 2e-05,
+      "loss": 0.4424,
+      "loss/crossentropy": 2.454365372657776,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.034358324483036995,
+      "loss/reg": 0.024349192157387733,
+      "step": 1112
+    },
+    {
+      "epoch": 0.5565,
+      "grad_norm": 1.4514116048812866,
+      "grad_norm_var": 0.0631099103755652,
+      "learning_rate": 2e-05,
+      "loss": 0.4955,
+      "loss/crossentropy": 2.4008172750473022,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.04597476311028004,
+      "loss/reg": 0.024346981197595596,
+      "step": 1113
+    },
+    {
+      "epoch": 0.557,
+      "grad_norm": 1.3681151866912842,
+      "grad_norm_var": 0.030255623557352607,
+      "learning_rate": 2e-05,
+      "loss": 0.4851,
+      "loss/crossentropy": 2.3843729496002197,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.040942758321762085,
+      "loss/reg": 0.02434452809393406,
+      "step": 1114
+    },
+    {
+      "epoch": 0.5575,
+      "grad_norm": 1.3606462478637695,
+      "grad_norm_var": 0.028109850014208366,
+      "learning_rate": 2e-05,
+      "loss": 0.469,
+      "loss/crossentropy": 2.2223979234695435,
+      "loss/hidden": 0.18994140625,
+      "loss/logits": 0.035602279007434845,
+      "loss/reg": 0.024342484772205353,
+      "step": 1115
+    },
+    {
+      "epoch": 0.558,
+      "grad_norm": 1.6001321077346802,
+      "grad_norm_var": 0.02862738311728966,
+      "learning_rate": 2e-05,
+      "loss": 0.4578,
+      "loss/crossentropy": 2.2725006341934204,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.03423896711319685,
+      "loss/reg": 0.024340493604540825,
+      "step": 1116
+    },
+    {
+      "epoch": 0.5585,
+      "grad_norm": 1.2636990547180176,
+      "grad_norm_var": 0.031044949777116432,
+      "learning_rate": 2e-05,
+      "loss": 0.451,
+      "loss/crossentropy": 2.3660874366760254,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.03424760699272156,
+      "loss/reg": 0.02433803491294384,
+      "step": 1117
+    },
+    {
+      "epoch": 0.559,
+      "grad_norm": 1.3616007566452026,
+      "grad_norm_var": 0.03101680909424142,
+      "learning_rate": 2e-05,
+      "loss": 0.4927,
+      "loss/crossentropy": 2.1571322679519653,
+      "loss/hidden": 0.205078125,
+      "loss/logits": 0.044297466054558754,
+      "loss/reg": 0.024335812777280807,
+      "step": 1118
+    },
+    {
+      "epoch": 0.5595,
+      "grad_norm": 2.230315685272217,
+      "grad_norm_var": 0.06873493913916656,
+      "learning_rate": 2e-05,
+      "loss": 0.4905,
+      "loss/crossentropy": 2.5267653465270996,
+      "loss/hidden": 0.201171875,
+      "loss/logits": 0.045963168144226074,
+      "loss/reg": 0.024333106353878975,
+      "step": 1119
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.7945393323898315,
+      "grad_norm_var": 0.071148731844346,
+      "learning_rate": 2e-05,
+      "loss": 0.4996,
+      "loss/crossentropy": 2.512783646583557,
+      "loss/hidden": 0.2177734375,
+      "loss/logits": 0.03850918263196945,
+      "loss/reg": 0.024330556392669678,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5605,
+      "grad_norm": 1.9248079061508179,
+      "grad_norm_var": 0.08119155521753,
+      "learning_rate": 2e-05,
+      "loss": 0.5227,
+      "loss/crossentropy": 2.2634390592575073,
+      "loss/hidden": 0.23681640625,
+      "loss/logits": 0.04262538440525532,
+      "loss/reg": 0.024327831342816353,
+      "step": 1121
+    },
+    {
+      "epoch": 0.561,
+      "grad_norm": 6.669369697570801,
+      "grad_norm_var": 1.695929746004041,
+      "learning_rate": 2e-05,
+      "loss": 0.9722,
+      "loss/crossentropy": 2.4415574073791504,
+      "loss/hidden": 0.544921875,
+      "loss/logits": 0.1840246431529522,
+      "loss/reg": 0.024325016885995865,
+      "step": 1122
+    },
+    {
+      "epoch": 0.5615,
+      "grad_norm": 1.315581202507019,
+      "grad_norm_var": 1.7103908959366814,
+      "learning_rate": 2e-05,
+      "loss": 0.4449,
+      "loss/crossentropy": 2.355056047439575,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.02983579970896244,
+      "loss/reg": 0.024322576820850372,
+      "step": 1123
+    },
+    {
+      "epoch": 0.562,
+      "grad_norm": 2.665045976638794,
+      "grad_norm_var": 1.729558453751204,
+      "learning_rate": 2e-05,
+      "loss": 0.5175,
+      "loss/crossentropy": 2.4953508377075195,
+      "loss/hidden": 0.2314453125,
+      "loss/logits": 0.042819553054869175,
+      "loss/reg": 0.024320153519511223,
+      "step": 1124
+    },
+    {
+      "epoch": 0.5625,
+      "grad_norm": 1.9144386053085327,
+      "grad_norm_var": 1.71941199935234,
+      "learning_rate": 2e-05,
+      "loss": 0.5167,
+      "loss/crossentropy": 2.513652205467224,
+      "loss/hidden": 0.21826171875,
+      "loss/logits": 0.0552450567483902,
+      "loss/reg": 0.024317733943462372,
+      "step": 1125
+    },
+    {
+      "epoch": 0.563,
+      "grad_norm": 2.0490505695343018,
+      "grad_norm_var": 1.715176762349163,
+      "learning_rate": 2e-05,
+      "loss": 0.4345,
+      "loss/crossentropy": 2.4084017276763916,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.032121747732162476,
+      "loss/reg": 0.02431519515812397,
+      "step": 1126
+    },
+    {
+      "epoch": 0.5635,
+      "grad_norm": 1.4523192644119263,
+      "grad_norm_var": 1.7274754574344684,
+      "learning_rate": 2e-05,
+      "loss": 0.4548,
+      "loss/crossentropy": 2.2959285974502563,
+      "loss/hidden": 0.17724609375,
+      "loss/logits": 0.03444240428507328,
+      "loss/reg": 0.0243125818669796,
+      "step": 1127
+    },
+    {
+      "epoch": 0.564,
+      "grad_norm": 1.5287126302719116,
+      "grad_norm_var": 1.704324322007363,
+      "learning_rate": 2e-05,
+      "loss": 0.4667,
+      "loss/crossentropy": 2.4687604904174805,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.03319636359810829,
+      "loss/reg": 0.024309968575835228,
+      "step": 1128
+    },
+    {
+      "epoch": 0.5645,
+      "grad_norm": 1.7322133779525757,
+      "grad_norm_var": 1.6888306469406487,
+      "learning_rate": 2e-05,
+      "loss": 0.4384,
+      "loss/crossentropy": 2.46881103515625,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.029783966951072216,
+      "loss/reg": 0.02430731989443302,
+      "step": 1129
+    },
+    {
+      "epoch": 0.565,
+      "grad_norm": 1.6788828372955322,
+      "grad_norm_var": 1.6680869393205444,
+      "learning_rate": 2e-05,
+      "loss": 0.4634,
+      "loss/crossentropy": 2.3073936700820923,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.030876665376126766,
+      "loss/reg": 0.02430490031838417,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5655,
+      "grad_norm": 1.89357328414917,
+      "grad_norm_var": 1.638002930492539,
+      "learning_rate": 2e-05,
+      "loss": 0.4736,
+      "loss/crossentropy": 2.3977789878845215,
+      "loss/hidden": 0.19287109375,
+      "loss/logits": 0.037660510279238224,
+      "loss/reg": 0.024302346631884575,
+      "step": 1131
+    },
+    {
+      "epoch": 0.566,
+      "grad_norm": 1.9893137216567993,
+      "grad_norm_var": 1.6232357375180981,
+      "learning_rate": 2e-05,
+      "loss": 0.5389,
+      "loss/crossentropy": 2.2793599367141724,
+      "loss/hidden": 0.2470703125,
+      "loss/logits": 0.04884297959506512,
+      "loss/reg": 0.02429981529712677,
+      "step": 1132
+    },
+    {
+      "epoch": 0.5665,
+      "grad_norm": 1.7860678434371948,
+      "grad_norm_var": 1.5826367428758024,
+      "learning_rate": 2e-05,
+      "loss": 0.4758,
+      "loss/crossentropy": 2.448815107345581,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.033569784834980965,
+      "loss/reg": 0.024297522380948067,
+      "step": 1133
+    },
+    {
+      "epoch": 0.567,
+      "grad_norm": 1.0841586589813232,
+      "grad_norm_var": 1.615654748481629,
+      "learning_rate": 2e-05,
+      "loss": 0.4351,
+      "loss/crossentropy": 2.4790775775909424,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.02909463830292225,
+      "loss/reg": 0.024295024573802948,
+      "step": 1134
+    },
+    {
+      "epoch": 0.5675,
+      "grad_norm": 1.4538543224334717,
+      "grad_norm_var": 1.6405455106021212,
+      "learning_rate": 2e-05,
+      "loss": 0.4484,
+      "loss/crossentropy": 2.262555480003357,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.03016512282192707,
+      "loss/reg": 0.024292735382914543,
+      "step": 1135
+    },
+    {
+      "epoch": 0.568,
+      "grad_norm": 1.4780546426773071,
+      "grad_norm_var": 1.657933535725162,
+      "learning_rate": 2e-05,
+      "loss": 0.4848,
+      "loss/crossentropy": 2.3877243995666504,
+      "loss/hidden": 0.20361328125,
+      "loss/logits": 0.03827337175607681,
+      "loss/reg": 0.024290479719638824,
+      "step": 1136
+    },
+    {
+      "epoch": 0.5685,
+      "grad_norm": 1.9372481107711792,
+      "grad_norm_var": 1.6577546853387217,
+      "learning_rate": 2e-05,
+      "loss": 0.5327,
+      "loss/crossentropy": 2.5047531127929688,
+      "loss/hidden": 0.24462890625,
+      "loss/logits": 0.045230258256196976,
+      "loss/reg": 0.02428818680346012,
+      "step": 1137
+    },
+    {
+      "epoch": 0.569,
+      "grad_norm": 1.5927648544311523,
+      "grad_norm_var": 0.13445619453283364,
+      "learning_rate": 2e-05,
+      "loss": 0.4097,
+      "loss/crossentropy": 2.340881109237671,
+      "loss/hidden": 0.14013671875,
+      "loss/logits": 0.026726843789219856,
+      "loss/reg": 0.024285737425088882,
+      "step": 1138
+    },
+    {
+      "epoch": 0.5695,
+      "grad_norm": 1.7248023748397827,
+      "grad_norm_var": 0.12274966628292004,
+      "learning_rate": 2e-05,
+      "loss": 0.4644,
+      "loss/crossentropy": 2.322643995285034,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.029679549857974052,
+      "loss/reg": 0.024283410981297493,
+      "step": 1139
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.2972499132156372,
+      "grad_norm_var": 0.07234907048121096,
+      "learning_rate": 2e-05,
+      "loss": 0.4139,
+      "loss/crossentropy": 2.3335630893707275,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.023186037316918373,
+      "loss/reg": 0.024281039834022522,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5705,
+      "grad_norm": 1.733296513557434,
+      "grad_norm_var": 0.06830394569533192,
+      "learning_rate": 2e-05,
+      "loss": 0.4458,
+      "loss/crossentropy": 2.41671085357666,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.0306707676500082,
+      "loss/reg": 0.024278564378619194,
+      "step": 1141
+    },
+    {
+      "epoch": 0.571,
+      "grad_norm": 1.893109679222107,
+      "grad_norm_var": 0.06154171256225324,
+      "learning_rate": 2e-05,
+      "loss": 0.5721,
+      "loss/crossentropy": 2.1943784952163696,
+      "loss/hidden": 0.2763671875,
+      "loss/logits": 0.053009962663054466,
+      "loss/reg": 0.02427605725824833,
+      "step": 1142
+    },
+    {
+      "epoch": 0.5715,
+      "grad_norm": 1.6730619668960571,
+      "grad_norm_var": 0.05903454724422227,
+      "learning_rate": 2e-05,
+      "loss": 0.5033,
+      "loss/crossentropy": 2.3536800146102905,
+      "loss/hidden": 0.21337890625,
+      "loss/logits": 0.047144461423158646,
+      "loss/reg": 0.024273628368973732,
+      "step": 1143
+    },
+    {
+      "epoch": 0.572,
+      "grad_norm": 1.3953866958618164,
+      "grad_norm_var": 0.06238648029036706,
+      "learning_rate": 2e-05,
+      "loss": 0.4842,
+      "loss/crossentropy": 2.157352328300476,
+      "loss/hidden": 0.20556640625,
+      "loss/logits": 0.03593774512410164,
+      "loss/reg": 0.024271195754408836,
+      "step": 1144
+    },
+    {
+      "epoch": 0.5725,
+      "grad_norm": 2.192866325378418,
+      "grad_norm_var": 0.0809172906121536,
+      "learning_rate": 2e-05,
+      "loss": 0.531,
+      "loss/crossentropy": 2.570547342300415,
+      "loss/hidden": 0.2392578125,
+      "loss/logits": 0.0490174125880003,
+      "loss/reg": 0.024268826469779015,
+      "step": 1145
+    },
+    {
+      "epoch": 0.573,
+      "grad_norm": 1.5369664430618286,
+      "grad_norm_var": 0.08210695127014726,
+      "learning_rate": 2e-05,
+      "loss": 0.4454,
+      "loss/crossentropy": 2.435948967933655,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.028402727097272873,
+      "loss/reg": 0.024266386404633522,
+      "step": 1146
+    },
+    {
+      "epoch": 0.5735,
+      "grad_norm": 2.309359550476074,
+      "grad_norm_var": 0.10550807519647355,
+      "learning_rate": 2e-05,
+      "loss": 0.4775,
+      "loss/crossentropy": 2.4030030965805054,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.03707532212138176,
+      "loss/reg": 0.024263978004455566,
+      "step": 1147
+    },
+    {
+      "epoch": 0.574,
+      "grad_norm": 1.347505807876587,
+      "grad_norm_var": 0.10584021840658688,
+      "learning_rate": 2e-05,
+      "loss": 0.442,
+      "loss/crossentropy": 2.398911237716675,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.034335775300860405,
+      "loss/reg": 0.02426161989569664,
+      "step": 1148
+    },
+    {
+      "epoch": 0.5745,
+      "grad_norm": 1.4021785259246826,
+      "grad_norm_var": 0.10820061974491917,
+      "learning_rate": 2e-05,
+      "loss": 0.4522,
+      "loss/crossentropy": 2.36569881439209,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.031414832919836044,
+      "loss/reg": 0.024259256199002266,
+      "step": 1149
+    },
+    {
+      "epoch": 0.575,
+      "grad_norm": 1.4795446395874023,
+      "grad_norm_var": 0.08928821772785417,
+      "learning_rate": 2e-05,
+      "loss": 0.4868,
+      "loss/crossentropy": 2.4005424976348877,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.03963397815823555,
+      "loss/reg": 0.024256786331534386,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5755,
+      "grad_norm": 1.2517884969711304,
+      "grad_norm_var": 0.09720427256013545,
+      "learning_rate": 2e-05,
+      "loss": 0.4264,
+      "loss/crossentropy": 2.4282373189926147,
+      "loss/hidden": 0.15771484375,
+      "loss/logits": 0.026178008876740932,
+      "loss/reg": 0.02425423264503479,
+      "step": 1151
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 1.7204208374023438,
+      "grad_norm_var": 0.0956317930189319,
+      "learning_rate": 2e-05,
+      "loss": 0.546,
+      "loss/crossentropy": 2.2745801210403442,
+      "loss/hidden": 0.25244140625,
+      "loss/logits": 0.05107201635837555,
+      "loss/reg": 0.024251526221632957,
+      "step": 1152
+    },
+    {
+      "epoch": 0.5765,
+      "grad_norm": 1.5777848958969116,
+      "grad_norm_var": 0.09020256568864984,
+      "learning_rate": 2e-05,
+      "loss": 0.5091,
+      "loss/crossentropy": 2.4117172956466675,
+      "loss/hidden": 0.2265625,
+      "loss/logits": 0.040081385523080826,
+      "loss/reg": 0.02424911968410015,
+      "step": 1153
+    },
+    {
+      "epoch": 0.577,
+      "grad_norm": 1.783171534538269,
+      "grad_norm_var": 0.09144687374157971,
+      "learning_rate": 2e-05,
+      "loss": 0.4786,
+      "loss/crossentropy": 2.454118490219116,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.039798869751393795,
+      "loss/reg": 0.024246560409665108,
+      "step": 1154
+    },
+    {
+      "epoch": 0.5775,
+      "grad_norm": 2.023660659790039,
+      "grad_norm_var": 0.10021283785235559,
+      "learning_rate": 2e-05,
+      "loss": 0.4482,
+      "loss/crossentropy": 2.292509913444519,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.030983050353825092,
+      "loss/reg": 0.0242440365254879,
+      "step": 1155
+    },
+    {
+      "epoch": 0.578,
+      "grad_norm": 1.811361312866211,
+      "grad_norm_var": 0.09162067235455892,
+      "learning_rate": 2e-05,
+      "loss": 0.447,
+      "loss/crossentropy": 2.323517084121704,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.03270300664007664,
+      "loss/reg": 0.024241575971245766,
+      "step": 1156
+    },
+    {
+      "epoch": 0.5785,
+      "grad_norm": 1.7037845849990845,
+      "grad_norm_var": 0.09152723245676046,
+      "learning_rate": 2e-05,
+      "loss": 0.4631,
+      "loss/crossentropy": 2.222510814666748,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.029271118342876434,
+      "loss/reg": 0.024239055812358856,
+      "step": 1157
+    },
+    {
+      "epoch": 0.579,
+      "grad_norm": 1.464499592781067,
+      "grad_norm_var": 0.09162285800122252,
+      "learning_rate": 2e-05,
+      "loss": 0.4244,
+      "loss/crossentropy": 2.477970004081726,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.023815092630684376,
+      "loss/reg": 0.024236636236310005,
+      "step": 1158
+    },
+    {
+      "epoch": 0.5795,
+      "grad_norm": 1.6984034776687622,
+      "grad_norm_var": 0.09168319422315055,
+      "learning_rate": 2e-05,
+      "loss": 0.4446,
+      "loss/crossentropy": 2.3342912197113037,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.022567021660506725,
+      "loss/reg": 0.024234119802713394,
+      "step": 1159
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 2.0293402671813965,
+      "grad_norm_var": 0.09370210145535408,
+      "learning_rate": 2e-05,
+      "loss": 0.4915,
+      "loss/crossentropy": 2.2998613119125366,
+      "loss/hidden": 0.20556640625,
+      "loss/logits": 0.043666526675224304,
+      "loss/reg": 0.024231692776083946,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5805,
+      "grad_norm": 1.280202865600586,
+      "grad_norm_var": 0.08679439278309259,
+      "learning_rate": 2e-05,
+      "loss": 0.4539,
+      "loss/crossentropy": 2.2879260778427124,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.03776852414011955,
+      "loss/reg": 0.024229243397712708,
+      "step": 1161
+    },
+    {
+      "epoch": 0.581,
+      "grad_norm": 1.275728464126587,
+      "grad_norm_var": 0.09504035923803802,
+      "learning_rate": 2e-05,
+      "loss": 0.4329,
+      "loss/crossentropy": 2.229547381401062,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.028550241142511368,
+      "loss/reg": 0.024226877838373184,
+      "step": 1162
+    },
+    {
+      "epoch": 0.5815,
+      "grad_norm": 2.9225845336914062,
+      "grad_norm_var": 0.17368750923172507,
+      "learning_rate": 2e-05,
+      "loss": 0.4976,
+      "loss/crossentropy": 2.2666972875595093,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.03513254597783089,
+      "loss/reg": 0.024224402382969856,
+      "step": 1163
+    },
+    {
+      "epoch": 0.582,
+      "grad_norm": 1.4278773069381714,
+      "grad_norm_var": 0.1706005194348809,
+      "learning_rate": 2e-05,
+      "loss": 0.427,
+      "loss/crossentropy": 2.4950149059295654,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.028986497782170773,
+      "loss/reg": 0.024221867322921753,
+      "step": 1164
+    },
+    {
+      "epoch": 0.5825,
+      "grad_norm": 2.058894395828247,
+      "grad_norm_var": 0.17338003347078695,
+      "learning_rate": 2e-05,
+      "loss": 0.463,
+      "loss/crossentropy": 2.4152116775512695,
+      "loss/hidden": 0.185546875,
+      "loss/logits": 0.035301932133734226,
+      "loss/reg": 0.02421954646706581,
+      "step": 1165
+    },
+    {
+      "epoch": 0.583,
+      "grad_norm": 1.8373039960861206,
+      "grad_norm_var": 0.1699421495295475,
+      "learning_rate": 2e-05,
+      "loss": 0.4683,
+      "loss/crossentropy": 2.154408037662506,
+      "loss/hidden": 0.1943359375,
+      "loss/logits": 0.03181672282516956,
+      "loss/reg": 0.024217093363404274,
+      "step": 1166
+    },
+    {
+      "epoch": 0.5835,
+      "grad_norm": 1.720379114151001,
+      "grad_norm_var": 0.15305819839326673,
+      "learning_rate": 2e-05,
+      "loss": 0.4963,
+      "loss/crossentropy": 2.205121636390686,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.0481159882619977,
+      "loss/reg": 0.024214772507548332,
+      "step": 1167
+    },
+    {
+      "epoch": 0.584,
+      "grad_norm": 1.5766927003860474,
+      "grad_norm_var": 0.155317874758835,
+      "learning_rate": 2e-05,
+      "loss": 0.4537,
+      "loss/crossentropy": 2.2504332065582275,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.03528860583901405,
+      "loss/reg": 0.024212457239627838,
+      "step": 1168
+    },
+    {
+      "epoch": 0.5845,
+      "grad_norm": 1.7561485767364502,
+      "grad_norm_var": 0.15292574466172837,
+      "learning_rate": 2e-05,
+      "loss": 0.5043,
+      "loss/crossentropy": 2.2984803915023804,
+      "loss/hidden": 0.224609375,
+      "loss/logits": 0.037589056417346,
+      "loss/reg": 0.02421003021299839,
+      "step": 1169
+    },
+    {
+      "epoch": 0.585,
+      "grad_norm": 1.8103101253509521,
+      "grad_norm_var": 0.15300812172836042,
+      "learning_rate": 2e-05,
+      "loss": 0.4426,
+      "loss/crossentropy": 2.35384738445282,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.028152812272310257,
+      "loss/reg": 0.02420770935714245,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5855,
+      "grad_norm": 1.8475137948989868,
+      "grad_norm_var": 0.1491030967858634,
+      "learning_rate": 2e-05,
+      "loss": 0.4867,
+      "loss/crossentropy": 2.5606281757354736,
+      "loss/hidden": 0.20654296875,
+      "loss/logits": 0.03815155662596226,
+      "loss/reg": 0.024205291643738747,
+      "step": 1171
+    },
+    {
+      "epoch": 0.586,
+      "grad_norm": 1.2912832498550415,
+      "grad_norm_var": 0.16271106748652428,
+      "learning_rate": 2e-05,
+      "loss": 0.4484,
+      "loss/crossentropy": 2.3711254596710205,
+      "loss/hidden": 0.1728515625,
+      "loss/logits": 0.0335617596283555,
+      "loss/reg": 0.02420296147465706,
+      "step": 1172
+    },
+    {
+      "epoch": 0.5865,
+      "grad_norm": 1.606691837310791,
+      "grad_norm_var": 0.16365658036543582,
+      "learning_rate": 2e-05,
+      "loss": 0.4691,
+      "loss/crossentropy": 2.2857288122177124,
+      "loss/hidden": 0.18408203125,
+      "loss/logits": 0.04296381585299969,
+      "loss/reg": 0.02420070767402649,
+      "step": 1173
+    },
+    {
+      "epoch": 0.587,
+      "grad_norm": 1.4397433996200562,
+      "grad_norm_var": 0.16455554628546304,
+      "learning_rate": 2e-05,
+      "loss": 0.4426,
+      "loss/crossentropy": 2.4021177291870117,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.03261144831776619,
+      "loss/reg": 0.024198230355978012,
+      "step": 1174
+    },
+    {
+      "epoch": 0.5875,
+      "grad_norm": 1.5037596225738525,
+      "grad_norm_var": 0.1675797787548589,
+      "learning_rate": 2e-05,
+      "loss": 0.4517,
+      "loss/crossentropy": 2.4898879528045654,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.03298352472484112,
+      "loss/reg": 0.024195775389671326,
+      "step": 1175
+    },
+    {
+      "epoch": 0.588,
+      "grad_norm": 1.6262377500534058,
+      "grad_norm_var": 0.16065407055809539,
+      "learning_rate": 2e-05,
+      "loss": 0.4587,
+      "loss/crossentropy": 2.2547478675842285,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.03557092510163784,
+      "loss/reg": 0.02419334463775158,
+      "step": 1176
+    },
+    {
+      "epoch": 0.5885,
+      "grad_norm": 1.2082576751708984,
+      "grad_norm_var": 0.16487347300328276,
+      "learning_rate": 2e-05,
+      "loss": 0.4253,
+      "loss/crossentropy": 2.432216763496399,
+      "loss/hidden": 0.15380859375,
+      "loss/logits": 0.029609275981783867,
+      "loss/reg": 0.024190889671444893,
+      "step": 1177
+    },
+    {
+      "epoch": 0.589,
+      "grad_norm": 1.4975124597549438,
+      "grad_norm_var": 0.1559385884208209,
+      "learning_rate": 2e-05,
+      "loss": 0.5032,
+      "loss/crossentropy": 2.235932469367981,
+      "loss/hidden": 0.203125,
+      "loss/logits": 0.058187903836369514,
+      "loss/reg": 0.024188483133912086,
+      "step": 1178
+    },
+    {
+      "epoch": 0.5895,
+      "grad_norm": 1.8868989944458008,
+      "grad_norm_var": 0.05355658095740689,
+      "learning_rate": 2e-05,
+      "loss": 0.4478,
+      "loss/crossentropy": 2.1847586631774902,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.029623565264046192,
+      "loss/reg": 0.024185974150896072,
+      "step": 1179
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 1.7675682306289673,
+      "grad_norm_var": 0.05156999438171397,
+      "learning_rate": 2e-05,
+      "loss": 0.5382,
+      "loss/crossentropy": 2.1349618434906006,
+      "loss/hidden": 0.2548828125,
+      "loss/logits": 0.041456746868789196,
+      "loss/reg": 0.024183399975299835,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5905,
+      "grad_norm": 1.6287496089935303,
+      "grad_norm_var": 0.03980901680952513,
+      "learning_rate": 2e-05,
+      "loss": 0.4349,
+      "loss/crossentropy": 2.344777226448059,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.02948729507625103,
+      "loss/reg": 0.024180879816412926,
+      "step": 1181
+    },
+    {
+      "epoch": 0.591,
+      "grad_norm": 1.8324546813964844,
+      "grad_norm_var": 0.039673420153317276,
+      "learning_rate": 2e-05,
+      "loss": 0.4473,
+      "loss/crossentropy": 2.274307608604431,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.03365413844585419,
+      "loss/reg": 0.024178462103009224,
+      "step": 1182
+    },
+    {
+      "epoch": 0.5915,
+      "grad_norm": 1.8862324953079224,
+      "grad_norm_var": 0.04350154335947139,
+      "learning_rate": 2e-05,
+      "loss": 0.484,
+      "loss/crossentropy": 2.469294786453247,
+      "loss/hidden": 0.20361328125,
+      "loss/logits": 0.03859470225870609,
+      "loss/reg": 0.02417594939470291,
+      "step": 1183
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": 1.8991292715072632,
+      "grad_norm_var": 0.04747638633534521,
+      "learning_rate": 2e-05,
+      "loss": 0.4209,
+      "loss/crossentropy": 2.328023672103882,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.027280107140541077,
+      "loss/reg": 0.024173393845558167,
+      "step": 1184
+    },
+    {
+      "epoch": 0.5925,
+      "grad_norm": 2.4212067127227783,
+      "grad_norm_var": 0.08404251009467104,
+      "learning_rate": 2e-05,
+      "loss": 0.602,
+      "loss/crossentropy": 2.2543612718582153,
+      "loss/hidden": 0.314453125,
+      "loss/logits": 0.04579521995037794,
+      "loss/reg": 0.024170896038413048,
+      "step": 1185
+    },
+    {
+      "epoch": 0.593,
+      "grad_norm": 1.5243364572525024,
+      "grad_norm_var": 0.08483701742637818,
+      "learning_rate": 2e-05,
+      "loss": 0.4508,
+      "loss/crossentropy": 2.3000658750534058,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.03333883360028267,
+      "loss/reg": 0.02416837401688099,
+      "step": 1186
+    },
+    {
+      "epoch": 0.5935,
+      "grad_norm": 1.291556477546692,
+      "grad_norm_var": 0.09168008942992945,
+      "learning_rate": 2e-05,
+      "loss": 0.4442,
+      "loss/crossentropy": 2.1959608793258667,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.027781125158071518,
+      "loss/reg": 0.024165915325284004,
+      "step": 1187
+    },
+    {
+      "epoch": 0.594,
+      "grad_norm": 2.0484044551849365,
+      "grad_norm_var": 0.09185247402589478,
+      "learning_rate": 2e-05,
+      "loss": 0.4147,
+      "loss/crossentropy": 2.5615549087524414,
+      "loss/hidden": 0.14990234375,
+      "loss/logits": 0.023197302594780922,
+      "loss/reg": 0.02416372112929821,
+      "step": 1188
+    },
+    {
+      "epoch": 0.5945,
+      "grad_norm": 1.416138768196106,
+      "grad_norm_var": 0.09628413301188529,
+      "learning_rate": 2e-05,
+      "loss": 0.4125,
+      "loss/crossentropy": 2.387251138687134,
+      "loss/hidden": 0.14697265625,
+      "loss/logits": 0.023900354281067848,
+      "loss/reg": 0.02416159212589264,
+      "step": 1189
+    },
+    {
+      "epoch": 0.595,
+      "grad_norm": 1.9145230054855347,
+      "grad_norm_var": 0.0951705943310803,
+      "learning_rate": 2e-05,
+      "loss": 0.4606,
+      "loss/crossentropy": 2.314830780029297,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.03147210646420717,
+      "loss/reg": 0.02415909618139267,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5955,
+      "grad_norm": 2.2240161895751953,
+      "grad_norm_var": 0.10782977301944445,
+      "learning_rate": 2e-05,
+      "loss": 0.4566,
+      "loss/crossentropy": 2.359019637107849,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.033831628039479256,
+      "loss/reg": 0.024156760424375534,
+      "step": 1191
+    },
+    {
+      "epoch": 0.596,
+      "grad_norm": 1.3667939901351929,
+      "grad_norm_var": 0.11647627127392604,
+      "learning_rate": 2e-05,
+      "loss": 0.4461,
+      "loss/crossentropy": 2.371762752532959,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.03416162542998791,
+      "loss/reg": 0.024154268205165863,
+      "step": 1192
+    },
+    {
+      "epoch": 0.5965,
+      "grad_norm": 1.9000991582870483,
+      "grad_norm_var": 0.09749187838186989,
+      "learning_rate": 2e-05,
+      "loss": 0.4426,
+      "loss/crossentropy": 2.3624730110168457,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.029253195971250534,
+      "loss/reg": 0.024151787161827087,
+      "step": 1193
+    },
+    {
+      "epoch": 0.597,
+      "grad_norm": 2.4538071155548096,
+      "grad_norm_var": 0.11842507530329692,
+      "learning_rate": 2e-05,
+      "loss": 0.5535,
+      "loss/crossentropy": 2.297299027442932,
+      "loss/hidden": 0.2734375,
+      "loss/logits": 0.0385602843016386,
+      "loss/reg": 0.024149475619196892,
+      "step": 1194
+    },
+    {
+      "epoch": 0.5975,
+      "grad_norm": 1.380436658859253,
+      "grad_norm_var": 0.13138206675488526,
+      "learning_rate": 2e-05,
+      "loss": 0.4057,
+      "loss/crossentropy": 2.476130962371826,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.025057541206479073,
+      "loss/reg": 0.024147171527147293,
+      "step": 1195
+    },
+    {
+      "epoch": 0.598,
+      "grad_norm": 1.3839375972747803,
+      "grad_norm_var": 0.14273622703758423,
+      "learning_rate": 2e-05,
+      "loss": 0.4528,
+      "loss/crossentropy": 2.396567940711975,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.02926408126950264,
+      "loss/reg": 0.024144427850842476,
+      "step": 1196
+    },
+    {
+      "epoch": 0.5985,
+      "grad_norm": 1.40784752368927,
+      "grad_norm_var": 0.150409987258331,
+      "learning_rate": 2e-05,
+      "loss": 0.4807,
+      "loss/crossentropy": 2.4952961206436157,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.04295238200575113,
+      "loss/reg": 0.024141840636730194,
+      "step": 1197
+    },
+    {
+      "epoch": 0.599,
+      "grad_norm": 1.2504740953445435,
+      "grad_norm_var": 0.16688246301015586,
+      "learning_rate": 2e-05,
+      "loss": 0.4178,
+      "loss/crossentropy": 2.395404577255249,
+      "loss/hidden": 0.1484375,
+      "loss/logits": 0.027952153235673904,
+      "loss/reg": 0.02413935586810112,
+      "step": 1198
+    },
+    {
+      "epoch": 0.5995,
+      "grad_norm": 1.3816466331481934,
+      "grad_norm_var": 0.17265834810284506,
+      "learning_rate": 2e-05,
+      "loss": 0.4251,
+      "loss/crossentropy": 2.547404170036316,
+      "loss/hidden": 0.154296875,
+      "loss/logits": 0.029406324960291386,
+      "loss/reg": 0.02413680963218212,
+      "step": 1199
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.5290807485580444,
+      "grad_norm_var": 0.1715902945906383,
+      "learning_rate": 2e-05,
+      "loss": 0.4251,
+      "loss/crossentropy": 2.3598448038101196,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.030883144587278366,
+      "loss/reg": 0.02413429692387581,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6005,
+      "grad_norm": 1.1940410137176514,
+      "grad_norm_var": 0.1445797734401556,
+      "learning_rate": 2e-05,
+      "loss": 0.3971,
+      "loss/crossentropy": 2.485979676246643,
+      "loss/hidden": 0.13330078125,
+      "loss/logits": 0.022492852061986923,
+      "loss/reg": 0.024131763726472855,
+      "step": 1201
+    },
+    {
+      "epoch": 0.601,
+      "grad_norm": 1.6485071182250977,
+      "grad_norm_var": 0.14422125485489776,
+      "learning_rate": 2e-05,
+      "loss": 0.4846,
+      "loss/crossentropy": 2.373944044113159,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.038744281977415085,
+      "loss/reg": 0.024129167199134827,
+      "step": 1202
+    },
+    {
+      "epoch": 0.6015,
+      "grad_norm": 1.1376245021820068,
+      "grad_norm_var": 0.1522781785188527,
+      "learning_rate": 2e-05,
+      "loss": 0.4531,
+      "loss/crossentropy": 2.4254151582717896,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.03653997741639614,
+      "loss/reg": 0.024126648902893066,
+      "step": 1203
+    },
+    {
+      "epoch": 0.602,
+      "grad_norm": 1.3931175470352173,
+      "grad_norm_var": 0.14014204164493524,
+      "learning_rate": 2e-05,
+      "loss": 0.4614,
+      "loss/crossentropy": 2.3730632066726685,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.0399714931845665,
+      "loss/reg": 0.024123938754200935,
+      "step": 1204
+    },
+    {
+      "epoch": 0.6025,
+      "grad_norm": 1.182810664176941,
+      "grad_norm_var": 0.14806320441701076,
+      "learning_rate": 2e-05,
+      "loss": 0.4377,
+      "loss/crossentropy": 2.3796987533569336,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.033448660746216774,
+      "loss/reg": 0.02412118948996067,
+      "step": 1205
+    },
+    {
+      "epoch": 0.603,
+      "grad_norm": 2.454332113265991,
+      "grad_norm_var": 0.19274218238629567,
+      "learning_rate": 2e-05,
+      "loss": 0.5843,
+      "loss/crossentropy": 2.41066837310791,
+      "loss/hidden": 0.2548828125,
+      "loss/logits": 0.08823728933930397,
+      "loss/reg": 0.024118369445204735,
+      "step": 1206
+    },
+    {
+      "epoch": 0.6035,
+      "grad_norm": 2.028047561645508,
+      "grad_norm_var": 0.17832881774557302,
+      "learning_rate": 2e-05,
+      "loss": 0.4994,
+      "loss/crossentropy": 2.4406535625457764,
+      "loss/hidden": 0.21826171875,
+      "loss/logits": 0.039943594485521317,
+      "loss/reg": 0.024115748703479767,
+      "step": 1207
+    },
+    {
+      "epoch": 0.604,
+      "grad_norm": 1.4872275590896606,
+      "grad_norm_var": 0.17599978463784297,
+      "learning_rate": 2e-05,
+      "loss": 0.4413,
+      "loss/crossentropy": 2.5775226354599,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.03267715871334076,
+      "loss/reg": 0.02411310188472271,
+      "step": 1208
+    },
+    {
+      "epoch": 0.6045,
+      "grad_norm": 1.444392204284668,
+      "grad_norm_var": 0.16927527117337202,
+      "learning_rate": 2e-05,
+      "loss": 0.4386,
+      "loss/crossentropy": 2.42952036857605,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.02754312101751566,
+      "loss/reg": 0.024110691621899605,
+      "step": 1209
+    },
+    {
+      "epoch": 0.605,
+      "grad_norm": 1.3377629518508911,
+      "grad_norm_var": 0.11223377067241286,
+      "learning_rate": 2e-05,
+      "loss": 0.4506,
+      "loss/crossentropy": 2.463944435119629,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.031324658542871475,
+      "loss/reg": 0.024108313024044037,
+      "step": 1210
+    },
+    {
+      "epoch": 0.6055,
+      "grad_norm": 1.5005191564559937,
+      "grad_norm_var": 0.11157964006104232,
+      "learning_rate": 2e-05,
+      "loss": 0.4304,
+      "loss/crossentropy": 2.4867637157440186,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.02921352256089449,
+      "loss/reg": 0.024105625227093697,
+      "step": 1211
+    },
+    {
+      "epoch": 0.606,
+      "grad_norm": 1.792034387588501,
+      "grad_norm_var": 0.1164848223260717,
+      "learning_rate": 2e-05,
+      "loss": 0.5558,
+      "loss/crossentropy": 2.144772946834564,
+      "loss/hidden": 0.25341796875,
+      "loss/logits": 0.0613440815359354,
+      "loss/reg": 0.02410317398607731,
+      "step": 1212
+    },
+    {
+      "epoch": 0.6065,
+      "grad_norm": 1.3222495317459106,
+      "grad_norm_var": 0.11811538585086864,
+      "learning_rate": 2e-05,
+      "loss": 0.459,
+      "loss/crossentropy": 2.4880030155181885,
+      "loss/hidden": 0.17724609375,
+      "loss/logits": 0.040756989270448685,
+      "loss/reg": 0.02410070225596428,
+      "step": 1213
+    },
+    {
+      "epoch": 0.607,
+      "grad_norm": 1.3210080862045288,
+      "grad_norm_var": 0.11603035562697338,
+      "learning_rate": 2e-05,
+      "loss": 0.4262,
+      "loss/crossentropy": 2.2644035816192627,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.02847316488623619,
+      "loss/reg": 0.024098023772239685,
+      "step": 1214
+    },
+    {
+      "epoch": 0.6075,
+      "grad_norm": 1.55643892288208,
+      "grad_norm_var": 0.1149566743584008,
+      "learning_rate": 2e-05,
+      "loss": 0.472,
+      "loss/crossentropy": 2.338138461112976,
+      "loss/hidden": 0.19482421875,
+      "loss/logits": 0.03619702160358429,
+      "loss/reg": 0.024095552042126656,
+      "step": 1215
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 1.0845917463302612,
+      "grad_norm_var": 0.12680071206606555,
+      "learning_rate": 2e-05,
+      "loss": 0.3949,
+      "loss/crossentropy": 2.3922587633132935,
+      "loss/hidden": 0.13037109375,
+      "loss/logits": 0.023628353141248226,
+      "loss/reg": 0.02409297414124012,
+      "step": 1216
+    },
+    {
+      "epoch": 0.6085,
+      "grad_norm": 1.7885349988937378,
+      "grad_norm_var": 0.12520873664582974,
+      "learning_rate": 2e-05,
+      "loss": 0.5574,
+      "loss/crossentropy": 2.473549246788025,
+      "loss/hidden": 0.271484375,
+      "loss/logits": 0.045023126527667046,
+      "loss/reg": 0.024090547114610672,
+      "step": 1217
+    },
+    {
+      "epoch": 0.609,
+      "grad_norm": 1.367996096611023,
+      "grad_norm_var": 0.12569242606033507,
+      "learning_rate": 2e-05,
+      "loss": 0.4443,
+      "loss/crossentropy": 2.5233819484710693,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.043247487396001816,
+      "loss/reg": 0.024087954312562943,
+      "step": 1218
+    },
+    {
+      "epoch": 0.6095,
+      "grad_norm": 2.246495485305786,
+      "grad_norm_var": 0.14712908643756276,
+      "learning_rate": 2e-05,
+      "loss": 0.4786,
+      "loss/crossentropy": 2.3473750352859497,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.035566676408052444,
+      "loss/reg": 0.024085314944386482,
+      "step": 1219
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 1.4608843326568604,
+      "grad_norm_var": 0.14571195454986466,
+      "learning_rate": 2e-05,
+      "loss": 0.5275,
+      "loss/crossentropy": 2.1911109685897827,
+      "loss/hidden": 0.2412109375,
+      "loss/logits": 0.04546273872256279,
+      "loss/reg": 0.02408267930150032,
+      "step": 1220
+    },
+    {
+      "epoch": 0.6105,
+      "grad_norm": 3.359498977661133,
+      "grad_norm_var": 0.3248317660863883,
+      "learning_rate": 2e-05,
+      "loss": 0.5278,
+      "loss/crossentropy": 2.7323907613754272,
+      "loss/hidden": 0.2412109375,
+      "loss/logits": 0.04578916169703007,
+      "loss/reg": 0.024080097675323486,
+      "step": 1221
+    },
+    {
+      "epoch": 0.611,
+      "grad_norm": 1.410009741783142,
+      "grad_norm_var": 0.29102285697800256,
+      "learning_rate": 2e-05,
+      "loss": 0.442,
+      "loss/crossentropy": 2.259430766105652,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.027424287050962448,
+      "loss/reg": 0.02407745271921158,
+      "step": 1222
+    },
+    {
+      "epoch": 0.6115,
+      "grad_norm": 1.7386364936828613,
+      "grad_norm_var": 0.28192935324309565,
+      "learning_rate": 2e-05,
+      "loss": 0.4869,
+      "loss/crossentropy": 2.1112271547317505,
+      "loss/hidden": 0.20556640625,
+      "loss/logits": 0.04061359539628029,
+      "loss/reg": 0.024074768647551537,
+      "step": 1223
+    },
+    {
+      "epoch": 0.612,
+      "grad_norm": 1.7512989044189453,
+      "grad_norm_var": 0.28095646018948417,
+      "learning_rate": 2e-05,
+      "loss": 0.4391,
+      "loss/crossentropy": 2.2848275899887085,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.030420562252402306,
+      "loss/reg": 0.024072324857115746,
+      "step": 1224
+    },
+    {
+      "epoch": 0.6125,
+      "grad_norm": 2.1722567081451416,
+      "grad_norm_var": 0.2936146731009558,
+      "learning_rate": 2e-05,
+      "loss": 0.5109,
+      "loss/crossentropy": 2.3575836420059204,
+      "loss/hidden": 0.22705078125,
+      "loss/logits": 0.043132973834872246,
+      "loss/reg": 0.024069787934422493,
+      "step": 1225
+    },
+    {
+      "epoch": 0.613,
+      "grad_norm": 1.7794545888900757,
+      "grad_norm_var": 0.28443734408106686,
+      "learning_rate": 2e-05,
+      "loss": 0.4502,
+      "loss/crossentropy": 2.1393051147460938,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.024946999736130238,
+      "loss/reg": 0.024067340418696404,
+      "step": 1226
+    },
+    {
+      "epoch": 0.6135,
+      "grad_norm": 1.1268008947372437,
+      "grad_norm_var": 0.3045137650879551,
+      "learning_rate": 2e-05,
+      "loss": 0.4021,
+      "loss/crossentropy": 2.568060874938965,
+      "loss/hidden": 0.1376953125,
+      "loss/logits": 0.02373245358467102,
+      "loss/reg": 0.02406480722129345,
+      "step": 1227
+    },
+    {
+      "epoch": 0.614,
+      "grad_norm": 1.7132948637008667,
+      "grad_norm_var": 0.303986332406373,
+      "learning_rate": 2e-05,
+      "loss": 0.4984,
+      "loss/crossentropy": 2.4376784563064575,
+      "loss/hidden": 0.2138671875,
+      "loss/logits": 0.04392072185873985,
+      "loss/reg": 0.024062197655439377,
+      "step": 1228
+    },
+    {
+      "epoch": 0.6145,
+      "grad_norm": 1.6476460695266724,
+      "grad_norm_var": 0.29421634520029155,
+      "learning_rate": 2e-05,
+      "loss": 0.4641,
+      "loss/crossentropy": 2.292167067527771,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.03701779432594776,
+      "loss/reg": 0.024059604853391647,
+      "step": 1229
+    },
+    {
+      "epoch": 0.615,
+      "grad_norm": 1.1690088510513306,
+      "grad_norm_var": 0.3037526654890541,
+      "learning_rate": 2e-05,
+      "loss": 0.4071,
+      "loss/crossentropy": 2.5657061338424683,
+      "loss/hidden": 0.13818359375,
+      "loss/logits": 0.028342257253825665,
+      "loss/reg": 0.024057114496827126,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6155,
+      "grad_norm": 1.7636140584945679,
+      "grad_norm_var": 0.3021712089508715,
+      "learning_rate": 2e-05,
+      "loss": 0.484,
+      "loss/crossentropy": 2.354526996612549,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.04370002634823322,
+      "loss/reg": 0.02405458688735962,
+      "step": 1231
+    },
+    {
+      "epoch": 0.616,
+      "grad_norm": 1.546012282371521,
+      "grad_norm_var": 0.2761551623079915,
+      "learning_rate": 2e-05,
+      "loss": 0.4528,
+      "loss/crossentropy": 2.3835500478744507,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.03897825721651316,
+      "loss/reg": 0.02405191771686077,
+      "step": 1232
+    },
+    {
+      "epoch": 0.6165,
+      "grad_norm": 2.489821434020996,
+      "grad_norm_var": 0.3102538412663264,
+      "learning_rate": 2e-05,
+      "loss": 0.486,
+      "loss/crossentropy": 2.604992389678955,
+      "loss/hidden": 0.20751953125,
+      "loss/logits": 0.037946032360196114,
+      "loss/reg": 0.024049216881394386,
+      "step": 1233
+    },
+    {
+      "epoch": 0.617,
+      "grad_norm": 1.2768479585647583,
+      "grad_norm_var": 0.31597976978417625,
+      "learning_rate": 2e-05,
+      "loss": 0.4123,
+      "loss/crossentropy": 2.3154995441436768,
+      "loss/hidden": 0.14697265625,
+      "loss/logits": 0.02490917406976223,
+      "loss/reg": 0.02404674142599106,
+      "step": 1234
+    },
+    {
+      "epoch": 0.6175,
+      "grad_norm": 4.095790386199951,
+      "grad_norm_var": 0.6421038174808378,
+      "learning_rate": 2e-05,
+      "loss": 0.6366,
+      "loss/crossentropy": 2.2328860759735107,
+      "loss/hidden": 0.34619140625,
+      "loss/logits": 0.049947988241910934,
+      "loss/reg": 0.024044139310717583,
+      "step": 1235
+    },
+    {
+      "epoch": 0.618,
+      "grad_norm": 1.500967264175415,
+      "grad_norm_var": 0.6398237315745594,
+      "learning_rate": 2e-05,
+      "loss": 0.4614,
+      "loss/crossentropy": 2.3703516721725464,
+      "loss/hidden": 0.18408203125,
+      "loss/logits": 0.03693939931690693,
+      "loss/reg": 0.02404148131608963,
+      "step": 1236
+    },
+    {
+      "epoch": 0.6185,
+      "grad_norm": 2.2723183631896973,
+      "grad_norm_var": 0.5034082078181905,
+      "learning_rate": 2e-05,
+      "loss": 0.5442,
+      "loss/crossentropy": 2.221264958381653,
+      "loss/hidden": 0.26318359375,
+      "loss/logits": 0.04067422728985548,
+      "loss/reg": 0.02403891831636429,
+      "step": 1237
+    },
+    {
+      "epoch": 0.619,
+      "grad_norm": 2.6256821155548096,
+      "grad_norm_var": 0.5259378567608592,
+      "learning_rate": 2e-05,
+      "loss": 0.4112,
+      "loss/crossentropy": 2.5045779943466187,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.022931482642889023,
+      "loss/reg": 0.024036424234509468,
+      "step": 1238
+    },
+    {
+      "epoch": 0.6195,
+      "grad_norm": 1.0845694541931152,
+      "grad_norm_var": 0.5682165874069398,
+      "learning_rate": 2e-05,
+      "loss": 0.4171,
+      "loss/crossentropy": 2.3470133543014526,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.028764693066477776,
+      "loss/reg": 0.024033887311816216,
+      "step": 1239
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.6361056566238403,
+      "grad_norm_var": 0.5709606356025133,
+      "learning_rate": 2e-05,
+      "loss": 0.5352,
+      "loss/crossentropy": 2.156785488128662,
+      "loss/hidden": 0.24951171875,
+      "loss/logits": 0.04537991248071194,
+      "loss/reg": 0.024031352251768112,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6205,
+      "grad_norm": 1.6204231977462769,
+      "grad_norm_var": 0.5676626713635791,
+      "learning_rate": 2e-05,
+      "loss": 0.4345,
+      "loss/crossentropy": 2.4386643171310425,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.032054854556918144,
+      "loss/reg": 0.02402876876294613,
+      "step": 1241
+    },
+    {
+      "epoch": 0.621,
+      "grad_norm": 1.1746337413787842,
+      "grad_norm_var": 0.5949463432824259,
+      "learning_rate": 2e-05,
+      "loss": 0.4244,
+      "loss/crossentropy": 2.3799376487731934,
+      "loss/hidden": 0.154296875,
+      "loss/logits": 0.029872726649045944,
+      "loss/reg": 0.0240262970328331,
+      "step": 1242
+    },
+    {
+      "epoch": 0.6215,
+      "grad_norm": 1.6356711387634277,
+      "grad_norm_var": 0.5656939566181675,
+      "learning_rate": 2e-05,
+      "loss": 0.4244,
+      "loss/crossentropy": 2.3845585584640503,
+      "loss/hidden": 0.15380859375,
+      "loss/logits": 0.030385269783437252,
+      "loss/reg": 0.02402365952730179,
+      "step": 1243
+    },
+    {
+      "epoch": 0.622,
+      "grad_norm": 2.1370480060577393,
+      "grad_norm_var": 0.5704204269581301,
+      "learning_rate": 2e-05,
+      "loss": 0.5108,
+      "loss/crossentropy": 2.528768539428711,
+      "loss/hidden": 0.22216796875,
+      "loss/logits": 0.048394979909062386,
+      "loss/reg": 0.024021117016673088,
+      "step": 1244
+    },
+    {
+      "epoch": 0.6225,
+      "grad_norm": 2.0357038974761963,
+      "grad_norm_var": 0.569115940961103,
+      "learning_rate": 2e-05,
+      "loss": 0.4838,
+      "loss/crossentropy": 2.294468402862549,
+      "loss/hidden": 0.20751953125,
+      "loss/logits": 0.03613162599503994,
+      "loss/reg": 0.024018656462430954,
+      "step": 1245
+    },
+    {
+      "epoch": 0.623,
+      "grad_norm": 1.5724185705184937,
+      "grad_norm_var": 0.5410974439999165,
+      "learning_rate": 2e-05,
+      "loss": 0.4462,
+      "loss/crossentropy": 2.4699219465255737,
+      "loss/hidden": 0.1728515625,
+      "loss/logits": 0.033166331239044666,
+      "loss/reg": 0.02401614561676979,
+      "step": 1246
+    },
+    {
+      "epoch": 0.6235,
+      "grad_norm": 1.199653148651123,
+      "grad_norm_var": 0.5715490275335109,
+      "learning_rate": 2e-05,
+      "loss": 0.4286,
+      "loss/crossentropy": 2.542737126350403,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.03024892695248127,
+      "loss/reg": 0.024013692513108253,
+      "step": 1247
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 1.2950655221939087,
+      "grad_norm_var": 0.5862912521386784,
+      "learning_rate": 2e-05,
+      "loss": 0.4532,
+      "loss/crossentropy": 2.0858335494995117,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.03286417946219444,
+      "loss/reg": 0.024011155590415,
+      "step": 1248
+    },
+    {
+      "epoch": 0.6245,
+      "grad_norm": 1.3316272497177124,
+      "grad_norm_var": 0.5718334494050034,
+      "learning_rate": 2e-05,
+      "loss": 0.4137,
+      "loss/crossentropy": 2.394113779067993,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.027119265869259834,
+      "loss/reg": 0.02400875836610794,
+      "step": 1249
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 1.247865915298462,
+      "grad_norm_var": 0.5738337715934628,
+      "learning_rate": 2e-05,
+      "loss": 0.4395,
+      "loss/crossentropy": 2.2250888347625732,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.030949266627430916,
+      "loss/reg": 0.024006184190511703,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6255,
+      "grad_norm": 1.4751828908920288,
+      "grad_norm_var": 0.1935716929082652,
+      "learning_rate": 2e-05,
+      "loss": 0.4572,
+      "loss/crossentropy": 2.395260810852051,
+      "loss/hidden": 0.18212890625,
+      "loss/logits": 0.03504170663654804,
+      "loss/reg": 0.024003824219107628,
+      "step": 1251
+    },
+    {
+      "epoch": 0.626,
+      "grad_norm": 1.179787516593933,
+      "grad_norm_var": 0.20491551538845407,
+      "learning_rate": 2e-05,
+      "loss": 0.3969,
+      "loss/crossentropy": 2.4494906663894653,
+      "loss/hidden": 0.134765625,
+      "loss/logits": 0.022070709615945816,
+      "loss/reg": 0.02400144934654236,
+      "step": 1252
+    },
+    {
+      "epoch": 0.6265,
+      "grad_norm": 1.586988925933838,
+      "grad_norm_var": 0.17240025072078843,
+      "learning_rate": 2e-05,
+      "loss": 0.4791,
+      "loss/crossentropy": 2.367736339569092,
+      "loss/hidden": 0.20263671875,
+      "loss/logits": 0.036459170281887054,
+      "loss/reg": 0.023999080061912537,
+      "step": 1253
+    },
+    {
+      "epoch": 0.627,
+      "grad_norm": 1.408430576324463,
+      "grad_norm_var": 0.0908129483057038,
+      "learning_rate": 2e-05,
+      "loss": 0.4469,
+      "loss/crossentropy": 2.5444475412368774,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.03117147646844387,
+      "loss/reg": 0.023996589705348015,
+      "step": 1254
+    },
+    {
+      "epoch": 0.6275,
+      "grad_norm": 1.3537817001342773,
+      "grad_norm_var": 0.08128065351453409,
+      "learning_rate": 2e-05,
+      "loss": 0.4433,
+      "loss/crossentropy": 2.5234625339508057,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.028503548353910446,
+      "loss/reg": 0.023994173854589462,
+      "step": 1255
+    },
+    {
+      "epoch": 0.628,
+      "grad_norm": 1.5888077020645142,
+      "grad_norm_var": 0.08051893249327732,
+      "learning_rate": 2e-05,
+      "loss": 0.5085,
+      "loss/crossentropy": 2.2406824827194214,
+      "loss/hidden": 0.22509765625,
+      "loss/logits": 0.043473441153764725,
+      "loss/reg": 0.023991703987121582,
+      "step": 1256
+    },
+    {
+      "epoch": 0.6285,
+      "grad_norm": 1.1863782405853271,
+      "grad_norm_var": 0.08475685961338304,
+      "learning_rate": 2e-05,
+      "loss": 0.4252,
+      "loss/crossentropy": 2.3977235555648804,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.025112398900091648,
+      "loss/reg": 0.023989345878362656,
+      "step": 1257
+    },
+    {
+      "epoch": 0.629,
+      "grad_norm": 2.7917957305908203,
+      "grad_norm_var": 0.18601559285113065,
+      "learning_rate": 2e-05,
+      "loss": 0.4964,
+      "loss/crossentropy": 2.582550048828125,
+      "loss/hidden": 0.20849609375,
+      "loss/logits": 0.0480042677372694,
+      "loss/reg": 0.023987185209989548,
+      "step": 1258
+    },
+    {
+      "epoch": 0.6295,
+      "grad_norm": 1.227421760559082,
+      "grad_norm_var": 0.1925385294557105,
+      "learning_rate": 2e-05,
+      "loss": 0.4472,
+      "loss/crossentropy": 2.3612314462661743,
+      "loss/hidden": 0.1728515625,
+      "loss/logits": 0.034451963379979134,
+      "loss/reg": 0.023985007777810097,
+      "step": 1259
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.3271315097808838,
+      "grad_norm_var": 0.1689130153916018,
+      "learning_rate": 2e-05,
+      "loss": 0.4098,
+      "loss/crossentropy": 2.2717262506484985,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.023538900539278984,
+      "loss/reg": 0.023982524871826172,
+      "step": 1260
+    },
+    {
+      "epoch": 0.6305,
+      "grad_norm": 1.5784635543823242,
+      "grad_norm_var": 0.1485889910484635,
+      "learning_rate": 2e-05,
+      "loss": 0.4908,
+      "loss/crossentropy": 2.5256478786468506,
+      "loss/hidden": 0.21044921875,
+      "loss/logits": 0.040558042004704475,
+      "loss/reg": 0.02397996559739113,
+      "step": 1261
+    },
+    {
+      "epoch": 0.631,
+      "grad_norm": 1.4419437646865845,
+      "grad_norm_var": 0.14768726273588845,
+      "learning_rate": 2e-05,
+      "loss": 0.453,
+      "loss/crossentropy": 2.2362372875213623,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.030156176537275314,
+      "loss/reg": 0.02397749572992325,
+      "step": 1262
+    },
+    {
+      "epoch": 0.6315,
+      "grad_norm": 1.3559249639511108,
+      "grad_norm_var": 0.14397081070207676,
+      "learning_rate": 2e-05,
+      "loss": 0.4499,
+      "loss/crossentropy": 2.6084084510803223,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.03335867449641228,
+      "loss/reg": 0.023975025862455368,
+      "step": 1263
+    },
+    {
+      "epoch": 0.632,
+      "grad_norm": 1.8681645393371582,
+      "grad_norm_var": 0.1518160274302981,
+      "learning_rate": 2e-05,
+      "loss": 0.4988,
+      "loss/crossentropy": 2.302277684211731,
+      "loss/hidden": 0.2177734375,
+      "loss/logits": 0.04134911857545376,
+      "loss/reg": 0.023972423747181892,
+      "step": 1264
+    },
+    {
+      "epoch": 0.6325,
+      "grad_norm": 1.2972159385681152,
+      "grad_norm_var": 0.15264813462290375,
+      "learning_rate": 2e-05,
+      "loss": 0.4542,
+      "loss/crossentropy": 2.126034438610077,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.03383249044418335,
+      "loss/reg": 0.02396974340081215,
+      "step": 1265
+    },
+    {
+      "epoch": 0.633,
+      "grad_norm": 1.1746324300765991,
+      "grad_norm_var": 0.1553935858025509,
+      "learning_rate": 2e-05,
+      "loss": 0.4072,
+      "loss/crossentropy": 2.2992480993270874,
+      "loss/hidden": 0.14208984375,
+      "loss/logits": 0.025420350953936577,
+      "loss/reg": 0.023967038840055466,
+      "step": 1266
+    },
+    {
+      "epoch": 0.6335,
+      "grad_norm": 1.0678731203079224,
+      "grad_norm_var": 0.16657406511629347,
+      "learning_rate": 2e-05,
+      "loss": 0.4074,
+      "loss/crossentropy": 2.2471213340759277,
+      "loss/hidden": 0.14208984375,
+      "loss/logits": 0.025705378502607346,
+      "loss/reg": 0.02396426908671856,
+      "step": 1267
+    },
+    {
+      "epoch": 0.634,
+      "grad_norm": 2.6190547943115234,
+      "grad_norm_var": 0.24137234026006044,
+      "learning_rate": 2e-05,
+      "loss": 0.5394,
+      "loss/crossentropy": 2.6888530254364014,
+      "loss/hidden": 0.24853515625,
+      "loss/logits": 0.05120135098695755,
+      "loss/reg": 0.023961780592799187,
+      "step": 1268
+    },
+    {
+      "epoch": 0.6345,
+      "grad_norm": 1.5800697803497314,
+      "grad_norm_var": 0.24134547552578448,
+      "learning_rate": 2e-05,
+      "loss": 0.4279,
+      "loss/crossentropy": 2.289852738380432,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.028674802742898464,
+      "loss/reg": 0.023959312587976456,
+      "step": 1269
+    },
+    {
+      "epoch": 0.635,
+      "grad_norm": 1.474374532699585,
+      "grad_norm_var": 0.240335642083797,
+      "learning_rate": 2e-05,
+      "loss": 0.4526,
+      "loss/crossentropy": 2.3954397439956665,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.030411606654524803,
+      "loss/reg": 0.023956701159477234,
+      "step": 1270
+    },
+    {
+      "epoch": 0.6355,
+      "grad_norm": 1.6741186380386353,
+      "grad_norm_var": 0.2380131997486006,
+      "learning_rate": 2e-05,
+      "loss": 0.5338,
+      "loss/crossentropy": 2.3165799379348755,
+      "loss/hidden": 0.2578125,
+      "loss/logits": 0.03643801715224981,
+      "loss/reg": 0.023954056203365326,
+      "step": 1271
+    },
+    {
+      "epoch": 0.636,
+      "grad_norm": 1.4911454916000366,
+      "grad_norm_var": 0.23847295627966883,
+      "learning_rate": 2e-05,
+      "loss": 0.4419,
+      "loss/crossentropy": 2.3574637174606323,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.028055937960743904,
+      "loss/reg": 0.023951426148414612,
+      "step": 1272
+    },
+    {
+      "epoch": 0.6365,
+      "grad_norm": 1.3399804830551147,
+      "grad_norm_var": 0.23204516308295423,
+      "learning_rate": 2e-05,
+      "loss": 0.4296,
+      "loss/crossentropy": 2.2917098999023438,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.02510044164955616,
+      "loss/reg": 0.02394864708185196,
+      "step": 1273
+    },
+    {
+      "epoch": 0.637,
+      "grad_norm": 1.1677303314208984,
+      "grad_norm_var": 0.13488639573788433,
+      "learning_rate": 2e-05,
+      "loss": 0.4029,
+      "loss/crossentropy": 2.272668480873108,
+      "loss/hidden": 0.143798828125,
+      "loss/logits": 0.019617602229118347,
+      "loss/reg": 0.023945819586515427,
+      "step": 1274
+    },
+    {
+      "epoch": 0.6375,
+      "grad_norm": 1.7385436296463013,
+      "grad_norm_var": 0.13397879899451534,
+      "learning_rate": 2e-05,
+      "loss": 0.5288,
+      "loss/crossentropy": 2.3414204120635986,
+      "loss/hidden": 0.2470703125,
+      "loss/logits": 0.04233134910464287,
+      "loss/reg": 0.023943088948726654,
+      "step": 1275
+    },
+    {
+      "epoch": 0.638,
+      "grad_norm": 0.977463960647583,
+      "grad_norm_var": 0.15025223921002726,
+      "learning_rate": 2e-05,
+      "loss": 0.403,
+      "loss/crossentropy": 2.4587652683258057,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.02442883513867855,
+      "loss/reg": 0.023940427228808403,
+      "step": 1276
+    },
+    {
+      "epoch": 0.6385,
+      "grad_norm": 2.247265577316284,
+      "grad_norm_var": 0.18605952102636442,
+      "learning_rate": 2e-05,
+      "loss": 0.4763,
+      "loss/crossentropy": 2.393397808074951,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.029887165874242783,
+      "loss/reg": 0.02393791824579239,
+      "step": 1277
+    },
+    {
+      "epoch": 0.639,
+      "grad_norm": 1.2421715259552002,
+      "grad_norm_var": 0.19095842498212073,
+      "learning_rate": 2e-05,
+      "loss": 0.4199,
+      "loss/crossentropy": 2.3398871421813965,
+      "loss/hidden": 0.1494140625,
+      "loss/logits": 0.031092578545212746,
+      "loss/reg": 0.023935388773679733,
+      "step": 1278
+    },
+    {
+      "epoch": 0.6395,
+      "grad_norm": 1.630374550819397,
+      "grad_norm_var": 0.1896718089495029,
+      "learning_rate": 2e-05,
+      "loss": 0.4178,
+      "loss/crossentropy": 2.3470832109451294,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.026134072802960873,
+      "loss/reg": 0.023932764306664467,
+      "step": 1279
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.426863670349121,
+      "grad_norm_var": 0.1823510070964786,
+      "learning_rate": 2e-05,
+      "loss": 0.4318,
+      "loss/crossentropy": 2.281801223754883,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.029915660619735718,
+      "loss/reg": 0.023930255323648453,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6405,
+      "grad_norm": 1.5419303178787231,
+      "grad_norm_var": 0.17917366497501538,
+      "learning_rate": 2e-05,
+      "loss": 0.4594,
+      "loss/crossentropy": 2.4495433568954468,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.036524929106235504,
+      "loss/reg": 0.023927820846438408,
+      "step": 1281
+    },
+    {
+      "epoch": 0.641,
+      "grad_norm": 2.1934878826141357,
+      "grad_norm_var": 0.19651069564279305,
+      "learning_rate": 2e-05,
+      "loss": 0.5702,
+      "loss/crossentropy": 2.097387194633484,
+      "loss/hidden": 0.2783203125,
+      "loss/logits": 0.052668359130620956,
+      "loss/reg": 0.02392534911632538,
+      "step": 1282
+    },
+    {
+      "epoch": 0.6415,
+      "grad_norm": 1.5347496271133423,
+      "grad_norm_var": 0.17773874075004978,
+      "learning_rate": 2e-05,
+      "loss": 0.4635,
+      "loss/crossentropy": 2.2910990715026855,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.032878163270652294,
+      "loss/reg": 0.02392282895743847,
+      "step": 1283
+    },
+    {
+      "epoch": 0.642,
+      "grad_norm": 1.4668471813201904,
+      "grad_norm_var": 0.10683961538937149,
+      "learning_rate": 2e-05,
+      "loss": 0.5058,
+      "loss/crossentropy": 2.1385812759399414,
+      "loss/hidden": 0.220703125,
+      "loss/logits": 0.04593625292181969,
+      "loss/reg": 0.023920193314552307,
+      "step": 1284
+    },
+    {
+      "epoch": 0.6425,
+      "grad_norm": 2.6525700092315674,
+      "grad_norm_var": 0.1836820315419103,
+      "learning_rate": 2e-05,
+      "loss": 0.4432,
+      "loss/crossentropy": 2.503835439682007,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.030207850970327854,
+      "loss/reg": 0.02391754277050495,
+      "step": 1285
+    },
+    {
+      "epoch": 0.643,
+      "grad_norm": 1.9956448078155518,
+      "grad_norm_var": 0.19106626883691427,
+      "learning_rate": 2e-05,
+      "loss": 0.4742,
+      "loss/crossentropy": 2.4542654752731323,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.038763463497161865,
+      "loss/reg": 0.023914897814393044,
+      "step": 1286
+    },
+    {
+      "epoch": 0.6435,
+      "grad_norm": 1.4315065145492554,
+      "grad_norm_var": 0.19380491573572362,
+      "learning_rate": 2e-05,
+      "loss": 0.4204,
+      "loss/crossentropy": 2.544227123260498,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.02888611890375614,
+      "loss/reg": 0.023912400007247925,
+      "step": 1287
+    },
+    {
+      "epoch": 0.644,
+      "grad_norm": 1.5084730386734009,
+      "grad_norm_var": 0.19350312891037896,
+      "learning_rate": 2e-05,
+      "loss": 0.423,
+      "loss/crossentropy": 2.5178849697113037,
+      "loss/hidden": 0.15478515625,
+      "loss/logits": 0.029108996503055096,
+      "loss/reg": 0.023909782990813255,
+      "step": 1288
+    },
+    {
+      "epoch": 0.6445,
+      "grad_norm": 1.9239797592163086,
+      "grad_norm_var": 0.19216031597426284,
+      "learning_rate": 2e-05,
+      "loss": 0.4724,
+      "loss/crossentropy": 2.4222670793533325,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.031173129566013813,
+      "loss/reg": 0.023907171562314034,
+      "step": 1289
+    },
+    {
+      "epoch": 0.645,
+      "grad_norm": 1.1635066270828247,
+      "grad_norm_var": 0.19244286753470394,
+      "learning_rate": 2e-05,
+      "loss": 0.4123,
+      "loss/crossentropy": 2.2675434350967407,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.026736157946288586,
+      "loss/reg": 0.023904629051685333,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6455,
+      "grad_norm": 1.2279921770095825,
+      "grad_norm_var": 0.20387843935832747,
+      "learning_rate": 2e-05,
+      "loss": 0.4294,
+      "loss/crossentropy": 2.409374237060547,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.031166162341833115,
+      "loss/reg": 0.02390221692621708,
+      "step": 1291
+    },
+    {
+      "epoch": 0.646,
+      "grad_norm": 1.5634331703186035,
+      "grad_norm_var": 0.17394207919523214,
+      "learning_rate": 2e-05,
+      "loss": 0.4418,
+      "loss/crossentropy": 2.3470332622528076,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.033411881886422634,
+      "loss/reg": 0.023899724707007408,
+      "step": 1292
+    },
+    {
+      "epoch": 0.6465,
+      "grad_norm": 1.4021070003509521,
+      "grad_norm_var": 0.15375149805387778,
+      "learning_rate": 2e-05,
+      "loss": 0.4517,
+      "loss/crossentropy": 2.4360326528549194,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.028121494688093662,
+      "loss/reg": 0.023897258564829826,
+      "step": 1293
+    },
+    {
+      "epoch": 0.647,
+      "grad_norm": 1.5751771926879883,
+      "grad_norm_var": 0.14394628232820703,
+      "learning_rate": 2e-05,
+      "loss": 0.4148,
+      "loss/crossentropy": 2.363794207572937,
+      "loss/hidden": 0.15087890625,
+      "loss/logits": 0.02497075777500868,
+      "loss/reg": 0.023894891142845154,
+      "step": 1294
+    },
+    {
+      "epoch": 0.6475,
+      "grad_norm": 1.5669056177139282,
+      "grad_norm_var": 0.14427878956963974,
+      "learning_rate": 2e-05,
+      "loss": 0.4636,
+      "loss/crossentropy": 2.2907302379608154,
+      "loss/hidden": 0.1884765625,
+      "loss/logits": 0.03620941936969757,
+      "loss/reg": 0.023892676457762718,
+      "step": 1295
+    },
+    {
+      "epoch": 0.648,
+      "grad_norm": 2.1094207763671875,
+      "grad_norm_var": 0.154368248754838,
+      "learning_rate": 2e-05,
+      "loss": 0.4793,
+      "loss/crossentropy": 2.2729530334472656,
+      "loss/hidden": 0.20654296875,
+      "loss/logits": 0.033849818632006645,
+      "loss/reg": 0.023890400305390358,
+      "step": 1296
+    },
+    {
+      "epoch": 0.6485,
+      "grad_norm": 1.4486722946166992,
+      "grad_norm_var": 0.15661132320615986,
+      "learning_rate": 2e-05,
+      "loss": 0.4313,
+      "loss/crossentropy": 2.376818895339966,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.024429542012512684,
+      "loss/reg": 0.02388790063560009,
+      "step": 1297
+    },
+    {
+      "epoch": 0.649,
+      "grad_norm": 1.458891749382019,
+      "grad_norm_var": 0.13933691898384565,
+      "learning_rate": 2e-05,
+      "loss": 0.4831,
+      "loss/crossentropy": 2.1321340203285217,
+      "loss/hidden": 0.2080078125,
+      "loss/logits": 0.03623790666460991,
+      "loss/reg": 0.023885508999228477,
+      "step": 1298
+    },
+    {
+      "epoch": 0.6495,
+      "grad_norm": 1.397750735282898,
+      "grad_norm_var": 0.1421926325690795,
+      "learning_rate": 2e-05,
+      "loss": 0.4592,
+      "loss/crossentropy": 2.245489716529846,
+      "loss/hidden": 0.181640625,
+      "loss/logits": 0.03869971726089716,
+      "loss/reg": 0.02388302981853485,
+      "step": 1299
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 2.3553082942962646,
+      "grad_norm_var": 0.1735859217612727,
+      "learning_rate": 2e-05,
+      "loss": 0.5102,
+      "loss/crossentropy": 2.422638416290283,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.051152704283595085,
+      "loss/reg": 0.02388053759932518,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6505,
+      "grad_norm": 1.5121291875839233,
+      "grad_norm_var": 0.10604831093349745,
+      "learning_rate": 2e-05,
+      "loss": 0.476,
+      "loss/crossentropy": 2.5624797344207764,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.03510456532239914,
+      "loss/reg": 0.023878419771790504,
+      "step": 1301
+    },
+    {
+      "epoch": 0.651,
+      "grad_norm": 1.5881332159042358,
+      "grad_norm_var": 0.09506899424586326,
+      "learning_rate": 2e-05,
+      "loss": 0.4744,
+      "loss/crossentropy": 2.3333781957626343,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.03930900990962982,
+      "loss/reg": 0.023876061663031578,
+      "step": 1302
+    },
+    {
+      "epoch": 0.6515,
+      "grad_norm": 1.3511114120483398,
+      "grad_norm_var": 0.0970334796528732,
+      "learning_rate": 2e-05,
+      "loss": 0.4549,
+      "loss/crossentropy": 2.1691489219665527,
+      "loss/hidden": 0.185546875,
+      "loss/logits": 0.030610281974077225,
+      "loss/reg": 0.02387375757098198,
+      "step": 1303
+    },
+    {
+      "epoch": 0.652,
+      "grad_norm": 2.0355160236358643,
+      "grad_norm_var": 0.10992582401275346,
+      "learning_rate": 2e-05,
+      "loss": 0.5417,
+      "loss/crossentropy": 2.3282041549682617,
+      "loss/hidden": 0.27099609375,
+      "loss/logits": 0.03201697859913111,
+      "loss/reg": 0.02387123927474022,
+      "step": 1304
+    },
+    {
+      "epoch": 0.6525,
+      "grad_norm": 1.1647405624389648,
+      "grad_norm_var": 0.11366288198163511,
+      "learning_rate": 2e-05,
+      "loss": 0.3925,
+      "loss/crossentropy": 2.465924859046936,
+      "loss/hidden": 0.13232421875,
+      "loss/logits": 0.021514427848160267,
+      "loss/reg": 0.02386898547410965,
+      "step": 1305
+    },
+    {
+      "epoch": 0.653,
+      "grad_norm": 1.921985387802124,
+      "grad_norm_var": 0.10976873004807407,
+      "learning_rate": 2e-05,
+      "loss": 0.5147,
+      "loss/crossentropy": 2.435685157775879,
+      "loss/hidden": 0.23681640625,
+      "loss/logits": 0.03921514190733433,
+      "loss/reg": 0.02386675402522087,
+      "step": 1306
+    },
+    {
+      "epoch": 0.6535,
+      "grad_norm": 1.6400461196899414,
+      "grad_norm_var": 0.09966999048148933,
+      "learning_rate": 2e-05,
+      "loss": 0.4302,
+      "loss/crossentropy": 2.16571307182312,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.024049567990005016,
+      "loss/reg": 0.023864606395363808,
+      "step": 1307
+    },
+    {
+      "epoch": 0.654,
+      "grad_norm": 1.3085359334945679,
+      "grad_norm_var": 0.10601720206320617,
+      "learning_rate": 2e-05,
+      "loss": 0.4506,
+      "loss/crossentropy": 2.4350894689559937,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.03322593308985233,
+      "loss/reg": 0.023862628266215324,
+      "step": 1308
+    },
+    {
+      "epoch": 0.6545,
+      "grad_norm": 1.7091984748840332,
+      "grad_norm_var": 0.10320339085501071,
+      "learning_rate": 2e-05,
+      "loss": 0.4515,
+      "loss/crossentropy": 2.418308198451996,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.02934916317462921,
+      "loss/reg": 0.023860609158873558,
+      "step": 1309
+    },
+    {
+      "epoch": 0.655,
+      "grad_norm": 1.2501323223114014,
+      "grad_norm_var": 0.11235482446353538,
+      "learning_rate": 2e-05,
+      "loss": 0.417,
+      "loss/crossentropy": 2.599029541015625,
+      "loss/hidden": 0.1494140625,
+      "loss/logits": 0.0289985379204154,
+      "loss/reg": 0.023858599364757538,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6555,
+      "grad_norm": 1.5810778141021729,
+      "grad_norm_var": 0.11227903902704757,
+      "learning_rate": 2e-05,
+      "loss": 0.435,
+      "loss/crossentropy": 2.4957447052001953,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.028951111249625683,
+      "loss/reg": 0.02385612390935421,
+      "step": 1311
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 1.6085758209228516,
+      "grad_norm_var": 0.09490913098407905,
+      "learning_rate": 2e-05,
+      "loss": 0.4276,
+      "loss/crossentropy": 2.525179862976074,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.02599877305328846,
+      "loss/reg": 0.023853624239563942,
+      "step": 1312
+    },
+    {
+      "epoch": 0.6565,
+      "grad_norm": 1.3025941848754883,
+      "grad_norm_var": 0.09886375082411777,
+      "learning_rate": 2e-05,
+      "loss": 0.4164,
+      "loss/crossentropy": 2.2159218788146973,
+      "loss/hidden": 0.15380859375,
+      "loss/logits": 0.02411420363932848,
+      "loss/reg": 0.023851484060287476,
+      "step": 1313
+    },
+    {
+      "epoch": 0.657,
+      "grad_norm": 1.7414854764938354,
+      "grad_norm_var": 0.09951370157159824,
+      "learning_rate": 2e-05,
+      "loss": 0.4552,
+      "loss/crossentropy": 2.6034278869628906,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.033163596875965595,
+      "loss/reg": 0.023848969489336014,
+      "step": 1314
+    },
+    {
+      "epoch": 0.6575,
+      "grad_norm": 1.6796448230743408,
+      "grad_norm_var": 0.0971878321131148,
+      "learning_rate": 2e-05,
+      "loss": 0.5352,
+      "loss/crossentropy": 2.3006917238235474,
+      "loss/hidden": 0.2548828125,
+      "loss/logits": 0.04180280677974224,
+      "loss/reg": 0.02384648472070694,
+      "step": 1315
+    },
+    {
+      "epoch": 0.658,
+      "grad_norm": 1.5615240335464478,
+      "grad_norm_var": 0.057622080975028626,
+      "learning_rate": 2e-05,
+      "loss": 0.4302,
+      "loss/crossentropy": 2.188043475151062,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.02720883209258318,
+      "loss/reg": 0.023843981325626373,
+      "step": 1316
+    },
+    {
+      "epoch": 0.6585,
+      "grad_norm": 1.1154263019561768,
+      "grad_norm_var": 0.06997817065805308,
+      "learning_rate": 2e-05,
+      "loss": 0.4081,
+      "loss/crossentropy": 2.592913031578064,
+      "loss/hidden": 0.14453125,
+      "loss/logits": 0.025116360746324062,
+      "loss/reg": 0.023841451853513718,
+      "step": 1317
+    },
+    {
+      "epoch": 0.659,
+      "grad_norm": 1.5203436613082886,
+      "grad_norm_var": 0.06978498065926123,
+      "learning_rate": 2e-05,
+      "loss": 0.5075,
+      "loss/crossentropy": 2.2861050367355347,
+      "loss/hidden": 0.22412109375,
+      "loss/logits": 0.04499981366097927,
+      "loss/reg": 0.023838885128498077,
+      "step": 1318
+    },
+    {
+      "epoch": 0.6595,
+      "grad_norm": 1.2238833904266357,
+      "grad_norm_var": 0.07384394251173394,
+      "learning_rate": 2e-05,
+      "loss": 0.4196,
+      "loss/crossentropy": 2.538287878036499,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.02840554341673851,
+      "loss/reg": 0.023836364969611168,
+      "step": 1319
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.191012978553772,
+      "grad_norm_var": 0.06068536610595358,
+      "learning_rate": 2e-05,
+      "loss": 0.4069,
+      "loss/crossentropy": 2.4569714069366455,
+      "loss/hidden": 0.1455078125,
+      "loss/logits": 0.02309222426265478,
+      "loss/reg": 0.023833919316530228,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6605,
+      "grad_norm": 1.649925708770752,
+      "grad_norm_var": 0.0556496711602169,
+      "learning_rate": 2e-05,
+      "loss": 0.4694,
+      "loss/crossentropy": 2.3524088859558105,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.0391565915197134,
+      "loss/reg": 0.023831605911254883,
+      "step": 1321
+    },
+    {
+      "epoch": 0.661,
+      "grad_norm": 1.4207836389541626,
+      "grad_norm_var": 0.043172417948901656,
+      "learning_rate": 2e-05,
+      "loss": 0.4519,
+      "loss/crossentropy": 2.5140554904937744,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.03295655734837055,
+      "loss/reg": 0.023829326033592224,
+      "step": 1322
+    },
+    {
+      "epoch": 0.6615,
+      "grad_norm": 1.3647384643554688,
+      "grad_norm_var": 0.04163129199955975,
+      "learning_rate": 2e-05,
+      "loss": 0.4128,
+      "loss/crossentropy": 2.530665874481201,
+      "loss/hidden": 0.14990234375,
+      "loss/logits": 0.02467129472643137,
+      "loss/reg": 0.023827021941542625,
+      "step": 1323
+    },
+    {
+      "epoch": 0.662,
+      "grad_norm": 1.5273334980010986,
+      "grad_norm_var": 0.0404437201587351,
+      "learning_rate": 2e-05,
+      "loss": 0.4635,
+      "loss/crossentropy": 2.2921979427337646,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.03580437693744898,
+      "loss/reg": 0.023824498057365417,
+      "step": 1324
+    },
+    {
+      "epoch": 0.6625,
+      "grad_norm": 3.4632437229156494,
+      "grad_norm_var": 0.28973497995353714,
+      "learning_rate": 2e-05,
+      "loss": 0.4845,
+      "loss/crossentropy": 2.3375691175460815,
+      "loss/hidden": 0.2119140625,
+      "loss/logits": 0.03432004339993,
+      "loss/reg": 0.02382197044789791,
+      "step": 1325
+    },
+    {
+      "epoch": 0.663,
+      "grad_norm": 1.2499359846115112,
+      "grad_norm_var": 0.28974348968956176,
+      "learning_rate": 2e-05,
+      "loss": 0.4141,
+      "loss/crossentropy": 2.437517523765564,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.024037906900048256,
+      "loss/reg": 0.023819534108042717,
+      "step": 1326
+    },
+    {
+      "epoch": 0.6635,
+      "grad_norm": 2.2203030586242676,
+      "grad_norm_var": 0.31579141158708024,
+      "learning_rate": 2e-05,
+      "loss": 0.4227,
+      "loss/crossentropy": 2.547585964202881,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.025345077738165855,
+      "loss/reg": 0.02381698414683342,
+      "step": 1327
+    },
+    {
+      "epoch": 0.664,
+      "grad_norm": 1.4417054653167725,
+      "grad_norm_var": 0.317675752358493,
+      "learning_rate": 2e-05,
+      "loss": 0.4383,
+      "loss/crossentropy": 2.5056179761886597,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.03173685912042856,
+      "loss/reg": 0.023814348503947258,
+      "step": 1328
+    },
+    {
+      "epoch": 0.6645,
+      "grad_norm": 1.6603224277496338,
+      "grad_norm_var": 0.3112681967737764,
+      "learning_rate": 2e-05,
+      "loss": 0.4843,
+      "loss/crossentropy": 2.1647554636001587,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.043993281200528145,
+      "loss/reg": 0.023811759427189827,
+      "step": 1329
+    },
+    {
+      "epoch": 0.665,
+      "grad_norm": 1.6948206424713135,
+      "grad_norm_var": 0.31069182045736876,
+      "learning_rate": 2e-05,
+      "loss": 0.4089,
+      "loss/crossentropy": 2.37821888923645,
+      "loss/hidden": 0.150390625,
+      "loss/logits": 0.020369217731058598,
+      "loss/reg": 0.023809220641851425,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6655,
+      "grad_norm": 1.418535828590393,
+      "grad_norm_var": 0.3130177534653304,
+      "learning_rate": 2e-05,
+      "loss": 0.4358,
+      "loss/crossentropy": 2.3562744855880737,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.03218572027981281,
+      "loss/reg": 0.023806730285286903,
+      "step": 1331
+    },
+    {
+      "epoch": 0.666,
+      "grad_norm": 2.405161142349243,
+      "grad_norm_var": 0.35230188449184957,
+      "learning_rate": 2e-05,
+      "loss": 0.4954,
+      "loss/crossentropy": 2.5449503660202026,
+      "loss/hidden": 0.212158203125,
+      "loss/logits": 0.04522665124386549,
+      "loss/reg": 0.02380412258207798,
+      "step": 1332
+    },
+    {
+      "epoch": 0.6665,
+      "grad_norm": 2.3597934246063232,
+      "grad_norm_var": 0.3586491765370226,
+      "learning_rate": 2e-05,
+      "loss": 0.4877,
+      "loss/crossentropy": 2.3041821718215942,
+      "loss/hidden": 0.208984375,
+      "loss/logits": 0.040694585070014,
+      "loss/reg": 0.02380160056054592,
+      "step": 1333
+    },
+    {
+      "epoch": 0.667,
+      "grad_norm": 1.4537216424942017,
+      "grad_norm_var": 0.36086214325715854,
+      "learning_rate": 2e-05,
+      "loss": 0.4747,
+      "loss/crossentropy": 2.504698157310486,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.03751707915216684,
+      "loss/reg": 0.023799141868948936,
+      "step": 1334
+    },
+    {
+      "epoch": 0.6675,
+      "grad_norm": 1.2887414693832397,
+      "grad_norm_var": 0.3567130361876489,
+      "learning_rate": 2e-05,
+      "loss": 0.4786,
+      "loss/crossentropy": 2.0967178344726562,
+      "loss/hidden": 0.20263671875,
+      "loss/logits": 0.03796843905001879,
+      "loss/reg": 0.023796530440449715,
+      "step": 1335
+    },
+    {
+      "epoch": 0.668,
+      "grad_norm": 1.360039234161377,
+      "grad_norm_var": 0.3461683691160814,
+      "learning_rate": 2e-05,
+      "loss": 0.4422,
+      "loss/crossentropy": 2.2293606996536255,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.030479850247502327,
+      "loss/reg": 0.02379394881427288,
+      "step": 1336
+    },
+    {
+      "epoch": 0.6685,
+      "grad_norm": 1.5283000469207764,
+      "grad_norm_var": 0.34869462176112187,
+      "learning_rate": 2e-05,
+      "loss": 0.4369,
+      "loss/crossentropy": 2.55380380153656,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.032473089173436165,
+      "loss/reg": 0.023791363462805748,
+      "step": 1337
+    },
+    {
+      "epoch": 0.669,
+      "grad_norm": 1.3858225345611572,
+      "grad_norm_var": 0.3502641276347217,
+      "learning_rate": 2e-05,
+      "loss": 0.4403,
+      "loss/crossentropy": 2.364560842514038,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.03198127821087837,
+      "loss/reg": 0.02378905564546585,
+      "step": 1338
+    },
+    {
+      "epoch": 0.6695,
+      "grad_norm": 1.4333000183105469,
+      "grad_norm_var": 0.3471374399560941,
+      "learning_rate": 2e-05,
+      "loss": 0.4355,
+      "loss/crossentropy": 2.514798641204834,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.03649984207004309,
+      "loss/reg": 0.023786714300513268,
+      "step": 1339
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 1.49425208568573,
+      "grad_norm_var": 0.34815796148798006,
+      "learning_rate": 2e-05,
+      "loss": 0.4127,
+      "loss/crossentropy": 2.451537013053894,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.025915359146893024,
+      "loss/reg": 0.02378448285162449,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6705,
+      "grad_norm": 1.364202618598938,
+      "grad_norm_var": 0.14155822181354907,
+      "learning_rate": 2e-05,
+      "loss": 0.4458,
+      "loss/crossentropy": 2.2742252349853516,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.02972761169075966,
+      "loss/reg": 0.023781999945640564,
+      "step": 1341
+    },
+    {
+      "epoch": 0.671,
+      "grad_norm": 1.3675141334533691,
+      "grad_norm_var": 0.1367785272504178,
+      "learning_rate": 2e-05,
+      "loss": 0.4329,
+      "loss/crossentropy": 2.4399064779281616,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.03008042648434639,
+      "loss/reg": 0.02377980761229992,
+      "step": 1342
+    },
+    {
+      "epoch": 0.6715,
+      "grad_norm": 1.739666223526001,
+      "grad_norm_var": 0.11257230684105075,
+      "learning_rate": 2e-05,
+      "loss": 0.4296,
+      "loss/crossentropy": 2.3073580265045166,
+      "loss/hidden": 0.1533203125,
+      "loss/logits": 0.0385186281055212,
+      "loss/reg": 0.02377736195921898,
+      "step": 1343
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 1.364190936088562,
+      "grad_norm_var": 0.11445201509484164,
+      "learning_rate": 2e-05,
+      "loss": 0.4681,
+      "loss/crossentropy": 2.3126569986343384,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.03849446773529053,
+      "loss/reg": 0.02377496473491192,
+      "step": 1344
+    },
+    {
+      "epoch": 0.6725,
+      "grad_norm": 1.7589856386184692,
+      "grad_norm_var": 0.11608550666011386,
+      "learning_rate": 2e-05,
+      "loss": 0.4438,
+      "loss/crossentropy": 2.2252254486083984,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.030335014685988426,
+      "loss/reg": 0.02377244643867016,
+      "step": 1345
+    },
+    {
+      "epoch": 0.673,
+      "grad_norm": 1.5148929357528687,
+      "grad_norm_var": 0.1155597806029616,
+      "learning_rate": 2e-05,
+      "loss": 0.4564,
+      "loss/crossentropy": 2.173453211784363,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.02973311860114336,
+      "loss/reg": 0.023769889026880264,
+      "step": 1346
+    },
+    {
+      "epoch": 0.6735,
+      "grad_norm": 1.3687435388565063,
+      "grad_norm_var": 0.11676889873661077,
+      "learning_rate": 2e-05,
+      "loss": 0.4483,
+      "loss/crossentropy": 2.3290340900421143,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.03875895403325558,
+      "loss/reg": 0.023767419159412384,
+      "step": 1347
+    },
+    {
+      "epoch": 0.674,
+      "grad_norm": 3.605093479156494,
+      "grad_norm_var": 0.3397037594268179,
+      "learning_rate": 2e-05,
+      "loss": 0.4573,
+      "loss/crossentropy": 2.528464674949646,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.03462876006960869,
+      "loss/reg": 0.02376495860517025,
+      "step": 1348
+    },
+    {
+      "epoch": 0.6745,
+      "grad_norm": 1.2763408422470093,
+      "grad_norm_var": 0.31041857364604836,
+      "learning_rate": 2e-05,
+      "loss": 0.4117,
+      "loss/crossentropy": 2.3279651403427124,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.025109270587563515,
+      "loss/reg": 0.023762483149766922,
+      "step": 1349
+    },
+    {
+      "epoch": 0.675,
+      "grad_norm": 1.2447208166122437,
+      "grad_norm_var": 0.3167090932037666,
+      "learning_rate": 2e-05,
+      "loss": 0.4339,
+      "loss/crossentropy": 2.317818284034729,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.03267843183130026,
+      "loss/reg": 0.023760035634040833,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6755,
+      "grad_norm": 1.469759225845337,
+      "grad_norm_var": 0.3120066895490725,
+      "learning_rate": 2e-05,
+      "loss": 0.4657,
+      "loss/crossentropy": 2.6747782230377197,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.03863661177456379,
+      "loss/reg": 0.023757578805088997,
+      "step": 1351
+    },
+    {
+      "epoch": 0.676,
+      "grad_norm": 1.188594937324524,
+      "grad_norm_var": 0.3188659312546353,
+      "learning_rate": 2e-05,
+      "loss": 0.4495,
+      "loss/crossentropy": 2.6325184106826782,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.03611903823912144,
+      "loss/reg": 0.0237550251185894,
+      "step": 1352
+    },
+    {
+      "epoch": 0.6765,
+      "grad_norm": 1.4543743133544922,
+      "grad_norm_var": 0.3196088985917853,
+      "learning_rate": 2e-05,
+      "loss": 0.4425,
+      "loss/crossentropy": 2.461496353149414,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.032596323639154434,
+      "loss/reg": 0.02375258132815361,
+      "step": 1353
+    },
+    {
+      "epoch": 0.677,
+      "grad_norm": 1.183428406715393,
+      "grad_norm_var": 0.32698827229071603,
+      "learning_rate": 2e-05,
+      "loss": 0.4135,
+      "loss/crossentropy": 2.411842107772827,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.02709823753684759,
+      "loss/reg": 0.023749923333525658,
+      "step": 1354
+    },
+    {
+      "epoch": 0.6775,
+      "grad_norm": 1.2251843214035034,
+      "grad_norm_var": 0.3329822256302141,
+      "learning_rate": 2e-05,
+      "loss": 0.4623,
+      "loss/crossentropy": 2.385651111602783,
+      "loss/hidden": 0.18603515625,
+      "loss/logits": 0.03881765343248844,
+      "loss/reg": 0.023747442290186882,
+      "step": 1355
+    },
+    {
+      "epoch": 0.678,
+      "grad_norm": 1.8396114110946655,
+      "grad_norm_var": 0.3383879160154535,
+      "learning_rate": 2e-05,
+      "loss": 0.5556,
+      "loss/crossentropy": 2.159119963645935,
+      "loss/hidden": 0.27587890625,
+      "loss/logits": 0.042316026985645294,
+      "loss/reg": 0.023744840174913406,
+      "step": 1356
+    },
+    {
+      "epoch": 0.6785,
+      "grad_norm": 1.6769040822982788,
+      "grad_norm_var": 0.33632199932469997,
+      "learning_rate": 2e-05,
+      "loss": 0.4362,
+      "loss/crossentropy": 2.420010805130005,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.028409303165972233,
+      "loss/reg": 0.023742124438285828,
+      "step": 1357
+    },
+    {
+      "epoch": 0.679,
+      "grad_norm": 1.4979515075683594,
+      "grad_norm_var": 0.3336920570721417,
+      "learning_rate": 2e-05,
+      "loss": 0.4697,
+      "loss/crossentropy": 2.002126097679138,
+      "loss/hidden": 0.197265625,
+      "loss/logits": 0.03505042381584644,
+      "loss/reg": 0.02373962290585041,
+      "step": 1358
+    },
+    {
+      "epoch": 0.6795,
+      "grad_norm": 1.339608907699585,
+      "grad_norm_var": 0.3356063743636861,
+      "learning_rate": 2e-05,
+      "loss": 0.4591,
+      "loss/crossentropy": 2.4204870462417603,
+      "loss/hidden": 0.18408203125,
+      "loss/logits": 0.03763877786695957,
+      "loss/reg": 0.02373688668012619,
+      "step": 1359
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 2.6153082847595215,
+      "grad_norm_var": 0.4002688084625047,
+      "learning_rate": 2e-05,
+      "loss": 0.5644,
+      "loss/crossentropy": 1.8696808218955994,
+      "loss/hidden": 0.27783203125,
+      "loss/logits": 0.049255505204200745,
+      "loss/reg": 0.023734180256724358,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6805,
+      "grad_norm": 1.7975633144378662,
+      "grad_norm_var": 0.4009675788079647,
+      "learning_rate": 2e-05,
+      "loss": 0.4502,
+      "loss/crossentropy": 2.283734917640686,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.03226998262107372,
+      "loss/reg": 0.02373143844306469,
+      "step": 1361
+    },
+    {
+      "epoch": 0.681,
+      "grad_norm": 1.3946635723114014,
+      "grad_norm_var": 0.40393475291140984,
+      "learning_rate": 2e-05,
+      "loss": 0.4437,
+      "loss/crossentropy": 2.3782224655151367,
+      "loss/hidden": 0.1728515625,
+      "loss/logits": 0.03351980075240135,
+      "loss/reg": 0.02372862957417965,
+      "step": 1362
+    },
+    {
+      "epoch": 0.6815,
+      "grad_norm": 1.5255178213119507,
+      "grad_norm_var": 0.39988194537197613,
+      "learning_rate": 2e-05,
+      "loss": 0.4427,
+      "loss/crossentropy": 2.39896559715271,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.03352793958038092,
+      "loss/reg": 0.023726122453808784,
+      "step": 1363
+    },
+    {
+      "epoch": 0.682,
+      "grad_norm": 1.2733867168426514,
+      "grad_norm_var": 0.13058789078406388,
+      "learning_rate": 2e-05,
+      "loss": 0.4295,
+      "loss/crossentropy": 2.261076331138611,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.03012457862496376,
+      "loss/reg": 0.02372356690466404,
+      "step": 1364
+    },
+    {
+      "epoch": 0.6825,
+      "grad_norm": 1.837705135345459,
+      "grad_norm_var": 0.1335292862046036,
+      "learning_rate": 2e-05,
+      "loss": 0.4557,
+      "loss/crossentropy": 2.247922897338867,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.03198765777051449,
+      "loss/reg": 0.02372095361351967,
+      "step": 1365
+    },
+    {
+      "epoch": 0.683,
+      "grad_norm": 1.5753334760665894,
+      "grad_norm_var": 0.1275530359959636,
+      "learning_rate": 2e-05,
+      "loss": 0.4808,
+      "loss/crossentropy": 2.2536725997924805,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.03755863197147846,
+      "loss/reg": 0.02371850237250328,
+      "step": 1366
+    },
+    {
+      "epoch": 0.6835,
+      "grad_norm": 1.447576642036438,
+      "grad_norm_var": 0.12783865842738631,
+      "learning_rate": 2e-05,
+      "loss": 0.4403,
+      "loss/crossentropy": 2.3656728267669678,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.039546214044094086,
+      "loss/reg": 0.023716144263744354,
+      "step": 1367
+    },
+    {
+      "epoch": 0.684,
+      "grad_norm": 1.3603750467300415,
+      "grad_norm_var": 0.12130121846223171,
+      "learning_rate": 2e-05,
+      "loss": 0.4643,
+      "loss/crossentropy": 2.415152430534363,
+      "loss/hidden": 0.1865234375,
+      "loss/logits": 0.04059493914246559,
+      "loss/reg": 0.02371359057724476,
+      "step": 1368
+    },
+    {
+      "epoch": 0.6845,
+      "grad_norm": 1.0393022298812866,
+      "grad_norm_var": 0.13820691270152227,
+      "learning_rate": 2e-05,
+      "loss": 0.3977,
+      "loss/crossentropy": 2.226056694984436,
+      "loss/hidden": 0.1357421875,
+      "loss/logits": 0.024835828691720963,
+      "loss/reg": 0.02371094562113285,
+      "step": 1369
+    },
+    {
+      "epoch": 0.685,
+      "grad_norm": 1.7829720973968506,
+      "grad_norm_var": 0.1322215247018124,
+      "learning_rate": 2e-05,
+      "loss": 0.5041,
+      "loss/crossentropy": 2.510174036026001,
+      "loss/hidden": 0.21533203125,
+      "loss/logits": 0.0516891460865736,
+      "loss/reg": 0.02370813861489296,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6855,
+      "grad_norm": 1.4974333047866821,
+      "grad_norm_var": 0.12409001917904922,
+      "learning_rate": 2e-05,
+      "loss": 0.4361,
+      "loss/crossentropy": 2.45763623714447,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.029570632614195347,
+      "loss/reg": 0.02370576746761799,
+      "step": 1371
+    },
+    {
+      "epoch": 0.686,
+      "grad_norm": 2.463162660598755,
+      "grad_norm_var": 0.16882568198071363,
+      "learning_rate": 2e-05,
+      "loss": 0.5276,
+      "loss/crossentropy": 2.1458094120025635,
+      "loss/hidden": 0.2373046875,
+      "loss/logits": 0.05326741002500057,
+      "loss/reg": 0.02370315231382847,
+      "step": 1372
+    },
+    {
+      "epoch": 0.6865,
+      "grad_norm": 2.5386321544647217,
+      "grad_norm_var": 0.2203043192597228,
+      "learning_rate": 2e-05,
+      "loss": 0.5752,
+      "loss/crossentropy": 2.3038665056228638,
+      "loss/hidden": 0.2705078125,
+      "loss/logits": 0.06766052544116974,
+      "loss/reg": 0.023700760677456856,
+      "step": 1373
+    },
+    {
+      "epoch": 0.687,
+      "grad_norm": 1.279981255531311,
+      "grad_norm_var": 0.2287580151051623,
+      "learning_rate": 2e-05,
+      "loss": 0.4214,
+      "loss/crossentropy": 2.436690330505371,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.035530680790543556,
+      "loss/reg": 0.02369816228747368,
+      "step": 1374
+    },
+    {
+      "epoch": 0.6875,
+      "grad_norm": 1.230238676071167,
+      "grad_norm_var": 0.2343678483688691,
+      "learning_rate": 2e-05,
+      "loss": 0.4142,
+      "loss/crossentropy": 2.427309036254883,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.028325392864644527,
+      "loss/reg": 0.02369537763297558,
+      "step": 1375
+    },
+    {
+      "epoch": 0.688,
+      "grad_norm": 2.1449315547943115,
+      "grad_norm_var": 0.18867092664802806,
+      "learning_rate": 2e-05,
+      "loss": 0.4724,
+      "loss/crossentropy": 2.393447160720825,
+      "loss/hidden": 0.20361328125,
+      "loss/logits": 0.0318912947550416,
+      "loss/reg": 0.02369256503880024,
+      "step": 1376
+    },
+    {
+      "epoch": 0.6885,
+      "grad_norm": 1.614142894744873,
+      "grad_norm_var": 0.18684194347558922,
+      "learning_rate": 2e-05,
+      "loss": 0.5406,
+      "loss/crossentropy": 2.102261245250702,
+      "loss/hidden": 0.24853515625,
+      "loss/logits": 0.05518599599599838,
+      "loss/reg": 0.02369013801217079,
+      "step": 1377
+    },
+    {
+      "epoch": 0.689,
+      "grad_norm": 1.2378525733947754,
+      "grad_norm_var": 0.1932017017733111,
+      "learning_rate": 2e-05,
+      "loss": 0.4366,
+      "loss/crossentropy": 2.2186710834503174,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.0302474033087492,
+      "loss/reg": 0.02368772216141224,
+      "step": 1378
+    },
+    {
+      "epoch": 0.6895,
+      "grad_norm": 1.3566957712173462,
+      "grad_norm_var": 0.1970092361753761,
+      "learning_rate": 2e-05,
+      "loss": 0.3982,
+      "loss/crossentropy": 2.546470046043396,
+      "loss/hidden": 0.13525390625,
+      "loss/logits": 0.026141813024878502,
+      "loss/reg": 0.02368505485355854,
+      "step": 1379
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.2005629539489746,
+      "grad_norm_var": 0.2005604341405349,
+      "learning_rate": 2e-05,
+      "loss": 0.4418,
+      "loss/crossentropy": 2.2552963495254517,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.03166076820343733,
+      "loss/reg": 0.023682620376348495,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6905,
+      "grad_norm": 1.9562398195266724,
+      "grad_norm_var": 0.20518861482912196,
+      "learning_rate": 2e-05,
+      "loss": 0.5098,
+      "loss/crossentropy": 2.2495819330215454,
+      "loss/hidden": 0.23095703125,
+      "loss/logits": 0.0420466773211956,
+      "loss/reg": 0.023680146783590317,
+      "step": 1381
+    },
+    {
+      "epoch": 0.691,
+      "grad_norm": 1.4204621315002441,
+      "grad_norm_var": 0.20735892064978187,
+      "learning_rate": 2e-05,
+      "loss": 0.4234,
+      "loss/crossentropy": 2.263777256011963,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.026978014037013054,
+      "loss/reg": 0.02367776446044445,
+      "step": 1382
+    },
+    {
+      "epoch": 0.6915,
+      "grad_norm": 2.1433403491973877,
+      "grad_norm_var": 0.22364496503635584,
+      "learning_rate": 2e-05,
+      "loss": 0.443,
+      "loss/crossentropy": 2.3404159545898438,
+      "loss/hidden": 0.183349609375,
+      "loss/logits": 0.0229120384901762,
+      "loss/reg": 0.023675233125686646,
+      "step": 1383
+    },
+    {
+      "epoch": 0.692,
+      "grad_norm": 1.4612318277359009,
+      "grad_norm_var": 0.22049831846723483,
+      "learning_rate": 2e-05,
+      "loss": 0.435,
+      "loss/crossentropy": 2.3787938356399536,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.028827445581555367,
+      "loss/reg": 0.023672768846154213,
+      "step": 1384
+    },
+    {
+      "epoch": 0.6925,
+      "grad_norm": 1.356377124786377,
+      "grad_norm_var": 0.20105030555048078,
+      "learning_rate": 2e-05,
+      "loss": 0.4449,
+      "loss/crossentropy": 2.473434090614319,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.0314208772033453,
+      "loss/reg": 0.02367040514945984,
+      "step": 1385
+    },
+    {
+      "epoch": 0.693,
+      "grad_norm": 1.1685643196105957,
+      "grad_norm_var": 0.21520606580289575,
+      "learning_rate": 2e-05,
+      "loss": 0.4541,
+      "loss/crossentropy": 2.138159155845642,
+      "loss/hidden": 0.185546875,
+      "loss/logits": 0.03185593895614147,
+      "loss/reg": 0.023668091744184494,
+      "step": 1386
+    },
+    {
+      "epoch": 0.6935,
+      "grad_norm": 1.520918846130371,
+      "grad_norm_var": 0.21482740549679208,
+      "learning_rate": 2e-05,
+      "loss": 0.3933,
+      "loss/crossentropy": 2.549217104911804,
+      "loss/hidden": 0.13720703125,
+      "loss/logits": 0.0194573812186718,
+      "loss/reg": 0.02366561070084572,
+      "step": 1387
+    },
+    {
+      "epoch": 0.694,
+      "grad_norm": 1.3178868293762207,
+      "grad_norm_var": 0.16970641122309568,
+      "learning_rate": 2e-05,
+      "loss": 0.4825,
+      "loss/crossentropy": 2.2156635522842407,
+      "loss/hidden": 0.20849609375,
+      "loss/logits": 0.03734987787902355,
+      "loss/reg": 0.02366327866911888,
+      "step": 1388
+    },
+    {
+      "epoch": 0.6945,
+      "grad_norm": 1.2805134057998657,
+      "grad_norm_var": 0.10434541468175282,
+      "learning_rate": 2e-05,
+      "loss": 0.4346,
+      "loss/crossentropy": 2.1902356147766113,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.028107551857829094,
+      "loss/reg": 0.023660695180296898,
+      "step": 1389
+    },
+    {
+      "epoch": 0.695,
+      "grad_norm": 1.4917412996292114,
+      "grad_norm_var": 0.1014830543172114,
+      "learning_rate": 2e-05,
+      "loss": 0.3961,
+      "loss/crossentropy": 2.46234929561615,
+      "loss/hidden": 0.1357421875,
+      "loss/logits": 0.023821561597287655,
+      "loss/reg": 0.023658404126763344,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6955,
+      "grad_norm": 1.2825431823730469,
+      "grad_norm_var": 0.09981558763132382,
+      "learning_rate": 2e-05,
+      "loss": 0.4386,
+      "loss/crossentropy": 2.4950649738311768,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.034576233476400375,
+      "loss/reg": 0.02365582063794136,
+      "step": 1391
+    },
+    {
+      "epoch": 0.696,
+      "grad_norm": 1.0627645254135132,
+      "grad_norm_var": 0.07953715480548619,
+      "learning_rate": 2e-05,
+      "loss": 0.385,
+      "loss/crossentropy": 2.324121117591858,
+      "loss/hidden": 0.12939453125,
+      "loss/logits": 0.019065213855355978,
+      "loss/reg": 0.0236531812697649,
+      "step": 1392
+    },
+    {
+      "epoch": 0.6965,
+      "grad_norm": 1.2363553047180176,
+      "grad_norm_var": 0.079156088219622,
+      "learning_rate": 2e-05,
+      "loss": 0.4086,
+      "loss/crossentropy": 2.692628264427185,
+      "loss/hidden": 0.146240234375,
+      "loss/logits": 0.02587859146296978,
+      "loss/reg": 0.023650668561458588,
+      "step": 1393
+    },
+    {
+      "epoch": 0.697,
+      "grad_norm": 1.3195236921310425,
+      "grad_norm_var": 0.07774326246347835,
+      "learning_rate": 2e-05,
+      "loss": 0.4268,
+      "loss/crossentropy": 2.2705594301223755,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.0320826917886734,
+      "loss/reg": 0.02364785596728325,
+      "step": 1394
+    },
+    {
+      "epoch": 0.6975,
+      "grad_norm": 1.3812922239303589,
+      "grad_norm_var": 0.07760303897853754,
+      "learning_rate": 2e-05,
+      "loss": 0.4493,
+      "loss/crossentropy": 2.4334908723831177,
+      "loss/hidden": 0.17138671875,
+      "loss/logits": 0.04147607646882534,
+      "loss/reg": 0.023645086213946342,
+      "step": 1395
+    },
+    {
+      "epoch": 0.698,
+      "grad_norm": 1.3648511171340942,
+      "grad_norm_var": 0.07464701664065293,
+      "learning_rate": 2e-05,
+      "loss": 0.4789,
+      "loss/crossentropy": 2.5334564447402954,
+      "loss/hidden": 0.201171875,
+      "loss/logits": 0.04130409471690655,
+      "loss/reg": 0.02364257536828518,
+      "step": 1396
+    },
+    {
+      "epoch": 0.6985,
+      "grad_norm": 1.8778526782989502,
+      "grad_norm_var": 0.0694556142458523,
+      "learning_rate": 2e-05,
+      "loss": 0.4686,
+      "loss/crossentropy": 2.253718376159668,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.033460862934589386,
+      "loss/reg": 0.023639997467398643,
+      "step": 1397
+    },
+    {
+      "epoch": 0.699,
+      "grad_norm": 1.0649257898330688,
+      "grad_norm_var": 0.07723400074944091,
+      "learning_rate": 2e-05,
+      "loss": 0.3847,
+      "loss/crossentropy": 2.403126835823059,
+      "loss/hidden": 0.128662109375,
+      "loss/logits": 0.019640752114355564,
+      "loss/reg": 0.0236373171210289,
+      "step": 1398
+    },
+    {
+      "epoch": 0.6995,
+      "grad_norm": 0.9858599901199341,
+      "grad_norm_var": 0.04558018881049334,
+      "learning_rate": 2e-05,
+      "loss": 0.3982,
+      "loss/crossentropy": 2.2231950759887695,
+      "loss/hidden": 0.138671875,
+      "loss/logits": 0.02315397746860981,
+      "loss/reg": 0.02363484352827072,
+      "step": 1399
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.3760892152786255,
+      "grad_norm_var": 0.04446770302423217,
+      "learning_rate": 2e-05,
+      "loss": 0.4886,
+      "loss/crossentropy": 2.3370308876037598,
+      "loss/hidden": 0.20654296875,
+      "loss/logits": 0.045770518481731415,
+      "loss/reg": 0.023632274940609932,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7005,
+      "grad_norm": 1.633719563484192,
+      "grad_norm_var": 0.050694139558335634,
+      "learning_rate": 2e-05,
+      "loss": 0.4001,
+      "loss/crossentropy": 2.4175291061401367,
+      "loss/hidden": 0.14208984375,
+      "loss/logits": 0.021711762994527817,
+      "loss/reg": 0.023629970848560333,
+      "step": 1401
+    },
+    {
+      "epoch": 0.701,
+      "grad_norm": 1.5971498489379883,
+      "grad_norm_var": 0.052644270149189036,
+      "learning_rate": 2e-05,
+      "loss": 0.4603,
+      "loss/crossentropy": 2.2261587381362915,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.032638235948979855,
+      "loss/reg": 0.023627305403351784,
+      "step": 1402
+    },
+    {
+      "epoch": 0.7015,
+      "grad_norm": 1.2570019960403442,
+      "grad_norm_var": 0.05140971627937218,
+      "learning_rate": 2e-05,
+      "loss": 0.3887,
+      "loss/crossentropy": 2.4443479776382446,
+      "loss/hidden": 0.12939453125,
+      "loss/logits": 0.0230065593495965,
+      "loss/reg": 0.023624898865818977,
+      "step": 1403
+    },
+    {
+      "epoch": 0.702,
+      "grad_norm": 1.5167655944824219,
+      "grad_norm_var": 0.05314610912009237,
+      "learning_rate": 2e-05,
+      "loss": 0.4748,
+      "loss/crossentropy": 2.462609887123108,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.037887776270508766,
+      "loss/reg": 0.02362249046564102,
+      "step": 1404
+    },
+    {
+      "epoch": 0.7025,
+      "grad_norm": 1.3424351215362549,
+      "grad_norm_var": 0.052745515833931715,
+      "learning_rate": 2e-05,
+      "loss": 0.4595,
+      "loss/crossentropy": 2.2617905139923096,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.03824649378657341,
+      "loss/reg": 0.02361990138888359,
+      "step": 1405
+    },
+    {
+      "epoch": 0.703,
+      "grad_norm": 1.2809338569641113,
+      "grad_norm_var": 0.05187429464569006,
+      "learning_rate": 2e-05,
+      "loss": 0.4088,
+      "loss/crossentropy": 2.3717641830444336,
+      "loss/hidden": 0.14306640625,
+      "loss/logits": 0.02956732176244259,
+      "loss/reg": 0.02361760474741459,
+      "step": 1406
+    },
+    {
+      "epoch": 0.7035,
+      "grad_norm": 1.7771258354187012,
+      "grad_norm_var": 0.06279631634374751,
+      "learning_rate": 2e-05,
+      "loss": 0.4556,
+      "loss/crossentropy": 2.469625473022461,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.03924528695642948,
+      "loss/reg": 0.02361505851149559,
+      "step": 1407
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 1.414624571800232,
+      "grad_norm_var": 0.05566685888704838,
+      "learning_rate": 2e-05,
+      "loss": 0.4175,
+      "loss/crossentropy": 2.7455949783325195,
+      "loss/hidden": 0.1552734375,
+      "loss/logits": 0.026056132279336452,
+      "loss/reg": 0.023612603545188904,
+      "step": 1408
+    },
+    {
+      "epoch": 0.7045,
+      "grad_norm": 1.3036192655563354,
+      "grad_norm_var": 0.054467126651640524,
+      "learning_rate": 2e-05,
+      "loss": 0.4093,
+      "loss/crossentropy": 2.5232421159744263,
+      "loss/hidden": 0.14501953125,
+      "loss/logits": 0.028133532963693142,
+      "loss/reg": 0.023610040545463562,
+      "step": 1409
+    },
+    {
+      "epoch": 0.705,
+      "grad_norm": 1.2797057628631592,
+      "grad_norm_var": 0.05502458620776493,
+      "learning_rate": 2e-05,
+      "loss": 0.4161,
+      "loss/crossentropy": 2.2470325231552124,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.027143074199557304,
+      "loss/reg": 0.023607581853866577,
+      "step": 1410
+    },
+    {
+      "epoch": 0.7055,
+      "grad_norm": 1.2794984579086304,
+      "grad_norm_var": 0.05597188755687809,
+      "learning_rate": 2e-05,
+      "loss": 0.4053,
+      "loss/crossentropy": 2.288419008255005,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.021314891055226326,
+      "loss/reg": 0.0236049797385931,
+      "step": 1411
+    },
+    {
+      "epoch": 0.706,
+      "grad_norm": 2.200571060180664,
+      "grad_norm_var": 0.0960401931657619,
+      "learning_rate": 2e-05,
+      "loss": 0.6026,
+      "loss/crossentropy": 2.12148916721344,
+      "loss/hidden": 0.30029296875,
+      "loss/logits": 0.06627136748284101,
+      "loss/reg": 0.02360256016254425,
+      "step": 1412
+    },
+    {
+      "epoch": 0.7065,
+      "grad_norm": 2.5475215911865234,
+      "grad_norm_var": 0.16233898418936382,
+      "learning_rate": 2e-05,
+      "loss": 0.4245,
+      "loss/crossentropy": 2.7688039541244507,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.02882098313421011,
+      "loss/reg": 0.02360014244914055,
+      "step": 1413
+    },
+    {
+      "epoch": 0.707,
+      "grad_norm": 1.3649111986160278,
+      "grad_norm_var": 0.15091742893504806,
+      "learning_rate": 2e-05,
+      "loss": 0.3992,
+      "loss/crossentropy": 2.421576499938965,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.024032247252762318,
+      "loss/reg": 0.023597724735736847,
+      "step": 1414
+    },
+    {
+      "epoch": 0.7075,
+      "grad_norm": 1.353563904762268,
+      "grad_norm_var": 0.13367826295360388,
+      "learning_rate": 2e-05,
+      "loss": 0.4107,
+      "loss/crossentropy": 2.5319186449050903,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.02581237070262432,
+      "loss/reg": 0.023595217615365982,
+      "step": 1415
+    },
+    {
+      "epoch": 0.708,
+      "grad_norm": 1.1511586904525757,
+      "grad_norm_var": 0.1415410624712725,
+      "learning_rate": 2e-05,
+      "loss": 0.3948,
+      "loss/crossentropy": 2.396964430809021,
+      "loss/hidden": 0.13525390625,
+      "loss/logits": 0.02357430011034012,
+      "loss/reg": 0.023592684417963028,
+      "step": 1416
+    },
+    {
+      "epoch": 0.7085,
+      "grad_norm": 1.4777796268463135,
+      "grad_norm_var": 0.1406708433314444,
+      "learning_rate": 2e-05,
+      "loss": 0.4242,
+      "loss/crossentropy": 2.25082266330719,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.03641578182578087,
+      "loss/reg": 0.02359013259410858,
+      "step": 1417
+    },
+    {
+      "epoch": 0.709,
+      "grad_norm": 1.4813765287399292,
+      "grad_norm_var": 0.14014819307293463,
+      "learning_rate": 2e-05,
+      "loss": 0.4335,
+      "loss/crossentropy": 2.433822274208069,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.027691357769072056,
+      "loss/reg": 0.02358764037489891,
+      "step": 1418
+    },
+    {
+      "epoch": 0.7095,
+      "grad_norm": 3.4135758876800537,
+      "grad_norm_var": 0.3604375985303822,
+      "learning_rate": 2e-05,
+      "loss": 0.5497,
+      "loss/crossentropy": 2.3843711614608765,
+      "loss/hidden": 0.2734375,
+      "loss/logits": 0.0403892807662487,
+      "loss/reg": 0.02358505129814148,
+      "step": 1419
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.213165521621704,
+      "grad_norm_var": 0.37104821359083356,
+      "learning_rate": 2e-05,
+      "loss": 0.3982,
+      "loss/crossentropy": 2.5343793630599976,
+      "loss/hidden": 0.13623046875,
+      "loss/logits": 0.02614509966224432,
+      "loss/reg": 0.023582441732287407,
+      "step": 1420
+    },
+    {
+      "epoch": 0.7105,
+      "grad_norm": 1.5525851249694824,
+      "grad_norm_var": 0.3660983405644202,
+      "learning_rate": 2e-05,
+      "loss": 0.4927,
+      "loss/crossentropy": 2.1852606534957886,
+      "loss/hidden": 0.21630859375,
+      "loss/logits": 0.04058670625090599,
+      "loss/reg": 0.023579921573400497,
+      "step": 1421
+    },
+    {
+      "epoch": 0.711,
+      "grad_norm": 1.3050885200500488,
+      "grad_norm_var": 0.36500823755956063,
+      "learning_rate": 2e-05,
+      "loss": 0.4211,
+      "loss/crossentropy": 2.417192816734314,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.02324726153165102,
+      "loss/reg": 0.023577282205224037,
+      "step": 1422
+    },
+    {
+      "epoch": 0.7115,
+      "grad_norm": 1.6903064250946045,
+      "grad_norm_var": 0.36380217397103765,
+      "learning_rate": 2e-05,
+      "loss": 0.4785,
+      "loss/crossentropy": 2.4316320419311523,
+      "loss/hidden": 0.208984375,
+      "loss/logits": 0.0337921567261219,
+      "loss/reg": 0.023574667051434517,
+      "step": 1423
+    },
+    {
+      "epoch": 0.712,
+      "grad_norm": 1.1675231456756592,
+      "grad_norm_var": 0.3746094012963262,
+      "learning_rate": 2e-05,
+      "loss": 0.4142,
+      "loss/crossentropy": 2.2177504301071167,
+      "loss/hidden": 0.1494140625,
+      "loss/logits": 0.02909334283322096,
+      "loss/reg": 0.023572128266096115,
+      "step": 1424
+    },
+    {
+      "epoch": 0.7125,
+      "grad_norm": 1.718462586402893,
+      "grad_norm_var": 0.3683427865372977,
+      "learning_rate": 2e-05,
+      "loss": 0.5107,
+      "loss/crossentropy": 2.356824278831482,
+      "loss/hidden": 0.2265625,
+      "loss/logits": 0.048446234315633774,
+      "loss/reg": 0.023569492623209953,
+      "step": 1425
+    },
+    {
+      "epoch": 0.713,
+      "grad_norm": 2.538555145263672,
+      "grad_norm_var": 0.4073657383302283,
+      "learning_rate": 2e-05,
+      "loss": 0.4659,
+      "loss/crossentropy": 2.4271206855773926,
+      "loss/hidden": 0.197265625,
+      "loss/logits": 0.03294919244945049,
+      "loss/reg": 0.023566963151097298,
+      "step": 1426
+    },
+    {
+      "epoch": 0.7135,
+      "grad_norm": 1.6605249643325806,
+      "grad_norm_var": 0.3942648744597231,
+      "learning_rate": 2e-05,
+      "loss": 0.4182,
+      "loss/crossentropy": 2.5462480783462524,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.029766596853733063,
+      "loss/reg": 0.023564644157886505,
+      "step": 1427
+    },
+    {
+      "epoch": 0.714,
+      "grad_norm": 1.6154025793075562,
+      "grad_norm_var": 0.3797151310753638,
+      "learning_rate": 2e-05,
+      "loss": 0.474,
+      "loss/crossentropy": 2.253910183906555,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.03623027540743351,
+      "loss/reg": 0.023562012240290642,
+      "step": 1428
+    },
+    {
+      "epoch": 0.7145,
+      "grad_norm": 2.050323963165283,
+      "grad_norm_var": 0.3391940969651538,
+      "learning_rate": 2e-05,
+      "loss": 0.4883,
+      "loss/crossentropy": 2.319291830062866,
+      "loss/hidden": 0.203125,
+      "loss/logits": 0.049589984118938446,
+      "loss/reg": 0.023559633642435074,
+      "step": 1429
+    },
+    {
+      "epoch": 0.715,
+      "grad_norm": 1.2968723773956299,
+      "grad_norm_var": 0.3422705946198695,
+      "learning_rate": 2e-05,
+      "loss": 0.4308,
+      "loss/crossentropy": 2.3565025329589844,
+      "loss/hidden": 0.166015625,
+      "loss/logits": 0.029243918135762215,
+      "loss/reg": 0.023557225242257118,
+      "step": 1430
+    },
+    {
+      "epoch": 0.7155,
+      "grad_norm": 1.465996265411377,
+      "grad_norm_var": 0.3383485792832592,
+      "learning_rate": 2e-05,
+      "loss": 0.4574,
+      "loss/crossentropy": 2.4091076850891113,
+      "loss/hidden": 0.18603515625,
+      "loss/logits": 0.03585449419915676,
+      "loss/reg": 0.023554889485239983,
+      "step": 1431
+    },
+    {
+      "epoch": 0.716,
+      "grad_norm": 1.6185139417648315,
+      "grad_norm_var": 0.31936229587676096,
+      "learning_rate": 2e-05,
+      "loss": 0.4477,
+      "loss/crossentropy": 1.988387107849121,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.027648674324154854,
+      "loss/reg": 0.02355222962796688,
+      "step": 1432
+    },
+    {
+      "epoch": 0.7165,
+      "grad_norm": 1.5127618312835693,
+      "grad_norm_var": 0.3183830238570701,
+      "learning_rate": 2e-05,
+      "loss": 0.4341,
+      "loss/crossentropy": 2.4324188232421875,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.03210682421922684,
+      "loss/reg": 0.02354956604540348,
+      "step": 1433
+    },
+    {
+      "epoch": 0.717,
+      "grad_norm": 1.5678179264068604,
+      "grad_norm_var": 0.3162575020195957,
+      "learning_rate": 2e-05,
+      "loss": 0.4676,
+      "loss/crossentropy": 2.4026317596435547,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.03290037252008915,
+      "loss/reg": 0.023546863347291946,
+      "step": 1434
+    },
+    {
+      "epoch": 0.7175,
+      "grad_norm": 1.6551094055175781,
+      "grad_norm_var": 0.11049876185942271,
+      "learning_rate": 2e-05,
+      "loss": 0.4312,
+      "loss/crossentropy": 2.351606845855713,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.030725182965397835,
+      "loss/reg": 0.02354429103434086,
+      "step": 1435
+    },
+    {
+      "epoch": 0.718,
+      "grad_norm": 1.3460294008255005,
+      "grad_norm_var": 0.10471709905145345,
+      "learning_rate": 2e-05,
+      "loss": 0.4204,
+      "loss/crossentropy": 2.403334140777588,
+      "loss/hidden": 0.15771484375,
+      "loss/logits": 0.02723412588238716,
+      "loss/reg": 0.023541752249002457,
+      "step": 1436
+    },
+    {
+      "epoch": 0.7185,
+      "grad_norm": 1.1729974746704102,
+      "grad_norm_var": 0.1166343133725992,
+      "learning_rate": 2e-05,
+      "loss": 0.4015,
+      "loss/crossentropy": 2.3932619094848633,
+      "loss/hidden": 0.14111328125,
+      "loss/logits": 0.02496551349759102,
+      "loss/reg": 0.02353922463953495,
+      "step": 1437
+    },
+    {
+      "epoch": 0.719,
+      "grad_norm": 1.7645087242126465,
+      "grad_norm_var": 0.11259440907935142,
+      "learning_rate": 2e-05,
+      "loss": 0.5111,
+      "loss/crossentropy": 2.400877833366394,
+      "loss/hidden": 0.23486328125,
+      "loss/logits": 0.0408332534134388,
+      "loss/reg": 0.02353672869503498,
+      "step": 1438
+    },
+    {
+      "epoch": 0.7195,
+      "grad_norm": 1.3634532690048218,
+      "grad_norm_var": 0.11599423217601744,
+      "learning_rate": 2e-05,
+      "loss": 0.4493,
+      "loss/crossentropy": 2.424346089363098,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.03430754691362381,
+      "loss/reg": 0.023534253239631653,
+      "step": 1439
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.3123286962509155,
+      "grad_norm_var": 0.10905751409417323,
+      "learning_rate": 2e-05,
+      "loss": 0.4399,
+      "loss/crossentropy": 2.2828234434127808,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.03468863479793072,
+      "loss/reg": 0.023531882092356682,
+      "step": 1440
+    },
+    {
+      "epoch": 0.7205,
+      "grad_norm": 3.1446728706359863,
+      "grad_norm_var": 0.2580052108983352,
+      "learning_rate": 2e-05,
+      "loss": 0.6787,
+      "loss/crossentropy": 1.8992632031440735,
+      "loss/hidden": 0.33447265625,
+      "loss/logits": 0.10889805294573307,
+      "loss/reg": 0.023529645055532455,
+      "step": 1441
+    },
+    {
+      "epoch": 0.721,
+      "grad_norm": 1.5229130983352661,
+      "grad_norm_var": 0.20795354022681156,
+      "learning_rate": 2e-05,
+      "loss": 0.4591,
+      "loss/crossentropy": 2.284720540046692,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.036282142624258995,
+      "loss/reg": 0.02352738194167614,
+      "step": 1442
+    },
+    {
+      "epoch": 0.7215,
+      "grad_norm": 1.6657564640045166,
+      "grad_norm_var": 0.20797696901367027,
+      "learning_rate": 2e-05,
+      "loss": 0.4496,
+      "loss/crossentropy": 2.7669016122817993,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.031232742592692375,
+      "loss/reg": 0.023524843156337738,
+      "step": 1443
+    },
+    {
+      "epoch": 0.722,
+      "grad_norm": 2.9521846771240234,
+      "grad_norm_var": 0.3171124021500166,
+      "learning_rate": 2e-05,
+      "loss": 0.5604,
+      "loss/crossentropy": 2.3520604372024536,
+      "loss/hidden": 0.2763671875,
+      "loss/logits": 0.04880333133041859,
+      "loss/reg": 0.023522403091192245,
+      "step": 1444
+    },
+    {
+      "epoch": 0.7225,
+      "grad_norm": 1.5790318250656128,
+      "grad_norm_var": 0.3098142392085926,
+      "learning_rate": 2e-05,
+      "loss": 0.4899,
+      "loss/crossentropy": 2.0901917219161987,
+      "loss/hidden": 0.21533203125,
+      "loss/logits": 0.039392558857798576,
+      "loss/reg": 0.023519445210695267,
+      "step": 1445
+    },
+    {
+      "epoch": 0.723,
+      "grad_norm": 1.3354227542877197,
+      "grad_norm_var": 0.3079182473817125,
+      "learning_rate": 2e-05,
+      "loss": 0.4233,
+      "loss/crossentropy": 2.3203498125076294,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.02744780946522951,
+      "loss/reg": 0.02351679466664791,
+      "step": 1446
+    },
+    {
+      "epoch": 0.7235,
+      "grad_norm": 1.3747113943099976,
+      "grad_norm_var": 0.3111194517989119,
+      "learning_rate": 2e-05,
+      "loss": 0.4114,
+      "loss/crossentropy": 2.5399714708328247,
+      "loss/hidden": 0.14990234375,
+      "loss/logits": 0.026368978433310986,
+      "loss/reg": 0.02351376973092556,
+      "step": 1447
+    },
+    {
+      "epoch": 0.724,
+      "grad_norm": 1.1484705209732056,
+      "grad_norm_var": 0.3288139086814922,
+      "learning_rate": 2e-05,
+      "loss": 0.4122,
+      "loss/crossentropy": 2.4500149488449097,
+      "loss/hidden": 0.15087890625,
+      "loss/logits": 0.026164425536990166,
+      "loss/reg": 0.023511258885264397,
+      "step": 1448
+    },
+    {
+      "epoch": 0.7245,
+      "grad_norm": 1.3708717823028564,
+      "grad_norm_var": 0.3326900567825229,
+      "learning_rate": 2e-05,
+      "loss": 0.3965,
+      "loss/crossentropy": 2.305969476699829,
+      "loss/hidden": 0.138671875,
+      "loss/logits": 0.022724819369614124,
+      "loss/reg": 0.02350870706140995,
+      "step": 1449
+    },
+    {
+      "epoch": 0.725,
+      "grad_norm": 2.349400520324707,
+      "grad_norm_var": 0.3631110489319557,
+      "learning_rate": 2e-05,
+      "loss": 0.443,
+      "loss/crossentropy": 2.395747423171997,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.028218965977430344,
+      "loss/reg": 0.023506123572587967,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7255,
+      "grad_norm": 1.7106391191482544,
+      "grad_norm_var": 0.3630371761170198,
+      "learning_rate": 2e-05,
+      "loss": 0.4614,
+      "loss/crossentropy": 2.6804983615875244,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.03596752695739269,
+      "loss/reg": 0.02350357361137867,
+      "step": 1451
+    },
+    {
+      "epoch": 0.726,
+      "grad_norm": 2.972860813140869,
+      "grad_norm_var": 0.4528425190093097,
+      "learning_rate": 2e-05,
+      "loss": 0.4555,
+      "loss/crossentropy": 2.1960572004318237,
+      "loss/hidden": 0.181396484375,
+      "loss/logits": 0.0390651635825634,
+      "loss/reg": 0.023501023650169373,
+      "step": 1452
+    },
+    {
+      "epoch": 0.7265,
+      "grad_norm": 1.1931060552597046,
+      "grad_norm_var": 0.45119672384324666,
+      "learning_rate": 2e-05,
+      "loss": 0.409,
+      "loss/crossentropy": 2.4346343278884888,
+      "loss/hidden": 0.14501953125,
+      "loss/logits": 0.02896373998373747,
+      "loss/reg": 0.023498453199863434,
+      "step": 1453
+    },
+    {
+      "epoch": 0.727,
+      "grad_norm": 1.793229579925537,
+      "grad_norm_var": 0.45112186135817844,
+      "learning_rate": 2e-05,
+      "loss": 0.4728,
+      "loss/crossentropy": 2.494977831840515,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.037164075300097466,
+      "loss/reg": 0.023496052250266075,
+      "step": 1454
+    },
+    {
+      "epoch": 0.7275,
+      "grad_norm": 1.9371393918991089,
+      "grad_norm_var": 0.4383518223702936,
+      "learning_rate": 2e-05,
+      "loss": 0.5224,
+      "loss/crossentropy": 2.0521376729011536,
+      "loss/hidden": 0.2529296875,
+      "loss/logits": 0.034543922170996666,
+      "loss/reg": 0.02349347248673439,
+      "step": 1455
+    },
+    {
+      "epoch": 0.728,
+      "grad_norm": 1.477908968925476,
+      "grad_norm_var": 0.4285223862932327,
+      "learning_rate": 2e-05,
+      "loss": 0.4217,
+      "loss/crossentropy": 2.2566416263580322,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.029540160670876503,
+      "loss/reg": 0.02349095791578293,
+      "step": 1456
+    },
+    {
+      "epoch": 0.7285,
+      "grad_norm": 1.43665611743927,
+      "grad_norm_var": 0.3149916450445355,
+      "learning_rate": 2e-05,
+      "loss": 0.435,
+      "loss/crossentropy": 2.3300145864486694,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.03365709260106087,
+      "loss/reg": 0.023488519713282585,
+      "step": 1457
+    },
+    {
+      "epoch": 0.729,
+      "grad_norm": 2.223034381866455,
+      "grad_norm_var": 0.32547722216857267,
+      "learning_rate": 2e-05,
+      "loss": 0.5049,
+      "loss/crossentropy": 2.456981062889099,
+      "loss/hidden": 0.22509765625,
+      "loss/logits": 0.04493347555398941,
+      "loss/reg": 0.023486167192459106,
+      "step": 1458
+    },
+    {
+      "epoch": 0.7295,
+      "grad_norm": 1.679583191871643,
+      "grad_norm_var": 0.3252738977751884,
+      "learning_rate": 2e-05,
+      "loss": 0.4379,
+      "loss/crossentropy": 2.432957887649536,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.03366055339574814,
+      "loss/reg": 0.023483600467443466,
+      "step": 1459
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.673349380493164,
+      "grad_norm_var": 0.22819496323031288,
+      "learning_rate": 2e-05,
+      "loss": 0.492,
+      "loss/crossentropy": 2.410443902015686,
+      "loss/hidden": 0.2109375,
+      "loss/logits": 0.046233994886279106,
+      "loss/reg": 0.023481376469135284,
+      "step": 1460
+    },
+    {
+      "epoch": 0.7305,
+      "grad_norm": 1.5115046501159668,
+      "grad_norm_var": 0.22960029400701293,
+      "learning_rate": 2e-05,
+      "loss": 0.4361,
+      "loss/crossentropy": 2.6036850214004517,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.030860383063554764,
+      "loss/reg": 0.023478906601667404,
+      "step": 1461
+    },
+    {
+      "epoch": 0.731,
+      "grad_norm": 1.3442504405975342,
+      "grad_norm_var": 0.22917693899710986,
+      "learning_rate": 2e-05,
+      "loss": 0.4744,
+      "loss/crossentropy": 2.410821318626404,
+      "loss/hidden": 0.19384765625,
+      "loss/logits": 0.04574625752866268,
+      "loss/reg": 0.02347634732723236,
+      "step": 1462
+    },
+    {
+      "epoch": 0.7315,
+      "grad_norm": 1.2325595617294312,
+      "grad_norm_var": 0.23660137846549864,
+      "learning_rate": 2e-05,
+      "loss": 0.4353,
+      "loss/crossentropy": 2.428195834159851,
+      "loss/hidden": 0.1669921875,
+      "loss/logits": 0.03353757597506046,
+      "loss/reg": 0.023473726585507393,
+      "step": 1463
+    },
+    {
+      "epoch": 0.732,
+      "grad_norm": 1.4386786222457886,
+      "grad_norm_var": 0.22087578651664874,
+      "learning_rate": 2e-05,
+      "loss": 0.4601,
+      "loss/crossentropy": 2.128316283226013,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.03346416354179382,
+      "loss/reg": 0.023471109569072723,
+      "step": 1464
+    },
+    {
+      "epoch": 0.7325,
+      "grad_norm": 1.5255026817321777,
+      "grad_norm_var": 0.2153978679484633,
+      "learning_rate": 2e-05,
+      "loss": 0.426,
+      "loss/crossentropy": 2.4801331758499146,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.029225386679172516,
+      "loss/reg": 0.023468641564249992,
+      "step": 1465
+    },
+    {
+      "epoch": 0.733,
+      "grad_norm": 1.558826208114624,
+      "grad_norm_var": 0.18798010841390062,
+      "learning_rate": 2e-05,
+      "loss": 0.4271,
+      "loss/crossentropy": 2.345631241798401,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.03320986311882734,
+      "loss/reg": 0.02346622571349144,
+      "step": 1466
+    },
+    {
+      "epoch": 0.7335,
+      "grad_norm": 1.4616813659667969,
+      "grad_norm_var": 0.1904816907030834,
+      "learning_rate": 2e-05,
+      "loss": 0.4534,
+      "loss/crossentropy": 2.260239005088806,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.03611057437956333,
+      "loss/reg": 0.023463619872927666,
+      "step": 1467
+    },
+    {
+      "epoch": 0.734,
+      "grad_norm": 1.2021178007125854,
+      "grad_norm_var": 0.07500963522951735,
+      "learning_rate": 2e-05,
+      "loss": 0.441,
+      "loss/crossentropy": 2.4786767959594727,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.03600460663437843,
+      "loss/reg": 0.023461153730750084,
+      "step": 1468
+    },
+    {
+      "epoch": 0.7345,
+      "grad_norm": 1.321462869644165,
+      "grad_norm_var": 0.07004997562031713,
+      "learning_rate": 2e-05,
+      "loss": 0.4248,
+      "loss/crossentropy": 2.4473639726638794,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.029547326266765594,
+      "loss/reg": 0.023458639159798622,
+      "step": 1469
+    },
+    {
+      "epoch": 0.735,
+      "grad_norm": 1.302802324295044,
+      "grad_norm_var": 0.06924901126378126,
+      "learning_rate": 2e-05,
+      "loss": 0.4392,
+      "loss/crossentropy": 2.320843458175659,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.03376789018511772,
+      "loss/reg": 0.02345600537955761,
+      "step": 1470
+    },
+    {
+      "epoch": 0.7355,
+      "grad_norm": 1.744510293006897,
+      "grad_norm_var": 0.06086570608285336,
+      "learning_rate": 2e-05,
+      "loss": 0.4287,
+      "loss/crossentropy": 2.4008067846298218,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.03158361464738846,
+      "loss/reg": 0.02345338650047779,
+      "step": 1471
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 1.1985650062561035,
+      "grad_norm_var": 0.06687850358083645,
+      "learning_rate": 2e-05,
+      "loss": 0.4133,
+      "loss/crossentropy": 2.5214314460754395,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.03085363283753395,
+      "loss/reg": 0.023450734093785286,
+      "step": 1472
+    },
+    {
+      "epoch": 0.7365,
+      "grad_norm": 2.1167149543762207,
+      "grad_norm_var": 0.090861085965173,
+      "learning_rate": 2e-05,
+      "loss": 0.4895,
+      "loss/crossentropy": 1.9878064393997192,
+      "loss/hidden": 0.22265625,
+      "loss/logits": 0.03239255491644144,
+      "loss/reg": 0.023448146879673004,
+      "step": 1473
+    },
+    {
+      "epoch": 0.737,
+      "grad_norm": 1.5386013984680176,
+      "grad_norm_var": 0.057208890733344654,
+      "learning_rate": 2e-05,
+      "loss": 0.4493,
+      "loss/crossentropy": 2.1566672325134277,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.03220840450376272,
+      "loss/reg": 0.0234454907476902,
+      "step": 1474
+    },
+    {
+      "epoch": 0.7375,
+      "grad_norm": 1.3006364107131958,
+      "grad_norm_var": 0.05663883015899618,
+      "learning_rate": 2e-05,
+      "loss": 0.4451,
+      "loss/crossentropy": 2.2811367511749268,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.03587420843541622,
+      "loss/reg": 0.02344280481338501,
+      "step": 1475
+    },
+    {
+      "epoch": 0.738,
+      "grad_norm": 2.268388271331787,
+      "grad_norm_var": 0.09514090985834489,
+      "learning_rate": 2e-05,
+      "loss": 0.4557,
+      "loss/crossentropy": 2.2090927362442017,
+      "loss/hidden": 0.18994140625,
+      "loss/logits": 0.03136050421744585,
+      "loss/reg": 0.02344009466469288,
+      "step": 1476
+    },
+    {
+      "epoch": 0.7385,
+      "grad_norm": 1.514344334602356,
+      "grad_norm_var": 0.09514418896451105,
+      "learning_rate": 2e-05,
+      "loss": 0.4319,
+      "loss/crossentropy": 2.2778546810150146,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.028109371662139893,
+      "loss/reg": 0.023437298834323883,
+      "step": 1477
+    },
+    {
+      "epoch": 0.739,
+      "grad_norm": 1.1976886987686157,
+      "grad_norm_var": 0.09961535847471854,
+      "learning_rate": 2e-05,
+      "loss": 0.4028,
+      "loss/crossentropy": 2.5273643732070923,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.02050770726054907,
+      "loss/reg": 0.02343466505408287,
+      "step": 1478
+    },
+    {
+      "epoch": 0.7395,
+      "grad_norm": 1.8187288045883179,
+      "grad_norm_var": 0.10056368997682572,
+      "learning_rate": 2e-05,
+      "loss": 0.4755,
+      "loss/crossentropy": 2.3583481311798096,
+      "loss/hidden": 0.21044921875,
+      "loss/logits": 0.030701249837875366,
+      "loss/reg": 0.023432079702615738,
+      "step": 1479
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 2.092109441757202,
+      "grad_norm_var": 0.11913386201947915,
+      "learning_rate": 2e-05,
+      "loss": 0.57,
+      "loss/crossentropy": 2.2834445238113403,
+      "loss/hidden": 0.27978515625,
+      "loss/logits": 0.05595431476831436,
+      "loss/reg": 0.023429367691278458,
+      "step": 1480
+    },
+    {
+      "epoch": 0.7405,
+      "grad_norm": 1.6731066703796387,
+      "grad_norm_var": 0.11956731584117103,
+      "learning_rate": 2e-05,
+      "loss": 0.47,
+      "loss/crossentropy": 2.29840624332428,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.03799319267272949,
+      "loss/reg": 0.023426661267876625,
+      "step": 1481
+    },
+    {
+      "epoch": 0.741,
+      "grad_norm": 1.7056869268417358,
+      "grad_norm_var": 0.12046364336034585,
+      "learning_rate": 2e-05,
+      "loss": 0.4905,
+      "loss/crossentropy": 2.46663236618042,
+      "loss/hidden": 0.2119140625,
+      "loss/logits": 0.04434940032660961,
+      "loss/reg": 0.02342418022453785,
+      "step": 1482
+    },
+    {
+      "epoch": 0.7415,
+      "grad_norm": 1.5112969875335693,
+      "grad_norm_var": 0.11976152998951234,
+      "learning_rate": 2e-05,
+      "loss": 0.4492,
+      "loss/crossentropy": 2.5104438066482544,
+      "loss/hidden": 0.181640625,
+      "loss/logits": 0.03338887542486191,
+      "loss/reg": 0.023421762511134148,
+      "step": 1483
+    },
+    {
+      "epoch": 0.742,
+      "grad_norm": 2.16302227973938,
+      "grad_norm_var": 0.1272398268385037,
+      "learning_rate": 2e-05,
+      "loss": 0.4431,
+      "loss/crossentropy": 2.4524015188217163,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.03798994794487953,
+      "loss/reg": 0.023419423028826714,
+      "step": 1484
+    },
+    {
+      "epoch": 0.7425,
+      "grad_norm": 2.6009202003479004,
+      "grad_norm_var": 0.1727849916739044,
+      "learning_rate": 2e-05,
+      "loss": 0.4471,
+      "loss/crossentropy": 2.459054470062256,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.032748810946941376,
+      "loss/reg": 0.023416871204972267,
+      "step": 1485
+    },
+    {
+      "epoch": 0.743,
+      "grad_norm": 1.2313926219940186,
+      "grad_norm_var": 0.177211118899447,
+      "learning_rate": 2e-05,
+      "loss": 0.4193,
+      "loss/crossentropy": 2.4845768213272095,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.02941302303224802,
+      "loss/reg": 0.023414650931954384,
+      "step": 1486
+    },
+    {
+      "epoch": 0.7435,
+      "grad_norm": 1.3175305128097534,
+      "grad_norm_var": 0.18776426918117484,
+      "learning_rate": 2e-05,
+      "loss": 0.4491,
+      "loss/crossentropy": 2.5155017375946045,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.03185183368623257,
+      "loss/reg": 0.023412445560097694,
+      "step": 1487
+    },
+    {
+      "epoch": 0.744,
+      "grad_norm": 1.3121087551116943,
+      "grad_norm_var": 0.18093261119129972,
+      "learning_rate": 2e-05,
+      "loss": 0.4527,
+      "loss/crossentropy": 2.266068696975708,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.03500186279416084,
+      "loss/reg": 0.02340994030237198,
+      "step": 1488
+    },
+    {
+      "epoch": 0.7445,
+      "grad_norm": 2.539462089538574,
+      "grad_norm_var": 0.2150192957888348,
+      "learning_rate": 2e-05,
+      "loss": 0.5812,
+      "loss/crossentropy": 2.3054516315460205,
+      "loss/hidden": 0.29296875,
+      "loss/logits": 0.05416359752416611,
+      "loss/reg": 0.023407652974128723,
+      "step": 1489
+    },
+    {
+      "epoch": 0.745,
+      "grad_norm": 1.8638911247253418,
+      "grad_norm_var": 0.21304660583959933,
+      "learning_rate": 2e-05,
+      "loss": 0.4883,
+      "loss/crossentropy": 2.217733383178711,
+      "loss/hidden": 0.2177734375,
+      "loss/logits": 0.03648427501320839,
+      "loss/reg": 0.023405244573950768,
+      "step": 1490
+    },
+    {
+      "epoch": 0.7455,
+      "grad_norm": 1.4341673851013184,
+      "grad_norm_var": 0.2060377327406276,
+      "learning_rate": 2e-05,
+      "loss": 0.4652,
+      "loss/crossentropy": 2.259947180747986,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.03487166576087475,
+      "loss/reg": 0.02340288832783699,
+      "step": 1491
+    },
+    {
+      "epoch": 0.746,
+      "grad_norm": 1.286834478378296,
+      "grad_norm_var": 0.20040431914197107,
+      "learning_rate": 2e-05,
+      "loss": 0.4281,
+      "loss/crossentropy": 2.373807907104492,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.03151876013725996,
+      "loss/reg": 0.02340046875178814,
+      "step": 1492
+    },
+    {
+      "epoch": 0.7465,
+      "grad_norm": 2.74072527885437,
+      "grad_norm_var": 0.263410407901218,
+      "learning_rate": 2e-05,
+      "loss": 0.5302,
+      "loss/crossentropy": 2.263616144657135,
+      "loss/hidden": 0.2568359375,
+      "loss/logits": 0.039356544613838196,
+      "loss/reg": 0.02339823544025421,
+      "step": 1493
+    },
+    {
+      "epoch": 0.747,
+      "grad_norm": 1.9128124713897705,
+      "grad_norm_var": 0.23979806512014498,
+      "learning_rate": 2e-05,
+      "loss": 0.5741,
+      "loss/crossentropy": 2.0934388637542725,
+      "loss/hidden": 0.2841796875,
+      "loss/logits": 0.055920008569955826,
+      "loss/reg": 0.023396024480462074,
+      "step": 1494
+    },
+    {
+      "epoch": 0.7475,
+      "grad_norm": 1.9756958484649658,
+      "grad_norm_var": 0.24120176602785268,
+      "learning_rate": 2e-05,
+      "loss": 0.4228,
+      "loss/crossentropy": 2.3994463682174683,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.028181973844766617,
+      "loss/reg": 0.02339351177215576,
+      "step": 1495
+    },
+    {
+      "epoch": 0.748,
+      "grad_norm": 1.7724146842956543,
+      "grad_norm_var": 0.23663205632003587,
+      "learning_rate": 2e-05,
+      "loss": 0.461,
+      "loss/crossentropy": 2.1939653158187866,
+      "loss/hidden": 0.18994140625,
+      "loss/logits": 0.03715855535119772,
+      "loss/reg": 0.023391004651784897,
+      "step": 1496
+    },
+    {
+      "epoch": 0.7485,
+      "grad_norm": 1.5231564044952393,
+      "grad_norm_var": 0.24087563457875186,
+      "learning_rate": 2e-05,
+      "loss": 0.4467,
+      "loss/crossentropy": 2.418076753616333,
+      "loss/hidden": 0.17919921875,
+      "loss/logits": 0.03366350382566452,
+      "loss/reg": 0.02338848076760769,
+      "step": 1497
+    },
+    {
+      "epoch": 0.749,
+      "grad_norm": 1.3560765981674194,
+      "grad_norm_var": 0.2531766876431429,
+      "learning_rate": 2e-05,
+      "loss": 0.4376,
+      "loss/crossentropy": 2.092953681945801,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.035764566622674465,
+      "loss/reg": 0.023386115208268166,
+      "step": 1498
+    },
+    {
+      "epoch": 0.7495,
+      "grad_norm": 2.6173150539398193,
+      "grad_norm_var": 0.28943914508452623,
+      "learning_rate": 2e-05,
+      "loss": 0.5938,
+      "loss/crossentropy": 2.3732458353042603,
+      "loss/hidden": 0.291015625,
+      "loss/logits": 0.06896837241947651,
+      "loss/reg": 0.023383593186736107,
+      "step": 1499
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.2990541458129883,
+      "grad_norm_var": 0.2962192790031487,
+      "learning_rate": 2e-05,
+      "loss": 0.5086,
+      "loss/crossentropy": 2.3469722270965576,
+      "loss/hidden": 0.24072265625,
+      "loss/logits": 0.03404225967824459,
+      "loss/reg": 0.02338109351694584,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7505,
+      "grad_norm": 6.053563594818115,
+      "grad_norm_var": 1.3816725595266346,
+      "learning_rate": 2e-05,
+      "loss": 0.8284,
+      "loss/crossentropy": 2.2309868335723877,
+      "loss/hidden": 0.4892578125,
+      "loss/logits": 0.1053722184151411,
+      "loss/reg": 0.023378517478704453,
+      "step": 1501
+    },
+    {
+      "epoch": 0.751,
+      "grad_norm": 1.4381011724472046,
+      "grad_norm_var": 1.361029946092843,
+      "learning_rate": 2e-05,
+      "loss": 0.4233,
+      "loss/crossentropy": 2.3353075981140137,
+      "loss/hidden": 0.15869140625,
+      "loss/logits": 0.030879972502589226,
+      "loss/reg": 0.023375999182462692,
+      "step": 1502
+    },
+    {
+      "epoch": 0.7515,
+      "grad_norm": 1.7041223049163818,
+      "grad_norm_var": 1.330544016606859,
+      "learning_rate": 2e-05,
+      "loss": 0.4519,
+      "loss/crossentropy": 2.3510212898254395,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.035089364275336266,
+      "loss/reg": 0.023373527452349663,
+      "step": 1503
+    },
+    {
+      "epoch": 0.752,
+      "grad_norm": 1.176741600036621,
+      "grad_norm_var": 1.346168787370407,
+      "learning_rate": 2e-05,
+      "loss": 0.4271,
+      "loss/crossentropy": 2.301971435546875,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.03127031493932009,
+      "loss/reg": 0.023370975628495216,
+      "step": 1504
+    },
+    {
+      "epoch": 0.7525,
+      "grad_norm": 1.3868812322616577,
+      "grad_norm_var": 1.362565183966303,
+      "learning_rate": 2e-05,
+      "loss": 0.4299,
+      "loss/crossentropy": 2.300473690032959,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.031166426837444305,
+      "loss/reg": 0.023368434980511665,
+      "step": 1505
+    },
+    {
+      "epoch": 0.753,
+      "grad_norm": 1.5717381238937378,
+      "grad_norm_var": 1.3745201891776084,
+      "learning_rate": 2e-05,
+      "loss": 0.434,
+      "loss/crossentropy": 2.2145345211029053,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.03533552121371031,
+      "loss/reg": 0.02336590550839901,
+      "step": 1506
+    },
+    {
+      "epoch": 0.7535,
+      "grad_norm": 1.5625638961791992,
+      "grad_norm_var": 1.3655969008810318,
+      "learning_rate": 2e-05,
+      "loss": 0.4732,
+      "loss/crossentropy": 2.4806735515594482,
+      "loss/hidden": 0.19384765625,
+      "loss/logits": 0.045676751993596554,
+      "loss/reg": 0.02336341328918934,
+      "step": 1507
+    },
+    {
+      "epoch": 0.754,
+      "grad_norm": 1.5724704265594482,
+      "grad_norm_var": 1.3426361132111952,
+      "learning_rate": 2e-05,
+      "loss": 0.458,
+      "loss/crossentropy": 2.5147154331207275,
+      "loss/hidden": 0.189453125,
+      "loss/logits": 0.03498086519539356,
+      "loss/reg": 0.02336088940501213,
+      "step": 1508
+    },
+    {
+      "epoch": 0.7545,
+      "grad_norm": 1.2432793378829956,
+      "grad_norm_var": 1.3431686166198147,
+      "learning_rate": 2e-05,
+      "loss": 0.3892,
+      "loss/crossentropy": 2.441771388053894,
+      "loss/hidden": 0.13134765625,
+      "loss/logits": 0.024279465898871422,
+      "loss/reg": 0.023358337581157684,
+      "step": 1509
+    },
+    {
+      "epoch": 0.755,
+      "grad_norm": 1.1907211542129517,
+      "grad_norm_var": 1.3791328093235484,
+      "learning_rate": 2e-05,
+      "loss": 0.4286,
+      "loss/crossentropy": 2.4157201051712036,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.029976122081279755,
+      "loss/reg": 0.023355863988399506,
+      "step": 1510
+    },
+    {
+      "epoch": 0.7555,
+      "grad_norm": 1.7555755376815796,
+      "grad_norm_var": 1.3800200121858432,
+      "learning_rate": 2e-05,
+      "loss": 0.4285,
+      "loss/crossentropy": 2.5669732093811035,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.032341357320547104,
+      "loss/reg": 0.02335333824157715,
+      "step": 1511
+    },
+    {
+      "epoch": 0.756,
+      "grad_norm": 1.4463238716125488,
+      "grad_norm_var": 1.3917343393376849,
+      "learning_rate": 2e-05,
+      "loss": 0.4156,
+      "loss/crossentropy": 2.3183934688568115,
+      "loss/hidden": 0.1494140625,
+      "loss/logits": 0.032720635645091534,
+      "loss/reg": 0.02335066720843315,
+      "step": 1512
+    },
+    {
+      "epoch": 0.7565,
+      "grad_norm": 1.8817647695541382,
+      "grad_norm_var": 1.3832543893532858,
+      "learning_rate": 2e-05,
+      "loss": 0.4843,
+      "loss/crossentropy": 2.045651853084564,
+      "loss/hidden": 0.21044921875,
+      "loss/logits": 0.040373530238866806,
+      "loss/reg": 0.023348016664385796,
+      "step": 1513
+    },
+    {
+      "epoch": 0.757,
+      "grad_norm": 2.0054848194122314,
+      "grad_norm_var": 1.3632931739013794,
+      "learning_rate": 2e-05,
+      "loss": 0.6077,
+      "loss/crossentropy": 2.3150511980056763,
+      "loss/hidden": 0.30810546875,
+      "loss/logits": 0.066120695322752,
+      "loss/reg": 0.02334539033472538,
+      "step": 1514
+    },
+    {
+      "epoch": 0.7575,
+      "grad_norm": 1.4316192865371704,
+      "grad_norm_var": 1.3427547339581412,
+      "learning_rate": 2e-05,
+      "loss": 0.4183,
+      "loss/crossentropy": 2.3082213401794434,
+      "loss/hidden": 0.1552734375,
+      "loss/logits": 0.02960424032062292,
+      "loss/reg": 0.023342687636613846,
+      "step": 1515
+    },
+    {
+      "epoch": 0.758,
+      "grad_norm": 1.4792301654815674,
+      "grad_norm_var": 1.3364955062616057,
+      "learning_rate": 2e-05,
+      "loss": 0.4542,
+      "loss/crossentropy": 2.229594111442566,
+      "loss/hidden": 0.18701171875,
+      "loss/logits": 0.03382623475044966,
+      "loss/reg": 0.023340150713920593,
+      "step": 1516
+    },
+    {
+      "epoch": 0.7585,
+      "grad_norm": 1.378159523010254,
+      "grad_norm_var": 0.05499430187053349,
+      "learning_rate": 2e-05,
+      "loss": 0.4331,
+      "loss/crossentropy": 2.3700714111328125,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.035162342712283134,
+      "loss/reg": 0.02333764359354973,
+      "step": 1517
+    },
+    {
+      "epoch": 0.759,
+      "grad_norm": 1.4192622900009155,
+      "grad_norm_var": 0.05520725190068181,
+      "learning_rate": 2e-05,
+      "loss": 0.4744,
+      "loss/crossentropy": 2.1727020740509033,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.04138432815670967,
+      "loss/reg": 0.023334944620728493,
+      "step": 1518
+    },
+    {
+      "epoch": 0.7595,
+      "grad_norm": 1.5111662149429321,
+      "grad_norm_var": 0.052613845086676686,
+      "learning_rate": 2e-05,
+      "loss": 0.4544,
+      "loss/crossentropy": 2.2911019325256348,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.035999225452542305,
+      "loss/reg": 0.02333231456577778,
+      "step": 1519
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.5904415845870972,
+      "grad_norm_var": 0.04543488593400274,
+      "learning_rate": 2e-05,
+      "loss": 0.411,
+      "loss/crossentropy": 2.3194239139556885,
+      "loss/hidden": 0.15380859375,
+      "loss/logits": 0.023918326012790203,
+      "loss/reg": 0.023329300805926323,
+      "step": 1520
+    },
+    {
+      "epoch": 0.7605,
+      "grad_norm": 1.1604093313217163,
+      "grad_norm_var": 0.0528615068401732,
+      "learning_rate": 2e-05,
+      "loss": 0.4225,
+      "loss/crossentropy": 2.206283152103424,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.03008684329688549,
+      "loss/reg": 0.023326555266976357,
+      "step": 1521
+    },
+    {
+      "epoch": 0.761,
+      "grad_norm": 1.8183667659759521,
+      "grad_norm_var": 0.05861065574009997,
+      "learning_rate": 2e-05,
+      "loss": 0.4382,
+      "loss/crossentropy": 2.4522966146469116,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.02915840595960617,
+      "loss/reg": 0.023324020206928253,
+      "step": 1522
+    },
+    {
+      "epoch": 0.7615,
+      "grad_norm": 1.9318912029266357,
+      "grad_norm_var": 0.06884144736975527,
+      "learning_rate": 2e-05,
+      "loss": 0.4305,
+      "loss/crossentropy": 2.4032152891159058,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.03465164825320244,
+      "loss/reg": 0.023321056738495827,
+      "step": 1523
+    },
+    {
+      "epoch": 0.762,
+      "grad_norm": 1.3856819868087769,
+      "grad_norm_var": 0.07048760261173755,
+      "learning_rate": 2e-05,
+      "loss": 0.4574,
+      "loss/crossentropy": 2.4888235330581665,
+      "loss/hidden": 0.1904296875,
+      "loss/logits": 0.03376224543899298,
+      "loss/reg": 0.023318205028772354,
+      "step": 1524
+    },
+    {
+      "epoch": 0.7625,
+      "grad_norm": 2.0698816776275635,
+      "grad_norm_var": 0.08056257023113833,
+      "learning_rate": 2e-05,
+      "loss": 0.4702,
+      "loss/crossentropy": 2.4298810958862305,
+      "loss/hidden": 0.19677734375,
+      "loss/logits": 0.04024036321789026,
+      "loss/reg": 0.02331569977104664,
+      "step": 1525
+    },
+    {
+      "epoch": 0.763,
+      "grad_norm": 1.7094788551330566,
+      "grad_norm_var": 0.06969563841946425,
+      "learning_rate": 2e-05,
+      "loss": 0.4486,
+      "loss/crossentropy": 2.4382940530776978,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.03088864777237177,
+      "loss/reg": 0.023313157260417938,
+      "step": 1526
+    },
+    {
+      "epoch": 0.7635,
+      "grad_norm": 1.7802170515060425,
+      "grad_norm_var": 0.07016778667789912,
+      "learning_rate": 2e-05,
+      "loss": 0.4732,
+      "loss/crossentropy": 2.4365394115448,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.039911434054374695,
+      "loss/reg": 0.023310648277401924,
+      "step": 1527
+    },
+    {
+      "epoch": 0.764,
+      "grad_norm": 2.6927785873413086,
+      "grad_norm_var": 0.13758242415195784,
+      "learning_rate": 2e-05,
+      "loss": 0.645,
+      "loss/crossentropy": 2.0314077138900757,
+      "loss/hidden": 0.35546875,
+      "loss/logits": 0.056443119421601295,
+      "loss/reg": 0.02330797351896763,
+      "step": 1528
+    },
+    {
+      "epoch": 0.7645,
+      "grad_norm": 2.23351788520813,
+      "grad_norm_var": 0.15370605581981486,
+      "learning_rate": 2e-05,
+      "loss": 0.4534,
+      "loss/crossentropy": 2.5266857147216797,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.03136393055319786,
+      "loss/reg": 0.023305490612983704,
+      "step": 1529
+    },
+    {
+      "epoch": 0.765,
+      "grad_norm": 1.495396375656128,
+      "grad_norm_var": 0.1508814132006193,
+      "learning_rate": 2e-05,
+      "loss": 0.4171,
+      "loss/crossentropy": 2.4519113302230835,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.031247646547853947,
+      "loss/reg": 0.02330303005874157,
+      "step": 1530
+    },
+    {
+      "epoch": 0.7655,
+      "grad_norm": 2.117763042449951,
+      "grad_norm_var": 0.15639622485214394,
+      "learning_rate": 2e-05,
+      "loss": 0.4553,
+      "loss/crossentropy": 2.728012442588806,
+      "loss/hidden": 0.18408203125,
+      "loss/logits": 0.03820735961198807,
+      "loss/reg": 0.023300379514694214,
+      "step": 1531
+    },
+    {
+      "epoch": 0.766,
+      "grad_norm": 1.2518669366836548,
+      "grad_norm_var": 0.16740663803541475,
+      "learning_rate": 2e-05,
+      "loss": 0.4509,
+      "loss/crossentropy": 2.3151432275772095,
+      "loss/hidden": 0.18408203125,
+      "loss/logits": 0.033854938112199306,
+      "loss/reg": 0.023297840729355812,
+      "step": 1532
+    },
+    {
+      "epoch": 0.7665,
+      "grad_norm": 1.6661626100540161,
+      "grad_norm_var": 0.15940086312676746,
+      "learning_rate": 2e-05,
+      "loss": 0.4237,
+      "loss/crossentropy": 2.624950885772705,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.03104830253869295,
+      "loss/reg": 0.023295121267437935,
+      "step": 1533
+    },
+    {
+      "epoch": 0.767,
+      "grad_norm": 1.2690476179122925,
+      "grad_norm_var": 0.1672279185359154,
+      "learning_rate": 2e-05,
+      "loss": 0.4322,
+      "loss/crossentropy": 2.2488889694213867,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.02886138390749693,
+      "loss/reg": 0.02329253777861595,
+      "step": 1534
+    },
+    {
+      "epoch": 0.7675,
+      "grad_norm": 1.4908874034881592,
+      "grad_norm_var": 0.16784599970408365,
+      "learning_rate": 2e-05,
+      "loss": 0.4199,
+      "loss/crossentropy": 2.32344913482666,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.029767291620373726,
+      "loss/reg": 0.023290077224373817,
+      "step": 1535
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 1.5248539447784424,
+      "grad_norm_var": 0.1693264389141717,
+      "learning_rate": 2e-05,
+      "loss": 0.4806,
+      "loss/crossentropy": 2.282503128051758,
+      "loss/hidden": 0.20556640625,
+      "loss/logits": 0.042184172198176384,
+      "loss/reg": 0.02328774333000183,
+      "step": 1536
+    },
+    {
+      "epoch": 0.7685,
+      "grad_norm": 1.3552334308624268,
+      "grad_norm_var": 0.1570355202480712,
+      "learning_rate": 2e-05,
+      "loss": 0.4453,
+      "loss/crossentropy": 2.2128005027770996,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.03375644236803055,
+      "loss/reg": 0.02328518033027649,
+      "step": 1537
+    },
+    {
+      "epoch": 0.769,
+      "grad_norm": 1.7702122926712036,
+      "grad_norm_var": 0.15665843688097023,
+      "learning_rate": 2e-05,
+      "loss": 0.4218,
+      "loss/crossentropy": 2.2681163549423218,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.026351372711360455,
+      "loss/reg": 0.02328294701874256,
+      "step": 1538
+    },
+    {
+      "epoch": 0.7695,
+      "grad_norm": 2.065890073776245,
+      "grad_norm_var": 0.161315321835504,
+      "learning_rate": 2e-05,
+      "loss": 0.5305,
+      "loss/crossentropy": 2.223512649536133,
+      "loss/hidden": 0.25048828125,
+      "loss/logits": 0.047157226130366325,
+      "loss/reg": 0.023280519992113113,
+      "step": 1539
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.4778271913528442,
+      "grad_norm_var": 0.15746298503991624,
+      "learning_rate": 2e-05,
+      "loss": 0.4345,
+      "loss/crossentropy": 2.3824329376220703,
+      "loss/hidden": 0.1669921875,
+      "loss/logits": 0.03470621630549431,
+      "loss/reg": 0.023278141394257545,
+      "step": 1540
+    },
+    {
+      "epoch": 0.7705,
+      "grad_norm": 1.643192172050476,
+      "grad_norm_var": 0.15054023023162647,
+      "learning_rate": 2e-05,
+      "loss": 0.4223,
+      "loss/crossentropy": 2.65035343170166,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.032792385667562485,
+      "loss/reg": 0.023275921121239662,
+      "step": 1541
+    },
+    {
+      "epoch": 0.771,
+      "grad_norm": 1.5637279748916626,
+      "grad_norm_var": 0.15210194531488597,
+      "learning_rate": 2e-05,
+      "loss": 0.4743,
+      "loss/crossentropy": 2.5058376789093018,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.03547433018684387,
+      "loss/reg": 0.023273425176739693,
+      "step": 1542
+    },
+    {
+      "epoch": 0.7715,
+      "grad_norm": 5.894736289978027,
+      "grad_norm_var": 1.2473798526593487,
+      "learning_rate": 2e-05,
+      "loss": 0.6759,
+      "loss/crossentropy": 2.7393654584884644,
+      "loss/hidden": 0.3525390625,
+      "loss/logits": 0.09067841898649931,
+      "loss/reg": 0.023270903155207634,
+      "step": 1543
+    },
+    {
+      "epoch": 0.772,
+      "grad_norm": 1.4357421398162842,
+      "grad_norm_var": 1.2249250941187129,
+      "learning_rate": 2e-05,
+      "loss": 0.4196,
+      "loss/crossentropy": 2.1938605308532715,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.028688468039035797,
+      "loss/reg": 0.023268546909093857,
+      "step": 1544
+    },
+    {
+      "epoch": 0.7725,
+      "grad_norm": 1.4271492958068848,
+      "grad_norm_var": 1.2287387850562255,
+      "learning_rate": 2e-05,
+      "loss": 0.4829,
+      "loss/crossentropy": 2.1993138790130615,
+      "loss/hidden": 0.21240234375,
+      "loss/logits": 0.03782237879931927,
+      "loss/reg": 0.023266203701496124,
+      "step": 1545
+    },
+    {
+      "epoch": 0.773,
+      "grad_norm": 1.6962809562683105,
+      "grad_norm_var": 1.2220146551281785,
+      "learning_rate": 2e-05,
+      "loss": 0.4143,
+      "loss/crossentropy": 2.3468743562698364,
+      "loss/hidden": 0.15380859375,
+      "loss/logits": 0.027830702252686024,
+      "loss/reg": 0.023263977840542793,
+      "step": 1546
+    },
+    {
+      "epoch": 0.7735,
+      "grad_norm": 1.708454966545105,
+      "grad_norm_var": 1.2180449645963336,
+      "learning_rate": 2e-05,
+      "loss": 0.437,
+      "loss/crossentropy": 2.366321086883545,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.028090238571166992,
+      "loss/reg": 0.023261502385139465,
+      "step": 1547
+    },
+    {
+      "epoch": 0.774,
+      "grad_norm": 2.553924083709717,
+      "grad_norm_var": 1.2240565005172073,
+      "learning_rate": 2e-05,
+      "loss": 0.6236,
+      "loss/crossentropy": 2.093143939971924,
+      "loss/hidden": 0.32373046875,
+      "loss/logits": 0.06730393506586552,
+      "loss/reg": 0.023259302601218224,
+      "step": 1548
+    },
+    {
+      "epoch": 0.7745,
+      "grad_norm": 1.2026230096817017,
+      "grad_norm_var": 1.2524918261951337,
+      "learning_rate": 2e-05,
+      "loss": 0.4183,
+      "loss/crossentropy": 2.4064027070999146,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.028545232489705086,
+      "loss/reg": 0.02325684390962124,
+      "step": 1549
+    },
+    {
+      "epoch": 0.775,
+      "grad_norm": 1.5950380563735962,
+      "grad_norm_var": 1.2325789918369907,
+      "learning_rate": 2e-05,
+      "loss": 0.3969,
+      "loss/crossentropy": 2.371984839439392,
+      "loss/hidden": 0.140625,
+      "loss/logits": 0.02372877486050129,
+      "loss/reg": 0.02325470745563507,
+      "step": 1550
+    },
+    {
+      "epoch": 0.7755,
+      "grad_norm": 1.067559003829956,
+      "grad_norm_var": 1.2668916559295922,
+      "learning_rate": 2e-05,
+      "loss": 0.4115,
+      "loss/crossentropy": 2.2676392793655396,
+      "loss/hidden": 0.15478515625,
+      "loss/logits": 0.0241701677441597,
+      "loss/reg": 0.023252317681908607,
+      "step": 1551
+    },
+    {
+      "epoch": 0.776,
+      "grad_norm": 2.6447858810424805,
+      "grad_norm_var": 1.2931606651566094,
+      "learning_rate": 2e-05,
+      "loss": 0.4562,
+      "loss/crossentropy": 2.527026653289795,
+      "loss/hidden": 0.19482421875,
+      "loss/logits": 0.028835158795118332,
+      "loss/reg": 0.0232497937977314,
+      "step": 1552
+    },
+    {
+      "epoch": 0.7765,
+      "grad_norm": 1.3525029420852661,
+      "grad_norm_var": 1.2933754435969356,
+      "learning_rate": 2e-05,
+      "loss": 0.4655,
+      "loss/crossentropy": 2.107416331768036,
+      "loss/hidden": 0.1982421875,
+      "loss/logits": 0.0347739988937974,
+      "loss/reg": 0.023247426375746727,
+      "step": 1553
+    },
+    {
+      "epoch": 0.777,
+      "grad_norm": 1.3164350986480713,
+      "grad_norm_var": 1.3167433755836309,
+      "learning_rate": 2e-05,
+      "loss": 0.4165,
+      "loss/crossentropy": 2.509757399559021,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.027274997904896736,
+      "loss/reg": 0.023244967684149742,
+      "step": 1554
+    },
+    {
+      "epoch": 0.7775,
+      "grad_norm": 1.9293817281723022,
+      "grad_norm_var": 1.3151683429148335,
+      "learning_rate": 2e-05,
+      "loss": 0.4151,
+      "loss/crossentropy": 2.647552251815796,
+      "loss/hidden": 0.158203125,
+      "loss/logits": 0.024518443271517754,
+      "loss/reg": 0.023242756724357605,
+      "step": 1555
+    },
+    {
+      "epoch": 0.778,
+      "grad_norm": 1.7657341957092285,
+      "grad_norm_var": 1.3038804133117678,
+      "learning_rate": 2e-05,
+      "loss": 0.4489,
+      "loss/crossentropy": 2.2430570125579834,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.038234325125813484,
+      "loss/reg": 0.02324022725224495,
+      "step": 1556
+    },
+    {
+      "epoch": 0.7785,
+      "grad_norm": 2.497610330581665,
+      "grad_norm_var": 1.3174225363238234,
+      "learning_rate": 2e-05,
+      "loss": 0.4612,
+      "loss/crossentropy": 2.505717158317566,
+      "loss/hidden": 0.19775390625,
+      "loss/logits": 0.03111663181334734,
+      "loss/reg": 0.023237932473421097,
+      "step": 1557
+    },
+    {
+      "epoch": 0.779,
+      "grad_norm": 1.704455852508545,
+      "grad_norm_var": 1.3108827016120235,
+      "learning_rate": 2e-05,
+      "loss": 0.4357,
+      "loss/crossentropy": 2.389075994491577,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.02655597310513258,
+      "loss/reg": 0.02323562279343605,
+      "step": 1558
+    },
+    {
+      "epoch": 0.7795,
+      "grad_norm": 1.900311827659607,
+      "grad_norm_var": 0.22688966028548616,
+      "learning_rate": 2e-05,
+      "loss": 0.5081,
+      "loss/crossentropy": 2.4398266077041626,
+      "loss/hidden": 0.23583984375,
+      "loss/logits": 0.03995893709361553,
+      "loss/reg": 0.023233113810420036,
+      "step": 1559
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.3378366231918335,
+      "grad_norm_var": 0.2314262808823021,
+      "learning_rate": 2e-05,
+      "loss": 0.4106,
+      "loss/crossentropy": 2.1936975717544556,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.022547971457242966,
+      "loss/reg": 0.023230722174048424,
+      "step": 1560
+    },
+    {
+      "epoch": 0.7805,
+      "grad_norm": 1.7965880632400513,
+      "grad_norm_var": 0.22497679016718142,
+      "learning_rate": 2e-05,
+      "loss": 0.446,
+      "loss/crossentropy": 2.281595468521118,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.030129313468933105,
+      "loss/reg": 0.02322840318083763,
+      "step": 1561
+    },
+    {
+      "epoch": 0.781,
+      "grad_norm": 1.6652514934539795,
+      "grad_norm_var": 0.22527719371189883,
+      "learning_rate": 2e-05,
+      "loss": 0.4288,
+      "loss/crossentropy": 2.3167933225631714,
+      "loss/hidden": 0.17041015625,
+      "loss/logits": 0.02617516089230776,
+      "loss/reg": 0.02322593703866005,
+      "step": 1562
+    },
+    {
+      "epoch": 0.7815,
+      "grad_norm": 1.6363804340362549,
+      "grad_norm_var": 0.2260242298357046,
+      "learning_rate": 2e-05,
+      "loss": 0.4647,
+      "loss/crossentropy": 1.9782673716545105,
+      "loss/hidden": 0.20556640625,
+      "loss/logits": 0.026893844828009605,
+      "loss/reg": 0.023223651573061943,
+      "step": 1563
+    },
+    {
+      "epoch": 0.782,
+      "grad_norm": 1.7427809238433838,
+      "grad_norm_var": 0.1799729760451602,
+      "learning_rate": 2e-05,
+      "loss": 0.4594,
+      "loss/crossentropy": 2.475069522857666,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.03972475230693817,
+      "loss/reg": 0.023221155628561974,
+      "step": 1564
+    },
+    {
+      "epoch": 0.7825,
+      "grad_norm": 1.4905965328216553,
+      "grad_norm_var": 0.16616583137613528,
+      "learning_rate": 2e-05,
+      "loss": 0.4287,
+      "loss/crossentropy": 2.290923833847046,
+      "loss/hidden": 0.16943359375,
+      "loss/logits": 0.027077090926468372,
+      "loss/reg": 0.023218607529997826,
+      "step": 1565
+    },
+    {
+      "epoch": 0.783,
+      "grad_norm": 1.8255786895751953,
+      "grad_norm_var": 0.16579392065956847,
+      "learning_rate": 2e-05,
+      "loss": 0.4183,
+      "loss/crossentropy": 2.6674692630767822,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.026930052787065506,
+      "loss/reg": 0.023216072469949722,
+      "step": 1566
+    },
+    {
+      "epoch": 0.7835,
+      "grad_norm": 2.251720428466797,
+      "grad_norm_var": 0.14890348739905898,
+      "learning_rate": 2e-05,
+      "loss": 0.4939,
+      "loss/crossentropy": 2.6777660846710205,
+      "loss/hidden": 0.22119140625,
+      "loss/logits": 0.040533529594540596,
+      "loss/reg": 0.023213520646095276,
+      "step": 1567
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 1.9184706211090088,
+      "grad_norm_var": 0.10041432594898173,
+      "learning_rate": 2e-05,
+      "loss": 0.4455,
+      "loss/crossentropy": 2.48405659198761,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.03325136937201023,
+      "loss/reg": 0.0232110396027565,
+      "step": 1568
+    },
+    {
+      "epoch": 0.7845,
+      "grad_norm": 2.3974111080169678,
+      "grad_norm_var": 0.11212794269452289,
+      "learning_rate": 2e-05,
+      "loss": 0.5316,
+      "loss/crossentropy": 2.4565058946609497,
+      "loss/hidden": 0.24951171875,
+      "loss/logits": 0.04996338486671448,
+      "loss/reg": 0.023208467289805412,
+      "step": 1569
+    },
+    {
+      "epoch": 0.785,
+      "grad_norm": 1.3549920320510864,
+      "grad_norm_var": 0.10961390038742369,
+      "learning_rate": 2e-05,
+      "loss": 0.4089,
+      "loss/crossentropy": 2.359605550765991,
+      "loss/hidden": 0.1484375,
+      "loss/logits": 0.028434154577553272,
+      "loss/reg": 0.023205863311886787,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7855,
+      "grad_norm": 1.2709044218063354,
+      "grad_norm_var": 0.12763188642899853,
+      "learning_rate": 2e-05,
+      "loss": 0.45,
+      "loss/crossentropy": 2.117920219898224,
+      "loss/hidden": 0.1826171875,
+      "loss/logits": 0.035326533019542694,
+      "loss/reg": 0.023203279823064804,
+      "step": 1571
+    },
+    {
+      "epoch": 0.786,
+      "grad_norm": 1.4363126754760742,
+      "grad_norm_var": 0.13525123557490268,
+      "learning_rate": 2e-05,
+      "loss": 0.4487,
+      "loss/crossentropy": 2.070175528526306,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.029196069575846195,
+      "loss/reg": 0.023200761526823044,
+      "step": 1572
+    },
+    {
+      "epoch": 0.7865,
+      "grad_norm": 1.4775161743164062,
+      "grad_norm_var": 0.10053524622992847,
+      "learning_rate": 2e-05,
+      "loss": 0.446,
+      "loss/crossentropy": 2.640804171562195,
+      "loss/hidden": 0.17919921875,
+      "loss/logits": 0.034833875484764576,
+      "loss/reg": 0.02319827489554882,
+      "step": 1573
+    },
+    {
+      "epoch": 0.787,
+      "grad_norm": 1.5340831279754639,
+      "grad_norm_var": 0.10225829614935306,
+      "learning_rate": 2e-05,
+      "loss": 0.4402,
+      "loss/crossentropy": 2.298627734184265,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.03342457953840494,
+      "loss/reg": 0.02319585159420967,
+      "step": 1574
+    },
+    {
+      "epoch": 0.7875,
+      "grad_norm": 1.4753564596176147,
+      "grad_norm_var": 0.10161700731717402,
+      "learning_rate": 2e-05,
+      "loss": 0.4379,
+      "loss/crossentropy": 2.3629835844039917,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.029691355302929878,
+      "loss/reg": 0.02319331094622612,
+      "step": 1575
+    },
+    {
+      "epoch": 0.788,
+      "grad_norm": 2.231339454650879,
+      "grad_norm_var": 0.11274765054892152,
+      "learning_rate": 2e-05,
+      "loss": 0.5219,
+      "loss/crossentropy": 2.3111387491226196,
+      "loss/hidden": 0.25048828125,
+      "loss/logits": 0.03952763415873051,
+      "loss/reg": 0.023190749809145927,
+      "step": 1576
+    },
+    {
+      "epoch": 0.7885,
+      "grad_norm": 1.3988337516784668,
+      "grad_norm_var": 0.11852513456262694,
+      "learning_rate": 2e-05,
+      "loss": 0.4242,
+      "loss/crossentropy": 2.541161060333252,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.029688138514757156,
+      "loss/reg": 0.023188097402453423,
+      "step": 1577
+    },
+    {
+      "epoch": 0.789,
+      "grad_norm": 1.5263261795043945,
+      "grad_norm_var": 0.12026800389912082,
+      "learning_rate": 2e-05,
+      "loss": 0.4356,
+      "loss/crossentropy": 2.4031816720962524,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.02942817658185959,
+      "loss/reg": 0.023185575380921364,
+      "step": 1578
+    },
+    {
+      "epoch": 0.7895,
+      "grad_norm": 1.917905330657959,
+      "grad_norm_var": 0.12337632181772822,
+      "learning_rate": 2e-05,
+      "loss": 0.4671,
+      "loss/crossentropy": 2.400526762008667,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.033078462816774845,
+      "loss/reg": 0.023183133453130722,
+      "step": 1579
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 2.0703365802764893,
+      "grad_norm_var": 0.13181370320904567,
+      "learning_rate": 2e-05,
+      "loss": 0.4093,
+      "loss/crossentropy": 1.912480115890503,
+      "loss/hidden": 0.15869140625,
+      "loss/logits": 0.018787679262459278,
+      "loss/reg": 0.023180615156888962,
+      "step": 1580
+    },
+    {
+      "epoch": 0.7905,
+      "grad_norm": 2.055941343307495,
+      "grad_norm_var": 0.1342255915417723,
+      "learning_rate": 2e-05,
+      "loss": 0.526,
+      "loss/crossentropy": 2.1755658388137817,
+      "loss/hidden": 0.25927734375,
+      "loss/logits": 0.03490355238318443,
+      "loss/reg": 0.02317827008664608,
+      "step": 1581
+    },
+    {
+      "epoch": 0.791,
+      "grad_norm": 1.1831824779510498,
+      "grad_norm_var": 0.15430979289185978,
+      "learning_rate": 2e-05,
+      "loss": 0.4029,
+      "loss/crossentropy": 2.3617440462112427,
+      "loss/hidden": 0.14697265625,
+      "loss/logits": 0.024197732098400593,
+      "loss/reg": 0.02317577414214611,
+      "step": 1582
+    },
+    {
+      "epoch": 0.7915,
+      "grad_norm": 1.4519609212875366,
+      "grad_norm_var": 0.13745687144184232,
+      "learning_rate": 2e-05,
+      "loss": 0.4694,
+      "loss/crossentropy": 2.295761823654175,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.03844046592712402,
+      "loss/reg": 0.02317335642874241,
+      "step": 1583
+    },
+    {
+      "epoch": 0.792,
+      "grad_norm": 1.534197449684143,
+      "grad_norm_var": 0.13389399149251766,
+      "learning_rate": 2e-05,
+      "loss": 0.4531,
+      "loss/crossentropy": 2.2924489974975586,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.04463693127036095,
+      "loss/reg": 0.023170989006757736,
+      "step": 1584
+    },
+    {
+      "epoch": 0.7925,
+      "grad_norm": 1.8300005197525024,
+      "grad_norm_var": 0.09707661533023403,
+      "learning_rate": 2e-05,
+      "loss": 0.5176,
+      "loss/crossentropy": 2.3310474157333374,
+      "loss/hidden": 0.23486328125,
+      "loss/logits": 0.05109906196594238,
+      "loss/reg": 0.023168709129095078,
+      "step": 1585
+    },
+    {
+      "epoch": 0.793,
+      "grad_norm": 1.2439618110656738,
+      "grad_norm_var": 0.10161223968455312,
+      "learning_rate": 2e-05,
+      "loss": 0.4037,
+      "loss/crossentropy": 2.2324079275131226,
+      "loss/hidden": 0.14453125,
+      "loss/logits": 0.027506624348461628,
+      "loss/reg": 0.02316616289317608,
+      "step": 1586
+    },
+    {
+      "epoch": 0.7935,
+      "grad_norm": 1.6163288354873657,
+      "grad_norm_var": 0.0938027555024466,
+      "learning_rate": 2e-05,
+      "loss": 0.4392,
+      "loss/crossentropy": 2.536410927772522,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.037604911252856255,
+      "loss/reg": 0.023163635283708572,
+      "step": 1587
+    },
+    {
+      "epoch": 0.794,
+      "grad_norm": 1.1579729318618774,
+      "grad_norm_var": 0.10560929736321494,
+      "learning_rate": 2e-05,
+      "loss": 0.4123,
+      "loss/crossentropy": 2.4252489805221558,
+      "loss/hidden": 0.150390625,
+      "loss/logits": 0.03028416447341442,
+      "loss/reg": 0.023161334916949272,
+      "step": 1588
+    },
+    {
+      "epoch": 0.7945,
+      "grad_norm": 2.056169271469116,
+      "grad_norm_var": 0.11657917936412522,
+      "learning_rate": 2e-05,
+      "loss": 0.4863,
+      "loss/crossentropy": 2.3423261642456055,
+      "loss/hidden": 0.20361328125,
+      "loss/logits": 0.05107624363154173,
+      "loss/reg": 0.023159068077802658,
+      "step": 1589
+    },
+    {
+      "epoch": 0.795,
+      "grad_norm": 1.2322633266448975,
+      "grad_norm_var": 0.12664541026909054,
+      "learning_rate": 2e-05,
+      "loss": 0.4201,
+      "loss/crossentropy": 2.258147120475769,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.028841855004429817,
+      "loss/reg": 0.023156482726335526,
+      "step": 1590
+    },
+    {
+      "epoch": 0.7955,
+      "grad_norm": 1.4345581531524658,
+      "grad_norm_var": 0.12755737501392914,
+      "learning_rate": 2e-05,
+      "loss": 0.4291,
+      "loss/crossentropy": 2.4102907180786133,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.027651555836200714,
+      "loss/reg": 0.023154061287641525,
+      "step": 1591
+    },
+    {
+      "epoch": 0.796,
+      "grad_norm": 2.623196601867676,
+      "grad_norm_var": 0.16902592388542997,
+      "learning_rate": 2e-05,
+      "loss": 0.5085,
+      "loss/crossentropy": 2.4452123641967773,
+      "loss/hidden": 0.23828125,
+      "loss/logits": 0.03867449425160885,
+      "loss/reg": 0.023151807487010956,
+      "step": 1592
+    },
+    {
+      "epoch": 0.7965,
+      "grad_norm": 1.1513710021972656,
+      "grad_norm_var": 0.18100263857273305,
+      "learning_rate": 2e-05,
+      "loss": 0.439,
+      "loss/crossentropy": 2.2152241468429565,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.030737859196960926,
+      "loss/reg": 0.023149540647864342,
+      "step": 1593
+    },
+    {
+      "epoch": 0.797,
+      "grad_norm": 1.4377129077911377,
+      "grad_norm_var": 0.18272251392224484,
+      "learning_rate": 2e-05,
+      "loss": 0.4097,
+      "loss/crossentropy": 2.3043720722198486,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.025365683250129223,
+      "loss/reg": 0.023146886378526688,
+      "step": 1594
+    },
+    {
+      "epoch": 0.7975,
+      "grad_norm": 1.639028549194336,
+      "grad_norm_var": 0.1766851802806513,
+      "learning_rate": 2e-05,
+      "loss": 0.4636,
+      "loss/crossentropy": 2.422786235809326,
+      "loss/hidden": 0.177734375,
+      "loss/logits": 0.0544711509719491,
+      "loss/reg": 0.023144405335187912,
+      "step": 1595
+    },
+    {
+      "epoch": 0.798,
+      "grad_norm": 1.2421246767044067,
+      "grad_norm_var": 0.1684333370511676,
+      "learning_rate": 2e-05,
+      "loss": 0.3977,
+      "loss/crossentropy": 2.6057989597320557,
+      "loss/hidden": 0.14111328125,
+      "loss/logits": 0.025157983414828777,
+      "loss/reg": 0.023141996935009956,
+      "step": 1596
+    },
+    {
+      "epoch": 0.7985,
+      "grad_norm": 1.2711045742034912,
+      "grad_norm_var": 0.1545756380850302,
+      "learning_rate": 2e-05,
+      "loss": 0.4284,
+      "loss/crossentropy": 2.264176368713379,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.028568227775394917,
+      "loss/reg": 0.02313930355012417,
+      "step": 1597
+    },
+    {
+      "epoch": 0.799,
+      "grad_norm": 1.5185736417770386,
+      "grad_norm_var": 0.14714454199060936,
+      "learning_rate": 2e-05,
+      "loss": 0.4114,
+      "loss/crossentropy": 2.471498489379883,
+      "loss/hidden": 0.14990234375,
+      "loss/logits": 0.030109106563031673,
+      "loss/reg": 0.02313670702278614,
+      "step": 1598
+    },
+    {
+      "epoch": 0.7995,
+      "grad_norm": 1.553176760673523,
+      "grad_norm_var": 0.14676495590723318,
+      "learning_rate": 2e-05,
+      "loss": 0.3957,
+      "loss/crossentropy": 2.330732226371765,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.025215147994458675,
+      "loss/reg": 0.023134108632802963,
+      "step": 1599
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.5054106712341309,
+      "grad_norm_var": 0.14681544855401113,
+      "learning_rate": 2e-05,
+      "loss": 0.4242,
+      "loss/crossentropy": 2.3858243227005005,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.030760521069169044,
+      "loss/reg": 0.023131774738430977,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8005,
+      "grad_norm": 1.565080165863037,
+      "grad_norm_var": 0.1406777927219105,
+      "learning_rate": 2e-05,
+      "loss": 0.4291,
+      "loss/crossentropy": 2.4610700607299805,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.03468041494488716,
+      "loss/reg": 0.023129595443606377,
+      "step": 1601
+    },
+    {
+      "epoch": 0.801,
+      "grad_norm": 1.212703824043274,
+      "grad_norm_var": 0.1418705661983741,
+      "learning_rate": 2e-05,
+      "loss": 0.4174,
+      "loss/crossentropy": 2.3021336793899536,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.026437725871801376,
+      "loss/reg": 0.023127034306526184,
+      "step": 1602
+    },
+    {
+      "epoch": 0.8015,
+      "grad_norm": 1.2017550468444824,
+      "grad_norm_var": 0.1469311922279634,
+      "learning_rate": 2e-05,
+      "loss": 0.3971,
+      "loss/crossentropy": 2.5906589031219482,
+      "loss/hidden": 0.14208984375,
+      "loss/logits": 0.023727728985249996,
+      "loss/reg": 0.023124776780605316,
+      "step": 1603
+    },
+    {
+      "epoch": 0.802,
+      "grad_norm": 3.218196392059326,
+      "grad_norm_var": 0.3216560098977896,
+      "learning_rate": 2e-05,
+      "loss": 0.5194,
+      "loss/crossentropy": 2.1525968313217163,
+      "loss/hidden": 0.24365234375,
+      "loss/logits": 0.044501783326268196,
+      "loss/reg": 0.023122500628232956,
+      "step": 1604
+    },
+    {
+      "epoch": 0.8025,
+      "grad_norm": 1.5749452114105225,
+      "grad_norm_var": 0.3079126424294389,
+      "learning_rate": 2e-05,
+      "loss": 0.4253,
+      "loss/crossentropy": 2.2141406536102295,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.02860566135495901,
+      "loss/reg": 0.0231203343719244,
+      "step": 1605
+    },
+    {
+      "epoch": 0.803,
+      "grad_norm": 1.7416962385177612,
+      "grad_norm_var": 0.3000833317033832,
+      "learning_rate": 2e-05,
+      "loss": 0.4899,
+      "loss/crossentropy": 2.4038604497909546,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.038527075201272964,
+      "loss/reg": 0.023117849603295326,
+      "step": 1606
+    },
+    {
+      "epoch": 0.8035,
+      "grad_norm": 12.239812850952148,
+      "grad_norm_var": 7.332656902880251,
+      "learning_rate": 2e-05,
+      "loss": 0.5506,
+      "loss/crossentropy": 2.144862651824951,
+      "loss/hidden": 0.2763671875,
+      "loss/logits": 0.04309249948710203,
+      "loss/reg": 0.023115267977118492,
+      "step": 1607
+    },
+    {
+      "epoch": 0.804,
+      "grad_norm": 1.863564133644104,
+      "grad_norm_var": 7.335328194748469,
+      "learning_rate": 2e-05,
+      "loss": 0.4323,
+      "loss/crossentropy": 2.537988543510437,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.032738376408815384,
+      "loss/reg": 0.023112677037715912,
+      "step": 1608
+    },
+    {
+      "epoch": 0.8045,
+      "grad_norm": 1.3629024028778076,
+      "grad_norm_var": 7.307251217498798,
+      "learning_rate": 2e-05,
+      "loss": 0.4164,
+      "loss/crossentropy": 2.1855788230895996,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.028044618666172028,
+      "loss/reg": 0.023110322654247284,
+      "step": 1609
+    },
+    {
+      "epoch": 0.805,
+      "grad_norm": 1.3974899053573608,
+      "grad_norm_var": 7.311758223035725,
+      "learning_rate": 2e-05,
+      "loss": 0.4062,
+      "loss/crossentropy": 2.217948317527771,
+      "loss/hidden": 0.1484375,
+      "loss/logits": 0.026731343939900398,
+      "loss/reg": 0.02310797944664955,
+      "step": 1610
+    },
+    {
+      "epoch": 0.8055,
+      "grad_norm": 2.0517637729644775,
+      "grad_norm_var": 7.28841256335691,
+      "learning_rate": 2e-05,
+      "loss": 0.4398,
+      "loss/crossentropy": 2.581295609474182,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.03437975142151117,
+      "loss/reg": 0.023105405271053314,
+      "step": 1611
+    },
+    {
+      "epoch": 0.806,
+      "grad_norm": 2.579063892364502,
+      "grad_norm_var": 7.2146663129960755,
+      "learning_rate": 2e-05,
+      "loss": 0.4879,
+      "loss/crossentropy": 2.704404354095459,
+      "loss/hidden": 0.2119140625,
+      "loss/logits": 0.04493995010852814,
+      "loss/reg": 0.023102805018424988,
+      "step": 1612
+    },
+    {
+      "epoch": 0.8065,
+      "grad_norm": 1.4066587686538696,
+      "grad_norm_var": 7.196024324251629,
+      "learning_rate": 2e-05,
+      "loss": 0.4595,
+      "loss/crossentropy": 2.1706148386001587,
+      "loss/hidden": 0.19287109375,
+      "loss/logits": 0.03565484471619129,
+      "loss/reg": 0.023100463673472404,
+      "step": 1613
+    },
+    {
+      "epoch": 0.807,
+      "grad_norm": 1.691936731338501,
+      "grad_norm_var": 7.178116795127499,
+      "learning_rate": 2e-05,
+      "loss": 0.4514,
+      "loss/crossentropy": 2.369131565093994,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.03535500913858414,
+      "loss/reg": 0.02309785783290863,
+      "step": 1614
+    },
+    {
+      "epoch": 0.8075,
+      "grad_norm": 1.2398101091384888,
+      "grad_norm_var": 7.21902571074465,
+      "learning_rate": 2e-05,
+      "loss": 0.3903,
+      "loss/crossentropy": 2.3177562952041626,
+      "loss/hidden": 0.13525390625,
+      "loss/logits": 0.0241070706397295,
+      "loss/reg": 0.02309543453156948,
+      "step": 1615
+    },
+    {
+      "epoch": 0.808,
+      "grad_norm": 2.775026559829712,
+      "grad_norm_var": 7.17412256855064,
+      "learning_rate": 2e-05,
+      "loss": 0.4131,
+      "loss/crossentropy": 2.624569892883301,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.02637580782175064,
+      "loss/reg": 0.02309308759868145,
+      "step": 1616
+    },
+    {
+      "epoch": 0.8085,
+      "grad_norm": 1.959854006767273,
+      "grad_norm_var": 7.137539141392571,
+      "learning_rate": 2e-05,
+      "loss": 0.4264,
+      "loss/crossentropy": 2.393427848815918,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.0275327330455184,
+      "loss/reg": 0.023090790957212448,
+      "step": 1617
+    },
+    {
+      "epoch": 0.809,
+      "grad_norm": 1.2265393733978271,
+      "grad_norm_var": 7.135232046007838,
+      "learning_rate": 2e-05,
+      "loss": 0.4337,
+      "loss/crossentropy": 2.4681339263916016,
+      "loss/hidden": 0.17138671875,
+      "loss/logits": 0.03143185377120972,
+      "loss/reg": 0.023088427260518074,
+      "step": 1618
+    },
+    {
+      "epoch": 0.8095,
+      "grad_norm": 1.782827377319336,
+      "grad_norm_var": 7.05802258224737,
+      "learning_rate": 2e-05,
+      "loss": 0.414,
+      "loss/crossentropy": 2.497174382209778,
+      "loss/hidden": 0.154296875,
+      "loss/logits": 0.02879659365862608,
+      "loss/reg": 0.023086171597242355,
+      "step": 1619
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.3240845203399658,
+      "grad_norm_var": 7.1026412994491706,
+      "learning_rate": 2e-05,
+      "loss": 0.4085,
+      "loss/crossentropy": 2.3640178442001343,
+      "loss/hidden": 0.1533203125,
+      "loss/logits": 0.024376518093049526,
+      "loss/reg": 0.023083915933966637,
+      "step": 1620
+    },
+    {
+      "epoch": 0.8105,
+      "grad_norm": 1.827821969985962,
+      "grad_norm_var": 7.079203255275327,
+      "learning_rate": 2e-05,
+      "loss": 0.4672,
+      "loss/crossentropy": 2.2232565879821777,
+      "loss/hidden": 0.19677734375,
+      "loss/logits": 0.039636192843317986,
+      "loss/reg": 0.02308170683681965,
+      "step": 1621
+    },
+    {
+      "epoch": 0.811,
+      "grad_norm": 1.488737940788269,
+      "grad_norm_var": 7.105554975206242,
+      "learning_rate": 2e-05,
+      "loss": 0.4777,
+      "loss/crossentropy": 2.3754860162734985,
+      "loss/hidden": 0.201171875,
+      "loss/logits": 0.04573565348982811,
+      "loss/reg": 0.023079518228769302,
+      "step": 1622
+    },
+    {
+      "epoch": 0.8115,
+      "grad_norm": 1.6029181480407715,
+      "grad_norm_var": 0.20554311559602045,
+      "learning_rate": 2e-05,
+      "loss": 0.5146,
+      "loss/crossentropy": 2.1231746673583984,
+      "loss/hidden": 0.2275390625,
+      "loss/logits": 0.056324394419789314,
+      "loss/reg": 0.023077305406332016,
+      "step": 1623
+    },
+    {
+      "epoch": 0.812,
+      "grad_norm": 1.273179054260254,
+      "grad_norm_var": 0.21632680198712767,
+      "learning_rate": 2e-05,
+      "loss": 0.4327,
+      "loss/crossentropy": 2.269154667854309,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.03346337750554085,
+      "loss/reg": 0.02307521365582943,
+      "step": 1624
+    },
+    {
+      "epoch": 0.8125,
+      "grad_norm": 1.5247483253479004,
+      "grad_norm_var": 0.21097195205831215,
+      "learning_rate": 2e-05,
+      "loss": 0.4599,
+      "loss/crossentropy": 2.123014211654663,
+      "loss/hidden": 0.197265625,
+      "loss/logits": 0.03189415484666824,
+      "loss/reg": 0.02307269349694252,
+      "step": 1625
+    },
+    {
+      "epoch": 0.813,
+      "grad_norm": 1.631244421005249,
+      "grad_norm_var": 0.20505121684640598,
+      "learning_rate": 2e-05,
+      "loss": 0.4684,
+      "loss/crossentropy": 2.1642907857894897,
+      "loss/hidden": 0.19677734375,
+      "loss/logits": 0.040870968252420425,
+      "loss/reg": 0.02307022735476494,
+      "step": 1626
+    },
+    {
+      "epoch": 0.8135,
+      "grad_norm": 1.8798401355743408,
+      "grad_norm_var": 0.19910183072842996,
+      "learning_rate": 2e-05,
+      "loss": 0.4351,
+      "loss/crossentropy": 2.588270664215088,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.031081863678991795,
+      "loss/reg": 0.023067684844136238,
+      "step": 1627
+    },
+    {
+      "epoch": 0.814,
+      "grad_norm": 1.2950395345687866,
+      "grad_norm_var": 0.15180106705406657,
+      "learning_rate": 2e-05,
+      "loss": 0.4603,
+      "loss/crossentropy": 2.419018030166626,
+      "loss/hidden": 0.17138671875,
+      "loss/logits": 0.05826069973409176,
+      "loss/reg": 0.02306544780731201,
+      "step": 1628
+    },
+    {
+      "epoch": 0.8145,
+      "grad_norm": 24.923316955566406,
+      "grad_norm_var": 34.04542175114692,
+      "learning_rate": 2e-05,
+      "loss": 0.7786,
+      "loss/crossentropy": 2.3988600969314575,
+      "loss/hidden": 0.49560546875,
+      "loss/logits": 0.0523617435246706,
+      "loss/reg": 0.023063141852617264,
+      "step": 1629
+    },
+    {
+      "epoch": 0.815,
+      "grad_norm": 2.5214052200317383,
+      "grad_norm_var": 33.933755082592214,
+      "learning_rate": 2e-05,
+      "loss": 0.5531,
+      "loss/crossentropy": 2.5637893676757812,
+      "loss/hidden": 0.275390625,
+      "loss/logits": 0.04713789001107216,
+      "loss/reg": 0.023060709238052368,
+      "step": 1630
+    },
+    {
+      "epoch": 0.8155,
+      "grad_norm": 1.2581124305725098,
+      "grad_norm_var": 33.92913341630277,
+      "learning_rate": 2e-05,
+      "loss": 0.4302,
+      "loss/crossentropy": 2.1320899724960327,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.03112439066171646,
+      "loss/reg": 0.023058375343680382,
+      "step": 1631
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 2.5482232570648193,
+      "grad_norm_var": 33.94348873438556,
+      "learning_rate": 2e-05,
+      "loss": 0.6642,
+      "loss/crossentropy": 1.9117431640625,
+      "loss/hidden": 0.37109375,
+      "loss/logits": 0.0625968836247921,
+      "loss/reg": 0.02305583469569683,
+      "step": 1632
+    },
+    {
+      "epoch": 0.8165,
+      "grad_norm": 1.597198486328125,
+      "grad_norm_var": 34.008253404182256,
+      "learning_rate": 2e-05,
+      "loss": 0.4802,
+      "loss/crossentropy": 2.3248562812805176,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.04361774958670139,
+      "loss/reg": 0.023053383454680443,
+      "step": 1633
+    },
+    {
+      "epoch": 0.817,
+      "grad_norm": 1.1865489482879639,
+      "grad_norm_var": 34.018377825217904,
+      "learning_rate": 2e-05,
+      "loss": 0.4076,
+      "loss/crossentropy": 2.3980835676193237,
+      "loss/hidden": 0.1484375,
+      "loss/logits": 0.028623439371585846,
+      "loss/reg": 0.023050816729664803,
+      "step": 1634
+    },
+    {
+      "epoch": 0.8175,
+      "grad_norm": 1.4046670198440552,
+      "grad_norm_var": 34.09393493073639,
+      "learning_rate": 2e-05,
+      "loss": 0.4186,
+      "loss/crossentropy": 2.367344379425049,
+      "loss/hidden": 0.15771484375,
+      "loss/logits": 0.030404978431761265,
+      "loss/reg": 0.023048415780067444,
+      "step": 1635
+    },
+    {
+      "epoch": 0.818,
+      "grad_norm": 1.5358824729919434,
+      "grad_norm_var": 34.04713949789893,
+      "learning_rate": 2e-05,
+      "loss": 0.3885,
+      "loss/crossentropy": 2.635706663131714,
+      "loss/hidden": 0.1318359375,
+      "loss/logits": 0.026234203949570656,
+      "loss/reg": 0.02304593101143837,
+      "step": 1636
+    },
+    {
+      "epoch": 0.8185,
+      "grad_norm": 1.2111634016036987,
+      "grad_norm_var": 34.174986550380915,
+      "learning_rate": 2e-05,
+      "loss": 0.4149,
+      "loss/crossentropy": 2.4690955877304077,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.0316432137042284,
+      "loss/reg": 0.023043323308229446,
+      "step": 1637
+    },
+    {
+      "epoch": 0.819,
+      "grad_norm": 1.3363852500915527,
+      "grad_norm_var": 34.20825665031358,
+      "learning_rate": 2e-05,
+      "loss": 0.4009,
+      "loss/crossentropy": 2.242287516593933,
+      "loss/hidden": 0.14501953125,
+      "loss/logits": 0.025482993572950363,
+      "loss/reg": 0.023040831089019775,
+      "step": 1638
+    },
+    {
+      "epoch": 0.8195,
+      "grad_norm": 1.8490867614746094,
+      "grad_norm_var": 34.16469112797808,
+      "learning_rate": 2e-05,
+      "loss": 0.4946,
+      "loss/crossentropy": 2.4505655765533447,
+      "loss/hidden": 0.21337890625,
+      "loss/logits": 0.0508628049865365,
+      "loss/reg": 0.023038217797875404,
+      "step": 1639
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.4550219774246216,
+      "grad_norm_var": 34.12341073128782,
+      "learning_rate": 2e-05,
+      "loss": 0.4708,
+      "loss/crossentropy": 2.149672269821167,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.040755780413746834,
+      "loss/reg": 0.023035811260342598,
+      "step": 1640
+    },
+    {
+      "epoch": 0.8205,
+      "grad_norm": 1.5251140594482422,
+      "grad_norm_var": 34.12333527068636,
+      "learning_rate": 2e-05,
+      "loss": 0.4627,
+      "loss/crossentropy": 2.3447247743606567,
+      "loss/hidden": 0.197265625,
+      "loss/logits": 0.03514695540070534,
+      "loss/reg": 0.023033197969198227,
+      "step": 1641
+    },
+    {
+      "epoch": 0.821,
+      "grad_norm": 13.460094451904297,
+      "grad_norm_var": 40.59549407786183,
+      "learning_rate": 2e-05,
+      "loss": 0.5042,
+      "loss/crossentropy": 2.601618528366089,
+      "loss/hidden": 0.23779296875,
+      "loss/logits": 0.03612148202955723,
+      "loss/reg": 0.023030424490571022,
+      "step": 1642
+    },
+    {
+      "epoch": 0.8215,
+      "grad_norm": 1.2327735424041748,
+      "grad_norm_var": 40.78833425322313,
+      "learning_rate": 2e-05,
+      "loss": 0.4008,
+      "loss/crossentropy": 2.4731369018554688,
+      "loss/hidden": 0.140625,
+      "loss/logits": 0.02993260882794857,
+      "loss/reg": 0.023027580231428146,
+      "step": 1643
+    },
+    {
+      "epoch": 0.822,
+      "grad_norm": 1.524492859840393,
+      "grad_norm_var": 40.715868110383035,
+      "learning_rate": 2e-05,
+      "loss": 0.4387,
+      "loss/crossentropy": 2.4846259355545044,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.03361409995704889,
+      "loss/reg": 0.02302512526512146,
+      "step": 1644
+    },
+    {
+      "epoch": 0.8225,
+      "grad_norm": 1.2758790254592896,
+      "grad_norm_var": 9.018881776760608,
+      "learning_rate": 2e-05,
+      "loss": 0.434,
+      "loss/crossentropy": 2.2878633737564087,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.03582877665758133,
+      "loss/reg": 0.023022696375846863,
+      "step": 1645
+    },
+    {
+      "epoch": 0.823,
+      "grad_norm": 1.5986084938049316,
+      "grad_norm_var": 9.045800842250319,
+      "learning_rate": 2e-05,
+      "loss": 0.4196,
+      "loss/crossentropy": 2.3812626600265503,
+      "loss/hidden": 0.1591796875,
+      "loss/logits": 0.03021799586713314,
+      "loss/reg": 0.02302025444805622,
+      "step": 1646
+    },
+    {
+      "epoch": 0.8235,
+      "grad_norm": 1.4929598569869995,
+      "grad_norm_var": 9.018190421650518,
+      "learning_rate": 2e-05,
+      "loss": 0.4045,
+      "loss/crossentropy": 2.4511682987213135,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.025395757518708706,
+      "loss/reg": 0.02301778830587864,
+      "step": 1647
+    },
+    {
+      "epoch": 0.824,
+      "grad_norm": 1.4948441982269287,
+      "grad_norm_var": 9.047710234698881,
+      "learning_rate": 2e-05,
+      "loss": 0.4522,
+      "loss/crossentropy": 2.2096160650253296,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.03697221539914608,
+      "loss/reg": 0.023015225306153297,
+      "step": 1648
+    },
+    {
+      "epoch": 0.8245,
+      "grad_norm": 1.7332985401153564,
+      "grad_norm_var": 9.0379509596088,
+      "learning_rate": 2e-05,
+      "loss": 0.4668,
+      "loss/crossentropy": 2.3227975368499756,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.037440777756273746,
+      "loss/reg": 0.023012757301330566,
+      "step": 1649
+    },
+    {
+      "epoch": 0.825,
+      "grad_norm": 2.2488136291503906,
+      "grad_norm_var": 8.963901793690663,
+      "learning_rate": 2e-05,
+      "loss": 0.4448,
+      "loss/crossentropy": 2.352696657180786,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.0316165778785944,
+      "loss/reg": 0.023010345175862312,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8255,
+      "grad_norm": 1.5257325172424316,
+      "grad_norm_var": 8.950789974582705,
+      "learning_rate": 2e-05,
+      "loss": 0.4114,
+      "loss/crossentropy": 2.37747323513031,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.02410216350108385,
+      "loss/reg": 0.02300778217613697,
+      "step": 1651
+    },
+    {
+      "epoch": 0.826,
+      "grad_norm": 1.8591517210006714,
+      "grad_norm_var": 8.92519375229253,
+      "learning_rate": 2e-05,
+      "loss": 0.4952,
+      "loss/crossentropy": 2.2731701135635376,
+      "loss/hidden": 0.2119140625,
+      "loss/logits": 0.05323890969157219,
+      "loss/reg": 0.023005163297057152,
+      "step": 1652
+    },
+    {
+      "epoch": 0.8265,
+      "grad_norm": 1.6279247999191284,
+      "grad_norm_var": 8.875463367206468,
+      "learning_rate": 2e-05,
+      "loss": 0.4234,
+      "loss/crossentropy": 2.2822866439819336,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.030256139114499092,
+      "loss/reg": 0.02300269901752472,
+      "step": 1653
+    },
+    {
+      "epoch": 0.827,
+      "grad_norm": 1.2949538230895996,
+      "grad_norm_var": 8.881045821586516,
+      "learning_rate": 2e-05,
+      "loss": 0.4295,
+      "loss/crossentropy": 2.4483895301818848,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.0363735593855381,
+      "loss/reg": 0.023000460118055344,
+      "step": 1654
+    },
+    {
+      "epoch": 0.8275,
+      "grad_norm": 1.2874404191970825,
+      "grad_norm_var": 8.936394709625619,
+      "learning_rate": 2e-05,
+      "loss": 0.4334,
+      "loss/crossentropy": 2.3898115158081055,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.03548043966293335,
+      "loss/reg": 0.022998474538326263,
+      "step": 1655
+    },
+    {
+      "epoch": 0.828,
+      "grad_norm": 1.5840253829956055,
+      "grad_norm_var": 8.923075939282624,
+      "learning_rate": 2e-05,
+      "loss": 0.456,
+      "loss/crossentropy": 2.3553361892700195,
+      "loss/hidden": 0.1884765625,
+      "loss/logits": 0.03758828155696392,
+      "loss/reg": 0.022995930165052414,
+      "step": 1656
+    },
+    {
+      "epoch": 0.8285,
+      "grad_norm": 1.1669474840164185,
+      "grad_norm_var": 8.96799758421738,
+      "learning_rate": 2e-05,
+      "loss": 0.381,
+      "loss/crossentropy": 2.548807144165039,
+      "loss/hidden": 0.12744140625,
+      "loss/logits": 0.023608416318893433,
+      "loss/reg": 0.022993767634034157,
+      "step": 1657
+    },
+    {
+      "epoch": 0.829,
+      "grad_norm": 1.3104734420776367,
+      "grad_norm_var": 0.07534442062330123,
+      "learning_rate": 2e-05,
+      "loss": 0.4122,
+      "loss/crossentropy": 2.2222912311553955,
+      "loss/hidden": 0.154296875,
+      "loss/logits": 0.027987757697701454,
+      "loss/reg": 0.022991687059402466,
+      "step": 1658
+    },
+    {
+      "epoch": 0.8295,
+      "grad_norm": 2.410997152328491,
+      "grad_norm_var": 0.11759094401073747,
+      "learning_rate": 2e-05,
+      "loss": 0.6151,
+      "loss/crossentropy": 2.0733728408813477,
+      "loss/hidden": 0.333984375,
+      "loss/logits": 0.05117853730916977,
+      "loss/reg": 0.022989830002188683,
+      "step": 1659
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.55594003200531,
+      "grad_norm_var": 0.11737898907536574,
+      "learning_rate": 2e-05,
+      "loss": 0.4358,
+      "loss/crossentropy": 2.2041454315185547,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.03746410086750984,
+      "loss/reg": 0.022987263277173042,
+      "step": 1660
+    },
+    {
+      "epoch": 0.8305,
+      "grad_norm": 1.7716691493988037,
+      "grad_norm_var": 0.11186125740769033,
+      "learning_rate": 2e-05,
+      "loss": 0.3991,
+      "loss/crossentropy": 2.4366633892059326,
+      "loss/hidden": 0.14697265625,
+      "loss/logits": 0.02228802628815174,
+      "loss/reg": 0.02298472821712494,
+      "step": 1661
+    },
+    {
+      "epoch": 0.831,
+      "grad_norm": 1.4420490264892578,
+      "grad_norm_var": 0.11389684457441239,
+      "learning_rate": 2e-05,
+      "loss": 0.4123,
+      "loss/crossentropy": 2.599808931350708,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.025708637200295925,
+      "loss/reg": 0.02298245020210743,
+      "step": 1662
+    },
+    {
+      "epoch": 0.8315,
+      "grad_norm": 1.126309871673584,
+      "grad_norm_var": 0.12816484039347759,
+      "learning_rate": 2e-05,
+      "loss": 0.3985,
+      "loss/crossentropy": 2.2323700189590454,
+      "loss/hidden": 0.1396484375,
+      "loss/logits": 0.029093537479639053,
+      "loss/reg": 0.022979876026511192,
+      "step": 1663
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 1.8172188997268677,
+      "grad_norm_var": 0.13056853667108398,
+      "learning_rate": 2e-05,
+      "loss": 0.4711,
+      "loss/crossentropy": 2.5063730478286743,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.0425629410892725,
+      "loss/reg": 0.022977303713560104,
+      "step": 1664
+    },
+    {
+      "epoch": 0.8325,
+      "grad_norm": 3.0363452434539795,
+      "grad_norm_var": 0.2580790516701178,
+      "learning_rate": 2e-05,
+      "loss": 0.5382,
+      "loss/crossentropy": 2.3657928705215454,
+      "loss/hidden": 0.268310546875,
+      "loss/logits": 0.04010665416717529,
+      "loss/reg": 0.022974872961640358,
+      "step": 1665
+    },
+    {
+      "epoch": 0.833,
+      "grad_norm": 1.2701658010482788,
+      "grad_norm_var": 0.24523293891671988,
+      "learning_rate": 2e-05,
+      "loss": 0.3718,
+      "loss/crossentropy": 2.386319637298584,
+      "loss/hidden": 0.124267578125,
+      "loss/logits": 0.01782753597944975,
+      "loss/reg": 0.022972485050559044,
+      "step": 1666
+    },
+    {
+      "epoch": 0.8335,
+      "grad_norm": 2.1191272735595703,
+      "grad_norm_var": 0.2589543825866409,
+      "learning_rate": 2e-05,
+      "loss": 0.4094,
+      "loss/crossentropy": 2.2309489250183105,
+      "loss/hidden": 0.1494140625,
+      "loss/logits": 0.030267059803009033,
+      "loss/reg": 0.02296994999051094,
+      "step": 1667
+    },
+    {
+      "epoch": 0.834,
+      "grad_norm": 1.3244271278381348,
+      "grad_norm_var": 0.26316420886106257,
+      "learning_rate": 2e-05,
+      "loss": 0.4091,
+      "loss/crossentropy": 2.2874940633773804,
+      "loss/hidden": 0.1494140625,
+      "loss/logits": 0.03000403381884098,
+      "loss/reg": 0.02296753227710724,
+      "step": 1668
+    },
+    {
+      "epoch": 0.8345,
+      "grad_norm": 1.4092116355895996,
+      "grad_norm_var": 0.2663347603033822,
+      "learning_rate": 2e-05,
+      "loss": 0.4036,
+      "loss/crossentropy": 2.384338140487671,
+      "loss/hidden": 0.1474609375,
+      "loss/logits": 0.026476314291357994,
+      "loss/reg": 0.022965088486671448,
+      "step": 1669
+    },
+    {
+      "epoch": 0.835,
+      "grad_norm": 1.62082040309906,
+      "grad_norm_var": 0.2588288547408162,
+      "learning_rate": 2e-05,
+      "loss": 0.4793,
+      "loss/crossentropy": 2.1965416073799133,
+      "loss/hidden": 0.20751953125,
+      "loss/logits": 0.042130330577492714,
+      "loss/reg": 0.02296249382197857,
+      "step": 1670
+    },
+    {
+      "epoch": 0.8355,
+      "grad_norm": 2.5013601779937744,
+      "grad_norm_var": 0.29373184542219466,
+      "learning_rate": 2e-05,
+      "loss": 0.4534,
+      "loss/crossentropy": 2.3103402853012085,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.03484947420656681,
+      "loss/reg": 0.022959880530834198,
+      "step": 1671
+    },
+    {
+      "epoch": 0.836,
+      "grad_norm": 1.700095295906067,
+      "grad_norm_var": 0.2925206968647416,
+      "learning_rate": 2e-05,
+      "loss": 0.4456,
+      "loss/crossentropy": 2.3426826000213623,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.04122760146856308,
+      "loss/reg": 0.02295738458633423,
+      "step": 1672
+    },
+    {
+      "epoch": 0.8365,
+      "grad_norm": 2.7791571617126465,
+      "grad_norm_var": 0.3352385341546844,
+      "learning_rate": 2e-05,
+      "loss": 0.5213,
+      "loss/crossentropy": 2.452883005142212,
+      "loss/hidden": 0.248046875,
+      "loss/logits": 0.04374842904508114,
+      "loss/reg": 0.022954750806093216,
+      "step": 1673
+    },
+    {
+      "epoch": 0.837,
+      "grad_norm": 1.3409507274627686,
+      "grad_norm_var": 0.33320691501421645,
+      "learning_rate": 2e-05,
+      "loss": 0.4048,
+      "loss/crossentropy": 2.351631283760071,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.0263042114675045,
+      "loss/reg": 0.022952163591980934,
+      "step": 1674
+    },
+    {
+      "epoch": 0.8375,
+      "grad_norm": 1.8099993467330933,
+      "grad_norm_var": 0.3089535187739005,
+      "learning_rate": 2e-05,
+      "loss": 0.4723,
+      "loss/crossentropy": 2.3619593381881714,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.03580853994935751,
+      "loss/reg": 0.02294965460896492,
+      "step": 1675
+    },
+    {
+      "epoch": 0.838,
+      "grad_norm": 1.2641894817352295,
+      "grad_norm_var": 0.3233415272972024,
+      "learning_rate": 2e-05,
+      "loss": 0.4738,
+      "loss/crossentropy": 2.2749900817871094,
+      "loss/hidden": 0.197265625,
+      "loss/logits": 0.047040607780218124,
+      "loss/reg": 0.022947140038013458,
+      "step": 1676
+    },
+    {
+      "epoch": 0.8385,
+      "grad_norm": 1.43521249294281,
+      "grad_norm_var": 0.3303785607627444,
+      "learning_rate": 2e-05,
+      "loss": 0.4134,
+      "loss/crossentropy": 2.2958513498306274,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.02822498418390751,
+      "loss/reg": 0.02294457145035267,
+      "step": 1677
+    },
+    {
+      "epoch": 0.839,
+      "grad_norm": 1.880581259727478,
+      "grad_norm_var": 0.32440405684143336,
+      "learning_rate": 2e-05,
+      "loss": 0.5203,
+      "loss/crossentropy": 2.5314308404922485,
+      "loss/hidden": 0.23583984375,
+      "loss/logits": 0.05500957649201155,
+      "loss/reg": 0.022941984236240387,
+      "step": 1678
+    },
+    {
+      "epoch": 0.8395,
+      "grad_norm": 1.4752358198165894,
+      "grad_norm_var": 0.3017318093173941,
+      "learning_rate": 2e-05,
+      "loss": 0.4043,
+      "loss/crossentropy": 2.373136043548584,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.026981882750988007,
+      "loss/reg": 0.022939518094062805,
+      "step": 1679
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.6214615106582642,
+      "grad_norm_var": 0.3036514979065638,
+      "learning_rate": 2e-05,
+      "loss": 0.4526,
+      "loss/crossentropy": 2.3645347356796265,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.038687046617269516,
+      "loss/reg": 0.022937096655368805,
+      "step": 1680
+    },
+    {
+      "epoch": 0.8405,
+      "grad_norm": 2.2418832778930664,
+      "grad_norm_var": 0.2107344148931207,
+      "learning_rate": 2e-05,
+      "loss": 0.4214,
+      "loss/crossentropy": 2.4823267459869385,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.02803431637585163,
+      "loss/reg": 0.022934794425964355,
+      "step": 1681
+    },
+    {
+      "epoch": 0.841,
+      "grad_norm": 2.971312999725342,
+      "grad_norm_var": 0.2856894840213674,
+      "learning_rate": 2e-05,
+      "loss": 0.6283,
+      "loss/crossentropy": 2.1208351850509644,
+      "loss/hidden": 0.37158203125,
+      "loss/logits": 0.02735395822674036,
+      "loss/reg": 0.02293219417333603,
+      "step": 1682
+    },
+    {
+      "epoch": 0.8415,
+      "grad_norm": 1.5801922082901,
+      "grad_norm_var": 0.28403227039487244,
+      "learning_rate": 2e-05,
+      "loss": 0.3926,
+      "loss/crossentropy": 2.56937313079834,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.02419054415076971,
+      "loss/reg": 0.022929731756448746,
+      "step": 1683
+    },
+    {
+      "epoch": 0.842,
+      "grad_norm": 2.2374184131622314,
+      "grad_norm_var": 0.2770492394930005,
+      "learning_rate": 2e-05,
+      "loss": 0.5308,
+      "loss/crossentropy": 2.353764295578003,
+      "loss/hidden": 0.25732421875,
+      "loss/logits": 0.044213516637682915,
+      "loss/reg": 0.02292727865278721,
+      "step": 1684
+    },
+    {
+      "epoch": 0.8425,
+      "grad_norm": 1.4383546113967896,
+      "grad_norm_var": 0.2753241881358552,
+      "learning_rate": 2e-05,
+      "loss": 0.4721,
+      "loss/crossentropy": 2.1140084862709045,
+      "loss/hidden": 0.20703125,
+      "loss/logits": 0.03579618874937296,
+      "loss/reg": 0.02292483299970627,
+      "step": 1685
+    },
+    {
+      "epoch": 0.843,
+      "grad_norm": 1.4581494331359863,
+      "grad_norm_var": 0.2823531072303079,
+      "learning_rate": 2e-05,
+      "loss": 0.4387,
+      "loss/crossentropy": 2.34401535987854,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.030774756334722042,
+      "loss/reg": 0.022922255098819733,
+      "step": 1686
+    },
+    {
+      "epoch": 0.8435,
+      "grad_norm": 1.4093376398086548,
+      "grad_norm_var": 0.263278753257605,
+      "learning_rate": 2e-05,
+      "loss": 0.4136,
+      "loss/crossentropy": 2.465882182121277,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.032055970281362534,
+      "loss/reg": 0.022919660434126854,
+      "step": 1687
+    },
+    {
+      "epoch": 0.844,
+      "grad_norm": 1.5240459442138672,
+      "grad_norm_var": 0.2673313757129769,
+      "learning_rate": 2e-05,
+      "loss": 0.398,
+      "loss/crossentropy": 2.320050001144409,
+      "loss/hidden": 0.141845703125,
+      "loss/logits": 0.026945553719997406,
+      "loss/reg": 0.022917049005627632,
+      "step": 1688
+    },
+    {
+      "epoch": 0.8445,
+      "grad_norm": 7.262933731079102,
+      "grad_norm_var": 2.121647862424502,
+      "learning_rate": 2e-05,
+      "loss": 0.9268,
+      "loss/crossentropy": 2.2761436700820923,
+      "loss/hidden": 0.48876953125,
+      "loss/logits": 0.20890014059841633,
+      "loss/reg": 0.022914528846740723,
+      "step": 1689
+    },
+    {
+      "epoch": 0.845,
+      "grad_norm": 1.4794998168945312,
+      "grad_norm_var": 2.1095745457299615,
+      "learning_rate": 2e-05,
+      "loss": 0.4308,
+      "loss/crossentropy": 2.334906578063965,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.029798144474625587,
+      "loss/reg": 0.022911950945854187,
+      "step": 1690
+    },
+    {
+      "epoch": 0.8455,
+      "grad_norm": 1.4296311140060425,
+      "grad_norm_var": 2.1317074764367883,
+      "learning_rate": 2e-05,
+      "loss": 0.4302,
+      "loss/crossentropy": 2.331926465034485,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.0355403907597065,
+      "loss/reg": 0.02290956676006317,
+      "step": 1691
+    },
+    {
+      "epoch": 0.846,
+      "grad_norm": 2.1096997261047363,
+      "grad_norm_var": 2.0884379174542818,
+      "learning_rate": 2e-05,
+      "loss": 0.4455,
+      "loss/crossentropy": 2.557571768760681,
+      "loss/hidden": 0.177734375,
+      "loss/logits": 0.03866210114210844,
+      "loss/reg": 0.022907033562660217,
+      "step": 1692
+    },
+    {
+      "epoch": 0.8465,
+      "grad_norm": 1.6497454643249512,
+      "grad_norm_var": 2.072379136217235,
+      "learning_rate": 2e-05,
+      "loss": 0.4447,
+      "loss/crossentropy": 2.39884877204895,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.03204050101339817,
+      "loss/reg": 0.022904478013515472,
+      "step": 1693
+    },
+    {
+      "epoch": 0.847,
+      "grad_norm": 3.0329835414886475,
+      "grad_norm_var": 2.120038982631581,
+      "learning_rate": 2e-05,
+      "loss": 0.6206,
+      "loss/crossentropy": 2.4439542293548584,
+      "loss/hidden": 0.294921875,
+      "loss/logits": 0.09666961058974266,
+      "loss/reg": 0.022901998832821846,
+      "step": 1694
+    },
+    {
+      "epoch": 0.8475,
+      "grad_norm": 1.6038068532943726,
+      "grad_norm_var": 2.1089456280954626,
+      "learning_rate": 2e-05,
+      "loss": 0.4652,
+      "loss/crossentropy": 2.129871666431427,
+      "loss/hidden": 0.19921875,
+      "loss/logits": 0.03698125295341015,
+      "loss/reg": 0.022899584844708443,
+      "step": 1695
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 1.957082986831665,
+      "grad_norm_var": 2.0905146641594694,
+      "learning_rate": 2e-05,
+      "loss": 0.4753,
+      "loss/crossentropy": 2.3653637170791626,
+      "loss/hidden": 0.19970703125,
+      "loss/logits": 0.04664120636880398,
+      "loss/reg": 0.02289716713130474,
+      "step": 1696
+    },
+    {
+      "epoch": 0.8485,
+      "grad_norm": 1.42384672164917,
+      "grad_norm_var": 2.129038865225132,
+      "learning_rate": 2e-05,
+      "loss": 0.3962,
+      "loss/crossentropy": 2.5141024589538574,
+      "loss/hidden": 0.140625,
+      "loss/logits": 0.026606767438352108,
+      "loss/reg": 0.022894656285643578,
+      "step": 1697
+    },
+    {
+      "epoch": 0.849,
+      "grad_norm": 1.4435638189315796,
+      "grad_norm_var": 2.1097529678037024,
+      "learning_rate": 2e-05,
+      "loss": 0.4624,
+      "loss/crossentropy": 2.211042284965515,
+      "loss/hidden": 0.19580078125,
+      "loss/logits": 0.0376845495775342,
+      "loss/reg": 0.02289220504462719,
+      "step": 1698
+    },
+    {
+      "epoch": 0.8495,
+      "grad_norm": 1.3736546039581299,
+      "grad_norm_var": 2.125770387110932,
+      "learning_rate": 2e-05,
+      "loss": 0.4857,
+      "loss/crossentropy": 2.224379062652588,
+      "loss/hidden": 0.21533203125,
+      "loss/logits": 0.041461410000920296,
+      "loss/reg": 0.02288985066115856,
+      "step": 1699
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.2207798957824707,
+      "grad_norm_var": 2.1652485676396744,
+      "learning_rate": 2e-05,
+      "loss": 0.4432,
+      "loss/crossentropy": 2.3198060989379883,
+      "loss/hidden": 0.17919921875,
+      "loss/logits": 0.03512590378522873,
+      "loss/reg": 0.022887248545885086,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8505,
+      "grad_norm": 3.1013894081115723,
+      "grad_norm_var": 2.2161002754379138,
+      "learning_rate": 2e-05,
+      "loss": 0.4683,
+      "loss/crossentropy": 2.369223117828369,
+      "loss/hidden": 0.2021484375,
+      "loss/logits": 0.03727924171835184,
+      "loss/reg": 0.02288457751274109,
+      "step": 1701
+    },
+    {
+      "epoch": 0.851,
+      "grad_norm": 1.519582986831665,
+      "grad_norm_var": 2.2111400237679426,
+      "learning_rate": 2e-05,
+      "loss": 0.4225,
+      "loss/crossentropy": 2.1703940629959106,
+      "loss/hidden": 0.1669921875,
+      "loss/logits": 0.02673946786671877,
+      "loss/reg": 0.022881818935275078,
+      "step": 1702
+    },
+    {
+      "epoch": 0.8515,
+      "grad_norm": 1.3196645975112915,
+      "grad_norm_var": 2.219856788865909,
+      "learning_rate": 2e-05,
+      "loss": 0.3877,
+      "loss/crossentropy": 2.4375799894332886,
+      "loss/hidden": 0.1357421875,
+      "loss/logits": 0.02319456171244383,
+      "loss/reg": 0.02287893183529377,
+      "step": 1703
+    },
+    {
+      "epoch": 0.852,
+      "grad_norm": 1.607952356338501,
+      "grad_norm_var": 2.2139568549493474,
+      "learning_rate": 2e-05,
+      "loss": 0.4585,
+      "loss/crossentropy": 2.397140145301819,
+      "loss/hidden": 0.18994140625,
+      "loss/logits": 0.039843300357460976,
+      "loss/reg": 0.022875996306538582,
+      "step": 1704
+    },
+    {
+      "epoch": 0.8525,
+      "grad_norm": 1.3758463859558105,
+      "grad_norm_var": 0.32430155493763096,
+      "learning_rate": 2e-05,
+      "loss": 0.4734,
+      "loss/crossentropy": 2.4673901796340942,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.05126242712140083,
+      "loss/reg": 0.022873075678944588,
+      "step": 1705
+    },
+    {
+      "epoch": 0.853,
+      "grad_norm": 1.749706506729126,
+      "grad_norm_var": 0.31991028408618616,
+      "learning_rate": 2e-05,
+      "loss": 0.4687,
+      "loss/crossentropy": 2.74143385887146,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.046618303284049034,
+      "loss/reg": 0.022870399057865143,
+      "step": 1706
+    },
+    {
+      "epoch": 0.8535,
+      "grad_norm": 2.9021739959716797,
+      "grad_norm_var": 0.3935280096896221,
+      "learning_rate": 2e-05,
+      "loss": 0.61,
+      "loss/crossentropy": 2.360695719718933,
+      "loss/hidden": 0.33447265625,
+      "loss/logits": 0.046809954568743706,
+      "loss/reg": 0.022867854684591293,
+      "step": 1707
+    },
+    {
+      "epoch": 0.854,
+      "grad_norm": 1.5873744487762451,
+      "grad_norm_var": 0.3915854985762199,
+      "learning_rate": 2e-05,
+      "loss": 0.5241,
+      "loss/crossentropy": 2.2110289335250854,
+      "loss/hidden": 0.240234375,
+      "loss/logits": 0.05524888634681702,
+      "loss/reg": 0.022865328937768936,
+      "step": 1708
+    },
+    {
+      "epoch": 0.8545,
+      "grad_norm": 2.6934444904327393,
+      "grad_norm_var": 0.4381563541382609,
+      "learning_rate": 2e-05,
+      "loss": 0.4892,
+      "loss/crossentropy": 1.9379909038543701,
+      "loss/hidden": 0.23095703125,
+      "loss/logits": 0.029659108258783817,
+      "loss/reg": 0.02286284975707531,
+      "step": 1709
+    },
+    {
+      "epoch": 0.855,
+      "grad_norm": 1.629195213317871,
+      "grad_norm_var": 0.3435589120556684,
+      "learning_rate": 2e-05,
+      "loss": 0.4169,
+      "loss/crossentropy": 2.4776086807250977,
+      "loss/hidden": 0.15576171875,
+      "loss/logits": 0.032544512301683426,
+      "loss/reg": 0.022860383614897728,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8555,
+      "grad_norm": 2.148226022720337,
+      "grad_norm_var": 0.3491618389264744,
+      "learning_rate": 2e-05,
+      "loss": 0.485,
+      "loss/crossentropy": 2.5047671794891357,
+      "loss/hidden": 0.205078125,
+      "loss/logits": 0.05138644762337208,
+      "loss/reg": 0.02285795472562313,
+      "step": 1711
+    },
+    {
+      "epoch": 0.856,
+      "grad_norm": 1.456741452217102,
+      "grad_norm_var": 0.35538574638478854,
+      "learning_rate": 2e-05,
+      "loss": 0.404,
+      "loss/crossentropy": 2.458739399909973,
+      "loss/hidden": 0.14892578125,
+      "loss/logits": 0.0265263793990016,
+      "loss/reg": 0.02285546064376831,
+      "step": 1712
+    },
+    {
+      "epoch": 0.8565,
+      "grad_norm": 1.3901511430740356,
+      "grad_norm_var": 0.3570773520934078,
+      "learning_rate": 2e-05,
+      "loss": 0.4505,
+      "loss/crossentropy": 2.324171304702759,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.03695343807339668,
+      "loss/reg": 0.022852910682559013,
+      "step": 1713
+    },
+    {
+      "epoch": 0.857,
+      "grad_norm": 1.6300503015518188,
+      "grad_norm_var": 0.35082418432478046,
+      "learning_rate": 2e-05,
+      "loss": 0.4168,
+      "loss/crossentropy": 2.6420832872390747,
+      "loss/hidden": 0.15771484375,
+      "loss/logits": 0.030615486204624176,
+      "loss/reg": 0.02285032905638218,
+      "step": 1714
+    },
+    {
+      "epoch": 0.8575,
+      "grad_norm": 1.3466908931732178,
+      "grad_norm_var": 0.35238126851175644,
+      "learning_rate": 2e-05,
+      "loss": 0.3992,
+      "loss/crossentropy": 2.43982470035553,
+      "loss/hidden": 0.1455078125,
+      "loss/logits": 0.025227680802345276,
+      "loss/reg": 0.022847697138786316,
+      "step": 1715
+    },
+    {
+      "epoch": 0.858,
+      "grad_norm": 2.9759249687194824,
+      "grad_norm_var": 0.41113615805510123,
+      "learning_rate": 2e-05,
+      "loss": 0.3993,
+      "loss/crossentropy": 2.382121205329895,
+      "loss/hidden": 0.148681640625,
+      "loss/logits": 0.02220490388572216,
+      "loss/reg": 0.022845016792416573,
+      "step": 1716
+    },
+    {
+      "epoch": 0.8585,
+      "grad_norm": 1.4040857553482056,
+      "grad_norm_var": 0.3197881529322027,
+      "learning_rate": 2e-05,
+      "loss": 0.4771,
+      "loss/crossentropy": 2.0994767546653748,
+      "loss/hidden": 0.20849609375,
+      "loss/logits": 0.04016950540244579,
+      "loss/reg": 0.022842474281787872,
+      "step": 1717
+    },
+    {
+      "epoch": 0.859,
+      "grad_norm": 1.6990382671356201,
+      "grad_norm_var": 0.3151857693459073,
+      "learning_rate": 2e-05,
+      "loss": 0.5367,
+      "loss/crossentropy": 2.323665142059326,
+      "loss/hidden": 0.27392578125,
+      "loss/logits": 0.034341275691986084,
+      "loss/reg": 0.022839896380901337,
+      "step": 1718
+    },
+    {
+      "epoch": 0.8595,
+      "grad_norm": 1.2173619270324707,
+      "grad_norm_var": 0.3224909500736409,
+      "learning_rate": 2e-05,
+      "loss": 0.4331,
+      "loss/crossentropy": 2.1206226348876953,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.031357141211628914,
+      "loss/reg": 0.02283727563917637,
+      "step": 1719
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.2023870944976807,
+      "grad_norm_var": 0.3292850127322119,
+      "learning_rate": 2e-05,
+      "loss": 0.5505,
+      "loss/crossentropy": 2.327507257461548,
+      "loss/hidden": 0.27001953125,
+      "loss/logits": 0.052125243470072746,
+      "loss/reg": 0.022834734991192818,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8605,
+      "grad_norm": 1.5860549211502075,
+      "grad_norm_var": 0.319092889556803,
+      "learning_rate": 2e-05,
+      "loss": 0.4335,
+      "loss/crossentropy": 2.394924759864807,
+      "loss/hidden": 0.173828125,
+      "loss/logits": 0.031398216262459755,
+      "loss/reg": 0.022832229733467102,
+      "step": 1721
+    },
+    {
+      "epoch": 0.861,
+      "grad_norm": 2.052626132965088,
+      "grad_norm_var": 0.3207301547447267,
+      "learning_rate": 2e-05,
+      "loss": 0.4896,
+      "loss/crossentropy": 2.6150401830673218,
+      "loss/hidden": 0.21728515625,
+      "loss/logits": 0.04404893517494202,
+      "loss/reg": 0.02282971516251564,
+      "step": 1722
+    },
+    {
+      "epoch": 0.8615,
+      "grad_norm": 1.9768868684768677,
+      "grad_norm_var": 0.246910721101532,
+      "learning_rate": 2e-05,
+      "loss": 0.5072,
+      "loss/crossentropy": 2.564804196357727,
+      "loss/hidden": 0.23876953125,
+      "loss/logits": 0.040187520906329155,
+      "loss/reg": 0.022827180102467537,
+      "step": 1723
+    },
+    {
+      "epoch": 0.862,
+      "grad_norm": 1.905512809753418,
+      "grad_norm_var": 0.2436969642283363,
+      "learning_rate": 2e-05,
+      "loss": 0.4706,
+      "loss/crossentropy": 2.4824973344802856,
+      "loss/hidden": 0.21337890625,
+      "loss/logits": 0.028959065675735474,
+      "loss/reg": 0.02282462827861309,
+      "step": 1724
+    },
+    {
+      "epoch": 0.8625,
+      "grad_norm": 1.9956358671188354,
+      "grad_norm_var": 0.19399456280608826,
+      "learning_rate": 2e-05,
+      "loss": 0.4786,
+      "loss/crossentropy": 2.287666082382202,
+      "loss/hidden": 0.20751953125,
+      "loss/logits": 0.042856570333242416,
+      "loss/reg": 0.022822000086307526,
+      "step": 1725
+    },
+    {
+      "epoch": 0.863,
+      "grad_norm": 1.5660924911499023,
+      "grad_norm_var": 0.19558407654289164,
+      "learning_rate": 2e-05,
+      "loss": 0.4187,
+      "loss/crossentropy": 2.3453445434570312,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.025976940989494324,
+      "loss/reg": 0.022819381207227707,
+      "step": 1726
+    },
+    {
+      "epoch": 0.8635,
+      "grad_norm": 1.2870204448699951,
+      "grad_norm_var": 0.2001835773595658,
+      "learning_rate": 2e-05,
+      "loss": 0.4523,
+      "loss/crossentropy": 2.185749650001526,
+      "loss/hidden": 0.185546875,
+      "loss/logits": 0.038570983335375786,
+      "loss/reg": 0.022816654294729233,
+      "step": 1727
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 1.5679943561553955,
+      "grad_norm_var": 0.19689234439128783,
+      "learning_rate": 2e-05,
+      "loss": 0.48,
+      "loss/crossentropy": 2.1167298555374146,
+      "loss/hidden": 0.21630859375,
+      "loss/logits": 0.0355659443885088,
+      "loss/reg": 0.022814186289906502,
+      "step": 1728
+    },
+    {
+      "epoch": 0.8645,
+      "grad_norm": 1.7449185848236084,
+      "grad_norm_var": 0.1883177922944227,
+      "learning_rate": 2e-05,
+      "loss": 0.4252,
+      "loss/crossentropy": 2.49346387386322,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.03502298891544342,
+      "loss/reg": 0.022811725735664368,
+      "step": 1729
+    },
+    {
+      "epoch": 0.865,
+      "grad_norm": 1.6579017639160156,
+      "grad_norm_var": 0.18788410072038247,
+      "learning_rate": 2e-05,
+      "loss": 0.52,
+      "loss/crossentropy": 2.4262338876724243,
+      "loss/hidden": 0.24169921875,
+      "loss/logits": 0.05023909732699394,
+      "loss/reg": 0.0228092223405838,
+      "step": 1730
+    },
+    {
+      "epoch": 0.8655,
+      "grad_norm": 1.4867043495178223,
+      "grad_norm_var": 0.18136299973852205,
+      "learning_rate": 2e-05,
+      "loss": 0.4134,
+      "loss/crossentropy": 2.3994067907333374,
+      "loss/hidden": 0.1552734375,
+      "loss/logits": 0.03004833124577999,
+      "loss/reg": 0.022806638851761818,
+      "step": 1731
+    },
+    {
+      "epoch": 0.866,
+      "grad_norm": 1.3810359239578247,
+      "grad_norm_var": 0.08398193136193673,
+      "learning_rate": 2e-05,
+      "loss": 0.4072,
+      "loss/crossentropy": 2.3403743505477905,
+      "loss/hidden": 0.1533203125,
+      "loss/logits": 0.025856359861791134,
+      "loss/reg": 0.02280416525900364,
+      "step": 1732
+    },
+    {
+      "epoch": 0.8665,
+      "grad_norm": 1.6184099912643433,
+      "grad_norm_var": 0.0792338392069519,
+      "learning_rate": 2e-05,
+      "loss": 0.416,
+      "loss/crossentropy": 2.6625880002975464,
+      "loss/hidden": 0.15234375,
+      "loss/logits": 0.03561602905392647,
+      "loss/reg": 0.022801598533988,
+      "step": 1733
+    },
+    {
+      "epoch": 0.867,
+      "grad_norm": 2.438000202178955,
+      "grad_norm_var": 0.11483483909980136,
+      "learning_rate": 2e-05,
+      "loss": 0.4855,
+      "loss/crossentropy": 2.478938102722168,
+      "loss/hidden": 0.20556640625,
+      "loss/logits": 0.05192135088145733,
+      "loss/reg": 0.022799065336585045,
+      "step": 1734
+    },
+    {
+      "epoch": 0.8675,
+      "grad_norm": 1.7405439615249634,
+      "grad_norm_var": 0.09616209020188246,
+      "learning_rate": 2e-05,
+      "loss": 0.5137,
+      "loss/crossentropy": 2.30058753490448,
+      "loss/hidden": 0.23095703125,
+      "loss/logits": 0.05478241667151451,
+      "loss/reg": 0.022796491160988808,
+      "step": 1735
+    },
+    {
+      "epoch": 0.868,
+      "grad_norm": 1.431205153465271,
+      "grad_norm_var": 0.08815077463142741,
+      "learning_rate": 2e-05,
+      "loss": 0.4983,
+      "loss/crossentropy": 2.2017308473587036,
+      "loss/hidden": 0.2216796875,
+      "loss/logits": 0.0487048402428627,
+      "loss/reg": 0.022793902084231377,
+      "step": 1736
+    },
+    {
+      "epoch": 0.8685,
+      "grad_norm": 9.956767082214355,
+      "grad_norm_var": 4.3237782917981535,
+      "learning_rate": 2e-05,
+      "loss": 1.0532,
+      "loss/crossentropy": 3.484397292137146,
+      "loss/hidden": 0.634765625,
+      "loss/logits": 0.19047586619853973,
+      "loss/reg": 0.022791236639022827,
+      "step": 1737
+    },
+    {
+      "epoch": 0.869,
+      "grad_norm": 1.2082791328430176,
+      "grad_norm_var": 4.389199988572325,
+      "learning_rate": 2e-05,
+      "loss": 0.4212,
+      "loss/crossentropy": 2.3602211475372314,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.03119662031531334,
+      "loss/reg": 0.02278871089220047,
+      "step": 1738
+    },
+    {
+      "epoch": 0.8695,
+      "grad_norm": 1.8653035163879395,
+      "grad_norm_var": 4.393077132745998,
+      "learning_rate": 2e-05,
+      "loss": 0.563,
+      "loss/crossentropy": 1.9802654385566711,
+      "loss/hidden": 0.29443359375,
+      "loss/logits": 0.04070642963051796,
+      "loss/reg": 0.022786037996411324,
+      "step": 1739
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.7705045938491821,
+      "grad_norm_var": 4.399125143377921,
+      "learning_rate": 2e-05,
+      "loss": 0.4537,
+      "loss/crossentropy": 2.4105314016342163,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.032505772076547146,
+      "loss/reg": 0.022783316671848297,
+      "step": 1740
+    },
+    {
+      "epoch": 0.8705,
+      "grad_norm": 1.8441373109817505,
+      "grad_norm_var": 4.404077104357423,
+      "learning_rate": 2e-05,
+      "loss": 0.4757,
+      "loss/crossentropy": 2.494503378868103,
+      "loss/hidden": 0.21533203125,
+      "loss/logits": 0.03259473852813244,
+      "loss/reg": 0.022780809551477432,
+      "step": 1741
+    },
+    {
+      "epoch": 0.871,
+      "grad_norm": 1.637903094291687,
+      "grad_norm_var": 4.3987100041283655,
+      "learning_rate": 2e-05,
+      "loss": 0.4373,
+      "loss/crossentropy": 2.5231049060821533,
+      "loss/hidden": 0.17529296875,
+      "loss/logits": 0.03421847615391016,
+      "loss/reg": 0.022778036072850227,
+      "step": 1742
+    },
+    {
+      "epoch": 0.8715,
+      "grad_norm": 1.2547270059585571,
+      "grad_norm_var": 4.402554673430745,
+      "learning_rate": 2e-05,
+      "loss": 0.4012,
+      "loss/crossentropy": 2.4014939069747925,
+      "loss/hidden": 0.14404296875,
+      "loss/logits": 0.029431598260998726,
+      "loss/reg": 0.02277528867125511,
+      "step": 1743
+    },
+    {
+      "epoch": 0.872,
+      "grad_norm": 1.684816598892212,
+      "grad_norm_var": 4.394143219321391,
+      "learning_rate": 2e-05,
+      "loss": 0.4864,
+      "loss/crossentropy": 2.567805290222168,
+      "loss/hidden": 0.212890625,
+      "loss/logits": 0.04573212191462517,
+      "loss/reg": 0.022772807627916336,
+      "step": 1744
+    },
+    {
+      "epoch": 0.8725,
+      "grad_norm": 1.8819024562835693,
+      "grad_norm_var": 4.387550777046777,
+      "learning_rate": 2e-05,
+      "loss": 0.5153,
+      "loss/crossentropy": 2.206387996673584,
+      "loss/hidden": 0.23828125,
+      "loss/logits": 0.049341777339577675,
+      "loss/reg": 0.022770432755351067,
+      "step": 1745
+    },
+    {
+      "epoch": 0.873,
+      "grad_norm": 1.7741963863372803,
+      "grad_norm_var": 4.380321608464935,
+      "learning_rate": 2e-05,
+      "loss": 0.4103,
+      "loss/crossentropy": 2.610047698020935,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.022908887825906277,
+      "loss/reg": 0.022767851129174232,
+      "step": 1746
+    },
+    {
+      "epoch": 0.8735,
+      "grad_norm": 3.9074506759643555,
+      "grad_norm_var": 4.520894958490501,
+      "learning_rate": 2e-05,
+      "loss": 0.6931,
+      "loss/crossentropy": 2.1363461017608643,
+      "loss/hidden": 0.365234375,
+      "loss/logits": 0.10018501989543438,
+      "loss/reg": 0.02276543714106083,
+      "step": 1747
+    },
+    {
+      "epoch": 0.874,
+      "grad_norm": 1.198498249053955,
+      "grad_norm_var": 4.546248895237187,
+      "learning_rate": 2e-05,
+      "loss": 0.4262,
+      "loss/crossentropy": 2.4276458024978638,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.030584653839468956,
+      "loss/reg": 0.022762905806303024,
+      "step": 1748
+    },
+    {
+      "epoch": 0.8745,
+      "grad_norm": 1.802208662033081,
+      "grad_norm_var": 4.531024858198469,
+      "learning_rate": 2e-05,
+      "loss": 0.4372,
+      "loss/crossentropy": 2.446824789047241,
+      "loss/hidden": 0.18017578125,
+      "loss/logits": 0.029467890039086342,
+      "loss/reg": 0.02276029624044895,
+      "step": 1749
+    },
+    {
+      "epoch": 0.875,
+      "grad_norm": 1.8234444856643677,
+      "grad_norm_var": 4.546376504661152,
+      "learning_rate": 2e-05,
+      "loss": 0.4537,
+      "loss/crossentropy": 2.524027705192566,
+      "loss/hidden": 0.18603515625,
+      "loss/logits": 0.04007681459188461,
+      "loss/reg": 0.022757630795240402,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8755,
+      "grad_norm": 1.8809150457382202,
+      "grad_norm_var": 4.537158333397111,
+      "learning_rate": 2e-05,
+      "loss": 0.4648,
+      "loss/crossentropy": 2.4926512241363525,
+      "loss/hidden": 0.20556640625,
+      "loss/logits": 0.03168141841888428,
+      "loss/reg": 0.02275506965816021,
+      "step": 1751
+    },
+    {
+      "epoch": 0.876,
+      "grad_norm": 1.2176272869110107,
+      "grad_norm_var": 4.564967615041626,
+      "learning_rate": 2e-05,
+      "loss": 0.4126,
+      "loss/crossentropy": 2.351579189300537,
+      "loss/hidden": 0.15869140625,
+      "loss/logits": 0.026421986520290375,
+      "loss/reg": 0.022752393037080765,
+      "step": 1752
+    },
+    {
+      "epoch": 0.8765,
+      "grad_norm": 2.546253204345703,
+      "grad_norm_var": 0.4261500613285089,
+      "learning_rate": 2e-05,
+      "loss": 0.4591,
+      "loss/crossentropy": 2.254626989364624,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.039690613746643066,
+      "loss/reg": 0.022749925032258034,
+      "step": 1753
+    },
+    {
+      "epoch": 0.877,
+      "grad_norm": 1.4721755981445312,
+      "grad_norm_var": 0.4085867001765545,
+      "learning_rate": 2e-05,
+      "loss": 0.4259,
+      "loss/crossentropy": 2.4233288764953613,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.03093926515430212,
+      "loss/reg": 0.022747157141566277,
+      "step": 1754
+    },
+    {
+      "epoch": 0.8775,
+      "grad_norm": 1.2497280836105347,
+      "grad_norm_var": 0.43081935423290685,
+      "learning_rate": 2e-05,
+      "loss": 0.3901,
+      "loss/crossentropy": 2.395901918411255,
+      "loss/hidden": 0.138916015625,
+      "loss/logits": 0.023775647394359112,
+      "loss/reg": 0.022744452580809593,
+      "step": 1755
+    },
+    {
+      "epoch": 0.878,
+      "grad_norm": 1.8739466667175293,
+      "grad_norm_var": 0.4309550360190786,
+      "learning_rate": 2e-05,
+      "loss": 0.4859,
+      "loss/crossentropy": 2.5788021087646484,
+      "loss/hidden": 0.21923828125,
+      "loss/logits": 0.03924744948744774,
+      "loss/reg": 0.02274180017411709,
+      "step": 1756
+    },
+    {
+      "epoch": 0.8785,
+      "grad_norm": 1.8786344528198242,
+      "grad_norm_var": 0.43116057997378515,
+      "learning_rate": 2e-05,
+      "loss": 0.433,
+      "loss/crossentropy": 2.2879987955093384,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.03129947930574417,
+      "loss/reg": 0.02273917943239212,
+      "step": 1757
+    },
+    {
+      "epoch": 0.879,
+      "grad_norm": 1.6786879301071167,
+      "grad_norm_var": 0.4302863936647914,
+      "learning_rate": 2e-05,
+      "loss": 0.507,
+      "loss/crossentropy": 2.3784435987472534,
+      "loss/hidden": 0.236328125,
+      "loss/logits": 0.04326160717755556,
+      "loss/reg": 0.022736700251698494,
+      "step": 1758
+    },
+    {
+      "epoch": 0.8795,
+      "grad_norm": 1.2841837406158447,
+      "grad_norm_var": 0.42811919905549467,
+      "learning_rate": 2e-05,
+      "loss": 0.4027,
+      "loss/crossentropy": 2.5569673776626587,
+      "loss/hidden": 0.14990234375,
+      "loss/logits": 0.025482705794274807,
+      "loss/reg": 0.02273416332900524,
+      "step": 1759
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.5086617469787598,
+      "grad_norm_var": 0.43328459560282606,
+      "learning_rate": 2e-05,
+      "loss": 0.5087,
+      "loss/crossentropy": 2.386002779006958,
+      "loss/hidden": 0.2529296875,
+      "loss/logits": 0.028444298543035984,
+      "loss/reg": 0.02273155376315117,
+      "step": 1760
+    },
+    {
+      "epoch": 0.8805,
+      "grad_norm": 1.7824084758758545,
+      "grad_norm_var": 0.4329647889707303,
+      "learning_rate": 2e-05,
+      "loss": 0.4786,
+      "loss/crossentropy": 2.3847200870513916,
+      "loss/hidden": 0.20849609375,
+      "loss/logits": 0.04277382045984268,
+      "loss/reg": 0.02272888645529747,
+      "step": 1761
+    },
+    {
+      "epoch": 0.881,
+      "grad_norm": 4.4069061279296875,
+      "grad_norm_var": 0.8553708809071431,
+      "learning_rate": 2e-05,
+      "loss": 0.4992,
+      "loss/crossentropy": 2.23597252368927,
+      "loss/hidden": 0.2265625,
+      "loss/logits": 0.04541921988129616,
+      "loss/reg": 0.02272612974047661,
+      "step": 1762
+    },
+    {
+      "epoch": 0.8815,
+      "grad_norm": 1.4857374429702759,
+      "grad_norm_var": 0.596154104293141,
+      "learning_rate": 2e-05,
+      "loss": 0.4126,
+      "loss/crossentropy": 2.1902058124542236,
+      "loss/hidden": 0.15771484375,
+      "loss/logits": 0.027693829499185085,
+      "loss/reg": 0.022723568603396416,
+      "step": 1763
+    },
+    {
+      "epoch": 0.882,
+      "grad_norm": 1.1129963397979736,
+      "grad_norm_var": 0.6036749302760668,
+      "learning_rate": 2e-05,
+      "loss": 0.404,
+      "loss/crossentropy": 2.1529598236083984,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.028801556676626205,
+      "loss/reg": 0.022720852866768837,
+      "step": 1764
+    },
+    {
+      "epoch": 0.8825,
+      "grad_norm": 1.3617935180664062,
+      "grad_norm_var": 0.6164186737964911,
+      "learning_rate": 2e-05,
+      "loss": 0.4394,
+      "loss/crossentropy": 2.4010159969329834,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.03646496683359146,
+      "loss/reg": 0.022718340158462524,
+      "step": 1765
+    },
+    {
+      "epoch": 0.883,
+      "grad_norm": 1.3944129943847656,
+      "grad_norm_var": 0.6257383981751897,
+      "learning_rate": 2e-05,
+      "loss": 0.4295,
+      "loss/crossentropy": 2.249167323112488,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.029935719445347786,
+      "loss/reg": 0.022715754806995392,
+      "step": 1766
+    },
+    {
+      "epoch": 0.8835,
+      "grad_norm": 1.9540674686431885,
+      "grad_norm_var": 0.6272674150301994,
+      "learning_rate": 2e-05,
+      "loss": 0.445,
+      "loss/crossentropy": 2.6090357303619385,
+      "loss/hidden": 0.1884765625,
+      "loss/logits": 0.029395846650004387,
+      "loss/reg": 0.022712942212820053,
+      "step": 1767
+    },
+    {
+      "epoch": 0.884,
+      "grad_norm": 1.2891789674758911,
+      "grad_norm_var": 0.62238428300894,
+      "learning_rate": 2e-05,
+      "loss": 0.3992,
+      "loss/crossentropy": 2.690170645713806,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.02565884869545698,
+      "loss/reg": 0.022710150107741356,
+      "step": 1768
+    },
+    {
+      "epoch": 0.8845,
+      "grad_norm": 1.2826368808746338,
+      "grad_norm_var": 0.590971243638222,
+      "learning_rate": 2e-05,
+      "loss": 0.4288,
+      "loss/crossentropy": 2.5179227590560913,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.029347356408834457,
+      "loss/reg": 0.022707320749759674,
+      "step": 1769
+    },
+    {
+      "epoch": 0.885,
+      "grad_norm": 1.7831594944000244,
+      "grad_norm_var": 0.588045487335727,
+      "learning_rate": 2e-05,
+      "loss": 0.4584,
+      "loss/crossentropy": 2.4644254446029663,
+      "loss/hidden": 0.197265625,
+      "loss/logits": 0.03404002822935581,
+      "loss/reg": 0.022704841569066048,
+      "step": 1770
+    },
+    {
+      "epoch": 0.8855,
+      "grad_norm": 1.3630361557006836,
+      "grad_norm_var": 0.5819252647022783,
+      "learning_rate": 2e-05,
+      "loss": 0.4236,
+      "loss/crossentropy": 2.4129849672317505,
+      "loss/hidden": 0.1630859375,
+      "loss/logits": 0.03353873174637556,
+      "loss/reg": 0.022702371701598167,
+      "step": 1771
+    },
+    {
+      "epoch": 0.886,
+      "grad_norm": 1.395241379737854,
+      "grad_norm_var": 0.5861043275034279,
+      "learning_rate": 2e-05,
+      "loss": 0.452,
+      "loss/crossentropy": 2.3290704488754272,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.04044055938720703,
+      "loss/reg": 0.022700009867548943,
+      "step": 1772
+    },
+    {
+      "epoch": 0.8865,
+      "grad_norm": 1.7868410348892212,
+      "grad_norm_var": 0.584262372098181,
+      "learning_rate": 2e-05,
+      "loss": 0.5297,
+      "loss/crossentropy": 2.2407915592193604,
+      "loss/hidden": 0.25830078125,
+      "loss/logits": 0.044432349503040314,
+      "loss/reg": 0.022697754204273224,
+      "step": 1773
+    },
+    {
+      "epoch": 0.887,
+      "grad_norm": 1.151076316833496,
+      "grad_norm_var": 0.6017088609785968,
+      "learning_rate": 2e-05,
+      "loss": 0.4063,
+      "loss/crossentropy": 2.358174681663513,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.027467947453260422,
+      "loss/reg": 0.022695155814290047,
+      "step": 1774
+    },
+    {
+      "epoch": 0.8875,
+      "grad_norm": 1.4789233207702637,
+      "grad_norm_var": 0.5946741348237327,
+      "learning_rate": 2e-05,
+      "loss": 0.492,
+      "loss/crossentropy": 2.0869343280792236,
+      "loss/hidden": 0.21875,
+      "loss/logits": 0.046349382027983665,
+      "loss/reg": 0.022692805156111717,
+      "step": 1775
+    },
+    {
+      "epoch": 0.888,
+      "grad_norm": 1.7221815586090088,
+      "grad_norm_var": 0.5932558452639825,
+      "learning_rate": 2e-05,
+      "loss": 0.4587,
+      "loss/crossentropy": 2.397850751876831,
+      "loss/hidden": 0.19140625,
+      "loss/logits": 0.04042772948741913,
+      "loss/reg": 0.02269033156335354,
+      "step": 1776
+    },
+    {
+      "epoch": 0.8885,
+      "grad_norm": 1.2972921133041382,
+      "grad_norm_var": 0.6008173321053277,
+      "learning_rate": 2e-05,
+      "loss": 0.4126,
+      "loss/crossentropy": 2.3940863609313965,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.028958087787032127,
+      "loss/reg": 0.02268776297569275,
+      "step": 1777
+    },
+    {
+      "epoch": 0.889,
+      "grad_norm": 1.3768194913864136,
+      "grad_norm_var": 0.05743777499220073,
+      "learning_rate": 2e-05,
+      "loss": 0.4215,
+      "loss/crossentropy": 2.385925769805908,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.03253248520195484,
+      "loss/reg": 0.022685421630740166,
+      "step": 1778
+    },
+    {
+      "epoch": 0.8895,
+      "grad_norm": 1.526502013206482,
+      "grad_norm_var": 0.057723853573745744,
+      "learning_rate": 2e-05,
+      "loss": 0.4341,
+      "loss/crossentropy": 2.2163840532302856,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.03145410865545273,
+      "loss/reg": 0.022683102637529373,
+      "step": 1779
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.6970871686935425,
+      "grad_norm_var": 0.05243035328896462,
+      "learning_rate": 2e-05,
+      "loss": 0.4789,
+      "loss/crossentropy": 2.2332208156585693,
+      "loss/hidden": 0.20654296875,
+      "loss/logits": 0.04551873542368412,
+      "loss/reg": 0.022680532187223434,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8905,
+      "grad_norm": 1.4872901439666748,
+      "grad_norm_var": 0.051248249436363774,
+      "learning_rate": 2e-05,
+      "loss": 0.4758,
+      "loss/crossentropy": 2.301728844642639,
+      "loss/hidden": 0.2080078125,
+      "loss/logits": 0.04098478890955448,
+      "loss/reg": 0.022678013890981674,
+      "step": 1781
+    },
+    {
+      "epoch": 0.891,
+      "grad_norm": 1.4966388940811157,
+      "grad_norm_var": 0.050474361598935265,
+      "learning_rate": 2e-05,
+      "loss": 0.4928,
+      "loss/crossentropy": 2.034238338470459,
+      "loss/hidden": 0.22265625,
+      "loss/logits": 0.04338419623672962,
+      "loss/reg": 0.022675424814224243,
+      "step": 1782
+    },
+    {
+      "epoch": 0.8915,
+      "grad_norm": 1.5417438745498657,
+      "grad_norm_var": 0.03643927829848502,
+      "learning_rate": 2e-05,
+      "loss": 0.4808,
+      "loss/crossentropy": 2.180203914642334,
+      "loss/hidden": 0.2060546875,
+      "loss/logits": 0.048051947727799416,
+      "loss/reg": 0.02267291769385338,
+      "step": 1783
+    },
+    {
+      "epoch": 0.892,
+      "grad_norm": 1.3023936748504639,
+      "grad_norm_var": 0.03611445252943189,
+      "learning_rate": 2e-05,
+      "loss": 0.4562,
+      "loss/crossentropy": 2.403857707977295,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.037562835961580276,
+      "loss/reg": 0.022670235484838486,
+      "step": 1784
+    },
+    {
+      "epoch": 0.8925,
+      "grad_norm": 1.5010074377059937,
+      "grad_norm_var": 0.033332240131487785,
+      "learning_rate": 2e-05,
+      "loss": 0.4343,
+      "loss/crossentropy": 2.3974303007125854,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.03334982506930828,
+      "loss/reg": 0.02266768552362919,
+      "step": 1785
+    },
+    {
+      "epoch": 0.893,
+      "grad_norm": 1.8571279048919678,
+      "grad_norm_var": 0.036524026921363806,
+      "learning_rate": 2e-05,
+      "loss": 0.4137,
+      "loss/crossentropy": 2.7112414836883545,
+      "loss/hidden": 0.1552734375,
+      "loss/logits": 0.03175277356058359,
+      "loss/reg": 0.022665170952677727,
+      "step": 1786
+    },
+    {
+      "epoch": 0.8935,
+      "grad_norm": 1.2478469610214233,
+      "grad_norm_var": 0.0394388347318376,
+      "learning_rate": 2e-05,
+      "loss": 0.4274,
+      "loss/crossentropy": 2.3169617652893066,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.02990701049566269,
+      "loss/reg": 0.02266273833811283,
+      "step": 1787
+    },
+    {
+      "epoch": 0.894,
+      "grad_norm": 2.265127182006836,
+      "grad_norm_var": 0.07555353783638541,
+      "learning_rate": 2e-05,
+      "loss": 0.4095,
+      "loss/crossentropy": 2.3823176622390747,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.02273565251380205,
+      "loss/reg": 0.02266021817922592,
+      "step": 1788
+    },
+    {
+      "epoch": 0.8945,
+      "grad_norm": 1.3702856302261353,
+      "grad_norm_var": 0.07302160323975777,
+      "learning_rate": 2e-05,
+      "loss": 0.3994,
+      "loss/crossentropy": 2.4472192525863647,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.02484053187072277,
+      "loss/reg": 0.02265772968530655,
+      "step": 1789
+    },
+    {
+      "epoch": 0.895,
+      "grad_norm": 1.5002284049987793,
+      "grad_norm_var": 0.06346798172954345,
+      "learning_rate": 2e-05,
+      "loss": 0.4878,
+      "loss/crossentropy": 2.291977286338806,
+      "loss/hidden": 0.2177734375,
+      "loss/logits": 0.043478766456246376,
+      "loss/reg": 0.022655179724097252,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8955,
+      "grad_norm": 1.1956472396850586,
+      "grad_norm_var": 0.07085745843397048,
+      "learning_rate": 2e-05,
+      "loss": 0.421,
+      "loss/crossentropy": 2.269936203956604,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.02890065312385559,
+      "loss/reg": 0.02265259623527527,
+      "step": 1791
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 1.631693720817566,
+      "grad_norm_var": 0.068979061781067,
+      "learning_rate": 2e-05,
+      "loss": 0.4571,
+      "loss/crossentropy": 2.319582223892212,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.0372174559161067,
+      "loss/reg": 0.02265011891722679,
+      "step": 1792
+    },
+    {
+      "epoch": 0.8965,
+      "grad_norm": 1.1987940073013306,
+      "grad_norm_var": 0.07248952922075773,
+      "learning_rate": 2e-05,
+      "loss": 0.4329,
+      "loss/crossentropy": 2.2927104234695435,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.03212358243763447,
+      "loss/reg": 0.022647712379693985,
+      "step": 1793
+    },
+    {
+      "epoch": 0.897,
+      "grad_norm": 2.1740849018096924,
+      "grad_norm_var": 0.09781844329650032,
+      "learning_rate": 2e-05,
+      "loss": 0.5068,
+      "loss/crossentropy": 1.931494951248169,
+      "loss/hidden": 0.24462890625,
+      "loss/logits": 0.03571862727403641,
+      "loss/reg": 0.022645175457000732,
+      "step": 1794
+    },
+    {
+      "epoch": 0.8975,
+      "grad_norm": 2.1789815425872803,
+      "grad_norm_var": 0.12133015992480196,
+      "learning_rate": 2e-05,
+      "loss": 0.4422,
+      "loss/crossentropy": 2.1458447575569153,
+      "loss/hidden": 0.1875,
+      "loss/logits": 0.02825307659804821,
+      "loss/reg": 0.022642606869339943,
+      "step": 1795
+    },
+    {
+      "epoch": 0.898,
+      "grad_norm": 1.4859169721603394,
+      "grad_norm_var": 0.12146453537655641,
+      "learning_rate": 2e-05,
+      "loss": 0.458,
+      "loss/crossentropy": 2.554581642150879,
+      "loss/hidden": 0.19189453125,
+      "loss/logits": 0.03974371217191219,
+      "loss/reg": 0.02264014631509781,
+      "step": 1796
+    },
+    {
+      "epoch": 0.8985,
+      "grad_norm": 1.7171391248703003,
+      "grad_norm_var": 0.121628688093484,
+      "learning_rate": 2e-05,
+      "loss": 0.4388,
+      "loss/crossentropy": 2.5617785453796387,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.03613244369626045,
+      "loss/reg": 0.022637590765953064,
+      "step": 1797
+    },
+    {
+      "epoch": 0.899,
+      "grad_norm": 1.327169418334961,
+      "grad_norm_var": 0.12585053460300416,
+      "learning_rate": 2e-05,
+      "loss": 0.4193,
+      "loss/crossentropy": 2.2237210273742676,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.03177984245121479,
+      "loss/reg": 0.022635027766227722,
+      "step": 1798
+    },
+    {
+      "epoch": 0.8995,
+      "grad_norm": 1.7142618894577026,
+      "grad_norm_var": 0.12652134086684536,
+      "learning_rate": 2e-05,
+      "loss": 0.4097,
+      "loss/crossentropy": 2.3350863456726074,
+      "loss/hidden": 0.153564453125,
+      "loss/logits": 0.02983055729418993,
+      "loss/reg": 0.02263249270617962,
+      "step": 1799
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.9557993412017822,
+      "grad_norm_var": 0.12690867583912677,
+      "learning_rate": 2e-05,
+      "loss": 0.4866,
+      "loss/crossentropy": 2.4636796712875366,
+      "loss/hidden": 0.21826171875,
+      "loss/logits": 0.042068254202604294,
+      "loss/reg": 0.02263004146516323,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9005,
+      "grad_norm": 1.1416701078414917,
+      "grad_norm_var": 0.14188113240769837,
+      "learning_rate": 2e-05,
+      "loss": 0.4022,
+      "loss/crossentropy": 2.5174624919891357,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.02796847652643919,
+      "loss/reg": 0.022627437487244606,
+      "step": 1801
+    },
+    {
+      "epoch": 0.901,
+      "grad_norm": 1.4578477144241333,
+      "grad_norm_var": 0.13936010822746894,
+      "learning_rate": 2e-05,
+      "loss": 0.4365,
+      "loss/crossentropy": 2.3277111053466797,
+      "loss/hidden": 0.17578125,
+      "loss/logits": 0.03451576270163059,
+      "loss/reg": 0.02262502908706665,
+      "step": 1802
+    },
+    {
+      "epoch": 0.9015,
+      "grad_norm": 2.0312423706054688,
+      "grad_norm_var": 0.14117838718365097,
+      "learning_rate": 2e-05,
+      "loss": 0.3985,
+      "loss/crossentropy": 2.541975498199463,
+      "loss/hidden": 0.1455078125,
+      "loss/logits": 0.026732699014246464,
+      "loss/reg": 0.02262257970869541,
+      "step": 1803
+    },
+    {
+      "epoch": 0.902,
+      "grad_norm": 2.132697820663452,
+      "grad_norm_var": 0.13135331477077988,
+      "learning_rate": 2e-05,
+      "loss": 0.4634,
+      "loss/crossentropy": 2.439447283744812,
+      "loss/hidden": 0.2001953125,
+      "loss/logits": 0.03704650327563286,
+      "loss/reg": 0.022620007395744324,
+      "step": 1804
+    },
+    {
+      "epoch": 0.9025,
+      "grad_norm": 1.7248797416687012,
+      "grad_norm_var": 0.12653841640955357,
+      "learning_rate": 2e-05,
+      "loss": 0.4427,
+      "loss/crossentropy": 2.479643940925598,
+      "loss/hidden": 0.17822265625,
+      "loss/logits": 0.038322363048791885,
+      "loss/reg": 0.02261737734079361,
+      "step": 1805
+    },
+    {
+      "epoch": 0.903,
+      "grad_norm": 1.5996307134628296,
+      "grad_norm_var": 0.12503174039449808,
+      "learning_rate": 2e-05,
+      "loss": 0.4873,
+      "loss/crossentropy": 2.3944002389907837,
+      "loss/hidden": 0.21728515625,
+      "loss/logits": 0.04385751113295555,
+      "loss/reg": 0.02261476404964924,
+      "step": 1806
+    },
+    {
+      "epoch": 0.9035,
+      "grad_norm": 2.0911006927490234,
+      "grad_norm_var": 0.11890385472204343,
+      "learning_rate": 2e-05,
+      "loss": 0.4095,
+      "loss/crossentropy": 2.336695432662964,
+      "loss/hidden": 0.158447265625,
+      "loss/logits": 0.024968229234218597,
+      "loss/reg": 0.022612126544117928,
+      "step": 1807
+    },
+    {
+      "epoch": 0.904,
+      "grad_norm": 1.5537153482437134,
+      "grad_norm_var": 0.12022990836071562,
+      "learning_rate": 2e-05,
+      "loss": 0.4726,
+      "loss/crossentropy": 2.2479125261306763,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.026327339932322502,
+      "loss/reg": 0.022609485313296318,
+      "step": 1808
+    },
+    {
+      "epoch": 0.9045,
+      "grad_norm": 1.2499186992645264,
+      "grad_norm_var": 0.11685534109740553,
+      "learning_rate": 2e-05,
+      "loss": 0.4078,
+      "loss/crossentropy": 2.4833693504333496,
+      "loss/hidden": 0.1494140625,
+      "loss/logits": 0.03229031339287758,
+      "loss/reg": 0.02260700799524784,
+      "step": 1809
+    },
+    {
+      "epoch": 0.905,
+      "grad_norm": 1.5342835187911987,
+      "grad_norm_var": 0.10378850866723704,
+      "learning_rate": 2e-05,
+      "loss": 0.4023,
+      "loss/crossentropy": 2.1959651708602905,
+      "loss/hidden": 0.150390625,
+      "loss/logits": 0.02590491622686386,
+      "loss/reg": 0.022604528814554214,
+      "step": 1810
+    },
+    {
+      "epoch": 0.9055,
+      "grad_norm": 1.044647455215454,
+      "grad_norm_var": 0.10889354132386113,
+      "learning_rate": 2e-05,
+      "loss": 0.3867,
+      "loss/crossentropy": 2.1947706937789917,
+      "loss/hidden": 0.1357421875,
+      "loss/logits": 0.0249461866915226,
+      "loss/reg": 0.022602051496505737,
+      "step": 1811
+    },
+    {
+      "epoch": 0.906,
+      "grad_norm": 3.011995792388916,
+      "grad_norm_var": 0.2291783334976803,
+      "learning_rate": 2e-05,
+      "loss": 0.5375,
+      "loss/crossentropy": 2.6274040937423706,
+      "loss/hidden": 0.26025390625,
+      "loss/logits": 0.05128267593681812,
+      "loss/reg": 0.022599538788199425,
+      "step": 1812
+    },
+    {
+      "epoch": 0.9065,
+      "grad_norm": 1.5391746759414673,
+      "grad_norm_var": 0.2308816121342284,
+      "learning_rate": 2e-05,
+      "loss": 0.436,
+      "loss/crossentropy": 2.5975476503372192,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.031343039125204086,
+      "loss/reg": 0.022597048431634903,
+      "step": 1813
+    },
+    {
+      "epoch": 0.907,
+      "grad_norm": 1.6539846658706665,
+      "grad_norm_var": 0.22155591112929945,
+      "learning_rate": 2e-05,
+      "loss": 0.4405,
+      "loss/crossentropy": 2.389395594596863,
+      "loss/hidden": 0.1796875,
+      "loss/logits": 0.03484657034277916,
+      "loss/reg": 0.022594643756747246,
+      "step": 1814
+    },
+    {
+      "epoch": 0.9075,
+      "grad_norm": 1.2229188680648804,
+      "grad_norm_var": 0.23667999380509078,
+      "learning_rate": 2e-05,
+      "loss": 0.4212,
+      "loss/crossentropy": 2.35276997089386,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.030212889425456524,
+      "loss/reg": 0.02259230427443981,
+      "step": 1815
+    },
+    {
+      "epoch": 0.908,
+      "grad_norm": 1.4916632175445557,
+      "grad_norm_var": 0.23332946859573647,
+      "learning_rate": 2e-05,
+      "loss": 0.4277,
+      "loss/crossentropy": 2.2875664830207825,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.035321952775120735,
+      "loss/reg": 0.02258998341858387,
+      "step": 1816
+    },
+    {
+      "epoch": 0.9085,
+      "grad_norm": 1.2740663290023804,
+      "grad_norm_var": 0.2253617779282422,
+      "learning_rate": 2e-05,
+      "loss": 0.4286,
+      "loss/crossentropy": 2.3370351791381836,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.03822075389325619,
+      "loss/reg": 0.02258743718266487,
+      "step": 1817
+    },
+    {
+      "epoch": 0.909,
+      "grad_norm": 1.2872508764266968,
+      "grad_norm_var": 0.23185537664945718,
+      "learning_rate": 2e-05,
+      "loss": 0.4221,
+      "loss/crossentropy": 2.4487507343292236,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.03271046280860901,
+      "loss/reg": 0.02258501760661602,
+      "step": 1818
+    },
+    {
+      "epoch": 0.9095,
+      "grad_norm": 1.5939817428588867,
+      "grad_norm_var": 0.2217355171208072,
+      "learning_rate": 2e-05,
+      "loss": 0.4138,
+      "loss/crossentropy": 2.6092634201049805,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.02780964784324169,
+      "loss/reg": 0.022582601755857468,
+      "step": 1819
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 16.670120239257812,
+      "grad_norm_var": 14.413642548278558,
+      "learning_rate": 2e-05,
+      "loss": 0.5563,
+      "loss/crossentropy": 2.3885061740875244,
+      "loss/hidden": 0.2939453125,
+      "loss/logits": 0.036548784002661705,
+      "loss/reg": 0.022580305114388466,
+      "step": 1820
+    },
+    {
+      "epoch": 0.9105,
+      "grad_norm": 1.2790286540985107,
+      "grad_norm_var": 14.474163637655296,
+      "learning_rate": 2e-05,
+      "loss": 0.373,
+      "loss/crossentropy": 2.6208510398864746,
+      "loss/hidden": 0.12646484375,
+      "loss/logits": 0.020793078001588583,
+      "loss/reg": 0.022577952593564987,
+      "step": 1821
+    },
+    {
+      "epoch": 0.911,
+      "grad_norm": 2.2307803630828857,
+      "grad_norm_var": 14.422778758807375,
+      "learning_rate": 2e-05,
+      "loss": 0.4049,
+      "loss/crossentropy": 2.3613555431365967,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.02187713049352169,
+      "loss/reg": 0.022575698792934418,
+      "step": 1822
+    },
+    {
+      "epoch": 0.9115,
+      "grad_norm": 1.8077691793441772,
+      "grad_norm_var": 14.44496363143063,
+      "learning_rate": 2e-05,
+      "loss": 0.4596,
+      "loss/crossentropy": 2.2239835262298584,
+      "loss/hidden": 0.20068359375,
+      "loss/logits": 0.03322533704340458,
+      "loss/reg": 0.022573480382561684,
+      "step": 1823
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 1.8814700841903687,
+      "grad_norm_var": 14.409108100365703,
+      "learning_rate": 2e-05,
+      "loss": 0.4243,
+      "loss/crossentropy": 2.503218650817871,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.031097950413823128,
+      "loss/reg": 0.022571343928575516,
+      "step": 1824
+    },
+    {
+      "epoch": 0.9125,
+      "grad_norm": 1.4032585620880127,
+      "grad_norm_var": 14.384031530190613,
+      "learning_rate": 2e-05,
+      "loss": 0.4415,
+      "loss/crossentropy": 2.498712182044983,
+      "loss/hidden": 0.18408203125,
+      "loss/logits": 0.03172986023128033,
+      "loss/reg": 0.022569168359041214,
+      "step": 1825
+    },
+    {
+      "epoch": 0.913,
+      "grad_norm": 1.4820616245269775,
+      "grad_norm_var": 14.391329331953612,
+      "learning_rate": 2e-05,
+      "loss": 0.3925,
+      "loss/crossentropy": 2.2149962186813354,
+      "loss/hidden": 0.14404296875,
+      "loss/logits": 0.022828245535492897,
+      "loss/reg": 0.022566672414541245,
+      "step": 1826
+    },
+    {
+      "epoch": 0.9135,
+      "grad_norm": 1.4449611902236938,
+      "grad_norm_var": 14.320749149874818,
+      "learning_rate": 2e-05,
+      "loss": 0.4056,
+      "loss/crossentropy": 2.385851740837097,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.03205075114965439,
+      "loss/reg": 0.022564470767974854,
+      "step": 1827
+    },
+    {
+      "epoch": 0.914,
+      "grad_norm": 1.4951767921447754,
+      "grad_norm_var": 14.377107771874954,
+      "learning_rate": 2e-05,
+      "loss": 0.4165,
+      "loss/crossentropy": 2.23067569732666,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.030674993991851807,
+      "loss/reg": 0.02256196364760399,
+      "step": 1828
+    },
+    {
+      "epoch": 0.9145,
+      "grad_norm": 1.4566495418548584,
+      "grad_norm_var": 14.38793906557842,
+      "learning_rate": 2e-05,
+      "loss": 0.4193,
+      "loss/crossentropy": 2.438162684440613,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.03160354122519493,
+      "loss/reg": 0.02255944348871708,
+      "step": 1829
+    },
+    {
+      "epoch": 0.915,
+      "grad_norm": 1.2917461395263672,
+      "grad_norm_var": 14.436020724601905,
+      "learning_rate": 2e-05,
+      "loss": 0.4317,
+      "loss/crossentropy": 2.349228262901306,
+      "loss/hidden": 0.1708984375,
+      "loss/logits": 0.03521360456943512,
+      "loss/reg": 0.022557225078344345,
+      "step": 1830
+    },
+    {
+      "epoch": 0.9155,
+      "grad_norm": 1.3939363956451416,
+      "grad_norm_var": 14.40970744042121,
+      "learning_rate": 2e-05,
+      "loss": 0.376,
+      "loss/crossentropy": 2.434686541557312,
+      "loss/hidden": 0.130126953125,
+      "loss/logits": 0.020286419428884983,
+      "loss/reg": 0.022554853931069374,
+      "step": 1831
+    },
+    {
+      "epoch": 0.916,
+      "grad_norm": 1.1982911825180054,
+      "grad_norm_var": 14.453267319482267,
+      "learning_rate": 2e-05,
+      "loss": 0.406,
+      "loss/crossentropy": 2.2608832120895386,
+      "loss/hidden": 0.1513671875,
+      "loss/logits": 0.02907765470445156,
+      "loss/reg": 0.02255268208682537,
+      "step": 1832
+    },
+    {
+      "epoch": 0.9165,
+      "grad_norm": 1.3199797868728638,
+      "grad_norm_var": 14.446203864298448,
+      "learning_rate": 2e-05,
+      "loss": 0.4498,
+      "loss/crossentropy": 2.0910937786102295,
+      "loss/hidden": 0.1884765625,
+      "loss/logits": 0.03581584058701992,
+      "loss/reg": 0.022550417110323906,
+      "step": 1833
+    },
+    {
+      "epoch": 0.917,
+      "grad_norm": 1.717532753944397,
+      "grad_norm_var": 14.390936544297686,
+      "learning_rate": 2e-05,
+      "loss": 0.4676,
+      "loss/crossentropy": 2.2329607009887695,
+      "loss/hidden": 0.20849609375,
+      "loss/logits": 0.03362170793116093,
+      "loss/reg": 0.022548070177435875,
+      "step": 1834
+    },
+    {
+      "epoch": 0.9175,
+      "grad_norm": 1.6943548917770386,
+      "grad_norm_var": 14.379719646058886,
+      "learning_rate": 2e-05,
+      "loss": 0.4554,
+      "loss/crossentropy": 2.37869393825531,
+      "loss/hidden": 0.19384765625,
+      "loss/logits": 0.036072161979973316,
+      "loss/reg": 0.022545799612998962,
+      "step": 1835
+    },
+    {
+      "epoch": 0.918,
+      "grad_norm": 2.670581817626953,
+      "grad_norm_var": 0.15172412365397647,
+      "learning_rate": 2e-05,
+      "loss": 0.5334,
+      "loss/crossentropy": 2.3655420541763306,
+      "loss/hidden": 0.2705078125,
+      "loss/logits": 0.03744707256555557,
+      "loss/reg": 0.022543571889400482,
+      "step": 1836
+    },
+    {
+      "epoch": 0.9185,
+      "grad_norm": 1.4796888828277588,
+      "grad_norm_var": 0.14537294518872693,
+      "learning_rate": 2e-05,
+      "loss": 0.446,
+      "loss/crossentropy": 2.2026679515838623,
+      "loss/hidden": 0.1884765625,
+      "loss/logits": 0.03215072676539421,
+      "loss/reg": 0.022541362792253494,
+      "step": 1837
+    },
+    {
+      "epoch": 0.919,
+      "grad_norm": 1.465540885925293,
+      "grad_norm_var": 0.11996093294203304,
+      "learning_rate": 2e-05,
+      "loss": 0.3955,
+      "loss/crossentropy": 2.6018182039260864,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.023670999333262444,
+      "loss/reg": 0.022538956254720688,
+      "step": 1838
+    },
+    {
+      "epoch": 0.9195,
+      "grad_norm": 2.6521716117858887,
+      "grad_norm_var": 0.19071007315725008,
+      "learning_rate": 2e-05,
+      "loss": 0.5236,
+      "loss/crossentropy": 2.290159225463867,
+      "loss/hidden": 0.25390625,
+      "loss/logits": 0.044362759217619896,
+      "loss/reg": 0.022536424919962883,
+      "step": 1839
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.2103041410446167,
+      "grad_norm_var": 0.19617798026988734,
+      "learning_rate": 2e-05,
+      "loss": 0.4108,
+      "loss/crossentropy": 2.3787648677825928,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.033578867092728615,
+      "loss/reg": 0.022533901035785675,
+      "step": 1840
+    },
+    {
+      "epoch": 0.9205,
+      "grad_norm": 1.3619086742401123,
+      "grad_norm_var": 0.19729243671530577,
+      "learning_rate": 2e-05,
+      "loss": 0.3874,
+      "loss/crossentropy": 2.400606870651245,
+      "loss/hidden": 0.138671875,
+      "loss/logits": 0.023377398028969765,
+      "loss/reg": 0.022531181573867798,
+      "step": 1841
+    },
+    {
+      "epoch": 0.921,
+      "grad_norm": 1.7256075143814087,
+      "grad_norm_var": 0.19770787293851314,
+      "learning_rate": 2e-05,
+      "loss": 0.3938,
+      "loss/crossentropy": 2.6239322423934937,
+      "loss/hidden": 0.13623046875,
+      "loss/logits": 0.03229370526969433,
+      "loss/reg": 0.02252843603491783,
+      "step": 1842
+    },
+    {
+      "epoch": 0.9215,
+      "grad_norm": 1.4745891094207764,
+      "grad_norm_var": 0.1971555977191843,
+      "learning_rate": 2e-05,
+      "loss": 0.3882,
+      "loss/crossentropy": 2.5068957805633545,
+      "loss/hidden": 0.13671875,
+      "loss/logits": 0.026268533430993557,
+      "loss/reg": 0.022525638341903687,
+      "step": 1843
+    },
+    {
+      "epoch": 0.922,
+      "grad_norm": 1.3436163663864136,
+      "grad_norm_var": 0.20071971118220464,
+      "learning_rate": 2e-05,
+      "loss": 0.3943,
+      "loss/crossentropy": 2.5273977518081665,
+      "loss/hidden": 0.14453125,
+      "loss/logits": 0.024529898539185524,
+      "loss/reg": 0.02252272516489029,
+      "step": 1844
+    },
+    {
+      "epoch": 0.9225,
+      "grad_norm": 2.0100479125976562,
+      "grad_norm_var": 0.209944773268783,
+      "learning_rate": 2e-05,
+      "loss": 0.4533,
+      "loss/crossentropy": 2.466127634048462,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.03471413720399141,
+      "loss/reg": 0.02252020128071308,
+      "step": 1845
+    },
+    {
+      "epoch": 0.923,
+      "grad_norm": 1.6746459007263184,
+      "grad_norm_var": 0.20206274459075116,
+      "learning_rate": 2e-05,
+      "loss": 0.4434,
+      "loss/crossentropy": 2.244032859802246,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.034620098769664764,
+      "loss/reg": 0.02251766063272953,
+      "step": 1846
+    },
+    {
+      "epoch": 0.9235,
+      "grad_norm": 1.7665760517120361,
+      "grad_norm_var": 0.19804128550095795,
+      "learning_rate": 2e-05,
+      "loss": 0.4023,
+      "loss/crossentropy": 2.1969178915023804,
+      "loss/hidden": 0.15087890625,
+      "loss/logits": 0.026284687221050262,
+      "loss/reg": 0.022515103220939636,
+      "step": 1847
+    },
+    {
+      "epoch": 0.924,
+      "grad_norm": 2.707465648651123,
+      "grad_norm_var": 0.24490152911908372,
+      "learning_rate": 2e-05,
+      "loss": 0.4971,
+      "loss/crossentropy": 2.5745354890823364,
+      "loss/hidden": 0.23193359375,
+      "loss/logits": 0.0400242879986763,
+      "loss/reg": 0.022512590512633324,
+      "step": 1848
+    },
+    {
+      "epoch": 0.9245,
+      "grad_norm": 1.9823905229568481,
+      "grad_norm_var": 0.23282989475386653,
+      "learning_rate": 2e-05,
+      "loss": 0.4681,
+      "loss/crossentropy": 2.053453028202057,
+      "loss/hidden": 0.20849609375,
+      "loss/logits": 0.03454894572496414,
+      "loss/reg": 0.02251008152961731,
+      "step": 1849
+    },
+    {
+      "epoch": 0.925,
+      "grad_norm": 1.7281039953231812,
+      "grad_norm_var": 0.23270857087946387,
+      "learning_rate": 2e-05,
+      "loss": 0.4487,
+      "loss/crossentropy": 2.4333807229995728,
+      "loss/hidden": 0.18359375,
+      "loss/logits": 0.04003257304430008,
+      "loss/reg": 0.022507477551698685,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9255,
+      "grad_norm": 1.4039613008499146,
+      "grad_norm_var": 0.24242675596621838,
+      "learning_rate": 2e-05,
+      "loss": 0.4234,
+      "loss/crossentropy": 2.3681410551071167,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.03433472663164139,
+      "loss/reg": 0.022504812106490135,
+      "step": 1851
+    },
+    {
+      "epoch": 0.926,
+      "grad_norm": 1.361372947692871,
+      "grad_norm_var": 0.196025750965984,
+      "learning_rate": 2e-05,
+      "loss": 0.4174,
+      "loss/crossentropy": 2.1348154544830322,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.03517003171145916,
+      "loss/reg": 0.022502336651086807,
+      "step": 1852
+    },
+    {
+      "epoch": 0.9265,
+      "grad_norm": 1.5376478433609009,
+      "grad_norm_var": 0.19446169115935935,
+      "learning_rate": 2e-05,
+      "loss": 0.4399,
+      "loss/crossentropy": 2.3104746341705322,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.04014399088919163,
+      "loss/reg": 0.022499844431877136,
+      "step": 1853
+    },
+    {
+      "epoch": 0.927,
+      "grad_norm": 1.6215567588806152,
+      "grad_norm_var": 0.19083799211992075,
+      "learning_rate": 2e-05,
+      "loss": 0.4836,
+      "loss/crossentropy": 2.3783109188079834,
+      "loss/hidden": 0.2099609375,
+      "loss/logits": 0.0486428327858448,
+      "loss/reg": 0.02249729447066784,
+      "step": 1854
+    },
+    {
+      "epoch": 0.9275,
+      "grad_norm": 1.4279130697250366,
+      "grad_norm_var": 0.1327791587908031,
+      "learning_rate": 2e-05,
+      "loss": 0.3999,
+      "loss/crossentropy": 2.4454482793807983,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.02843039110302925,
+      "loss/reg": 0.022494826465845108,
+      "step": 1855
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 1.3840880393981934,
+      "grad_norm_var": 0.12456864834301858,
+      "learning_rate": 2e-05,
+      "loss": 0.4034,
+      "loss/crossentropy": 2.2915083169937134,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.026664272882044315,
+      "loss/reg": 0.02249237336218357,
+      "step": 1856
+    },
+    {
+      "epoch": 0.9285,
+      "grad_norm": 1.6339174509048462,
+      "grad_norm_var": 0.11849177496741632,
+      "learning_rate": 2e-05,
+      "loss": 0.4585,
+      "loss/crossentropy": 2.2919251918792725,
+      "loss/hidden": 0.1962890625,
+      "loss/logits": 0.03729063458740711,
+      "loss/reg": 0.022490020841360092,
+      "step": 1857
+    },
+    {
+      "epoch": 0.929,
+      "grad_norm": 1.4191261529922485,
+      "grad_norm_var": 0.12225227678708066,
+      "learning_rate": 2e-05,
+      "loss": 0.3906,
+      "loss/crossentropy": 2.4586825370788574,
+      "loss/hidden": 0.13818359375,
+      "loss/logits": 0.027546225115656853,
+      "loss/reg": 0.022487731650471687,
+      "step": 1858
+    },
+    {
+      "epoch": 0.9295,
+      "grad_norm": 1.765230417251587,
+      "grad_norm_var": 0.12054770545048896,
+      "learning_rate": 2e-05,
+      "loss": 0.4006,
+      "loss/crossentropy": 2.3640472888946533,
+      "loss/hidden": 0.1484375,
+      "loss/logits": 0.027359573170542717,
+      "loss/reg": 0.022485224530100822,
+      "step": 1859
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.314341425895691,
+      "grad_norm_var": 0.12188687798420096,
+      "learning_rate": 2e-05,
+      "loss": 0.3958,
+      "loss/crossentropy": 2.542987108230591,
+      "loss/hidden": 0.1455078125,
+      "loss/logits": 0.025465862825512886,
+      "loss/reg": 0.022482680156826973,
+      "step": 1860
+    },
+    {
+      "epoch": 0.9305,
+      "grad_norm": 1.4204936027526855,
+      "grad_norm_var": 0.11697036921642787,
+      "learning_rate": 2e-05,
+      "loss": 0.3786,
+      "loss/crossentropy": 2.3337528705596924,
+      "loss/hidden": 0.13330078125,
+      "loss/logits": 0.0205409936606884,
+      "loss/reg": 0.0224803127348423,
+      "step": 1861
+    },
+    {
+      "epoch": 0.931,
+      "grad_norm": 1.553285002708435,
+      "grad_norm_var": 0.11723807462238127,
+      "learning_rate": 2e-05,
+      "loss": 0.4207,
+      "loss/crossentropy": 2.5051403045654297,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.032310767099261284,
+      "loss/reg": 0.022477777674794197,
+      "step": 1862
+    },
+    {
+      "epoch": 0.9315,
+      "grad_norm": 1.88336980342865,
+      "grad_norm_var": 0.12026858023636061,
+      "learning_rate": 2e-05,
+      "loss": 0.4247,
+      "loss/crossentropy": 2.7639983892440796,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.033397359773516655,
+      "loss/reg": 0.022475138306617737,
+      "step": 1863
+    },
+    {
+      "epoch": 0.932,
+      "grad_norm": 1.633898377418518,
+      "grad_norm_var": 0.03864676483869018,
+      "learning_rate": 2e-05,
+      "loss": 0.4802,
+      "loss/crossentropy": 2.3575611114501953,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.035267666913568974,
+      "loss/reg": 0.022472495213150978,
+      "step": 1864
+    },
+    {
+      "epoch": 0.9325,
+      "grad_norm": 1.7001293897628784,
+      "grad_norm_var": 0.02799001185132912,
+      "learning_rate": 2e-05,
+      "loss": 0.4325,
+      "loss/crossentropy": 2.351699948310852,
+      "loss/hidden": 0.1748046875,
+      "loss/logits": 0.03303542733192444,
+      "loss/reg": 0.022469859570264816,
+      "step": 1865
+    },
+    {
+      "epoch": 0.933,
+      "grad_norm": 2.136624336242676,
+      "grad_norm_var": 0.04816114932450143,
+      "learning_rate": 2e-05,
+      "loss": 0.5564,
+      "loss/crossentropy": 2.115296185016632,
+      "loss/hidden": 0.2880859375,
+      "loss/logits": 0.043633848428726196,
+      "loss/reg": 0.022467387840151787,
+      "step": 1866
+    },
+    {
+      "epoch": 0.9335,
+      "grad_norm": 3.2611968517303467,
+      "grad_norm_var": 0.22143645197999617,
+      "learning_rate": 2e-05,
+      "loss": 0.5975,
+      "loss/crossentropy": 2.6474725008010864,
+      "loss/hidden": 0.297607421875,
+      "loss/logits": 0.07519873604178429,
+      "loss/reg": 0.022464843466877937,
+      "step": 1867
+    },
+    {
+      "epoch": 0.934,
+      "grad_norm": 1.7594748735427856,
+      "grad_norm_var": 0.2138510846890559,
+      "learning_rate": 2e-05,
+      "loss": 0.4304,
+      "loss/crossentropy": 2.440946102142334,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.025086318142712116,
+      "loss/reg": 0.02246221713721752,
+      "step": 1868
+    },
+    {
+      "epoch": 0.9345,
+      "grad_norm": 1.7738037109375,
+      "grad_norm_var": 0.2117281243319851,
+      "learning_rate": 2e-05,
+      "loss": 0.4517,
+      "loss/crossentropy": 2.58816659450531,
+      "loss/hidden": 0.18505859375,
+      "loss/logits": 0.04205223172903061,
+      "loss/reg": 0.022459525614976883,
+      "step": 1869
+    },
+    {
+      "epoch": 0.935,
+      "grad_norm": 1.5588525533676147,
+      "grad_norm_var": 0.21288492425881386,
+      "learning_rate": 2e-05,
+      "loss": 0.4193,
+      "loss/crossentropy": 2.6452767848968506,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.03501817770302296,
+      "loss/reg": 0.022456802427768707,
+      "step": 1870
+    },
+    {
+      "epoch": 0.9355,
+      "grad_norm": 1.714156150817871,
+      "grad_norm_var": 0.20660591312481713,
+      "learning_rate": 2e-05,
+      "loss": 0.3944,
+      "loss/crossentropy": 2.630972743034363,
+      "loss/hidden": 0.142578125,
+      "loss/logits": 0.02727540396153927,
+      "loss/reg": 0.022454047575592995,
+      "step": 1871
+    },
+    {
+      "epoch": 0.936,
+      "grad_norm": 1.4239534139633179,
+      "grad_norm_var": 0.2047895173630837,
+      "learning_rate": 2e-05,
+      "loss": 0.418,
+      "loss/crossentropy": 2.3476343154907227,
+      "loss/hidden": 0.16357421875,
+      "loss/logits": 0.029905791394412518,
+      "loss/reg": 0.022451288998126984,
+      "step": 1872
+    },
+    {
+      "epoch": 0.9365,
+      "grad_norm": 1.3508610725402832,
+      "grad_norm_var": 0.21406456048783054,
+      "learning_rate": 2e-05,
+      "loss": 0.4097,
+      "loss/crossentropy": 2.158454120159149,
+      "loss/hidden": 0.15869140625,
+      "loss/logits": 0.026525546796619892,
+      "loss/reg": 0.02244875766336918,
+      "step": 1873
+    },
+    {
+      "epoch": 0.937,
+      "grad_norm": 1.8326611518859863,
+      "grad_norm_var": 0.20765040453607733,
+      "learning_rate": 2e-05,
+      "loss": 0.4879,
+      "loss/crossentropy": 2.358833074569702,
+      "loss/hidden": 0.23291015625,
+      "loss/logits": 0.03050221409648657,
+      "loss/reg": 0.022446228191256523,
+      "step": 1874
+    },
+    {
+      "epoch": 0.9375,
+      "grad_norm": 4.5147013664245605,
+      "grad_norm_var": 0.6838218076838546,
+      "learning_rate": 2e-05,
+      "loss": 0.556,
+      "loss/crossentropy": 2.2411223649978638,
+      "loss/hidden": 0.28271484375,
+      "loss/logits": 0.048853909596800804,
+      "loss/reg": 0.022443652153015137,
+      "step": 1875
+    },
+    {
+      "epoch": 0.938,
+      "grad_norm": 2.6737983226776123,
+      "grad_norm_var": 0.6882806728767182,
+      "learning_rate": 2e-05,
+      "loss": 0.4451,
+      "loss/crossentropy": 2.5554691553115845,
+      "loss/hidden": 0.18310546875,
+      "loss/logits": 0.03760566934943199,
+      "loss/reg": 0.022440902888774872,
+      "step": 1876
+    },
+    {
+      "epoch": 0.9385,
+      "grad_norm": 1.9008327722549438,
+      "grad_norm_var": 0.6648208335261887,
+      "learning_rate": 2e-05,
+      "loss": 0.4281,
+      "loss/crossentropy": 2.85513436794281,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.03139635734260082,
+      "loss/reg": 0.022438300773501396,
+      "step": 1877
+    },
+    {
+      "epoch": 0.939,
+      "grad_norm": 1.3097538948059082,
+      "grad_norm_var": 0.6843957065276801,
+      "learning_rate": 2e-05,
+      "loss": 0.4314,
+      "loss/crossentropy": 2.171161413192749,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.03369998559355736,
+      "loss/reg": 0.022435514256358147,
+      "step": 1878
+    },
+    {
+      "epoch": 0.9395,
+      "grad_norm": 1.6398875713348389,
+      "grad_norm_var": 0.6927558067930797,
+      "learning_rate": 2e-05,
+      "loss": 0.4433,
+      "loss/crossentropy": 2.272761583328247,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.0343943927437067,
+      "loss/reg": 0.022432943806052208,
+      "step": 1879
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.6524351835250854,
+      "grad_norm_var": 0.6918439217164187,
+      "learning_rate": 2e-05,
+      "loss": 0.4265,
+      "loss/crossentropy": 2.3826204538345337,
+      "loss/hidden": 0.169921875,
+      "loss/logits": 0.03229558374732733,
+      "loss/reg": 0.022430358454585075,
+      "step": 1880
+    },
+    {
+      "epoch": 0.9405,
+      "grad_norm": 1.5030336380004883,
+      "grad_norm_var": 0.7024858941629423,
+      "learning_rate": 2e-05,
+      "loss": 0.4619,
+      "loss/crossentropy": 2.4012389183044434,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.033006876707077026,
+      "loss/reg": 0.022427737712860107,
+      "step": 1881
+    },
+    {
+      "epoch": 0.941,
+      "grad_norm": 1.1325322389602661,
+      "grad_norm_var": 0.7472577601143559,
+      "learning_rate": 2e-05,
+      "loss": 0.3661,
+      "loss/crossentropy": 2.3976120948791504,
+      "loss/hidden": 0.123291015625,
+      "loss/logits": 0.018594788387417793,
+      "loss/reg": 0.022425329312682152,
+      "step": 1882
+    },
+    {
+      "epoch": 0.9415,
+      "grad_norm": 1.1853415966033936,
+      "grad_norm_var": 0.6502409271460311,
+      "learning_rate": 2e-05,
+      "loss": 0.4157,
+      "loss/crossentropy": 2.298361301422119,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.031314633786678314,
+      "loss/reg": 0.022422639653086662,
+      "step": 1883
+    },
+    {
+      "epoch": 0.942,
+      "grad_norm": 1.0973137617111206,
+      "grad_norm_var": 0.6819181070580886,
+      "learning_rate": 2e-05,
+      "loss": 0.3617,
+      "loss/crossentropy": 2.4975024461746216,
+      "loss/hidden": 0.117919921875,
+      "loss/logits": 0.019550339318811893,
+      "loss/reg": 0.02241992950439453,
+      "step": 1884
+    },
+    {
+      "epoch": 0.9425,
+      "grad_norm": 1.7438507080078125,
+      "grad_norm_var": 0.6819449915123499,
+      "learning_rate": 2e-05,
+      "loss": 0.4634,
+      "loss/crossentropy": 2.204440951347351,
+      "loss/hidden": 0.20458984375,
+      "loss/logits": 0.03460996691137552,
+      "loss/reg": 0.022417448461055756,
+      "step": 1885
+    },
+    {
+      "epoch": 0.943,
+      "grad_norm": 1.2848305702209473,
+      "grad_norm_var": 0.6941560719689528,
+      "learning_rate": 2e-05,
+      "loss": 0.4238,
+      "loss/crossentropy": 2.4170058965682983,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.03171874303370714,
+      "loss/reg": 0.022415155544877052,
+      "step": 1886
+    },
+    {
+      "epoch": 0.9435,
+      "grad_norm": 1.4587926864624023,
+      "grad_norm_var": 0.6993669145136687,
+      "learning_rate": 2e-05,
+      "loss": 0.4306,
+      "loss/crossentropy": 2.349593162536621,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.032118335366249084,
+      "loss/reg": 0.022412730380892754,
+      "step": 1887
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 1.3421655893325806,
+      "grad_norm_var": 0.7031391966357072,
+      "learning_rate": 2e-05,
+      "loss": 0.4002,
+      "loss/crossentropy": 2.1012765169143677,
+      "loss/hidden": 0.14599609375,
+      "loss/logits": 0.030093910172581673,
+      "loss/reg": 0.02241034060716629,
+      "step": 1888
+    },
+    {
+      "epoch": 0.9445,
+      "grad_norm": 1.568566083908081,
+      "grad_norm_var": 0.6951998080418774,
+      "learning_rate": 2e-05,
+      "loss": 0.4535,
+      "loss/crossentropy": 2.2762022018432617,
+      "loss/hidden": 0.193359375,
+      "loss/logits": 0.03608548082411289,
+      "loss/reg": 0.022408101707696915,
+      "step": 1889
+    },
+    {
+      "epoch": 0.945,
+      "grad_norm": 1.2452459335327148,
+      "grad_norm_var": 0.7095108720725463,
+      "learning_rate": 2e-05,
+      "loss": 0.4212,
+      "loss/crossentropy": 2.4997655153274536,
+      "loss/hidden": 0.16552734375,
+      "loss/logits": 0.03162308409810066,
+      "loss/reg": 0.022405438125133514,
+      "step": 1890
+    },
+    {
+      "epoch": 0.9455,
+      "grad_norm": 1.5108202695846558,
+      "grad_norm_var": 0.14745889251719102,
+      "learning_rate": 2e-05,
+      "loss": 0.4281,
+      "loss/crossentropy": 2.2601327896118164,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.03605945594608784,
+      "loss/reg": 0.02240295149385929,
+      "step": 1891
+    },
+    {
+      "epoch": 0.946,
+      "grad_norm": 1.6598831415176392,
+      "grad_norm_var": 0.05513170444355821,
+      "learning_rate": 2e-05,
+      "loss": 0.4369,
+      "loss/crossentropy": 2.2406809329986572,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.034201012924313545,
+      "loss/reg": 0.02240018919110298,
+      "step": 1892
+    },
+    {
+      "epoch": 0.9465,
+      "grad_norm": 1.3680381774902344,
+      "grad_norm_var": 0.041003415881171415,
+      "learning_rate": 2e-05,
+      "loss": 0.4007,
+      "loss/crossentropy": 2.4398785829544067,
+      "loss/hidden": 0.148193359375,
+      "loss/logits": 0.028537730686366558,
+      "loss/reg": 0.022397480905056,
+      "step": 1893
+    },
+    {
+      "epoch": 0.947,
+      "grad_norm": 1.0278970003128052,
+      "grad_norm_var": 0.05007064750664269,
+      "learning_rate": 2e-05,
+      "loss": 0.3886,
+      "loss/crossentropy": 2.148539900779724,
+      "loss/hidden": 0.14208984375,
+      "loss/logits": 0.022542059421539307,
+      "loss/reg": 0.022394755855202675,
+      "step": 1894
+    },
+    {
+      "epoch": 0.9475,
+      "grad_norm": 1.5086561441421509,
+      "grad_norm_var": 0.0469721299358883,
+      "learning_rate": 2e-05,
+      "loss": 0.4413,
+      "loss/crossentropy": 2.251150965690613,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.03278907388448715,
+      "loss/reg": 0.022392379119992256,
+      "step": 1895
+    },
+    {
+      "epoch": 0.948,
+      "grad_norm": 1.2127013206481934,
+      "grad_norm_var": 0.04385164563974554,
+      "learning_rate": 2e-05,
+      "loss": 0.368,
+      "loss/crossentropy": 2.422248601913452,
+      "loss/hidden": 0.123779296875,
+      "loss/logits": 0.020290100947022438,
+      "loss/reg": 0.02238963358104229,
+      "step": 1896
+    },
+    {
+      "epoch": 0.9485,
+      "grad_norm": 1.2324891090393066,
+      "grad_norm_var": 0.043468858091787806,
+      "learning_rate": 2e-05,
+      "loss": 0.3832,
+      "loss/crossentropy": 2.0850866436958313,
+      "loss/hidden": 0.136962890625,
+      "loss/logits": 0.02234545536339283,
+      "loss/reg": 0.022387119010090828,
+      "step": 1897
+    },
+    {
+      "epoch": 0.949,
+      "grad_norm": 1.4261040687561035,
+      "grad_norm_var": 0.040394134059281585,
+      "learning_rate": 2e-05,
+      "loss": 0.4292,
+      "loss/crossentropy": 2.431095004081726,
+      "loss/hidden": 0.171875,
+      "loss/logits": 0.033502984791994095,
+      "loss/reg": 0.022384393960237503,
+      "step": 1898
+    },
+    {
+      "epoch": 0.9495,
+      "grad_norm": 1.439329981803894,
+      "grad_norm_var": 0.038272658552281236,
+      "learning_rate": 2e-05,
+      "loss": 0.387,
+      "loss/crossentropy": 2.3343453407287598,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.02406618557870388,
+      "loss/reg": 0.02238152176141739,
+      "step": 1899
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.0969916582107544,
+      "grad_norm_var": 0.03828493091074415,
+      "learning_rate": 2e-05,
+      "loss": 0.3786,
+      "loss/crossentropy": 2.563263773918152,
+      "loss/hidden": 0.1318359375,
+      "loss/logits": 0.02294111903756857,
+      "loss/reg": 0.022378597408533096,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9505,
+      "grad_norm": 1.1716290712356567,
+      "grad_norm_var": 0.031210427928216926,
+      "learning_rate": 2e-05,
+      "loss": 0.4071,
+      "loss/crossentropy": 2.391364336013794,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.02612478658556938,
+      "loss/reg": 0.022375814616680145,
+      "step": 1901
+    },
+    {
+      "epoch": 0.951,
+      "grad_norm": 1.3930448293685913,
+      "grad_norm_var": 0.03104337690990106,
+      "learning_rate": 2e-05,
+      "loss": 0.3902,
+      "loss/crossentropy": 2.4488768577575684,
+      "loss/hidden": 0.1396484375,
+      "loss/logits": 0.02680811006575823,
+      "loss/reg": 0.022373300045728683,
+      "step": 1902
+    },
+    {
+      "epoch": 0.9515,
+      "grad_norm": 1.588849425315857,
+      "grad_norm_var": 0.03391953124871445,
+      "learning_rate": 2e-05,
+      "loss": 0.4344,
+      "loss/crossentropy": 2.354185700416565,
+      "loss/hidden": 0.1806640625,
+      "loss/logits": 0.03003675863146782,
+      "loss/reg": 0.02237078920006752,
+      "step": 1903
+    },
+    {
+      "epoch": 0.952,
+      "grad_norm": 1.7344504594802856,
+      "grad_norm_var": 0.0424987168581661,
+      "learning_rate": 2e-05,
+      "loss": 0.4191,
+      "loss/crossentropy": 2.253276824951172,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.030912759713828564,
+      "loss/reg": 0.02236793003976345,
+      "step": 1904
+    },
+    {
+      "epoch": 0.9525,
+      "grad_norm": 1.2497073411941528,
+      "grad_norm_var": 0.0411145507961009,
+      "learning_rate": 2e-05,
+      "loss": 0.3802,
+      "loss/crossentropy": 2.337361454963684,
+      "loss/hidden": 0.13623046875,
+      "loss/logits": 0.02029071655124426,
+      "loss/reg": 0.02236493118107319,
+      "step": 1905
+    },
+    {
+      "epoch": 0.953,
+      "grad_norm": 1.4437819719314575,
+      "grad_norm_var": 0.040365271308345045,
+      "learning_rate": 2e-05,
+      "loss": 0.3873,
+      "loss/crossentropy": 2.3124853372573853,
+      "loss/hidden": 0.1435546875,
+      "loss/logits": 0.020108817145228386,
+      "loss/reg": 0.02236202545464039,
+      "step": 1906
+    },
+    {
+      "epoch": 0.9535,
+      "grad_norm": 1.5539910793304443,
+      "grad_norm_var": 0.04124039089983468,
+      "learning_rate": 2e-05,
+      "loss": 0.3817,
+      "loss/crossentropy": 2.313749074935913,
+      "loss/hidden": 0.13671875,
+      "loss/logits": 0.02142718993127346,
+      "loss/reg": 0.02235933393239975,
+      "step": 1907
+    },
+    {
+      "epoch": 0.954,
+      "grad_norm": 1.723780632019043,
+      "grad_norm_var": 0.04386541517829012,
+      "learning_rate": 2e-05,
+      "loss": 0.4172,
+      "loss/crossentropy": 2.3829362392425537,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.02905107382684946,
+      "loss/reg": 0.022356610745191574,
+      "step": 1908
+    },
+    {
+      "epoch": 0.9545,
+      "grad_norm": 1.19853937625885,
+      "grad_norm_var": 0.04606052697454756,
+      "learning_rate": 2e-05,
+      "loss": 0.4345,
+      "loss/crossentropy": 2.2605234384536743,
+      "loss/hidden": 0.17626953125,
+      "loss/logits": 0.03473933879286051,
+      "loss/reg": 0.022353753447532654,
+      "step": 1909
+    },
+    {
+      "epoch": 0.955,
+      "grad_norm": 2.8696258068084717,
+      "grad_norm_var": 0.17279256562972117,
+      "learning_rate": 2e-05,
+      "loss": 0.5594,
+      "loss/crossentropy": 2.468735933303833,
+      "loss/hidden": 0.29638671875,
+      "loss/logits": 0.0395014937967062,
+      "loss/reg": 0.022350985556840897,
+      "step": 1910
+    },
+    {
+      "epoch": 0.9555,
+      "grad_norm": 1.2979068756103516,
+      "grad_norm_var": 0.17505073259704976,
+      "learning_rate": 2e-05,
+      "loss": 0.3883,
+      "loss/crossentropy": 2.4635722637176514,
+      "loss/hidden": 0.13720703125,
+      "loss/logits": 0.027581739239394665,
+      "loss/reg": 0.02234843373298645,
+      "step": 1911
+    },
+    {
+      "epoch": 0.956,
+      "grad_norm": 2.820190906524658,
+      "grad_norm_var": 0.2798921413237015,
+      "learning_rate": 2e-05,
+      "loss": 0.6459,
+      "loss/crossentropy": 2.131369948387146,
+      "loss/hidden": 0.365234375,
+      "loss/logits": 0.057183969765901566,
+      "loss/reg": 0.02234589122235775,
+      "step": 1912
+    },
+    {
+      "epoch": 0.9565,
+      "grad_norm": 1.3415361642837524,
+      "grad_norm_var": 0.2756186472645955,
+      "learning_rate": 2e-05,
+      "loss": 0.422,
+      "loss/crossentropy": 2.289743185043335,
+      "loss/hidden": 0.16650390625,
+      "loss/logits": 0.03201920446008444,
+      "loss/reg": 0.022343412041664124,
+      "step": 1913
+    },
+    {
+      "epoch": 0.957,
+      "grad_norm": 1.1303457021713257,
+      "grad_norm_var": 0.2873257056445263,
+      "learning_rate": 2e-05,
+      "loss": 0.3862,
+      "loss/crossentropy": 2.3576101064682007,
+      "loss/hidden": 0.14013671875,
+      "loss/logits": 0.02269960194826126,
+      "loss/reg": 0.022340916097164154,
+      "step": 1914
+    },
+    {
+      "epoch": 0.9575,
+      "grad_norm": 2.158590078353882,
+      "grad_norm_var": 0.3075251014181994,
+      "learning_rate": 2e-05,
+      "loss": 0.4402,
+      "loss/crossentropy": 2.332666039466858,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.038076866418123245,
+      "loss/reg": 0.022338369861245155,
+      "step": 1915
+    },
+    {
+      "epoch": 0.958,
+      "grad_norm": 7.00865364074707,
+      "grad_norm_var": 2.08675653148509,
+      "learning_rate": 2e-05,
+      "loss": 0.6937,
+      "loss/crossentropy": 2.646122097969055,
+      "loss/hidden": 0.392578125,
+      "loss/logits": 0.07780970819294453,
+      "loss/reg": 0.02233590930700302,
+      "step": 1916
+    },
+    {
+      "epoch": 0.9585,
+      "grad_norm": 1.3123027086257935,
+      "grad_norm_var": 2.0728257314385186,
+      "learning_rate": 2e-05,
+      "loss": 0.4072,
+      "loss/crossentropy": 2.2954723834991455,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.026589620858430862,
+      "loss/reg": 0.022333433851599693,
+      "step": 1917
+    },
+    {
+      "epoch": 0.959,
+      "grad_norm": 1.8116488456726074,
+      "grad_norm_var": 2.050510475959324,
+      "learning_rate": 2e-05,
+      "loss": 0.4173,
+      "loss/crossentropy": 2.6285065412521362,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.03334318473935127,
+      "loss/reg": 0.022331027314066887,
+      "step": 1918
+    },
+    {
+      "epoch": 0.9595,
+      "grad_norm": 1.3005446195602417,
+      "grad_norm_var": 2.072096328270597,
+      "learning_rate": 2e-05,
+      "loss": 0.3712,
+      "loss/crossentropy": 2.384632110595703,
+      "loss/hidden": 0.1279296875,
+      "loss/logits": 0.019956374540925026,
+      "loss/reg": 0.022328531369566917,
+      "step": 1919
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.381271243095398,
+      "grad_norm_var": 2.0922664903830954,
+      "learning_rate": 2e-05,
+      "loss": 0.3898,
+      "loss/crossentropy": 2.2269625663757324,
+      "loss/hidden": 0.146484375,
+      "loss/logits": 0.020025085657835007,
+      "loss/reg": 0.022326109930872917,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9605,
+      "grad_norm": 2.105039596557617,
+      "grad_norm_var": 2.055258347725847,
+      "learning_rate": 2e-05,
+      "loss": 0.4958,
+      "loss/crossentropy": 2.388508439064026,
+      "loss/hidden": 0.22509765625,
+      "loss/logits": 0.047498359344899654,
+      "loss/reg": 0.02232373133301735,
+      "step": 1921
+    },
+    {
+      "epoch": 0.961,
+      "grad_norm": 1.0844900608062744,
+      "grad_norm_var": 2.091343013520689,
+      "learning_rate": 2e-05,
+      "loss": 0.3874,
+      "loss/crossentropy": 2.326627492904663,
+      "loss/hidden": 0.1396484375,
+      "loss/logits": 0.02454256359487772,
+      "loss/reg": 0.022321194410324097,
+      "step": 1922
+    },
+    {
+      "epoch": 0.9615,
+      "grad_norm": 1.7085936069488525,
+      "grad_norm_var": 2.0835161560615814,
+      "learning_rate": 2e-05,
+      "loss": 0.4864,
+      "loss/crossentropy": 2.1795098781585693,
+      "loss/hidden": 0.22021484375,
+      "loss/logits": 0.04298657365143299,
+      "loss/reg": 0.022318590432405472,
+      "step": 1923
+    },
+    {
+      "epoch": 0.962,
+      "grad_norm": 1.0788378715515137,
+      "grad_norm_var": 2.1346259374470815,
+      "learning_rate": 2e-05,
+      "loss": 0.3828,
+      "loss/crossentropy": 2.402096390724182,
+      "loss/hidden": 0.13623046875,
+      "loss/logits": 0.023389977402985096,
+      "loss/reg": 0.022316064685583115,
+      "step": 1924
+    },
+    {
+      "epoch": 0.9625,
+      "grad_norm": 1.3279380798339844,
+      "grad_norm_var": 2.1222672863766183,
+      "learning_rate": 2e-05,
+      "loss": 0.4175,
+      "loss/crossentropy": 2.4705991744995117,
+      "loss/hidden": 0.1650390625,
+      "loss/logits": 0.02933623269200325,
+      "loss/reg": 0.02231350913643837,
+      "step": 1925
+    },
+    {
+      "epoch": 0.963,
+      "grad_norm": 1.8480850458145142,
+      "grad_norm_var": 2.066806634795002,
+      "learning_rate": 2e-05,
+      "loss": 0.5545,
+      "loss/crossentropy": 2.2896007299423218,
+      "loss/hidden": 0.2978515625,
+      "loss/logits": 0.03350013308227062,
+      "loss/reg": 0.022310776636004448,
+      "step": 1926
+    },
+    {
+      "epoch": 0.9635,
+      "grad_norm": 1.2676535844802856,
+      "grad_norm_var": 2.0693722058326345,
+      "learning_rate": 2e-05,
+      "loss": 0.4228,
+      "loss/crossentropy": 2.229649305343628,
+      "loss/hidden": 0.16796875,
+      "loss/logits": 0.03177023585885763,
+      "loss/reg": 0.022308047860860825,
+      "step": 1927
+    },
+    {
+      "epoch": 0.964,
+      "grad_norm": 1.5557312965393066,
+      "grad_norm_var": 2.017172302933795,
+      "learning_rate": 2e-05,
+      "loss": 0.443,
+      "loss/crossentropy": 2.5194848775863647,
+      "loss/hidden": 0.18408203125,
+      "loss/logits": 0.035887595266103745,
+      "loss/reg": 0.02230549044907093,
+      "step": 1928
+    },
+    {
+      "epoch": 0.9645,
+      "grad_norm": 1.9265832901000977,
+      "grad_norm_var": 1.9997728547949178,
+      "learning_rate": 2e-05,
+      "loss": 0.4194,
+      "loss/crossentropy": 2.3407788276672363,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.03186378628015518,
+      "loss/reg": 0.02230297587811947,
+      "step": 1929
+    },
+    {
+      "epoch": 0.965,
+      "grad_norm": 1.2221165895462036,
+      "grad_norm_var": 1.9911827201257373,
+      "learning_rate": 2e-05,
+      "loss": 0.3808,
+      "loss/crossentropy": 2.2330673933029175,
+      "loss/hidden": 0.133544921875,
+      "loss/logits": 0.02422002237290144,
+      "loss/reg": 0.02230045385658741,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9655,
+      "grad_norm": 1.4464212656021118,
+      "grad_norm_var": 1.996535291902523,
+      "learning_rate": 2e-05,
+      "loss": 0.431,
+      "loss/crossentropy": 2.560730218887329,
+      "loss/hidden": 0.17333984375,
+      "loss/logits": 0.034654753282666206,
+      "loss/reg": 0.022297974675893784,
+      "step": 1931
+    },
+    {
+      "epoch": 0.966,
+      "grad_norm": 1.3387093544006348,
+      "grad_norm_var": 0.09578263410320928,
+      "learning_rate": 2e-05,
+      "loss": 0.4139,
+      "loss/crossentropy": 2.2281144857406616,
+      "loss/hidden": 0.1640625,
+      "loss/logits": 0.026879730634391308,
+      "loss/reg": 0.02229529432952404,
+      "step": 1932
+    },
+    {
+      "epoch": 0.9665,
+      "grad_norm": 1.6466373205184937,
+      "grad_norm_var": 0.09519305136430105,
+      "learning_rate": 2e-05,
+      "loss": 0.4525,
+      "loss/crossentropy": 2.416178584098816,
+      "loss/hidden": 0.19677734375,
+      "loss/logits": 0.03280434384942055,
+      "loss/reg": 0.022292664274573326,
+      "step": 1933
+    },
+    {
+      "epoch": 0.967,
+      "grad_norm": 1.9065243005752563,
+      "grad_norm_var": 0.09965824271180447,
+      "learning_rate": 2e-05,
+      "loss": 0.398,
+      "loss/crossentropy": 2.332263708114624,
+      "loss/hidden": 0.14990234375,
+      "loss/logits": 0.02516376320272684,
+      "loss/reg": 0.02228992059826851,
+      "step": 1934
+    },
+    {
+      "epoch": 0.9675,
+      "grad_norm": 1.438956618309021,
+      "grad_norm_var": 0.09700722244866876,
+      "learning_rate": 2e-05,
+      "loss": 0.4454,
+      "loss/crossentropy": 2.299056053161621,
+      "loss/hidden": 0.1787109375,
+      "loss/logits": 0.0438066478818655,
+      "loss/reg": 0.022287409752607346,
+      "step": 1935
+    },
+    {
+      "epoch": 0.968,
+      "grad_norm": 1.3283144235610962,
+      "grad_norm_var": 0.09814598179248814,
+      "learning_rate": 2e-05,
+      "loss": 0.3993,
+      "loss/crossentropy": 2.705706477165222,
+      "loss/hidden": 0.150390625,
+      "loss/logits": 0.026097907684743404,
+      "loss/reg": 0.022284839302301407,
+      "step": 1936
+    },
+    {
+      "epoch": 0.9685,
+      "grad_norm": 1.2671499252319336,
+      "grad_norm_var": 0.07604085535109846,
+      "learning_rate": 2e-05,
+      "loss": 0.4034,
+      "loss/crossentropy": 2.3038320541381836,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.027765167877078056,
+      "loss/reg": 0.022282104939222336,
+      "step": 1937
+    },
+    {
+      "epoch": 0.969,
+      "grad_norm": 1.7129496335983276,
+      "grad_norm_var": 0.06908875770655426,
+      "learning_rate": 2e-05,
+      "loss": 0.4102,
+      "loss/crossentropy": 2.409985303878784,
+      "loss/hidden": 0.16015625,
+      "loss/logits": 0.027242244221270084,
+      "loss/reg": 0.022279653698205948,
+      "step": 1938
+    },
+    {
+      "epoch": 0.9695,
+      "grad_norm": 2.031566619873047,
+      "grad_norm_var": 0.08453384690603698,
+      "learning_rate": 2e-05,
+      "loss": 0.4135,
+      "loss/crossentropy": 2.453916311264038,
+      "loss/hidden": 0.162109375,
+      "loss/logits": 0.028619682416319847,
+      "loss/reg": 0.022277243435382843,
+      "step": 1939
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.2778832912445068,
+      "grad_norm_var": 0.07526176615922105,
+      "learning_rate": 2e-05,
+      "loss": 0.4069,
+      "loss/crossentropy": 2.225833773612976,
+      "loss/hidden": 0.15185546875,
+      "loss/logits": 0.032262424007058144,
+      "loss/reg": 0.02227473258972168,
+      "step": 1940
+    },
+    {
+      "epoch": 0.9705,
+      "grad_norm": 1.492366075515747,
+      "grad_norm_var": 0.07243497295631436,
+      "learning_rate": 2e-05,
+      "loss": 0.4036,
+      "loss/crossentropy": 2.5838898420333862,
+      "loss/hidden": 0.15087890625,
+      "loss/logits": 0.029996756464242935,
+      "loss/reg": 0.022272255271673203,
+      "step": 1941
+    },
+    {
+      "epoch": 0.971,
+      "grad_norm": 1.3968478441238403,
+      "grad_norm_var": 0.06687936652998203,
+      "learning_rate": 2e-05,
+      "loss": 0.4118,
+      "loss/crossentropy": 2.50420606136322,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.03238658234477043,
+      "loss/reg": 0.022269796580076218,
+      "step": 1942
+    },
+    {
+      "epoch": 0.9715,
+      "grad_norm": 1.295305848121643,
+      "grad_norm_var": 0.06601141679391885,
+      "learning_rate": 2e-05,
+      "loss": 0.4081,
+      "loss/crossentropy": 2.0319120287895203,
+      "loss/hidden": 0.1572265625,
+      "loss/logits": 0.028178725391626358,
+      "loss/reg": 0.02226731739938259,
+      "step": 1943
+    },
+    {
+      "epoch": 0.972,
+      "grad_norm": 2.280089855194092,
+      "grad_norm_var": 0.10247276685499802,
+      "learning_rate": 2e-05,
+      "loss": 0.4834,
+      "loss/crossentropy": 2.3557260036468506,
+      "loss/hidden": 0.22216796875,
+      "loss/logits": 0.03859390318393707,
+      "loss/reg": 0.022265000268816948,
+      "step": 1944
+    },
+    {
+      "epoch": 0.9725,
+      "grad_norm": 1.870656132698059,
+      "grad_norm_var": 0.0999572300988054,
+      "learning_rate": 2e-05,
+      "loss": 0.4063,
+      "loss/crossentropy": 2.2198551893234253,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.03083806298673153,
+      "loss/reg": 0.022262422367930412,
+      "step": 1945
+    },
+    {
+      "epoch": 0.973,
+      "grad_norm": 1.223396897315979,
+      "grad_norm_var": 0.09989973331883183,
+      "learning_rate": 2e-05,
+      "loss": 0.3957,
+      "loss/crossentropy": 2.442264437675476,
+      "loss/hidden": 0.148681640625,
+      "loss/logits": 0.024409527890384197,
+      "loss/reg": 0.02225991152226925,
+      "step": 1946
+    },
+    {
+      "epoch": 0.9735,
+      "grad_norm": 1.715518593788147,
+      "grad_norm_var": 0.10036436305615364,
+      "learning_rate": 2e-05,
+      "loss": 0.4104,
+      "loss/crossentropy": 2.298407196998596,
+      "loss/hidden": 0.1552734375,
+      "loss/logits": 0.03260168805718422,
+      "loss/reg": 0.0222572460770607,
+      "step": 1947
+    },
+    {
+      "epoch": 0.974,
+      "grad_norm": 1.156018853187561,
+      "grad_norm_var": 0.10824091454887531,
+      "learning_rate": 2e-05,
+      "loss": 0.3887,
+      "loss/crossentropy": 2.604636073112488,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.027005971409380436,
+      "loss/reg": 0.022254537791013718,
+      "step": 1948
+    },
+    {
+      "epoch": 0.9745,
+      "grad_norm": 1.4995312690734863,
+      "grad_norm_var": 0.10799240399380565,
+      "learning_rate": 2e-05,
+      "loss": 0.4008,
+      "loss/crossentropy": 2.598103880882263,
+      "loss/hidden": 0.14794921875,
+      "loss/logits": 0.030296839773654938,
+      "loss/reg": 0.022251838818192482,
+      "step": 1949
+    },
+    {
+      "epoch": 0.975,
+      "grad_norm": 1.2907731533050537,
+      "grad_norm_var": 0.10289614463530032,
+      "learning_rate": 2e-05,
+      "loss": 0.413,
+      "loss/crossentropy": 2.3919172286987305,
+      "loss/hidden": 0.15966796875,
+      "loss/logits": 0.03085498232394457,
+      "loss/reg": 0.022249221801757812,
+      "step": 1950
+    },
+    {
+      "epoch": 0.9755,
+      "grad_norm": 1.502394437789917,
+      "grad_norm_var": 0.10248473161154052,
+      "learning_rate": 2e-05,
+      "loss": 0.3982,
+      "loss/crossentropy": 2.357411503791809,
+      "loss/hidden": 0.1484375,
+      "loss/logits": 0.027324603870511055,
+      "loss/reg": 0.0222467128187418,
+      "step": 1951
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 1.2249350547790527,
+      "grad_norm_var": 0.1058127524217482,
+      "learning_rate": 2e-05,
+      "loss": 0.3818,
+      "loss/crossentropy": 2.7032934427261353,
+      "loss/hidden": 0.13525390625,
+      "loss/logits": 0.024068184196949005,
+      "loss/reg": 0.022244160994887352,
+      "step": 1952
+    },
+    {
+      "epoch": 0.9765,
+      "grad_norm": 1.2931334972381592,
+      "grad_norm_var": 0.10499684489912173,
+      "learning_rate": 2e-05,
+      "loss": 0.4009,
+      "loss/crossentropy": 2.303010582923889,
+      "loss/hidden": 0.150390625,
+      "loss/logits": 0.028063518926501274,
+      "loss/reg": 0.02224154584109783,
+      "step": 1953
+    },
+    {
+      "epoch": 0.977,
+      "grad_norm": 1.1064225435256958,
+      "grad_norm_var": 0.11209890357808133,
+      "learning_rate": 2e-05,
+      "loss": 0.394,
+      "loss/crossentropy": 2.4800167083740234,
+      "loss/hidden": 0.14306640625,
+      "loss/logits": 0.028574367053806782,
+      "loss/reg": 0.022238755598664284,
+      "step": 1954
+    },
+    {
+      "epoch": 0.9775,
+      "grad_norm": 1.7888641357421875,
+      "grad_norm_var": 0.09788471441156942,
+      "learning_rate": 2e-05,
+      "loss": 0.4597,
+      "loss/crossentropy": 2.269771993160248,
+      "loss/hidden": 0.19873046875,
+      "loss/logits": 0.03857916593551636,
+      "loss/reg": 0.022236214950680733,
+      "step": 1955
+    },
+    {
+      "epoch": 0.978,
+      "grad_norm": 1.1377007961273193,
+      "grad_norm_var": 0.1025800961707351,
+      "learning_rate": 2e-05,
+      "loss": 0.3758,
+      "loss/crossentropy": 2.247413754463196,
+      "loss/hidden": 0.1298828125,
+      "loss/logits": 0.02357647381722927,
+      "loss/reg": 0.022233642637729645,
+      "step": 1956
+    },
+    {
+      "epoch": 0.9785,
+      "grad_norm": 1.4004080295562744,
+      "grad_norm_var": 0.10264583324120663,
+      "learning_rate": 2e-05,
+      "loss": 0.4035,
+      "loss/crossentropy": 2.3835976123809814,
+      "loss/hidden": 0.15380859375,
+      "loss/logits": 0.02738987375050783,
+      "loss/reg": 0.022231118753552437,
+      "step": 1957
+    },
+    {
+      "epoch": 0.979,
+      "grad_norm": 1.24699068069458,
+      "grad_norm_var": 0.10508895477803246,
+      "learning_rate": 2e-05,
+      "loss": 0.3889,
+      "loss/crossentropy": 2.438993811607361,
+      "loss/hidden": 0.13818359375,
+      "loss/logits": 0.028424736112356186,
+      "loss/reg": 0.022228769958019257,
+      "step": 1958
+    },
+    {
+      "epoch": 0.9795,
+      "grad_norm": 2.308201789855957,
+      "grad_norm_var": 0.14973633890307708,
+      "learning_rate": 2e-05,
+      "loss": 0.4118,
+      "loss/crossentropy": 2.373353362083435,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.032791512086987495,
+      "loss/reg": 0.022226233035326004,
+      "step": 1959
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.3943239450454712,
+      "grad_norm_var": 0.1069748260107654,
+      "learning_rate": 2e-05,
+      "loss": 0.4152,
+      "loss/crossentropy": 2.4576724767684937,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.03036567196249962,
+      "loss/reg": 0.022223642095923424,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9805,
+      "grad_norm": 1.372459053993225,
+      "grad_norm_var": 0.09437562854595664,
+      "learning_rate": 2e-05,
+      "loss": 0.4329,
+      "loss/crossentropy": 2.2118232250213623,
+      "loss/hidden": 0.18115234375,
+      "loss/logits": 0.029521776363253593,
+      "loss/reg": 0.02222101204097271,
+      "step": 1961
+    },
+    {
+      "epoch": 0.981,
+      "grad_norm": 1.6961666345596313,
+      "grad_norm_var": 0.09618417236027692,
+      "learning_rate": 2e-05,
+      "loss": 0.3974,
+      "loss/crossentropy": 2.430359721183777,
+      "loss/hidden": 0.138671875,
+      "loss/logits": 0.03654170501977205,
+      "loss/reg": 0.02221854217350483,
+      "step": 1962
+    },
+    {
+      "epoch": 0.9815,
+      "grad_norm": 1.9904968738555908,
+      "grad_norm_var": 0.11079650013560964,
+      "learning_rate": 2e-05,
+      "loss": 0.3833,
+      "loss/crossentropy": 2.349852681159973,
+      "loss/hidden": 0.137939453125,
+      "loss/logits": 0.023190665990114212,
+      "loss/reg": 0.02221612073481083,
+      "step": 1963
+    },
+    {
+      "epoch": 0.982,
+      "grad_norm": 1.5087324380874634,
+      "grad_norm_var": 0.10413266118218628,
+      "learning_rate": 2e-05,
+      "loss": 0.385,
+      "loss/crossentropy": 2.4656479358673096,
+      "loss/hidden": 0.138671875,
+      "loss/logits": 0.024239342659711838,
+      "loss/reg": 0.02221374586224556,
+      "step": 1964
+    },
+    {
+      "epoch": 0.9825,
+      "grad_norm": 3.662198781967163,
+      "grad_norm_var": 0.40061585609098616,
+      "learning_rate": 2e-05,
+      "loss": 0.4676,
+      "loss/crossentropy": 2.5416672229766846,
+      "loss/hidden": 0.16748046875,
+      "loss/logits": 0.07797094993293285,
+      "loss/reg": 0.022211195901036263,
+      "step": 1965
+    },
+    {
+      "epoch": 0.983,
+      "grad_norm": 3.0709733963012695,
+      "grad_norm_var": 0.5204777832696872,
+      "learning_rate": 2e-05,
+      "loss": 0.446,
+      "loss/crossentropy": 2.499261498451233,
+      "loss/hidden": 0.18896484375,
+      "loss/logits": 0.03491983376443386,
+      "loss/reg": 0.022208670154213905,
+      "step": 1966
+    },
+    {
+      "epoch": 0.9835,
+      "grad_norm": 1.299326777458191,
+      "grad_norm_var": 0.5292589340957948,
+      "learning_rate": 2e-05,
+      "loss": 0.4253,
+      "loss/crossentropy": 2.3157382011413574,
+      "loss/hidden": 0.1669921875,
+      "loss/logits": 0.03624746948480606,
+      "loss/reg": 0.02220613695681095,
+      "step": 1967
+    },
+    {
+      "epoch": 0.984,
+      "grad_norm": 2.600094795227051,
+      "grad_norm_var": 0.5568919038873178,
+      "learning_rate": 2e-05,
+      "loss": 0.559,
+      "loss/crossentropy": 2.232682466506958,
+      "loss/hidden": 0.2373046875,
+      "loss/logits": 0.09961535781621933,
+      "loss/reg": 0.022203726693987846,
+      "step": 1968
+    },
+    {
+      "epoch": 0.9845,
+      "grad_norm": 1.5083189010620117,
+      "grad_norm_var": 0.5451060779468074,
+      "learning_rate": 2e-05,
+      "loss": 0.4475,
+      "loss/crossentropy": 2.3565086126327515,
+      "loss/hidden": 0.1845703125,
+      "loss/logits": 0.04091835021972656,
+      "loss/reg": 0.022201379761099815,
+      "step": 1969
+    },
+    {
+      "epoch": 0.985,
+      "grad_norm": 1.5320773124694824,
+      "grad_norm_var": 0.5160320549007683,
+      "learning_rate": 2e-05,
+      "loss": 0.4333,
+      "loss/crossentropy": 2.222718358039856,
+      "loss/hidden": 0.16845703125,
+      "loss/logits": 0.04285791330039501,
+      "loss/reg": 0.022199101746082306,
+      "step": 1970
+    },
+    {
+      "epoch": 0.9855,
+      "grad_norm": 1.7056018114089966,
+      "grad_norm_var": 0.5170866940808054,
+      "learning_rate": 2e-05,
+      "loss": 0.4092,
+      "loss/crossentropy": 2.4271280765533447,
+      "loss/hidden": 0.15673828125,
+      "loss/logits": 0.03053828328847885,
+      "loss/reg": 0.02219672128558159,
+      "step": 1971
+    },
+    {
+      "epoch": 0.986,
+      "grad_norm": 1.1430257558822632,
+      "grad_norm_var": 0.5165901006666008,
+      "learning_rate": 2e-05,
+      "loss": 0.3962,
+      "loss/crossentropy": 2.436211943626404,
+      "loss/hidden": 0.14453125,
+      "loss/logits": 0.02975220326334238,
+      "loss/reg": 0.02219444327056408,
+      "step": 1972
+    },
+    {
+      "epoch": 0.9865,
+      "grad_norm": 1.38370943069458,
+      "grad_norm_var": 0.5175861871168814,
+      "learning_rate": 2e-05,
+      "loss": 0.4147,
+      "loss/crossentropy": 2.4028401374816895,
+      "loss/hidden": 0.1611328125,
+      "loss/logits": 0.03168147522956133,
+      "loss/reg": 0.022191938012838364,
+      "step": 1973
+    },
+    {
+      "epoch": 0.987,
+      "grad_norm": 1.449479579925537,
+      "grad_norm_var": 0.5041676177403838,
+      "learning_rate": 2e-05,
+      "loss": 0.4342,
+      "loss/crossentropy": 2.3942774534225464,
+      "loss/hidden": 0.1767578125,
+      "loss/logits": 0.03549867123365402,
+      "loss/reg": 0.022189509123563766,
+      "step": 1974
+    },
+    {
+      "epoch": 0.9875,
+      "grad_norm": 2.0965735912323,
+      "grad_norm_var": 0.49408207054312825,
+      "learning_rate": 2e-05,
+      "loss": 0.4188,
+      "loss/crossentropy": 2.363860249519348,
+      "loss/hidden": 0.16259765625,
+      "loss/logits": 0.034327320754528046,
+      "loss/reg": 0.02218729257583618,
+      "step": 1975
+    },
+    {
+      "epoch": 0.988,
+      "grad_norm": 1.2674319744110107,
+      "grad_norm_var": 0.5026008210188041,
+      "learning_rate": 2e-05,
+      "loss": 0.4196,
+      "loss/crossentropy": 2.3103872537612915,
+      "loss/hidden": 0.16455078125,
+      "loss/logits": 0.03319397568702698,
+      "loss/reg": 0.022184785455465317,
+      "step": 1976
+    },
+    {
+      "epoch": 0.9885,
+      "grad_norm": 1.3519755601882935,
+      "grad_norm_var": 0.5038777873620819,
+      "learning_rate": 2e-05,
+      "loss": 0.3873,
+      "loss/crossentropy": 2.3832825422286987,
+      "loss/hidden": 0.140625,
+      "loss/logits": 0.024883822537958622,
+      "loss/reg": 0.022182263433933258,
+      "step": 1977
+    },
+    {
+      "epoch": 0.989,
+      "grad_norm": 1.163076400756836,
+      "grad_norm_var": 0.5310906853740609,
+      "learning_rate": 2e-05,
+      "loss": 0.3687,
+      "loss/crossentropy": 2.3655554056167603,
+      "loss/hidden": 0.1279296875,
+      "loss/logits": 0.018932482227683067,
+      "loss/reg": 0.02217974327504635,
+      "step": 1978
+    },
+    {
+      "epoch": 0.9895,
+      "grad_norm": 1.2967028617858887,
+      "grad_norm_var": 0.543166161422513,
+      "learning_rate": 2e-05,
+      "loss": 0.4113,
+      "loss/crossentropy": 2.2330108880996704,
+      "loss/hidden": 0.16064453125,
+      "loss/logits": 0.02884120587259531,
+      "loss/reg": 0.02217736653983593,
+      "step": 1979
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.9606475830078125,
+      "grad_norm_var": 0.5797518155803723,
+      "learning_rate": 2e-05,
+      "loss": 0.3794,
+      "loss/crossentropy": 2.309578061103821,
+      "loss/hidden": 0.13427734375,
+      "loss/logits": 0.023378074169158936,
+      "loss/reg": 0.022174881771206856,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9905,
+      "grad_norm": 1.4933451414108276,
+      "grad_norm_var": 0.3115809486329993,
+      "learning_rate": 2e-05,
+      "loss": 0.4478,
+      "loss/crossentropy": 2.2966067790985107,
+      "loss/hidden": 0.18994140625,
+      "loss/logits": 0.036129954271018505,
+      "loss/reg": 0.022172508761286736,
+      "step": 1981
+    },
+    {
+      "epoch": 0.991,
+      "grad_norm": 1.1591241359710693,
+      "grad_norm_var": 0.16063496865446744,
+      "learning_rate": 2e-05,
+      "loss": 0.3848,
+      "loss/crossentropy": 2.3767281770706177,
+      "loss/hidden": 0.13916015625,
+      "loss/logits": 0.023951291106641293,
+      "loss/reg": 0.022169925272464752,
+      "step": 1982
+    },
+    {
+      "epoch": 0.9915,
+      "grad_norm": 1.2430766820907593,
+      "grad_norm_var": 0.16206145180208573,
+      "learning_rate": 2e-05,
+      "loss": 0.4026,
+      "loss/crossentropy": 2.3017172813415527,
+      "loss/hidden": 0.150390625,
+      "loss/logits": 0.03055698424577713,
+      "loss/reg": 0.02216746285557747,
+      "step": 1983
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 1.0589817762374878,
+      "grad_norm_var": 0.07615843072529553,
+      "learning_rate": 2e-05,
+      "loss": 0.3757,
+      "loss/crossentropy": 2.41360604763031,
+      "loss/hidden": 0.13134765625,
+      "loss/logits": 0.022694111801683903,
+      "loss/reg": 0.02216503396630287,
+      "step": 1984
+    },
+    {
+      "epoch": 0.9925,
+      "grad_norm": 1.074315071105957,
+      "grad_norm_var": 0.07954031445189572,
+      "learning_rate": 2e-05,
+      "loss": 0.3816,
+      "loss/crossentropy": 2.434372305870056,
+      "loss/hidden": 0.1376953125,
+      "loss/logits": 0.02227596938610077,
+      "loss/reg": 0.02216257154941559,
+      "step": 1985
+    },
+    {
+      "epoch": 0.993,
+      "grad_norm": 1.1688265800476074,
+      "grad_norm_var": 0.07830008007563455,
+      "learning_rate": 2e-05,
+      "loss": 0.3919,
+      "loss/crossentropy": 2.4475741386413574,
+      "loss/hidden": 0.1416015625,
+      "loss/logits": 0.02868059929460287,
+      "loss/reg": 0.022160008549690247,
+      "step": 1986
+    },
+    {
+      "epoch": 0.9935,
+      "grad_norm": 1.343680739402771,
+      "grad_norm_var": 0.06756511802767377,
+      "learning_rate": 2e-05,
+      "loss": 0.3966,
+      "loss/crossentropy": 2.1644026041030884,
+      "loss/hidden": 0.15087890625,
+      "loss/logits": 0.02410024218261242,
+      "loss/reg": 0.022157687693834305,
+      "step": 1987
+    },
+    {
+      "epoch": 0.994,
+      "grad_norm": 2.975306272506714,
+      "grad_norm_var": 0.2412736036708892,
+      "learning_rate": 2e-05,
+      "loss": 0.4244,
+      "loss/crossentropy": 2.527232050895691,
+      "loss/hidden": 0.17431640625,
+      "loss/logits": 0.0285196453332901,
+      "loss/reg": 0.022155148908495903,
+      "step": 1988
+    },
+    {
+      "epoch": 0.9945,
+      "grad_norm": 1.4210851192474365,
+      "grad_norm_var": 0.24125286489004902,
+      "learning_rate": 2e-05,
+      "loss": 0.4013,
+      "loss/crossentropy": 2.453064799308777,
+      "loss/hidden": 0.15283203125,
+      "loss/logits": 0.026922681368887424,
+      "loss/reg": 0.02215270884335041,
+      "step": 1989
+    },
+    {
+      "epoch": 0.995,
+      "grad_norm": 1.1747286319732666,
+      "grad_norm_var": 0.24444132193735152,
+      "learning_rate": 2e-05,
+      "loss": 0.3815,
+      "loss/crossentropy": 2.421423316001892,
+      "loss/hidden": 0.138427734375,
+      "loss/logits": 0.021576720289885998,
+      "loss/reg": 0.02215024270117283,
+      "step": 1990
+    },
+    {
+      "epoch": 0.9955,
+      "grad_norm": 1.2867865562438965,
+      "grad_norm_var": 0.20919603916842147,
+      "learning_rate": 2e-05,
+      "loss": 0.3843,
+      "loss/crossentropy": 2.414217710494995,
+      "loss/hidden": 0.13623046875,
+      "loss/logits": 0.02661888301372528,
+      "loss/reg": 0.022147882729768753,
+      "step": 1991
+    },
+    {
+      "epoch": 0.996,
+      "grad_norm": 1.7244079113006592,
+      "grad_norm_var": 0.21782960949894387,
+      "learning_rate": 2e-05,
+      "loss": 0.3918,
+      "loss/crossentropy": 2.4352335929870605,
+      "loss/hidden": 0.14208984375,
+      "loss/logits": 0.028264615684747696,
+      "loss/reg": 0.022145364433526993,
+      "step": 1992
+    },
+    {
+      "epoch": 0.9965,
+      "grad_norm": 1.0717110633850098,
+      "grad_norm_var": 0.22335652296934896,
+      "learning_rate": 2e-05,
+      "loss": 0.3637,
+      "loss/crossentropy": 2.3417575359344482,
+      "loss/hidden": 0.122314453125,
+      "loss/logits": 0.019959733821451664,
+      "loss/reg": 0.022142987698316574,
+      "step": 1993
+    },
+    {
+      "epoch": 0.997,
+      "grad_norm": 0.9572432041168213,
+      "grad_norm_var": 0.23116159615423915,
+      "learning_rate": 2e-05,
+      "loss": 0.3697,
+      "loss/crossentropy": 2.3081470727920532,
+      "loss/hidden": 0.128662109375,
+      "loss/logits": 0.019598262384533882,
+      "loss/reg": 0.022140614688396454,
+      "step": 1994
+    },
+    {
+      "epoch": 0.9975,
+      "grad_norm": 1.2059389352798462,
+      "grad_norm_var": 0.23217773839135317,
+      "learning_rate": 2e-05,
+      "loss": 0.3804,
+      "loss/crossentropy": 2.416892886161804,
+      "loss/hidden": 0.138671875,
+      "loss/logits": 0.02030058763921261,
+      "loss/reg": 0.022138269618153572,
+      "step": 1995
+    },
+    {
+      "epoch": 0.998,
+      "grad_norm": 1.0577036142349243,
+      "grad_norm_var": 0.22795505383013293,
+      "learning_rate": 2e-05,
+      "loss": 0.3623,
+      "loss/crossentropy": 2.3178452253341675,
+      "loss/hidden": 0.12255859375,
+      "loss/logits": 0.018403733149170876,
+      "loss/reg": 0.022135984152555466,
+      "step": 1996
+    },
+    {
+      "epoch": 0.9985,
+      "grad_norm": 1.2266889810562134,
+      "grad_norm_var": 0.22689434089943936,
+      "learning_rate": 2e-05,
+      "loss": 0.3796,
+      "loss/crossentropy": 2.3155784606933594,
+      "loss/hidden": 0.1357421875,
+      "loss/logits": 0.02248302474617958,
+      "loss/reg": 0.022133611142635345,
+      "step": 1997
+    },
+    {
+      "epoch": 0.999,
+      "grad_norm": 1.0541908740997314,
+      "grad_norm_var": 0.2298592464456514,
+      "learning_rate": 2e-05,
+      "loss": 0.3634,
+      "loss/crossentropy": 2.4655479192733765,
+      "loss/hidden": 0.12255859375,
+      "loss/logits": 0.01956414245069027,
+      "loss/reg": 0.02213137224316597,
+      "step": 1998
+    },
+    {
+      "epoch": 0.9995,
+      "grad_norm": 1.7036995887756348,
+      "grad_norm_var": 0.2386848838311654,
+      "learning_rate": 2e-05,
+      "loss": 0.4205,
+      "loss/crossentropy": 2.35299813747406,
+      "loss/hidden": 0.17236328125,
+      "loss/logits": 0.026862223632633686,
+      "loss/reg": 0.02212887816131115,
+      "step": 1999
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.3390984535217285,
+      "grad_norm_var": 0.23294083127609208,
+      "learning_rate": 2e-05,
+      "loss": 0.3795,
+      "loss/crossentropy": 2.3336535692214966,
+      "loss/hidden": 0.1357421875,
+      "loss/logits": 0.022448450326919556,
+      "loss/reg": 0.022126398980617523,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 2000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": true,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.57623446257664e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}