diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,11018 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.017274289810760155,
+  "eval_steps": 1000,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.7274289810760155e-05,
+      "grad_norm": 0.318359375,
+      "learning_rate": 0.01,
+      "loss": 1.4153,
+      "loss/crossentropy": 2.180091619491577,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.2821359634399414,
+      "step": 1
+    },
+    {
+      "epoch": 3.454857962152031e-05,
+      "grad_norm": 0.3515625,
+      "learning_rate": 0.01,
+      "loss": 1.4401,
+      "loss/crossentropy": 2.49104380607605,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2602585107088089,
+      "step": 2
+    },
+    {
+      "epoch": 5.182286943228046e-05,
+      "grad_norm": 0.30859375,
+      "learning_rate": 0.01,
+      "loss": 1.4352,
+      "loss/crossentropy": 2.453463077545166,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.2847007066011429,
+      "step": 3
+    },
+    {
+      "epoch": 6.909715924304062e-05,
+      "grad_norm": 0.306640625,
+      "learning_rate": 0.01,
+      "loss": 1.3983,
+      "loss/crossentropy": 2.52145779132843,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.2535911202430725,
+      "step": 4
+    },
+    {
+      "epoch": 8.637144905380078e-05,
+      "grad_norm": 0.35546875,
+      "learning_rate": 0.01,
+      "loss": 1.4077,
+      "loss/crossentropy": 2.364890694618225,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24292171746492386,
+      "step": 5
+    },
+    {
+      "epoch": 0.00010364573886456093,
+      "grad_norm": 0.310546875,
+      "learning_rate": 0.01,
+      "loss": 1.3824,
+      "loss/crossentropy": 2.3052154779434204,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.24541093409061432,
+      "step": 6
+    },
+    {
+      "epoch": 0.00012092002867532108,
+      "grad_norm": 0.29296875,
+      "learning_rate": 0.01,
+      "loss": 1.4026,
+      "loss/crossentropy": 2.381744861602783,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2507929801940918,
+      "step": 7
+    },
+    {
+      "epoch": 0.00013819431848608124,
+      "grad_norm": 0.322265625,
+      "learning_rate": 0.01,
+      "loss": 1.4452,
+      "loss/crossentropy": 2.613944888114929,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.27175769209861755,
+      "step": 8
+    },
+    {
+      "epoch": 0.0001554686082968414,
+      "grad_norm": 0.31640625,
+      "learning_rate": 0.01,
+      "loss": 1.4301,
+      "loss/crossentropy": 2.4438647031784058,
+      "loss/fcd": 1.2890625,
+      "loss/logits": 0.31327594816684723,
+      "step": 9
+    },
+    {
+      "epoch": 0.00017274289810760156,
+      "grad_norm": 0.322265625,
+      "learning_rate": 0.01,
+      "loss": 1.4258,
+      "loss/crossentropy": 2.689444422721863,
+      "loss/fcd": 1.20703125,
+      "loss/logits": 0.2705621272325516,
+      "step": 10
+    },
+    {
+      "epoch": 0.0001900171879183617,
+      "grad_norm": 0.283203125,
+      "learning_rate": 0.01,
+      "loss": 1.38,
+      "loss/crossentropy": 2.6325626373291016,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.26059799641370773,
+      "step": 11
+    },
+    {
+      "epoch": 0.00020729147772912185,
+      "grad_norm": 0.294921875,
+      "learning_rate": 0.01,
+      "loss": 1.3964,
+      "loss/crossentropy": 2.2171366214752197,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.25415121763944626,
+      "step": 12
+    },
+    {
+      "epoch": 0.00022456576753988202,
+      "grad_norm": 0.314453125,
+      "learning_rate": 0.01,
+      "loss": 1.4028,
+      "loss/crossentropy": 2.239351272583008,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.2298966646194458,
+      "step": 13
+    },
+    {
+      "epoch": 0.00024184005735064217,
+      "grad_norm": 0.31640625,
+      "learning_rate": 0.01,
+      "loss": 1.4218,
+      "loss/crossentropy": 2.712681293487549,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.24666083604097366,
+      "step": 14
+    },
+    {
+      "epoch": 0.00025911434716140234,
+      "grad_norm": 0.3515625,
+      "learning_rate": 0.01,
+      "loss": 1.4074,
+      "loss/crossentropy": 2.6137157678604126,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.2758009433746338,
+      "step": 15
+    },
+    {
+      "epoch": 0.0002763886369721625,
+      "grad_norm": 0.376953125,
+      "grad_norm_var": 0.0006428877512613932,
+      "learning_rate": 0.01,
+      "loss": 1.4429,
+      "loss/crossentropy": 2.266461730003357,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.26471851766109467,
+      "step": 16
+    },
+    {
+      "epoch": 0.00029366292678292263,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.0007058302561442057,
+      "learning_rate": 0.01,
+      "loss": 1.433,
+      "loss/crossentropy": 2.63763689994812,
+      "loss/fcd": 1.21875,
+      "loss/logits": 0.28894874453544617,
+      "step": 17
+    },
+    {
+      "epoch": 0.0003109372165936828,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0006610711415608723,
+      "learning_rate": 0.01,
+      "loss": 1.4003,
+      "loss/crossentropy": 2.5304828882217407,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.26741379499435425,
+      "step": 18
+    },
+    {
+      "epoch": 0.0003282115064044429,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0006503899892171224,
+      "learning_rate": 0.01,
+      "loss": 1.4179,
+      "loss/crossentropy": 2.36896288394928,
+      "loss/fcd": 1.19921875,
+      "loss/logits": 0.2745219022035599,
+      "step": 19
+    },
+    {
+      "epoch": 0.0003454857962152031,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0006408055623372395,
+      "learning_rate": 0.01,
+      "loss": 1.4132,
+      "loss/crossentropy": 2.471444010734558,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.24692216515541077,
+      "step": 20
+    },
+    {
+      "epoch": 0.00036276008602596327,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0005624771118164062,
+      "learning_rate": 0.01,
+      "loss": 1.3532,
+      "loss/crossentropy": 2.4798572063446045,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.24522659927606583,
+      "step": 21
+    },
+    {
+      "epoch": 0.0003800343758367234,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0005975723266601563,
+      "learning_rate": 0.01,
+      "loss": 1.4057,
+      "loss/crossentropy": 2.3649370670318604,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.26143455505371094,
+      "step": 22
+    },
+    {
+      "epoch": 0.00039730866564748356,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0005533854166666667,
+      "learning_rate": 0.01,
+      "loss": 1.4282,
+      "loss/crossentropy": 2.7900454998016357,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.256390705704689,
+      "step": 23
+    },
+    {
+      "epoch": 0.0004145829554582437,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.000638580322265625,
+      "learning_rate": 0.01,
+      "loss": 1.422,
+      "loss/crossentropy": 2.3018282651901245,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.26084744930267334,
+      "step": 24
+    },
+    {
+      "epoch": 0.0004318572452690039,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0006613254547119141,
+      "learning_rate": 0.01,
+      "loss": 1.4043,
+      "loss/crossentropy": 2.404328942298889,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.24188002943992615,
+      "step": 25
+    },
+    {
+      "epoch": 0.00044913153507976405,
+      "grad_norm": 2.265625,
+      "grad_norm_var": 0.23812503814697267,
+      "learning_rate": 0.01,
+      "loss": 1.3559,
+      "loss/crossentropy": 2.5355838537216187,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.24743662029504776,
+      "step": 26
+    },
+    {
+      "epoch": 0.0004664058248905242,
+      "grad_norm": 0.36328125,
+      "grad_norm_var": 0.23687055905659993,
+      "learning_rate": 0.01,
+      "loss": 1.4526,
+      "loss/crossentropy": 2.329304337501526,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.2358776032924652,
+      "step": 27
+    },
+    {
+      "epoch": 0.00048368011470128434,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.23719480832417805,
+      "learning_rate": 0.01,
+      "loss": 1.3243,
+      "loss/crossentropy": 2.1602375507354736,
+      "loss/fcd": 1.02734375,
+      "loss/logits": 0.21287230402231216,
+      "step": 28
+    },
+    {
+      "epoch": 0.0005009544045120445,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.2374394734700521,
+      "learning_rate": 0.01,
+      "loss": 1.4111,
+      "loss/crossentropy": 2.4278478622436523,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2437409982085228,
+      "step": 29
+    },
+    {
+      "epoch": 0.0005182286943228047,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.23818588256835938,
+      "learning_rate": 0.01,
+      "loss": 1.4091,
+      "loss/crossentropy": 2.5047000646591187,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.27113544940948486,
+      "step": 30
+    },
+    {
+      "epoch": 0.0005355029841335648,
+      "grad_norm": 0.373046875,
+      "grad_norm_var": 0.23796435991923015,
+      "learning_rate": 0.01,
+      "loss": 1.4498,
+      "loss/crossentropy": 2.3999940156936646,
+      "loss/fcd": 1.25,
+      "loss/logits": 0.27853211760520935,
+      "step": 31
+    },
+    {
+      "epoch": 0.000552777273944325,
+      "grad_norm": 0.3671875,
+      "grad_norm_var": 0.23805281321207683,
+      "learning_rate": 0.01,
+      "loss": 1.4805,
+      "loss/crossentropy": 2.511382222175598,
+      "loss/fcd": 1.3203125,
+      "loss/logits": 0.409069299697876,
+      "step": 32
+    },
+    {
+      "epoch": 0.0005700515637550852,
+      "grad_norm": 0.6875,
+      "grad_norm_var": 0.24118663469950358,
+      "learning_rate": 0.01,
+      "loss": 1.3432,
+      "loss/crossentropy": 2.5396409034729004,
+      "loss/fcd": 1.2421875,
+      "loss/logits": 0.25656259059906006,
+      "step": 33
+    },
+    {
+      "epoch": 0.0005873258535658453,
+      "grad_norm": 0.357421875,
+      "grad_norm_var": 0.24034620920817057,
+      "learning_rate": 0.01,
+      "loss": 1.4207,
+      "loss/crossentropy": 2.3687368631362915,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.23432840406894684,
+      "step": 34
+    },
+    {
+      "epoch": 0.0006046001433766055,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.2409596602121989,
+      "learning_rate": 0.01,
+      "loss": 1.4195,
+      "loss/crossentropy": 2.428983449935913,
+      "loss/fcd": 1.21484375,
+      "loss/logits": 0.2627260833978653,
+      "step": 35
+    },
+    {
+      "epoch": 0.0006218744331873656,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.2408828576405843,
+      "learning_rate": 0.01,
+      "loss": 1.372,
+      "loss/crossentropy": 2.827309250831604,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2433805763721466,
+      "step": 36
+    },
+    {
+      "epoch": 0.0006391487229981258,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.24178783098856607,
+      "learning_rate": 0.01,
+      "loss": 1.388,
+      "loss/crossentropy": 2.4543423652648926,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2694346010684967,
+      "step": 37
+    },
+    {
+      "epoch": 0.0006564230128088858,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.24162036577860516,
+      "learning_rate": 0.01,
+      "loss": 1.4109,
+      "loss/crossentropy": 2.5903791189193726,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.246421679854393,
+      "step": 38
+    },
+    {
+      "epoch": 0.000673697302619646,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.24139873186747232,
+      "learning_rate": 0.01,
+      "loss": 1.4232,
+      "loss/crossentropy": 2.248749613761902,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.23829498887062073,
+      "step": 39
+    },
+    {
+      "epoch": 0.0006909715924304062,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.24068241119384765,
+      "learning_rate": 0.01,
+      "loss": 1.4025,
+      "loss/crossentropy": 2.52192759513855,
+      "loss/fcd": 1.21875,
+      "loss/logits": 0.3120736628770828,
+      "step": 40
+    },
+    {
+      "epoch": 0.0007082458822411663,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.24076868693033854,
+      "learning_rate": 0.01,
+      "loss": 1.3388,
+      "loss/crossentropy": 2.4299440383911133,
+      "loss/fcd": 1.05078125,
+      "loss/logits": 0.21974454075098038,
+      "step": 41
+    },
+    {
+      "epoch": 0.0007255201720519265,
+      "grad_norm": 0.361328125,
+      "grad_norm_var": 0.00956584612528483,
+      "learning_rate": 0.01,
+      "loss": 1.3783,
+      "loss/crossentropy": 2.3354129791259766,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.22372399270534515,
+      "step": 42
+    },
+    {
+      "epoch": 0.0007427944618626866,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.009831984837849935,
+      "learning_rate": 0.01,
+      "loss": 1.3578,
+      "loss/crossentropy": 2.3422107696533203,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.22979970276355743,
+      "step": 43
+    },
+    {
+      "epoch": 0.0007600687516734468,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.009589751561482748,
+      "learning_rate": 0.01,
+      "loss": 1.4869,
+      "loss/crossentropy": 2.4120657444000244,
+      "loss/fcd": 1.22265625,
+      "loss/logits": 0.27795399725437164,
+      "step": 44
+    },
+    {
+      "epoch": 0.000777343041484207,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.009527333577473958,
+      "learning_rate": 0.01,
+      "loss": 1.3861,
+      "loss/crossentropy": 2.66101336479187,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.25736863911151886,
+      "step": 45
+    },
+    {
+      "epoch": 0.0007946173312949671,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.009370152155558269,
+      "learning_rate": 0.01,
+      "loss": 1.4078,
+      "loss/crossentropy": 2.5887415409088135,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.285249263048172,
+      "step": 46
+    },
+    {
+      "epoch": 0.0008118916211057273,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.009616454442342123,
+      "learning_rate": 0.01,
+      "loss": 1.3142,
+      "loss/crossentropy": 2.5115991830825806,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.23692379146814346,
+      "step": 47
+    },
+    {
+      "epoch": 0.0008291659109164874,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.00964506467183431,
+      "learning_rate": 0.01,
+      "loss": 1.4093,
+      "loss/crossentropy": 2.5383851528167725,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2725464850664139,
+      "step": 48
+    },
+    {
+      "epoch": 0.0008464402007272476,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0007040500640869141,
+      "learning_rate": 0.01,
+      "loss": 1.3871,
+      "loss/crossentropy": 2.3415656089782715,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.23871353268623352,
+      "step": 49
+    },
+    {
+      "epoch": 0.0008637144905380078,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.000538492202758789,
+      "learning_rate": 0.01,
+      "loss": 1.422,
+      "loss/crossentropy": 2.241709351539612,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2642487585544586,
+      "step": 50
+    },
+    {
+      "epoch": 0.0008809887803487679,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.0006014347076416015,
+      "learning_rate": 0.01,
+      "loss": 1.4018,
+      "loss/crossentropy": 2.18844211101532,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.25836754590272903,
+      "step": 51
+    },
+    {
+      "epoch": 0.0008982630701595281,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0006024678548177083,
+      "learning_rate": 0.01,
+      "loss": 1.3702,
+      "loss/crossentropy": 2.4040807485580444,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.27216051518917084,
+      "step": 52
+    },
+    {
+      "epoch": 0.0009155373599702882,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0005683739980061849,
+      "learning_rate": 0.01,
+      "loss": 1.375,
+      "loss/crossentropy": 2.3604718446731567,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2563931792974472,
+      "step": 53
+    },
+    {
+      "epoch": 0.0009328116497810484,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0006024678548177083,
+      "learning_rate": 0.01,
+      "loss": 1.3398,
+      "loss/crossentropy": 2.3702304363250732,
+      "loss/fcd": 1.044921875,
+      "loss/logits": 0.23356395214796066,
+      "step": 54
+    },
+    {
+      "epoch": 0.0009500859395918086,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.000598001480102539,
+      "learning_rate": 0.01,
+      "loss": 1.4359,
+      "loss/crossentropy": 2.532386064529419,
+      "loss/fcd": 1.19921875,
+      "loss/logits": 0.29735907912254333,
+      "step": 55
+    },
+    {
+      "epoch": 0.0009673602294025687,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0005999088287353515,
+      "learning_rate": 0.01,
+      "loss": 1.3103,
+      "loss/crossentropy": 2.4240375757217407,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.2354799136519432,
+      "step": 56
+    },
+    {
+      "epoch": 0.0009846345192133289,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0005986372629801433,
+      "learning_rate": 0.01,
+      "loss": 1.4436,
+      "loss/crossentropy": 2.6270374059677124,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2780339866876602,
+      "step": 57
+    },
+    {
+      "epoch": 0.001001908809024089,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0003819147745768229,
+      "learning_rate": 0.01,
+      "loss": 1.4263,
+      "loss/crossentropy": 2.6478673219680786,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.26073622703552246,
+      "step": 58
+    },
+    {
+      "epoch": 0.001019183098834849,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.00032817522684733074,
+      "learning_rate": 0.01,
+      "loss": 1.3944,
+      "loss/crossentropy": 2.596788763999939,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2364196628332138,
+      "step": 59
+    },
+    {
+      "epoch": 0.0010364573886456094,
+      "grad_norm": 0.388671875,
+      "grad_norm_var": 0.0007116794586181641,
+      "learning_rate": 0.01,
+      "loss": 1.4703,
+      "loss/crossentropy": 2.516297459602356,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2600822076201439,
+      "step": 60
+    },
+    {
+      "epoch": 0.0010537316784563695,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.0008394718170166016,
+      "learning_rate": 0.01,
+      "loss": 1.4355,
+      "loss/crossentropy": 2.3750414848327637,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.257433146238327,
+      "step": 61
+    },
+    {
+      "epoch": 0.0010710059682671295,
+      "grad_norm": 0.341796875,
+      "grad_norm_var": 0.0008870283762613932,
+      "learning_rate": 0.01,
+      "loss": 1.4704,
+      "loss/crossentropy": 2.6349244117736816,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.27842070162296295,
+      "step": 62
+    },
+    {
+      "epoch": 0.0010882802580778899,
+      "grad_norm": 0.345703125,
+      "grad_norm_var": 0.000816965103149414,
+      "learning_rate": 0.01,
+      "loss": 1.4253,
+      "loss/crossentropy": 2.4561866521835327,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2601305991411209,
+      "step": 63
+    },
+    {
+      "epoch": 0.00110555454788865,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0008069197336832682,
+      "learning_rate": 0.01,
+      "loss": 1.3542,
+      "loss/crossentropy": 2.4422744512557983,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.25526949763298035,
+      "step": 64
+    },
+    {
+      "epoch": 0.00112282883769941,
+      "grad_norm": 0.41796875,
+      "grad_norm_var": 0.0014043013254801432,
+      "learning_rate": 0.01,
+      "loss": 1.4401,
+      "loss/crossentropy": 2.164702892303467,
+      "loss/fcd": 1.22265625,
+      "loss/logits": 0.20365531742572784,
+      "step": 65
+    },
+    {
+      "epoch": 0.0011401031275101703,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0014294942220052084,
+      "learning_rate": 0.01,
+      "loss": 1.3525,
+      "loss/crossentropy": 2.7132447957992554,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2643866539001465,
+      "step": 66
+    },
+    {
+      "epoch": 0.0011573774173209304,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0012522220611572265,
+      "learning_rate": 0.01,
+      "loss": 1.3225,
+      "loss/crossentropy": 2.4213372468948364,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.2328537479043007,
+      "step": 67
+    },
+    {
+      "epoch": 0.0011746517071316905,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.00119627316792806,
+      "learning_rate": 0.01,
+      "loss": 1.3973,
+      "loss/crossentropy": 2.436795651912689,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.2546040713787079,
+      "step": 68
+    },
+    {
+      "epoch": 0.0011919259969424506,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0012935479482014975,
+      "learning_rate": 0.01,
+      "loss": 1.3866,
+      "loss/crossentropy": 2.274712562561035,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.26513542234897614,
+      "step": 69
+    },
+    {
+      "epoch": 0.001209200286753211,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0013611952463785807,
+      "learning_rate": 0.01,
+      "loss": 1.3986,
+      "loss/crossentropy": 2.4798693656921387,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2789834886789322,
+      "step": 70
+    },
+    {
+      "epoch": 0.001226474576563971,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0014126936594645182,
+      "learning_rate": 0.01,
+      "loss": 1.3394,
+      "loss/crossentropy": 2.496403932571411,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.23832575976848602,
+      "step": 71
+    },
+    {
+      "epoch": 0.001243748866374731,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0013817946116129558,
+      "learning_rate": 0.01,
+      "loss": 1.3945,
+      "loss/crossentropy": 2.330789804458618,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.23751115798950195,
+      "step": 72
+    },
+    {
+      "epoch": 0.0012610231561854914,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0014734745025634765,
+      "learning_rate": 0.01,
+      "loss": 1.3859,
+      "loss/crossentropy": 2.5367313623428345,
+      "loss/fcd": 1.19921875,
+      "loss/logits": 0.2804088890552521,
+      "step": 73
+    },
+    {
+      "epoch": 0.0012782974459962515,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.001559305191040039,
+      "learning_rate": 0.01,
+      "loss": 1.3887,
+      "loss/crossentropy": 2.3117035627365112,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.2553889825940132,
+      "step": 74
+    },
+    {
+      "epoch": 0.0012955717358070116,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.001582193374633789,
+      "learning_rate": 0.01,
+      "loss": 1.4083,
+      "loss/crossentropy": 2.5574092864990234,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.24754850566387177,
+      "step": 75
+    },
+    {
+      "epoch": 0.0013128460256177717,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0013358910878499349,
+      "learning_rate": 0.01,
+      "loss": 1.39,
+      "loss/crossentropy": 2.5164517164230347,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.23118755221366882,
+      "step": 76
+    },
+    {
+      "epoch": 0.001330120315428532,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0012410481770833333,
+      "learning_rate": 0.01,
+      "loss": 1.4129,
+      "loss/crossentropy": 2.4725937843322754,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.2354634776711464,
+      "step": 77
+    },
+    {
+      "epoch": 0.001347394605239292,
+      "grad_norm": 0.52734375,
+      "grad_norm_var": 0.0040692488352457685,
+      "learning_rate": 0.01,
+      "loss": 1.5435,
+      "loss/crossentropy": 2.067330479621887,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.2535740062594414,
+      "step": 78
+    },
+    {
+      "epoch": 0.0013646688950500522,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0040776570638020836,
+      "learning_rate": 0.01,
+      "loss": 1.3808,
+      "loss/crossentropy": 2.363155961036682,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2392946034669876,
+      "step": 79
+    },
+    {
+      "epoch": 0.0013819431848608125,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.004054371515909831,
+      "learning_rate": 0.01,
+      "loss": 1.4014,
+      "loss/crossentropy": 2.561974883079529,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2719137519598007,
+      "step": 80
+    },
+    {
+      "epoch": 0.0013992174746715726,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.0034375349680582684,
+      "learning_rate": 0.01,
+      "loss": 1.3718,
+      "loss/crossentropy": 2.5669400691986084,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.27283619344234467,
+      "step": 81
+    },
+    {
+      "epoch": 0.0014164917644823327,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.003415362040201823,
+      "learning_rate": 0.01,
+      "loss": 1.423,
+      "loss/crossentropy": 2.3874313831329346,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.25072336941957474,
+      "step": 82
+    },
+    {
+      "epoch": 0.001433766054293093,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.003453509012858073,
+      "learning_rate": 0.01,
+      "loss": 1.4176,
+      "loss/crossentropy": 2.711247205734253,
+      "loss/fcd": 1.23046875,
+      "loss/logits": 0.28591448068618774,
+      "step": 83
+    },
+    {
+      "epoch": 0.001451040344103853,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0034200032552083332,
+      "learning_rate": 0.01,
+      "loss": 1.3905,
+      "loss/crossentropy": 2.549779772758484,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2730839252471924,
+      "step": 84
+    },
+    {
+      "epoch": 0.0014683146339146132,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0033526102701822917,
+      "learning_rate": 0.01,
+      "loss": 1.3706,
+      "loss/crossentropy": 2.255567193031311,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.2550910860300064,
+      "step": 85
+    },
+    {
+      "epoch": 0.0014855889237253732,
+      "grad_norm": 0.6015625,
+      "grad_norm_var": 0.008341471354166666,
+      "learning_rate": 0.01,
+      "loss": 1.629,
+      "loss/crossentropy": 2.245366394519806,
+      "loss/fcd": 1.58203125,
+      "loss/logits": 0.3177703619003296,
+      "step": 86
+    },
+    {
+      "epoch": 0.0015028632135361336,
+      "grad_norm": 0.361328125,
+      "grad_norm_var": 0.0082763671875,
+      "learning_rate": 0.01,
+      "loss": 1.3925,
+      "loss/crossentropy": 2.5329853296279907,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2691914439201355,
+      "step": 87
+    },
+    {
+      "epoch": 0.0015201375033468936,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.008169158299763998,
+      "learning_rate": 0.01,
+      "loss": 1.3783,
+      "loss/crossentropy": 2.573711633682251,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24663084745407104,
+      "step": 88
+    },
+    {
+      "epoch": 0.0015374117931576537,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.008059438069661458,
+      "learning_rate": 0.01,
+      "loss": 1.3466,
+      "loss/crossentropy": 2.4545916318893433,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.22179614007472992,
+      "step": 89
+    },
+    {
+      "epoch": 0.001554686082968414,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.007821893692016602,
+      "learning_rate": 0.01,
+      "loss": 1.4058,
+      "loss/crossentropy": 2.0489944219589233,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.25446537882089615,
+      "step": 90
+    },
+    {
+      "epoch": 0.0015719603727791741,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.007696262995402018,
+      "learning_rate": 0.01,
+      "loss": 1.4186,
+      "loss/crossentropy": 2.6278460025787354,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2563782036304474,
+      "step": 91
+    },
+    {
+      "epoch": 0.0015892346625899342,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.0074314753214518225,
+      "learning_rate": 0.01,
+      "loss": 1.4634,
+      "loss/crossentropy": 2.3578550815582275,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.26509464532136917,
+      "step": 92
+    },
+    {
+      "epoch": 0.0016065089524006945,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.007539876302083333,
+      "learning_rate": 0.01,
+      "loss": 1.3685,
+      "loss/crossentropy": 2.53238308429718,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.24864411354064941,
+      "step": 93
+    },
+    {
+      "epoch": 0.0016237832422114546,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.005428679784138997,
+      "learning_rate": 0.01,
+      "loss": 1.4136,
+      "loss/crossentropy": 2.3873801231384277,
+      "loss/fcd": 1.2265625,
+      "loss/logits": 0.2842061370611191,
+      "step": 94
+    },
+    {
+      "epoch": 0.0016410575320222147,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.005470768610636393,
+      "learning_rate": 0.01,
+      "loss": 1.4,
+      "loss/crossentropy": 2.576484441757202,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.2684750333428383,
+      "step": 95
+    },
+    {
+      "epoch": 0.0016583318218329748,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0054779052734375,
+      "learning_rate": 0.01,
+      "loss": 1.4256,
+      "loss/crossentropy": 2.5171070098876953,
+      "loss/fcd": 1.24609375,
+      "loss/logits": 0.2969086170196533,
+      "step": 96
+    },
+    {
+      "epoch": 0.0016756061116437351,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.005534728368123372,
+      "learning_rate": 0.01,
+      "loss": 1.3949,
+      "loss/crossentropy": 2.6096785068511963,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2719826400279999,
+      "step": 97
+    },
+    {
+      "epoch": 0.0016928804014544952,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0056027571360270185,
+      "learning_rate": 0.01,
+      "loss": 1.3758,
+      "loss/crossentropy": 2.366774320602417,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.23891064524650574,
+      "step": 98
+    },
+    {
+      "epoch": 0.0017101546912652553,
+      "grad_norm": 0.34765625,
+      "grad_norm_var": 0.005489714940388997,
+      "learning_rate": 0.01,
+      "loss": 1.436,
+      "loss/crossentropy": 2.356974244117737,
+      "loss/fcd": 1.3046875,
+      "loss/logits": 0.2715897411108017,
+      "step": 99
+    },
+    {
+      "epoch": 0.0017274289810760156,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.005489714940388997,
+      "learning_rate": 0.01,
+      "loss": 1.3544,
+      "loss/crossentropy": 2.5830947160720825,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.28681397438049316,
+      "step": 100
+    },
+    {
+      "epoch": 0.0017447032708867757,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0055816650390625,
+      "learning_rate": 0.01,
+      "loss": 1.3767,
+      "loss/crossentropy": 2.538628339767456,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.2549655809998512,
+      "step": 101
+    },
+    {
+      "epoch": 0.0017619775606975358,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0005793094635009766,
+      "learning_rate": 0.01,
+      "loss": 1.3127,
+      "loss/crossentropy": 2.153649151325226,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.23056582361459732,
+      "step": 102
+    },
+    {
+      "epoch": 0.0017792518505082959,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.0004759311676025391,
+      "learning_rate": 0.01,
+      "loss": 1.4807,
+      "loss/crossentropy": 2.7840667963027954,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.26921743154525757,
+      "step": 103
+    },
+    {
+      "epoch": 0.0017965261403190562,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0004470189412434896,
+      "learning_rate": 0.01,
+      "loss": 1.4075,
+      "loss/crossentropy": 2.375385046005249,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2573629766702652,
+      "step": 104
+    },
+    {
+      "epoch": 0.0018138004301298163,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.0004608154296875,
+      "learning_rate": 0.01,
+      "loss": 1.3262,
+      "loss/crossentropy": 2.7132558822631836,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2457902729511261,
+      "step": 105
+    },
+    {
+      "epoch": 0.0018310747199405764,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.00039315223693847656,
+      "learning_rate": 0.01,
+      "loss": 1.292,
+      "loss/crossentropy": 2.017941474914551,
+      "loss/fcd": 0.986328125,
+      "loss/logits": 0.20789727568626404,
+      "step": 106
+    },
+    {
+      "epoch": 0.0018483490097513367,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00035691261291503906,
+      "learning_rate": 0.01,
+      "loss": 1.4188,
+      "loss/crossentropy": 2.457041621208191,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.23911338299512863,
+      "step": 107
+    },
+    {
+      "epoch": 0.0018656232995620968,
+      "grad_norm": 0.267578125,
+      "grad_norm_var": 0.00039513905843098957,
+      "learning_rate": 0.01,
+      "loss": 1.3624,
+      "loss/crossentropy": 2.264693021774292,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.23969107121229172,
+      "step": 108
+    },
+    {
+      "epoch": 0.0018828975893728569,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0004439671834309896,
+      "learning_rate": 0.01,
+      "loss": 1.3602,
+      "loss/crossentropy": 2.5558459758758545,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.24982617795467377,
+      "step": 109
+    },
+    {
+      "epoch": 0.0019001718791836172,
+      "grad_norm": 0.44921875,
+      "grad_norm_var": 0.0017612298329671224,
+      "learning_rate": 0.01,
+      "loss": 1.4482,
+      "loss/crossentropy": 2.623742938041687,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2605845034122467,
+      "step": 110
+    },
+    {
+      "epoch": 0.0019174461689943773,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0017667134602864583,
+      "learning_rate": 0.01,
+      "loss": 1.4127,
+      "loss/crossentropy": 2.7532334327697754,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.26577115058898926,
+      "step": 111
+    },
+    {
+      "epoch": 0.0019347204588051373,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0017864068349202475,
+      "learning_rate": 0.01,
+      "loss": 1.3525,
+      "loss/crossentropy": 2.4502193927764893,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.2550206333398819,
+      "step": 112
+    },
+    {
+      "epoch": 0.0019519947486158974,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.0018309911092122396,
+      "learning_rate": 0.01,
+      "loss": 1.4422,
+      "loss/crossentropy": 2.0644272565841675,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.25845974683761597,
+      "step": 113
+    },
+    {
+      "epoch": 0.0019692690384266577,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0018169244130452475,
+      "learning_rate": 0.01,
+      "loss": 1.3762,
+      "loss/crossentropy": 2.6453906297683716,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.28696541488170624,
+      "step": 114
+    },
+    {
+      "epoch": 0.001986543328237418,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0017402489980061849,
+      "learning_rate": 0.01,
+      "loss": 1.3974,
+      "loss/crossentropy": 2.229590892791748,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.22459837794303894,
+      "step": 115
+    },
+    {
+      "epoch": 0.002003817618048178,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0017174879709879558,
+      "learning_rate": 0.01,
+      "loss": 1.3518,
+      "loss/crossentropy": 2.5267633199691772,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.24026738852262497,
+      "step": 116
+    },
+    {
+      "epoch": 0.0020210919078589382,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0017108758290608724,
+      "learning_rate": 0.01,
+      "loss": 1.4729,
+      "loss/crossentropy": 2.3015085458755493,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.23641249537467957,
+      "step": 117
+    },
+    {
+      "epoch": 0.002038366197669698,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0017054080963134766,
+      "learning_rate": 0.01,
+      "loss": 1.4479,
+      "loss/crossentropy": 2.0869252681732178,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2337687686085701,
+      "step": 118
+    },
+    {
+      "epoch": 0.0020556404874804584,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0016692479451497395,
+      "learning_rate": 0.01,
+      "loss": 1.3789,
+      "loss/crossentropy": 2.620050311088562,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2408916875720024,
+      "step": 119
+    },
+    {
+      "epoch": 0.0020729147772912187,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0016824722290039063,
+      "learning_rate": 0.01,
+      "loss": 1.3728,
+      "loss/crossentropy": 2.406272053718567,
+      "loss/fcd": 1.28515625,
+      "loss/logits": 0.27460669726133347,
+      "step": 120
+    },
+    {
+      "epoch": 0.0020901890671019786,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0016681512196858725,
+      "learning_rate": 0.01,
+      "loss": 1.3607,
+      "loss/crossentropy": 2.1980100870132446,
+      "loss/fcd": 1.013671875,
+      "loss/logits": 0.23184800148010254,
+      "step": 121
+    },
+    {
+      "epoch": 0.002107463356912739,
+      "grad_norm": 0.365234375,
+      "grad_norm_var": 0.0018063863118489584,
+      "learning_rate": 0.01,
+      "loss": 1.4133,
+      "loss/crossentropy": 2.672022223472595,
+      "loss/fcd": 1.24609375,
+      "loss/logits": 0.2712271511554718,
+      "step": 122
+    },
+    {
+      "epoch": 0.002124737646723499,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0018046061197916667,
+      "learning_rate": 0.01,
+      "loss": 1.4161,
+      "loss/crossentropy": 2.161317527294159,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2415143996477127,
+      "step": 123
+    },
+    {
+      "epoch": 0.002142011936534259,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0016402562459309896,
+      "learning_rate": 0.01,
+      "loss": 1.3432,
+      "loss/crossentropy": 2.4041404724121094,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2565518468618393,
+      "step": 124
+    },
+    {
+      "epoch": 0.0021592862263450194,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0015553792317708334,
+      "learning_rate": 0.01,
+      "loss": 1.3222,
+      "loss/crossentropy": 2.289466381072998,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.2588811218738556,
+      "step": 125
+    },
+    {
+      "epoch": 0.0021765605161557797,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0003751118977864583,
+      "learning_rate": 0.01,
+      "loss": 1.4145,
+      "loss/crossentropy": 2.0946825742721558,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.22345608472824097,
+      "step": 126
+    },
+    {
+      "epoch": 0.0021938348059665396,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0003452936808268229,
+      "learning_rate": 0.01,
+      "loss": 1.3904,
+      "loss/crossentropy": 2.4527688026428223,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.23762068152427673,
+      "step": 127
+    },
+    {
+      "epoch": 0.0022111090957773,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0003202915191650391,
+      "learning_rate": 0.01,
+      "loss": 1.4117,
+      "loss/crossentropy": 2.6558061838150024,
+      "loss/fcd": 1.26953125,
+      "loss/logits": 0.3351695239543915,
+      "step": 128
+    },
+    {
+      "epoch": 0.00222838338558806,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00027667681376139324,
+      "learning_rate": 0.01,
+      "loss": 1.3841,
+      "loss/crossentropy": 2.3390719890594482,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.23404338955879211,
+      "step": 129
+    },
+    {
+      "epoch": 0.00224565767539882,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.00028254191080729165,
+      "learning_rate": 0.01,
+      "loss": 1.3402,
+      "loss/crossentropy": 2.5888524055480957,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.2385600358247757,
+      "step": 130
+    },
+    {
+      "epoch": 0.0022629319652095804,
+      "grad_norm": 0.365234375,
+      "grad_norm_var": 0.00045291582743326825,
+      "learning_rate": 0.01,
+      "loss": 1.4423,
+      "loss/crossentropy": 2.1622209548950195,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.25934895873069763,
+      "step": 131
+    },
+    {
+      "epoch": 0.0022802062550203407,
+      "grad_norm": 0.349609375,
+      "grad_norm_var": 0.0004840691884358724,
+      "learning_rate": 0.01,
+      "loss": 1.5001,
+      "loss/crossentropy": 2.5385576486587524,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.26659196615219116,
+      "step": 132
+    },
+    {
+      "epoch": 0.0022974805448311006,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005355676015218099,
+      "learning_rate": 0.01,
+      "loss": 1.3481,
+      "loss/crossentropy": 2.348211407661438,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2560664862394333,
+      "step": 133
+    },
+    {
+      "epoch": 0.002314754834641861,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0005294164021809896,
+      "learning_rate": 0.01,
+      "loss": 1.3607,
+      "loss/crossentropy": 2.117067277431488,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.22807861864566803,
+      "step": 134
+    },
+    {
+      "epoch": 0.0023320291244526207,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0005870660146077474,
+      "learning_rate": 0.01,
+      "loss": 1.387,
+      "loss/crossentropy": 2.5187747478485107,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.27947917580604553,
+      "step": 135
+    },
+    {
+      "epoch": 0.002349303414263381,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.0005658467610677084,
+      "learning_rate": 0.01,
+      "loss": 1.3995,
+      "loss/crossentropy": 2.4953707456588745,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24946419894695282,
+      "step": 136
+    },
+    {
+      "epoch": 0.0023665777040741414,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0005611260732014974,
+      "learning_rate": 0.01,
+      "loss": 1.4027,
+      "loss/crossentropy": 2.3007187843322754,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.2944917380809784,
+      "step": 137
+    },
+    {
+      "epoch": 0.0023838519938849012,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0004042943318684896,
+      "learning_rate": 0.01,
+      "loss": 1.3784,
+      "loss/crossentropy": 2.406763792037964,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.24067886918783188,
+      "step": 138
+    },
+    {
+      "epoch": 0.0024011262836956615,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0004521052042643229,
+      "learning_rate": 0.01,
+      "loss": 1.394,
+      "loss/crossentropy": 2.3716171979904175,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2490846812725067,
+      "step": 139
+    },
+    {
+      "epoch": 0.002418400573506422,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0004530429840087891,
+      "learning_rate": 0.01,
+      "loss": 1.3992,
+      "loss/crossentropy": 2.298838496208191,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2580900937318802,
+      "step": 140
+    },
+    {
+      "epoch": 0.0024356748633171817,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.00048014322916666664,
+      "learning_rate": 0.01,
+      "loss": 1.3887,
+      "loss/crossentropy": 2.1861318349838257,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.25625482201576233,
+      "step": 141
+    },
+    {
+      "epoch": 0.002452949153127942,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0005390803019205729,
+      "learning_rate": 0.01,
+      "loss": 1.4149,
+      "loss/crossentropy": 2.5295623540878296,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.24908355623483658,
+      "step": 142
+    },
+    {
+      "epoch": 0.0024702234429387023,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0005419413248697917,
+      "learning_rate": 0.01,
+      "loss": 1.4095,
+      "loss/crossentropy": 2.4763203859329224,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.25878605246543884,
+      "step": 143
+    },
+    {
+      "epoch": 0.002487497732749462,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0005533854166666667,
+      "learning_rate": 0.01,
+      "loss": 1.4244,
+      "loss/crossentropy": 2.520187020301819,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.24524306505918503,
+      "step": 144
+    },
+    {
+      "epoch": 0.0025047720225602225,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0005658308664957683,
+      "learning_rate": 0.01,
+      "loss": 1.4039,
+      "loss/crossentropy": 2.517001748085022,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.23872993886470795,
+      "step": 145
+    },
+    {
+      "epoch": 0.002522046312370983,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0005833784739176433,
+      "learning_rate": 0.01,
+      "loss": 1.3182,
+      "loss/crossentropy": 2.4004757404327393,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.24094465374946594,
+      "step": 146
+    },
+    {
+      "epoch": 0.0025393206021817427,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0003750960032145182,
+      "learning_rate": 0.01,
+      "loss": 1.3334,
+      "loss/crossentropy": 2.1713826656341553,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.22458232194185257,
+      "step": 147
+    },
+    {
+      "epoch": 0.002556594891992503,
+      "grad_norm": 0.34375,
+      "grad_norm_var": 0.00034052530924479166,
+      "learning_rate": 0.01,
+      "loss": 1.3361,
+      "loss/crossentropy": 2.438323974609375,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.24637237191200256,
+      "step": 148
+    },
+    {
+      "epoch": 0.0025738691818032633,
+      "grad_norm": 0.380859375,
+      "grad_norm_var": 0.0007058302561442057,
+      "learning_rate": 0.01,
+      "loss": 1.4953,
+      "loss/crossentropy": 2.450320243835449,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.24158670753240585,
+      "step": 149
+    },
+    {
+      "epoch": 0.002591143471614023,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0007044474283854166,
+      "learning_rate": 0.01,
+      "loss": 1.4629,
+      "loss/crossentropy": 2.294734477996826,
+      "loss/fcd": 1.2421875,
+      "loss/logits": 0.2762032076716423,
+      "step": 150
+    },
+    {
+      "epoch": 0.0026084177614247835,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.0007077376047770182,
+      "learning_rate": 0.01,
+      "loss": 1.4165,
+      "loss/crossentropy": 2.468201994895935,
+      "loss/fcd": 1.21875,
+      "loss/logits": 0.2507496029138565,
+      "step": 151
+    },
+    {
+      "epoch": 0.0026256920512355434,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0006917158762613933,
+      "learning_rate": 0.01,
+      "loss": 1.395,
+      "loss/crossentropy": 2.353287696838379,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.2722310647368431,
+      "step": 152
+    },
+    {
+      "epoch": 0.0026429663410463037,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0007008234659830729,
+      "learning_rate": 0.01,
+      "loss": 1.3506,
+      "loss/crossentropy": 2.2797771692276,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2620129883289337,
+      "step": 153
+    },
+    {
+      "epoch": 0.002660240630857064,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0007210890452067057,
+      "learning_rate": 0.01,
+      "loss": 1.3943,
+      "loss/crossentropy": 2.6261144876480103,
+      "loss/fcd": 1.21484375,
+      "loss/logits": 0.3041190207004547,
+      "step": 154
+    },
+    {
+      "epoch": 0.002677514920667824,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0007389704386393229,
+      "learning_rate": 0.01,
+      "loss": 1.4487,
+      "loss/crossentropy": 2.327589750289917,
+      "loss/fcd": 1.2890625,
+      "loss/logits": 0.333427369594574,
+      "step": 155
+    },
+    {
+      "epoch": 0.002694789210478584,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0007445653279622396,
+      "learning_rate": 0.01,
+      "loss": 1.3842,
+      "loss/crossentropy": 2.4801390171051025,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.23910623788833618,
+      "step": 156
+    },
+    {
+      "epoch": 0.0027120635002893445,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0007395267486572266,
+      "learning_rate": 0.01,
+      "loss": 1.3487,
+      "loss/crossentropy": 2.577694535255432,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.2568306028842926,
+      "step": 157
+    },
+    {
+      "epoch": 0.0027293377901001043,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0006922403971354167,
+      "learning_rate": 0.01,
+      "loss": 1.3505,
+      "loss/crossentropy": 2.415543556213379,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2512781471014023,
+      "step": 158
+    },
+    {
+      "epoch": 0.0027466120799108647,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0006875991821289062,
+      "learning_rate": 0.01,
+      "loss": 1.4042,
+      "loss/crossentropy": 2.4328696727752686,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.2584942355751991,
+      "step": 159
+    },
+    {
+      "epoch": 0.002763886369721625,
+      "grad_norm": 0.2578125,
+      "grad_norm_var": 0.0008356730143229167,
+      "learning_rate": 0.01,
+      "loss": 1.2883,
+      "loss/crossentropy": 2.344989776611328,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.23677106201648712,
+      "step": 160
+    },
+    {
+      "epoch": 0.002781160659532385,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0008282979329427083,
+      "learning_rate": 0.01,
+      "loss": 1.3544,
+      "loss/crossentropy": 2.3909146785736084,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.26238836348056793,
+      "step": 161
+    },
+    {
+      "epoch": 0.002798434949343145,
+      "grad_norm": 0.341796875,
+      "grad_norm_var": 0.000886980692545573,
+      "learning_rate": 0.01,
+      "loss": 1.4284,
+      "loss/crossentropy": 2.6815162897109985,
+      "loss/fcd": 1.23828125,
+      "loss/logits": 0.28333599865436554,
+      "step": 162
+    },
+    {
+      "epoch": 0.0028157092391539055,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0008396784464518229,
+      "learning_rate": 0.01,
+      "loss": 1.3743,
+      "loss/crossentropy": 2.363664388656616,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.23216551542282104,
+      "step": 163
+    },
+    {
+      "epoch": 0.0028329835289646653,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0007912794748942058,
+      "learning_rate": 0.01,
+      "loss": 1.3503,
+      "loss/crossentropy": 2.6360952854156494,
+      "loss/fcd": 1.19140625,
+      "loss/logits": 0.25444111227989197,
+      "step": 164
+    },
+    {
+      "epoch": 0.0028502578187754256,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0004067579905192057,
+      "learning_rate": 0.01,
+      "loss": 1.3827,
+      "loss/crossentropy": 2.255971908569336,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2420385479927063,
+      "step": 165
+    },
+    {
+      "epoch": 0.002867532108586186,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.00044854482014973957,
+      "learning_rate": 0.01,
+      "loss": 1.3572,
+      "loss/crossentropy": 2.5781320333480835,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2430611252784729,
+      "step": 166
+    },
+    {
+      "epoch": 0.002884806398396946,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0003909905751546224,
+      "learning_rate": 0.01,
+      "loss": 1.394,
+      "loss/crossentropy": 2.698032259941101,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.248212069272995,
+      "step": 167
+    },
+    {
+      "epoch": 0.002902080688207706,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0003845055898030599,
+      "learning_rate": 0.01,
+      "loss": 1.4097,
+      "loss/crossentropy": 2.372989535331726,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.24837365001440048,
+      "step": 168
+    },
+    {
+      "epoch": 0.002919354978018466,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0003870646158854167,
+      "learning_rate": 0.01,
+      "loss": 1.3624,
+      "loss/crossentropy": 2.555245876312256,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2645147144794464,
+      "step": 169
+    },
+    {
+      "epoch": 0.0029366292678292263,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.00038089752197265623,
+      "learning_rate": 0.01,
+      "loss": 1.3458,
+      "loss/crossentropy": 2.2800326347351074,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.22108863294124603,
+      "step": 170
+    },
+    {
+      "epoch": 0.0029539035576399866,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.000353240966796875,
+      "learning_rate": 0.01,
+      "loss": 1.3788,
+      "loss/crossentropy": 2.638196110725403,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.2918136268854141,
+      "step": 171
+    },
+    {
+      "epoch": 0.0029711778474507465,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.00034152666727701824,
+      "learning_rate": 0.01,
+      "loss": 1.3664,
+      "loss/crossentropy": 2.6176986694335938,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.26864323019981384,
+      "step": 172
+    },
+    {
+      "epoch": 0.002988452137261507,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0003345330556233724,
+      "learning_rate": 0.01,
+      "loss": 1.4184,
+      "loss/crossentropy": 2.62368905544281,
+      "loss/fcd": 1.25390625,
+      "loss/logits": 0.28509171307086945,
+      "step": 173
+    },
+    {
+      "epoch": 0.003005726427072267,
+      "grad_norm": 0.671875,
+      "grad_norm_var": 0.00890649159749349,
+      "learning_rate": 0.01,
+      "loss": 1.4685,
+      "loss/crossentropy": 2.309454083442688,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.26153236627578735,
+      "step": 174
+    },
+    {
+      "epoch": 0.003023000716883027,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.00887309710184733,
+      "learning_rate": 0.01,
+      "loss": 1.4154,
+      "loss/crossentropy": 2.320811152458191,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.24308273196220398,
+      "step": 175
+    },
+    {
+      "epoch": 0.0030402750066937873,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.008579444885253907,
+      "learning_rate": 0.01,
+      "loss": 1.3805,
+      "loss/crossentropy": 2.579828977584839,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2542525976896286,
+      "step": 176
+    },
+    {
+      "epoch": 0.0030575492965045476,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.008579444885253907,
+      "learning_rate": 0.01,
+      "loss": 1.3868,
+      "loss/crossentropy": 2.5000842809677124,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.2917867451906204,
+      "step": 177
+    },
+    {
+      "epoch": 0.0030748235863153075,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.008653004964192709,
+      "learning_rate": 0.01,
+      "loss": 1.3679,
+      "loss/crossentropy": 2.5240609645843506,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2740897983312607,
+      "step": 178
+    },
+    {
+      "epoch": 0.0030920978761260678,
+      "grad_norm": 0.75,
+      "grad_norm_var": 0.019812758763631186,
+      "learning_rate": 0.01,
+      "loss": 1.423,
+      "loss/crossentropy": 2.383319854736328,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.2834385186433792,
+      "step": 179
+    },
+    {
+      "epoch": 0.003109372165936828,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.01962865193684896,
+      "learning_rate": 0.01,
+      "loss": 1.3861,
+      "loss/crossentropy": 2.3524543046951294,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.24870187044143677,
+      "step": 180
+    },
+    {
+      "epoch": 0.003126646455747588,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.01944268544514974,
+      "learning_rate": 0.01,
+      "loss": 1.4644,
+      "loss/crossentropy": 2.768381118774414,
+      "loss/fcd": 1.26171875,
+      "loss/logits": 0.3117068111896515,
+      "step": 181
+    },
+    {
+      "epoch": 0.0031439207455583483,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.019518470764160155,
+      "learning_rate": 0.01,
+      "loss": 1.4071,
+      "loss/crossentropy": 2.5678982734680176,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.25002971291542053,
+      "step": 182
+    },
+    {
+      "epoch": 0.0031611950353691086,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.019382969538370768,
+      "learning_rate": 0.01,
+      "loss": 1.4044,
+      "loss/crossentropy": 2.6401069164276123,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2738536596298218,
+      "step": 183
+    },
+    {
+      "epoch": 0.0031784693251798684,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.019187148412068686,
+      "learning_rate": 0.01,
+      "loss": 1.4165,
+      "loss/crossentropy": 2.3614484071731567,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.28841613233089447,
+      "step": 184
+    },
+    {
+      "epoch": 0.0031957436149906288,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.01904290517171224,
+      "learning_rate": 0.01,
+      "loss": 1.4151,
+      "loss/crossentropy": 2.2044495344161987,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.25532982498407364,
+      "step": 185
+    },
+    {
+      "epoch": 0.003213017904801389,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.019160970052083334,
+      "learning_rate": 0.01,
+      "loss": 1.3233,
+      "loss/crossentropy": 2.657314658164978,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2434261366724968,
+      "step": 186
+    },
+    {
+      "epoch": 0.003230292194612149,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.019019174575805663,
+      "learning_rate": 0.01,
+      "loss": 1.457,
+      "loss/crossentropy": 2.509123682975769,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.27627624571323395,
+      "step": 187
+    },
+    {
+      "epoch": 0.0032475664844229092,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.01898535092671712,
+      "learning_rate": 0.01,
+      "loss": 1.4612,
+      "loss/crossentropy": 2.4355961084365845,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2809949368238449,
+      "step": 188
+    },
+    {
+      "epoch": 0.003264840774233669,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.018945821126302085,
+      "learning_rate": 0.01,
+      "loss": 1.4111,
+      "loss/crossentropy": 2.657699465751648,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.26505863666534424,
+      "step": 189
+    },
+    {
+      "epoch": 0.0032821150640444294,
+      "grad_norm": 0.56640625,
+      "grad_norm_var": 0.01528771718343099,
+      "learning_rate": 0.01,
+      "loss": 1.4753,
+      "loss/crossentropy": 2.4757652282714844,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.22812122106552124,
+      "step": 190
+    },
+    {
+      "epoch": 0.0032993893538551897,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.015449269612630209,
+      "learning_rate": 0.01,
+      "loss": 1.3867,
+      "loss/crossentropy": 2.4966439604759216,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.24755483120679855,
+      "step": 191
+    },
+    {
+      "epoch": 0.0033166636436659496,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.015437173843383788,
+      "learning_rate": 0.01,
+      "loss": 1.4331,
+      "loss/crossentropy": 2.2156739234924316,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.24708709865808487,
+      "step": 192
+    },
+    {
+      "epoch": 0.00333393793347671,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.015273523330688477,
+      "learning_rate": 0.01,
+      "loss": 1.4652,
+      "loss/crossentropy": 2.5916343927383423,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.26975981891155243,
+      "step": 193
+    },
+    {
+      "epoch": 0.0033512122232874702,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.01524046262105306,
+      "learning_rate": 0.01,
+      "loss": 1.3916,
+      "loss/crossentropy": 2.4512441158294678,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2599586248397827,
+      "step": 194
+    },
+    {
+      "epoch": 0.00336848651309823,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.004449717203776042,
+      "learning_rate": 0.01,
+      "loss": 1.2906,
+      "loss/crossentropy": 2.4583925008773804,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.22421551495790482,
+      "step": 195
+    },
+    {
+      "epoch": 0.0033857608029089904,
+      "grad_norm": 0.345703125,
+      "grad_norm_var": 0.004455931981404622,
+      "learning_rate": 0.01,
+      "loss": 1.4645,
+      "loss/crossentropy": 3.102002263069153,
+      "loss/fcd": 1.26953125,
+      "loss/logits": 0.31158843636512756,
+      "step": 196
+    },
+    {
+      "epoch": 0.0034030350927197507,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.00462950070699056,
+      "learning_rate": 0.01,
+      "loss": 1.3805,
+      "loss/crossentropy": 2.537242293357849,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.24022500216960907,
+      "step": 197
+    },
+    {
+      "epoch": 0.0034203093825305106,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.004623905817667643,
+      "learning_rate": 0.01,
+      "loss": 1.4295,
+      "loss/crossentropy": 1.8695432543754578,
+      "loss/fcd": 1.24609375,
+      "loss/logits": 0.2338111400604248,
+      "step": 198
+    },
+    {
+      "epoch": 0.003437583672341271,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.004644711812337239,
+      "learning_rate": 0.01,
+      "loss": 1.4342,
+      "loss/crossentropy": 2.5979591608047485,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2477928102016449,
+      "step": 199
+    },
+    {
+      "epoch": 0.003454857962152031,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.004698117574055989,
+      "learning_rate": 0.01,
+      "loss": 1.3588,
+      "loss/crossentropy": 2.6363730430603027,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.26602891087532043,
+      "step": 200
+    },
+    {
+      "epoch": 0.003472132251962791,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.004715919494628906,
+      "learning_rate": 0.01,
+      "loss": 1.3919,
+      "loss/crossentropy": 2.6225093603134155,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.25346362590789795,
+      "step": 201
+    },
+    {
+      "epoch": 0.0034894065417735514,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.004638528823852539,
+      "learning_rate": 0.01,
+      "loss": 1.3639,
+      "loss/crossentropy": 2.6900315284729004,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.25750475376844406,
+      "step": 202
+    },
+    {
+      "epoch": 0.0035066808315843117,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0046525160471598305,
+      "learning_rate": 0.01,
+      "loss": 1.4454,
+      "loss/crossentropy": 2.4896918535232544,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.24820879101753235,
+      "step": 203
+    },
+    {
+      "epoch": 0.0035239551213950716,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.004671732584635417,
+      "learning_rate": 0.01,
+      "loss": 1.3744,
+      "loss/crossentropy": 2.4207727909088135,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.267853319644928,
+      "step": 204
+    },
+    {
+      "epoch": 0.003541229411205832,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.004704777399698893,
+      "learning_rate": 0.01,
+      "loss": 1.3827,
+      "loss/crossentropy": 2.6077362298965454,
+      "loss/fcd": 1.19140625,
+      "loss/logits": 0.2449246495962143,
+      "step": 205
+    },
+    {
+      "epoch": 0.0035585037010165918,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.00035959879557291666,
+      "learning_rate": 0.01,
+      "loss": 1.36,
+      "loss/crossentropy": 2.2625831365585327,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.25722844898700714,
+      "step": 206
+    },
+    {
+      "epoch": 0.003575777990827352,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.0003903547922770182,
+      "learning_rate": 0.01,
+      "loss": 1.4604,
+      "loss/crossentropy": 2.6293487548828125,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2616356760263443,
+      "step": 207
+    },
+    {
+      "epoch": 0.0035930522806381124,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.00040022532145182293,
+      "learning_rate": 0.01,
+      "loss": 1.3362,
+      "loss/crossentropy": 2.4450851678848267,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.23832125961780548,
+      "step": 208
+    },
+    {
+      "epoch": 0.0036103265704488722,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0003178278605143229,
+      "learning_rate": 0.01,
+      "loss": 1.3815,
+      "loss/crossentropy": 2.265815496444702,
+      "loss/fcd": 1.25,
+      "loss/logits": 0.2856537625193596,
+      "step": 209
+    },
+    {
+      "epoch": 0.0036276008602596325,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0003153483072916667,
+      "learning_rate": 0.01,
+      "loss": 1.3779,
+      "loss/crossentropy": 2.4830867052078247,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.27156491577625275,
+      "step": 210
+    },
+    {
+      "epoch": 0.003644875150070393,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.00030007362365722654,
+      "learning_rate": 0.01,
+      "loss": 1.3838,
+      "loss/crossentropy": 2.4645248651504517,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2536320984363556,
+      "step": 211
+    },
+    {
+      "epoch": 0.0036621494398811527,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.000191497802734375,
+      "learning_rate": 0.01,
+      "loss": 1.3463,
+      "loss/crossentropy": 2.4574155807495117,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.22712672501802444,
+      "step": 212
+    },
+    {
+      "epoch": 0.003679423729691913,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00014468828837076823,
+      "learning_rate": 0.01,
+      "loss": 1.3817,
+      "loss/crossentropy": 2.51455819606781,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.24947896599769592,
+      "step": 213
+    },
+    {
+      "epoch": 0.0036966980195026733,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.00013477007548014323,
+      "learning_rate": 0.01,
+      "loss": 1.4295,
+      "loss/crossentropy": 2.5708523988723755,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.3021456152200699,
+      "step": 214
+    },
+    {
+      "epoch": 0.0037139723093134332,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0001357396443684896,
+      "learning_rate": 0.01,
+      "loss": 1.3823,
+      "loss/crossentropy": 2.696264386177063,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2742393985390663,
+      "step": 215
+    },
+    {
+      "epoch": 0.0037312465991241935,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.00015913645426432292,
+      "learning_rate": 0.01,
+      "loss": 1.4102,
+      "loss/crossentropy": 2.310886025428772,
+      "loss/fcd": 1.22265625,
+      "loss/logits": 0.2918149083852768,
+      "step": 216
+    },
+    {
+      "epoch": 0.003748520888934954,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.000156402587890625,
+      "learning_rate": 0.01,
+      "loss": 1.4137,
+      "loss/crossentropy": 2.2433084845542908,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.25447261333465576,
+      "step": 217
+    },
+    {
+      "epoch": 0.0037657951787457137,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.00016528765360514323,
+      "learning_rate": 0.01,
+      "loss": 1.4519,
+      "loss/crossentropy": 2.4079222679138184,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2586686462163925,
+      "step": 218
+    },
+    {
+      "epoch": 0.003783069468556474,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.00021602312723795574,
+      "learning_rate": 0.01,
+      "loss": 1.415,
+      "loss/crossentropy": 2.460106134414673,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.2525549978017807,
+      "step": 219
+    },
+    {
+      "epoch": 0.0038003437583672343,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.00022377967834472657,
+      "learning_rate": 0.01,
+      "loss": 1.4134,
+      "loss/crossentropy": 2.225171685218811,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.22205037623643875,
+      "step": 220
+    },
+    {
+      "epoch": 0.003817618048177994,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.0003029982248942057,
+      "learning_rate": 0.01,
+      "loss": 1.3745,
+      "loss/crossentropy": 2.3788317441940308,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.24135209619998932,
+      "step": 221
+    },
+    {
+      "epoch": 0.0038348923379887545,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0003082116444905599,
+      "learning_rate": 0.01,
+      "loss": 1.4452,
+      "loss/crossentropy": 2.375778555870056,
+      "loss/fcd": 1.21484375,
+      "loss/logits": 0.25682032108306885,
+      "step": 222
+    },
+    {
+      "epoch": 0.0038521666277995144,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0002720514933268229,
+      "learning_rate": 0.01,
+      "loss": 1.3877,
+      "loss/crossentropy": 2.4510881900787354,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2522790729999542,
+      "step": 223
+    },
+    {
+      "epoch": 0.0038694409176102747,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.00027872721354166665,
+      "learning_rate": 0.01,
+      "loss": 1.3783,
+      "loss/crossentropy": 2.4119985103607178,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.22855417430400848,
+      "step": 224
+    },
+    {
+      "epoch": 0.003886715207421035,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0002911726633707682,
+      "learning_rate": 0.01,
+      "loss": 1.4037,
+      "loss/crossentropy": 2.4024510383605957,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.2690604329109192,
+      "step": 225
+    },
+    {
+      "epoch": 0.003903989497231795,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.00034427642822265625,
+      "learning_rate": 0.01,
+      "loss": 1.3468,
+      "loss/crossentropy": 2.550796151161194,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.24284164607524872,
+      "step": 226
+    },
+    {
+      "epoch": 0.003921263787042556,
+      "grad_norm": 0.427734375,
+      "grad_norm_var": 0.0013123671213785806,
+      "learning_rate": 0.01,
+      "loss": 1.4574,
+      "loss/crossentropy": 2.9375933408737183,
+      "loss/fcd": 1.3046875,
+      "loss/logits": 0.2513057738542557,
+      "step": 227
+    },
+    {
+      "epoch": 0.0039385380768533155,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0013051350911458333,
+      "learning_rate": 0.01,
+      "loss": 1.4281,
+      "loss/crossentropy": 2.524444341659546,
+      "loss/fcd": 1.1953125,
+      "loss/logits": 0.27370719611644745,
+      "step": 228
+    },
+    {
+      "epoch": 0.003955812366664075,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.001366106669108073,
+      "learning_rate": 0.01,
+      "loss": 1.4307,
+      "loss/crossentropy": 2.486480951309204,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.26038021594285965,
+      "step": 229
+    },
+    {
+      "epoch": 0.003973086656474836,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0013638655344645181,
+      "learning_rate": 0.01,
+      "loss": 1.3844,
+      "loss/crossentropy": 2.48094379901886,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24342957884073257,
+      "step": 230
+    },
+    {
+      "epoch": 0.003990360946285596,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0013834476470947266,
+      "learning_rate": 0.01,
+      "loss": 1.3685,
+      "loss/crossentropy": 2.241925358772278,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.24210943281650543,
+      "step": 231
+    },
+    {
+      "epoch": 0.004007635236096356,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0013643741607666016,
+      "learning_rate": 0.01,
+      "loss": 1.448,
+      "loss/crossentropy": 2.648869752883911,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24799171090126038,
+      "step": 232
+    },
+    {
+      "epoch": 0.004024909525907116,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0013676802317301431,
+      "learning_rate": 0.01,
+      "loss": 1.4431,
+      "loss/crossentropy": 2.63001549243927,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.27701297402381897,
+      "step": 233
+    },
+    {
+      "epoch": 0.0040421838157178765,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0013848463694254556,
+      "learning_rate": 0.01,
+      "loss": 1.3746,
+      "loss/crossentropy": 2.2247713804244995,
+      "loss/fcd": 1.03125,
+      "loss/logits": 0.24730068445205688,
+      "step": 234
+    },
+    {
+      "epoch": 0.004059458105528636,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0013358910878499349,
+      "learning_rate": 0.01,
+      "loss": 1.4197,
+      "loss/crossentropy": 2.511416435241699,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.2583580017089844,
+      "step": 235
+    },
+    {
+      "epoch": 0.004076732395339396,
+      "grad_norm": 0.369140625,
+      "grad_norm_var": 0.0015294392903645833,
+      "learning_rate": 0.01,
+      "loss": 1.4459,
+      "loss/crossentropy": 2.366840362548828,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2747315466403961,
+      "step": 236
+    },
+    {
+      "epoch": 0.004094006685150157,
+      "grad_norm": 0.34375,
+      "grad_norm_var": 0.0014388402303059896,
+      "learning_rate": 0.01,
+      "loss": 1.379,
+      "loss/crossentropy": 2.645435094833374,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.2583626061677933,
+      "step": 237
+    },
+    {
+      "epoch": 0.004111280974960917,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.0014134089152018229,
+      "learning_rate": 0.01,
+      "loss": 1.3999,
+      "loss/crossentropy": 2.0519449710845947,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2533458322286606,
+      "step": 238
+    },
+    {
+      "epoch": 0.004128555264771677,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0014001051584879556,
+      "learning_rate": 0.01,
+      "loss": 1.3654,
+      "loss/crossentropy": 2.236992359161377,
+      "loss/fcd": 1.02734375,
+      "loss/logits": 0.23388498276472092,
+      "step": 239
+    },
+    {
+      "epoch": 0.0041458295545824374,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0014027277628580728,
+      "learning_rate": 0.01,
+      "loss": 1.3499,
+      "loss/crossentropy": 2.308284044265747,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.23218639194965363,
+      "step": 240
+    },
+    {
+      "epoch": 0.004163103844393197,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0013278802235921225,
+      "learning_rate": 0.01,
+      "loss": 1.4553,
+      "loss/crossentropy": 2.360711455345154,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.24909411370754242,
+      "step": 241
+    },
+    {
+      "epoch": 0.004180378134203957,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0011983235677083333,
+      "learning_rate": 0.01,
+      "loss": 1.4332,
+      "loss/crossentropy": 2.486197352409363,
+      "loss/fcd": 1.21875,
+      "loss/logits": 0.28059011697769165,
+      "step": 242
+    },
+    {
+      "epoch": 0.004197652424014718,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0004508813222249349,
+      "learning_rate": 0.01,
+      "loss": 1.3993,
+      "loss/crossentropy": 2.461425542831421,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2716974467039108,
+      "step": 243
+    },
+    {
+      "epoch": 0.004214926713825478,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0004518985748291016,
+      "learning_rate": 0.01,
+      "loss": 1.4236,
+      "loss/crossentropy": 2.344510316848755,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.2624819576740265,
+      "step": 244
+    },
+    {
+      "epoch": 0.004232201003636238,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0005180199940999348,
+      "learning_rate": 0.01,
+      "loss": 1.3542,
+      "loss/crossentropy": 2.6375720500946045,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2671656012535095,
+      "step": 245
+    },
+    {
+      "epoch": 0.004249475293446998,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0005176385243733724,
+      "learning_rate": 0.01,
+      "loss": 1.3853,
+      "loss/crossentropy": 2.4105772972106934,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2800147980451584,
+      "step": 246
+    },
+    {
+      "epoch": 0.004266749583257758,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0004948298136393229,
+      "learning_rate": 0.01,
+      "loss": 1.3755,
+      "loss/crossentropy": 2.2956700325012207,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2564444988965988,
+      "step": 247
+    },
+    {
+      "epoch": 0.004284023873068518,
+      "grad_norm": 0.50390625,
+      "grad_norm_var": 0.0026893456776936847,
+      "learning_rate": 0.01,
+      "loss": 1.3836,
+      "loss/crossentropy": 2.3848729133605957,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2581590488553047,
+      "step": 248
+    },
+    {
+      "epoch": 0.004301298162879279,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.002683115005493164,
+      "learning_rate": 0.01,
+      "loss": 1.3791,
+      "loss/crossentropy": 2.6016765832901,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.26704905927181244,
+      "step": 249
+    },
+    {
+      "epoch": 0.004318572452690039,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.002565956115722656,
+      "learning_rate": 0.01,
+      "loss": 1.4703,
+      "loss/crossentropy": 2.4796223640441895,
+      "loss/fcd": 1.28125,
+      "loss/logits": 0.30792760848999023,
+      "step": 250
+    },
+    {
+      "epoch": 0.004335846742500799,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.002574777603149414,
+      "learning_rate": 0.01,
+      "loss": 1.3831,
+      "loss/crossentropy": 2.45810604095459,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.26673202961683273,
+      "step": 251
+    },
+    {
+      "epoch": 0.004353121032311559,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0025400797526041667,
+      "learning_rate": 0.01,
+      "loss": 1.3379,
+      "loss/crossentropy": 2.37344229221344,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.2348434329032898,
+      "step": 252
+    },
+    {
+      "epoch": 0.004370395322122319,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.002615213394165039,
+      "learning_rate": 0.01,
+      "loss": 1.4283,
+      "loss/crossentropy": 2.310893416404724,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.22272542119026184,
+      "step": 253
+    },
+    {
+      "epoch": 0.004387669611933079,
+      "grad_norm": 0.455078125,
+      "grad_norm_var": 0.003699223200480143,
+      "learning_rate": 0.01,
+      "loss": 1.4319,
+      "loss/crossentropy": 2.287319302558899,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.23187098652124405,
+      "step": 254
+    },
+    {
+      "epoch": 0.00440494390174384,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.003693072001139323,
+      "learning_rate": 0.01,
+      "loss": 1.3951,
+      "loss/crossentropy": 2.751601457595825,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2715594172477722,
+      "step": 255
+    },
+    {
+      "epoch": 0.0044222181915546,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0037031650543212892,
+      "learning_rate": 0.01,
+      "loss": 1.372,
+      "loss/crossentropy": 2.513296961784363,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.23859571665525436,
+      "step": 256
+    },
+    {
+      "epoch": 0.00443949248136536,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.003735971450805664,
+      "learning_rate": 0.01,
+      "loss": 1.3787,
+      "loss/crossentropy": 2.501555562019348,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.2450244277715683,
+      "step": 257
+    },
+    {
+      "epoch": 0.00445676677117612,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.00377195676167806,
+      "learning_rate": 0.01,
+      "loss": 1.3965,
+      "loss/crossentropy": 2.503899097442627,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.28062424063682556,
+      "step": 258
+    },
+    {
+      "epoch": 0.00447404106098688,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.0037612279256184896,
+      "learning_rate": 0.01,
+      "loss": 1.3864,
+      "loss/crossentropy": 2.5635122060775757,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.25401656329631805,
+      "step": 259
+    },
+    {
+      "epoch": 0.00449131535079764,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0037770430246988934,
+      "learning_rate": 0.01,
+      "loss": 1.3786,
+      "loss/crossentropy": 2.4950658082962036,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2641760855913162,
+      "step": 260
+    },
+    {
+      "epoch": 0.004508589640608401,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.003665781021118164,
+      "learning_rate": 0.01,
+      "loss": 1.3656,
+      "loss/crossentropy": 2.4370001554489136,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.249709352850914,
+      "step": 261
+    },
+    {
+      "epoch": 0.004525863930419161,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.003766632080078125,
+      "learning_rate": 0.01,
+      "loss": 1.3332,
+      "loss/crossentropy": 2.4650388956069946,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2645094692707062,
+      "step": 262
+    },
+    {
+      "epoch": 0.004543138220229921,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0037601312001546224,
+      "learning_rate": 0.01,
+      "loss": 1.3832,
+      "loss/crossentropy": 2.677791714668274,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.28196755796670914,
+      "step": 263
+    },
+    {
+      "epoch": 0.004560412510040681,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0015848795572916666,
+      "learning_rate": 0.01,
+      "loss": 1.4601,
+      "loss/crossentropy": 2.4847524166107178,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2580026537179947,
+      "step": 264
+    },
+    {
+      "epoch": 0.004577686799851441,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.0015946547190348306,
+      "learning_rate": 0.01,
+      "loss": 1.4087,
+      "loss/crossentropy": 2.4944722652435303,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2483246624469757,
+      "step": 265
+    },
+    {
+      "epoch": 0.004594961089662201,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0016375223795572916,
+      "learning_rate": 0.01,
+      "loss": 1.3835,
+      "loss/crossentropy": 2.2753440141677856,
+      "loss/fcd": 1.046875,
+      "loss/logits": 0.24172206223011017,
+      "step": 266
+    },
+    {
+      "epoch": 0.004612235379472961,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0016192118326822916,
+      "learning_rate": 0.01,
+      "loss": 1.3721,
+      "loss/crossentropy": 2.4424277544021606,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2600102424621582,
+      "step": 267
+    },
+    {
+      "epoch": 0.004629509669283722,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0016474246978759766,
+      "learning_rate": 0.01,
+      "loss": 1.3636,
+      "loss/crossentropy": 2.5198450088500977,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.25200945883989334,
+      "step": 268
+    },
+    {
+      "epoch": 0.004646783959094482,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0016239007314046224,
+      "learning_rate": 0.01,
+      "loss": 1.3874,
+      "loss/crossentropy": 2.4488155841827393,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2999647855758667,
+      "step": 269
+    },
+    {
+      "epoch": 0.0046640582489052415,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.00022017161051432292,
+      "learning_rate": 0.01,
+      "loss": 1.3399,
+      "loss/crossentropy": 2.1886658668518066,
+      "loss/fcd": 1.03125,
+      "loss/logits": 0.241354301571846,
+      "step": 270
+    },
+    {
+      "epoch": 0.004681332538716002,
+      "grad_norm": 0.359375,
+      "grad_norm_var": 0.00041605631510416665,
+      "learning_rate": 0.01,
+      "loss": 1.3419,
+      "loss/crossentropy": 2.382296085357666,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2474452257156372,
+      "step": 271
+    },
+    {
+      "epoch": 0.004698606828526762,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0004093805948893229,
+      "learning_rate": 0.01,
+      "loss": 1.325,
+      "loss/crossentropy": 2.569235324859619,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.24149076640605927,
+      "step": 272
+    },
+    {
+      "epoch": 0.004715881118337522,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0004258314768473307,
+      "learning_rate": 0.01,
+      "loss": 1.2981,
+      "loss/crossentropy": 2.5184491872787476,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.25748542696237564,
+      "step": 273
+    },
+    {
+      "epoch": 0.004733155408148283,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0004210789998372396,
+      "learning_rate": 0.01,
+      "loss": 1.3787,
+      "loss/crossentropy": 2.2780392169952393,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.24548518657684326,
+      "step": 274
+    },
+    {
+      "epoch": 0.004750429697959043,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0003958225250244141,
+      "learning_rate": 0.01,
+      "loss": 1.4055,
+      "loss/crossentropy": 2.392509341239929,
+      "loss/fcd": 1.21875,
+      "loss/logits": 0.25389473140239716,
+      "step": 275
+    },
+    {
+      "epoch": 0.0047677039877698025,
+      "grad_norm": 0.55078125,
+      "grad_norm_var": 0.004181019465128581,
+      "learning_rate": 0.01,
+      "loss": 1.3982,
+      "loss/crossentropy": 2.6148691177368164,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.27452078461647034,
+      "step": 276
+    },
+    {
+      "epoch": 0.004784978277580563,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.004148213068644205,
+      "learning_rate": 0.01,
+      "loss": 1.3782,
+      "loss/crossentropy": 2.4390900135040283,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2340994030237198,
+      "step": 277
+    },
+    {
+      "epoch": 0.004802252567391323,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.004165760676066081,
+      "learning_rate": 0.01,
+      "loss": 1.3674,
+      "loss/crossentropy": 2.065169870853424,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.23831525444984436,
+      "step": 278
+    },
+    {
+      "epoch": 0.004819526857202083,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.0041680494944254555,
+      "learning_rate": 0.01,
+      "loss": 1.3986,
+      "loss/crossentropy": 2.23395574092865,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.25276701152324677,
+      "step": 279
+    },
+    {
+      "epoch": 0.004836801147012844,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.004177459081013997,
+      "learning_rate": 0.01,
+      "loss": 1.3866,
+      "loss/crossentropy": 2.5360673666000366,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.2552696242928505,
+      "step": 280
+    },
+    {
+      "epoch": 0.0048540754368236036,
+      "grad_norm": 0.59375,
+      "grad_norm_var": 0.008786503473917644,
+      "learning_rate": 0.01,
+      "loss": 1.3841,
+      "loss/crossentropy": 2.64610493183136,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2660531848669052,
+      "step": 281
+    },
+    {
+      "epoch": 0.0048713497266343634,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.008615605036417643,
+      "learning_rate": 0.01,
+      "loss": 1.3781,
+      "loss/crossentropy": 2.206232786178589,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.22382746636867523,
+      "step": 282
+    },
+    {
+      "epoch": 0.004888624016445124,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.008825031916300456,
+      "learning_rate": 0.01,
+      "loss": 1.3924,
+      "loss/crossentropy": 2.491134285926819,
+      "loss/fcd": 1.1953125,
+      "loss/logits": 0.28758758306503296,
+      "step": 283
+    },
+    {
+      "epoch": 0.004905898306255884,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.008684396743774414,
+      "learning_rate": 0.01,
+      "loss": 1.3821,
+      "loss/crossentropy": 2.418181896209717,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.24221232533454895,
+      "step": 284
+    },
+    {
+      "epoch": 0.004923172596066644,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.00864103635152181,
+      "learning_rate": 0.01,
+      "loss": 1.385,
+      "loss/crossentropy": 2.532857298851013,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.25721532106399536,
+      "step": 285
+    },
+    {
+      "epoch": 0.004940446885877405,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.008668883641560873,
+      "learning_rate": 0.01,
+      "loss": 1.3564,
+      "loss/crossentropy": 2.602588653564453,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2445499449968338,
+      "step": 286
+    },
+    {
+      "epoch": 0.0049577211756881645,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.008800490697224935,
+      "learning_rate": 0.01,
+      "loss": 1.3491,
+      "loss/crossentropy": 2.5629632472991943,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2607369050383568,
+      "step": 287
+    },
+    {
+      "epoch": 0.004974995465498924,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.008880043029785156,
+      "learning_rate": 0.01,
+      "loss": 1.3404,
+      "loss/crossentropy": 2.522684097290039,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.27616211771965027,
+      "step": 288
+    },
+    {
+      "epoch": 0.004992269755309685,
+      "grad_norm": 0.26171875,
+      "grad_norm_var": 0.009095001220703124,
+      "learning_rate": 0.01,
+      "loss": 1.3618,
+      "loss/crossentropy": 2.6350889205932617,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.24171672016382217,
+      "step": 289
+    },
+    {
+      "epoch": 0.005009544045120445,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.009074894587198894,
+      "learning_rate": 0.01,
+      "loss": 1.459,
+      "loss/crossentropy": 2.98556649684906,
+      "loss/fcd": 1.21875,
+      "loss/logits": 0.2643963396549225,
+      "step": 290
+    },
+    {
+      "epoch": 0.005026818334931205,
+      "grad_norm": 0.251953125,
+      "grad_norm_var": 0.009484354654947917,
+      "learning_rate": 0.01,
+      "loss": 1.3693,
+      "loss/crossentropy": 2.230570673942566,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.24412426352500916,
+      "step": 291
+    },
+    {
+      "epoch": 0.005044092624741966,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.006051127115885417,
+      "learning_rate": 0.01,
+      "loss": 1.3658,
+      "loss/crossentropy": 2.8022435903549194,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.2787918150424957,
+      "step": 292
+    },
+    {
+      "epoch": 0.0050613669145527255,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.006091165542602539,
+      "learning_rate": 0.01,
+      "loss": 1.3367,
+      "loss/crossentropy": 2.4132487773895264,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.26599422097206116,
+      "step": 293
+    },
+    {
+      "epoch": 0.005078641204363485,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.00606382687886556,
+      "learning_rate": 0.01,
+      "loss": 1.3944,
+      "loss/crossentropy": 2.2870916724205017,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.25007129460573196,
+      "step": 294
+    },
+    {
+      "epoch": 0.005095915494174246,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0060225804646809895,
+      "learning_rate": 0.01,
+      "loss": 1.3933,
+      "loss/crossentropy": 2.60745906829834,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2817099541425705,
+      "step": 295
+    },
+    {
+      "epoch": 0.005113189783985006,
+      "grad_norm": 0.34765625,
+      "grad_norm_var": 0.006082900365193685,
+      "learning_rate": 0.01,
+      "loss": 1.4644,
+      "loss/crossentropy": 2.1799449920654297,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.23855505883693695,
+      "step": 296
+    },
+    {
+      "epoch": 0.005130464073795766,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0006179650624593099,
+      "learning_rate": 0.01,
+      "loss": 1.3902,
+      "loss/crossentropy": 2.299877882003784,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.24762696027755737,
+      "step": 297
+    },
+    {
+      "epoch": 0.005147738363606527,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0006234327952067058,
+      "learning_rate": 0.01,
+      "loss": 1.3882,
+      "loss/crossentropy": 2.334827423095703,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.23748627305030823,
+      "step": 298
+    },
+    {
+      "epoch": 0.0051650126534172865,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.0006581465403238932,
+      "learning_rate": 0.01,
+      "loss": 1.3226,
+      "loss/crossentropy": 2.4439618587493896,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.23564526438713074,
+      "step": 299
+    },
+    {
+      "epoch": 0.005182286943228046,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0006502787272135417,
+      "learning_rate": 0.01,
+      "loss": 1.4317,
+      "loss/crossentropy": 2.4066379070281982,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.28721271455287933,
+      "step": 300
+    },
+    {
+      "epoch": 0.005199561233038807,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.0007389704386393229,
+      "learning_rate": 0.01,
+      "loss": 1.392,
+      "loss/crossentropy": 2.6461589336395264,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2553107738494873,
+      "step": 301
+    },
+    {
+      "epoch": 0.005216835522849567,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0007389704386393229,
+      "learning_rate": 0.01,
+      "loss": 1.3864,
+      "loss/crossentropy": 2.607328414916992,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.26615719497203827,
+      "step": 302
+    },
+    {
+      "epoch": 0.005234109812660327,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0007313410441080729,
+      "learning_rate": 0.01,
+      "loss": 1.3974,
+      "loss/crossentropy": 2.5339640378952026,
+      "loss/fcd": 1.23046875,
+      "loss/logits": 0.29202982783317566,
+      "step": 303
+    },
+    {
+      "epoch": 0.005251384102471087,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.000777292251586914,
+      "learning_rate": 0.01,
+      "loss": 1.3597,
+      "loss/crossentropy": 2.418789029121399,
+      "loss/fcd": 1.0078125,
+      "loss/logits": 0.22410588711500168,
+      "step": 304
+    },
+    {
+      "epoch": 0.0052686583922818475,
+      "grad_norm": 0.26171875,
+      "grad_norm_var": 0.000777292251586914,
+      "learning_rate": 0.01,
+      "loss": 1.3612,
+      "loss/crossentropy": 2.333797812461853,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.2548183798789978,
+      "step": 305
+    },
+    {
+      "epoch": 0.005285932682092607,
+      "grad_norm": 0.330078125,
+      "grad_norm_var": 0.0007448673248291015,
+      "learning_rate": 0.01,
+      "loss": 1.4106,
+      "loss/crossentropy": 2.444805860519409,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.2654833495616913,
+      "step": 306
+    },
+    {
+      "epoch": 0.005303206971903367,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0005655765533447265,
+      "learning_rate": 0.01,
+      "loss": 1.4068,
+      "loss/crossentropy": 2.478832244873047,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.27099600434303284,
+      "step": 307
+    },
+    {
+      "epoch": 0.005320481261714128,
+      "grad_norm": 0.34375,
+      "grad_norm_var": 0.0006519158681233724,
+      "learning_rate": 0.01,
+      "loss": 1.4297,
+      "loss/crossentropy": 2.276490032672882,
+      "loss/fcd": 1.2578125,
+      "loss/logits": 0.2906430959701538,
+      "step": 308
+    },
+    {
+      "epoch": 0.005337755551524888,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0006444136301676433,
+      "learning_rate": 0.01,
+      "loss": 1.3362,
+      "loss/crossentropy": 2.1777199506759644,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2572901248931885,
+      "step": 309
+    },
+    {
+      "epoch": 0.005355029841335648,
+      "grad_norm": 0.349609375,
+      "grad_norm_var": 0.0007352193196614583,
+      "learning_rate": 0.01,
+      "loss": 1.4705,
+      "loss/crossentropy": 2.4591206312179565,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2502119764685631,
+      "step": 310
+    },
+    {
+      "epoch": 0.0053723041311464085,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0007771650950113932,
+      "learning_rate": 0.01,
+      "loss": 1.4149,
+      "loss/crossentropy": 2.377845048904419,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.25507183372974396,
+      "step": 311
+    },
+    {
+      "epoch": 0.005389578420957168,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0006932417551676432,
+      "learning_rate": 0.01,
+      "loss": 1.3878,
+      "loss/crossentropy": 2.6086690425872803,
+      "loss/fcd": 1.25,
+      "loss/logits": 0.28851139545440674,
+      "step": 312
+    },
+    {
+      "epoch": 0.005406852710767928,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0006875991821289062,
+      "learning_rate": 0.01,
+      "loss": 1.3607,
+      "loss/crossentropy": 2.089534819126129,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.22003582119941711,
+      "step": 313
+    },
+    {
+      "epoch": 0.005424127000578689,
+      "grad_norm": 0.388671875,
+      "grad_norm_var": 0.0011123021443684895,
+      "learning_rate": 0.01,
+      "loss": 1.3856,
+      "loss/crossentropy": 2.0762287974357605,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.23012210428714752,
+      "step": 314
+    },
+    {
+      "epoch": 0.005441401290389449,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0011039574940999348,
+      "learning_rate": 0.01,
+      "loss": 1.3841,
+      "loss/crossentropy": 2.5591676235198975,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.2246263027191162,
+      "step": 315
+    },
+    {
+      "epoch": 0.005458675580200209,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0010869344075520833,
+      "learning_rate": 0.01,
+      "loss": 1.4073,
+      "loss/crossentropy": 2.412803888320923,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.24091031402349472,
+      "step": 316
+    },
+    {
+      "epoch": 0.0054759498700109694,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.001073137919108073,
+      "learning_rate": 0.01,
+      "loss": 1.368,
+      "loss/crossentropy": 2.328226327896118,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2949056923389435,
+      "step": 317
+    },
+    {
+      "epoch": 0.005493224159821729,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.001038042704264323,
+      "learning_rate": 0.01,
+      "loss": 1.3639,
+      "loss/crossentropy": 2.2848289012908936,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.25566980242729187,
+      "step": 318
+    },
+    {
+      "epoch": 0.005510498449632489,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0011049906412760417,
+      "learning_rate": 0.01,
+      "loss": 1.3843,
+      "loss/crossentropy": 2.3968076705932617,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2567252665758133,
+      "step": 319
+    },
+    {
+      "epoch": 0.00552777273944325,
+      "grad_norm": 0.423828125,
+      "grad_norm_var": 0.001811663309733073,
+      "learning_rate": 0.01,
+      "loss": 1.3891,
+      "loss/crossentropy": 2.396988272666931,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.24911059439182281,
+      "step": 320
+    },
+    {
+      "epoch": 0.00554504702925401,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.001689910888671875,
+      "learning_rate": 0.01,
+      "loss": 1.3517,
+      "loss/crossentropy": 2.4934462308883667,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2607601135969162,
+      "step": 321
+    },
+    {
+      "epoch": 0.00556232131906477,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0017145156860351562,
+      "learning_rate": 0.01,
+      "loss": 1.4164,
+      "loss/crossentropy": 2.421591639518738,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.2476629763841629,
+      "step": 322
+    },
+    {
+      "epoch": 0.00557959560887553,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0016919453938802084,
+      "learning_rate": 0.01,
+      "loss": 1.4522,
+      "loss/crossentropy": 2.5826879739761353,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.24336670339107513,
+      "step": 323
+    },
+    {
+      "epoch": 0.00559686989868629,
+      "grad_norm": 0.36328125,
+      "grad_norm_var": 0.0017831802368164062,
+      "learning_rate": 0.01,
+      "loss": 1.435,
+      "loss/crossentropy": 2.6005271673202515,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2697305530309677,
+      "step": 324
+    },
+    {
+      "epoch": 0.00561414418849705,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.001741647720336914,
+      "learning_rate": 0.01,
+      "loss": 1.4172,
+      "loss/crossentropy": 2.514216661453247,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2561942785978317,
+      "step": 325
+    },
+    {
+      "epoch": 0.005631418478307811,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0017611026763916016,
+      "learning_rate": 0.01,
+      "loss": 1.3803,
+      "loss/crossentropy": 2.6110743284225464,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.25072459131479263,
+      "step": 326
+    },
+    {
+      "epoch": 0.005648692768118571,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.0018299738566080728,
+      "learning_rate": 0.01,
+      "loss": 1.3267,
+      "loss/crossentropy": 2.3151168823242188,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.22984758019447327,
+      "step": 327
+    },
+    {
+      "epoch": 0.005665967057929331,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.001784515380859375,
+      "learning_rate": 0.01,
+      "loss": 1.4146,
+      "loss/crossentropy": 2.610999584197998,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.27360329031944275,
+      "step": 328
+    },
+    {
+      "epoch": 0.005683241347740091,
+      "grad_norm": 0.330078125,
+      "grad_norm_var": 0.00178680419921875,
+      "learning_rate": 0.01,
+      "loss": 1.4228,
+      "loss/crossentropy": 2.3715471029281616,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.24973652511835098,
+      "step": 329
+    },
+    {
+      "epoch": 0.005700515637550851,
+      "grad_norm": 0.359375,
+      "grad_norm_var": 0.0015657901763916015,
+      "learning_rate": 0.01,
+      "loss": 1.3711,
+      "loss/crossentropy": 2.3313710689544678,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.2390831932425499,
+      "step": 330
+    },
+    {
+      "epoch": 0.005717789927361611,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0015309651692708333,
+      "learning_rate": 0.01,
+      "loss": 1.3683,
+      "loss/crossentropy": 2.405033826828003,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.26245684921741486,
+      "step": 331
+    },
+    {
+      "epoch": 0.005735064217172372,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0015340010325113932,
+      "learning_rate": 0.01,
+      "loss": 1.3872,
+      "loss/crossentropy": 2.6667896509170532,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2503022700548172,
+      "step": 332
+    },
+    {
+      "epoch": 0.005752338506983132,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0015253543853759766,
+      "learning_rate": 0.01,
+      "loss": 1.3296,
+      "loss/crossentropy": 2.6033343076705933,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.24763934314250946,
+      "step": 333
+    },
+    {
+      "epoch": 0.005769612796793892,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.0016357421875,
+      "learning_rate": 0.01,
+      "loss": 1.3707,
+      "loss/crossentropy": 2.3747464418411255,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.24109259992837906,
+      "step": 334
+    },
+    {
+      "epoch": 0.005786887086604652,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.001557159423828125,
+      "learning_rate": 0.01,
+      "loss": 1.3676,
+      "loss/crossentropy": 2.064777910709381,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.20032966136932373,
+      "step": 335
+    },
+    {
+      "epoch": 0.005804161376415412,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0007188002268473308,
+      "learning_rate": 0.01,
+      "loss": 1.415,
+      "loss/crossentropy": 2.395054817199707,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.26608574390411377,
+      "step": 336
+    },
+    {
+      "epoch": 0.005821435666226172,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0007338047027587891,
+      "learning_rate": 0.01,
+      "loss": 1.3812,
+      "loss/crossentropy": 2.2238911390304565,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.2315894290804863,
+      "step": 337
+    },
+    {
+      "epoch": 0.005838709956036932,
+      "grad_norm": 0.400390625,
+      "grad_norm_var": 0.0012453556060791015,
+      "learning_rate": 0.01,
+      "loss": 1.4817,
+      "loss/crossentropy": 2.6248074769973755,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.28028567135334015,
+      "step": 338
+    },
+    {
+      "epoch": 0.005855984245847693,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0012906233469645182,
+      "learning_rate": 0.01,
+      "loss": 1.3788,
+      "loss/crossentropy": 2.125354528427124,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.26438966393470764,
+      "step": 339
+    },
+    {
+      "epoch": 0.005873258535658453,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.0011260350545247396,
+      "learning_rate": 0.01,
+      "loss": 1.4301,
+      "loss/crossentropy": 2.301461696624756,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.254987433552742,
+      "step": 340
+    },
+    {
+      "epoch": 0.0058905328254692125,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.001136000951131185,
+      "learning_rate": 0.01,
+      "loss": 1.4306,
+      "loss/crossentropy": 2.369805097579956,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.25373272597789764,
+      "step": 341
+    },
+    {
+      "epoch": 0.005907807115279973,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0010833104451497396,
+      "learning_rate": 0.01,
+      "loss": 1.4098,
+      "loss/crossentropy": 2.5944920778274536,
+      "loss/fcd": 1.23046875,
+      "loss/logits": 0.2799176275730133,
+      "step": 342
+    },
+    {
+      "epoch": 0.005925081405090733,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0009953657786051433,
+      "learning_rate": 0.01,
+      "loss": 1.3992,
+      "loss/crossentropy": 2.13715797662735,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.24987763166427612,
+      "step": 343
+    },
+    {
+      "epoch": 0.005942355694901493,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0009989261627197266,
+      "learning_rate": 0.01,
+      "loss": 1.4174,
+      "loss/crossentropy": 2.4599469900131226,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2511429339647293,
+      "step": 344
+    },
+    {
+      "epoch": 0.005959629984712254,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.0010085900624593098,
+      "learning_rate": 0.01,
+      "loss": 1.3608,
+      "loss/crossentropy": 2.431983709335327,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.2585323229432106,
+      "step": 345
+    },
+    {
+      "epoch": 0.005976904274523014,
+      "grad_norm": 0.35546875,
+      "grad_norm_var": 0.0009857018788655598,
+      "learning_rate": 0.01,
+      "loss": 1.3743,
+      "loss/crossentropy": 2.3239270448684692,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.2441619336605072,
+      "step": 346
+    },
+    {
+      "epoch": 0.0059941785643337735,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0009857018788655598,
+      "learning_rate": 0.01,
+      "loss": 1.3826,
+      "loss/crossentropy": 2.229923963546753,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.22727931290864944,
+      "step": 347
+    },
+    {
+      "epoch": 0.006011452854144534,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0010732014973958333,
+      "learning_rate": 0.01,
+      "loss": 1.3712,
+      "loss/crossentropy": 2.6727981567382812,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.28281402587890625,
+      "step": 348
+    },
+    {
+      "epoch": 0.006028727143955294,
+      "grad_norm": 0.392578125,
+      "grad_norm_var": 0.0014724095662434896,
+      "learning_rate": 0.01,
+      "loss": 1.4247,
+      "loss/crossentropy": 2.4443578720092773,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2722969502210617,
+      "step": 349
+    },
+    {
+      "epoch": 0.006046001433766054,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0013391971588134766,
+      "learning_rate": 0.01,
+      "loss": 1.3573,
+      "loss/crossentropy": 2.399729371070862,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.22808712720870972,
+      "step": 350
+    },
+    {
+      "epoch": 0.006063275723576815,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.001315927505493164,
+      "learning_rate": 0.01,
+      "loss": 1.3975,
+      "loss/crossentropy": 2.521644949913025,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.25423599034547806,
+      "step": 351
+    },
+    {
+      "epoch": 0.006080550013387575,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0013570149739583334,
+      "learning_rate": 0.01,
+      "loss": 1.3756,
+      "loss/crossentropy": 2.263104200363159,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.26695793122053146,
+      "step": 352
+    },
+    {
+      "epoch": 0.0060978243031983344,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0012316226959228516,
+      "learning_rate": 0.01,
+      "loss": 1.3735,
+      "loss/crossentropy": 2.6748716831207275,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.27432236075401306,
+      "step": 353
+    },
+    {
+      "epoch": 0.006115098593009095,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0008518060048421223,
+      "learning_rate": 0.01,
+      "loss": 1.3334,
+      "loss/crossentropy": 2.3271913528442383,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.25318336486816406,
+      "step": 354
+    },
+    {
+      "epoch": 0.006132372882819855,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0008040746053059896,
+      "learning_rate": 0.01,
+      "loss": 1.4881,
+      "loss/crossentropy": 2.6528772115707397,
+      "loss/fcd": 1.296875,
+      "loss/logits": 0.3017214983701706,
+      "step": 355
+    },
+    {
+      "epoch": 0.006149647172630615,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0008056640625,
+      "learning_rate": 0.01,
+      "loss": 1.3815,
+      "loss/crossentropy": 2.4514299631118774,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.25581270456314087,
+      "step": 356
+    },
+    {
+      "epoch": 0.006166921462441376,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.000800180435180664,
+      "learning_rate": 0.01,
+      "loss": 1.3652,
+      "loss/crossentropy": 2.307224750518799,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.24949809908866882,
+      "step": 357
+    },
+    {
+      "epoch": 0.0061841957522521356,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.000836944580078125,
+      "learning_rate": 0.01,
+      "loss": 1.3842,
+      "loss/crossentropy": 2.120967745780945,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2532486915588379,
+      "step": 358
+    },
+    {
+      "epoch": 0.006201470042062895,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0008429050445556641,
+      "learning_rate": 0.01,
+      "loss": 1.4114,
+      "loss/crossentropy": 2.4582676887512207,
+      "loss/fcd": 1.23828125,
+      "loss/logits": 0.278301477432251,
+      "step": 359
+    },
+    {
+      "epoch": 0.006218744331873656,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.000936126708984375,
+      "learning_rate": 0.01,
+      "loss": 1.3794,
+      "loss/crossentropy": 2.636004090309143,
+      "loss/fcd": 1.21484375,
+      "loss/logits": 0.2849871665239334,
+      "step": 360
+    },
+    {
+      "epoch": 0.006236018621684416,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0009364922841389974,
+      "learning_rate": 0.01,
+      "loss": 1.4538,
+      "loss/crossentropy": 2.55968701839447,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.29454614222049713,
+      "step": 361
+    },
+    {
+      "epoch": 0.006253292911495176,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0007910251617431641,
+      "learning_rate": 0.01,
+      "loss": 1.3948,
+      "loss/crossentropy": 2.3076229095458984,
+      "loss/fcd": 1.015625,
+      "loss/logits": 0.23156127333641052,
+      "step": 362
+    },
+    {
+      "epoch": 0.006270567201305937,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0008000055948893229,
+      "learning_rate": 0.01,
+      "loss": 1.3462,
+      "loss/crossentropy": 2.3910467624664307,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.24528269469738007,
+      "step": 363
+    },
+    {
+      "epoch": 0.0062878414911166965,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0007506688435872396,
+      "learning_rate": 0.01,
+      "loss": 1.4077,
+      "loss/crossentropy": 2.3372639417648315,
+      "loss/fcd": 1.21875,
+      "loss/logits": 0.2640947550535202,
+      "step": 364
+    },
+    {
+      "epoch": 0.006305115780927456,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0002445856730143229,
+      "learning_rate": 0.01,
+      "loss": 1.3759,
+      "loss/crossentropy": 2.454505205154419,
+      "loss/fcd": 1.05078125,
+      "loss/logits": 0.2401072233915329,
+      "step": 365
+    },
+    {
+      "epoch": 0.006322390070738217,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0002534071604410807,
+      "learning_rate": 0.01,
+      "loss": 1.3749,
+      "loss/crossentropy": 2.3645259141921997,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.23153205960988998,
+      "step": 366
+    },
+    {
+      "epoch": 0.006339664360548977,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0002587477366129557,
+      "learning_rate": 0.01,
+      "loss": 1.3546,
+      "loss/crossentropy": 2.494025230407715,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.26557300239801407,
+      "step": 367
+    },
+    {
+      "epoch": 0.006356938650359737,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.000279998779296875,
+      "learning_rate": 0.01,
+      "loss": 1.3496,
+      "loss/crossentropy": 2.3776293992996216,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2568487524986267,
+      "step": 368
+    },
+    {
+      "epoch": 0.006374212940170498,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.00024310747782389322,
+      "learning_rate": 0.01,
+      "loss": 1.3734,
+      "loss/crossentropy": 2.591793417930603,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.27023325860500336,
+      "step": 369
+    },
+    {
+      "epoch": 0.0063914872299812575,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0002357323964436849,
+      "learning_rate": 0.01,
+      "loss": 1.3944,
+      "loss/crossentropy": 2.415038585662842,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.3026815205812454,
+      "step": 370
+    },
+    {
+      "epoch": 0.006408761519792017,
+      "grad_norm": 0.3359375,
+      "grad_norm_var": 0.0002699375152587891,
+      "learning_rate": 0.01,
+      "loss": 1.3485,
+      "loss/crossentropy": 2.4911344051361084,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2093563750386238,
+      "step": 371
+    },
+    {
+      "epoch": 0.006426035809602778,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.00027815500895182293,
+      "learning_rate": 0.01,
+      "loss": 1.34,
+      "loss/crossentropy": 2.470622181892395,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2913671284914017,
+      "step": 372
+    },
+    {
+      "epoch": 0.006443310099413538,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.00027815500895182293,
+      "learning_rate": 0.01,
+      "loss": 1.4077,
+      "loss/crossentropy": 2.6227082014083862,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24900969862937927,
+      "step": 373
+    },
+    {
+      "epoch": 0.006460584389224298,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0003157138824462891,
+      "learning_rate": 0.01,
+      "loss": 1.4209,
+      "loss/crossentropy": 3.0212732553482056,
+      "loss/fcd": 1.22265625,
+      "loss/logits": 0.270741730928421,
+      "step": 374
+    },
+    {
+      "epoch": 0.006477858679035058,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.0003500461578369141,
+      "learning_rate": 0.01,
+      "loss": 1.465,
+      "loss/crossentropy": 2.8352737426757812,
+      "loss/fcd": 1.24609375,
+      "loss/logits": 0.31054478883743286,
+      "step": 375
+    },
+    {
+      "epoch": 0.0064951329688458185,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0003049055735270182,
+      "learning_rate": 0.01,
+      "loss": 1.3951,
+      "loss/crossentropy": 2.450179100036621,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.24616704881191254,
+      "step": 376
+    },
+    {
+      "epoch": 0.006512407258656578,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0003193537394205729,
+      "learning_rate": 0.01,
+      "loss": 1.3687,
+      "loss/crossentropy": 2.2392066717147827,
+      "loss/fcd": 1.025390625,
+      "loss/logits": 0.24169814586639404,
+      "step": 377
+    },
+    {
+      "epoch": 0.006529681548467338,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0003195285797119141,
+      "learning_rate": 0.01,
+      "loss": 1.4315,
+      "loss/crossentropy": 2.6067546606063843,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.31542879343032837,
+      "step": 378
+    },
+    {
+      "epoch": 0.006546955838278099,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.00031558672587076825,
+      "learning_rate": 0.01,
+      "loss": 1.3917,
+      "loss/crossentropy": 2.360989570617676,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.25205816328525543,
+      "step": 379
+    },
+    {
+      "epoch": 0.006564230128088859,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0003201643625895182,
+      "learning_rate": 0.01,
+      "loss": 1.4293,
+      "loss/crossentropy": 2.71570360660553,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2731679454445839,
+      "step": 380
+    },
+    {
+      "epoch": 0.006581504417899619,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.00033359527587890626,
+      "learning_rate": 0.01,
+      "loss": 1.351,
+      "loss/crossentropy": 2.624392867088318,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2293551042675972,
+      "step": 381
+    },
+    {
+      "epoch": 0.0065987787077103795,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00032958984375,
+      "learning_rate": 0.01,
+      "loss": 1.3969,
+      "loss/crossentropy": 2.1760467290878296,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.23204915970563889,
+      "step": 382
+    },
+    {
+      "epoch": 0.006616052997521139,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.00029544830322265626,
+      "learning_rate": 0.01,
+      "loss": 1.3163,
+      "loss/crossentropy": 2.089251697063446,
+      "loss/fcd": 1.041015625,
+      "loss/logits": 0.21481642127037048,
+      "step": 383
+    },
+    {
+      "epoch": 0.006633327287331899,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.00025424957275390627,
+      "learning_rate": 0.01,
+      "loss": 1.413,
+      "loss/crossentropy": 2.1335262060165405,
+      "loss/fcd": 1.24609375,
+      "loss/logits": 0.29476068913936615,
+      "step": 384
+    },
+    {
+      "epoch": 0.00665060157714266,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0002770582834879557,
+      "learning_rate": 0.01,
+      "loss": 1.3581,
+      "loss/crossentropy": 2.3327542543411255,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.2519141435623169,
+      "step": 385
+    },
+    {
+      "epoch": 0.00666787586695342,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0002797285715738932,
+      "learning_rate": 0.01,
+      "loss": 1.3991,
+      "loss/crossentropy": 2.521241784095764,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2740743160247803,
+      "step": 386
+    },
+    {
+      "epoch": 0.00668515015676418,
+      "grad_norm": 0.341796875,
+      "grad_norm_var": 0.00030543009440104165,
+      "learning_rate": 0.01,
+      "loss": 1.4046,
+      "loss/crossentropy": 2.5978543758392334,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.24079592525959015,
+      "step": 387
+    },
+    {
+      "epoch": 0.0067024244465749405,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.00029575030008951824,
+      "learning_rate": 0.01,
+      "loss": 1.4169,
+      "loss/crossentropy": 2.246425747871399,
+      "loss/fcd": 1.19140625,
+      "loss/logits": 0.2572794705629349,
+      "step": 388
+    },
+    {
+      "epoch": 0.0067196987363857,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0003040949503580729,
+      "learning_rate": 0.01,
+      "loss": 1.382,
+      "loss/crossentropy": 2.293286442756653,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.23658673465251923,
+      "step": 389
+    },
+    {
+      "epoch": 0.00673697302619646,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.00032596588134765626,
+      "learning_rate": 0.01,
+      "loss": 1.4607,
+      "loss/crossentropy": 2.441470980644226,
+      "loss/fcd": 1.31640625,
+      "loss/logits": 0.28673678636550903,
+      "step": 390
+    },
+    {
+      "epoch": 0.006754247316007221,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0003061771392822266,
+      "learning_rate": 0.01,
+      "loss": 1.3719,
+      "loss/crossentropy": 2.5365694761276245,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.2776503562927246,
+      "step": 391
+    },
+    {
+      "epoch": 0.006771521605817981,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.00037663777669270834,
+      "learning_rate": 0.01,
+      "loss": 1.4373,
+      "loss/crossentropy": 2.517317056655884,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.27259568870067596,
+      "step": 392
+    },
+    {
+      "epoch": 0.006788795895628741,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0003398736317952474,
+      "learning_rate": 0.01,
+      "loss": 1.382,
+      "loss/crossentropy": 2.38772451877594,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.24375227838754654,
+      "step": 393
+    },
+    {
+      "epoch": 0.006806070185439501,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0003720601399739583,
+      "learning_rate": 0.01,
+      "loss": 1.3734,
+      "loss/crossentropy": 2.2084882259368896,
+      "loss/fcd": 1.076171875,
+      "loss/logits": 0.22468051314353943,
+      "step": 394
+    },
+    {
+      "epoch": 0.006823344475250261,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.00041039784749348957,
+      "learning_rate": 0.01,
+      "loss": 1.4417,
+      "loss/crossentropy": 2.4394543170928955,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.25751829147338867,
+      "step": 395
+    },
+    {
+      "epoch": 0.006840618765061021,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0004447778065999349,
+      "learning_rate": 0.01,
+      "loss": 1.3414,
+      "loss/crossentropy": 2.365694999694824,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.24539195746183395,
+      "step": 396
+    },
+    {
+      "epoch": 0.006857893054871782,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00042292277018229164,
+      "learning_rate": 0.01,
+      "loss": 1.396,
+      "loss/crossentropy": 2.4616193771362305,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.2692428231239319,
+      "step": 397
+    },
+    {
+      "epoch": 0.006875167344682542,
+      "grad_norm": 0.330078125,
+      "grad_norm_var": 0.0004531224568684896,
+      "learning_rate": 0.01,
+      "loss": 1.403,
+      "loss/crossentropy": 2.2189152240753174,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.24257495999336243,
+      "step": 398
+    },
+    {
+      "epoch": 0.006892441634493302,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0004249413808186849,
+      "learning_rate": 0.01,
+      "loss": 1.3559,
+      "loss/crossentropy": 2.37640380859375,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2584332674741745,
+      "step": 399
+    },
+    {
+      "epoch": 0.006909715924304062,
+      "grad_norm": 0.34765625,
+      "grad_norm_var": 0.0005074659983317057,
+      "learning_rate": 0.01,
+      "loss": 1.4774,
+      "loss/crossentropy": 2.384715437889099,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2619960308074951,
+      "step": 400
+    },
+    {
+      "epoch": 0.006926990214114822,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00046054522196451825,
+      "learning_rate": 0.01,
+      "loss": 1.4446,
+      "loss/crossentropy": 2.1976479291915894,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.25502003729343414,
+      "step": 401
+    },
+    {
+      "epoch": 0.006944264503925582,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0004532972971598307,
+      "learning_rate": 0.01,
+      "loss": 1.3809,
+      "loss/crossentropy": 2.278647780418396,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.2284827083349228,
+      "step": 402
+    },
+    {
+      "epoch": 0.006961538793736343,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0004994710286458333,
+      "learning_rate": 0.01,
+      "loss": 1.3505,
+      "loss/crossentropy": 2.4870028495788574,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2371172457933426,
+      "step": 403
+    },
+    {
+      "epoch": 0.006978813083547103,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0004836400349934896,
+      "learning_rate": 0.01,
+      "loss": 1.4059,
+      "loss/crossentropy": 2.65886914730072,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2828421890735626,
+      "step": 404
+    },
+    {
+      "epoch": 0.006996087373357863,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0005295912424723308,
+      "learning_rate": 0.01,
+      "loss": 1.3245,
+      "loss/crossentropy": 2.1928412914276123,
+      "loss/fcd": 1.0234375,
+      "loss/logits": 0.22634898871183395,
+      "step": 405
+    },
+    {
+      "epoch": 0.007013361663168623,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0004922072092692057,
+      "learning_rate": 0.01,
+      "loss": 1.4224,
+      "loss/crossentropy": 2.6360604763031006,
+      "loss/fcd": 1.24609375,
+      "loss/logits": 0.2727653980255127,
+      "step": 406
+    },
+    {
+      "epoch": 0.007030635952979383,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00048584938049316405,
+      "learning_rate": 0.01,
+      "loss": 1.3588,
+      "loss/crossentropy": 2.3004168272018433,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.239614799618721,
+      "step": 407
+    },
+    {
+      "epoch": 0.007047910242790143,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0004352410634358724,
+      "learning_rate": 0.01,
+      "loss": 1.4105,
+      "loss/crossentropy": 2.3150475025177,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.2282358631491661,
+      "step": 408
+    },
+    {
+      "epoch": 0.007065184532600904,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0004974365234375,
+      "learning_rate": 0.01,
+      "loss": 1.3576,
+      "loss/crossentropy": 2.645399570465088,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2676645368337631,
+      "step": 409
+    },
+    {
+      "epoch": 0.007082458822411664,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.00047855377197265626,
+      "learning_rate": 0.01,
+      "loss": 1.4103,
+      "loss/crossentropy": 2.1640161275863647,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2479998767375946,
+      "step": 410
+    },
+    {
+      "epoch": 0.007099733112222424,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0004301548004150391,
+      "learning_rate": 0.01,
+      "loss": 1.4286,
+      "loss/crossentropy": 2.5662118196487427,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.2710702270269394,
+      "step": 411
+    },
+    {
+      "epoch": 0.0071170074020331835,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.000391387939453125,
+      "learning_rate": 0.01,
+      "loss": 1.369,
+      "loss/crossentropy": 2.1513331532478333,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.22271250188350677,
+      "step": 412
+    },
+    {
+      "epoch": 0.007134281691843944,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.00042565663655598957,
+      "learning_rate": 0.01,
+      "loss": 1.3294,
+      "loss/crossentropy": 2.2309274673461914,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.24107103794813156,
+      "step": 413
+    },
+    {
+      "epoch": 0.007151555981654704,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0003997802734375,
+      "learning_rate": 0.01,
+      "loss": 1.3924,
+      "loss/crossentropy": 2.6093149185180664,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.24238202720880508,
+      "step": 414
+    },
+    {
+      "epoch": 0.007168830271465464,
+      "grad_norm": 0.3828125,
+      "grad_norm_var": 0.0008020877838134765,
+      "learning_rate": 0.01,
+      "loss": 1.4011,
+      "loss/crossentropy": 2.6286522150039673,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.258474200963974,
+      "step": 415
+    },
+    {
+      "epoch": 0.007186104561276225,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0007280985514322917,
+      "learning_rate": 0.01,
+      "loss": 1.3625,
+      "loss/crossentropy": 2.686766266822815,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.24827048182487488,
+      "step": 416
+    },
+    {
+      "epoch": 0.007203378851086985,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0007395426432291667,
+      "learning_rate": 0.01,
+      "loss": 1.3839,
+      "loss/crossentropy": 2.319527268409729,
+      "loss/fcd": 1.20703125,
+      "loss/logits": 0.2674332559108734,
+      "step": 417
+    },
+    {
+      "epoch": 0.0072206531408977445,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0007565657297770183,
+      "learning_rate": 0.01,
+      "loss": 1.3619,
+      "loss/crossentropy": 2.3169610500335693,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.23959346115589142,
+      "step": 418
+    },
+    {
+      "epoch": 0.007237927430708505,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0007449944814046223,
+      "learning_rate": 0.01,
+      "loss": 1.4737,
+      "loss/crossentropy": 2.5569876432418823,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2552832216024399,
+      "step": 419
+    },
+    {
+      "epoch": 0.007255201720519265,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0007374445597330729,
+      "learning_rate": 0.01,
+      "loss": 1.4197,
+      "loss/crossentropy": 2.0687599182128906,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2598320543766022,
+      "step": 420
+    },
+    {
+      "epoch": 0.007272476010330025,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0006955305735270183,
+      "learning_rate": 0.01,
+      "loss": 1.4605,
+      "loss/crossentropy": 2.419862389564514,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2556862235069275,
+      "step": 421
+    },
+    {
+      "epoch": 0.007289750300140786,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0006964206695556641,
+      "learning_rate": 0.01,
+      "loss": 1.4071,
+      "loss/crossentropy": 2.5204795598983765,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2741318494081497,
+      "step": 422
+    },
+    {
+      "epoch": 0.007307024589951546,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0006945292154947917,
+      "learning_rate": 0.01,
+      "loss": 1.4196,
+      "loss/crossentropy": 2.489278793334961,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.25576694309711456,
+      "step": 423
+    },
+    {
+      "epoch": 0.0073242988797623055,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0007067362467447917,
+      "learning_rate": 0.01,
+      "loss": 1.3185,
+      "loss/crossentropy": 2.3392102122306824,
+      "loss/fcd": 1.03125,
+      "loss/logits": 0.21298449486494064,
+      "step": 424
+    },
+    {
+      "epoch": 0.007341573169573066,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0006886641184488932,
+      "learning_rate": 0.01,
+      "loss": 1.3571,
+      "loss/crossentropy": 2.2977930307388306,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.23583728075027466,
+      "step": 425
+    },
+    {
+      "epoch": 0.007358847459383826,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0006886641184488932,
+      "learning_rate": 0.01,
+      "loss": 1.4277,
+      "loss/crossentropy": 2.6484419107437134,
+      "loss/fcd": 1.1953125,
+      "loss/logits": 0.27860742807388306,
+      "step": 426
+    },
+    {
+      "epoch": 0.007376121749194586,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0007303873697916667,
+      "learning_rate": 0.01,
+      "loss": 1.3439,
+      "loss/crossentropy": 2.460866689682007,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.23756644129753113,
+      "step": 427
+    },
+    {
+      "epoch": 0.007393396039005347,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.000762033462524414,
+      "learning_rate": 0.01,
+      "loss": 1.343,
+      "loss/crossentropy": 2.0784988403320312,
+      "loss/fcd": 1.044921875,
+      "loss/logits": 0.21802522987127304,
+      "step": 428
+    },
+    {
+      "epoch": 0.0074106703288161066,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0007471720377604167,
+      "learning_rate": 0.01,
+      "loss": 1.3824,
+      "loss/crossentropy": 2.312214493751526,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.2373846471309662,
+      "step": 429
+    },
+    {
+      "epoch": 0.0074279446186268664,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0007441043853759766,
+      "learning_rate": 0.01,
+      "loss": 1.4031,
+      "loss/crossentropy": 2.43253231048584,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.24533094465732574,
+      "step": 430
+    },
+    {
+      "epoch": 0.007445218908437627,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0002559502919514974,
+      "learning_rate": 0.01,
+      "loss": 1.3775,
+      "loss/crossentropy": 2.7691128253936768,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.22900952398777008,
+      "step": 431
+    },
+    {
+      "epoch": 0.007462493198248387,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0002489566802978516,
+      "learning_rate": 0.01,
+      "loss": 1.3613,
+      "loss/crossentropy": 2.231864333152771,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.24191942811012268,
+      "step": 432
+    },
+    {
+      "epoch": 0.007479767488059147,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.00026493072509765626,
+      "learning_rate": 0.01,
+      "loss": 1.4166,
+      "loss/crossentropy": 2.343968152999878,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.2661665081977844,
+      "step": 433
+    },
+    {
+      "epoch": 0.007497041777869908,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.000299835205078125,
+      "learning_rate": 0.01,
+      "loss": 1.3807,
+      "loss/crossentropy": 2.6194422245025635,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.2392604500055313,
+      "step": 434
+    },
+    {
+      "epoch": 0.0075143160676806675,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.00023585955301920573,
+      "learning_rate": 0.01,
+      "loss": 1.2902,
+      "loss/crossentropy": 2.46696138381958,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.26606328785419464,
+      "step": 435
+    },
+    {
+      "epoch": 0.007531590357491427,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0002272923787434896,
+      "learning_rate": 0.01,
+      "loss": 1.3931,
+      "loss/crossentropy": 2.4375393390655518,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.27766771614551544,
+      "step": 436
+    },
+    {
+      "epoch": 0.007548864647302188,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.0003665765126546224,
+      "learning_rate": 0.01,
+      "loss": 1.3732,
+      "loss/crossentropy": 2.3699560165405273,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2573126032948494,
+      "step": 437
+    },
+    {
+      "epoch": 0.007566138937112948,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.00037282307942708334,
+      "learning_rate": 0.01,
+      "loss": 1.4006,
+      "loss/crossentropy": 2.227339029312134,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2607281506061554,
+      "step": 438
+    },
+    {
+      "epoch": 0.007583413226923708,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0003864129384358724,
+      "learning_rate": 0.01,
+      "loss": 1.3632,
+      "loss/crossentropy": 2.46047842502594,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.24269723892211914,
+      "step": 439
+    },
+    {
+      "epoch": 0.007600687516734469,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0003676732381184896,
+      "learning_rate": 0.01,
+      "loss": 1.3795,
+      "loss/crossentropy": 2.4994819164276123,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.25722265988588333,
+      "step": 440
+    },
+    {
+      "epoch": 0.0076179618065452285,
+      "grad_norm": 0.265625,
+      "grad_norm_var": 0.0004109064737955729,
+      "learning_rate": 0.01,
+      "loss": 1.3064,
+      "loss/crossentropy": 2.5115902423858643,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.2371089681982994,
+      "step": 441
+    },
+    {
+      "epoch": 0.007635236096355988,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0003619988759358724,
+      "learning_rate": 0.01,
+      "loss": 1.4358,
+      "loss/crossentropy": 2.380179762840271,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.2640485018491745,
+      "step": 442
+    },
+    {
+      "epoch": 0.007652510386166749,
+      "grad_norm": 0.3359375,
+      "grad_norm_var": 0.000460052490234375,
+      "learning_rate": 0.01,
+      "loss": 1.4287,
+      "loss/crossentropy": 2.6699330806732178,
+      "loss/fcd": 1.23828125,
+      "loss/logits": 0.2810060381889343,
+      "step": 443
+    },
+    {
+      "epoch": 0.007669784675977509,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0004988988240559896,
+      "learning_rate": 0.01,
+      "loss": 1.4246,
+      "loss/crossentropy": 2.5262972116470337,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.25480419397354126,
+      "step": 444
+    },
+    {
+      "epoch": 0.007687058965788269,
+      "grad_norm": 0.34765625,
+      "grad_norm_var": 0.000649261474609375,
+      "learning_rate": 0.01,
+      "loss": 1.3859,
+      "loss/crossentropy": 2.3320013284683228,
+      "loss/fcd": 1.05078125,
+      "loss/logits": 0.2234661728143692,
+      "step": 445
+    },
+    {
+      "epoch": 0.007704333255599029,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0006438573201497396,
+      "learning_rate": 0.01,
+      "loss": 1.3848,
+      "loss/crossentropy": 2.448530673980713,
+      "loss/fcd": 1.234375,
+      "loss/logits": 0.2647833973169327,
+      "step": 446
+    },
+    {
+      "epoch": 0.0077216075454097895,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.000642840067545573,
+      "learning_rate": 0.01,
+      "loss": 1.4458,
+      "loss/crossentropy": 2.279269576072693,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2693684697151184,
+      "step": 447
+    },
+    {
+      "epoch": 0.007738881835220549,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0006202538808186849,
+      "learning_rate": 0.01,
+      "loss": 1.3777,
+      "loss/crossentropy": 2.6742255687713623,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.2811601459980011,
+      "step": 448
+    },
+    {
+      "epoch": 0.007756156125031309,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.0006031672159830729,
+      "learning_rate": 0.01,
+      "loss": 1.4104,
+      "loss/crossentropy": 2.4074745178222656,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.24794109165668488,
+      "step": 449
+    },
+    {
+      "epoch": 0.00777343041484207,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0005887190500895183,
+      "learning_rate": 0.01,
+      "loss": 1.3185,
+      "loss/crossentropy": 2.35663104057312,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.22819262742996216,
+      "step": 450
+    },
+    {
+      "epoch": 0.00779070470465283,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0005558649698893229,
+      "learning_rate": 0.01,
+      "loss": 1.3834,
+      "loss/crossentropy": 2.6186258792877197,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2587556540966034,
+      "step": 451
+    },
+    {
+      "epoch": 0.00780797899446359,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0005566755930582683,
+      "learning_rate": 0.01,
+      "loss": 1.4106,
+      "loss/crossentropy": 2.6754432916641235,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2465488687157631,
+      "step": 452
+    },
+    {
+      "epoch": 0.00782525328427435,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0005098978678385416,
+      "learning_rate": 0.01,
+      "loss": 1.3696,
+      "loss/crossentropy": 2.5379905700683594,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.2804763838648796,
+      "step": 453
+    },
+    {
+      "epoch": 0.007842527574085111,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005257765452067058,
+      "learning_rate": 0.01,
+      "loss": 1.3851,
+      "loss/crossentropy": 2.5852067470550537,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.23731224238872528,
+      "step": 454
+    },
+    {
+      "epoch": 0.007859801863895871,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0004597345987955729,
+      "learning_rate": 0.01,
+      "loss": 1.4338,
+      "loss/crossentropy": 2.6572701930999756,
+      "loss/fcd": 1.234375,
+      "loss/logits": 0.28852197527885437,
+      "step": 455
+    },
+    {
+      "epoch": 0.007877076153706631,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0004513899485270182,
+      "learning_rate": 0.01,
+      "loss": 1.3824,
+      "loss/crossentropy": 2.6901192665100098,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.24115828424692154,
+      "step": 456
+    },
+    {
+      "epoch": 0.00789435044351739,
+      "grad_norm": 0.451171875,
+      "grad_norm_var": 0.00158538818359375,
+      "learning_rate": 0.01,
+      "loss": 1.5497,
+      "loss/crossentropy": 2.636592984199524,
+      "loss/fcd": 1.30859375,
+      "loss/logits": 0.36482033133506775,
+      "step": 457
+    },
+    {
+      "epoch": 0.00791162473332815,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0015401045481363933,
+      "learning_rate": 0.01,
+      "loss": 1.3698,
+      "loss/crossentropy": 2.414226531982422,
+      "loss/fcd": 1.076171875,
+      "loss/logits": 0.2397611290216446,
+      "step": 458
+    },
+    {
+      "epoch": 0.00792889902313891,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.001520522435506185,
+      "learning_rate": 0.01,
+      "loss": 1.4165,
+      "loss/crossentropy": 2.463810086250305,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.24305613338947296,
+      "step": 459
+    },
+    {
+      "epoch": 0.007946173312949672,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0015141805013020833,
+      "learning_rate": 0.01,
+      "loss": 1.4418,
+      "loss/crossentropy": 2.451104521751404,
+      "loss/fcd": 1.296875,
+      "loss/logits": 0.30130288004875183,
+      "step": 460
+    },
+    {
+      "epoch": 0.007963447602760432,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0014490763346354167,
+      "learning_rate": 0.01,
+      "loss": 1.3988,
+      "loss/crossentropy": 2.53925359249115,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24273447692394257,
+      "step": 461
+    },
+    {
+      "epoch": 0.007980721892571192,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0014133294423421224,
+      "learning_rate": 0.01,
+      "loss": 1.3928,
+      "loss/crossentropy": 2.5229551792144775,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.25667132437229156,
+      "step": 462
+    },
+    {
+      "epoch": 0.007997996182381952,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0014353434244791666,
+      "learning_rate": 0.01,
+      "loss": 1.3347,
+      "loss/crossentropy": 2.341879367828369,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.23053725808858871,
+      "step": 463
+    },
+    {
+      "epoch": 0.008015270472192712,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0014744440714518229,
+      "learning_rate": 0.01,
+      "loss": 1.3569,
+      "loss/crossentropy": 2.2920732498168945,
+      "loss/fcd": 1.03515625,
+      "loss/logits": 0.23280857503414154,
+      "step": 464
+    },
+    {
+      "epoch": 0.008032544762003472,
+      "grad_norm": 0.349609375,
+      "grad_norm_var": 0.001541582743326823,
+      "learning_rate": 0.01,
+      "loss": 1.3894,
+      "loss/crossentropy": 2.515018939971924,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24030621349811554,
+      "step": 465
+    },
+    {
+      "epoch": 0.008049819051814231,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0015279134114583334,
+      "learning_rate": 0.01,
+      "loss": 1.4597,
+      "loss/crossentropy": 2.2328585386276245,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.25991010665893555,
+      "step": 466
+    },
+    {
+      "epoch": 0.008067093341624993,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0015306949615478515,
+      "learning_rate": 0.01,
+      "loss": 1.4036,
+      "loss/crossentropy": 2.798638701438904,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.29376721382141113,
+      "step": 467
+    },
+    {
+      "epoch": 0.008084367631435753,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0015871683756510417,
+      "learning_rate": 0.01,
+      "loss": 1.358,
+      "loss/crossentropy": 2.322153091430664,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2475121170282364,
+      "step": 468
+    },
+    {
+      "epoch": 0.008101641921246513,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0015871683756510417,
+      "learning_rate": 0.01,
+      "loss": 1.3756,
+      "loss/crossentropy": 2.2007282972335815,
+      "loss/fcd": 1.046875,
+      "loss/logits": 0.23374570161104202,
+      "step": 469
+    },
+    {
+      "epoch": 0.008118916211057273,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.001594400405883789,
+      "learning_rate": 0.01,
+      "loss": 1.366,
+      "loss/crossentropy": 2.408711314201355,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.23746006190776825,
+      "step": 470
+    },
+    {
+      "epoch": 0.008136190500868033,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0016522566477457682,
+      "learning_rate": 0.01,
+      "loss": 1.4157,
+      "loss/crossentropy": 2.328341841697693,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.2784807085990906,
+      "step": 471
+    },
+    {
+      "epoch": 0.008153464790678792,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0016563256581624349,
+      "learning_rate": 0.01,
+      "loss": 1.3845,
+      "loss/crossentropy": 2.414987564086914,
+      "loss/fcd": 1.26171875,
+      "loss/logits": 0.32799775153398514,
+      "step": 472
+    },
+    {
+      "epoch": 0.008170739080489554,
+      "grad_norm": 0.357421875,
+      "grad_norm_var": 0.0004951318105061848,
+      "learning_rate": 0.01,
+      "loss": 1.4935,
+      "loss/crossentropy": 2.597047209739685,
+      "loss/fcd": 1.34375,
+      "loss/logits": 0.3595212921500206,
+      "step": 473
+    },
+    {
+      "epoch": 0.008188013370300314,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0004927953084309896,
+      "learning_rate": 0.01,
+      "loss": 1.4074,
+      "loss/crossentropy": 2.6870315074920654,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2819272577762604,
+      "step": 474
+    },
+    {
+      "epoch": 0.008205287660111074,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0004863580067952474,
+      "learning_rate": 0.01,
+      "loss": 1.4023,
+      "loss/crossentropy": 2.416118621826172,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2792641520500183,
+      "step": 475
+    },
+    {
+      "epoch": 0.008222561949921834,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0004933675130208334,
+      "learning_rate": 0.01,
+      "loss": 1.3668,
+      "loss/crossentropy": 2.4251519441604614,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.25571418553590775,
+      "step": 476
+    },
+    {
+      "epoch": 0.008239836239732594,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.00052490234375,
+      "learning_rate": 0.01,
+      "loss": 1.396,
+      "loss/crossentropy": 2.2888123989105225,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2410544455051422,
+      "step": 477
+    },
+    {
+      "epoch": 0.008257110529543353,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.000519561767578125,
+      "learning_rate": 0.01,
+      "loss": 1.3594,
+      "loss/crossentropy": 2.479097008705139,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.25502997636795044,
+      "step": 478
+    },
+    {
+      "epoch": 0.008274384819354115,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.000513140360514323,
+      "learning_rate": 0.01,
+      "loss": 1.3785,
+      "loss/crossentropy": 2.4117250442504883,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.26754797995090485,
+      "step": 479
+    },
+    {
+      "epoch": 0.008291659109164875,
+      "grad_norm": 0.34375,
+      "grad_norm_var": 0.0005388895670572917,
+      "learning_rate": 0.01,
+      "loss": 1.4354,
+      "loss/crossentropy": 2.577602744102478,
+      "loss/fcd": 1.24609375,
+      "loss/logits": 0.2731374129652977,
+      "step": 480
+    },
+    {
+      "epoch": 0.008308933398975635,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.000490252176920573,
+      "learning_rate": 0.01,
+      "loss": 1.3588,
+      "loss/crossentropy": 2.3125388622283936,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2633324861526489,
+      "step": 481
+    },
+    {
+      "epoch": 0.008326207688786395,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0004997094472249349,
+      "learning_rate": 0.01,
+      "loss": 1.3518,
+      "loss/crossentropy": 2.3964109420776367,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24801631271839142,
+      "step": 482
+    },
+    {
+      "epoch": 0.008343481978597155,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0005289077758789063,
+      "learning_rate": 0.01,
+      "loss": 1.3619,
+      "loss/crossentropy": 2.5348154306411743,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.273783415555954,
+      "step": 483
+    },
+    {
+      "epoch": 0.008360756268407914,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0005053043365478516,
+      "learning_rate": 0.01,
+      "loss": 1.3716,
+      "loss/crossentropy": 2.525968909263611,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.25891977548599243,
+      "step": 484
+    },
+    {
+      "epoch": 0.008378030558218676,
+      "grad_norm": 0.357421875,
+      "grad_norm_var": 0.000632333755493164,
+      "learning_rate": 0.01,
+      "loss": 1.4665,
+      "loss/crossentropy": 2.476569890975952,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.29254642128944397,
+      "step": 485
+    },
+    {
+      "epoch": 0.008395304848029436,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.000678110122680664,
+      "learning_rate": 0.01,
+      "loss": 1.3305,
+      "loss/crossentropy": 2.4879168272018433,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.22623379528522491,
+      "step": 486
+    },
+    {
+      "epoch": 0.008412579137840196,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0006357192993164063,
+      "learning_rate": 0.01,
+      "loss": 1.3945,
+      "loss/crossentropy": 2.4186280965805054,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.23819412291049957,
+      "step": 487
+    },
+    {
+      "epoch": 0.008429853427650956,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0006739139556884765,
+      "learning_rate": 0.01,
+      "loss": 1.3611,
+      "loss/crossentropy": 2.2941300868988037,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.22146066278219223,
+      "step": 488
+    },
+    {
+      "epoch": 0.008447127717461715,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0005716323852539062,
+      "learning_rate": 0.01,
+      "loss": 1.3797,
+      "loss/crossentropy": 2.368129849433899,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2645361125469208,
+      "step": 489
+    },
+    {
+      "epoch": 0.008464402007272475,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0005732059478759765,
+      "learning_rate": 0.01,
+      "loss": 1.3563,
+      "loss/crossentropy": 2.5257701873779297,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2530096620321274,
+      "step": 490
+    },
+    {
+      "epoch": 0.008481676297083237,
+      "grad_norm": 0.263671875,
+      "grad_norm_var": 0.0006844679514567058,
+      "learning_rate": 0.01,
+      "loss": 1.3688,
+      "loss/crossentropy": 2.1511563062667847,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.240036740899086,
+      "step": 491
+    },
+    {
+      "epoch": 0.008498950586893997,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0006647109985351562,
+      "learning_rate": 0.01,
+      "loss": 1.3563,
+      "loss/crossentropy": 2.370754837989807,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.2698900103569031,
+      "step": 492
+    },
+    {
+      "epoch": 0.008516224876704757,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0006010532379150391,
+      "learning_rate": 0.01,
+      "loss": 1.4051,
+      "loss/crossentropy": 2.55213725566864,
+      "loss/fcd": 1.19140625,
+      "loss/logits": 0.26752666383981705,
+      "step": 493
+    },
+    {
+      "epoch": 0.008533499166515517,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0006074110666910807,
+      "learning_rate": 0.01,
+      "loss": 1.3304,
+      "loss/crossentropy": 2.878965377807617,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.248264878988266,
+      "step": 494
+    },
+    {
+      "epoch": 0.008550773456326276,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0006083170572916667,
+      "learning_rate": 0.01,
+      "loss": 1.3554,
+      "loss/crossentropy": 2.389639139175415,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.2504645884037018,
+      "step": 495
+    },
+    {
+      "epoch": 0.008568047746137036,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.0005273818969726562,
+      "learning_rate": 0.01,
+      "loss": 1.353,
+      "loss/crossentropy": 2.261403799057007,
+      "loss/fcd": 1.03125,
+      "loss/logits": 0.22545771300792694,
+      "step": 496
+    },
+    {
+      "epoch": 0.008585322035947798,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0005760033925374349,
+      "learning_rate": 0.01,
+      "loss": 1.4314,
+      "loss/crossentropy": 2.755717635154724,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.28124481439590454,
+      "step": 497
+    },
+    {
+      "epoch": 0.008602596325758558,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0005721410115559895,
+      "learning_rate": 0.01,
+      "loss": 1.39,
+      "loss/crossentropy": 2.5332454442977905,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2577049881219864,
+      "step": 498
+    },
+    {
+      "epoch": 0.008619870615569318,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0006039937337239584,
+      "learning_rate": 0.01,
+      "loss": 1.3284,
+      "loss/crossentropy": 2.3752284049987793,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24180973321199417,
+      "step": 499
+    },
+    {
+      "epoch": 0.008637144905380078,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0006058851877848308,
+      "learning_rate": 0.01,
+      "loss": 1.3868,
+      "loss/crossentropy": 2.299641966819763,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2509627118706703,
+      "step": 500
+    },
+    {
+      "epoch": 0.008654419195190837,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.00035869280497233074,
+      "learning_rate": 0.01,
+      "loss": 1.3756,
+      "loss/crossentropy": 2.2871060371398926,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.22674021124839783,
+      "step": 501
+    },
+    {
+      "epoch": 0.008671693485001597,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00034610430399576825,
+      "learning_rate": 0.01,
+      "loss": 1.3644,
+      "loss/crossentropy": 2.2024362087249756,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2369084656238556,
+      "step": 502
+    },
+    {
+      "epoch": 0.008688967774812357,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.00030414263407389325,
+      "learning_rate": 0.01,
+      "loss": 1.343,
+      "loss/crossentropy": 2.5880898237228394,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.25857551395893097,
+      "step": 503
+    },
+    {
+      "epoch": 0.008706242064623119,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.00030986467997233075,
+      "learning_rate": 0.01,
+      "loss": 1.4237,
+      "loss/crossentropy": 2.3485684394836426,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.266690656542778,
+      "step": 504
+    },
+    {
+      "epoch": 0.008723516354433879,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.0005009969075520834,
+      "learning_rate": 0.01,
+      "loss": 1.3758,
+      "loss/crossentropy": 2.539777636528015,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.24045251309871674,
+      "step": 505
+    },
+    {
+      "epoch": 0.008740790644244639,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0005444844563802083,
+      "learning_rate": 0.01,
+      "loss": 1.3113,
+      "loss/crossentropy": 2.492120862007141,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2610347419977188,
+      "step": 506
+    },
+    {
+      "epoch": 0.008758064934055398,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0004825433095296224,
+      "learning_rate": 0.01,
+      "loss": 1.4436,
+      "loss/crossentropy": 2.5324673652648926,
+      "loss/fcd": 1.33984375,
+      "loss/logits": 0.3312453627586365,
+      "step": 507
+    },
+    {
+      "epoch": 0.008775339223866158,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0005187829335530599,
+      "learning_rate": 0.01,
+      "loss": 1.3478,
+      "loss/crossentropy": 2.612854242324829,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.261405885219574,
+      "step": 508
+    },
+    {
+      "epoch": 0.008792613513676918,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0005492528279622395,
+      "learning_rate": 0.01,
+      "loss": 1.3917,
+      "loss/crossentropy": 2.4303773641586304,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24008433520793915,
+      "step": 509
+    },
+    {
+      "epoch": 0.00880988780348768,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0005370457967122396,
+      "learning_rate": 0.01,
+      "loss": 1.3929,
+      "loss/crossentropy": 2.676490068435669,
+      "loss/fcd": 1.23828125,
+      "loss/logits": 0.291456863284111,
+      "step": 510
+    },
+    {
+      "epoch": 0.00882716209329844,
+      "grad_norm": 0.248046875,
+      "grad_norm_var": 0.0006914615631103515,
+      "learning_rate": 0.01,
+      "loss": 1.3138,
+      "loss/crossentropy": 2.1477047204971313,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.2524523437023163,
+      "step": 511
+    },
+    {
+      "epoch": 0.0088444363831092,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0006460666656494141,
+      "learning_rate": 0.01,
+      "loss": 1.3208,
+      "loss/crossentropy": 2.3151156902313232,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2605459988117218,
+      "step": 512
+    },
+    {
+      "epoch": 0.00886171067291996,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0005753676096598308,
+      "learning_rate": 0.01,
+      "loss": 1.357,
+      "loss/crossentropy": 2.4916226863861084,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.25671282410621643,
+      "step": 513
+    },
+    {
+      "epoch": 0.00887898496273072,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0006388346354166667,
+      "learning_rate": 0.01,
+      "loss": 1.4206,
+      "loss/crossentropy": 2.2333791255950928,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.28083400428295135,
+      "step": 514
+    },
+    {
+      "epoch": 0.00889625925254148,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0006095727284749348,
+      "learning_rate": 0.01,
+      "loss": 1.3783,
+      "loss/crossentropy": 2.606614589691162,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.2666025906801224,
+      "step": 515
+    },
+    {
+      "epoch": 0.00891353354235224,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0006219863891601563,
+      "learning_rate": 0.01,
+      "loss": 1.3641,
+      "loss/crossentropy": 2.5051095485687256,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.25101958215236664,
+      "step": 516
+    },
+    {
+      "epoch": 0.008930807832163,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.000811767578125,
+      "learning_rate": 0.01,
+      "loss": 1.4186,
+      "loss/crossentropy": 2.3850373029708862,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.27909501641988754,
+      "step": 517
+    },
+    {
+      "epoch": 0.00894808212197376,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0008066177368164062,
+      "learning_rate": 0.01,
+      "loss": 1.366,
+      "loss/crossentropy": 2.217817187309265,
+      "loss/fcd": 1.03125,
+      "loss/logits": 0.23760483413934708,
+      "step": 518
+    },
+    {
+      "epoch": 0.00896535641178452,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0007822513580322266,
+      "learning_rate": 0.01,
+      "loss": 1.3482,
+      "loss/crossentropy": 2.537502408027649,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.27564045786857605,
+      "step": 519
+    },
+    {
+      "epoch": 0.00898263070159528,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.0008463382720947266,
+      "learning_rate": 0.01,
+      "loss": 1.4875,
+      "loss/crossentropy": 2.628643035888672,
+      "loss/fcd": 1.31640625,
+      "loss/logits": 0.30241404473781586,
+      "step": 520
+    },
+    {
+      "epoch": 0.00899990499140604,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0006756941477457682,
+      "learning_rate": 0.01,
+      "loss": 1.4536,
+      "loss/crossentropy": 2.2907025814056396,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.2538699805736542,
+      "step": 521
+    },
+    {
+      "epoch": 0.009017179281216802,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0006413618723551432,
+      "learning_rate": 0.01,
+      "loss": 1.4079,
+      "loss/crossentropy": 2.5753923654556274,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.2975587248802185,
+      "step": 522
+    },
+    {
+      "epoch": 0.009034453571027562,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0006230513254801433,
+      "learning_rate": 0.01,
+      "loss": 1.3724,
+      "loss/crossentropy": 2.327569842338562,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.2123243287205696,
+      "step": 523
+    },
+    {
+      "epoch": 0.009051727860838321,
+      "grad_norm": 0.345703125,
+      "grad_norm_var": 0.0006653944651285808,
+      "learning_rate": 0.01,
+      "loss": 1.484,
+      "loss/crossentropy": 2.4529794454574585,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.2642442062497139,
+      "step": 524
+    },
+    {
+      "epoch": 0.009069002150649081,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0006680647532145182,
+      "learning_rate": 0.01,
+      "loss": 1.3426,
+      "loss/crossentropy": 2.405073642730713,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24681153148412704,
+      "step": 525
+    },
+    {
+      "epoch": 0.009086276440459841,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0006830692291259766,
+      "learning_rate": 0.01,
+      "loss": 1.3501,
+      "loss/crossentropy": 2.5336978435516357,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.26675350964069366,
+      "step": 526
+    },
+    {
+      "epoch": 0.009103550730270601,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.00044960975646972655,
+      "learning_rate": 0.01,
+      "loss": 1.4051,
+      "loss/crossentropy": 2.306818962097168,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.24449439346790314,
+      "step": 527
+    },
+    {
+      "epoch": 0.009120825020081363,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.00044960975646972655,
+      "learning_rate": 0.01,
+      "loss": 1.3847,
+      "loss/crossentropy": 2.394535183906555,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2896339148283005,
+      "step": 528
+    },
+    {
+      "epoch": 0.009138099309892123,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.00044960975646972655,
+      "learning_rate": 0.01,
+      "loss": 1.383,
+      "loss/crossentropy": 2.502661347389221,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2570330798625946,
+      "step": 529
+    },
+    {
+      "epoch": 0.009155373599702882,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0004755655924479167,
+      "learning_rate": 0.01,
+      "loss": 1.3914,
+      "loss/crossentropy": 2.5401047468185425,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.25133057683706284,
+      "step": 530
+    },
+    {
+      "epoch": 0.009172647889513642,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.000457000732421875,
+      "learning_rate": 0.01,
+      "loss": 1.3288,
+      "loss/crossentropy": 2.357369303703308,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.25731976330280304,
+      "step": 531
+    },
+    {
+      "epoch": 0.009189922179324402,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0005107720692952474,
+      "learning_rate": 0.01,
+      "loss": 1.3301,
+      "loss/crossentropy": 2.361912250518799,
+      "loss/fcd": 1.03125,
+      "loss/logits": 0.23256495594978333,
+      "step": 532
+    },
+    {
+      "epoch": 0.009207196469135162,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0003574212392171224,
+      "learning_rate": 0.01,
+      "loss": 1.4286,
+      "loss/crossentropy": 2.5182912349700928,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.24184302985668182,
+      "step": 533
+    },
+    {
+      "epoch": 0.009224470758945922,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.00035564104715983075,
+      "learning_rate": 0.01,
+      "loss": 1.3729,
+      "loss/crossentropy": 2.3095160722732544,
+      "loss/fcd": 1.068359375,
+      "loss/logits": 0.22853360325098038,
+      "step": 534
+    },
+    {
+      "epoch": 0.009241745048756684,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.00034936269124348957,
+      "learning_rate": 0.01,
+      "loss": 1.4586,
+      "loss/crossentropy": 2.4540841579437256,
+      "loss/fcd": 1.26953125,
+      "loss/logits": 0.3655036687850952,
+      "step": 535
+    },
+    {
+      "epoch": 0.009259019338567443,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.0003513971964518229,
+      "learning_rate": 0.01,
+      "loss": 1.3534,
+      "loss/crossentropy": 2.350268244743347,
+      "loss/fcd": 1.02734375,
+      "loss/logits": 0.21084149181842804,
+      "step": 536
+    },
+    {
+      "epoch": 0.009276293628378203,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0003573099772135417,
+      "learning_rate": 0.01,
+      "loss": 1.4337,
+      "loss/crossentropy": 2.1304550170898438,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.2608063519001007,
+      "step": 537
+    },
+    {
+      "epoch": 0.009293567918188963,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.00033899943033854164,
+      "learning_rate": 0.01,
+      "loss": 1.3731,
+      "loss/crossentropy": 2.4391915798187256,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2429627627134323,
+      "step": 538
+    },
+    {
+      "epoch": 0.009310842207999723,
+      "grad_norm": 0.2490234375,
+      "grad_norm_var": 0.0004955569903055827,
+      "learning_rate": 0.01,
+      "loss": 1.3286,
+      "loss/crossentropy": 2.3171310424804688,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.2482328712940216,
+      "step": 539
+    },
+    {
+      "epoch": 0.009328116497810483,
+      "grad_norm": 0.34375,
+      "grad_norm_var": 0.0004833817481994629,
+      "learning_rate": 0.01,
+      "loss": 1.5811,
+      "loss/crossentropy": 2.376081347465515,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.25213149189949036,
+      "step": 540
+    },
+    {
+      "epoch": 0.009345390787621245,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0005142807960510254,
+      "learning_rate": 0.01,
+      "loss": 1.3856,
+      "loss/crossentropy": 2.4632989168167114,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.2334313914179802,
+      "step": 541
+    },
+    {
+      "epoch": 0.009362665077432004,
+      "grad_norm": 0.267578125,
+      "grad_norm_var": 0.0005667328834533692,
+      "learning_rate": 0.01,
+      "loss": 1.2882,
+      "loss/crossentropy": 2.177401542663574,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.24528680741786957,
+      "step": 542
+    },
+    {
+      "epoch": 0.009379939367242764,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005423506100972493,
+      "learning_rate": 0.01,
+      "loss": 1.4063,
+      "loss/crossentropy": 2.4587985277175903,
+      "loss/fcd": 1.22265625,
+      "loss/logits": 0.2990281730890274,
+      "step": 543
+    },
+    {
+      "epoch": 0.009397213657053524,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0005635221799214681,
+      "learning_rate": 0.01,
+      "loss": 1.3479,
+      "loss/crossentropy": 2.5811359882354736,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2688131481409073,
+      "step": 544
+    },
+    {
+      "epoch": 0.009414487946864284,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0004939039548238119,
+      "learning_rate": 0.01,
+      "loss": 1.3695,
+      "loss/crossentropy": 2.51469349861145,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.26591262221336365,
+      "step": 545
+    },
+    {
+      "epoch": 0.009431762236675044,
+      "grad_norm": 0.462890625,
+      "grad_norm_var": 0.002329091231028239,
+      "learning_rate": 0.01,
+      "loss": 1.3836,
+      "loss/crossentropy": 2.46504545211792,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.25862205028533936,
+      "step": 546
+    },
+    {
+      "epoch": 0.009449036526485806,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0023592273394266766,
+      "learning_rate": 0.01,
+      "loss": 1.3895,
+      "loss/crossentropy": 2.6220297813415527,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2548370361328125,
+      "step": 547
+    },
+    {
+      "epoch": 0.009466310816296565,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0023488322893778484,
+      "learning_rate": 0.01,
+      "loss": 1.3737,
+      "loss/crossentropy": 2.591723322868347,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.25868477672338486,
+      "step": 548
+    },
+    {
+      "epoch": 0.009483585106107325,
+      "grad_norm": 0.345703125,
+      "grad_norm_var": 0.0024718562761942547,
+      "learning_rate": 0.01,
+      "loss": 1.4328,
+      "loss/crossentropy": 2.568224310874939,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.278149738907814,
+      "step": 549
+    },
+    {
+      "epoch": 0.009500859395918085,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0024854302406311034,
+      "learning_rate": 0.01,
+      "loss": 1.4231,
+      "loss/crossentropy": 2.5823177099227905,
+      "loss/fcd": 1.25,
+      "loss/logits": 0.2855361998081207,
+      "step": 550
+    },
+    {
+      "epoch": 0.009518133685728845,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0025197307268778482,
+      "learning_rate": 0.01,
+      "loss": 1.3549,
+      "loss/crossentropy": 2.8035439252853394,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.26180362701416016,
+      "step": 551
+    },
+    {
+      "epoch": 0.009535407975539605,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0024581233660380046,
+      "learning_rate": 0.01,
+      "loss": 1.3912,
+      "loss/crossentropy": 2.695222020149231,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.26626719534397125,
+      "step": 552
+    },
+    {
+      "epoch": 0.009552682265350367,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.002452115217844645,
+      "learning_rate": 0.01,
+      "loss": 1.3884,
+      "loss/crossentropy": 2.2692904472351074,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.26358961313962936,
+      "step": 553
+    },
+    {
+      "epoch": 0.009569956555161126,
+      "grad_norm": 0.484375,
+      "grad_norm_var": 0.004515453179677328,
+      "learning_rate": 0.01,
+      "loss": 1.4362,
+      "loss/crossentropy": 2.587984561920166,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.28202252089977264,
+      "step": 554
+    },
+    {
+      "epoch": 0.009587230844971886,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.004301055272420248,
+      "learning_rate": 0.01,
+      "loss": 1.3332,
+      "loss/crossentropy": 2.238184094429016,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.25094330310821533,
+      "step": 555
+    },
+    {
+      "epoch": 0.009604505134782646,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.004252099990844726,
+      "learning_rate": 0.01,
+      "loss": 1.3777,
+      "loss/crossentropy": 2.2282315492630005,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.2441270500421524,
+      "step": 556
+    },
+    {
+      "epoch": 0.009621779424593406,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.004194132486979167,
+      "learning_rate": 0.01,
+      "loss": 1.3897,
+      "loss/crossentropy": 2.354749321937561,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.26998236775398254,
+      "step": 557
+    },
+    {
+      "epoch": 0.009639053714404166,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0040819803873697914,
+      "learning_rate": 0.01,
+      "loss": 1.4072,
+      "loss/crossentropy": 2.3754522800445557,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.27060529589653015,
+      "step": 558
+    },
+    {
+      "epoch": 0.009656328004214927,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0040383497873942055,
+      "learning_rate": 0.01,
+      "loss": 1.3777,
+      "loss/crossentropy": 2.3385682106018066,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.24154536426067352,
+      "step": 559
+    },
+    {
+      "epoch": 0.009673602294025687,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.00392297108968099,
+      "learning_rate": 0.01,
+      "loss": 1.4435,
+      "loss/crossentropy": 2.525418996810913,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.2767959535121918,
+      "step": 560
+    },
+    {
+      "epoch": 0.009690876583836447,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.003881438573201497,
+      "learning_rate": 0.01,
+      "loss": 1.3849,
+      "loss/crossentropy": 2.291569232940674,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.28253524005413055,
+      "step": 561
+    },
+    {
+      "epoch": 0.009708150873647207,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0024538675944010416,
+      "learning_rate": 0.01,
+      "loss": 1.3855,
+      "loss/crossentropy": 1.8735097646713257,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.186705082654953,
+      "step": 562
+    },
+    {
+      "epoch": 0.009725425163457967,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.002462625503540039,
+      "learning_rate": 0.01,
+      "loss": 1.3507,
+      "loss/crossentropy": 2.2446945905685425,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.23518769443035126,
+      "step": 563
+    },
+    {
+      "epoch": 0.009742699453268727,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.002405405044555664,
+      "learning_rate": 0.01,
+      "loss": 1.3812,
+      "loss/crossentropy": 1.9525874853134155,
+      "loss/fcd": 1.2421875,
+      "loss/logits": 0.19731061905622482,
+      "step": 564
+    },
+    {
+      "epoch": 0.009759973743079488,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.00233610471089681,
+      "learning_rate": 0.01,
+      "loss": 1.3995,
+      "loss/crossentropy": 2.53279709815979,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.27113981544971466,
+      "step": 565
+    },
+    {
+      "epoch": 0.009777248032890248,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0023889541625976562,
+      "learning_rate": 0.01,
+      "loss": 1.346,
+      "loss/crossentropy": 2.4163317680358887,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.26083898544311523,
+      "step": 566
+    },
+    {
+      "epoch": 0.009794522322701008,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.00232086181640625,
+      "learning_rate": 0.01,
+      "loss": 1.3419,
+      "loss/crossentropy": 2.4386374950408936,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2661859691143036,
+      "step": 567
+    },
+    {
+      "epoch": 0.009811796612511768,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0023355484008789062,
+      "learning_rate": 0.01,
+      "loss": 1.3659,
+      "loss/crossentropy": 2.509569525718689,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.263532429933548,
+      "step": 568
+    },
+    {
+      "epoch": 0.009829070902322528,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.00232086181640625,
+      "learning_rate": 0.01,
+      "loss": 1.434,
+      "loss/crossentropy": 2.400490880012512,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.24774880707263947,
+      "step": 569
+    },
+    {
+      "epoch": 0.009846345192133288,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0002483208974202474,
+      "learning_rate": 0.01,
+      "loss": 1.4385,
+      "loss/crossentropy": 2.390196442604065,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.2328876331448555,
+      "step": 570
+    },
+    {
+      "epoch": 0.009863619481944048,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.00023013750712076823,
+      "learning_rate": 0.01,
+      "loss": 1.3399,
+      "loss/crossentropy": 2.399609327316284,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2631242126226425,
+      "step": 571
+    },
+    {
+      "epoch": 0.00988089377175481,
+      "grad_norm": 0.388671875,
+      "grad_norm_var": 0.0006914774576822917,
+      "learning_rate": 0.01,
+      "loss": 1.4129,
+      "loss/crossentropy": 2.5639859437942505,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2520062252879143,
+      "step": 572
+    },
+    {
+      "epoch": 0.00989816806156557,
+      "grad_norm": 0.34765625,
+      "grad_norm_var": 0.000757280985514323,
+      "learning_rate": 0.01,
+      "loss": 1.4226,
+      "loss/crossentropy": 2.4615684747695923,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2613854482769966,
+      "step": 573
+    },
+    {
+      "epoch": 0.009915442351376329,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0007432142893473308,
+      "learning_rate": 0.01,
+      "loss": 1.4494,
+      "loss/crossentropy": 2.4410594701766968,
+      "loss/fcd": 1.1953125,
+      "loss/logits": 0.3067672997713089,
+      "step": 574
+    },
+    {
+      "epoch": 0.009932716641187089,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0007410685221354167,
+      "learning_rate": 0.01,
+      "loss": 1.4228,
+      "loss/crossentropy": 2.6319605112075806,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.24571086466312408,
+      "step": 575
+    },
+    {
+      "epoch": 0.009949990930997849,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0008020401000976562,
+      "learning_rate": 0.01,
+      "loss": 1.2951,
+      "loss/crossentropy": 2.368131637573242,
+      "loss/fcd": 1.03515625,
+      "loss/logits": 0.23180700838565826,
+      "step": 576
+    },
+    {
+      "epoch": 0.009967265220808609,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0008711338043212891,
+      "learning_rate": 0.01,
+      "loss": 1.3585,
+      "loss/crossentropy": 2.197615623474121,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.2364010065793991,
+      "step": 577
+    },
+    {
+      "epoch": 0.00998453951061937,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0008722782135009765,
+      "learning_rate": 0.01,
+      "loss": 1.3929,
+      "loss/crossentropy": 2.5560864210128784,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.25519636273384094,
+      "step": 578
+    },
+    {
+      "epoch": 0.01000181380043013,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0008318424224853516,
+      "learning_rate": 0.01,
+      "loss": 1.3903,
+      "loss/crossentropy": 2.290327787399292,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.242530919611454,
+      "step": 579
+    },
+    {
+      "epoch": 0.01001908809024089,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0008769830067952474,
+      "learning_rate": 0.01,
+      "loss": 1.3204,
+      "loss/crossentropy": 2.558402419090271,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.24013052880764008,
+      "step": 580
+    },
+    {
+      "epoch": 0.01003636238005165,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0008811791737874349,
+      "learning_rate": 0.01,
+      "loss": 1.3934,
+      "loss/crossentropy": 2.3049778938293457,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.24487978965044022,
+      "step": 581
+    },
+    {
+      "epoch": 0.01005363666986241,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0008811791737874349,
+      "learning_rate": 0.01,
+      "loss": 1.3844,
+      "loss/crossentropy": 2.5796691179275513,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2458028495311737,
+      "step": 582
+    },
+    {
+      "epoch": 0.01007091095967317,
+      "grad_norm": 0.330078125,
+      "grad_norm_var": 0.0009151299794514974,
+      "learning_rate": 0.01,
+      "loss": 1.4305,
+      "loss/crossentropy": 2.3386783599853516,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.24171485751867294,
+      "step": 583
+    },
+    {
+      "epoch": 0.010088185249483931,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0009124120076497396,
+      "learning_rate": 0.01,
+      "loss": 1.386,
+      "loss/crossentropy": 2.3040322065353394,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.25387245416641235,
+      "step": 584
+    },
+    {
+      "epoch": 0.010105459539294691,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0009125868479410807,
+      "learning_rate": 0.01,
+      "loss": 1.3622,
+      "loss/crossentropy": 3.012826681137085,
+      "loss/fcd": 1.21484375,
+      "loss/logits": 0.255868136882782,
+      "step": 585
+    },
+    {
+      "epoch": 0.010122733829105451,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0009113947550455729,
+      "learning_rate": 0.01,
+      "loss": 1.4032,
+      "loss/crossentropy": 2.7537986040115356,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.25436051189899445,
+      "step": 586
+    },
+    {
+      "epoch": 0.010140008118916211,
+      "grad_norm": 0.251953125,
+      "grad_norm_var": 0.001083230972290039,
+      "learning_rate": 0.01,
+      "loss": 1.3117,
+      "loss/crossentropy": 2.14433491230011,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24180641025304794,
+      "step": 587
+    },
+    {
+      "epoch": 0.01015728240872697,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.000574493408203125,
+      "learning_rate": 0.01,
+      "loss": 1.3691,
+      "loss/crossentropy": 2.101401686668396,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.19958080351352692,
+      "step": 588
+    },
+    {
+      "epoch": 0.01017455669853773,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.00040378570556640623,
+      "learning_rate": 0.01,
+      "loss": 1.3827,
+      "loss/crossentropy": 2.436479330062866,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.23494569957256317,
+      "step": 589
+    },
+    {
+      "epoch": 0.010191830988348492,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.00043892860412597656,
+      "learning_rate": 0.01,
+      "loss": 1.4279,
+      "loss/crossentropy": 2.6805481910705566,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2272372618317604,
+      "step": 590
+    },
+    {
+      "epoch": 0.010209105278159252,
+      "grad_norm": 0.263671875,
+      "grad_norm_var": 0.00048065185546875,
+      "learning_rate": 0.01,
+      "loss": 1.322,
+      "loss/crossentropy": 2.7796462774276733,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.26299113035202026,
+      "step": 591
+    },
+    {
+      "epoch": 0.010226379567970012,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.000478363037109375,
+      "learning_rate": 0.01,
+      "loss": 1.3396,
+      "loss/crossentropy": 2.4198944568634033,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2373996302485466,
+      "step": 592
+    },
+    {
+      "epoch": 0.010243653857780772,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00046634674072265625,
+      "learning_rate": 0.01,
+      "loss": 1.3618,
+      "loss/crossentropy": 2.5916903018951416,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.23520419746637344,
+      "step": 593
+    },
+    {
+      "epoch": 0.010260928147591532,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0004646142323811849,
+      "learning_rate": 0.01,
+      "loss": 1.4032,
+      "loss/crossentropy": 2.2067846059799194,
+      "loss/fcd": 1.05078125,
+      "loss/logits": 0.2392275035381317,
+      "step": 594
+    },
+    {
+      "epoch": 0.010278202437402292,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0004112084706624349,
+      "learning_rate": 0.01,
+      "loss": 1.3551,
+      "loss/crossentropy": 2.5146957635879517,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2572908252477646,
+      "step": 595
+    },
+    {
+      "epoch": 0.010295476727213053,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0004157861073811849,
+      "learning_rate": 0.01,
+      "loss": 1.4091,
+      "loss/crossentropy": 2.7353230714797974,
+      "loss/fcd": 1.1953125,
+      "loss/logits": 0.2845850735902786,
+      "step": 596
+    },
+    {
+      "epoch": 0.010312751017023813,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00041147867838541664,
+      "learning_rate": 0.01,
+      "loss": 1.4371,
+      "loss/crossentropy": 2.290863871574402,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.25596096366643906,
+      "step": 597
+    },
+    {
+      "epoch": 0.010330025306834573,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0003811995188395182,
+      "learning_rate": 0.01,
+      "loss": 1.3736,
+      "loss/crossentropy": 2.4351121187210083,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2633766904473305,
+      "step": 598
+    },
+    {
+      "epoch": 0.010347299596645333,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.000312042236328125,
+      "learning_rate": 0.01,
+      "loss": 1.3671,
+      "loss/crossentropy": 2.3196725845336914,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.23156649619340897,
+      "step": 599
+    },
+    {
+      "epoch": 0.010364573886456093,
+      "grad_norm": 0.267578125,
+      "grad_norm_var": 0.00036290486653645836,
+      "learning_rate": 0.01,
+      "loss": 1.3352,
+      "loss/crossentropy": 2.0654172897338867,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.23978617042303085,
+      "step": 600
+    },
+    {
+      "epoch": 0.010381848176266853,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.00035233497619628905,
+      "learning_rate": 0.01,
+      "loss": 1.3716,
+      "loss/crossentropy": 2.0811039805412292,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2653958946466446,
+      "step": 601
+    },
+    {
+      "epoch": 0.010399122466077614,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0003536065419514974,
+      "learning_rate": 0.01,
+      "loss": 1.3644,
+      "loss/crossentropy": 2.7797833681106567,
+      "loss/fcd": 1.2421875,
+      "loss/logits": 0.26879242062568665,
+      "step": 602
+    },
+    {
+      "epoch": 0.010416396755888374,
+      "grad_norm": 0.263671875,
+      "grad_norm_var": 0.0002975304921468099,
+      "learning_rate": 0.01,
+      "loss": 1.3323,
+      "loss/crossentropy": 2.2734681367874146,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.21455278247594833,
+      "step": 603
+    },
+    {
+      "epoch": 0.010433671045699134,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0002975304921468099,
+      "learning_rate": 0.01,
+      "loss": 1.3207,
+      "loss/crossentropy": 1.978046715259552,
+      "loss/fcd": 1.03515625,
+      "loss/logits": 0.23233170062303543,
+      "step": 604
+    },
+    {
+      "epoch": 0.010450945335509894,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0003051122029622396,
+      "learning_rate": 0.01,
+      "loss": 1.4169,
+      "loss/crossentropy": 2.5054962635040283,
+      "loss/fcd": 1.2265625,
+      "loss/logits": 0.2957670986652374,
+      "step": 605
+    },
+    {
+      "epoch": 0.010468219625320654,
+      "grad_norm": 0.359375,
+      "grad_norm_var": 0.0005370934804280598,
+      "learning_rate": 0.01,
+      "loss": 1.4294,
+      "loss/crossentropy": 2.5767931938171387,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.2684077024459839,
+      "step": 606
+    },
+    {
+      "epoch": 0.010485493915131414,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.00048039754231770835,
+      "learning_rate": 0.01,
+      "loss": 1.37,
+      "loss/crossentropy": 2.3274868726730347,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.23180848360061646,
+      "step": 607
+    },
+    {
+      "epoch": 0.010502768204942173,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0004983107248942057,
+      "learning_rate": 0.01,
+      "loss": 1.416,
+      "loss/crossentropy": 2.5422879457473755,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.223361574113369,
+      "step": 608
+    },
+    {
+      "epoch": 0.010520042494752935,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0005373636881510417,
+      "learning_rate": 0.01,
+      "loss": 1.3627,
+      "loss/crossentropy": 2.570125699043274,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.25247204303741455,
+      "step": 609
+    },
+    {
+      "epoch": 0.010537316784563695,
+      "grad_norm": 0.265625,
+      "grad_norm_var": 0.0006189823150634765,
+      "learning_rate": 0.01,
+      "loss": 1.316,
+      "loss/crossentropy": 2.2968589067459106,
+      "loss/fcd": 1.015625,
+      "loss/logits": 0.1994389146566391,
+      "step": 610
+    },
+    {
+      "epoch": 0.010554591074374455,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0006140232086181641,
+      "learning_rate": 0.01,
+      "loss": 1.4265,
+      "loss/crossentropy": 2.493618369102478,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2581065893173218,
+      "step": 611
+    },
+    {
+      "epoch": 0.010571865364185215,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.000604248046875,
+      "learning_rate": 0.01,
+      "loss": 1.4014,
+      "loss/crossentropy": 2.4227527379989624,
+      "loss/fcd": 1.19140625,
+      "loss/logits": 0.25313572585582733,
+      "step": 612
+    },
+    {
+      "epoch": 0.010589139653995975,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0005971272786458333,
+      "learning_rate": 0.01,
+      "loss": 1.3718,
+      "loss/crossentropy": 2.3819390535354614,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.22010967135429382,
+      "step": 613
+    },
+    {
+      "epoch": 0.010606413943806734,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.000598001480102539,
+      "learning_rate": 0.01,
+      "loss": 1.5079,
+      "loss/crossentropy": 2.190422534942627,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.24383512139320374,
+      "step": 614
+    },
+    {
+      "epoch": 0.010623688233617496,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.000598001480102539,
+      "learning_rate": 0.01,
+      "loss": 1.3733,
+      "loss/crossentropy": 2.5865895748138428,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24275009334087372,
+      "step": 615
+    },
+    {
+      "epoch": 0.010640962523428256,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005334854125976562,
+      "learning_rate": 0.01,
+      "loss": 1.3404,
+      "loss/crossentropy": 2.1975014209747314,
+      "loss/fcd": 1.046875,
+      "loss/logits": 0.2261335551738739,
+      "step": 616
+    },
+    {
+      "epoch": 0.010658236813239016,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.0005843480428059896,
+      "learning_rate": 0.01,
+      "loss": 1.4037,
+      "loss/crossentropy": 2.7723870277404785,
+      "loss/fcd": 1.234375,
+      "loss/logits": 0.2835993468761444,
+      "step": 617
+    },
+    {
+      "epoch": 0.010675511103049776,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0005884647369384765,
+      "learning_rate": 0.01,
+      "loss": 1.3625,
+      "loss/crossentropy": 2.599759817123413,
+      "loss/fcd": 1.1953125,
+      "loss/logits": 0.285232275724411,
+      "step": 618
+    },
+    {
+      "epoch": 0.010692785392860536,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0004821618398030599,
+      "learning_rate": 0.01,
+      "loss": 1.3733,
+      "loss/crossentropy": 2.4128291606903076,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.26694832742214203,
+      "step": 619
+    },
+    {
+      "epoch": 0.010710059682671295,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.00047651926676432293,
+      "learning_rate": 0.01,
+      "loss": 1.3343,
+      "loss/crossentropy": 2.5237722396850586,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.26433800160884857,
+      "step": 620
+    },
+    {
+      "epoch": 0.010727333972482057,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.0005385716756184896,
+      "learning_rate": 0.01,
+      "loss": 1.4112,
+      "loss/crossentropy": 2.317731261253357,
+      "loss/fcd": 1.2265625,
+      "loss/logits": 0.28476743400096893,
+      "step": 621
+    },
+    {
+      "epoch": 0.010744608262292817,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.0004234155019124349,
+      "learning_rate": 0.01,
+      "loss": 1.3603,
+      "loss/crossentropy": 2.3109618425369263,
+      "loss/fcd": 1.041015625,
+      "loss/logits": 0.2279675453901291,
+      "step": 622
+    },
+    {
+      "epoch": 0.010761882552103577,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.00044498443603515627,
+      "learning_rate": 0.01,
+      "loss": 1.3089,
+      "loss/crossentropy": 2.3984739780426025,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.25493185222148895,
+      "step": 623
+    },
+    {
+      "epoch": 0.010779156841914337,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0004232883453369141,
+      "learning_rate": 0.01,
+      "loss": 1.4079,
+      "loss/crossentropy": 2.1802881956100464,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.23454807698726654,
+      "step": 624
+    },
+    {
+      "epoch": 0.010796431131725097,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.00041599273681640624,
+      "learning_rate": 0.01,
+      "loss": 1.3629,
+      "loss/crossentropy": 2.6050442457199097,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.2245146408677101,
+      "step": 625
+    },
+    {
+      "epoch": 0.010813705421535856,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0003667036692301432,
+      "learning_rate": 0.01,
+      "loss": 1.3622,
+      "loss/crossentropy": 2.4274967908859253,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2685912102460861,
+      "step": 626
+    },
+    {
+      "epoch": 0.010830979711346618,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0003754774729410807,
+      "learning_rate": 0.01,
+      "loss": 1.4161,
+      "loss/crossentropy": 2.556549072265625,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2520214840769768,
+      "step": 627
+    },
+    {
+      "epoch": 0.010848254001157378,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0003949483235677083,
+      "learning_rate": 0.01,
+      "loss": 1.3802,
+      "loss/crossentropy": 2.2824164628982544,
+      "loss/fcd": 1.046875,
+      "loss/logits": 0.22343048453330994,
+      "step": 628
+    },
+    {
+      "epoch": 0.010865528290968138,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0004146416982014974,
+      "learning_rate": 0.01,
+      "loss": 1.3555,
+      "loss/crossentropy": 2.500080108642578,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.24835523962974548,
+      "step": 629
+    },
+    {
+      "epoch": 0.010882802580778898,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.00041631062825520836,
+      "learning_rate": 0.01,
+      "loss": 1.4,
+      "loss/crossentropy": 2.4014720916748047,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.236750990152359,
+      "step": 630
+    },
+    {
+      "epoch": 0.010900076870589658,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.00041286150614420575,
+      "learning_rate": 0.01,
+      "loss": 1.3707,
+      "loss/crossentropy": 2.3228918313980103,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.23406407982110977,
+      "step": 631
+    },
+    {
+      "epoch": 0.010917351160400417,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0004018147786458333,
+      "learning_rate": 0.01,
+      "loss": 1.3885,
+      "loss/crossentropy": 2.50198233127594,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.258284330368042,
+      "step": 632
+    },
+    {
+      "epoch": 0.010934625450211179,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0003524621327718099,
+      "learning_rate": 0.01,
+      "loss": 1.3978,
+      "loss/crossentropy": 2.637346863746643,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.28542736172676086,
+      "step": 633
+    },
+    {
+      "epoch": 0.010951899740021939,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.00033969879150390624,
+      "learning_rate": 0.01,
+      "loss": 1.4403,
+      "loss/crossentropy": 2.4110260009765625,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2651347145438194,
+      "step": 634
+    },
+    {
+      "epoch": 0.010969174029832699,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.000360870361328125,
+      "learning_rate": 0.01,
+      "loss": 1.4184,
+      "loss/crossentropy": 2.7041887044906616,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2508121207356453,
+      "step": 635
+    },
+    {
+      "epoch": 0.010986448319643459,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.00037713050842285155,
+      "learning_rate": 0.01,
+      "loss": 1.401,
+      "loss/crossentropy": 2.4663859605789185,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2824552655220032,
+      "step": 636
+    },
+    {
+      "epoch": 0.011003722609454218,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.0003279209136962891,
+      "learning_rate": 0.01,
+      "loss": 1.3728,
+      "loss/crossentropy": 2.5915483236312866,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24787750095129013,
+      "step": 637
+    },
+    {
+      "epoch": 0.011020996899264978,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.00029652913411458334,
+      "learning_rate": 0.01,
+      "loss": 1.3354,
+      "loss/crossentropy": 2.5775671005249023,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.26823610067367554,
+      "step": 638
+    },
+    {
+      "epoch": 0.01103827118907574,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.00025151570638020835,
+      "learning_rate": 0.01,
+      "loss": 1.3522,
+      "loss/crossentropy": 2.3462886810302734,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.23827192932367325,
+      "step": 639
+    },
+    {
+      "epoch": 0.0110555454788865,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.00025151570638020835,
+      "learning_rate": 0.01,
+      "loss": 1.4206,
+      "loss/crossentropy": 2.2796329855918884,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.24281439930200577,
+      "step": 640
+    },
+    {
+      "epoch": 0.01107281976869726,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.00021107991536458334,
+      "learning_rate": 0.01,
+      "loss": 1.4093,
+      "loss/crossentropy": 2.2618002891540527,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24219272285699844,
+      "step": 641
+    },
+    {
+      "epoch": 0.01109009405850802,
+      "grad_norm": 0.515625,
+      "grad_norm_var": 0.0030247847239176433,
+      "learning_rate": 0.01,
+      "loss": 1.5002,
+      "loss/crossentropy": 2.628837466239929,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.27036982774734497,
+      "step": 642
+    },
+    {
+      "epoch": 0.01110736834831878,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0030420303344726564,
+      "learning_rate": 0.01,
+      "loss": 1.3437,
+      "loss/crossentropy": 2.377197504043579,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.2347392812371254,
+      "step": 643
+    },
+    {
+      "epoch": 0.01112464263812954,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0030603885650634767,
+      "learning_rate": 0.01,
+      "loss": 1.3465,
+      "loss/crossentropy": 2.241411805152893,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.22135238349437714,
+      "step": 644
+    },
+    {
+      "epoch": 0.0111419169279403,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.00304563840230306,
+      "learning_rate": 0.01,
+      "loss": 1.3781,
+      "loss/crossentropy": 2.132224917411804,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.24958615005016327,
+      "step": 645
+    },
+    {
+      "epoch": 0.01115919121775106,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0030664443969726563,
+      "learning_rate": 0.01,
+      "loss": 1.3319,
+      "loss/crossentropy": 2.379546046257019,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.23225411772727966,
+      "step": 646
+    },
+    {
+      "epoch": 0.01117646550756182,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0031198501586914063,
+      "learning_rate": 0.01,
+      "loss": 1.3696,
+      "loss/crossentropy": 2.4151222705841064,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.25382500886917114,
+      "step": 647
+    },
+    {
+      "epoch": 0.01119373979737258,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0031198501586914063,
+      "learning_rate": 0.01,
+      "loss": 1.3725,
+      "loss/crossentropy": 2.4386223554611206,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24172081053256989,
+      "step": 648
+    },
+    {
+      "epoch": 0.01121101408718334,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.003135426839192708,
+      "learning_rate": 0.01,
+      "loss": 1.4136,
+      "loss/crossentropy": 2.4053245782852173,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2587142735719681,
+      "step": 649
+    },
+    {
+      "epoch": 0.0112282883769941,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0031352837880452475,
+      "learning_rate": 0.01,
+      "loss": 1.3908,
+      "loss/crossentropy": 2.8473496437072754,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.24620139598846436,
+      "step": 650
+    },
+    {
+      "epoch": 0.01124556266680486,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.003128496805826823,
+      "learning_rate": 0.01,
+      "loss": 1.346,
+      "loss/crossentropy": 2.4264625310897827,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.22718993574380875,
+      "step": 651
+    },
+    {
+      "epoch": 0.011262836956615622,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.003088871637980143,
+      "learning_rate": 0.01,
+      "loss": 1.3722,
+      "loss/crossentropy": 2.393033504486084,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2361084669828415,
+      "step": 652
+    },
+    {
+      "epoch": 0.011280111246426382,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0030968825022379557,
+      "learning_rate": 0.01,
+      "loss": 1.3962,
+      "loss/crossentropy": 2.5740654468536377,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.27814269065856934,
+      "step": 653
+    },
+    {
+      "epoch": 0.011297385536237142,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0030664443969726563,
+      "learning_rate": 0.01,
+      "loss": 1.3502,
+      "loss/crossentropy": 2.572822332382202,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.25307735800743103,
+      "step": 654
+    },
+    {
+      "epoch": 0.011314659826047901,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.003061676025390625,
+      "learning_rate": 0.01,
+      "loss": 1.3652,
+      "loss/crossentropy": 2.36893892288208,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.24310748279094696,
+      "step": 655
+    },
+    {
+      "epoch": 0.011331934115858661,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.003099505106608073,
+      "learning_rate": 0.01,
+      "loss": 1.382,
+      "loss/crossentropy": 2.453968048095703,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2507154792547226,
+      "step": 656
+    },
+    {
+      "epoch": 0.011349208405669421,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0030968825022379557,
+      "learning_rate": 0.01,
+      "loss": 1.4208,
+      "loss/crossentropy": 2.3706772327423096,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.2801935374736786,
+      "step": 657
+    },
+    {
+      "epoch": 0.011366482695480183,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 7.348060607910156e-05,
+      "learning_rate": 0.01,
+      "loss": 1.3745,
+      "loss/crossentropy": 2.3052316308021545,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.24023611843585968,
+      "step": 658
+    },
+    {
+      "epoch": 0.011383756985290943,
+      "grad_norm": 0.263671875,
+      "grad_norm_var": 0.00013184547424316406,
+      "learning_rate": 0.01,
+      "loss": 1.3589,
+      "loss/crossentropy": 2.3989150524139404,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.23345524072647095,
+      "step": 659
+    },
+    {
+      "epoch": 0.011401031275101703,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.000202178955078125,
+      "learning_rate": 0.01,
+      "loss": 1.4671,
+      "loss/crossentropy": 2.4908188581466675,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.22981490939855576,
+      "step": 660
+    },
+    {
+      "epoch": 0.011418305564912462,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.000232696533203125,
+      "learning_rate": 0.01,
+      "loss": 1.3845,
+      "loss/crossentropy": 2.182092070579529,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.22433090209960938,
+      "step": 661
+    },
+    {
+      "epoch": 0.011435579854723222,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.00023331642150878907,
+      "learning_rate": 0.01,
+      "loss": 1.3832,
+      "loss/crossentropy": 2.557218909263611,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.26849667727947235,
+      "step": 662
+    },
+    {
+      "epoch": 0.011452854144533982,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.0002688090006510417,
+      "learning_rate": 0.01,
+      "loss": 1.3516,
+      "loss/crossentropy": 2.4368367195129395,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.2600485235452652,
+      "step": 663
+    },
+    {
+      "epoch": 0.011470128434344744,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0002975304921468099,
+      "learning_rate": 0.01,
+      "loss": 1.3436,
+      "loss/crossentropy": 2.283419609069824,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2451685667037964,
+      "step": 664
+    },
+    {
+      "epoch": 0.011487402724155504,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0003295262654622396,
+      "learning_rate": 0.01,
+      "loss": 1.3917,
+      "loss/crossentropy": 2.2501282691955566,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.23817522078752518,
+      "step": 665
+    },
+    {
+      "epoch": 0.011504677013966264,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0003692468007405599,
+      "learning_rate": 0.01,
+      "loss": 1.3747,
+      "loss/crossentropy": 2.595417618751526,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.272259384393692,
+      "step": 666
+    },
+    {
+      "epoch": 0.011521951303777023,
+      "grad_norm": 0.263671875,
+      "grad_norm_var": 0.0004292170206705729,
+      "learning_rate": 0.01,
+      "loss": 1.3477,
+      "loss/crossentropy": 2.3635072708129883,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.24695640057325363,
+      "step": 667
+    },
+    {
+      "epoch": 0.011539225593587783,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0004246870676676432,
+      "learning_rate": 0.01,
+      "loss": 1.3744,
+      "loss/crossentropy": 2.310747981071472,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2579839900135994,
+      "step": 668
+    },
+    {
+      "epoch": 0.011556499883398543,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.00044193267822265623,
+      "learning_rate": 0.01,
+      "loss": 1.349,
+      "loss/crossentropy": 2.497538447380066,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.26720890402793884,
+      "step": 669
+    },
+    {
+      "epoch": 0.011573774173209305,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.00044960975646972655,
+      "learning_rate": 0.01,
+      "loss": 1.3475,
+      "loss/crossentropy": 2.5883569717407227,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.29579465091228485,
+      "step": 670
+    },
+    {
+      "epoch": 0.011591048463020065,
+      "grad_norm": 0.263671875,
+      "grad_norm_var": 0.0004998366038004557,
+      "learning_rate": 0.01,
+      "loss": 1.3349,
+      "loss/crossentropy": 2.2982797622680664,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.22655323147773743,
+      "step": 671
+    },
+    {
+      "epoch": 0.011608322752830825,
+      "grad_norm": 0.359375,
+      "grad_norm_var": 0.0007800896962483724,
+      "learning_rate": 0.01,
+      "loss": 1.3753,
+      "loss/crossentropy": 2.4650286436080933,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.24685797840356827,
+      "step": 672
+    },
+    {
+      "epoch": 0.011625597042641584,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0007897535959879557,
+      "learning_rate": 0.01,
+      "loss": 1.3429,
+      "loss/crossentropy": 2.5849392414093018,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2600446939468384,
+      "step": 673
+    },
+    {
+      "epoch": 0.011642871332452344,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0007954756418863932,
+      "learning_rate": 0.01,
+      "loss": 1.3721,
+      "loss/crossentropy": 2.4149436950683594,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.24952851235866547,
+      "step": 674
+    },
+    {
+      "epoch": 0.011660145622263104,
+      "grad_norm": 0.34765625,
+      "grad_norm_var": 0.0008959452311197917,
+      "learning_rate": 0.01,
+      "loss": 1.4752,
+      "loss/crossentropy": 2.582419753074646,
+      "loss/fcd": 1.2578125,
+      "loss/logits": 0.2812621593475342,
+      "step": 675
+    },
+    {
+      "epoch": 0.011677419912073864,
+      "grad_norm": 0.26171875,
+      "grad_norm_var": 0.0009247938791910808,
+      "learning_rate": 0.01,
+      "loss": 1.3666,
+      "loss/crossentropy": 2.3817840814590454,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.24483423680067062,
+      "step": 676
+    },
+    {
+      "epoch": 0.011694694201884626,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0008938948313395183,
+      "learning_rate": 0.01,
+      "loss": 1.3642,
+      "loss/crossentropy": 2.4791339635849,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.25220367312431335,
+      "step": 677
+    },
+    {
+      "epoch": 0.011711968491695385,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.0009230931599934895,
+      "learning_rate": 0.01,
+      "loss": 1.3435,
+      "loss/crossentropy": 2.3865939378738403,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24416129291057587,
+      "step": 678
+    },
+    {
+      "epoch": 0.011729242781506145,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0009215672810872396,
+      "learning_rate": 0.01,
+      "loss": 1.4158,
+      "loss/crossentropy": 2.514981508255005,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.27227045595645905,
+      "step": 679
+    },
+    {
+      "epoch": 0.011746517071316905,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0008992513020833333,
+      "learning_rate": 0.01,
+      "loss": 1.399,
+      "loss/crossentropy": 2.660152792930603,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.2607909142971039,
+      "step": 680
+    },
+    {
+      "epoch": 0.011763791361127665,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0008722305297851563,
+      "learning_rate": 0.01,
+      "loss": 1.4528,
+      "loss/crossentropy": 2.165284812450409,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.2606969401240349,
+      "step": 681
+    },
+    {
+      "epoch": 0.011781065650938425,
+      "grad_norm": 0.330078125,
+      "grad_norm_var": 0.0008966922760009766,
+      "learning_rate": 0.01,
+      "loss": 1.4402,
+      "loss/crossentropy": 2.719216465950012,
+      "loss/fcd": 1.21875,
+      "loss/logits": 0.274374857544899,
+      "step": 682
+    },
+    {
+      "epoch": 0.011798339940749187,
+      "grad_norm": 0.357421875,
+      "grad_norm_var": 0.0010416507720947266,
+      "learning_rate": 0.01,
+      "loss": 1.4226,
+      "loss/crossentropy": 2.405388355255127,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2703537493944168,
+      "step": 683
+    },
+    {
+      "epoch": 0.011815614230559946,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0010400772094726562,
+      "learning_rate": 0.01,
+      "loss": 1.4291,
+      "loss/crossentropy": 2.7011595964431763,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.25208880007267,
+      "step": 684
+    },
+    {
+      "epoch": 0.011832888520370706,
+      "grad_norm": 0.37109375,
+      "grad_norm_var": 0.0012689590454101562,
+      "learning_rate": 0.01,
+      "loss": 1.3541,
+      "loss/crossentropy": 2.5975828170776367,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.23054596036672592,
+      "step": 685
+    },
+    {
+      "epoch": 0.011850162810181466,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.001270278294881185,
+      "learning_rate": 0.01,
+      "loss": 1.3724,
+      "loss/crossentropy": 2.202287197113037,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.24445781856775284,
+      "step": 686
+    },
+    {
+      "epoch": 0.011867437099992226,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0011264642079671225,
+      "learning_rate": 0.01,
+      "loss": 1.3371,
+      "loss/crossentropy": 2.309388518333435,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.2442098781466484,
+      "step": 687
+    },
+    {
+      "epoch": 0.011884711389802986,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0009780248006184896,
+      "learning_rate": 0.01,
+      "loss": 1.3841,
+      "loss/crossentropy": 2.499300003051758,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.26171083748340607,
+      "step": 688
+    },
+    {
+      "epoch": 0.011901985679613748,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.0009480635325113932,
+      "learning_rate": 0.01,
+      "loss": 1.4675,
+      "loss/crossentropy": 2.35269558429718,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.2726883888244629,
+      "step": 689
+    },
+    {
+      "epoch": 0.011919259969424507,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.000909868876139323,
+      "learning_rate": 0.01,
+      "loss": 1.403,
+      "loss/crossentropy": 2.78786039352417,
+      "loss/fcd": 1.25390625,
+      "loss/logits": 0.3147393763065338,
+      "step": 690
+    },
+    {
+      "epoch": 0.011936534259235267,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0009186903635660808,
+      "learning_rate": 0.01,
+      "loss": 1.3294,
+      "loss/crossentropy": 2.0689194798469543,
+      "loss/fcd": 1.03515625,
+      "loss/logits": 0.234086312353611,
+      "step": 691
+    },
+    {
+      "epoch": 0.011953808549046027,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0007778008778889974,
+      "learning_rate": 0.01,
+      "loss": 1.3331,
+      "loss/crossentropy": 2.290665626525879,
+      "loss/fcd": 1.046875,
+      "loss/logits": 0.23476862162351608,
+      "step": 692
+    },
+    {
+      "epoch": 0.011971082838856787,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.0008422215779622396,
+      "learning_rate": 0.01,
+      "loss": 1.3703,
+      "loss/crossentropy": 2.4959352016448975,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.2350049912929535,
+      "step": 693
+    },
+    {
+      "epoch": 0.011988357128667547,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0007624308268229167,
+      "learning_rate": 0.01,
+      "loss": 1.3499,
+      "loss/crossentropy": 2.3858295679092407,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.2346876710653305,
+      "step": 694
+    },
+    {
+      "epoch": 0.012005631418478309,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0007703145345052083,
+      "learning_rate": 0.01,
+      "loss": 1.4174,
+      "loss/crossentropy": 2.5176814794540405,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2492477372288704,
+      "step": 695
+    },
+    {
+      "epoch": 0.012022905708289068,
+      "grad_norm": 0.365234375,
+      "grad_norm_var": 0.0009376366933186848,
+      "learning_rate": 0.01,
+      "loss": 1.4472,
+      "loss/crossentropy": 2.553426146507263,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.25825950503349304,
+      "step": 696
+    },
+    {
+      "epoch": 0.012040179998099828,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0009119510650634766,
+      "learning_rate": 0.01,
+      "loss": 1.3902,
+      "loss/crossentropy": 2.524499535560608,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2615286335349083,
+      "step": 697
+    },
+    {
+      "epoch": 0.012057454287910588,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.001028299331665039,
+      "learning_rate": 0.01,
+      "loss": 1.3468,
+      "loss/crossentropy": 2.234209656715393,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2630993127822876,
+      "step": 698
+    },
+    {
+      "epoch": 0.012074728577721348,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0009722232818603516,
+      "learning_rate": 0.01,
+      "loss": 1.3397,
+      "loss/crossentropy": 2.595862627029419,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.25720856338739395,
+      "step": 699
+    },
+    {
+      "epoch": 0.012092002867532108,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0009722232818603516,
+      "learning_rate": 0.01,
+      "loss": 1.3472,
+      "loss/crossentropy": 2.3556742668151855,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.23623445630073547,
+      "step": 700
+    },
+    {
+      "epoch": 0.01210927715734287,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0007013797760009766,
+      "learning_rate": 0.01,
+      "loss": 1.3728,
+      "loss/crossentropy": 2.286816358566284,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.24584627896547318,
+      "step": 701
+    },
+    {
+      "epoch": 0.01212655144715363,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0007274468739827474,
+      "learning_rate": 0.01,
+      "loss": 1.3878,
+      "loss/crossentropy": 2.2807174921035767,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.25587528198957443,
+      "step": 702
+    },
+    {
+      "epoch": 0.01214382573696439,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0007240136464436848,
+      "learning_rate": 0.01,
+      "loss": 1.3971,
+      "loss/crossentropy": 2.5250132083892822,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2833500802516937,
+      "step": 703
+    },
+    {
+      "epoch": 0.01216110002677515,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0007322788238525391,
+      "learning_rate": 0.01,
+      "loss": 1.3972,
+      "loss/crossentropy": 2.5938040018081665,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2679053843021393,
+      "step": 704
+    },
+    {
+      "epoch": 0.012178374316585909,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.000661468505859375,
+      "learning_rate": 0.01,
+      "loss": 1.3572,
+      "loss/crossentropy": 2.3809746503829956,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2514628916978836,
+      "step": 705
+    },
+    {
+      "epoch": 0.012195648606396669,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0005812168121337891,
+      "learning_rate": 0.01,
+      "loss": 1.3698,
+      "loss/crossentropy": 2.3113526105880737,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.24198968708515167,
+      "step": 706
+    },
+    {
+      "epoch": 0.01221292289620743,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0005541324615478515,
+      "learning_rate": 0.01,
+      "loss": 1.3485,
+      "loss/crossentropy": 2.465987205505371,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2991575300693512,
+      "step": 707
+    },
+    {
+      "epoch": 0.01223019718601819,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0005623976389567058,
+      "learning_rate": 0.01,
+      "loss": 1.3754,
+      "loss/crossentropy": 2.4940463304519653,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2627300024032593,
+      "step": 708
+    },
+    {
+      "epoch": 0.01224747147582895,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0005009810129801433,
+      "learning_rate": 0.01,
+      "loss": 1.378,
+      "loss/crossentropy": 2.6033318042755127,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2630281075835228,
+      "step": 709
+    },
+    {
+      "epoch": 0.01226474576563971,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0005177656809488932,
+      "learning_rate": 0.01,
+      "loss": 1.3969,
+      "loss/crossentropy": 2.218273878097534,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.23244468122720718,
+      "step": 710
+    },
+    {
+      "epoch": 0.01228202005545047,
+      "grad_norm": 0.3359375,
+      "grad_norm_var": 0.0005585829416910808,
+      "learning_rate": 0.01,
+      "loss": 1.4508,
+      "loss/crossentropy": 2.329068422317505,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.24251049757003784,
+      "step": 711
+    },
+    {
+      "epoch": 0.01229929434526123,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.00029511451721191405,
+      "learning_rate": 0.01,
+      "loss": 1.4497,
+      "loss/crossentropy": 2.4693063497543335,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.2587638199329376,
+      "step": 712
+    },
+    {
+      "epoch": 0.01231656863507199,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00029511451721191405,
+      "learning_rate": 0.01,
+      "loss": 1.371,
+      "loss/crossentropy": 2.4224281311035156,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.27352161705493927,
+      "step": 713
+    },
+    {
+      "epoch": 0.012333842924882751,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.00025577545166015624,
+      "learning_rate": 0.01,
+      "loss": 1.3508,
+      "loss/crossentropy": 2.5101382732391357,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.25151751190423965,
+      "step": 714
+    },
+    {
+      "epoch": 0.012351117214693511,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0002010186513264974,
+      "learning_rate": 0.01,
+      "loss": 1.3949,
+      "loss/crossentropy": 2.765409469604492,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.23425965011119843,
+      "step": 715
+    },
+    {
+      "epoch": 0.012368391504504271,
+      "grad_norm": 0.259765625,
+      "grad_norm_var": 0.0003284295399983724,
+      "learning_rate": 0.01,
+      "loss": 1.3346,
+      "loss/crossentropy": 2.446286678314209,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.23563802242279053,
+      "step": 716
+    },
+    {
+      "epoch": 0.012385665794315031,
+      "grad_norm": 0.365234375,
+      "grad_norm_var": 0.0005666097005208333,
+      "learning_rate": 0.01,
+      "loss": 1.485,
+      "loss/crossentropy": 2.3494917154312134,
+      "loss/fcd": 1.47265625,
+      "loss/logits": 0.2857535183429718,
+      "step": 717
+    },
+    {
+      "epoch": 0.01240294008412579,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0005729516347249349,
+      "learning_rate": 0.01,
+      "loss": 1.3814,
+      "loss/crossentropy": 2.3558719158172607,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.24474655091762543,
+      "step": 718
+    },
+    {
+      "epoch": 0.01242021437393655,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.000646209716796875,
+      "learning_rate": 0.01,
+      "loss": 1.3125,
+      "loss/crossentropy": 2.364332675933838,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.24612490087747574,
+      "step": 719
+    },
+    {
+      "epoch": 0.012437488663747312,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0006484826405843099,
+      "learning_rate": 0.01,
+      "loss": 1.3629,
+      "loss/crossentropy": 2.218404769897461,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.2676163464784622,
+      "step": 720
+    },
+    {
+      "epoch": 0.012454762953558072,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0007059574127197266,
+      "learning_rate": 0.01,
+      "loss": 1.3642,
+      "loss/crossentropy": 2.4319703578948975,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.25568731129169464,
+      "step": 721
+    },
+    {
+      "epoch": 0.012472037243368832,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.0007715702056884765,
+      "learning_rate": 0.01,
+      "loss": 1.3565,
+      "loss/crossentropy": 2.603386163711548,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.23648831248283386,
+      "step": 722
+    },
+    {
+      "epoch": 0.012489311533179592,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.000762033462524414,
+      "learning_rate": 0.01,
+      "loss": 1.4305,
+      "loss/crossentropy": 2.3345898389816284,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.2294597253203392,
+      "step": 723
+    },
+    {
+      "epoch": 0.012506585822990352,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0007692813873291015,
+      "learning_rate": 0.01,
+      "loss": 1.3885,
+      "loss/crossentropy": 2.315110445022583,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.262426495552063,
+      "step": 724
+    },
+    {
+      "epoch": 0.012523860112801112,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0007898807525634766,
+      "learning_rate": 0.01,
+      "loss": 1.2937,
+      "loss/crossentropy": 2.2987769842147827,
+      "loss/fcd": 1.0,
+      "loss/logits": 0.21975189447402954,
+      "step": 725
+    },
+    {
+      "epoch": 0.012541134402611873,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0007562637329101562,
+      "learning_rate": 0.01,
+      "loss": 1.3775,
+      "loss/crossentropy": 2.5773731470108032,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.29223839938640594,
+      "step": 726
+    },
+    {
+      "epoch": 0.012558408692422633,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0006650288899739584,
+      "learning_rate": 0.01,
+      "loss": 1.4041,
+      "loss/crossentropy": 2.138230562210083,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.24283046275377274,
+      "step": 727
+    },
+    {
+      "epoch": 0.012575682982233393,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.0007525126139322917,
+      "learning_rate": 0.01,
+      "loss": 1.4611,
+      "loss/crossentropy": 2.521793842315674,
+      "loss/fcd": 1.2265625,
+      "loss/logits": 0.2588220089673996,
+      "step": 728
+    },
+    {
+      "epoch": 0.012592957272044153,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0007710774739583333,
+      "learning_rate": 0.01,
+      "loss": 1.3833,
+      "loss/crossentropy": 2.5079206228256226,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.24896685779094696,
+      "step": 729
+    },
+    {
+      "epoch": 0.012610231561854913,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0007460912068684896,
+      "learning_rate": 0.01,
+      "loss": 1.398,
+      "loss/crossentropy": 2.4435055255889893,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.2766249179840088,
+      "step": 730
+    },
+    {
+      "epoch": 0.012627505851665673,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.0009387811024983724,
+      "learning_rate": 0.01,
+      "loss": 1.482,
+      "loss/crossentropy": 2.480614185333252,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.24479512870311737,
+      "step": 731
+    },
+    {
+      "epoch": 0.012644780141476434,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0008542219797770183,
+      "learning_rate": 0.01,
+      "loss": 1.3214,
+      "loss/crossentropy": 2.556125283241272,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.25190603733062744,
+      "step": 732
+    },
+    {
+      "epoch": 0.012662054431287194,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0006001631418863933,
+      "learning_rate": 0.01,
+      "loss": 1.3992,
+      "loss/crossentropy": 2.2440203428268433,
+      "loss/fcd": 1.046875,
+      "loss/logits": 0.23071999847888947,
+      "step": 733
+    },
+    {
+      "epoch": 0.012679328721097954,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005847771962483723,
+      "learning_rate": 0.01,
+      "loss": 1.3884,
+      "loss/crossentropy": 2.366842269897461,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2621122822165489,
+      "step": 734
+    },
+    {
+      "epoch": 0.012696603010908714,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005288283030192057,
+      "learning_rate": 0.01,
+      "loss": 1.373,
+      "loss/crossentropy": 2.528809905052185,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2601289302110672,
+      "step": 735
+    },
+    {
+      "epoch": 0.012713877300719474,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.0005879084269205729,
+      "learning_rate": 0.01,
+      "loss": 1.3657,
+      "loss/crossentropy": 2.1993446350097656,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.2357948124408722,
+      "step": 736
+    },
+    {
+      "epoch": 0.012731151590530234,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005395889282226562,
+      "learning_rate": 0.01,
+      "loss": 1.3611,
+      "loss/crossentropy": 2.5157347917556763,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2621786296367645,
+      "step": 737
+    },
+    {
+      "epoch": 0.012748425880340995,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.00045566558837890626,
+      "learning_rate": 0.01,
+      "loss": 1.3787,
+      "loss/crossentropy": 2.463285803794861,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2661950886249542,
+      "step": 738
+    },
+    {
+      "epoch": 0.012765700170151755,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.00044581095377604164,
+      "learning_rate": 0.01,
+      "loss": 1.3789,
+      "loss/crossentropy": 2.7613465785980225,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24063792079687119,
+      "step": 739
+    },
+    {
+      "epoch": 0.012782974459962515,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.0004956404368082683,
+      "learning_rate": 0.01,
+      "loss": 1.3809,
+      "loss/crossentropy": 2.3430649042129517,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.23180129379034042,
+      "step": 740
+    },
+    {
+      "epoch": 0.012800248749773275,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0004435062408447266,
+      "learning_rate": 0.01,
+      "loss": 1.3546,
+      "loss/crossentropy": 2.347190737724304,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.23613610118627548,
+      "step": 741
+    },
+    {
+      "epoch": 0.012817523039584035,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.00043320655822753906,
+      "learning_rate": 0.01,
+      "loss": 1.414,
+      "loss/crossentropy": 2.3196645975112915,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.27611708641052246,
+      "step": 742
+    },
+    {
+      "epoch": 0.012834797329394795,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0004990736643473308,
+      "learning_rate": 0.01,
+      "loss": 1.3861,
+      "loss/crossentropy": 2.4212803840637207,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2471313625574112,
+      "step": 743
+    },
+    {
+      "epoch": 0.012852071619205556,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0004806359608968099,
+      "learning_rate": 0.01,
+      "loss": 1.3723,
+      "loss/crossentropy": 2.527360200881958,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.24950604140758514,
+      "step": 744
+    },
+    {
+      "epoch": 0.012869345909016316,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0004750569661458333,
+      "learning_rate": 0.01,
+      "loss": 1.3461,
+      "loss/crossentropy": 2.2922967672348022,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.23927000910043716,
+      "step": 745
+    },
+    {
+      "epoch": 0.012886620198827076,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0004943688710530599,
+      "learning_rate": 0.01,
+      "loss": 1.3785,
+      "loss/crossentropy": 2.133127212524414,
+      "loss/fcd": 1.078125,
+      "loss/logits": 0.23443202674388885,
+      "step": 746
+    },
+    {
+      "epoch": 0.012903894488637836,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.000366973876953125,
+      "learning_rate": 0.01,
+      "loss": 1.387,
+      "loss/crossentropy": 2.569379210472107,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.26725105941295624,
+      "step": 747
+    },
+    {
+      "epoch": 0.012921168778448596,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.00033238728841145836,
+      "learning_rate": 0.01,
+      "loss": 1.4185,
+      "loss/crossentropy": 2.6103577613830566,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.27920565009117126,
+      "step": 748
+    },
+    {
+      "epoch": 0.012938443068259356,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00032145182291666666,
+      "learning_rate": 0.01,
+      "loss": 1.4161,
+      "loss/crossentropy": 2.3525288105010986,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.21820923686027527,
+      "step": 749
+    },
+    {
+      "epoch": 0.012955717358070115,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0003083388010660807,
+      "learning_rate": 0.01,
+      "loss": 1.3429,
+      "loss/crossentropy": 2.563652276992798,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.25008824467658997,
+      "step": 750
+    },
+    {
+      "epoch": 0.012972991647880877,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.00033416748046875,
+      "learning_rate": 0.01,
+      "loss": 1.3992,
+      "loss/crossentropy": 2.4368664026260376,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2636963874101639,
+      "step": 751
+    },
+    {
+      "epoch": 0.012990265937691637,
+      "grad_norm": 0.267578125,
+      "grad_norm_var": 0.00034173329671223957,
+      "learning_rate": 0.01,
+      "loss": 1.3548,
+      "loss/crossentropy": 2.47409451007843,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.26615823060274124,
+      "step": 752
+    },
+    {
+      "epoch": 0.013007540227502397,
+      "grad_norm": 0.390625,
+      "grad_norm_var": 0.0008442560831705729,
+      "learning_rate": 0.01,
+      "loss": 1.4382,
+      "loss/crossentropy": 2.667958378791809,
+      "loss/fcd": 1.22265625,
+      "loss/logits": 0.29826460778713226,
+      "step": 753
+    },
+    {
+      "epoch": 0.013024814517313157,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0008722941080729166,
+      "learning_rate": 0.01,
+      "loss": 1.3857,
+      "loss/crossentropy": 2.2399171590805054,
+      "loss/fcd": 1.30078125,
+      "loss/logits": 0.3064821809530258,
+      "step": 754
+    },
+    {
+      "epoch": 0.013042088807123917,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0008643945058186849,
+      "learning_rate": 0.01,
+      "loss": 1.4191,
+      "loss/crossentropy": 2.4244364500045776,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.2772462069988251,
+      "step": 755
+    },
+    {
+      "epoch": 0.013059363096934676,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.000800323486328125,
+      "learning_rate": 0.01,
+      "loss": 1.3482,
+      "loss/crossentropy": 2.6471344232559204,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2606939375400543,
+      "step": 756
+    },
+    {
+      "epoch": 0.013076637386745438,
+      "grad_norm": 0.345703125,
+      "grad_norm_var": 0.000935220718383789,
+      "learning_rate": 0.01,
+      "loss": 1.4094,
+      "loss/crossentropy": 2.4318645000457764,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.2657194063067436,
+      "step": 757
+    },
+    {
+      "epoch": 0.013093911676556198,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0009119510650634766,
+      "learning_rate": 0.01,
+      "loss": 1.4882,
+      "loss/crossentropy": 2.6587414741516113,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.25396668910980225,
+      "step": 758
+    },
+    {
+      "epoch": 0.013111185966366958,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0008859634399414062,
+      "learning_rate": 0.01,
+      "loss": 1.3734,
+      "loss/crossentropy": 2.320420742034912,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.22045490145683289,
+      "step": 759
+    },
+    {
+      "epoch": 0.013128460256177718,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0008935928344726562,
+      "learning_rate": 0.01,
+      "loss": 1.4048,
+      "loss/crossentropy": 2.43363881111145,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2532464414834976,
+      "step": 760
+    },
+    {
+      "epoch": 0.013145734545988478,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0009287357330322266,
+      "learning_rate": 0.01,
+      "loss": 1.3617,
+      "loss/crossentropy": 2.5222312211990356,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.29095427691936493,
+      "step": 761
+    },
+    {
+      "epoch": 0.013163008835799237,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0009198347727457682,
+      "learning_rate": 0.01,
+      "loss": 1.3893,
+      "loss/crossentropy": 2.265801191329956,
+      "loss/fcd": 1.02734375,
+      "loss/logits": 0.23643554002046585,
+      "step": 762
+    },
+    {
+      "epoch": 0.013180283125609999,
+      "grad_norm": 0.390625,
+      "grad_norm_var": 0.0013386885325113933,
+      "learning_rate": 0.01,
+      "loss": 1.4154,
+      "loss/crossentropy": 2.1754260063171387,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.244869664311409,
+      "step": 763
+    },
+    {
+      "epoch": 0.013197557415420759,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.001320330301920573,
+      "learning_rate": 0.01,
+      "loss": 1.3947,
+      "loss/crossentropy": 2.3228635787963867,
+      "loss/fcd": 1.03515625,
+      "loss/logits": 0.22359148412942886,
+      "step": 764
+    },
+    {
+      "epoch": 0.013214831705231519,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0013203938802083333,
+      "learning_rate": 0.01,
+      "loss": 1.4051,
+      "loss/crossentropy": 2.5446053743362427,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.24661505222320557,
+      "step": 765
+    },
+    {
+      "epoch": 0.013232105995042279,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0013085524241129556,
+      "learning_rate": 0.01,
+      "loss": 1.4116,
+      "loss/crossentropy": 2.4046772718429565,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.26322653889656067,
+      "step": 766
+    },
+    {
+      "epoch": 0.013249380284853039,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.00127714474995931,
+      "learning_rate": 0.01,
+      "loss": 1.3094,
+      "loss/crossentropy": 2.397523880004883,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.2391202375292778,
+      "step": 767
+    },
+    {
+      "epoch": 0.013266654574663798,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0012049357096354167,
+      "learning_rate": 0.01,
+      "loss": 1.3474,
+      "loss/crossentropy": 2.599183440208435,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2888915240764618,
+      "step": 768
+    },
+    {
+      "epoch": 0.01328392886447456,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.0009141127268473307,
+      "learning_rate": 0.01,
+      "loss": 1.4331,
+      "loss/crossentropy": 2.1059322357177734,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.23741237819194794,
+      "step": 769
+    },
+    {
+      "epoch": 0.01330120315428532,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0008471171061197917,
+      "learning_rate": 0.01,
+      "loss": 1.3643,
+      "loss/crossentropy": 2.697718620300293,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.26706932485103607,
+      "step": 770
+    },
+    {
+      "epoch": 0.01331847744409608,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0008389631907145183,
+      "learning_rate": 0.01,
+      "loss": 1.45,
+      "loss/crossentropy": 2.4075610637664795,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.25129370391368866,
+      "step": 771
+    },
+    {
+      "epoch": 0.01333575173390684,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0008669535319010417,
+      "learning_rate": 0.01,
+      "loss": 1.3877,
+      "loss/crossentropy": 2.7534801959991455,
+      "loss/fcd": 1.23828125,
+      "loss/logits": 0.30193065106868744,
+      "step": 772
+    },
+    {
+      "epoch": 0.0133530260237176,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0008176008860270183,
+      "learning_rate": 0.01,
+      "loss": 1.3939,
+      "loss/crossentropy": 2.182551383972168,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.28344330191612244,
+      "step": 773
+    },
+    {
+      "epoch": 0.01337030031352836,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.000862741470336914,
+      "learning_rate": 0.01,
+      "loss": 1.412,
+      "loss/crossentropy": 2.510794520378113,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.25014493614435196,
+      "step": 774
+    },
+    {
+      "epoch": 0.013387574603339121,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.000925445556640625,
+      "learning_rate": 0.01,
+      "loss": 1.4564,
+      "loss/crossentropy": 2.479841709136963,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.25105684995651245,
+      "step": 775
+    },
+    {
+      "epoch": 0.013404848893149881,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0009211063385009766,
+      "learning_rate": 0.01,
+      "loss": 1.3963,
+      "loss/crossentropy": 2.639458417892456,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2490757405757904,
+      "step": 776
+    },
+    {
+      "epoch": 0.01342212318296064,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0008683363596598307,
+      "learning_rate": 0.01,
+      "loss": 1.4124,
+      "loss/crossentropy": 2.6080870628356934,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.24069885909557343,
+      "step": 777
+    },
+    {
+      "epoch": 0.0134393974727714,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0008681615193684896,
+      "learning_rate": 0.01,
+      "loss": 1.3733,
+      "loss/crossentropy": 2.3055442571640015,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.2517802268266678,
+      "step": 778
+    },
+    {
+      "epoch": 0.01345667176258216,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00043328603108723957,
+      "learning_rate": 0.01,
+      "loss": 1.4781,
+      "loss/crossentropy": 2.5537742376327515,
+      "loss/fcd": 1.26953125,
+      "loss/logits": 0.30602647364139557,
+      "step": 779
+    },
+    {
+      "epoch": 0.01347394605239292,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0004603068033854167,
+      "learning_rate": 0.01,
+      "loss": 1.3961,
+      "loss/crossentropy": 2.371378183364868,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.24987629055976868,
+      "step": 780
+    },
+    {
+      "epoch": 0.013491220342203682,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.00048267046610514324,
+      "learning_rate": 0.01,
+      "loss": 1.3782,
+      "loss/crossentropy": 2.570296287536621,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.22898489236831665,
+      "step": 781
+    },
+    {
+      "epoch": 0.013508494632014442,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0004997094472249349,
+      "learning_rate": 0.01,
+      "loss": 1.3685,
+      "loss/crossentropy": 2.282141923904419,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.2274707406759262,
+      "step": 782
+    },
+    {
+      "epoch": 0.013525768921825202,
+      "grad_norm": 0.349609375,
+      "grad_norm_var": 0.0005658308664957683,
+      "learning_rate": 0.01,
+      "loss": 1.41,
+      "loss/crossentropy": 2.378341317176819,
+      "loss/fcd": 1.21484375,
+      "loss/logits": 0.3016776442527771,
+      "step": 783
+    },
+    {
+      "epoch": 0.013543043211635962,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0005829970041910808,
+      "learning_rate": 0.01,
+      "loss": 1.3398,
+      "loss/crossentropy": 2.6982511281967163,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.23673634231090546,
+      "step": 784
+    },
+    {
+      "epoch": 0.013560317501446722,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.00046126047770182293,
+      "learning_rate": 0.01,
+      "loss": 1.3964,
+      "loss/crossentropy": 2.371803879737854,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.23621678352355957,
+      "step": 785
+    },
+    {
+      "epoch": 0.013577591791257481,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.00047771135965983075,
+      "learning_rate": 0.01,
+      "loss": 1.3296,
+      "loss/crossentropy": 2.3509960174560547,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.23912984877824783,
+      "step": 786
+    },
+    {
+      "epoch": 0.013594866081068241,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0005536397298177083,
+      "learning_rate": 0.01,
+      "loss": 1.3796,
+      "loss/crossentropy": 2.4273725748062134,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2564089596271515,
+      "step": 787
+    },
+    {
+      "epoch": 0.013612140370879003,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0005254109700520833,
+      "learning_rate": 0.01,
+      "loss": 1.3708,
+      "loss/crossentropy": 2.4844895601272583,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24952378869056702,
+      "step": 788
+    },
+    {
+      "epoch": 0.013629414660689763,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0005256493886311848,
+      "learning_rate": 0.01,
+      "loss": 1.412,
+      "loss/crossentropy": 2.415653347969055,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2528124749660492,
+      "step": 789
+    },
+    {
+      "epoch": 0.013646688950500523,
+      "grad_norm": 0.390625,
+      "grad_norm_var": 0.0008763472239176432,
+      "learning_rate": 0.01,
+      "loss": 1.4382,
+      "loss/crossentropy": 2.4079452753067017,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.2838260903954506,
+      "step": 790
+    },
+    {
+      "epoch": 0.013663963240311282,
+      "grad_norm": 0.328125,
+      "grad_norm_var": 0.0008465925852457683,
+      "learning_rate": 0.01,
+      "loss": 1.446,
+      "loss/crossentropy": 2.3247077465057373,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2550275847315788,
+      "step": 791
+    },
+    {
+      "epoch": 0.013681237530122042,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0008462905883789062,
+      "learning_rate": 0.01,
+      "loss": 1.3615,
+      "loss/crossentropy": 2.1464229822158813,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.25474052131175995,
+      "step": 792
+    },
+    {
+      "epoch": 0.013698511819932802,
+      "grad_norm": 0.361328125,
+      "grad_norm_var": 0.0009821414947509765,
+      "learning_rate": 0.01,
+      "loss": 1.4535,
+      "loss/crossentropy": 2.4427038431167603,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.2672760635614395,
+      "step": 793
+    },
+    {
+      "epoch": 0.013715786109743564,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.00098114013671875,
+      "learning_rate": 0.01,
+      "loss": 1.4375,
+      "loss/crossentropy": 2.502182126045227,
+      "loss/fcd": 1.203125,
+      "loss/logits": 0.30062489211559296,
+      "step": 794
+    },
+    {
+      "epoch": 0.013733060399554324,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0010176976521809897,
+      "learning_rate": 0.01,
+      "loss": 1.3338,
+      "loss/crossentropy": 2.537824034690857,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.24768686294555664,
+      "step": 795
+    },
+    {
+      "epoch": 0.013750334689365084,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.0011388142903645834,
+      "learning_rate": 0.01,
+      "loss": 1.3676,
+      "loss/crossentropy": 2.3750780820846558,
+      "loss/fcd": 1.076171875,
+      "loss/logits": 0.23160798847675323,
+      "step": 796
+    },
+    {
+      "epoch": 0.013767608979175843,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.001122903823852539,
+      "learning_rate": 0.01,
+      "loss": 1.3812,
+      "loss/crossentropy": 2.628328800201416,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2566673457622528,
+      "step": 797
+    },
+    {
+      "epoch": 0.013784883268986603,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.0012051900227864583,
+      "learning_rate": 0.01,
+      "loss": 1.3547,
+      "loss/crossentropy": 2.0953266620635986,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.23933346569538116,
+      "step": 798
+    },
+    {
+      "epoch": 0.013802157558797363,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0011489232381184896,
+      "learning_rate": 0.01,
+      "loss": 1.4166,
+      "loss/crossentropy": 2.7266474962234497,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2656974792480469,
+      "step": 799
+    },
+    {
+      "epoch": 0.013819431848608125,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0010843912760416666,
+      "learning_rate": 0.01,
+      "loss": 1.3191,
+      "loss/crossentropy": 2.459654688835144,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.2644665837287903,
+      "step": 800
+    },
+    {
+      "epoch": 0.013836706138418885,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0010843912760416666,
+      "learning_rate": 0.01,
+      "loss": 1.4278,
+      "loss/crossentropy": 2.629300117492676,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.24821807444095612,
+      "step": 801
+    },
+    {
+      "epoch": 0.013853980428229645,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0010678609212239583,
+      "learning_rate": 0.01,
+      "loss": 1.3413,
+      "loss/crossentropy": 2.5803698301315308,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.267608180642128,
+      "step": 802
+    },
+    {
+      "epoch": 0.013871254718040404,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0010577996571858725,
+      "learning_rate": 0.01,
+      "loss": 1.3176,
+      "loss/crossentropy": 2.349183440208435,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.25479844957590103,
+      "step": 803
+    },
+    {
+      "epoch": 0.013888529007851164,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0010577996571858725,
+      "learning_rate": 0.01,
+      "loss": 1.3783,
+      "loss/crossentropy": 2.618894100189209,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.2711791917681694,
+      "step": 804
+    },
+    {
+      "epoch": 0.013905803297661924,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0010577996571858725,
+      "learning_rate": 0.01,
+      "loss": 1.3966,
+      "loss/crossentropy": 2.3134875893592834,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2539241313934326,
+      "step": 805
+    },
+    {
+      "epoch": 0.013923077587472686,
+      "grad_norm": 0.330078125,
+      "grad_norm_var": 0.0006611506144205729,
+      "learning_rate": 0.01,
+      "loss": 1.441,
+      "loss/crossentropy": 2.837363600730896,
+      "loss/fcd": 1.2578125,
+      "loss/logits": 0.32089151442050934,
+      "step": 806
+    },
+    {
+      "epoch": 0.013940351877283446,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0006586074829101563,
+      "learning_rate": 0.01,
+      "loss": 1.3525,
+      "loss/crossentropy": 2.377834916114807,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.23237647861242294,
+      "step": 807
+    },
+    {
+      "epoch": 0.013957626167094206,
+      "grad_norm": 0.271484375,
+      "grad_norm_var": 0.0007306416829427083,
+      "learning_rate": 0.01,
+      "loss": 1.3753,
+      "loss/crossentropy": 2.520345091819763,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.26999618113040924,
+      "step": 808
+    },
+    {
+      "epoch": 0.013974900456904965,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0005376180013020833,
+      "learning_rate": 0.01,
+      "loss": 1.3425,
+      "loss/crossentropy": 2.55434787273407,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.26515287160873413,
+      "step": 809
+    },
+    {
+      "epoch": 0.013992174746715725,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0005302270253499349,
+      "learning_rate": 0.01,
+      "loss": 1.405,
+      "loss/crossentropy": 2.320609927177429,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2443319857120514,
+      "step": 810
+    },
+    {
+      "epoch": 0.014009449036526485,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0005451043446858724,
+      "learning_rate": 0.01,
+      "loss": 1.3608,
+      "loss/crossentropy": 2.3824050426483154,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2653844952583313,
+      "step": 811
+    },
+    {
+      "epoch": 0.014026723326337247,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0005200703938802084,
+      "learning_rate": 0.01,
+      "loss": 1.4786,
+      "loss/crossentropy": 2.459092617034912,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.2695985734462738,
+      "step": 812
+    },
+    {
+      "epoch": 0.014043997616148007,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.0005698998769124349,
+      "learning_rate": 0.01,
+      "loss": 1.2888,
+      "loss/crossentropy": 2.4817110300064087,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.22882136702537537,
+      "step": 813
+    },
+    {
+      "epoch": 0.014061271905958767,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0003539880116780599,
+      "learning_rate": 0.01,
+      "loss": 1.3681,
+      "loss/crossentropy": 2.556985020637512,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.25683027505874634,
+      "step": 814
+    },
+    {
+      "epoch": 0.014078546195769526,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0003661473592122396,
+      "learning_rate": 0.01,
+      "loss": 1.4285,
+      "loss/crossentropy": 2.3824613094329834,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24755095690488815,
+      "step": 815
+    },
+    {
+      "epoch": 0.014095820485580286,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00038094520568847655,
+      "learning_rate": 0.01,
+      "loss": 1.3345,
+      "loss/crossentropy": 2.1579148173332214,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.23608000576496124,
+      "step": 816
+    },
+    {
+      "epoch": 0.014113094775391046,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0004091739654541016,
+      "learning_rate": 0.01,
+      "loss": 1.42,
+      "loss/crossentropy": 2.556256413459778,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.23912374675273895,
+      "step": 817
+    },
+    {
+      "epoch": 0.014130369065201808,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.00040879249572753904,
+      "learning_rate": 0.01,
+      "loss": 1.4296,
+      "loss/crossentropy": 2.497371554374695,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.24960072338581085,
+      "step": 818
+    },
+    {
+      "epoch": 0.014147643355012568,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.000379180908203125,
+      "learning_rate": 0.01,
+      "loss": 1.4164,
+      "loss/crossentropy": 2.6055017709732056,
+      "loss/fcd": 1.24609375,
+      "loss/logits": 0.30321623384952545,
+      "step": 819
+    },
+    {
+      "epoch": 0.014164917644823328,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.00041667620340983075,
+      "learning_rate": 0.01,
+      "loss": 1.3435,
+      "loss/crossentropy": 2.520479202270508,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.24647565186023712,
+      "step": 820
+    },
+    {
+      "epoch": 0.014182191934634087,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.00037789344787597656,
+      "learning_rate": 0.01,
+      "loss": 1.4303,
+      "loss/crossentropy": 2.4229378700256348,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.27616265416145325,
+      "step": 821
+    },
+    {
+      "epoch": 0.014199466224444847,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.00028634071350097656,
+      "learning_rate": 0.01,
+      "loss": 1.4063,
+      "loss/crossentropy": 2.642806649208069,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24927609413862228,
+      "step": 822
+    },
+    {
+      "epoch": 0.014216740514255607,
+      "grad_norm": 0.341796875,
+      "grad_norm_var": 0.00044040679931640626,
+      "learning_rate": 0.01,
+      "loss": 1.4389,
+      "loss/crossentropy": 2.743402600288391,
+      "loss/fcd": 1.20703125,
+      "loss/logits": 0.2956629917025566,
+      "step": 823
+    },
+    {
+      "epoch": 0.014234014804066367,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.00040079752604166665,
+      "learning_rate": 0.01,
+      "loss": 1.4283,
+      "loss/crossentropy": 2.5851320028305054,
+      "loss/fcd": 1.20703125,
+      "loss/logits": 0.26086658239364624,
+      "step": 824
+    },
+    {
+      "epoch": 0.014251289093877129,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0003787835439046224,
+      "learning_rate": 0.01,
+      "loss": 1.3569,
+      "loss/crossentropy": 2.5595767498016357,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.24868559837341309,
+      "step": 825
+    },
+    {
+      "epoch": 0.014268563383687888,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0003745873769124349,
+      "learning_rate": 0.01,
+      "loss": 1.3698,
+      "loss/crossentropy": 2.553021550178528,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.25030215084552765,
+      "step": 826
+    },
+    {
+      "epoch": 0.014285837673498648,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0003688653310139974,
+      "learning_rate": 0.01,
+      "loss": 1.3934,
+      "loss/crossentropy": 2.459465980529785,
+      "loss/fcd": 1.2578125,
+      "loss/logits": 0.27228477597236633,
+      "step": 827
+    },
+    {
+      "epoch": 0.014303111963309408,
+      "grad_norm": 0.373046875,
+      "grad_norm_var": 0.0006812890370686849,
+      "learning_rate": 0.01,
+      "loss": 1.403,
+      "loss/crossentropy": 2.5050086975097656,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.2527881860733032,
+      "step": 828
+    },
+    {
+      "epoch": 0.014320386253120168,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0006002902984619141,
+      "learning_rate": 0.01,
+      "loss": 1.4282,
+      "loss/crossentropy": 2.5587570667266846,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2506961077451706,
+      "step": 829
+    },
+    {
+      "epoch": 0.014337660542930928,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.000600433349609375,
+      "learning_rate": 0.01,
+      "loss": 1.3663,
+      "loss/crossentropy": 2.433290719985962,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.23105743527412415,
+      "step": 830
+    },
+    {
+      "epoch": 0.01435493483274169,
+      "grad_norm": 0.345703125,
+      "grad_norm_var": 0.0006985823313395182,
+      "learning_rate": 0.01,
+      "loss": 1.4033,
+      "loss/crossentropy": 2.2913233041763306,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2715977430343628,
+      "step": 831
+    },
+    {
+      "epoch": 0.01437220912255245,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0007214864095052083,
+      "learning_rate": 0.01,
+      "loss": 1.3672,
+      "loss/crossentropy": 2.4408832788467407,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.23768731951713562,
+      "step": 832
+    },
+    {
+      "epoch": 0.01438948341236321,
+      "grad_norm": 0.3515625,
+      "grad_norm_var": 0.0008374532063802083,
+      "learning_rate": 0.01,
+      "loss": 1.3927,
+      "loss/crossentropy": 2.273505926132202,
+      "loss/fcd": 1.05078125,
+      "loss/logits": 0.2371639683842659,
+      "step": 833
+    },
+    {
+      "epoch": 0.01440675770217397,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0008224328358968099,
+      "learning_rate": 0.01,
+      "loss": 1.4174,
+      "loss/crossentropy": 2.304438829421997,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2705874443054199,
+      "step": 834
+    },
+    {
+      "epoch": 0.014424031991984729,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0008061091105143229,
+      "learning_rate": 0.01,
+      "loss": 1.413,
+      "loss/crossentropy": 2.4857107400894165,
+      "loss/fcd": 1.265625,
+      "loss/logits": 0.2602947950363159,
+      "step": 835
+    },
+    {
+      "epoch": 0.014441306281795489,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.0007237116495768229,
+      "learning_rate": 0.01,
+      "loss": 1.4423,
+      "loss/crossentropy": 2.4861044883728027,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.25615356862545013,
+      "step": 836
+    },
+    {
+      "epoch": 0.01445858057160625,
+      "grad_norm": 0.267578125,
+      "grad_norm_var": 0.0008066177368164062,
+      "learning_rate": 0.01,
+      "loss": 1.3396,
+      "loss/crossentropy": 2.3363460302352905,
+      "loss/fcd": 1.03125,
+      "loss/logits": 0.2474212720990181,
+      "step": 837
+    },
+    {
+      "epoch": 0.01447585486141701,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0007843017578125,
+      "learning_rate": 0.01,
+      "loss": 1.3885,
+      "loss/crossentropy": 2.332596778869629,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.2456573098897934,
+      "step": 838
+    },
+    {
+      "epoch": 0.01449312915122777,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0007394790649414062,
+      "learning_rate": 0.01,
+      "loss": 1.3709,
+      "loss/crossentropy": 2.613990545272827,
+      "loss/fcd": 1.1953125,
+      "loss/logits": 0.2681911140680313,
+      "step": 839
+    },
+    {
+      "epoch": 0.01451040344103853,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.000803375244140625,
+      "learning_rate": 0.01,
+      "loss": 1.3305,
+      "loss/crossentropy": 2.448235511779785,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.22328373789787292,
+      "step": 840
+    },
+    {
+      "epoch": 0.01452767773084929,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0008455753326416015,
+      "learning_rate": 0.01,
+      "loss": 1.3552,
+      "loss/crossentropy": 2.4329841136932373,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.2812986671924591,
+      "step": 841
+    },
+    {
+      "epoch": 0.01454495202066005,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0008448282877604167,
+      "learning_rate": 0.01,
+      "loss": 1.4049,
+      "loss/crossentropy": 2.366762161254883,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.2537970468401909,
+      "step": 842
+    },
+    {
+      "epoch": 0.014562226310470812,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0008669535319010417,
+      "learning_rate": 0.01,
+      "loss": 1.3474,
+      "loss/crossentropy": 2.2118855714797974,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.2319856360554695,
+      "step": 843
+    },
+    {
+      "epoch": 0.014579500600281571,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0005958398183186849,
+      "learning_rate": 0.01,
+      "loss": 1.3672,
+      "loss/crossentropy": 2.427622437477112,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.26083478331565857,
+      "step": 844
+    },
+    {
+      "epoch": 0.014596774890092331,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.000603485107421875,
+      "learning_rate": 0.01,
+      "loss": 1.3868,
+      "loss/crossentropy": 2.6780372858047485,
+      "loss/fcd": 1.2578125,
+      "loss/logits": 0.2781776934862137,
+      "step": 845
+    },
+    {
+      "epoch": 0.014614049179903091,
+      "grad_norm": 0.337890625,
+      "grad_norm_var": 0.0006572564442952473,
+      "learning_rate": 0.01,
+      "loss": 1.3767,
+      "loss/crossentropy": 2.36633038520813,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2774253934621811,
+      "step": 846
+    },
+    {
+      "epoch": 0.014631323469713851,
+      "grad_norm": 0.263671875,
+      "grad_norm_var": 0.0006892999013264974,
+      "learning_rate": 0.01,
+      "loss": 1.3532,
+      "loss/crossentropy": 2.598803162574768,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.27754758298397064,
+      "step": 847
+    },
+    {
+      "epoch": 0.014648597759524611,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.000730133056640625,
+      "learning_rate": 0.01,
+      "loss": 1.3245,
+      "loss/crossentropy": 2.323062777519226,
+      "loss/fcd": 1.0234375,
+      "loss/logits": 0.23049668222665787,
+      "step": 848
+    },
+    {
+      "epoch": 0.014665872049335373,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0005938212076822916,
+      "learning_rate": 0.01,
+      "loss": 1.497,
+      "loss/crossentropy": 2.4116770029067993,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.25217771530151367,
+      "step": 849
+    },
+    {
+      "epoch": 0.014683146339146132,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.0006493727366129557,
+      "learning_rate": 0.01,
+      "loss": 1.3825,
+      "loss/crossentropy": 2.784231662750244,
+      "loss/fcd": 1.23828125,
+      "loss/logits": 0.301376610994339,
+      "step": 850
+    },
+    {
+      "epoch": 0.014700420628956892,
+      "grad_norm": 0.68359375,
+      "grad_norm_var": 0.009682146708170573,
+      "learning_rate": 0.01,
+      "loss": 1.5242,
+      "loss/crossentropy": 2.3721545934677124,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.2636701613664627,
+      "step": 851
+    },
+    {
+      "epoch": 0.014717694918767652,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.009682146708170573,
+      "learning_rate": 0.01,
+      "loss": 1.3491,
+      "loss/crossentropy": 2.5496045351028442,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2594982087612152,
+      "step": 852
+    },
+    {
+      "epoch": 0.014734969208578412,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.009457651774088542,
+      "learning_rate": 0.01,
+      "loss": 1.3208,
+      "loss/crossentropy": 2.211892247200012,
+      "loss/fcd": 1.0703125,
+      "loss/logits": 0.21089013665914536,
+      "step": 853
+    },
+    {
+      "epoch": 0.014752243498389172,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.009530750910441081,
+      "learning_rate": 0.01,
+      "loss": 1.3612,
+      "loss/crossentropy": 2.3918616771698,
+      "loss/fcd": 1.046875,
+      "loss/logits": 0.2475578412413597,
+      "step": 854
+    },
+    {
+      "epoch": 0.014769517788199932,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.009600178400675455,
+      "learning_rate": 0.01,
+      "loss": 1.3711,
+      "loss/crossentropy": 2.6660208702087402,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.25626226514577866,
+      "step": 855
+    },
+    {
+      "epoch": 0.014786792078010693,
+      "grad_norm": 0.265625,
+      "grad_norm_var": 0.009698422749837239,
+      "learning_rate": 0.01,
+      "loss": 1.3272,
+      "loss/crossentropy": 2.4646941423416138,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.24187320470809937,
+      "step": 856
+    },
+    {
+      "epoch": 0.014804066367821453,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.00958250363667806,
+      "learning_rate": 0.01,
+      "loss": 1.349,
+      "loss/crossentropy": 2.889734983444214,
+      "loss/fcd": 1.23046875,
+      "loss/logits": 0.28400754928588867,
+      "step": 857
+    },
+    {
+      "epoch": 0.014821340657632213,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.009624671936035157,
+      "learning_rate": 0.01,
+      "loss": 1.3696,
+      "loss/crossentropy": 2.4632620811462402,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24944238364696503,
+      "step": 858
+    },
+    {
+      "epoch": 0.014838614947442973,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.00966332753499349,
+      "learning_rate": 0.01,
+      "loss": 1.3636,
+      "loss/crossentropy": 2.38780677318573,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.25044557452201843,
+      "step": 859
+    },
+    {
+      "epoch": 0.014855889237253733,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.009620141983032227,
+      "learning_rate": 0.01,
+      "loss": 1.392,
+      "loss/crossentropy": 2.523656487464905,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2575480043888092,
+      "step": 860
+    },
+    {
+      "epoch": 0.014873163527064493,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.009632619222005208,
+      "learning_rate": 0.01,
+      "loss": 1.3788,
+      "loss/crossentropy": 2.3901199102401733,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.22918711602687836,
+      "step": 861
+    },
+    {
+      "epoch": 0.014890437816875254,
+      "grad_norm": 0.41015625,
+      "grad_norm_var": 0.010067224502563477,
+      "learning_rate": 0.01,
+      "loss": 1.392,
+      "loss/crossentropy": 2.2604238986968994,
+      "loss/fcd": 1.29296875,
+      "loss/logits": 0.28666311502456665,
+      "step": 862
+    },
+    {
+      "epoch": 0.014907712106686014,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.00983727773030599,
+      "learning_rate": 0.01,
+      "loss": 1.3701,
+      "loss/crossentropy": 2.1219175457954407,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.2484002709388733,
+      "step": 863
+    },
+    {
+      "epoch": 0.014924986396496774,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.00966490109761556,
+      "learning_rate": 0.01,
+      "loss": 1.4008,
+      "loss/crossentropy": 2.4230719804763794,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2542117089033127,
+      "step": 864
+    },
+    {
+      "epoch": 0.014942260686307534,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.009696563084920248,
+      "learning_rate": 0.01,
+      "loss": 1.3599,
+      "loss/crossentropy": 2.602153182029724,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.2338126003742218,
+      "step": 865
+    },
+    {
+      "epoch": 0.014959534976118294,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.0097320556640625,
+      "learning_rate": 0.01,
+      "loss": 1.3659,
+      "loss/crossentropy": 2.3879982233047485,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.25103290379047394,
+      "step": 866
+    },
+    {
+      "epoch": 0.014976809265929054,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0010736465454101562,
+      "learning_rate": 0.01,
+      "loss": 1.348,
+      "loss/crossentropy": 2.4637222290039062,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2280896008014679,
+      "step": 867
+    },
+    {
+      "epoch": 0.014994083555739815,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0010012149810791015,
+      "learning_rate": 0.01,
+      "loss": 1.3708,
+      "loss/crossentropy": 2.784236192703247,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.28741903603076935,
+      "step": 868
+    },
+    {
+      "epoch": 0.015011357845550575,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.001000833511352539,
+      "learning_rate": 0.01,
+      "loss": 1.4288,
+      "loss/crossentropy": 2.6332989931106567,
+      "loss/fcd": 1.27734375,
+      "loss/logits": 0.3306438624858856,
+      "step": 869
+    },
+    {
+      "epoch": 0.015028632135361335,
+      "grad_norm": 0.359375,
+      "grad_norm_var": 0.0011690616607666015,
+      "learning_rate": 0.01,
+      "loss": 1.4187,
+      "loss/crossentropy": 2.3606460094451904,
+      "loss/fcd": 1.0546875,
+      "loss/logits": 0.23307877779006958,
+      "step": 870
+    },
+    {
+      "epoch": 0.015045906425172095,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0011728286743164062,
+      "learning_rate": 0.01,
+      "loss": 1.3553,
+      "loss/crossentropy": 2.324714183807373,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.2501022219657898,
+      "step": 871
+    },
+    {
+      "epoch": 0.015063180714982855,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.0010920047760009765,
+      "learning_rate": 0.01,
+      "loss": 1.3623,
+      "loss/crossentropy": 2.328053116798401,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2553166151046753,
+      "step": 872
+    },
+    {
+      "epoch": 0.015080455004793615,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.00108640988667806,
+      "learning_rate": 0.01,
+      "loss": 1.4392,
+      "loss/crossentropy": 2.377878785133362,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.25394026935100555,
+      "step": 873
+    },
+    {
+      "epoch": 0.015097729294604376,
+      "grad_norm": 0.349609375,
+      "grad_norm_var": 0.0011700948079427084,
+      "learning_rate": 0.01,
+      "loss": 1.3398,
+      "loss/crossentropy": 2.542131185531616,
+      "loss/fcd": 1.0625,
+      "loss/logits": 0.24263548851013184,
+      "step": 874
+    },
+    {
+      "epoch": 0.015115003584415136,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0011273701985677084,
+      "learning_rate": 0.01,
+      "loss": 1.3837,
+      "loss/crossentropy": 2.443636417388916,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.27580726146698,
+      "step": 875
+    },
+    {
+      "epoch": 0.015132277874225896,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0011240005493164062,
+      "learning_rate": 0.01,
+      "loss": 1.4357,
+      "loss/crossentropy": 2.752240300178528,
+      "loss/fcd": 1.17578125,
+      "loss/logits": 0.2472759708762169,
+      "step": 876
+    },
+    {
+      "epoch": 0.015149552164036656,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.00113067626953125,
+      "learning_rate": 0.01,
+      "loss": 1.3789,
+      "loss/crossentropy": 2.504664421081543,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.25199174135923386,
+      "step": 877
+    },
+    {
+      "epoch": 0.015166826453847416,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.0004998366038004557,
+      "learning_rate": 0.01,
+      "loss": 1.3978,
+      "loss/crossentropy": 2.3523584604263306,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.26311442255973816,
+      "step": 878
+    },
+    {
+      "epoch": 0.015184100743658176,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005164941151936849,
+      "learning_rate": 0.01,
+      "loss": 1.3575,
+      "loss/crossentropy": 2.3136786818504333,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.25283563137054443,
+      "step": 879
+    },
+    {
+      "epoch": 0.015201375033468937,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0005233605702718099,
+      "learning_rate": 0.01,
+      "loss": 1.4031,
+      "loss/crossentropy": 2.445231080055237,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.251323863863945,
+      "step": 880
+    },
+    {
+      "epoch": 0.015218649323279697,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.0005263646443684895,
+      "learning_rate": 0.01,
+      "loss": 1.4241,
+      "loss/crossentropy": 2.5056021213531494,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2573155537247658,
+      "step": 881
+    },
+    {
+      "epoch": 0.015235923613090457,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.0005330403645833333,
+      "learning_rate": 0.01,
+      "loss": 1.3779,
+      "loss/crossentropy": 2.4044970273971558,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.24030664563179016,
+      "step": 882
+    },
+    {
+      "epoch": 0.015253197902901217,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0005077203114827474,
+      "learning_rate": 0.01,
+      "loss": 1.3391,
+      "loss/crossentropy": 2.2992568016052246,
+      "loss/fcd": 1.037109375,
+      "loss/logits": 0.23432201147079468,
+      "step": 883
+    },
+    {
+      "epoch": 0.015270472192711977,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0005009333292643229,
+      "learning_rate": 0.01,
+      "loss": 1.3742,
+      "loss/crossentropy": 2.346727728843689,
+      "loss/fcd": 1.05078125,
+      "loss/logits": 0.2232709527015686,
+      "step": 884
+    },
+    {
+      "epoch": 0.015287746482522737,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0005459944407145182,
+      "learning_rate": 0.01,
+      "loss": 1.3237,
+      "loss/crossentropy": 1.982240617275238,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.22034113854169846,
+      "step": 885
+    },
+    {
+      "epoch": 0.015305020772333498,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0003636042277018229,
+      "learning_rate": 0.01,
+      "loss": 1.438,
+      "loss/crossentropy": 2.3263243436813354,
+      "loss/fcd": 1.1640625,
+      "loss/logits": 0.24902021139860153,
+      "step": 886
+    },
+    {
+      "epoch": 0.015322295062144258,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0003649393717447917,
+      "learning_rate": 0.01,
+      "loss": 1.3869,
+      "loss/crossentropy": 2.56560879945755,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2558091878890991,
+      "step": 887
+    },
+    {
+      "epoch": 0.015339569351955018,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00032512346903483075,
+      "learning_rate": 0.01,
+      "loss": 1.3886,
+      "loss/crossentropy": 2.4856609106063843,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.24640005826950073,
+      "step": 888
+    },
+    {
+      "epoch": 0.015356843641765778,
+      "grad_norm": 0.349609375,
+      "grad_norm_var": 0.0004208882649739583,
+      "learning_rate": 0.01,
+      "loss": 1.4196,
+      "loss/crossentropy": 2.55330491065979,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.25765371322631836,
+      "step": 889
+    },
+    {
+      "epoch": 0.015374117931576538,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.0003218968709309896,
+      "learning_rate": 0.01,
+      "loss": 1.3971,
+      "loss/crossentropy": 2.6354317665100098,
+      "loss/fcd": 1.3203125,
+      "loss/logits": 0.3442998379468918,
+      "step": 890
+    },
+    {
+      "epoch": 0.015391392221387298,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.00032755533854166664,
+      "learning_rate": 0.01,
+      "loss": 1.3998,
+      "loss/crossentropy": 2.034050762653351,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.23992937058210373,
+      "step": 891
+    },
+    {
+      "epoch": 0.015408666511198058,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0003330866495768229,
+      "learning_rate": 0.01,
+      "loss": 1.4362,
+      "loss/crossentropy": 2.7760528326034546,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2806248515844345,
+      "step": 892
+    },
+    {
+      "epoch": 0.01542594080100882,
+      "grad_norm": 0.34375,
+      "grad_norm_var": 0.000394439697265625,
+      "learning_rate": 0.01,
+      "loss": 1.4516,
+      "loss/crossentropy": 2.26086688041687,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.31815242767333984,
+      "step": 893
+    },
+    {
+      "epoch": 0.015443215090819579,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.0004140218098958333,
+      "learning_rate": 0.01,
+      "loss": 1.3702,
+      "loss/crossentropy": 2.5985008478164673,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2603040784597397,
+      "step": 894
+    },
+    {
+      "epoch": 0.015460489380630339,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0003986199696858724,
+      "learning_rate": 0.01,
+      "loss": 1.3509,
+      "loss/crossentropy": 2.3431901335716248,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.22906331717967987,
+      "step": 895
+    },
+    {
+      "epoch": 0.015477763670441099,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.0004066308339436849,
+      "learning_rate": 0.01,
+      "loss": 1.3537,
+      "loss/crossentropy": 2.4866254329681396,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.23776976764202118,
+      "step": 896
+    },
+    {
+      "epoch": 0.015495037960251859,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.00040791829427083335,
+      "learning_rate": 0.01,
+      "loss": 1.3942,
+      "loss/crossentropy": 2.656658411026001,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.265699565410614,
+      "step": 897
+    },
+    {
+      "epoch": 0.015512312250062619,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0004048506418863932,
+      "learning_rate": 0.01,
+      "loss": 1.398,
+      "loss/crossentropy": 2.508056640625,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.2679043859243393,
+      "step": 898
+    },
+    {
+      "epoch": 0.01552958653987338,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.00033086140950520834,
+      "learning_rate": 0.01,
+      "loss": 1.3786,
+      "loss/crossentropy": 2.241898775100708,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.23984474688768387,
+      "step": 899
+    },
+    {
+      "epoch": 0.01554686082968414,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0003639062245686849,
+      "learning_rate": 0.01,
+      "loss": 1.4062,
+      "loss/crossentropy": 2.563822388648987,
+      "loss/fcd": 1.12890625,
+      "loss/logits": 0.2376401573419571,
+      "step": 900
+    },
+    {
+      "epoch": 0.0155641351194949,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0003350416819254557,
+      "learning_rate": 0.01,
+      "loss": 1.3943,
+      "loss/crossentropy": 2.4819493293762207,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.26604655385017395,
+      "step": 901
+    },
+    {
+      "epoch": 0.01558140940930566,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0003422419230143229,
+      "learning_rate": 0.01,
+      "loss": 1.438,
+      "loss/crossentropy": 2.6099933385849,
+      "loss/fcd": 1.21484375,
+      "loss/logits": 0.2890657037496567,
+      "step": 902
+    },
+    {
+      "epoch": 0.01559868369911642,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00033817291259765627,
+      "learning_rate": 0.01,
+      "loss": 1.4034,
+      "loss/crossentropy": 2.5849201679229736,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2732825428247452,
+      "step": 903
+    },
+    {
+      "epoch": 0.01561595798892718,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0003444512685139974,
+      "learning_rate": 0.01,
+      "loss": 1.3811,
+      "loss/crossentropy": 2.3671282529830933,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24938072264194489,
+      "step": 904
+    },
+    {
+      "epoch": 0.01563323227873794,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.00024871826171875,
+      "learning_rate": 0.01,
+      "loss": 1.3843,
+      "loss/crossentropy": 2.1398147344589233,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.2394903600215912,
+      "step": 905
+    },
+    {
+      "epoch": 0.0156505065685487,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0002757867177327474,
+      "learning_rate": 0.01,
+      "loss": 1.3808,
+      "loss/crossentropy": 2.3531702756881714,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.25511349737644196,
+      "step": 906
+    },
+    {
+      "epoch": 0.01566778085835946,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0002784570058186849,
+      "learning_rate": 0.01,
+      "loss": 1.3835,
+      "loss/crossentropy": 2.5271737575531006,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.25303974002599716,
+      "step": 907
+    },
+    {
+      "epoch": 0.015685055148170222,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0003013451894124349,
+      "learning_rate": 0.01,
+      "loss": 1.3966,
+      "loss/crossentropy": 2.50630259513855,
+      "loss/fcd": 1.25390625,
+      "loss/logits": 0.28888703882694244,
+      "step": 908
+    },
+    {
+      "epoch": 0.015702329437980982,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.00022068023681640626,
+      "learning_rate": 0.01,
+      "loss": 1.3997,
+      "loss/crossentropy": 2.6066339015960693,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.24285603314638138,
+      "step": 909
+    },
+    {
+      "epoch": 0.015719603727791742,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.00016541481018066405,
+      "learning_rate": 0.01,
+      "loss": 1.3514,
+      "loss/crossentropy": 2.349377751350403,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.2379670813679695,
+      "step": 910
+    },
+    {
+      "epoch": 0.015736878017602502,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.00018677711486816406,
+      "learning_rate": 0.01,
+      "loss": 1.3697,
+      "loss/crossentropy": 2.493922233581543,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.2561178654432297,
+      "step": 911
+    },
+    {
+      "epoch": 0.015754152307413262,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.000218963623046875,
+      "learning_rate": 0.01,
+      "loss": 1.3902,
+      "loss/crossentropy": 2.17154997587204,
+      "loss/fcd": 1.04296875,
+      "loss/logits": 0.22504562884569168,
+      "step": 912
+    },
+    {
+      "epoch": 0.015771426597224022,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.00022525787353515624,
+      "learning_rate": 0.01,
+      "loss": 1.3458,
+      "loss/crossentropy": 2.4228713512420654,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.26753516495227814,
+      "step": 913
+    },
+    {
+      "epoch": 0.01578870088703478,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.00022735595703125,
+      "learning_rate": 0.01,
+      "loss": 1.4741,
+      "loss/crossentropy": 2.25216805934906,
+      "loss/fcd": 1.23046875,
+      "loss/logits": 0.33171379566192627,
+      "step": 914
+    },
+    {
+      "epoch": 0.01580597517684554,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.000212860107421875,
+      "learning_rate": 0.01,
+      "loss": 1.3429,
+      "loss/crossentropy": 2.1387062072753906,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.24266959726810455,
+      "step": 915
+    },
+    {
+      "epoch": 0.0158232494666563,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.00027794837951660155,
+      "learning_rate": 0.01,
+      "loss": 1.4493,
+      "loss/crossentropy": 2.02074271440506,
+      "loss/fcd": 1.23828125,
+      "loss/logits": 0.25191547721624374,
+      "step": 916
+    },
+    {
+      "epoch": 0.01584052375646706,
+      "grad_norm": 0.7734375,
+      "grad_norm_var": 0.01417692502339681,
+      "learning_rate": 0.01,
+      "loss": 1.4196,
+      "loss/crossentropy": 2.47384512424469,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.2742984741926193,
+      "step": 917
+    },
+    {
+      "epoch": 0.01585779804627782,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.014222462972005209,
+      "learning_rate": 0.01,
+      "loss": 1.3766,
+      "loss/crossentropy": 2.5627119541168213,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.27059850841760635,
+      "step": 918
+    },
+    {
+      "epoch": 0.01587507233608858,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.014214007059733073,
+      "learning_rate": 0.01,
+      "loss": 1.4257,
+      "loss/crossentropy": 2.5728260278701782,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.26422248035669327,
+      "step": 919
+    },
+    {
+      "epoch": 0.015892346625899344,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.01424706776936849,
+      "learning_rate": 0.01,
+      "loss": 1.3441,
+      "loss/crossentropy": 2.3634893894195557,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2779320180416107,
+      "step": 920
+    },
+    {
+      "epoch": 0.015909620915710104,
+      "grad_norm": 0.3359375,
+      "grad_norm_var": 0.01422723134358724,
+      "learning_rate": 0.01,
+      "loss": 1.4555,
+      "loss/crossentropy": 2.176904857158661,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.2693602591753006,
+      "step": 921
+    },
+    {
+      "epoch": 0.015926895205520864,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.014169820149739583,
+      "learning_rate": 0.01,
+      "loss": 1.3614,
+      "loss/crossentropy": 2.611035466194153,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2582136243581772,
+      "step": 922
+    },
+    {
+      "epoch": 0.015944169495331624,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.014190610249837239,
+      "learning_rate": 0.01,
+      "loss": 1.3666,
+      "loss/crossentropy": 2.353346347808838,
+      "loss/fcd": 1.11328125,
+      "loss/logits": 0.24240678548812866,
+      "step": 923
+    },
+    {
+      "epoch": 0.015961443785142384,
+      "grad_norm": 0.283203125,
+      "grad_norm_var": 0.014214579264322917,
+      "learning_rate": 0.01,
+      "loss": 1.3461,
+      "loss/crossentropy": 2.3549081087112427,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.2364579290151596,
+      "step": 924
+    },
+    {
+      "epoch": 0.015978718074953144,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.014224227269490559,
+      "learning_rate": 0.01,
+      "loss": 1.3649,
+      "loss/crossentropy": 2.4736167192459106,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.26356005668640137,
+      "step": 925
+    },
+    {
+      "epoch": 0.015995992364763904,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.01417382558186849,
+      "learning_rate": 0.01,
+      "loss": 1.4136,
+      "loss/crossentropy": 2.3580808639526367,
+      "loss/fcd": 1.2578125,
+      "loss/logits": 0.2911546379327774,
+      "step": 926
+    },
+    {
+      "epoch": 0.016013266654574664,
+      "grad_norm": 0.298828125,
+      "grad_norm_var": 0.014087867736816407,
+      "learning_rate": 0.01,
+      "loss": 1.3582,
+      "loss/crossentropy": 2.476295828819275,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.267447791993618,
+      "step": 927
+    },
+    {
+      "epoch": 0.016030540944385423,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.013896942138671875,
+      "learning_rate": 0.01,
+      "loss": 1.411,
+      "loss/crossentropy": 2.6316243410110474,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2681735157966614,
+      "step": 928
+    },
+    {
+      "epoch": 0.016047815234196183,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.013840230305989583,
+      "learning_rate": 0.01,
+      "loss": 1.3853,
+      "loss/crossentropy": 2.5550700426101685,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.25278639793395996,
+      "step": 929
+    },
+    {
+      "epoch": 0.016065089524006943,
+      "grad_norm": 0.296875,
+      "grad_norm_var": 0.013876597086588541,
+      "learning_rate": 0.01,
+      "loss": 1.4125,
+      "loss/crossentropy": 2.511132836341858,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.26167523860931396,
+      "step": 930
+    },
+    {
+      "epoch": 0.016082363813817703,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.01403514544169108,
+      "learning_rate": 0.01,
+      "loss": 1.351,
+      "loss/crossentropy": 2.468320608139038,
+      "loss/fcd": 1.1484375,
+      "loss/logits": 0.254236102104187,
+      "step": 931
+    },
+    {
+      "epoch": 0.016099638103628463,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.014063119888305664,
+      "learning_rate": 0.01,
+      "loss": 1.3762,
+      "loss/crossentropy": 2.7182319164276123,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.25874409079551697,
+      "step": 932
+    },
+    {
+      "epoch": 0.016116912393439226,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.00023280779520670574,
+      "learning_rate": 0.01,
+      "loss": 1.3703,
+      "loss/crossentropy": 2.3206039667129517,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.2651352882385254,
+      "step": 933
+    },
+    {
+      "epoch": 0.016134186683249986,
+      "grad_norm": 0.310546875,
+      "grad_norm_var": 0.00022454261779785155,
+      "learning_rate": 0.01,
+      "loss": 1.3802,
+      "loss/crossentropy": 2.498626470565796,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.259146973490715,
+      "step": 934
+    },
+    {
+      "epoch": 0.016151460973060746,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.00024628639221191406,
+      "learning_rate": 0.01,
+      "loss": 1.3612,
+      "loss/crossentropy": 2.3583563566207886,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.24286328256130219,
+      "step": 935
+    },
+    {
+      "epoch": 0.016168735262871506,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.00025018056233723957,
+      "learning_rate": 0.01,
+      "loss": 1.4221,
+      "loss/crossentropy": 2.4976600408554077,
+      "loss/fcd": 1.234375,
+      "loss/logits": 0.274882972240448,
+      "step": 936
+    },
+    {
+      "epoch": 0.016186009552682266,
+      "grad_norm": 0.376953125,
+      "grad_norm_var": 0.0005435784657796224,
+      "learning_rate": 0.01,
+      "loss": 1.4084,
+      "loss/crossentropy": 2.4435365200042725,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.2811162769794464,
+      "step": 937
+    },
+    {
+      "epoch": 0.016203283842493026,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0005657037099202473,
+      "learning_rate": 0.01,
+      "loss": 1.3418,
+      "loss/crossentropy": 2.3197275400161743,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.26322872936725616,
+      "step": 938
+    },
+    {
+      "epoch": 0.016220558132303785,
+      "grad_norm": 0.2890625,
+      "grad_norm_var": 0.0005706628163655599,
+      "learning_rate": 0.01,
+      "loss": 1.3881,
+      "loss/crossentropy": 2.6520742177963257,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.2682619243860245,
+      "step": 939
+    },
+    {
+      "epoch": 0.016237832422114545,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0005757013956705729,
+      "learning_rate": 0.01,
+      "loss": 1.3772,
+      "loss/crossentropy": 2.4414173364639282,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.23820270597934723,
+      "step": 940
+    },
+    {
+      "epoch": 0.016255106711925305,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0005737145741780599,
+      "learning_rate": 0.01,
+      "loss": 1.4165,
+      "loss/crossentropy": 2.4042497873306274,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2601849138736725,
+      "step": 941
+    },
+    {
+      "epoch": 0.016272381001736065,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0005716323852539062,
+      "learning_rate": 0.01,
+      "loss": 1.4208,
+      "loss/crossentropy": 2.4315325021743774,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.2801144868135452,
+      "step": 942
+    },
+    {
+      "epoch": 0.016289655291546825,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.0006620883941650391,
+      "learning_rate": 0.01,
+      "loss": 1.4608,
+      "loss/crossentropy": 2.545047879219055,
+      "loss/fcd": 1.2890625,
+      "loss/logits": 0.33230888843536377,
+      "step": 943
+    },
+    {
+      "epoch": 0.016306929581357585,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0006926854451497396,
+      "learning_rate": 0.01,
+      "loss": 1.329,
+      "loss/crossentropy": 2.259741187095642,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.2455529421567917,
+      "step": 944
+    },
+    {
+      "epoch": 0.016324203871168348,
+      "grad_norm": 0.294921875,
+      "grad_norm_var": 0.0006779829661051432,
+      "learning_rate": 0.01,
+      "loss": 1.3409,
+      "loss/crossentropy": 2.3239141702651978,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.24660293757915497,
+      "step": 945
+    },
+    {
+      "epoch": 0.016341478160979108,
+      "grad_norm": 0.33203125,
+      "grad_norm_var": 0.0007329146067301432,
+      "learning_rate": 0.01,
+      "loss": 1.4681,
+      "loss/crossentropy": 2.3145695328712463,
+      "loss/fcd": 1.1015625,
+      "loss/logits": 0.24830932170152664,
+      "step": 946
+    },
+    {
+      "epoch": 0.016358752450789868,
+      "grad_norm": 0.330078125,
+      "grad_norm_var": 0.0007279555002848308,
+      "learning_rate": 0.01,
+      "loss": 1.5011,
+      "loss/crossentropy": 2.350569486618042,
+      "loss/fcd": 1.1875,
+      "loss/logits": 0.2759709805250168,
+      "step": 947
+    },
+    {
+      "epoch": 0.016376026740600628,
+      "grad_norm": 0.470703125,
+      "grad_norm_var": 0.0024080912272135416,
+      "learning_rate": 0.01,
+      "loss": 1.52,
+      "loss/crossentropy": 2.034683883190155,
+      "loss/fcd": 1.2421875,
+      "loss/logits": 0.28756849467754364,
+      "step": 948
+    },
+    {
+      "epoch": 0.016393301030411388,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.002434539794921875,
+      "learning_rate": 0.01,
+      "loss": 1.4182,
+      "loss/crossentropy": 2.5900092124938965,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.26620975136756897,
+      "step": 949
+    },
+    {
+      "epoch": 0.016410575320222148,
+      "grad_norm": 0.314453125,
+      "grad_norm_var": 0.002431170145670573,
+      "learning_rate": 0.01,
+      "loss": 1.4163,
+      "loss/crossentropy": 2.458656430244446,
+      "loss/fcd": 1.1953125,
+      "loss/logits": 0.27218569815158844,
+      "step": 950
+    },
+    {
+      "epoch": 0.016427849610032907,
+      "grad_norm": 0.326171875,
+      "grad_norm_var": 0.002330636978149414,
+      "learning_rate": 0.01,
+      "loss": 1.5638,
+      "loss/crossentropy": 2.581447720527649,
+      "loss/fcd": 1.2265625,
+      "loss/logits": 0.2988656759262085,
+      "step": 951
+    },
+    {
+      "epoch": 0.016445123899843667,
+      "grad_norm": 0.412109375,
+      "grad_norm_var": 0.002758216857910156,
+      "learning_rate": 0.01,
+      "loss": 1.5667,
+      "loss/crossentropy": 2.21357798576355,
+      "loss/fcd": 1.2421875,
+      "loss/logits": 0.30781693756580353,
+      "step": 952
+    },
+    {
+      "epoch": 0.016462398189654427,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0026659488677978514,
+      "learning_rate": 0.01,
+      "loss": 1.3711,
+      "loss/crossentropy": 2.1623282432556152,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.24749789386987686,
+      "step": 953
+    },
+    {
+      "epoch": 0.016479672479465187,
+      "grad_norm": 0.306640625,
+      "grad_norm_var": 0.0025832494099934894,
+      "learning_rate": 0.01,
+      "loss": 1.3663,
+      "loss/crossentropy": 2.683838129043579,
+      "loss/fcd": 1.19921875,
+      "loss/logits": 0.2529330998659134,
+      "step": 954
+    },
+    {
+      "epoch": 0.016496946769275947,
+      "grad_norm": 0.265625,
+      "grad_norm_var": 0.0027312596638997396,
+      "learning_rate": 0.01,
+      "loss": 1.3548,
+      "loss/crossentropy": 2.3420257568359375,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.253268837928772,
+      "step": 955
+    },
+    {
+      "epoch": 0.016514221059086707,
+      "grad_norm": 0.35546875,
+      "grad_norm_var": 0.002652740478515625,
+      "learning_rate": 0.01,
+      "loss": 1.369,
+      "loss/crossentropy": 2.3265002965927124,
+      "loss/fcd": 1.1171875,
+      "loss/logits": 0.24975580722093582,
+      "step": 956
+    },
+    {
+      "epoch": 0.01653149534889747,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.0025789737701416016,
+      "learning_rate": 0.01,
+      "loss": 1.3913,
+      "loss/crossentropy": 2.4944993257522583,
+      "loss/fcd": 1.16796875,
+      "loss/logits": 0.25516972690820694,
+      "step": 957
+    },
+    {
+      "epoch": 0.01654876963870823,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0025911808013916017,
+      "learning_rate": 0.01,
+      "loss": 1.3542,
+      "loss/crossentropy": 2.583009362220764,
+      "loss/fcd": 1.15625,
+      "loss/logits": 0.26096589863300323,
+      "step": 958
+    },
+    {
+      "epoch": 0.01656604392851899,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.002695465087890625,
+      "learning_rate": 0.01,
+      "loss": 1.4014,
+      "loss/crossentropy": 2.6060469150543213,
+      "loss/fcd": 1.1796875,
+      "loss/logits": 0.298343300819397,
+      "step": 959
+    },
+    {
+      "epoch": 0.01658331821832975,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0024979750315348307,
+      "learning_rate": 0.01,
+      "loss": 1.4127,
+      "loss/crossentropy": 2.4206702709198,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2592027187347412,
+      "step": 960
+    },
+    {
+      "epoch": 0.01660059250814051,
+      "grad_norm": 0.302734375,
+      "grad_norm_var": 0.002465550104777018,
+      "learning_rate": 0.01,
+      "loss": 1.4039,
+      "loss/crossentropy": 2.18042528629303,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.28101974725723267,
+      "step": 961
+    },
+    {
+      "epoch": 0.01661786679795127,
+      "grad_norm": 0.353515625,
+      "grad_norm_var": 0.0024996439615885416,
+      "learning_rate": 0.01,
+      "loss": 1.3448,
+      "loss/crossentropy": 2.2248626947402954,
+      "loss/fcd": 1.07421875,
+      "loss/logits": 0.2191808819770813,
+      "step": 962
+    },
+    {
+      "epoch": 0.01663514108776203,
+      "grad_norm": 0.357421875,
+      "grad_norm_var": 0.002541033426920573,
+      "learning_rate": 0.01,
+      "loss": 1.4061,
+      "loss/crossentropy": 2.476745128631592,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.26761066913604736,
+      "step": 963
+    },
+    {
+      "epoch": 0.01665241537757279,
+      "grad_norm": 0.33984375,
+      "grad_norm_var": 0.00121305783589681,
+      "learning_rate": 0.01,
+      "loss": 1.427,
+      "loss/crossentropy": 2.3096065521240234,
+      "loss/fcd": 1.234375,
+      "loss/logits": 0.42609208822250366,
+      "step": 964
+    },
+    {
+      "epoch": 0.01666968966738355,
+      "grad_norm": 0.31640625,
+      "grad_norm_var": 0.0012012322743733723,
+      "learning_rate": 0.01,
+      "loss": 1.3957,
+      "loss/crossentropy": 2.7282618284225464,
+      "loss/fcd": 1.20703125,
+      "loss/logits": 0.28854241967201233,
+      "step": 965
+    },
+    {
+      "epoch": 0.01668696395719431,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0012641747792561848,
+      "learning_rate": 0.01,
+      "loss": 1.3752,
+      "loss/crossentropy": 2.339871048927307,
+      "loss/fcd": 1.08984375,
+      "loss/logits": 0.2586899399757385,
+      "step": 966
+    },
+    {
+      "epoch": 0.01670423824700507,
+      "grad_norm": 0.263671875,
+      "grad_norm_var": 0.001474746068318685,
+      "learning_rate": 0.01,
+      "loss": 1.3006,
+      "loss/crossentropy": 2.3013978004455566,
+      "loss/fcd": 1.046875,
+      "loss/logits": 0.22273491322994232,
+      "step": 967
+    },
+    {
+      "epoch": 0.01672151253681583,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0008559544881184896,
+      "learning_rate": 0.01,
+      "loss": 1.4225,
+      "loss/crossentropy": 2.47222638130188,
+      "loss/fcd": 1.2421875,
+      "loss/logits": 0.2986321449279785,
+      "step": 968
+    },
+    {
+      "epoch": 0.01673878682662659,
+      "grad_norm": 0.29296875,
+      "grad_norm_var": 0.0008559544881184896,
+      "learning_rate": 0.01,
+      "loss": 1.4188,
+      "loss/crossentropy": 2.2383479475975037,
+      "loss/fcd": 1.2265625,
+      "loss/logits": 0.3132626414299011,
+      "step": 969
+    },
+    {
+      "epoch": 0.016756061116437352,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0008643945058186849,
+      "learning_rate": 0.01,
+      "loss": 1.363,
+      "loss/crossentropy": 2.5179413557052612,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.2516755014657974,
+      "step": 970
+    },
+    {
+      "epoch": 0.016773335406248112,
+      "grad_norm": 0.279296875,
+      "grad_norm_var": 0.0007908503214518229,
+      "learning_rate": 0.01,
+      "loss": 1.3967,
+      "loss/crossentropy": 1.9743611812591553,
+      "loss/fcd": 1.05859375,
+      "loss/logits": 0.24054741859436035,
+      "step": 971
+    },
+    {
+      "epoch": 0.016790609696058872,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.000740671157836914,
+      "learning_rate": 0.01,
+      "loss": 1.3595,
+      "loss/crossentropy": 2.405099630355835,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.28836295008659363,
+      "step": 972
+    },
+    {
+      "epoch": 0.01680788398586963,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.0007307529449462891,
+      "learning_rate": 0.01,
+      "loss": 1.4048,
+      "loss/crossentropy": 2.583898901939392,
+      "loss/fcd": 1.2109375,
+      "loss/logits": 0.2704490125179291,
+      "step": 973
+    },
+    {
+      "epoch": 0.01682515827568039,
+      "grad_norm": 0.3125,
+      "grad_norm_var": 0.0007318973541259766,
+      "learning_rate": 0.01,
+      "loss": 1.4402,
+      "loss/crossentropy": 2.486370801925659,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2756696939468384,
+      "step": 974
+    },
+    {
+      "epoch": 0.01684243256549115,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.0007501602172851563,
+      "learning_rate": 0.01,
+      "loss": 1.3591,
+      "loss/crossentropy": 2.421715497970581,
+      "loss/fcd": 1.0390625,
+      "loss/logits": 0.22876735776662827,
+      "step": 975
+    },
+    {
+      "epoch": 0.01685970685530191,
+      "grad_norm": 0.318359375,
+      "grad_norm_var": 0.0007433573404947917,
+      "learning_rate": 0.01,
+      "loss": 1.3213,
+      "loss/crossentropy": 2.4171801805496216,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.23518116772174835,
+      "step": 976
+    },
+    {
+      "epoch": 0.01687698114511267,
+      "grad_norm": 0.4140625,
+      "grad_norm_var": 0.0014527479807535807,
+      "learning_rate": 0.01,
+      "loss": 1.4776,
+      "loss/crossentropy": 2.080851912498474,
+      "loss/fcd": 1.26953125,
+      "loss/logits": 0.22676381468772888,
+      "step": 977
+    },
+    {
+      "epoch": 0.01689425543492343,
+      "grad_norm": 0.2734375,
+      "grad_norm_var": 0.0014325459798177084,
+      "learning_rate": 0.01,
+      "loss": 1.3453,
+      "loss/crossentropy": 2.2649213075637817,
+      "loss/fcd": 1.09765625,
+      "loss/logits": 0.2382289096713066,
+      "step": 978
+    },
+    {
+      "epoch": 0.01691152972473419,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.00134886105855306,
+      "learning_rate": 0.01,
+      "loss": 1.4216,
+      "loss/crossentropy": 2.4842547178268433,
+      "loss/fcd": 1.16015625,
+      "loss/logits": 0.27352918684482574,
+      "step": 979
+    },
+    {
+      "epoch": 0.01692880401454495,
+      "grad_norm": 0.291015625,
+      "grad_norm_var": 0.0012618382771809897,
+      "learning_rate": 0.01,
+      "loss": 1.3782,
+      "loss/crossentropy": 2.163589835166931,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.26143455505371094,
+      "step": 980
+    },
+    {
+      "epoch": 0.01694607830435571,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0012567520141601562,
+      "learning_rate": 0.01,
+      "loss": 1.3912,
+      "loss/crossentropy": 2.421532988548279,
+      "loss/fcd": 1.08203125,
+      "loss/logits": 0.23204928636550903,
+      "step": 981
+    },
+    {
+      "epoch": 0.016963352594166474,
+      "grad_norm": 0.28125,
+      "grad_norm_var": 0.00127256711324056,
+      "learning_rate": 0.01,
+      "loss": 1.3826,
+      "loss/crossentropy": 2.607829451560974,
+      "loss/fcd": 1.125,
+      "loss/logits": 0.2582753002643585,
+      "step": 982
+    },
+    {
+      "epoch": 0.016980626883977234,
+      "grad_norm": 0.3359375,
+      "grad_norm_var": 0.0012684504191080729,
+      "learning_rate": 0.01,
+      "loss": 1.3938,
+      "loss/crossentropy": 2.430111050605774,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2326122149825096,
+      "step": 983
+    },
+    {
+      "epoch": 0.016997901173787994,
+      "grad_norm": 0.369140625,
+      "grad_norm_var": 0.001544936498006185,
+      "learning_rate": 0.01,
+      "loss": 1.4349,
+      "loss/crossentropy": 2.584348440170288,
+      "loss/fcd": 1.18359375,
+      "loss/logits": 0.27420538663864136,
+      "step": 984
+    },
+    {
+      "epoch": 0.017015175463598754,
+      "grad_norm": 0.333984375,
+      "grad_norm_var": 0.0015746434529622397,
+      "learning_rate": 0.01,
+      "loss": 1.4002,
+      "loss/crossentropy": 2.6233400106430054,
+      "loss/fcd": 1.13671875,
+      "loss/logits": 0.2728031575679779,
+      "step": 985
+    },
+    {
+      "epoch": 0.017032449753409513,
+      "grad_norm": 0.3203125,
+      "grad_norm_var": 0.001567840576171875,
+      "learning_rate": 0.01,
+      "loss": 1.3921,
+      "loss/crossentropy": 2.2127867937088013,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.24761803448200226,
+      "step": 986
+    },
+    {
+      "epoch": 0.017049724043220273,
+      "grad_norm": 0.322265625,
+      "grad_norm_var": 0.0015125910441080729,
+      "learning_rate": 0.01,
+      "loss": 1.4117,
+      "loss/crossentropy": 2.4916510581970215,
+      "loss/fcd": 1.140625,
+      "loss/logits": 0.2528844252228737,
+      "step": 987
+    },
+    {
+      "epoch": 0.017066998333031033,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0014711856842041016,
+      "learning_rate": 0.01,
+      "loss": 1.3702,
+      "loss/crossentropy": 2.076325237751007,
+      "loss/fcd": 1.109375,
+      "loss/logits": 0.24822547286748886,
+      "step": 988
+    },
+    {
+      "epoch": 0.017084272622841793,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0015150547027587891,
+      "learning_rate": 0.01,
+      "loss": 1.375,
+      "loss/crossentropy": 2.2751649618148804,
+      "loss/fcd": 1.06640625,
+      "loss/logits": 0.2591545879840851,
+      "step": 989
+    },
+    {
+      "epoch": 0.017101546912652553,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.001517470677693685,
+      "learning_rate": 0.01,
+      "loss": 1.3438,
+      "loss/crossentropy": 2.564236044883728,
+      "loss/fcd": 1.10546875,
+      "loss/logits": 0.2575865834951401,
+      "step": 990
+    },
+    {
+      "epoch": 0.017118821202463313,
+      "grad_norm": 0.27734375,
+      "grad_norm_var": 0.0015337467193603516,
+      "learning_rate": 0.01,
+      "loss": 1.2948,
+      "loss/crossentropy": 2.322708249092102,
+      "loss/fcd": 1.0859375,
+      "loss/logits": 0.23693984001874924,
+      "step": 991
+    },
+    {
+      "epoch": 0.017136095492274073,
+      "grad_norm": 0.30078125,
+      "grad_norm_var": 0.0015344619750976562,
+      "learning_rate": 0.01,
+      "loss": 1.4124,
+      "loss/crossentropy": 2.4255528450012207,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.25587616115808487,
+      "step": 992
+    },
+    {
+      "epoch": 0.017153369782084833,
+      "grad_norm": 0.275390625,
+      "grad_norm_var": 0.0007997989654541015,
+      "learning_rate": 0.01,
+      "loss": 1.3437,
+      "loss/crossentropy": 2.5350613594055176,
+      "loss/fcd": 1.12109375,
+      "loss/logits": 0.25402751564979553,
+      "step": 993
+    },
+    {
+      "epoch": 0.017170644071895596,
+      "grad_norm": 0.30859375,
+      "grad_norm_var": 0.0007494449615478516,
+      "learning_rate": 0.01,
+      "loss": 1.4055,
+      "loss/crossentropy": 2.5626988410949707,
+      "loss/fcd": 1.14453125,
+      "loss/logits": 0.25801587104797363,
+      "step": 994
+    },
+    {
+      "epoch": 0.017187918361706356,
+      "grad_norm": 0.3046875,
+      "grad_norm_var": 0.000670480728149414,
+      "learning_rate": 0.01,
+      "loss": 1.3867,
+      "loss/crossentropy": 2.7328250408172607,
+      "loss/fcd": 1.171875,
+      "loss/logits": 0.28935085237026215,
+      "step": 995
+    },
+    {
+      "epoch": 0.017205192651517116,
+      "grad_norm": 0.287109375,
+      "grad_norm_var": 0.0006787459055582683,
+      "learning_rate": 0.01,
+      "loss": 1.3854,
+      "loss/crossentropy": 2.2958213090896606,
+      "loss/fcd": 1.1328125,
+      "loss/logits": 0.2697945237159729,
+      "step": 996
+    },
+    {
+      "epoch": 0.017222466941327876,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0006787459055582683,
+      "learning_rate": 0.01,
+      "loss": 1.3576,
+      "loss/crossentropy": 2.314937472343445,
+      "loss/fcd": 1.09375,
+      "loss/logits": 0.24704495817422867,
+      "step": 997
+    },
+    {
+      "epoch": 0.017239741231138635,
+      "grad_norm": 0.32421875,
+      "grad_norm_var": 0.0006591637929280598,
+      "learning_rate": 0.01,
+      "loss": 1.4405,
+      "loss/crossentropy": 2.582629084587097,
+      "loss/fcd": 1.26171875,
+      "loss/logits": 0.335773229598999,
+      "step": 998
+    },
+    {
+      "epoch": 0.017257015520949395,
+      "grad_norm": 0.28515625,
+      "grad_norm_var": 0.0006277561187744141,
+      "learning_rate": 0.01,
+      "loss": 1.3605,
+      "loss/crossentropy": 2.299025297164917,
+      "loss/fcd": 1.052734375,
+      "loss/logits": 0.23469385504722595,
+      "step": 999
+    },
+    {
+      "epoch": 0.017274289810760155,
+      "grad_norm": 0.26953125,
+      "grad_norm_var": 0.00038700103759765626,
+      "learning_rate": 0.01,
+      "loss": 1.3825,
+      "loss/crossentropy": 2.467602014541626,
+      "loss/fcd": 1.15234375,
+      "loss/logits": 0.2697184160351753,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 300000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": true,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.70040442617856e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}