newst / trainer_state.json

Upload folder using huggingface_hub

cfcda4c verified 9 months ago

128 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.2,
	"eval_steps": 2000,
	"global_step": 4000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005,
	"grad_norm": 30.875,
	"learning_rate": 0.0001,
	"loss": 7.1506,
	"loss/crossentropy": 1.9750229328870774,
	"loss/hidden": 3.38984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18868114035576583,
	"step": 10
	},
	{
	"epoch": 0.001,
	"grad_norm": 30.75,
	"grad_norm_var": 2.09765625,
	"learning_rate": 0.0001,
	"loss": 7.266,
	"loss/crossentropy": 1.915299428999424,
	"loss/hidden": 3.368359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19173294119536877,
	"step": 20
	},
	{
	"epoch": 0.0015,
	"grad_norm": 31.625,
	"grad_norm_var": 35.572330729166666,
	"learning_rate": 0.0001,
	"loss": 7.1477,
	"loss/crossentropy": 1.845322072505951,
	"loss/hidden": 3.42421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1835887383669615,
	"step": 30
	},
	{
	"epoch": 0.002,
	"grad_norm": 30.25,
	"grad_norm_var": 5.803580729166667,
	"learning_rate": 0.0001,
	"loss": 7.125,
	"loss/crossentropy": 1.8556978717446326,
	"loss/hidden": 3.5,
	"loss/jsd": 0.0,
	"loss/logits": 0.22780380193144084,
	"step": 40
	},
	{
	"epoch": 0.0025,
	"grad_norm": 39.5,
	"grad_norm_var": 6.737239583333333,
	"learning_rate": 0.0001,
	"loss": 7.2665,
	"loss/crossentropy": 2.051687541604042,
	"loss/hidden": 3.45078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.21537381634116173,
	"step": 50
	},
	{
	"epoch": 0.003,
	"grad_norm": 36.5,
	"grad_norm_var": 11.058333333333334,
	"learning_rate": 0.0001,
	"loss": 7.2095,
	"loss/crossentropy": 1.9898784533143044,
	"loss/hidden": 3.3953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19060547631233932,
	"step": 60
	},
	{
	"epoch": 0.0035,
	"grad_norm": 27.0,
	"grad_norm_var": 6.45390625,
	"learning_rate": 0.0001,
	"loss": 7.2606,
	"loss/crossentropy": 1.8448080085217953,
	"loss/hidden": 3.394140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18068002099171282,
	"step": 70
	},
	{
	"epoch": 0.004,
	"grad_norm": 38.75,
	"grad_norm_var": 1.3401023445121106e+18,
	"learning_rate": 0.0001,
	"loss": 7.4871,
	"loss/crossentropy": 2.0318232350051404,
	"loss/hidden": 3.733984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.337183965742588,
	"step": 80
	},
	{
	"epoch": 0.0045,
	"grad_norm": 35.25,
	"grad_norm_var": 1.3401023442516444e+18,
	"learning_rate": 0.0001,
	"loss": 7.1923,
	"loss/crossentropy": 1.7826939225196838,
	"loss/hidden": 3.587890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2118432404473424,
	"step": 90
	},
	{
	"epoch": 0.005,
	"grad_norm": 32.75,
	"grad_norm_var": 2.7309895833333333,
	"learning_rate": 0.0001,
	"loss": 7.2487,
	"loss/crossentropy": 1.88408655077219,
	"loss/hidden": 3.48671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1903762748464942,
	"step": 100
	},
	{
	"epoch": 0.0055,
	"grad_norm": 34.25,
	"grad_norm_var": 4.268489583333333,
	"learning_rate": 0.0001,
	"loss": 7.1643,
	"loss/crossentropy": 1.83259879052639,
	"loss/hidden": 3.41953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19554968569427728,
	"step": 110
	},
	{
	"epoch": 0.006,
	"grad_norm": 33.0,
	"grad_norm_var": 6.548958333333333,
	"learning_rate": 0.0001,
	"loss": 7.1535,
	"loss/crossentropy": 1.8173740945756436,
	"loss/hidden": 3.34609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17036083210259675,
	"step": 120
	},
	{
	"epoch": 0.0065,
	"grad_norm": 32.25,
	"grad_norm_var": 3.220572916666667,
	"learning_rate": 0.0001,
	"loss": 7.2113,
	"loss/crossentropy": 1.8991591855883598,
	"loss/hidden": 3.4359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.20231554415076972,
	"step": 130
	},
	{
	"epoch": 0.007,
	"grad_norm": 120.0,
	"grad_norm_var": 494.52890625,
	"learning_rate": 0.0001,
	"loss": 7.1589,
	"loss/crossentropy": 1.9234379842877387,
	"loss/hidden": 3.348828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19592595770955085,
	"step": 140
	},
	{
	"epoch": 0.0075,
	"grad_norm": 30.375,
	"grad_norm_var": 496.27265625,
	"learning_rate": 0.0001,
	"loss": 7.1392,
	"loss/crossentropy": 1.7669467806816102,
	"loss/hidden": 3.39453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1691664818674326,
	"step": 150
	},
	{
	"epoch": 0.008,
	"grad_norm": 35.25,
	"grad_norm_var": 202.11354166666666,
	"learning_rate": 0.0001,
	"loss": 7.2551,
	"loss/crossentropy": 1.979496531933546,
	"loss/hidden": 3.51484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2397671105340123,
	"step": 160
	},
	{
	"epoch": 0.0085,
	"grad_norm": 29.75,
	"grad_norm_var": 41.73118489583333,
	"learning_rate": 0.0001,
	"loss": 7.0709,
	"loss/crossentropy": 1.6596970088779925,
	"loss/hidden": 3.46875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1801933947019279,
	"step": 170
	},
	{
	"epoch": 0.009,
	"grad_norm": 31.375,
	"grad_norm_var": 3.1510416666666665,
	"learning_rate": 0.0001,
	"loss": 7.1329,
	"loss/crossentropy": 1.8317318260669708,
	"loss/hidden": 3.470703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2027322521433234,
	"step": 180
	},
	{
	"epoch": 0.0095,
	"grad_norm": 31.25,
	"grad_norm_var": 1.034375,
	"learning_rate": 0.0001,
	"loss": 7.2704,
	"loss/crossentropy": 1.7871993221342564,
	"loss/hidden": 3.3296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17167234625667332,
	"step": 190
	},
	{
	"epoch": 0.01,
	"grad_norm": 29.375,
	"grad_norm_var": 1.4218098958333334,
	"learning_rate": 0.0001,
	"loss": 7.2074,
	"loss/crossentropy": 1.9208836354315282,
	"loss/hidden": 3.355859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18774686167016624,
	"step": 200
	},
	{
	"epoch": 0.0105,
	"grad_norm": 29.75,
	"grad_norm_var": 5.548958333333333,
	"learning_rate": 0.0001,
	"loss": 7.2446,
	"loss/crossentropy": 1.8792764976620675,
	"loss/hidden": 3.430859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19080359637737274,
	"step": 210
	},
	{
	"epoch": 0.011,
	"grad_norm": 32.25,
	"grad_norm_var": 11.7619140625,
	"learning_rate": 0.0001,
	"loss": 7.2031,
	"loss/crossentropy": 1.926865078508854,
	"loss/hidden": 3.387890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19636590238660573,
	"step": 220
	},
	{
	"epoch": 0.0115,
	"grad_norm": 29.25,
	"grad_norm_var": 4.170247395833333,
	"learning_rate": 0.0001,
	"loss": 7.0576,
	"loss/crossentropy": 1.8266212515532971,
	"loss/hidden": 3.377734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18201391287148,
	"step": 230
	},
	{
	"epoch": 0.012,
	"grad_norm": 31.5,
	"grad_norm_var": 1.81015625,
	"learning_rate": 0.0001,
	"loss": 7.1432,
	"loss/crossentropy": 1.8445213377475738,
	"loss/hidden": 3.34140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18868241235613822,
	"step": 240
	},
	{
	"epoch": 0.0125,
	"grad_norm": 33.75,
	"grad_norm_var": 1.9625138843884541e+18,
	"learning_rate": 0.0001,
	"loss": 7.0655,
	"loss/crossentropy": 1.8239912115037442,
	"loss/hidden": 3.298828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17756748497486113,
	"step": 250
	},
	{
	"epoch": 0.013,
	"grad_norm": 31.875,
	"grad_norm_var": 1.56640625,
	"learning_rate": 0.0001,
	"loss": 7.1575,
	"loss/crossentropy": 1.7626003332436084,
	"loss/hidden": 3.4109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18398213125765323,
	"step": 260
	},
	{
	"epoch": 0.0135,
	"grad_norm": 32.25,
	"grad_norm_var": 1.1129557291666667,
	"learning_rate": 0.0001,
	"loss": 7.1441,
	"loss/crossentropy": 1.7845010846853255,
	"loss/hidden": 3.344140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18147525601089,
	"step": 270
	},
	{
	"epoch": 0.014,
	"grad_norm": 30.25,
	"grad_norm_var": 2.9822265625,
	"learning_rate": 0.0001,
	"loss": 7.1286,
	"loss/crossentropy": 1.8358447797596456,
	"loss/hidden": 3.358203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17241306640207768,
	"step": 280
	},
	{
	"epoch": 0.0145,
	"grad_norm": 33.0,
	"grad_norm_var": 10.982291666666667,
	"learning_rate": 0.0001,
	"loss": 7.1123,
	"loss/crossentropy": 1.843992917239666,
	"loss/hidden": 3.3671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19916406068950893,
	"step": 290
	},
	{
	"epoch": 0.015,
	"grad_norm": 31.5,
	"grad_norm_var": 3.6176432291666667,
	"learning_rate": 0.0001,
	"loss": 6.9761,
	"loss/crossentropy": 1.710184234380722,
	"loss/hidden": 3.385546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1904242929071188,
	"step": 300
	},
	{
	"epoch": 0.0155,
	"grad_norm": 30.625,
	"grad_norm_var": 1.4795028269701094e+18,
	"learning_rate": 0.0001,
	"loss": 7.1128,
	"loss/crossentropy": 1.783938717842102,
	"loss/hidden": 3.38515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19371993821114303,
	"step": 310
	},
	{
	"epoch": 0.016,
	"grad_norm": 27.375,
	"grad_norm_var": 9.558072916666667,
	"learning_rate": 0.0001,
	"loss": 7.1587,
	"loss/crossentropy": 1.799688772857189,
	"loss/hidden": 3.35078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18227657950483261,
	"step": 320
	},
	{
	"epoch": 0.0165,
	"grad_norm": 30.75,
	"grad_norm_var": 5.827235584899985e+17,
	"learning_rate": 0.0001,
	"loss": 7.1719,
	"loss/crossentropy": 1.8475290067493915,
	"loss/hidden": 3.490234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.20651640743017197,
	"step": 330
	},
	{
	"epoch": 0.017,
	"grad_norm": 31.875,
	"grad_norm_var": 1.0473683707078467e+18,
	"learning_rate": 0.0001,
	"loss": 7.2024,
	"loss/crossentropy": 1.7877734430134296,
	"loss/hidden": 3.341015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17529369578696788,
	"step": 340
	},
	{
	"epoch": 0.0175,
	"grad_norm": 29.625,
	"grad_norm_var": 1.0473683706481477e+18,
	"learning_rate": 0.0001,
	"loss": 7.0127,
	"loss/crossentropy": 1.8476789727807046,
	"loss/hidden": 3.376953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18340907394886016,
	"step": 350
	},
	{
	"epoch": 0.018,
	"grad_norm": 31.5,
	"grad_norm_var": 4.201822916666667,
	"learning_rate": 0.0001,
	"loss": 7.0837,
	"loss/crossentropy": 1.9127952009439468,
	"loss/hidden": 3.274609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18515819907188416,
	"step": 360
	},
	{
	"epoch": 0.0185,
	"grad_norm": 33.25,
	"grad_norm_var": 3.4580729166666666,
	"learning_rate": 0.0001,
	"loss": 7.1494,
	"loss/crossentropy": 1.7446002267301082,
	"loss/hidden": 3.410546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18972037807106973,
	"step": 370
	},
	{
	"epoch": 0.019,
	"grad_norm": 32.25,
	"grad_norm_var": 4.0712890625,
	"learning_rate": 0.0001,
	"loss": 6.9798,
	"loss/crossentropy": 1.6596938122063876,
	"loss/hidden": 3.39296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16941323587670923,
	"step": 380
	},
	{
	"epoch": 0.0195,
	"grad_norm": 31.5,
	"grad_norm_var": 1.8014398298089062e+18,
	"learning_rate": 0.0001,
	"loss": 7.1659,
	"loss/crossentropy": 1.8092470526695252,
	"loss/hidden": 3.278515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16989028006792067,
	"step": 390
	},
	{
	"epoch": 0.02,
	"grad_norm": 29.25,
	"grad_norm_var": 1.801439829596395e+18,
	"learning_rate": 0.0001,
	"loss": 7.1246,
	"loss/crossentropy": 1.803744176030159,
	"loss/hidden": 3.365625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19061805782839655,
	"step": 400
	},
	{
	"epoch": 0.0205,
	"grad_norm": 30.75,
	"grad_norm_var": 1.1895833333333334,
	"learning_rate": 0.0001,
	"loss": 6.8644,
	"loss/crossentropy": 1.711807917803526,
	"loss/hidden": 3.348046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17410435527563095,
	"step": 410
	},
	{
	"epoch": 0.021,
	"grad_norm": 28.75,
	"grad_norm_var": 1.0518229166666666,
	"learning_rate": 0.0001,
	"loss": 6.9733,
	"loss/crossentropy": 1.9412737876176833,
	"loss/hidden": 3.32109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1845760691910982,
	"step": 420
	},
	{
	"epoch": 0.0215,
	"grad_norm": 33.75,
	"grad_norm_var": 3.36875,
	"learning_rate": 0.0001,
	"loss": 7.0425,
	"loss/crossentropy": 1.6975354842841626,
	"loss/hidden": 3.30703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17426773644983767,
	"step": 430
	},
	{
	"epoch": 0.022,
	"grad_norm": 28.875,
	"grad_norm_var": 4.533072916666667,
	"learning_rate": 0.0001,
	"loss": 7.0644,
	"loss/crossentropy": 1.8431582309305667,
	"loss/hidden": 3.309765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19988675275817513,
	"step": 440
	},
	{
	"epoch": 0.0225,
	"grad_norm": 28.5,
	"grad_norm_var": 4.65,
	"learning_rate": 0.0001,
	"loss": 7.1091,
	"loss/crossentropy": 1.845390348136425,
	"loss/hidden": 3.395703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18364266194403173,
	"step": 450
	},
	{
	"epoch": 0.023,
	"grad_norm": 30.75,
	"grad_norm_var": 4.459375,
	"learning_rate": 0.0001,
	"loss": 7.0581,
	"loss/crossentropy": 1.7513741821050643,
	"loss/hidden": 3.42109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.186102606728673,
	"step": 460
	},
	{
	"epoch": 0.0235,
	"grad_norm": 27.375,
	"grad_norm_var": 4.786458333333333,
	"learning_rate": 0.0001,
	"loss": 6.9763,
	"loss/crossentropy": 1.779174941033125,
	"loss/hidden": 3.373046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17763521214947103,
	"step": 470
	},
	{
	"epoch": 0.024,
	"grad_norm": 32.75,
	"grad_norm_var": 4.1,
	"learning_rate": 0.0001,
	"loss": 6.9638,
	"loss/crossentropy": 1.7178381219506265,
	"loss/hidden": 3.36484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17294319327920676,
	"step": 480
	},
	{
	"epoch": 0.0245,
	"grad_norm": 33.75,
	"grad_norm_var": 3.40625,
	"learning_rate": 0.0001,
	"loss": 6.9397,
	"loss/crossentropy": 1.8609587274491788,
	"loss/hidden": 3.309765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1921778223477304,
	"step": 490
	},
	{
	"epoch": 0.025,
	"grad_norm": 30.125,
	"grad_norm_var": 7.0625,
	"learning_rate": 0.0001,
	"loss": 7.1176,
	"loss/crossentropy": 1.8291713461279868,
	"loss/hidden": 3.390234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18730791788548232,
	"step": 500
	},
	{
	"epoch": 0.0255,
	"grad_norm": 30.375,
	"grad_norm_var": 6.520572916666667,
	"learning_rate": 0.0001,
	"loss": 7.097,
	"loss/crossentropy": 1.6978721603751183,
	"loss/hidden": 3.354296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16910959454253316,
	"step": 510
	},
	{
	"epoch": 0.026,
	"grad_norm": 31.5,
	"grad_norm_var": 5.492708333333334,
	"learning_rate": 0.0001,
	"loss": 7.1184,
	"loss/crossentropy": 1.7646001767367125,
	"loss/hidden": 3.49609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18606224549002945,
	"step": 520
	},
	{
	"epoch": 0.0265,
	"grad_norm": 33.25,
	"grad_norm_var": 3.2478515625,
	"learning_rate": 0.0001,
	"loss": 6.9289,
	"loss/crossentropy": 1.7254683546721936,
	"loss/hidden": 3.414453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19350956091657281,
	"step": 530
	},
	{
	"epoch": 0.027,
	"grad_norm": 28.5,
	"grad_norm_var": 3.2426432291666667,
	"learning_rate": 0.0001,
	"loss": 7.0072,
	"loss/crossentropy": 1.8291743457317353,
	"loss/hidden": 3.2703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17015220914036036,
	"step": 540
	},
	{
	"epoch": 0.0275,
	"grad_norm": 29.375,
	"grad_norm_var": 6.1978515625,
	"learning_rate": 0.0001,
	"loss": 7.0714,
	"loss/crossentropy": 1.7038650900125503,
	"loss/hidden": 3.35546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17573642041534185,
	"step": 550
	},
	{
	"epoch": 0.028,
	"grad_norm": 28.875,
	"grad_norm_var": 5.530143229166667,
	"learning_rate": 0.0001,
	"loss": 7.0376,
	"loss/crossentropy": 2.000048974901438,
	"loss/hidden": 3.3921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.20670556500554085,
	"step": 560
	},
	{
	"epoch": 0.0285,
	"grad_norm": 30.125,
	"grad_norm_var": 37.509830729166666,
	"learning_rate": 0.0001,
	"loss": 7.0782,
	"loss/crossentropy": 1.7484589993953705,
	"loss/hidden": 3.4453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.20398099757730961,
	"step": 570
	},
	{
	"epoch": 0.029,
	"grad_norm": 30.75,
	"grad_norm_var": 37.80930989583333,
	"learning_rate": 0.0001,
	"loss": 7.1094,
	"loss/crossentropy": 1.747946521639824,
	"loss/hidden": 3.325,
	"loss/jsd": 0.0,
	"loss/logits": 0.1723929913714528,
	"step": 580
	},
	{
	"epoch": 0.0295,
	"grad_norm": 31.5,
	"grad_norm_var": 1.9410807291666667,
	"learning_rate": 0.0001,
	"loss": 7.0532,
	"loss/crossentropy": 1.714518916606903,
	"loss/hidden": 3.395703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17450172062963248,
	"step": 590
	},
	{
	"epoch": 0.03,
	"grad_norm": 31.375,
	"grad_norm_var": 6.620995009586922e+17,
	"learning_rate": 0.0001,
	"loss": 7.2589,
	"loss/crossentropy": 1.7456246592104434,
	"loss/hidden": 3.3328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18539317091926932,
	"step": 600
	},
	{
	"epoch": 0.0305,
	"grad_norm": 31.625,
	"grad_norm_var": 6.620995011655063e+17,
	"learning_rate": 0.0001,
	"loss": 7.1014,
	"loss/crossentropy": 1.6763587422668933,
	"loss/hidden": 3.4015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1931827544234693,
	"step": 610
	},
	{
	"epoch": 0.031,
	"grad_norm": 31.5,
	"grad_norm_var": 4.528125,
	"learning_rate": 0.0001,
	"loss": 7.115,
	"loss/crossentropy": 1.849663856625557,
	"loss/hidden": 3.41953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.21164124589413405,
	"step": 620
	},
	{
	"epoch": 0.0315,
	"grad_norm": 31.25,
	"grad_norm_var": 3.027083333333333,
	"learning_rate": 0.0001,
	"loss": 7.1975,
	"loss/crossentropy": 1.765239630639553,
	"loss/hidden": 3.3609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18264974560588598,
	"step": 630
	},
	{
	"epoch": 0.032,
	"grad_norm": 29.25,
	"grad_norm_var": 3.428580729166667,
	"learning_rate": 0.0001,
	"loss": 7.1206,
	"loss/crossentropy": 1.8783695727586747,
	"loss/hidden": 3.369921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18768006665632128,
	"step": 640
	},
	{
	"epoch": 0.0325,
	"grad_norm": 30.75,
	"grad_norm_var": 3.9385416666666666,
	"learning_rate": 0.0001,
	"loss": 7.1671,
	"loss/crossentropy": 1.8120282679796218,
	"loss/hidden": 3.41484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.21209220625460148,
	"step": 650
	},
	{
	"epoch": 0.033,
	"grad_norm": 31.75,
	"grad_norm_var": 1.77265625,
	"learning_rate": 0.0001,
	"loss": 7.0683,
	"loss/crossentropy": 1.6486516989767552,
	"loss/hidden": 3.3765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17768741883337497,
	"step": 660
	},
	{
	"epoch": 0.0335,
	"grad_norm": 28.5,
	"grad_norm_var": 1.9622395833333333,
	"learning_rate": 0.0001,
	"loss": 7.0341,
	"loss/crossentropy": 1.5188174404203891,
	"loss/hidden": 3.355078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17400255370885134,
	"step": 670
	},
	{
	"epoch": 0.034,
	"grad_norm": 29.25,
	"grad_norm_var": 3.075,
	"learning_rate": 0.0001,
	"loss": 7.0187,
	"loss/crossentropy": 1.7111039966344834,
	"loss/hidden": 3.42734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.20188356712460517,
	"step": 680
	},
	{
	"epoch": 0.0345,
	"grad_norm": 30.5,
	"grad_norm_var": 1.5458333333333334,
	"learning_rate": 0.0001,
	"loss": 7.1392,
	"loss/crossentropy": 1.7463210627436638,
	"loss/hidden": 3.380078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18064118530601264,
	"step": 690
	},
	{
	"epoch": 0.035,
	"grad_norm": 30.0,
	"grad_norm_var": 1.6020833333333333,
	"learning_rate": 0.0001,
	"loss": 7.0488,
	"loss/crossentropy": 1.913002396374941,
	"loss/hidden": 3.248046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17795131383463741,
	"step": 700
	},
	{
	"epoch": 0.0355,
	"grad_norm": 3674210304.0,
	"grad_norm_var": 2.2729279965717071e+18,
	"learning_rate": 0.0001,
	"loss": 7.1836,
	"loss/crossentropy": 1.7232265777885913,
	"loss/hidden": 3.417578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19430895978584886,
	"step": 710
	},
	{
	"epoch": 0.036,
	"grad_norm": 29.125,
	"grad_norm_var": 8.437388195823355e+17,
	"learning_rate": 0.0001,
	"loss": 6.9841,
	"loss/crossentropy": 1.8030119113624097,
	"loss/hidden": 3.39453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18302876157686115,
	"step": 720
	},
	{
	"epoch": 0.0365,
	"grad_norm": 30.375,
	"grad_norm_var": 2.85,
	"learning_rate": 0.0001,
	"loss": 6.9804,
	"loss/crossentropy": 1.9009442821145057,
	"loss/hidden": 3.266796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16866004383191466,
	"step": 730
	},
	{
	"epoch": 0.037,
	"grad_norm": 30.0,
	"grad_norm_var": 9.339322916666667,
	"learning_rate": 0.0001,
	"loss": 6.9876,
	"loss/crossentropy": 1.6418433368206025,
	"loss/hidden": 3.438671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.191958365496248,
	"step": 740
	},
	{
	"epoch": 0.0375,
	"grad_norm": 30.875,
	"grad_norm_var": 7.639322916666667,
	"learning_rate": 0.0001,
	"loss": 7.0538,
	"loss/crossentropy": 1.853764034062624,
	"loss/hidden": 3.32578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17473467853851615,
	"step": 750
	},
	{
	"epoch": 0.038,
	"grad_norm": 31.125,
	"grad_norm_var": 1.0613932291666666,
	"learning_rate": 0.0001,
	"loss": 7.1458,
	"loss/crossentropy": 1.8514880582690239,
	"loss/hidden": 3.378515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19726306498050689,
	"step": 760
	},
	{
	"epoch": 0.0385,
	"grad_norm": 28.875,
	"grad_norm_var": 1.7997395833333334,
	"learning_rate": 0.0001,
	"loss": 7.0766,
	"loss/crossentropy": 1.8405121728777885,
	"loss/hidden": 3.324609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19442977402359246,
	"step": 770
	},
	{
	"epoch": 0.039,
	"grad_norm": 29.0,
	"grad_norm_var": 2.3802083333333335,
	"learning_rate": 0.0001,
	"loss": 7.0214,
	"loss/crossentropy": 1.9466332450509072,
	"loss/hidden": 3.289453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.170109105668962,
	"step": 780
	},
	{
	"epoch": 0.0395,
	"grad_norm": 30.0,
	"grad_norm_var": 1.6124348958333334,
	"learning_rate": 0.0001,
	"loss": 7.1306,
	"loss/crossentropy": 1.8399325378239155,
	"loss/hidden": 3.46015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.20626397961750625,
	"step": 790
	},
	{
	"epoch": 0.04,
	"grad_norm": 31.75,
	"grad_norm_var": 1.6559895833333333,
	"learning_rate": 0.0001,
	"loss": 7.1375,
	"loss/crossentropy": 1.9278223380446433,
	"loss/hidden": 3.41015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2024382423609495,
	"step": 800
	},
	{
	"epoch": 0.0405,
	"grad_norm": 27.5,
	"grad_norm_var": 16.089322916666667,
	"learning_rate": 0.0001,
	"loss": 7.0363,
	"loss/crossentropy": 1.859210267663002,
	"loss/hidden": 3.345703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18585832975804806,
	"step": 810
	},
	{
	"epoch": 0.041,
	"grad_norm": 28.25,
	"grad_norm_var": 38.77265625,
	"learning_rate": 0.0001,
	"loss": 6.9378,
	"loss/crossentropy": 1.8994540706276895,
	"loss/hidden": 3.376953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2018324811011553,
	"step": 820
	},
	{
	"epoch": 0.0415,
	"grad_norm": 32.0,
	"grad_norm_var": 38.8375,
	"learning_rate": 0.0001,
	"loss": 7.002,
	"loss/crossentropy": 1.8244094364345074,
	"loss/hidden": 3.415625,
	"loss/jsd": 0.0,
	"loss/logits": 0.20930232629179954,
	"step": 830
	},
	{
	"epoch": 0.042,
	"grad_norm": 30.25,
	"grad_norm_var": 2.0634765625,
	"learning_rate": 0.0001,
	"loss": 6.9688,
	"loss/crossentropy": 1.8976417139172554,
	"loss/hidden": 3.33515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1871755332686007,
	"step": 840
	},
	{
	"epoch": 0.0425,
	"grad_norm": 50.75,
	"grad_norm_var": 28.351497395833334,
	"learning_rate": 0.0001,
	"loss": 6.992,
	"loss/crossentropy": 1.899886740744114,
	"loss/hidden": 3.417578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18904313631355762,
	"step": 850
	},
	{
	"epoch": 0.043,
	"grad_norm": 29.0,
	"grad_norm_var": 27.3056640625,
	"learning_rate": 0.0001,
	"loss": 7.0939,
	"loss/crossentropy": 1.8286892741918563,
	"loss/hidden": 3.362109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18909739144146442,
	"step": 860
	},
	{
	"epoch": 0.0435,
	"grad_norm": 28.375,
	"grad_norm_var": 1.3247395833333333,
	"learning_rate": 0.0001,
	"loss": 6.9381,
	"loss/crossentropy": 1.9782623961567878,
	"loss/hidden": 3.305859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1766037069261074,
	"step": 870
	},
	{
	"epoch": 0.044,
	"grad_norm": 29.0,
	"grad_norm_var": 2.1988932291666665,
	"learning_rate": 0.0001,
	"loss": 6.8414,
	"loss/crossentropy": 1.8968854755163194,
	"loss/hidden": 3.413671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.20138736004009844,
	"step": 880
	},
	{
	"epoch": 0.0445,
	"grad_norm": 32.75,
	"grad_norm_var": 1.92890625,
	"learning_rate": 0.0001,
	"loss": 7.1271,
	"loss/crossentropy": 1.8630956932902336,
	"loss/hidden": 3.428125,
	"loss/jsd": 0.0,
	"loss/logits": 0.21029497124254704,
	"step": 890
	},
	{
	"epoch": 0.045,
	"grad_norm": 29.25,
	"grad_norm_var": 2.037239583333333,
	"learning_rate": 0.0001,
	"loss": 7.0435,
	"loss/crossentropy": 1.8676601111888886,
	"loss/hidden": 3.351953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19789310321211814,
	"step": 900
	},
	{
	"epoch": 0.0455,
	"grad_norm": 30.25,
	"grad_norm_var": 4.2265225949129395e+17,
	"learning_rate": 0.0001,
	"loss": 7.1233,
	"loss/crossentropy": 1.8434145867824554,
	"loss/hidden": 3.378125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18832013495266436,
	"step": 910
	},
	{
	"epoch": 0.046,
	"grad_norm": 29.375,
	"grad_norm_var": 4.2265225969445555e+17,
	"learning_rate": 0.0001,
	"loss": 6.8733,
	"loss/crossentropy": 1.81582195982337,
	"loss/hidden": 3.416796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18773540575057268,
	"step": 920
	},
	{
	"epoch": 0.0465,
	"grad_norm": 33.0,
	"grad_norm_var": 4.476822916666666,
	"learning_rate": 0.0001,
	"loss": 7.0752,
	"loss/crossentropy": 1.8667447365820409,
	"loss/hidden": 3.336328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18054497512057424,
	"step": 930
	},
	{
	"epoch": 0.047,
	"grad_norm": 28.625,
	"grad_norm_var": 6.144205729166667,
	"learning_rate": 0.0001,
	"loss": 7.0032,
	"loss/crossentropy": 1.8144822165369987,
	"loss/hidden": 3.271484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1632128401659429,
	"step": 940
	},
	{
	"epoch": 0.0475,
	"grad_norm": 30.375,
	"grad_norm_var": 5.01875,
	"learning_rate": 0.0001,
	"loss": 6.8626,
	"loss/crossentropy": 1.8152224607765675,
	"loss/hidden": 3.394140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18933067489415406,
	"step": 950
	},
	{
	"epoch": 0.048,
	"grad_norm": 37.0,
	"grad_norm_var": 7.297916666666667,
	"learning_rate": 0.0001,
	"loss": 7.0437,
	"loss/crossentropy": 1.6399064034223556,
	"loss/hidden": 3.39140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18825935963541268,
	"step": 960
	},
	{
	"epoch": 0.0485,
	"grad_norm": 29.75,
	"grad_norm_var": 4.739583333333333,
	"learning_rate": 0.0001,
	"loss": 7.0331,
	"loss/crossentropy": 1.6737658925354482,
	"loss/hidden": 3.412890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17548465421423315,
	"step": 970
	},
	{
	"epoch": 0.049,
	"grad_norm": 30.0,
	"grad_norm_var": 18.1541015625,
	"learning_rate": 0.0001,
	"loss": 6.9385,
	"loss/crossentropy": 1.8608146458864212,
	"loss/hidden": 3.35234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19196428768336773,
	"step": 980
	},
	{
	"epoch": 0.0495,
	"grad_norm": 33.75,
	"grad_norm_var": 4.003125,
	"learning_rate": 0.0001,
	"loss": 7.0686,
	"loss/crossentropy": 1.8301926247775555,
	"loss/hidden": 3.347265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18049606634303927,
	"step": 990
	},
	{
	"epoch": 0.05,
	"grad_norm": 31.75,
	"grad_norm_var": 1.0473683721235639e+18,
	"learning_rate": 0.0001,
	"loss": 7.0193,
	"loss/crossentropy": 1.7465273767709732,
	"loss/hidden": 3.369921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17173261381685734,
	"step": 1000
	},
	{
	"epoch": 0.0505,
	"grad_norm": 29.75,
	"grad_norm_var": 22.408268229166666,
	"learning_rate": 0.0001,
	"loss": 6.9709,
	"loss/crossentropy": 1.7683202728629113,
	"loss/hidden": 3.419921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.210743809863925,
	"step": 1010
	},
	{
	"epoch": 0.051,
	"grad_norm": 28.625,
	"grad_norm_var": 2.371875,
	"learning_rate": 0.0001,
	"loss": 7.0597,
	"loss/crossentropy": 2.046058624982834,
	"loss/hidden": 3.3375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18963768277317286,
	"step": 1020
	},
	{
	"epoch": 0.0515,
	"grad_norm": 30.0,
	"grad_norm_var": 1.3184895833333334,
	"learning_rate": 0.0001,
	"loss": 7.0245,
	"loss/crossentropy": 1.745854178071022,
	"loss/hidden": 3.30390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17351055853068828,
	"step": 1030
	},
	{
	"epoch": 0.052,
	"grad_norm": 34.75,
	"grad_norm_var": 2.8108723958333335,
	"learning_rate": 0.0001,
	"loss": 6.9474,
	"loss/crossentropy": 1.8277953140437604,
	"loss/hidden": 3.33984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.16915141120553018,
	"step": 1040
	},
	{
	"epoch": 0.0525,
	"grad_norm": 32.5,
	"grad_norm_var": 3.39765625,
	"learning_rate": 0.0001,
	"loss": 6.9366,
	"loss/crossentropy": 1.9404960587620734,
	"loss/hidden": 3.35625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18970660548657178,
	"step": 1050
	},
	{
	"epoch": 0.053,
	"grad_norm": 35.75,
	"grad_norm_var": 1.1892317588406927e+18,
	"learning_rate": 0.0001,
	"loss": 7.0954,
	"loss/crossentropy": 1.8612810902297496,
	"loss/hidden": 3.31171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17269262354820966,
	"step": 1060
	},
	{
	"epoch": 0.0535,
	"grad_norm": 29.875,
	"grad_norm_var": 1.1892317588497805e+18,
	"learning_rate": 0.0001,
	"loss": 7.0259,
	"loss/crossentropy": 1.743497943878174,
	"loss/hidden": 3.2609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1666251303628087,
	"step": 1070
	},
	{
	"epoch": 0.054,
	"grad_norm": 29.625,
	"grad_norm_var": 2.903059895833333,
	"learning_rate": 0.0001,
	"loss": 7.0055,
	"loss/crossentropy": 1.9657445706427097,
	"loss/hidden": 3.32734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18259168425574898,
	"step": 1080
	},
	{
	"epoch": 0.0545,
	"grad_norm": 30.25,
	"grad_norm_var": 51.16015625,
	"learning_rate": 0.0001,
	"loss": 7.1126,
	"loss/crossentropy": 2.0204195216298104,
	"loss/hidden": 3.334765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.20481194872409106,
	"step": 1090
	},
	{
	"epoch": 0.055,
	"grad_norm": 29.625,
	"grad_norm_var": 2.90390625,
	"learning_rate": 0.0001,
	"loss": 7.0413,
	"loss/crossentropy": 1.589720468968153,
	"loss/hidden": 3.275,
	"loss/jsd": 0.0,
	"loss/logits": 0.18000307623296977,
	"step": 1100
	},
	{
	"epoch": 0.0555,
	"grad_norm": 29.375,
	"grad_norm_var": 2.2613932291666665,
	"learning_rate": 0.0001,
	"loss": 6.9722,
	"loss/crossentropy": 1.7191244810819626,
	"loss/hidden": 3.45390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18164545409381389,
	"step": 1110
	},
	{
	"epoch": 0.056,
	"grad_norm": 28.875,
	"grad_norm_var": 1.7520833333333334,
	"learning_rate": 0.0001,
	"loss": 6.9492,
	"loss/crossentropy": 1.8928776159882545,
	"loss/hidden": 3.358203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18985262140631676,
	"step": 1120
	},
	{
	"epoch": 0.0565,
	"grad_norm": 30.0,
	"grad_norm_var": 1.2447265625,
	"learning_rate": 0.0001,
	"loss": 7.1367,
	"loss/crossentropy": 1.7702923499047756,
	"loss/hidden": 3.32109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17983693201094866,
	"step": 1130
	},
	{
	"epoch": 0.057,
	"grad_norm": 30.25,
	"grad_norm_var": 3.3080729166666667,
	"learning_rate": 0.0001,
	"loss": 7.0322,
	"loss/crossentropy": 1.8519952863454818,
	"loss/hidden": 3.465234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.20197003111243247,
	"step": 1140
	},
	{
	"epoch": 0.0575,
	"grad_norm": 31.125,
	"grad_norm_var": 3.1962890625,
	"learning_rate": 0.0001,
	"loss": 7.0557,
	"loss/crossentropy": 1.8624355979263783,
	"loss/hidden": 3.526953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.20604186709970235,
	"step": 1150
	},
	{
	"epoch": 0.058,
	"grad_norm": 28.5,
	"grad_norm_var": 22.8462890625,
	"learning_rate": 0.0001,
	"loss": 6.9562,
	"loss/crossentropy": 1.8102556586265564,
	"loss/hidden": 3.44609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.20240887869149446,
	"step": 1160
	},
	{
	"epoch": 0.0585,
	"grad_norm": 32.25,
	"grad_norm_var": 23.950455729166666,
	"learning_rate": 0.0001,
	"loss": 6.9857,
	"loss/crossentropy": 1.8860370084643363,
	"loss/hidden": 3.339453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18206186592578888,
	"step": 1170
	},
	{
	"epoch": 0.059,
	"grad_norm": 30.125,
	"grad_norm_var": 1.6518229166666667,
	"learning_rate": 0.0001,
	"loss": 7.056,
	"loss/crossentropy": 1.9338740326464177,
	"loss/hidden": 3.42265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.22607974465936423,
	"step": 1180
	},
	{
	"epoch": 0.0595,
	"grad_norm": 29.5,
	"grad_norm_var": 11.267708333333333,
	"learning_rate": 0.0001,
	"loss": 6.931,
	"loss/crossentropy": 1.9357615426182746,
	"loss/hidden": 3.351953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1852928228676319,
	"step": 1190
	},
	{
	"epoch": 0.06,
	"grad_norm": 39.25,
	"grad_norm_var": 1.2635411532464435e+18,
	"learning_rate": 0.0001,
	"loss": 7.0138,
	"loss/crossentropy": 1.669256182014942,
	"loss/hidden": 3.31328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1792891369201243,
	"step": 1200
	},
	{
	"epoch": 0.0605,
	"grad_norm": 30.125,
	"grad_norm_var": 2.2555340145024479e+18,
	"learning_rate": 0.0001,
	"loss": 7.003,
	"loss/crossentropy": 1.8537344850599766,
	"loss/hidden": 3.6078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18713028654456138,
	"step": 1210
	},
	{
	"epoch": 0.061,
	"grad_norm": 30.75,
	"grad_norm_var": 1.1529214881025404e+18,
	"learning_rate": 0.0001,
	"loss": 6.9982,
	"loss/crossentropy": 1.8868144243955611,
	"loss/hidden": 3.259375,
	"loss/jsd": 0.0,
	"loss/logits": 0.16826356202363968,
	"step": 1220
	},
	{
	"epoch": 0.0615,
	"grad_norm": 38.0,
	"grad_norm_var": 11.041080729166667,
	"learning_rate": 0.0001,
	"loss": 7.1145,
	"loss/crossentropy": 1.7373395457863807,
	"loss/hidden": 3.26328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.16631986051797867,
	"step": 1230
	},
	{
	"epoch": 0.062,
	"grad_norm": 28.625,
	"grad_norm_var": 6.718489583333334,
	"learning_rate": 0.0001,
	"loss": 6.8881,
	"loss/crossentropy": 1.610298927500844,
	"loss/hidden": 3.358984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1909397032111883,
	"step": 1240
	},
	{
	"epoch": 0.0625,
	"grad_norm": 29.625,
	"grad_norm_var": 4.344205729166666,
	"learning_rate": 0.0001,
	"loss": 7.0797,
	"loss/crossentropy": 1.7361410059034825,
	"loss/hidden": 3.366796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18541559688746928,
	"step": 1250
	},
	{
	"epoch": 0.063,
	"grad_norm": 27.875,
	"grad_norm_var": 3.3889973958333335,
	"learning_rate": 0.0001,
	"loss": 6.9329,
	"loss/crossentropy": 1.7078735738992692,
	"loss/hidden": 3.4015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18024133574217557,
	"step": 1260
	},
	{
	"epoch": 0.0635,
	"grad_norm": 35.0,
	"grad_norm_var": 6.6166015625,
	"learning_rate": 0.0001,
	"loss": 6.9738,
	"loss/crossentropy": 1.8044774197041988,
	"loss/hidden": 3.276171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1794836211949587,
	"step": 1270
	},
	{
	"epoch": 0.064,
	"grad_norm": 29.375,
	"grad_norm_var": 13.601822916666666,
	"learning_rate": 0.0001,
	"loss": 6.9062,
	"loss/crossentropy": 1.8313415050506592,
	"loss/hidden": 3.3140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18087668968364595,
	"step": 1280
	},
	{
	"epoch": 0.0645,
	"grad_norm": 29.75,
	"grad_norm_var": 3.6020182291666667,
	"learning_rate": 0.0001,
	"loss": 6.9407,
	"loss/crossentropy": 1.6438103877007961,
	"loss/hidden": 3.41875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1820345466956496,
	"step": 1290
	},
	{
	"epoch": 0.065,
	"grad_norm": 30.25,
	"grad_norm_var": 1.2379557291666667,
	"learning_rate": 0.0001,
	"loss": 7.0302,
	"loss/crossentropy": 1.7621051207184792,
	"loss/hidden": 3.41171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19308385904878378,
	"step": 1300
	},
	{
	"epoch": 0.0655,
	"grad_norm": 29.375,
	"grad_norm_var": 3.46640625,
	"learning_rate": 0.0001,
	"loss": 7.1178,
	"loss/crossentropy": 1.871315811574459,
	"loss/hidden": 3.3875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19272034596651794,
	"step": 1310
	},
	{
	"epoch": 0.066,
	"grad_norm": 31.625,
	"grad_norm_var": 3.609375,
	"learning_rate": 0.0001,
	"loss": 7.0298,
	"loss/crossentropy": 1.8252998240292073,
	"loss/hidden": 3.36875,
	"loss/jsd": 0.0,
	"loss/logits": 0.21978344805538655,
	"step": 1320
	},
	{
	"epoch": 0.0665,
	"grad_norm": 33.5,
	"grad_norm_var": 1.3990009840566536e+18,
	"learning_rate": 0.0001,
	"loss": 7.068,
	"loss/crossentropy": 1.639507355540991,
	"loss/hidden": 3.60703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18024437148123978,
	"step": 1330
	},
	{
	"epoch": 0.067,
	"grad_norm": 28.75,
	"grad_norm_var": 1.3990009842291443e+18,
	"learning_rate": 0.0001,
	"loss": 6.9556,
	"loss/crossentropy": 1.8158223167061807,
	"loss/hidden": 3.3203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18003626042045653,
	"step": 1340
	},
	{
	"epoch": 0.0675,
	"grad_norm": 29.75,
	"grad_norm_var": 3.21640625,
	"learning_rate": 0.0001,
	"loss": 6.7859,
	"loss/crossentropy": 1.6335266396403312,
	"loss/hidden": 3.38046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1845483684912324,
	"step": 1350
	},
	{
	"epoch": 0.068,
	"grad_norm": 30.75,
	"grad_norm_var": 2.5497395833333334,
	"learning_rate": 0.0001,
	"loss": 6.8607,
	"loss/crossentropy": 1.7433619983494282,
	"loss/hidden": 3.3484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17121702507138253,
	"step": 1360
	},
	{
	"epoch": 0.0685,
	"grad_norm": 28.0,
	"grad_norm_var": 4.353580729166667,
	"learning_rate": 0.0001,
	"loss": 7.1422,
	"loss/crossentropy": 1.8455571182072164,
	"loss/hidden": 3.333203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2054300512187183,
	"step": 1370
	},
	{
	"epoch": 0.069,
	"grad_norm": 29.625,
	"grad_norm_var": 3.388541666666667,
	"learning_rate": 0.0001,
	"loss": 7.0213,
	"loss/crossentropy": 1.8241696588695049,
	"loss/hidden": 3.321875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18985041994601487,
	"step": 1380
	},
	{
	"epoch": 0.0695,
	"grad_norm": 31.25,
	"grad_norm_var": 8.0431640625,
	"learning_rate": 0.0001,
	"loss": 7.0,
	"loss/crossentropy": 1.7940153643488883,
	"loss/hidden": 3.331640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18176266234368085,
	"step": 1390
	},
	{
	"epoch": 0.07,
	"grad_norm": 33.0,
	"grad_norm_var": 14.3041015625,
	"learning_rate": 0.0001,
	"loss": 6.898,
	"loss/crossentropy": 1.8607503667473793,
	"loss/hidden": 3.326953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17468307819217443,
	"step": 1400
	},
	{
	"epoch": 0.0705,
	"grad_norm": 28.125,
	"grad_norm_var": 13.432291666666666,
	"learning_rate": 0.0001,
	"loss": 7.031,
	"loss/crossentropy": 1.6316836021840573,
	"loss/hidden": 3.240234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.15119749261066318,
	"step": 1410
	},
	{
	"epoch": 0.071,
	"grad_norm": 28.25,
	"grad_norm_var": 45.9634765625,
	"learning_rate": 0.0001,
	"loss": 7.1507,
	"loss/crossentropy": 1.8821631267666816,
	"loss/hidden": 3.465625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19027305245399476,
	"step": 1420
	},
	{
	"epoch": 0.0715,
	"grad_norm": 28.375,
	"grad_norm_var": 46.1884765625,
	"learning_rate": 0.0001,
	"loss": 7.063,
	"loss/crossentropy": 1.6992614693939685,
	"loss/hidden": 3.4625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2002884623594582,
	"step": 1430
	},
	{
	"epoch": 0.072,
	"grad_norm": 29.625,
	"grad_norm_var": 6.732291666666667,
	"learning_rate": 0.0001,
	"loss": 6.9439,
	"loss/crossentropy": 1.7733798533678056,
	"loss/hidden": 3.307421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17554995641112328,
	"step": 1440
	},
	{
	"epoch": 0.0725,
	"grad_norm": 30.625,
	"grad_norm_var": 24.97265625,
	"learning_rate": 0.0001,
	"loss": 7.0264,
	"loss/crossentropy": 1.8444553710520268,
	"loss/hidden": 3.412109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1976129287853837,
	"step": 1450
	},
	{
	"epoch": 0.073,
	"grad_norm": 41.5,
	"grad_norm_var": 18.2275390625,
	"learning_rate": 0.0001,
	"loss": 7.0056,
	"loss/crossentropy": 1.778428715467453,
	"loss/hidden": 3.3046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17879956895485521,
	"step": 1460
	},
	{
	"epoch": 0.0735,
	"grad_norm": 40.75,
	"grad_norm_var": 14.88515625,
	"learning_rate": 0.0001,
	"loss": 6.8647,
	"loss/crossentropy": 1.8260969623923302,
	"loss/hidden": 3.431640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18223165888339282,
	"step": 1470
	},
	{
	"epoch": 0.074,
	"grad_norm": 30.75,
	"grad_norm_var": 12.42265625,
	"learning_rate": 0.0001,
	"loss": 6.9814,
	"loss/crossentropy": 1.852180902659893,
	"loss/hidden": 3.188671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.15915404492989182,
	"step": 1480
	},
	{
	"epoch": 0.0745,
	"grad_norm": 32.0,
	"grad_norm_var": 17.264518229166665,
	"learning_rate": 0.0001,
	"loss": 6.9467,
	"loss/crossentropy": 1.8016018435359,
	"loss/hidden": 3.30234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17374343778938056,
	"step": 1490
	},
	{
	"epoch": 0.075,
	"grad_norm": 27.75,
	"grad_norm_var": 16.795572916666668,
	"learning_rate": 0.0001,
	"loss": 6.9688,
	"loss/crossentropy": 1.7803546212613583,
	"loss/hidden": 3.230078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1623454326763749,
	"step": 1500
	},
	{
	"epoch": 0.0755,
	"grad_norm": 27.125,
	"grad_norm_var": 11.0072265625,
	"learning_rate": 0.0001,
	"loss": 6.9148,
	"loss/crossentropy": 1.7990518882870674,
	"loss/hidden": 3.341015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1776049867272377,
	"step": 1510
	},
	{
	"epoch": 0.076,
	"grad_norm": 28.875,
	"grad_norm_var": 9.0009765625,
	"learning_rate": 0.0001,
	"loss": 6.9834,
	"loss/crossentropy": 1.7659361466765404,
	"loss/hidden": 3.229296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17018448635935784,
	"step": 1520
	},
	{
	"epoch": 0.0765,
	"grad_norm": 28.75,
	"grad_norm_var": 5.566666666666666,
	"learning_rate": 0.0001,
	"loss": 6.9513,
	"loss/crossentropy": 1.948898734152317,
	"loss/hidden": 3.368359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.20332392100244762,
	"step": 1530
	},
	{
	"epoch": 0.077,
	"grad_norm": 37.0,
	"grad_norm_var": 12.0337890625,
	"learning_rate": 0.0001,
	"loss": 6.9845,
	"loss/crossentropy": 1.897236557304859,
	"loss/hidden": 3.305078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1786106862127781,
	"step": 1540
	},
	{
	"epoch": 0.0775,
	"grad_norm": 30.75,
	"grad_norm_var": 10.74140625,
	"learning_rate": 0.0001,
	"loss": 6.9651,
	"loss/crossentropy": 1.668473443388939,
	"loss/hidden": 3.30390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18010491924360394,
	"step": 1550
	},
	{
	"epoch": 0.078,
	"grad_norm": 35.0,
	"grad_norm_var": 11.645768229166666,
	"learning_rate": 0.0001,
	"loss": 7.0873,
	"loss/crossentropy": 1.8844516187906266,
	"loss/hidden": 3.323828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19164156243205072,
	"step": 1560
	},
	{
	"epoch": 0.0785,
	"grad_norm": 36.5,
	"grad_norm_var": 9.326497395833334,
	"learning_rate": 0.0001,
	"loss": 6.9175,
	"loss/crossentropy": 1.7603260070085525,
	"loss/hidden": 3.276953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17738686297088863,
	"step": 1570
	},
	{
	"epoch": 0.079,
	"grad_norm": 28.25,
	"grad_norm_var": 11.4259765625,
	"learning_rate": 0.0001,
	"loss": 7.0352,
	"loss/crossentropy": 1.8728493131697177,
	"loss/hidden": 3.341796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19688725294545292,
	"step": 1580
	},
	{
	"epoch": 0.0795,
	"grad_norm": 29.25,
	"grad_norm_var": 8.5375,
	"learning_rate": 0.0001,
	"loss": 6.955,
	"loss/crossentropy": 1.8099886417388915,
	"loss/hidden": 3.29375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18610341083258392,
	"step": 1590
	},
	{
	"epoch": 0.08,
	"grad_norm": 36.0,
	"grad_norm_var": 19.722330729166668,
	"learning_rate": 0.0001,
	"loss": 6.9313,
	"loss/crossentropy": 1.7017989411950112,
	"loss/hidden": 3.35234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17710780492052436,
	"step": 1600
	},
	{
	"epoch": 0.0805,
	"grad_norm": 32.25,
	"grad_norm_var": 21.603125,
	"learning_rate": 0.0001,
	"loss": 7.069,
	"loss/crossentropy": 1.7873531341552735,
	"loss/hidden": 3.333203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1812642457894981,
	"step": 1610
	},
	{
	"epoch": 0.081,
	"grad_norm": 28.875,
	"grad_norm_var": 3.2207682291666666,
	"learning_rate": 0.0001,
	"loss": 7.0405,
	"loss/crossentropy": 1.7903928458690643,
	"loss/hidden": 3.394921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19645511778071523,
	"step": 1620
	},
	{
	"epoch": 0.0815,
	"grad_norm": 29.75,
	"grad_norm_var": 2.874739583333333,
	"learning_rate": 0.0001,
	"loss": 7.0022,
	"loss/crossentropy": 1.6019535034894943,
	"loss/hidden": 3.271484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1628541074693203,
	"step": 1630
	},
	{
	"epoch": 0.082,
	"grad_norm": 31.375,
	"grad_norm_var": 6.37265625,
	"learning_rate": 0.0001,
	"loss": 6.7734,
	"loss/crossentropy": 1.7893570616841317,
	"loss/hidden": 3.371484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2000499103218317,
	"step": 1640
	},
	{
	"epoch": 0.0825,
	"grad_norm": 30.5,
	"grad_norm_var": 6.910416666666666,
	"learning_rate": 0.0001,
	"loss": 6.9578,
	"loss/crossentropy": 1.6443258710205555,
	"loss/hidden": 3.259765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16416865289211274,
	"step": 1650
	},
	{
	"epoch": 0.083,
	"grad_norm": 30.5,
	"grad_norm_var": 35.25182291666667,
	"learning_rate": 0.0001,
	"loss": 7.0861,
	"loss/crossentropy": 1.8358689159154893,
	"loss/hidden": 3.28359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1853348884731531,
	"step": 1660
	},
	{
	"epoch": 0.0835,
	"grad_norm": 30.0,
	"grad_norm_var": 15.6587890625,
	"learning_rate": 0.0001,
	"loss": 6.9008,
	"loss/crossentropy": 1.9014468491077423,
	"loss/hidden": 3.34140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19975380562245845,
	"step": 1670
	},
	{
	"epoch": 0.084,
	"grad_norm": 28.25,
	"grad_norm_var": 4.9666015625,
	"learning_rate": 0.0001,
	"loss": 7.0062,
	"loss/crossentropy": 1.7637556672096253,
	"loss/hidden": 3.40703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19306765552610158,
	"step": 1680
	},
	{
	"epoch": 0.0845,
	"grad_norm": 44.0,
	"grad_norm_var": 14.08125,
	"learning_rate": 0.0001,
	"loss": 6.9184,
	"loss/crossentropy": 1.7980270460247993,
	"loss/hidden": 3.336328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17251317510381342,
	"step": 1690
	},
	{
	"epoch": 0.085,
	"grad_norm": 30.0,
	"grad_norm_var": 16.656184895833334,
	"learning_rate": 0.0001,
	"loss": 6.8985,
	"loss/crossentropy": 1.9003560155630113,
	"loss/hidden": 3.336328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19372209012508393,
	"step": 1700
	},
	{
	"epoch": 0.0855,
	"grad_norm": 28.375,
	"grad_norm_var": 4.02265625,
	"learning_rate": 0.0001,
	"loss": 6.8638,
	"loss/crossentropy": 1.7488896727561951,
	"loss/hidden": 3.31484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.16111841816455125,
	"step": 1710
	},
	{
	"epoch": 0.086,
	"grad_norm": 4362076160.0,
	"grad_norm_var": 1.1892317599584748e+18,
	"learning_rate": 0.0001,
	"loss": 7.061,
	"loss/crossentropy": 1.7708093903958797,
	"loss/hidden": 3.35625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19512660000473261,
	"step": 1720
	},
	{
	"epoch": 0.0865,
	"grad_norm": 30.375,
	"grad_norm_var": 1.1892317591996554e+18,
	"learning_rate": 0.0001,
	"loss": 6.8861,
	"loss/crossentropy": 1.6944726780056953,
	"loss/hidden": 3.333203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.16455791369080544,
	"step": 1730
	},
	{
	"epoch": 0.087,
	"grad_norm": 29.375,
	"grad_norm_var": 3.2905598958333333,
	"learning_rate": 0.0001,
	"loss": 6.8425,
	"loss/crossentropy": 1.7352489478886128,
	"loss/hidden": 3.32421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16651339596137404,
	"step": 1740
	},
	{
	"epoch": 0.0875,
	"grad_norm": 29.875,
	"grad_norm_var": 1.81015625,
	"learning_rate": 0.0001,
	"loss": 6.886,
	"loss/crossentropy": 1.775932352244854,
	"loss/hidden": 3.375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18791395220905543,
	"step": 1750
	},
	{
	"epoch": 0.088,
	"grad_norm": 29.25,
	"grad_norm_var": 2.9848307291666667,
	"learning_rate": 0.0001,
	"loss": 6.8755,
	"loss/crossentropy": 1.700956543534994,
	"loss/hidden": 3.359765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17034402694553136,
	"step": 1760
	},
	{
	"epoch": 0.0885,
	"grad_norm": 30.375,
	"grad_norm_var": 2.0660807291666665,
	"learning_rate": 0.0001,
	"loss": 6.9996,
	"loss/crossentropy": 1.6696124613285064,
	"loss/hidden": 3.317578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17471891567111014,
	"step": 1770
	},
	{
	"epoch": 0.089,
	"grad_norm": 29.0,
	"grad_norm_var": 2.7729166666666667,
	"learning_rate": 0.0001,
	"loss": 6.8325,
	"loss/crossentropy": 1.6660587199032306,
	"loss/hidden": 3.328515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1662266943603754,
	"step": 1780
	},
	{
	"epoch": 0.0895,
	"grad_norm": 32.5,
	"grad_norm_var": 4.6900390625,
	"learning_rate": 0.0001,
	"loss": 6.947,
	"loss/crossentropy": 1.8900059774518012,
	"loss/hidden": 3.315234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18781680446118115,
	"step": 1790
	},
	{
	"epoch": 0.09,
	"grad_norm": 30.0,
	"grad_norm_var": 4.231705729166666,
	"learning_rate": 0.0001,
	"loss": 6.9437,
	"loss/crossentropy": 1.8869778975844382,
	"loss/hidden": 3.269921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17426692880690098,
	"step": 1800
	},
	{
	"epoch": 0.0905,
	"grad_norm": 33.0,
	"grad_norm_var": 2.8309895833333334,
	"learning_rate": 0.0001,
	"loss": 6.9652,
	"loss/crossentropy": 1.8232818126678467,
	"loss/hidden": 3.331640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16745625659823418,
	"step": 1810
	},
	{
	"epoch": 0.091,
	"grad_norm": 34.25,
	"grad_norm_var": 4.40390625,
	"learning_rate": 0.0001,
	"loss": 7.0219,
	"loss/crossentropy": 1.8258642494678496,
	"loss/hidden": 3.315234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19198300442658364,
	"step": 1820
	},
	{
	"epoch": 0.0915,
	"grad_norm": 32.25,
	"grad_norm_var": 8.268684895833333,
	"learning_rate": 0.0001,
	"loss": 6.8434,
	"loss/crossentropy": 1.7024194486439228,
	"loss/hidden": 3.409765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18930096151307224,
	"step": 1830
	},
	{
	"epoch": 0.092,
	"grad_norm": 31.625,
	"grad_norm_var": 6.74765625,
	"learning_rate": 0.0001,
	"loss": 6.9231,
	"loss/crossentropy": 1.7479817308485508,
	"loss/hidden": 3.3453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1829341644886881,
	"step": 1840
	},
	{
	"epoch": 0.0925,
	"grad_norm": 33.75,
	"grad_norm_var": 4.48515625,
	"learning_rate": 0.0001,
	"loss": 7.0635,
	"loss/crossentropy": 2.0127600729465485,
	"loss/hidden": 3.2953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18128359764814378,
	"step": 1850
	},
	{
	"epoch": 0.093,
	"grad_norm": 31.75,
	"grad_norm_var": 11.642708333333333,
	"learning_rate": 0.0001,
	"loss": 6.9505,
	"loss/crossentropy": 1.7567149683833123,
	"loss/hidden": 3.343359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1842447452247143,
	"step": 1860
	},
	{
	"epoch": 0.0935,
	"grad_norm": 34.5,
	"grad_norm_var": 1.5832967231255347e+18,
	"learning_rate": 0.0001,
	"loss": 7.1294,
	"loss/crossentropy": 1.8183075070381165,
	"loss/hidden": 3.25,
	"loss/jsd": 0.0,
	"loss/logits": 0.17170923966914414,
	"step": 1870
	},
	{
	"epoch": 0.094,
	"grad_norm": 36.0,
	"grad_norm_var": 14.670833333333333,
	"learning_rate": 0.0001,
	"loss": 6.7269,
	"loss/crossentropy": 1.6782560005784035,
	"loss/hidden": 3.329296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16191824562847615,
	"step": 1880
	},
	{
	"epoch": 0.0945,
	"grad_norm": 29.5,
	"grad_norm_var": 8.283984344848707e+17,
	"learning_rate": 0.0001,
	"loss": 6.9423,
	"loss/crossentropy": 1.7822233349084855,
	"loss/hidden": 3.319140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.15704208929091693,
	"step": 1890
	},
	{
	"epoch": 0.095,
	"grad_norm": 27.25,
	"grad_norm_var": 12.049739583333333,
	"learning_rate": 0.0001,
	"loss": 6.8598,
	"loss/crossentropy": 1.8880347676575184,
	"loss/hidden": 3.30546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18590961638838052,
	"step": 1900
	},
	{
	"epoch": 0.0955,
	"grad_norm": 32.75,
	"grad_norm_var": 6.827351348981094e+17,
	"learning_rate": 0.0001,
	"loss": 7.0671,
	"loss/crossentropy": 1.6947499185800552,
	"loss/hidden": 3.341015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17880834415555,
	"step": 1910
	},
	{
	"epoch": 0.096,
	"grad_norm": 30.875,
	"grad_norm_var": 7.036874278235887e+17,
	"learning_rate": 0.0001,
	"loss": 6.8978,
	"loss/crossentropy": 1.6141892828047275,
	"loss/hidden": 3.35390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18202604549005627,
	"step": 1920
	},
	{
	"epoch": 0.0965,
	"grad_norm": 29.625,
	"grad_norm_var": 12.239583333333334,
	"learning_rate": 0.0001,
	"loss": 6.9659,
	"loss/crossentropy": 1.7211613908410073,
	"loss/hidden": 3.29453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19102244451642036,
	"step": 1930
	},
	{
	"epoch": 0.097,
	"grad_norm": 28.375,
	"grad_norm_var": 15.983268229166667,
	"learning_rate": 0.0001,
	"loss": 6.8912,
	"loss/crossentropy": 1.7675188466906548,
	"loss/hidden": 3.32421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19818378714844584,
	"step": 1940
	},
	{
	"epoch": 0.0975,
	"grad_norm": 32.75,
	"grad_norm_var": 9.306266259729068e+17,
	"learning_rate": 0.0001,
	"loss": 6.9645,
	"loss/crossentropy": 1.7558425486087799,
	"loss/hidden": 3.419921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1911760584451258,
	"step": 1950
	},
	{
	"epoch": 0.098,
	"grad_norm": 27.625,
	"grad_norm_var": 1.5205981735288307e+18,
	"learning_rate": 0.0001,
	"loss": 6.8635,
	"loss/crossentropy": 1.7457415886223315,
	"loss/hidden": 3.384765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1852768061682582,
	"step": 1960
	},
	{
	"epoch": 0.0985,
	"grad_norm": 32.75,
	"grad_norm_var": 14.7125,
	"learning_rate": 0.0001,
	"loss": 6.8508,
	"loss/crossentropy": 1.683419554680586,
	"loss/hidden": 3.337890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1731728465296328,
	"step": 1970
	},
	{
	"epoch": 0.099,
	"grad_norm": 30.625,
	"grad_norm_var": 1.0302687666727377e+18,
	"learning_rate": 0.0001,
	"loss": 7.0005,
	"loss/crossentropy": 1.727415306866169,
	"loss/hidden": 3.297265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18517111875116826,
	"step": 1980
	},
	{
	"epoch": 0.0995,
	"grad_norm": 32.25,
	"grad_norm_var": 22.14375,
	"learning_rate": 0.0001,
	"loss": 6.9138,
	"loss/crossentropy": 1.8120180189609527,
	"loss/hidden": 3.434375,
	"loss/jsd": 0.0,
	"loss/logits": 0.20129222217947246,
	"step": 1990
	},
	{
	"epoch": 0.1,
	"grad_norm": 35.5,
	"grad_norm_var": 8.491080729166667,
	"learning_rate": 0.0001,
	"loss": 6.9525,
	"loss/crossentropy": 1.8299045406281949,
	"loss/hidden": 3.251171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17095453599467875,
	"step": 2000
	},
	{
	"epoch": 0.1005,
	"grad_norm": 32.75,
	"grad_norm_var": 8.586458333333333,
	"learning_rate": 0.0001,
	"loss": 6.7871,
	"loss/crossentropy": 1.7243870817124844,
	"loss/hidden": 3.3703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.16602067481726407,
	"step": 2010
	},
	{
	"epoch": 0.101,
	"grad_norm": 29.625,
	"grad_norm_var": 9.378125,
	"learning_rate": 0.0001,
	"loss": 6.855,
	"loss/crossentropy": 1.6784847162663936,
	"loss/hidden": 3.225,
	"loss/jsd": 0.0,
	"loss/logits": 0.16919725136831404,
	"step": 2020
	},
	{
	"epoch": 0.1015,
	"grad_norm": 41.0,
	"grad_norm_var": 112.83170572916667,
	"learning_rate": 0.0001,
	"loss": 6.9616,
	"loss/crossentropy": 1.8477609053254127,
	"loss/hidden": 3.259375,
	"loss/jsd": 0.0,
	"loss/logits": 0.16309508439153433,
	"step": 2030
	},
	{
	"epoch": 0.102,
	"grad_norm": 30.0,
	"grad_norm_var": 111.6259765625,
	"learning_rate": 0.0001,
	"loss": 6.9517,
	"loss/crossentropy": 1.7308252967894078,
	"loss/hidden": 3.202734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1722710312344134,
	"step": 2040
	},
	{
	"epoch": 0.1025,
	"grad_norm": 30.625,
	"grad_norm_var": 4.073893229166667,
	"learning_rate": 0.0001,
	"loss": 6.9088,
	"loss/crossentropy": 1.7544417701661588,
	"loss/hidden": 3.41796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19881883040070533,
	"step": 2050
	},
	{
	"epoch": 0.103,
	"grad_norm": 38.0,
	"grad_norm_var": 13.948958333333334,
	"learning_rate": 0.0001,
	"loss": 6.9474,
	"loss/crossentropy": 1.9995075345039368,
	"loss/hidden": 3.271875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17399701047688723,
	"step": 2060
	},
	{
	"epoch": 0.1035,
	"grad_norm": 31.75,
	"grad_norm_var": 21.0744140625,
	"learning_rate": 0.0001,
	"loss": 6.8732,
	"loss/crossentropy": 1.8493791602551937,
	"loss/hidden": 3.2421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16063635479658842,
	"step": 2070
	},
	{
	"epoch": 0.104,
	"grad_norm": 32.25,
	"grad_norm_var": 17.897916666666667,
	"learning_rate": 0.0001,
	"loss": 6.9556,
	"loss/crossentropy": 1.737601400911808,
	"loss/hidden": 3.333984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18038861453533173,
	"step": 2080
	},
	{
	"epoch": 0.1045,
	"grad_norm": 32.25,
	"grad_norm_var": 3.38515625,
	"learning_rate": 0.0001,
	"loss": 6.979,
	"loss/crossentropy": 1.7256839543581008,
	"loss/hidden": 3.3515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19299248773604633,
	"step": 2090
	},
	{
	"epoch": 0.105,
	"grad_norm": 31.0,
	"grad_norm_var": 3.4853515625,
	"learning_rate": 0.0001,
	"loss": 6.8191,
	"loss/crossentropy": 1.7587849080562592,
	"loss/hidden": 3.25,
	"loss/jsd": 0.0,
	"loss/logits": 0.16214433256536723,
	"step": 2100
	},
	{
	"epoch": 0.1055,
	"grad_norm": 33.5,
	"grad_norm_var": 4.112239583333333,
	"learning_rate": 0.0001,
	"loss": 7.0774,
	"loss/crossentropy": 2.092029668390751,
	"loss/hidden": 3.332421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19293731367215514,
	"step": 2110
	},
	{
	"epoch": 0.106,
	"grad_norm": 30.375,
	"grad_norm_var": 5.1072265625,
	"learning_rate": 0.0001,
	"loss": 6.9724,
	"loss/crossentropy": 1.7829479269683361,
	"loss/hidden": 3.349609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19456620067358016,
	"step": 2120
	},
	{
	"epoch": 0.1065,
	"grad_norm": 29.375,
	"grad_norm_var": 20.4525390625,
	"learning_rate": 0.0001,
	"loss": 6.9908,
	"loss/crossentropy": 1.7853210166096687,
	"loss/hidden": 3.32265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18279874734580517,
	"step": 2130
	},
	{
	"epoch": 0.107,
	"grad_norm": 36.5,
	"grad_norm_var": 20.847330729166668,
	"learning_rate": 0.0001,
	"loss": 6.9787,
	"loss/crossentropy": 1.8366479635238648,
	"loss/hidden": 3.324609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17941316729411483,
	"step": 2140
	},
	{
	"epoch": 0.1075,
	"grad_norm": 29.25,
	"grad_norm_var": 5.1384765625,
	"learning_rate": 0.0001,
	"loss": 7.0703,
	"loss/crossentropy": 1.8491265431046486,
	"loss/hidden": 3.253515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1788581835106015,
	"step": 2150
	},
	{
	"epoch": 0.108,
	"grad_norm": 28.5,
	"grad_norm_var": 3.8082682291666665,
	"learning_rate": 0.0001,
	"loss": 7.0117,
	"loss/crossentropy": 1.8718080654740334,
	"loss/hidden": 3.36015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18362828250974417,
	"step": 2160
	},
	{
	"epoch": 0.1085,
	"grad_norm": 31.375,
	"grad_norm_var": 4.0541015625,
	"learning_rate": 0.0001,
	"loss": 6.9147,
	"loss/crossentropy": 1.823565386980772,
	"loss/hidden": 3.346875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17529825307428837,
	"step": 2170
	},
	{
	"epoch": 0.109,
	"grad_norm": 29.875,
	"grad_norm_var": 3.1510416666666665,
	"learning_rate": 0.0001,
	"loss": 6.8799,
	"loss/crossentropy": 1.8646746143698691,
	"loss/hidden": 3.3625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18420496406033635,
	"step": 2180
	},
	{
	"epoch": 0.1095,
	"grad_norm": 28.0,
	"grad_norm_var": 1.6061848958333333,
	"learning_rate": 0.0001,
	"loss": 6.9741,
	"loss/crossentropy": 1.8418309345841408,
	"loss/hidden": 3.289453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17159662526100875,
	"step": 2190
	},
	{
	"epoch": 0.11,
	"grad_norm": 31.375,
	"grad_norm_var": 2.4184895833333333,
	"learning_rate": 0.0001,
	"loss": 7.0042,
	"loss/crossentropy": 1.8776386469602584,
	"loss/hidden": 3.40390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.187642621435225,
	"step": 2200
	},
	{
	"epoch": 0.1105,
	"grad_norm": 29.125,
	"grad_norm_var": 8.20781018083492e+17,
	"learning_rate": 0.0001,
	"loss": 6.9378,
	"loss/crossentropy": 1.655004223436117,
	"loss/hidden": 3.273046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1580679954495281,
	"step": 2210
	},
	{
	"epoch": 0.111,
	"grad_norm": 30.125,
	"grad_norm_var": 3.468489583333333,
	"learning_rate": 0.0001,
	"loss": 6.9831,
	"loss/crossentropy": 1.792271687835455,
	"loss/hidden": 3.277734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17089223572984338,
	"step": 2220
	},
	{
	"epoch": 0.1115,
	"grad_norm": 34.75,
	"grad_norm_var": 4.209375,
	"learning_rate": 0.0001,
	"loss": 6.8364,
	"loss/crossentropy": 1.734425350278616,
	"loss/hidden": 3.394140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18262410946190358,
	"step": 2230
	},
	{
	"epoch": 0.112,
	"grad_norm": 27.0,
	"grad_norm_var": 4.629166666666666,
	"learning_rate": 0.0001,
	"loss": 6.8305,
	"loss/crossentropy": 1.772131036967039,
	"loss/hidden": 3.274609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1691578391008079,
	"step": 2240
	},
	{
	"epoch": 0.1125,
	"grad_norm": 29.125,
	"grad_norm_var": 6.303580729166667,
	"learning_rate": 0.0001,
	"loss": 6.9967,
	"loss/crossentropy": 1.9334307715296746,
	"loss/hidden": 3.383203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19251629430800676,
	"step": 2250
	},
	{
	"epoch": 0.113,
	"grad_norm": 36.5,
	"grad_norm_var": 6.4791015625,
	"learning_rate": 0.0001,
	"loss": 6.981,
	"loss/crossentropy": 1.887280984222889,
	"loss/hidden": 3.358984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.21319616939872504,
	"step": 2260
	},
	{
	"epoch": 0.1135,
	"grad_norm": 28.75,
	"grad_norm_var": 4.7009765625,
	"learning_rate": 0.0001,
	"loss": 7.0286,
	"loss/crossentropy": 1.8285806521773338,
	"loss/hidden": 3.41484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18080311622470618,
	"step": 2270
	},
	{
	"epoch": 0.114,
	"grad_norm": 31.0,
	"grad_norm_var": 7.09375,
	"learning_rate": 0.0001,
	"loss": 6.863,
	"loss/crossentropy": 1.6441345304250716,
	"loss/hidden": 3.323046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18446694109588863,
	"step": 2280
	},
	{
	"epoch": 0.1145,
	"grad_norm": 30.125,
	"grad_norm_var": 9.029166666666667,
	"learning_rate": 0.0001,
	"loss": 6.8549,
	"loss/crossentropy": 1.5048397369682789,
	"loss/hidden": 3.359765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16425186553969978,
	"step": 2290
	},
	{
	"epoch": 0.115,
	"grad_norm": 28.625,
	"grad_norm_var": 3.9400390625,
	"learning_rate": 0.0001,
	"loss": 6.9448,
	"loss/crossentropy": 1.7213742382824422,
	"loss/hidden": 3.3328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17190376687794923,
	"step": 2300
	},
	{
	"epoch": 0.1155,
	"grad_norm": 29.125,
	"grad_norm_var": 51.71608072916667,
	"learning_rate": 0.0001,
	"loss": 7.0456,
	"loss/crossentropy": 1.8745042860507966,
	"loss/hidden": 3.3703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1922046933323145,
	"step": 2310
	},
	{
	"epoch": 0.116,
	"grad_norm": 31.625,
	"grad_norm_var": 5.101822916666666,
	"learning_rate": 0.0001,
	"loss": 7.0037,
	"loss/crossentropy": 1.835337746143341,
	"loss/hidden": 3.291015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.172516768053174,
	"step": 2320
	},
	{
	"epoch": 0.1165,
	"grad_norm": 29.625,
	"grad_norm_var": 4.792122395833333,
	"learning_rate": 0.0001,
	"loss": 6.8605,
	"loss/crossentropy": 1.7886844381690026,
	"loss/hidden": 3.31328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17270518001168966,
	"step": 2330
	},
	{
	"epoch": 0.117,
	"grad_norm": 30.875,
	"grad_norm_var": 24.301041666666666,
	"learning_rate": 0.0001,
	"loss": 6.8857,
	"loss/crossentropy": 1.8270663298666476,
	"loss/hidden": 3.316796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17341279415413738,
	"step": 2340
	},
	{
	"epoch": 0.1175,
	"grad_norm": 28.25,
	"grad_norm_var": 23.795247395833332,
	"learning_rate": 0.0001,
	"loss": 6.981,
	"loss/crossentropy": 1.7389558240771295,
	"loss/hidden": 3.33671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.20616078823804856,
	"step": 2350
	},
	{
	"epoch": 0.118,
	"grad_norm": 31.75,
	"grad_norm_var": 3.3712890625,
	"learning_rate": 0.0001,
	"loss": 6.9706,
	"loss/crossentropy": 1.7505015313625336,
	"loss/hidden": 3.2375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1691287737339735,
	"step": 2360
	},
	{
	"epoch": 0.1185,
	"grad_norm": 29.875,
	"grad_norm_var": 3.7864583333333335,
	"learning_rate": 0.0001,
	"loss": 7.0493,
	"loss/crossentropy": 1.8290210530161857,
	"loss/hidden": 3.3515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17870840784162284,
	"step": 2370
	},
	{
	"epoch": 0.119,
	"grad_norm": 28.75,
	"grad_norm_var": 3.06640625,
	"learning_rate": 0.0001,
	"loss": 6.8945,
	"loss/crossentropy": 1.7312066838145257,
	"loss/hidden": 3.3453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.16353450021706523,
	"step": 2380
	},
	{
	"epoch": 0.1195,
	"grad_norm": 38.75,
	"grad_norm_var": 8.985384797395922e+17,
	"learning_rate": 0.0001,
	"loss": 7.1346,
	"loss/crossentropy": 1.8643671602010727,
	"loss/hidden": 3.3734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18776546316221357,
	"step": 2390
	},
	{
	"epoch": 0.12,
	"grad_norm": 33.25,
	"grad_norm_var": 8.985384795065637e+17,
	"learning_rate": 0.0001,
	"loss": 7.0339,
	"loss/crossentropy": 1.7668686166405678,
	"loss/hidden": 3.4140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19443758334964514,
	"step": 2400
	},
	{
	"epoch": 0.1205,
	"grad_norm": 30.25,
	"grad_norm_var": 1.8852243670131978e+18,
	"learning_rate": 0.0001,
	"loss": 6.9626,
	"loss/crossentropy": 1.8465783804655076,
	"loss/hidden": 3.371875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1860800025984645,
	"step": 2410
	},
	{
	"epoch": 0.121,
	"grad_norm": 33.75,
	"grad_norm_var": 1.8852243674568678e+18,
	"learning_rate": 0.0001,
	"loss": 6.8455,
	"loss/crossentropy": 1.7212153851985932,
	"loss/hidden": 3.36171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18209199868142606,
	"step": 2420
	},
	{
	"epoch": 0.1215,
	"grad_norm": 28.0,
	"grad_norm_var": 3.81015625,
	"learning_rate": 0.0001,
	"loss": 6.9986,
	"loss/crossentropy": 1.898094529658556,
	"loss/hidden": 3.375390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.194298998080194,
	"step": 2430
	},
	{
	"epoch": 0.122,
	"grad_norm": 27.5,
	"grad_norm_var": 3.332291666666667,
	"learning_rate": 0.0001,
	"loss": 6.8924,
	"loss/crossentropy": 1.7420293487608434,
	"loss/hidden": 3.2546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.161607267241925,
	"step": 2440
	},
	{
	"epoch": 0.1225,
	"grad_norm": 33.0,
	"grad_norm_var": 2.7622395833333333,
	"learning_rate": 0.0001,
	"loss": 6.8686,
	"loss/crossentropy": 1.6050585605204106,
	"loss/hidden": 3.371875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17848586086183788,
	"step": 2450
	},
	{
	"epoch": 0.123,
	"grad_norm": 28.75,
	"grad_norm_var": 2.4400390625,
	"learning_rate": 0.0001,
	"loss": 6.9804,
	"loss/crossentropy": 1.9553805246949196,
	"loss/hidden": 3.3859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19847506172955037,
	"step": 2460
	},
	{
	"epoch": 0.1235,
	"grad_norm": 29.875,
	"grad_norm_var": 2.0791015625,
	"learning_rate": 0.0001,
	"loss": 6.9913,
	"loss/crossentropy": 1.4568642482161522,
	"loss/hidden": 3.335546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.15850053485482932,
	"step": 2470
	},
	{
	"epoch": 0.124,
	"grad_norm": 31.875,
	"grad_norm_var": 4.3775390625,
	"learning_rate": 0.0001,
	"loss": 6.9326,
	"loss/crossentropy": 1.6532236352562903,
	"loss/hidden": 3.45859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18165745195001365,
	"step": 2480
	},
	{
	"epoch": 0.1245,
	"grad_norm": 28.5,
	"grad_norm_var": 4.522330729166667,
	"learning_rate": 0.0001,
	"loss": 7.005,
	"loss/crossentropy": 1.6793559297919274,
	"loss/hidden": 3.339453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17017313856631516,
	"step": 2490
	},
	{
	"epoch": 0.125,
	"grad_norm": 30.75,
	"grad_norm_var": 4.3353515625,
	"learning_rate": 0.0001,
	"loss": 7.0956,
	"loss/crossentropy": 1.8292289204895495,
	"loss/hidden": 3.38203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18509325329214335,
	"step": 2500
	},
	{
	"epoch": 0.1255,
	"grad_norm": 30.875,
	"grad_norm_var": 3.78125,
	"learning_rate": 0.0001,
	"loss": 6.9137,
	"loss/crossentropy": 1.7439368188381195,
	"loss/hidden": 3.3890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19252277240157128,
	"step": 2510
	},
	{
	"epoch": 0.126,
	"grad_norm": 31.125,
	"grad_norm_var": 1.1349774577470627e+18,
	"learning_rate": 0.0001,
	"loss": 7.051,
	"loss/crossentropy": 2.0631623208522796,
	"loss/hidden": 3.4265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.22505897115916013,
	"step": 2520
	},
	{
	"epoch": 0.1265,
	"grad_norm": 29.75,
	"grad_norm_var": 1.1349774575828206e+18,
	"learning_rate": 0.0001,
	"loss": 7.1194,
	"loss/crossentropy": 1.8867668241262436,
	"loss/hidden": 3.35390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.20316522121429442,
	"step": 2530
	},
	{
	"epoch": 0.127,
	"grad_norm": 28.25,
	"grad_norm_var": 20.151822916666667,
	"learning_rate": 0.0001,
	"loss": 7.0832,
	"loss/crossentropy": 1.8491319343447685,
	"loss/hidden": 3.392578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19702840279787778,
	"step": 2540
	},
	{
	"epoch": 0.1275,
	"grad_norm": 29.0,
	"grad_norm_var": 11.6681640625,
	"learning_rate": 0.0001,
	"loss": 6.9728,
	"loss/crossentropy": 1.8162995487451554,
	"loss/hidden": 3.366015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18736656550318004,
	"step": 2550
	},
	{
	"epoch": 0.128,
	"grad_norm": 34.5,
	"grad_norm_var": 13.088997395833333,
	"learning_rate": 0.0001,
	"loss": 7.1137,
	"loss/crossentropy": 2.031092081964016,
	"loss/hidden": 3.447265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.21819815230555833,
	"step": 2560
	},
	{
	"epoch": 0.1285,
	"grad_norm": 31.125,
	"grad_norm_var": 1.7945788315993818e+17,
	"learning_rate": 0.0001,
	"loss": 7.0175,
	"loss/crossentropy": 1.731457906216383,
	"loss/hidden": 3.4015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18550403621047734,
	"step": 2570
	},
	{
	"epoch": 0.129,
	"grad_norm": 32.0,
	"grad_norm_var": 1.794578832870256e+17,
	"learning_rate": 0.0001,
	"loss": 6.8552,
	"loss/crossentropy": 1.8714622184634209,
	"loss/hidden": 3.2890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1802680429071188,
	"step": 2580
	},
	{
	"epoch": 0.1295,
	"grad_norm": 38.75,
	"grad_norm_var": 11.655143229166667,
	"learning_rate": 0.0001,
	"loss": 6.9513,
	"loss/crossentropy": 1.6536960810422898,
	"loss/hidden": 3.426171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19141803495585918,
	"step": 2590
	},
	{
	"epoch": 0.13,
	"grad_norm": 30.25,
	"grad_norm_var": 10.824934895833334,
	"learning_rate": 0.0001,
	"loss": 7.0451,
	"loss/crossentropy": 1.7446824312210083,
	"loss/hidden": 3.437890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.21996904909610748,
	"step": 2600
	},
	{
	"epoch": 0.1305,
	"grad_norm": 32.0,
	"grad_norm_var": 0.9895182291666667,
	"learning_rate": 0.0001,
	"loss": 6.9912,
	"loss/crossentropy": 1.8711062870919704,
	"loss/hidden": 3.344140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18015410769730805,
	"step": 2610
	},
	{
	"epoch": 0.131,
	"grad_norm": 29.0,
	"grad_norm_var": 1.9697265625,
	"learning_rate": 0.0001,
	"loss": 6.9974,
	"loss/crossentropy": 1.7273207187652588,
	"loss/hidden": 3.3171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17100013056769967,
	"step": 2620
	},
	{
	"epoch": 0.1315,
	"grad_norm": 33.0,
	"grad_norm_var": 0.9681640625,
	"learning_rate": 0.0001,
	"loss": 6.864,
	"loss/crossentropy": 1.772182758897543,
	"loss/hidden": 3.410546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18076814245432615,
	"step": 2630
	},
	{
	"epoch": 0.132,
	"grad_norm": 29.25,
	"grad_norm_var": 5.707291666666666,
	"learning_rate": 0.0001,
	"loss": 7.1259,
	"loss/crossentropy": 1.7641409367322922,
	"loss/hidden": 3.434375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18833348713815212,
	"step": 2640
	},
	{
	"epoch": 0.1325,
	"grad_norm": 40.75,
	"grad_norm_var": 10.91015625,
	"learning_rate": 0.0001,
	"loss": 7.0193,
	"loss/crossentropy": 1.859598373621702,
	"loss/hidden": 3.394140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18878742419183253,
	"step": 2650
	},
	{
	"epoch": 0.133,
	"grad_norm": 31.375,
	"grad_norm_var": 18.1822265625,
	"learning_rate": 0.0001,
	"loss": 6.9707,
	"loss/crossentropy": 1.7797490507364273,
	"loss/hidden": 3.411328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.20212376527488232,
	"step": 2660
	},
	{
	"epoch": 0.1335,
	"grad_norm": 29.875,
	"grad_norm_var": 11.162239583333333,
	"learning_rate": 0.0001,
	"loss": 7.0002,
	"loss/crossentropy": 1.7839721478521824,
	"loss/hidden": 3.3140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.173302289377898,
	"step": 2670
	},
	{
	"epoch": 0.134,
	"grad_norm": 27.125,
	"grad_norm_var": 4.2009765625,
	"learning_rate": 0.0001,
	"loss": 6.9156,
	"loss/crossentropy": 1.7781757101416589,
	"loss/hidden": 3.390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19893121821805834,
	"step": 2680
	},
	{
	"epoch": 0.1345,
	"grad_norm": 30.75,
	"grad_norm_var": 36.837239583333336,
	"learning_rate": 0.0001,
	"loss": 7.0997,
	"loss/crossentropy": 1.8467799574136734,
	"loss/hidden": 3.41953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.20002066995948553,
	"step": 2690
	},
	{
	"epoch": 0.135,
	"grad_norm": 28.5,
	"grad_norm_var": 37.431705729166666,
	"learning_rate": 0.0001,
	"loss": 6.9236,
	"loss/crossentropy": 1.6248198747634888,
	"loss/hidden": 3.335546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1642201030626893,
	"step": 2700
	},
	{
	"epoch": 0.1355,
	"grad_norm": 34.0,
	"grad_norm_var": 4.030989583333334,
	"learning_rate": 0.0001,
	"loss": 6.9361,
	"loss/crossentropy": 1.7102701038122177,
	"loss/hidden": 3.3609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.16836816985160113,
	"step": 2710
	},
	{
	"epoch": 0.136,
	"grad_norm": 26.0,
	"grad_norm_var": 1.0907331108694131e+18,
	"learning_rate": 0.0001,
	"loss": 6.9167,
	"loss/crossentropy": 1.8059025250375271,
	"loss/hidden": 3.31796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16677290350198745,
	"step": 2720
	},
	{
	"epoch": 0.1365,
	"grad_norm": 29.5,
	"grad_norm_var": 6.2728515625,
	"learning_rate": 0.0001,
	"loss": 6.8796,
	"loss/crossentropy": 1.776158544421196,
	"loss/hidden": 3.4125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1929216692224145,
	"step": 2730
	},
	{
	"epoch": 0.137,
	"grad_norm": 28.75,
	"grad_norm_var": 7.5431640625,
	"learning_rate": 0.0001,
	"loss": 6.8288,
	"loss/crossentropy": 1.8780412912368774,
	"loss/hidden": 3.397265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18471294036135077,
	"step": 2740
	},
	{
	"epoch": 0.1375,
	"grad_norm": 33.0,
	"grad_norm_var": 15.1947265625,
	"learning_rate": 0.0001,
	"loss": 6.9741,
	"loss/crossentropy": 1.7919296585023403,
	"loss/hidden": 3.40703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19309423677623272,
	"step": 2750
	},
	{
	"epoch": 0.138,
	"grad_norm": 31.375,
	"grad_norm_var": 16.696809895833333,
	"learning_rate": 0.0001,
	"loss": 6.9971,
	"loss/crossentropy": 1.8414636544883252,
	"loss/hidden": 3.330859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1888686059974134,
	"step": 2760
	},
	{
	"epoch": 0.1385,
	"grad_norm": 28.5,
	"grad_norm_var": 7.121875,
	"learning_rate": 0.0001,
	"loss": 6.9869,
	"loss/crossentropy": 1.8438507467508316,
	"loss/hidden": 3.357421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19185615349560975,
	"step": 2770
	},
	{
	"epoch": 0.139,
	"grad_norm": 33.25,
	"grad_norm_var": 10.338541666666666,
	"learning_rate": 0.0001,
	"loss": 6.9528,
	"loss/crossentropy": 1.8890479058027267,
	"loss/hidden": 3.384765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19027914050966502,
	"step": 2780
	},
	{
	"epoch": 0.1395,
	"grad_norm": 33.5,
	"grad_norm_var": 12.343684895833333,
	"learning_rate": 0.0001,
	"loss": 6.9585,
	"loss/crossentropy": 1.6378353632986546,
	"loss/hidden": 3.41484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18243511486798525,
	"step": 2790
	},
	{
	"epoch": 0.14,
	"grad_norm": 33.0,
	"grad_norm_var": 7.9384765625,
	"learning_rate": 0.0001,
	"loss": 6.885,
	"loss/crossentropy": 1.6422518469393252,
	"loss/hidden": 3.26875,
	"loss/jsd": 0.0,
	"loss/logits": 0.15738149764947593,
	"step": 2800
	},
	{
	"epoch": 0.1405,
	"grad_norm": 35.0,
	"grad_norm_var": 7.362239583333333,
	"learning_rate": 0.0001,
	"loss": 6.9251,
	"loss/crossentropy": 1.818039534240961,
	"loss/hidden": 3.222265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17553653065115213,
	"step": 2810
	},
	{
	"epoch": 0.141,
	"grad_norm": 28.875,
	"grad_norm_var": 8.7134765625,
	"learning_rate": 0.0001,
	"loss": 6.9659,
	"loss/crossentropy": 1.8913455709815026,
	"loss/hidden": 3.325390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18545334562659263,
	"step": 2820
	},
	{
	"epoch": 0.1415,
	"grad_norm": 27.5,
	"grad_norm_var": 7.718684895833333,
	"learning_rate": 0.0001,
	"loss": 6.8653,
	"loss/crossentropy": 1.9232856243848802,
	"loss/hidden": 3.34921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19609272833913566,
	"step": 2830
	},
	{
	"epoch": 0.142,
	"grad_norm": 31.75,
	"grad_norm_var": 18.7166015625,
	"learning_rate": 0.0001,
	"loss": 6.9271,
	"loss/crossentropy": 1.7873032443225383,
	"loss/hidden": 3.2796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16436451440677047,
	"step": 2840
	},
	{
	"epoch": 0.1425,
	"grad_norm": 31.375,
	"grad_norm_var": 4.561393229166667,
	"learning_rate": 0.0001,
	"loss": 6.859,
	"loss/crossentropy": 1.764283910393715,
	"loss/hidden": 3.3890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18506875950843096,
	"step": 2850
	},
	{
	"epoch": 0.143,
	"grad_norm": 30.125,
	"grad_norm_var": 5.339322916666666,
	"learning_rate": 0.0001,
	"loss": 7.1328,
	"loss/crossentropy": 1.746024763584137,
	"loss/hidden": 3.333984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19091468937695028,
	"step": 2860
	},
	{
	"epoch": 0.1435,
	"grad_norm": 31.125,
	"grad_norm_var": 7.5875,
	"learning_rate": 0.0001,
	"loss": 6.8931,
	"loss/crossentropy": 1.8621096529066563,
	"loss/hidden": 3.2265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.167528663482517,
	"step": 2870
	},
	{
	"epoch": 0.144,
	"grad_norm": 32.25,
	"grad_norm_var": 7.123372395833333,
	"learning_rate": 0.0001,
	"loss": 7.0369,
	"loss/crossentropy": 1.9750339597463609,
	"loss/hidden": 3.364453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.20070471633225678,
	"step": 2880
	},
	{
	"epoch": 0.1445,
	"grad_norm": 33.5,
	"grad_norm_var": 14.7275390625,
	"learning_rate": 0.0001,
	"loss": 6.8862,
	"loss/crossentropy": 1.74088372066617,
	"loss/hidden": 3.320703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17231013607233764,
	"step": 2890
	},
	{
	"epoch": 0.145,
	"grad_norm": 28.375,
	"grad_norm_var": 19.409830729166668,
	"learning_rate": 0.0001,
	"loss": 7.035,
	"loss/crossentropy": 1.7799094915390015,
	"loss/hidden": 3.32265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18373552113771438,
	"step": 2900
	},
	{
	"epoch": 0.1455,
	"grad_norm": 31.375,
	"grad_norm_var": 5.517708333333333,
	"learning_rate": 0.0001,
	"loss": 6.9546,
	"loss/crossentropy": 1.7803256064653397,
	"loss/hidden": 3.34921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1977113801985979,
	"step": 2910
	},
	{
	"epoch": 0.146,
	"grad_norm": 28.125,
	"grad_norm_var": 5.627018229166667,
	"learning_rate": 0.0001,
	"loss": 6.9317,
	"loss/crossentropy": 1.8050019271671771,
	"loss/hidden": 3.257421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16629343312233685,
	"step": 2920
	},
	{
	"epoch": 0.1465,
	"grad_norm": 34.5,
	"grad_norm_var": 7.16640625,
	"learning_rate": 0.0001,
	"loss": 6.9453,
	"loss/crossentropy": 1.8659825779497623,
	"loss/hidden": 3.331640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1742606306448579,
	"step": 2930
	},
	{
	"epoch": 0.147,
	"grad_norm": 35.5,
	"grad_norm_var": 8.9306640625,
	"learning_rate": 0.0001,
	"loss": 7.0142,
	"loss/crossentropy": 1.913654712587595,
	"loss/hidden": 3.403515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.20132352095097303,
	"step": 2940
	},
	{
	"epoch": 0.1475,
	"grad_norm": 30.25,
	"grad_norm_var": 6.614518229166666,
	"learning_rate": 0.0001,
	"loss": 6.9147,
	"loss/crossentropy": 1.645759216696024,
	"loss/hidden": 3.376171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16875347392633558,
	"step": 2950
	},
	{
	"epoch": 0.148,
	"grad_norm": 29.0,
	"grad_norm_var": 6.8322265625,
	"learning_rate": 0.0001,
	"loss": 6.9988,
	"loss/crossentropy": 1.8556548431515694,
	"loss/hidden": 3.39375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17874295320361852,
	"step": 2960
	},
	{
	"epoch": 0.1485,
	"grad_norm": 28.75,
	"grad_norm_var": 3.5791666666666666,
	"learning_rate": 0.0001,
	"loss": 7.0313,
	"loss/crossentropy": 1.688177353143692,
	"loss/hidden": 3.28515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16950420523062348,
	"step": 2970
	},
	{
	"epoch": 0.149,
	"grad_norm": 32.25,
	"grad_norm_var": 2.246875,
	"learning_rate": 0.0001,
	"loss": 7.0247,
	"loss/crossentropy": 2.071097436547279,
	"loss/hidden": 3.404296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.20375496093183756,
	"step": 2980
	},
	{
	"epoch": 0.1495,
	"grad_norm": 27.5,
	"grad_norm_var": 2.6014973958333334,
	"learning_rate": 0.0001,
	"loss": 7.0495,
	"loss/crossentropy": 1.852598314732313,
	"loss/hidden": 3.31328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.16860631257295608,
	"step": 2990
	},
	{
	"epoch": 0.15,
	"grad_norm": 27.0,
	"grad_norm_var": 3.5122395833333333,
	"learning_rate": 0.0001,
	"loss": 6.7966,
	"loss/crossentropy": 1.7948169738054276,
	"loss/hidden": 3.325,
	"loss/jsd": 0.0,
	"loss/logits": 0.17319696098566056,
	"step": 3000
	},
	{
	"epoch": 0.1505,
	"grad_norm": 28.875,
	"grad_norm_var": 4.367122395833333,
	"learning_rate": 0.0001,
	"loss": 6.9423,
	"loss/crossentropy": 1.6970888696610928,
	"loss/hidden": 3.43203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.16700221002101898,
	"step": 3010
	},
	{
	"epoch": 0.151,
	"grad_norm": 3674210304.0,
	"grad_norm_var": 2.0173451962123377e+18,
	"learning_rate": 0.0001,
	"loss": 6.9283,
	"loss/crossentropy": 1.713117253035307,
	"loss/hidden": 3.34375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1704209728166461,
	"step": 3020
	},
	{
	"epoch": 0.1515,
	"grad_norm": 31.375,
	"grad_norm_var": 1.710129338897767e+18,
	"learning_rate": 0.0001,
	"loss": 7.0097,
	"loss/crossentropy": 1.9506682097911834,
	"loss/hidden": 3.407421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19250028654932977,
	"step": 3030
	},
	{
	"epoch": 0.152,
	"grad_norm": 29.25,
	"grad_norm_var": 2.1416666666666666,
	"learning_rate": 0.0001,
	"loss": 7.0202,
	"loss/crossentropy": 1.831156849861145,
	"loss/hidden": 3.307421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18563526798970997,
	"step": 3040
	},
	{
	"epoch": 0.1525,
	"grad_norm": 30.625,
	"grad_norm_var": 2.6768229166666666,
	"learning_rate": 0.0001,
	"loss": 7.0529,
	"loss/crossentropy": 1.8806451916694642,
	"loss/hidden": 3.405859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19239903232082725,
	"step": 3050
	},
	{
	"epoch": 0.153,
	"grad_norm": 29.25,
	"grad_norm_var": 2.8375,
	"learning_rate": 0.0001,
	"loss": 6.9243,
	"loss/crossentropy": 1.8184577412903309,
	"loss/hidden": 3.359765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.173899077065289,
	"step": 3060
	},
	{
	"epoch": 0.1535,
	"grad_norm": 30.5,
	"grad_norm_var": 1.6489583333333333,
	"learning_rate": 0.0001,
	"loss": 6.901,
	"loss/crossentropy": 1.782475320994854,
	"loss/hidden": 3.303125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17683281004428864,
	"step": 3070
	},
	{
	"epoch": 0.154,
	"grad_norm": 30.125,
	"grad_norm_var": 2.4770833333333333,
	"learning_rate": 0.0001,
	"loss": 7.0536,
	"loss/crossentropy": 1.7542385324835776,
	"loss/hidden": 3.31015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1734863522462547,
	"step": 3080
	},
	{
	"epoch": 0.1545,
	"grad_norm": 31.375,
	"grad_norm_var": 2.5077473958333334,
	"learning_rate": 0.0001,
	"loss": 6.7429,
	"loss/crossentropy": 1.721788990870118,
	"loss/hidden": 3.336328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1703654458746314,
	"step": 3090
	},
	{
	"epoch": 0.155,
	"grad_norm": 40.25,
	"grad_norm_var": 9.09140625,
	"learning_rate": 0.0001,
	"loss": 6.9729,
	"loss/crossentropy": 1.6206283092498779,
	"loss/hidden": 3.35859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1712807172909379,
	"step": 3100
	},
	{
	"epoch": 0.1555,
	"grad_norm": 32.0,
	"grad_norm_var": 8.16640625,
	"learning_rate": 0.0001,
	"loss": 6.8604,
	"loss/crossentropy": 1.7044736705720425,
	"loss/hidden": 3.247265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16109976628795267,
	"step": 3110
	},
	{
	"epoch": 0.156,
	"grad_norm": 28.875,
	"grad_norm_var": 61.90305989583333,
	"learning_rate": 0.0001,
	"loss": 6.8603,
	"loss/crossentropy": 1.7201604932546615,
	"loss/hidden": 3.3421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1717333897948265,
	"step": 3120
	},
	{
	"epoch": 0.1565,
	"grad_norm": 29.25,
	"grad_norm_var": 3.2666015625,
	"learning_rate": 0.0001,
	"loss": 6.9316,
	"loss/crossentropy": 1.611024511605501,
	"loss/hidden": 3.331640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17799030421301723,
	"step": 3130
	},
	{
	"epoch": 0.157,
	"grad_norm": 29.25,
	"grad_norm_var": 6.059830729166666,
	"learning_rate": 0.0001,
	"loss": 6.8749,
	"loss/crossentropy": 1.542306227236986,
	"loss/hidden": 3.2828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17464940482750535,
	"step": 3140
	},
	{
	"epoch": 0.1575,
	"grad_norm": 30.75,
	"grad_norm_var": 4.820572916666666,
	"learning_rate": 0.0001,
	"loss": 6.8917,
	"loss/crossentropy": 1.7465024203062058,
	"loss/hidden": 3.3546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18054623370990158,
	"step": 3150
	},
	{
	"epoch": 0.158,
	"grad_norm": 31.5,
	"grad_norm_var": 2.787239583333333,
	"learning_rate": 0.0001,
	"loss": 6.969,
	"loss/crossentropy": 2.0858161732554437,
	"loss/hidden": 3.28125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18169568832963706,
	"step": 3160
	},
	{
	"epoch": 0.1585,
	"grad_norm": 29.5,
	"grad_norm_var": 4.023372395833333,
	"learning_rate": 0.0001,
	"loss": 6.8406,
	"loss/crossentropy": 1.9426328182220458,
	"loss/hidden": 3.324609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17592350710183383,
	"step": 3170
	},
	{
	"epoch": 0.159,
	"grad_norm": 29.125,
	"grad_norm_var": 1.5832967238438093e+18,
	"learning_rate": 0.0001,
	"loss": 6.9453,
	"loss/crossentropy": 1.8308497540652753,
	"loss/hidden": 3.603125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19216080345213413,
	"step": 3180
	},
	{
	"epoch": 0.1595,
	"grad_norm": 29.5,
	"grad_norm_var": 1.5832967237861376e+18,
	"learning_rate": 0.0001,
	"loss": 6.9032,
	"loss/crossentropy": 1.705291760712862,
	"loss/hidden": 3.383984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1843032216653228,
	"step": 3190
	},
	{
	"epoch": 0.16,
	"grad_norm": 40.25,
	"grad_norm_var": 19.5056640625,
	"learning_rate": 0.0001,
	"loss": 7.0209,
	"loss/crossentropy": 1.7651132240891456,
	"loss/hidden": 3.390234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1844408256933093,
	"step": 3200
	},
	{
	"epoch": 0.1605,
	"grad_norm": 38.0,
	"grad_norm_var": 6.217782109866559e+17,
	"learning_rate": 0.0001,
	"loss": 6.7736,
	"loss/crossentropy": 1.8051001697778701,
	"loss/hidden": 3.38984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17440476845949887,
	"step": 3210
	},
	{
	"epoch": 0.161,
	"grad_norm": 31.125,
	"grad_norm_var": 6.428059895833333,
	"learning_rate": 0.0001,
	"loss": 6.9109,
	"loss/crossentropy": 1.8851144686341286,
	"loss/hidden": 3.2359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17897074315696954,
	"step": 3220
	},
	{
	"epoch": 0.1615,
	"grad_norm": 30.125,
	"grad_norm_var": 17.601041666666667,
	"learning_rate": 0.0001,
	"loss": 6.9799,
	"loss/crossentropy": 1.6312229566276073,
	"loss/hidden": 3.2609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.16838383311405777,
	"step": 3230
	},
	{
	"epoch": 0.162,
	"grad_norm": 31.5,
	"grad_norm_var": 20.835872395833334,
	"learning_rate": 0.0001,
	"loss": 6.932,
	"loss/crossentropy": 2.011029013991356,
	"loss/hidden": 3.310546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1832389457151294,
	"step": 3240
	},
	{
	"epoch": 0.1625,
	"grad_norm": 28.375,
	"grad_norm_var": 7.161458333333333,
	"learning_rate": 0.0001,
	"loss": 7.0405,
	"loss/crossentropy": 1.8453179642558097,
	"loss/hidden": 3.434765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19180234288796782,
	"step": 3250
	},
	{
	"epoch": 0.163,
	"grad_norm": 36.5,
	"grad_norm_var": 10.517708333333333,
	"learning_rate": 0.0001,
	"loss": 6.823,
	"loss/crossentropy": 1.9555616907775402,
	"loss/hidden": 3.318359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17895318511873484,
	"step": 3260
	},
	{
	"epoch": 0.1635,
	"grad_norm": 29.125,
	"grad_norm_var": 8.909830729166666,
	"learning_rate": 0.0001,
	"loss": 6.892,
	"loss/crossentropy": 1.843096625804901,
	"loss/hidden": 3.33203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18395393253304065,
	"step": 3270
	},
	{
	"epoch": 0.164,
	"grad_norm": 27.875,
	"grad_norm_var": 7.260416666666667,
	"learning_rate": 0.0001,
	"loss": 6.9288,
	"loss/crossentropy": 1.688144066929817,
	"loss/hidden": 3.277734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.172001248691231,
	"step": 3280
	},
	{
	"epoch": 0.1645,
	"grad_norm": 37.5,
	"grad_norm_var": 12.014518229166667,
	"learning_rate": 0.0001,
	"loss": 6.9012,
	"loss/crossentropy": 1.6900858603417874,
	"loss/hidden": 3.346875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1850940717384219,
	"step": 3290
	},
	{
	"epoch": 0.165,
	"grad_norm": 30.5,
	"grad_norm_var": 11.887955729166666,
	"learning_rate": 0.0001,
	"loss": 7.0327,
	"loss/crossentropy": 1.8690055832266808,
	"loss/hidden": 3.41015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2061467545107007,
	"step": 3300
	},
	{
	"epoch": 0.1655,
	"grad_norm": 33.25,
	"grad_norm_var": 44.0900390625,
	"learning_rate": 0.0001,
	"loss": 6.9398,
	"loss/crossentropy": 1.864616620540619,
	"loss/hidden": 3.21875,
	"loss/jsd": 0.0,
	"loss/logits": 0.15337421298027037,
	"step": 3310
	},
	{
	"epoch": 0.166,
	"grad_norm": 37.25,
	"grad_norm_var": 45.87473958333333,
	"learning_rate": 0.0001,
	"loss": 6.9275,
	"loss/crossentropy": 1.8501743324100972,
	"loss/hidden": 3.266796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17113643269985915,
	"step": 3320
	},
	{
	"epoch": 0.1665,
	"grad_norm": 29.625,
	"grad_norm_var": 1.1349774579334994e+18,
	"learning_rate": 0.0001,
	"loss": 7.0081,
	"loss/crossentropy": 1.779020744562149,
	"loss/hidden": 3.323046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.1846176441758871,
	"step": 3330
	},
	{
	"epoch": 0.167,
	"grad_norm": 35.75,
	"grad_norm_var": 1.0819897936507308e+18,
	"learning_rate": 0.0001,
	"loss": 6.9779,
	"loss/crossentropy": 1.7754384666681289,
	"loss/hidden": 3.36796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19158907625824212,
	"step": 3340
	},
	{
	"epoch": 0.1675,
	"grad_norm": 34.25,
	"grad_norm_var": 1.081989793663733e+18,
	"learning_rate": 0.0001,
	"loss": 7.0539,
	"loss/crossentropy": 1.759375052154064,
	"loss/hidden": 3.32109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18603504877537488,
	"step": 3350
	},
	{
	"epoch": 0.168,
	"grad_norm": 29.875,
	"grad_norm_var": 5.620833333333334,
	"learning_rate": 0.0001,
	"loss": 6.8589,
	"loss/crossentropy": 1.845319252461195,
	"loss/hidden": 3.3328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18480119155719876,
	"step": 3360
	},
	{
	"epoch": 0.1685,
	"grad_norm": 34.5,
	"grad_norm_var": 19.439583333333335,
	"learning_rate": 0.0001,
	"loss": 6.9772,
	"loss/crossentropy": 1.6411745361983776,
	"loss/hidden": 3.321484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.15529545303434134,
	"step": 3370
	},
	{
	"epoch": 0.169,
	"grad_norm": 28.5,
	"grad_norm_var": 36.9103515625,
	"learning_rate": 0.0001,
	"loss": 6.8489,
	"loss/crossentropy": 1.7360669024288655,
	"loss/hidden": 3.327734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17661824598908424,
	"step": 3380
	},
	{
	"epoch": 0.1695,
	"grad_norm": 29.375,
	"grad_norm_var": 35.46848958333333,
	"learning_rate": 0.0001,
	"loss": 6.7757,
	"loss/crossentropy": 1.7902205429971219,
	"loss/hidden": 3.38125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17157120602205395,
	"step": 3390
	},
	{
	"epoch": 0.17,
	"grad_norm": 28.875,
	"grad_norm_var": 3.6395833333333334,
	"learning_rate": 0.0001,
	"loss": 6.8708,
	"loss/crossentropy": 1.842449489980936,
	"loss/hidden": 3.29921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16762932492420077,
	"step": 3400
	},
	{
	"epoch": 0.1705,
	"grad_norm": 37.0,
	"grad_norm_var": 6.513997395833333,
	"learning_rate": 0.0001,
	"loss": 6.8956,
	"loss/crossentropy": 1.7051387749612332,
	"loss/hidden": 3.3078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.16933946274220943,
	"step": 3410
	},
	{
	"epoch": 0.171,
	"grad_norm": 30.75,
	"grad_norm_var": 9.762239583333333,
	"learning_rate": 0.0001,
	"loss": 6.9733,
	"loss/crossentropy": 1.7448437750339507,
	"loss/hidden": 3.3890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.20119084492325784,
	"step": 3420
	},
	{
	"epoch": 0.1715,
	"grad_norm": 78.0,
	"grad_norm_var": 144.5125,
	"learning_rate": 0.0001,
	"loss": 7.0287,
	"loss/crossentropy": 1.824779784679413,
	"loss/hidden": 3.37421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17832597270607947,
	"step": 3430
	},
	{
	"epoch": 0.172,
	"grad_norm": 28.125,
	"grad_norm_var": 145.68430989583334,
	"learning_rate": 0.0001,
	"loss": 6.7435,
	"loss/crossentropy": 1.6466563902795315,
	"loss/hidden": 3.328515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16660706931725144,
	"step": 3440
	},
	{
	"epoch": 0.1725,
	"grad_norm": 29.875,
	"grad_norm_var": 8.811393229166667,
	"learning_rate": 0.0001,
	"loss": 6.934,
	"loss/crossentropy": 1.8493422105908395,
	"loss/hidden": 3.333984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2010068495757878,
	"step": 3450
	},
	{
	"epoch": 0.173,
	"grad_norm": 29.0,
	"grad_norm_var": 6.62890625,
	"learning_rate": 0.0001,
	"loss": 6.8496,
	"loss/crossentropy": 1.6380462288856505,
	"loss/hidden": 3.26015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18449038956314326,
	"step": 3460
	},
	{
	"epoch": 0.1735,
	"grad_norm": 32.75,
	"grad_norm_var": 32.5875,
	"learning_rate": 0.0001,
	"loss": 6.9309,
	"loss/crossentropy": 1.6813900470733643,
	"loss/hidden": 3.400390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18437479846179486,
	"step": 3470
	},
	{
	"epoch": 0.174,
	"grad_norm": 31.625,
	"grad_norm_var": 7.465419918819722e+17,
	"learning_rate": 0.0001,
	"loss": 7.1677,
	"loss/crossentropy": 1.789808637648821,
	"loss/hidden": 3.343359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17758243400603532,
	"step": 3480
	},
	{
	"epoch": 0.1745,
	"grad_norm": 29.75,
	"grad_norm_var": 58.84557291666667,
	"learning_rate": 0.0001,
	"loss": 6.8709,
	"loss/crossentropy": 1.8069385841488839,
	"loss/hidden": 3.403125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19292932376265526,
	"step": 3490
	},
	{
	"epoch": 0.175,
	"grad_norm": 28.25,
	"grad_norm_var": 13.452018229166667,
	"learning_rate": 0.0001,
	"loss": 6.9084,
	"loss/crossentropy": 1.6264689728617667,
	"loss/hidden": 3.269140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16363061694428324,
	"step": 3500
	},
	{
	"epoch": 0.1755,
	"grad_norm": 32.75,
	"grad_norm_var": 1.459166261163747e+18,
	"learning_rate": 0.0001,
	"loss": 6.9837,
	"loss/crossentropy": 1.7061957284808158,
	"loss/hidden": 3.411328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18923843959346415,
	"step": 3510
	},
	{
	"epoch": 0.176,
	"grad_norm": 29.75,
	"grad_norm_var": 1.459166260217512e+18,
	"learning_rate": 0.0001,
	"loss": 6.9459,
	"loss/crossentropy": 1.6986562974750996,
	"loss/hidden": 3.453515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18663678420707583,
	"step": 3520
	},
	{
	"epoch": 0.1765,
	"grad_norm": 31.0,
	"grad_norm_var": 1.8478515625,
	"learning_rate": 0.0001,
	"loss": 6.9793,
	"loss/crossentropy": 1.7609238177537918,
	"loss/hidden": 3.38515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19038589783012866,
	"step": 3530
	},
	{
	"epoch": 0.177,
	"grad_norm": 31.25,
	"grad_norm_var": 3.1770833333333335,
	"learning_rate": 0.0001,
	"loss": 6.9966,
	"loss/crossentropy": 1.9084905117750168,
	"loss/hidden": 3.33984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1776235220953822,
	"step": 3540
	},
	{
	"epoch": 0.1775,
	"grad_norm": 30.25,
	"grad_norm_var": 2.051497395833333,
	"learning_rate": 0.0001,
	"loss": 6.9292,
	"loss/crossentropy": 1.6809238217771054,
	"loss/hidden": 3.355078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19617705075070263,
	"step": 3550
	},
	{
	"epoch": 0.178,
	"grad_norm": 33.75,
	"grad_norm_var": 1.9955729166666667,
	"learning_rate": 0.0001,
	"loss": 6.972,
	"loss/crossentropy": 1.6389021024107933,
	"loss/hidden": 3.3796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18174178060144186,
	"step": 3560
	},
	{
	"epoch": 0.1785,
	"grad_norm": 36.5,
	"grad_norm_var": 7.553059895833333,
	"learning_rate": 0.0001,
	"loss": 7.0848,
	"loss/crossentropy": 1.7566796734929084,
	"loss/hidden": 3.465234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1923373954370618,
	"step": 3570
	},
	{
	"epoch": 0.179,
	"grad_norm": 28.125,
	"grad_norm_var": 5.9603515625,
	"learning_rate": 0.0001,
	"loss": 6.956,
	"loss/crossentropy": 1.7154954925179482,
	"loss/hidden": 3.380859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.17990761240944267,
	"step": 3580
	},
	{
	"epoch": 0.1795,
	"grad_norm": 29.875,
	"grad_norm_var": 4.399934895833334,
	"learning_rate": 0.0001,
	"loss": 7.0142,
	"loss/crossentropy": 1.8327077120542525,
	"loss/hidden": 3.35234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1800425429828465,
	"step": 3590
	},
	{
	"epoch": 0.18,
	"grad_norm": 28.875,
	"grad_norm_var": 3.3247395833333333,
	"learning_rate": 0.0001,
	"loss": 6.9351,
	"loss/crossentropy": 1.8267195105552674,
	"loss/hidden": 3.394140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19433746309950947,
	"step": 3600
	},
	{
	"epoch": 0.1805,
	"grad_norm": 32.25,
	"grad_norm_var": 24.673372395833333,
	"learning_rate": 0.0001,
	"loss": 6.8892,
	"loss/crossentropy": 1.737992748618126,
	"loss/hidden": 3.40390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.20098126940429212,
	"step": 3610
	},
	{
	"epoch": 0.181,
	"grad_norm": 30.25,
	"grad_norm_var": 33.395572916666666,
	"learning_rate": 0.0001,
	"loss": 7.0103,
	"loss/crossentropy": 1.8915371976792812,
	"loss/hidden": 3.305078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1876732436940074,
	"step": 3620
	},
	{
	"epoch": 0.1815,
	"grad_norm": 26.5,
	"grad_norm_var": 38.799739583333334,
	"learning_rate": 0.0001,
	"loss": 6.981,
	"loss/crossentropy": 1.7780213125050068,
	"loss/hidden": 3.421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18925584964454173,
	"step": 3630
	},
	{
	"epoch": 0.182,
	"grad_norm": 32.0,
	"grad_norm_var": 1.0995116106143062e+18,
	"learning_rate": 0.0001,
	"loss": 7.039,
	"loss/crossentropy": 1.7201772332191467,
	"loss/hidden": 3.292578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1817839713767171,
	"step": 3640
	},
	{
	"epoch": 0.1825,
	"grad_norm": 29.125,
	"grad_norm_var": 1.0995116110905345e+18,
	"learning_rate": 0.0001,
	"loss": 6.7937,
	"loss/crossentropy": 1.824095284193754,
	"loss/hidden": 3.3203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.16389566464349628,
	"step": 3650
	},
	{
	"epoch": 0.183,
	"grad_norm": 28.625,
	"grad_norm_var": 14.382291666666667,
	"learning_rate": 0.0001,
	"loss": 6.918,
	"loss/crossentropy": 1.7039800986647606,
	"loss/hidden": 3.34921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17251853737980127,
	"step": 3660
	},
	{
	"epoch": 0.1835,
	"grad_norm": 29.375,
	"grad_norm_var": 0.82265625,
	"learning_rate": 0.0001,
	"loss": 6.8614,
	"loss/crossentropy": 1.670785766094923,
	"loss/hidden": 3.466015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1893833376467228,
	"step": 3670
	},
	{
	"epoch": 0.184,
	"grad_norm": 28.375,
	"grad_norm_var": 8.297916666666667,
	"learning_rate": 0.0001,
	"loss": 6.8747,
	"loss/crossentropy": 1.7371518418192864,
	"loss/hidden": 3.329296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.17423492725938558,
	"step": 3680
	},
	{
	"epoch": 0.1845,
	"grad_norm": 30.5,
	"grad_norm_var": 11.51640625,
	"learning_rate": 0.0001,
	"loss": 7.1482,
	"loss/crossentropy": 2.011937528848648,
	"loss/hidden": 3.376171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.19120746664702892,
	"step": 3690
	},
	{
	"epoch": 0.185,
	"grad_norm": 29.75,
	"grad_norm_var": 114.8119140625,
	"learning_rate": 0.0001,
	"loss": 6.9318,
	"loss/crossentropy": 1.9779032841324806,
	"loss/hidden": 3.508203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19792085662484168,
	"step": 3700
	},
	{
	"epoch": 0.1855,
	"grad_norm": 29.5,
	"grad_norm_var": 3.1666015625,
	"learning_rate": 0.0001,
	"loss": 6.9801,
	"loss/crossentropy": 1.8196966513991355,
	"loss/hidden": 3.364453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.17692473586648702,
	"step": 3710
	},
	{
	"epoch": 0.186,
	"grad_norm": 31.625,
	"grad_norm_var": 7.036874289840129e+17,
	"learning_rate": 0.0001,
	"loss": 6.9754,
	"loss/crossentropy": 1.7481721505522727,
	"loss/hidden": 3.37734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1970391605515033,
	"step": 3720
	},
	{
	"epoch": 0.1865,
	"grad_norm": 28.75,
	"grad_norm_var": 7.036874289385746e+17,
	"learning_rate": 0.0001,
	"loss": 6.8514,
	"loss/crossentropy": 1.609993650764227,
	"loss/hidden": 3.378125,
	"loss/jsd": 0.0,
	"loss/logits": 0.19023605762049556,
	"step": 3730
	},
	{
	"epoch": 0.187,
	"grad_norm": 32.75,
	"grad_norm_var": 2.0978515625,
	"learning_rate": 0.0001,
	"loss": 7.0947,
	"loss/crossentropy": 2.0539694875478745,
	"loss/hidden": 3.399609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.20270574633032085,
	"step": 3740
	},
	{
	"epoch": 0.1875,
	"grad_norm": 29.0,
	"grad_norm_var": 1.9103515625,
	"learning_rate": 0.0001,
	"loss": 6.9278,
	"loss/crossentropy": 1.8215243116021156,
	"loss/hidden": 3.2640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16428390927612782,
	"step": 3750
	},
	{
	"epoch": 0.188,
	"grad_norm": 30.0,
	"grad_norm_var": 2.0541666666666667,
	"learning_rate": 0.0001,
	"loss": 7.0503,
	"loss/crossentropy": 1.8183038413524628,
	"loss/hidden": 3.3234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19697826653718947,
	"step": 3760
	},
	{
	"epoch": 0.1885,
	"grad_norm": 32.75,
	"grad_norm_var": 1.0989583333333333,
	"learning_rate": 0.0001,
	"loss": 7.1034,
	"loss/crossentropy": 1.7321583658456803,
	"loss/hidden": 3.41484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19197138799354435,
	"step": 3770
	},
	{
	"epoch": 0.189,
	"grad_norm": 28.25,
	"grad_norm_var": 2.314322916666667,
	"learning_rate": 0.0001,
	"loss": 6.8113,
	"loss/crossentropy": 1.8538015499711036,
	"loss/hidden": 3.369140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18398043606430292,
	"step": 3780
	},
	{
	"epoch": 0.1895,
	"grad_norm": 29.625,
	"grad_norm_var": 5.827018229166667,
	"learning_rate": 0.0001,
	"loss": 7.0817,
	"loss/crossentropy": 1.8768661253154277,
	"loss/hidden": 3.369140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.20710380356758834,
	"step": 3790
	},
	{
	"epoch": 0.19,
	"grad_norm": 33.25,
	"grad_norm_var": 4.195572916666666,
	"learning_rate": 0.0001,
	"loss": 7.0374,
	"loss/crossentropy": 1.7977422267198562,
	"loss/hidden": 3.28828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1821097361855209,
	"step": 3800
	},
	{
	"epoch": 0.1905,
	"grad_norm": 36.0,
	"grad_norm_var": 5.763997395833333,
	"learning_rate": 0.0001,
	"loss": 7.0815,
	"loss/crossentropy": 1.743187139183283,
	"loss/hidden": 3.371875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18471882613375784,
	"step": 3810
	},
	{
	"epoch": 0.191,
	"grad_norm": 30.25,
	"grad_norm_var": 6.658333333333333,
	"learning_rate": 0.0001,
	"loss": 6.8304,
	"loss/crossentropy": 1.7315315805375575,
	"loss/hidden": 3.3015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.16926794005557894,
	"step": 3820
	},
	{
	"epoch": 0.1915,
	"grad_norm": 29.875,
	"grad_norm_var": 7.5380756628017e+17,
	"learning_rate": 0.0001,
	"loss": 7.091,
	"loss/crossentropy": 1.8176006272435188,
	"loss/hidden": 3.350390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.1842843361198902,
	"step": 3830
	},
	{
	"epoch": 0.192,
	"grad_norm": 29.375,
	"grad_norm_var": 7.563541666666667,
	"learning_rate": 0.0001,
	"loss": 6.9694,
	"loss/crossentropy": 1.777810937166214,
	"loss/hidden": 3.32578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.1739983822219074,
	"step": 3840
	},
	{
	"epoch": 0.1925,
	"grad_norm": 28.375,
	"grad_norm_var": 5.01875,
	"learning_rate": 0.0001,
	"loss": 6.8715,
	"loss/crossentropy": 1.9018649347126484,
	"loss/hidden": 3.32421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.18006115844473242,
	"step": 3850
	},
	{
	"epoch": 0.193,
	"grad_norm": 30.0,
	"grad_norm_var": 1.2455729166666667,
	"learning_rate": 0.0001,
	"loss": 6.881,
	"loss/crossentropy": 1.8844246573746204,
	"loss/hidden": 3.3390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19470994817093015,
	"step": 3860
	},
	{
	"epoch": 0.1935,
	"grad_norm": 28.75,
	"grad_norm_var": 2.6809895833333335,
	"learning_rate": 0.0001,
	"loss": 6.9021,
	"loss/crossentropy": 1.7199362799525262,
	"loss/hidden": 3.36328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.18913396131247281,
	"step": 3870
	},
	{
	"epoch": 0.194,
	"grad_norm": 32.25,
	"grad_norm_var": 2.5197265625,
	"learning_rate": 0.0001,
	"loss": 6.9324,
	"loss/crossentropy": 1.755439005047083,
	"loss/hidden": 3.343359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.1858789509162307,
	"step": 3880
	},
	{
	"epoch": 0.1945,
	"grad_norm": 31.125,
	"grad_norm_var": 3.384375,
	"learning_rate": 0.0001,
	"loss": 6.9477,
	"loss/crossentropy": 1.7906312070786954,
	"loss/hidden": 3.334765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.19127205722033977,
	"step": 3890
	},
	{
	"epoch": 0.195,
	"grad_norm": 32.25,
	"grad_norm_var": 2.1504557291666666,
	"learning_rate": 0.0001,
	"loss": 7.1196,
	"loss/crossentropy": 1.9957764573395251,
	"loss/hidden": 3.36015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18469135276973248,
	"step": 3900
	},
	{
	"epoch": 0.1955,
	"grad_norm": 31.875,
	"grad_norm_var": 9.387366238726391e+17,
	"learning_rate": 0.0001,
	"loss": 6.9857,
	"loss/crossentropy": 1.7901725992560387,
	"loss/hidden": 3.300390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.18710751123726369,
	"step": 3910
	},
	{
	"epoch": 0.196,
	"grad_norm": 30.625,
	"grad_norm_var": 27.239322916666666,
	"learning_rate": 0.0001,
	"loss": 6.9815,
	"loss/crossentropy": 1.7652528271079064,
	"loss/hidden": 3.234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.16305868746712804,
	"step": 3920
	},
	{
	"epoch": 0.1965,
	"grad_norm": 29.75,
	"grad_norm_var": 21.822916666666668,
	"learning_rate": 0.0001,
	"loss": 6.873,
	"loss/crossentropy": 1.7368287414312362,
	"loss/hidden": 3.433984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19844600670039653,
	"step": 3930
	},
	{
	"epoch": 0.197,
	"grad_norm": 29.625,
	"grad_norm_var": 2.035416666666667,
	"learning_rate": 0.0001,
	"loss": 7.0347,
	"loss/crossentropy": 1.9710937917232514,
	"loss/hidden": 3.265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17006599269807338,
	"step": 3940
	},
	{
	"epoch": 0.1975,
	"grad_norm": 27.875,
	"grad_norm_var": 55.904622395833336,
	"learning_rate": 0.0001,
	"loss": 6.9427,
	"loss/crossentropy": 1.6834511645138264,
	"loss/hidden": 3.315234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18321871096268297,
	"step": 3950
	},
	{
	"epoch": 0.198,
	"grad_norm": 28.25,
	"grad_norm_var": 4.515559895833333,
	"learning_rate": 0.0001,
	"loss": 6.8793,
	"loss/crossentropy": 1.8481898710131646,
	"loss/hidden": 3.219921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.16018803734332324,
	"step": 3960
	},
	{
	"epoch": 0.1985,
	"grad_norm": 31.375,
	"grad_norm_var": 4.105208333333334,
	"learning_rate": 0.0001,
	"loss": 6.9158,
	"loss/crossentropy": 1.7632210277020932,
	"loss/hidden": 3.35390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.17569016199558973,
	"step": 3970
	},
	{
	"epoch": 0.199,
	"grad_norm": 31.5,
	"grad_norm_var": 3.6056640625,
	"learning_rate": 0.0001,
	"loss": 7.0644,
	"loss/crossentropy": 1.8658879399299622,
	"loss/hidden": 3.445703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2075220150873065,
	"step": 3980
	},
	{
	"epoch": 0.1995,
	"grad_norm": 30.0,
	"grad_norm_var": 3.3301432291666666,
	"learning_rate": 0.0001,
	"loss": 7.1057,
	"loss/crossentropy": 1.915429985523224,
	"loss/hidden": 3.390234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.19412722568958998,
	"step": 3990
	},
	{
	"epoch": 0.2,
	"grad_norm": 29.75,
	"grad_norm_var": 139.13170572916667,
	"learning_rate": 0.0001,
	"loss": 6.9355,
	"loss/crossentropy": 1.8257215216755867,
	"loss/hidden": 3.39375,
	"loss/jsd": 0.0,
	"loss/logits": 0.18498760322108865,
	"step": 4000
	}
	],
	"logging_steps": 10,
	"max_steps": 20000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 4000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.1430040128035226e+19,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}