qwen8btest / trainer_state.json

Upload folder using huggingface_hub

ba65290 verified 11 months ago

361 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.025,
	"eval_steps": 1000,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 2.5e-05,
	"grad_norm": 11.25,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1607.1185,
	"loss/crossentropy": 0.4998045265674591,
	"loss/hidden": 0.2041015625,
	"loss/logits": 0.007406285032629967,
	"loss/reg": 1606.4072265625,
	"loss/twn": 0.0,
	"step": 1
	},
	{
	"epoch": 5e-05,
	"grad_norm": 25.625,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1604.4435,
	"loss/crossentropy": 1.6524670124053955,
	"loss/hidden": 0.1357421875,
	"loss/logits": 0.006067799869924784,
	"loss/reg": 1602.649169921875,
	"loss/twn": 0.0,
	"step": 2
	},
	{
	"epoch": 7.5e-05,
	"grad_norm": 9.9375,
	"learning_rate": 3e-06,
	"loss": 1547.7074,
	"loss/crossentropy": 1.9341739416122437,
	"loss/hidden": 0.15234375,
	"loss/logits": 0.014470485970377922,
	"loss/reg": 1545.6063232421875,
	"loss/twn": 0.0,
	"step": 3
	},
	{
	"epoch": 0.0001,
	"grad_norm": 14.375,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1500.7928,
	"loss/crossentropy": 2.407871723175049,
	"loss/hidden": 0.1875,
	"loss/logits": 0.01105956919491291,
	"loss/reg": 1498.1864013671875,
	"loss/twn": 0.0,
	"step": 4
	},
	{
	"epoch": 0.000125,
	"grad_norm": 9.875,
	"learning_rate": 5e-06,
	"loss": 1421.8827,
	"loss/crossentropy": 1.7022260427474976,
	"loss/hidden": 0.10546875,
	"loss/logits": 0.00693091843277216,
	"loss/reg": 1420.0679931640625,
	"loss/twn": 0.0,
	"step": 5
	},
	{
	"epoch": 0.00015,
	"grad_norm": 470.0,
	"learning_rate": 6e-06,
	"loss": 1315.2301,
	"loss/crossentropy": 1.3705801963806152,
	"loss/hidden": 0.181640625,
	"loss/logits": 0.002700040116906166,
	"loss/reg": 1313.6751708984375,
	"loss/twn": 0.0,
	"step": 6
	},
	{
	"epoch": 0.000175,
	"grad_norm": 12.4375,
	"learning_rate": 7.000000000000001e-06,
	"loss": 1187.7322,
	"loss/crossentropy": 1.8566981554031372,
	"loss/hidden": 0.083984375,
	"loss/logits": 0.004405488260090351,
	"loss/reg": 1185.787109375,
	"loss/twn": 0.0,
	"step": 7
	},
	{
	"epoch": 0.0002,
	"grad_norm": 20.75,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1041.5831,
	"loss/crossentropy": 2.76304030418396,
	"loss/hidden": 0.14453125,
	"loss/logits": 0.009587295353412628,
	"loss/reg": 1038.6658935546875,
	"loss/twn": 0.0,
	"step": 8
	},
	{
	"epoch": 0.000225,
	"grad_norm": 280.0,
	"learning_rate": 9e-06,
	"loss": 889.5813,
	"loss/crossentropy": 2.0730843544006348,
	"loss/hidden": 0.1767578125,
	"loss/logits": 0.009802292101085186,
	"loss/reg": 887.3216552734375,
	"loss/twn": 0.0,
	"step": 9
	},
	{
	"epoch": 0.00025,
	"grad_norm": 13.8125,
	"learning_rate": 1e-05,
	"loss": 739.1588,
	"loss/crossentropy": 2.678976535797119,
	"loss/hidden": 0.1357421875,
	"loss/logits": 0.01222484465688467,
	"loss/reg": 736.3318481445312,
	"loss/twn": 0.0,
	"step": 10
	},
	{
	"epoch": 0.000275,
	"grad_norm": 19.5,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 602.8989,
	"loss/crossentropy": 1.9476336240768433,
	"loss/hidden": 0.1865234375,
	"loss/logits": 0.007580972742289305,
	"loss/reg": 600.7571411132812,
	"loss/twn": 0.0,
	"step": 11
	},
	{
	"epoch": 0.0003,
	"grad_norm": 9.875,
	"learning_rate": 1.2e-05,
	"loss": 486.0685,
	"loss/crossentropy": 2.1175615787506104,
	"loss/hidden": 0.1767578125,
	"loss/logits": 0.008497287519276142,
	"loss/reg": 483.76568603515625,
	"loss/twn": 0.0,
	"step": 12
	},
	{
	"epoch": 0.000325,
	"grad_norm": 14.0625,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 389.9533,
	"loss/crossentropy": 1.2835053205490112,
	"loss/hidden": 0.10498046875,
	"loss/logits": 0.008934162557125092,
	"loss/reg": 388.5558776855469,
	"loss/twn": 0.0,
	"step": 13
	},
	{
	"epoch": 0.00035,
	"grad_norm": 19.5,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 313.737,
	"loss/crossentropy": 1.8903541564941406,
	"loss/hidden": 0.1103515625,
	"loss/logits": 0.008576408959925175,
	"loss/reg": 311.7276916503906,
	"loss/twn": 0.0,
	"step": 14
	},
	{
	"epoch": 0.000375,
	"grad_norm": 32.25,
	"learning_rate": 1.5e-05,
	"loss": 253.3787,
	"loss/crossentropy": 1.3272770643234253,
	"loss/hidden": 0.2275390625,
	"loss/logits": 0.009392762556672096,
	"loss/reg": 251.8144989013672,
	"loss/twn": 0.0,
	"step": 15
	},
	{
	"epoch": 0.0004,
	"grad_norm": 10.6875,
	"grad_norm_var": 16279.171077473959,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 207.3934,
	"loss/crossentropy": 1.8237905502319336,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.0111556276679039,
	"loss/reg": 205.45985412597656,
	"loss/twn": 0.0,
	"step": 16
	},
	{
	"epoch": 0.000425,
	"grad_norm": 115.5,
	"grad_norm_var": 16268.691780598958,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 171.5853,
	"loss/crossentropy": 1.6593583822250366,
	"loss/hidden": 0.140625,
	"loss/logits": 0.004231919534504414,
	"loss/reg": 169.7810516357422,
	"loss/twn": 0.0,
	"step": 17
	},
	{
	"epoch": 0.00045,
	"grad_norm": 16.375,
	"grad_norm_var": 16325.545556640625,
	"learning_rate": 1.8e-05,
	"loss": 143.6776,
	"loss/crossentropy": 0.922300398349762,
	"loss/hidden": 0.22265625,
	"loss/logits": 0.012654997408390045,
	"loss/reg": 142.52001953125,
	"loss/twn": 0.0,
	"step": 18
	},
	{
	"epoch": 0.000475,
	"grad_norm": 228.0,
	"grad_norm_var": 17643.971875,
	"learning_rate": 1.9e-05,
	"loss": 123.6267,
	"loss/crossentropy": 1.7576591968536377,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.0077894763089716434,
	"loss/reg": 121.73872375488281,
	"loss/twn": 0.0,
	"step": 19
	},
	{
	"epoch": 0.0005,
	"grad_norm": 15.3125,
	"grad_norm_var": 17635.768994140624,
	"learning_rate": 2e-05,
	"loss": 107.5298,
	"loss/crossentropy": 1.702596664428711,
	"loss/hidden": 0.193359375,
	"loss/logits": 0.012834219262003899,
	"loss/reg": 105.62105560302734,
	"loss/twn": 0.0,
	"step": 20
	},
	{
	"epoch": 0.000525,
	"grad_norm": 21.125,
	"grad_norm_var": 17537.747509765624,
	"learning_rate": 2.1e-05,
	"loss": 96.0316,
	"loss/crossentropy": 2.7474312782287598,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.018948907032608986,
	"loss/reg": 93.09722900390625,
	"loss/twn": 0.0,
	"step": 21
	},
	{
	"epoch": 0.00055,
	"grad_norm": 12.8125,
	"grad_norm_var": 6900.875520833333,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 85.865,
	"loss/crossentropy": 2.7010557651519775,
	"loss/hidden": 0.1005859375,
	"loss/logits": 0.004374333191663027,
	"loss/reg": 83.05902862548828,
	"loss/twn": 0.0,
	"step": 22
	},
	{
	"epoch": 0.000575,
	"grad_norm": 13.875,
	"grad_norm_var": 6893.302067057291,
	"learning_rate": 2.3000000000000003e-05,
	"loss": 78.0325,
	"loss/crossentropy": 2.801321029663086,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.019743533805012703,
	"loss/reg": 75.06490325927734,
	"loss/twn": 0.0,
	"step": 23
	},
	{
	"epoch": 0.0006,
	"grad_norm": 11.625,
	"grad_norm_var": 6937.396728515625,
	"learning_rate": 2.4e-05,
	"loss": 70.1903,
	"loss/crossentropy": 1.5617326498031616,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.006116375792771578,
	"loss/reg": 68.48768615722656,
	"loss/twn": 0.0,
	"step": 24
	},
	{
	"epoch": 0.000625,
	"grad_norm": 32.0,
	"grad_norm_var": 3246.975895182292,
	"learning_rate": 2.5e-05,
	"loss": 64.4648,
	"loss/crossentropy": 1.4777029752731323,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.007067938335239887,
	"loss/reg": 62.821861267089844,
	"loss/twn": 0.0,
	"step": 25
	},
	{
	"epoch": 0.00065,
	"grad_norm": 11.3125,
	"grad_norm_var": 3254.977197265625,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 60.7985,
	"loss/crossentropy": 2.695087432861328,
	"loss/hidden": 0.154296875,
	"loss/logits": 0.009972814470529556,
	"loss/reg": 57.93910217285156,
	"loss/twn": 0.0,
	"step": 26
	},
	{
	"epoch": 0.000675,
	"grad_norm": 9.9375,
	"grad_norm_var": 3282.35234375,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 54.9976,
	"loss/crossentropy": 1.1553270816802979,
	"loss/hidden": 0.13671875,
	"loss/logits": 0.008951587602496147,
	"loss/reg": 53.69655990600586,
	"loss/twn": 0.0,
	"step": 27
	},
	{
	"epoch": 0.0007,
	"grad_norm": 20.0,
	"grad_norm_var": 3253.6384765625,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 54.2425,
	"loss/crossentropy": 4.120519638061523,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.012582110241055489,
	"loss/reg": 49.99223709106445,
	"loss/twn": 0.0,
	"step": 28
	},
	{
	"epoch": 0.000725,
	"grad_norm": 12.3125,
	"grad_norm_var": 3259.070768229167,
	"learning_rate": 2.9e-05,
	"loss": 49.3116,
	"loss/crossentropy": 2.52665638923645,
	"loss/hidden": 0.11474609375,
	"loss/logits": 0.009403377771377563,
	"loss/reg": 46.660804748535156,
	"loss/twn": 0.0,
	"step": 29
	},
	{
	"epoch": 0.00075,
	"grad_norm": 10.375,
	"grad_norm_var": 3284.8536458333333,
	"learning_rate": 3e-05,
	"loss": 44.966,
	"loss/crossentropy": 1.1925100088119507,
	"loss/hidden": 0.08837890625,
	"loss/logits": 0.002639985177665949,
	"loss/reg": 43.682464599609375,
	"loss/twn": 0.0,
	"step": 30
	},
	{
	"epoch": 0.000775,
	"grad_norm": 67.5,
	"grad_norm_var": 3345.6231770833333,
	"learning_rate": 3.1e-05,
	"loss": 42.8695,
	"loss/crossentropy": 1.6953678131103516,
	"loss/hidden": 0.2060546875,
	"loss/logits": 0.011261125095188618,
	"loss/reg": 40.95684814453125,
	"loss/twn": 0.0,
	"step": 31
	},
	{
	"epoch": 0.0008,
	"grad_norm": 22.5,
	"grad_norm_var": 3311.253108723958,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 41.8117,
	"loss/crossentropy": 3.090846538543701,
	"loss/hidden": 0.2451171875,
	"loss/logits": 0.015867076814174652,
	"loss/reg": 38.459877014160156,
	"loss/twn": 0.0,
	"step": 32
	},
	{
	"epoch": 0.000825,
	"grad_norm": 14.8125,
	"grad_norm_var": 2914.9796223958333,
	"learning_rate": 3.3e-05,
	"loss": 38.0881,
	"loss/crossentropy": 1.7205989360809326,
	"loss/hidden": 0.1650390625,
	"loss/logits": 0.013207211159169674,
	"loss/reg": 36.18929672241211,
	"loss/twn": 0.0,
	"step": 33
	},
	{
	"epoch": 0.00085,
	"grad_norm": 17.75,
	"grad_norm_var": 2912.14296875,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 35.2028,
	"loss/crossentropy": 0.8660376667976379,
	"loss/hidden": 0.1865234375,
	"loss/logits": 0.012940528802573681,
	"loss/reg": 34.13732147216797,
	"loss/twn": 0.0,
	"step": 34
	},
	{
	"epoch": 0.000875,
	"grad_norm": 12.5,
	"grad_norm_var": 199.53671875,
	"learning_rate": 3.5e-05,
	"loss": 34.9671,
	"loss/crossentropy": 2.679326057434082,
	"loss/hidden": 0.044921875,
	"loss/logits": 0.005477376747876406,
	"loss/reg": 32.237335205078125,
	"loss/twn": 0.0,
	"step": 35
	},
	{
	"epoch": 0.0009,
	"grad_norm": 13.1875,
	"grad_norm_var": 200.8947265625,
	"learning_rate": 3.6e-05,
	"loss": 32.3725,
	"loss/crossentropy": 1.6193571090698242,
	"loss/hidden": 0.2314453125,
	"loss/logits": 0.016166094690561295,
	"loss/reg": 30.505502700805664,
	"loss/twn": 0.0,
	"step": 36
	},
	{
	"epoch": 0.000925,
	"grad_norm": 13.5625,
	"grad_norm_var": 202.30284830729167,
	"learning_rate": 3.7e-05,
	"loss": 31.5358,
	"loss/crossentropy": 2.4860172271728516,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.010934200137853622,
	"loss/reg": 28.881595611572266,
	"loss/twn": 0.0,
	"step": 37
	},
	{
	"epoch": 0.00095,
	"grad_norm": 41.5,
	"grad_norm_var": 231.96901041666666,
	"learning_rate": 3.8e-05,
	"loss": 30.499,
	"loss/crossentropy": 2.840606689453125,
	"loss/hidden": 0.2138671875,
	"loss/logits": 0.017023704946041107,
	"loss/reg": 27.427488327026367,
	"loss/twn": 0.0,
	"step": 38
	},
	{
	"epoch": 0.000975,
	"grad_norm": 39.75,
	"grad_norm_var": 251.65826822916668,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 27.702,
	"loss/crossentropy": 1.4538397789001465,
	"loss/hidden": 0.19921875,
	"loss/logits": 0.01595349609851837,
	"loss/reg": 26.032983779907227,
	"loss/twn": 0.0,
	"step": 39
	},
	{
	"epoch": 0.001,
	"grad_norm": 9.5,
	"grad_norm_var": 254.85572916666666,
	"learning_rate": 4e-05,
	"loss": 27.0967,
	"loss/crossentropy": 2.216383695602417,
	"loss/hidden": 0.10595703125,
	"loss/logits": 0.006870034150779247,
	"loss/reg": 24.76752471923828,
	"loss/twn": 0.0,
	"step": 40
	},
	{
	"epoch": 0.001025,
	"grad_norm": 11.625,
	"grad_norm_var": 253.04108072916668,
	"learning_rate": 4.1e-05,
	"loss": 25.7473,
	"loss/crossentropy": 2.1163833141326904,
	"loss/hidden": 0.06689453125,
	"loss/logits": 0.004073521587997675,
	"loss/reg": 23.559967041015625,
	"loss/twn": 0.0,
	"step": 41
	},
	{
	"epoch": 0.00105,
	"grad_norm": 14.0,
	"grad_norm_var": 250.197509765625,
	"learning_rate": 4.2e-05,
	"loss": 23.4299,
	"loss/crossentropy": 0.7737110257148743,
	"loss/hidden": 0.1748046875,
	"loss/logits": 0.009298819117248058,
	"loss/reg": 22.47205352783203,
	"loss/twn": 0.0,
	"step": 42
	},
	{
	"epoch": 0.001075,
	"grad_norm": 12.75,
	"grad_norm_var": 246.6650390625,
	"learning_rate": 4.3e-05,
	"loss": 23.3947,
	"loss/crossentropy": 1.8225781917572021,
	"loss/hidden": 0.1123046875,
	"loss/logits": 0.006940089166164398,
	"loss/reg": 21.452856063842773,
	"loss/twn": 0.0,
	"step": 43
	},
	{
	"epoch": 0.0011,
	"grad_norm": 82.0,
	"grad_norm_var": 479.8754557291667,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 23.171,
	"loss/crossentropy": 2.5216610431671143,
	"loss/hidden": 0.1396484375,
	"loss/logits": 0.01111547276377678,
	"loss/reg": 20.498552322387695,
	"loss/twn": 0.0,
	"step": 44
	},
	{
	"epoch": 0.001125,
	"grad_norm": 10.75,
	"grad_norm_var": 482.614306640625,
	"learning_rate": 4.5e-05,
	"loss": 22.58,
	"loss/crossentropy": 2.7781012058258057,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.008185407146811485,
	"loss/reg": 19.63548469543457,
	"loss/twn": 0.0,
	"step": 45
	},
	{
	"epoch": 0.00115,
	"grad_norm": 27.125,
	"grad_norm_var": 468.31573893229165,
	"learning_rate": 4.600000000000001e-05,
	"loss": 21.6325,
	"loss/crossentropy": 2.6625006198883057,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.009840598329901695,
	"loss/reg": 18.810749053955078,
	"loss/twn": 0.0,
	"step": 46
	},
	{
	"epoch": 0.001175,
	"grad_norm": 20.5,
	"grad_norm_var": 344.27980143229166,
	"learning_rate": 4.7e-05,
	"loss": 20.5522,
	"loss/crossentropy": 2.3305137157440186,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.016644544899463654,
	"loss/reg": 18.056581497192383,
	"loss/twn": 0.0,
	"step": 47
	},
	{
	"epoch": 0.0012,
	"grad_norm": 11.25,
	"grad_norm_var": 352.54737955729166,
	"learning_rate": 4.8e-05,
	"loss": 18.7184,
	"loss/crossentropy": 1.2184098958969116,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.0094651710242033,
	"loss/reg": 17.344999313354492,
	"loss/twn": 0.0,
	"step": 48
	},
	{
	"epoch": 0.001225,
	"grad_norm": 9.5,
	"grad_norm_var": 359.42734375,
	"learning_rate": 4.9e-05,
	"loss": 19.2773,
	"loss/crossentropy": 2.487840414047241,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.004987399093806744,
	"loss/reg": 16.685823440551758,
	"loss/twn": 0.0,
	"step": 49
	},
	{
	"epoch": 0.00125,
	"grad_norm": 15.1875,
	"grad_norm_var": 361.1883951822917,
	"learning_rate": 5e-05,
	"loss": 18.9783,
	"loss/crossentropy": 2.735170602798462,
	"loss/hidden": 0.166015625,
	"loss/logits": 0.011278904974460602,
	"loss/reg": 16.065805435180664,
	"loss/twn": 0.0,
	"step": 50
	},
	{
	"epoch": 0.001275,
	"grad_norm": 15.75,
	"grad_norm_var": 357.929931640625,
	"learning_rate": 5.1000000000000006e-05,
	"loss": 17.1984,
	"loss/crossentropy": 1.4663747549057007,
	"loss/hidden": 0.2353515625,
	"loss/logits": 0.003095359541475773,
	"loss/reg": 15.49356746673584,
	"loss/twn": 0.0,
	"step": 51
	},
	{
	"epoch": 0.0013,
	"grad_norm": 9.9375,
	"grad_norm_var": 362.29881184895834,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 16.953,
	"loss/crossentropy": 1.918389916419983,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.0031922967173159122,
	"loss/reg": 14.95230484008789,
	"loss/twn": 0.0,
	"step": 52
	},
	{
	"epoch": 0.001325,
	"grad_norm": 10.6875,
	"grad_norm_var": 365.8745930989583,
	"learning_rate": 5.300000000000001e-05,
	"loss": 16.8909,
	"loss/crossentropy": 2.3705666065216064,
	"loss/hidden": 0.07275390625,
	"loss/logits": 0.0030757079366594553,
	"loss/reg": 14.444525718688965,
	"loss/twn": 0.0,
	"step": 53
	},
	{
	"epoch": 0.00135,
	"grad_norm": 16.75,
	"grad_norm_var": 337.7085774739583,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 16.1047,
	"loss/crossentropy": 1.9884377717971802,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.010179271921515465,
	"loss/reg": 13.977179527282715,
	"loss/twn": 0.0,
	"step": 54
	},
	{
	"epoch": 0.001375,
	"grad_norm": 13.375,
	"grad_norm_var": 311.08631184895836,
	"learning_rate": 5.500000000000001e-05,
	"loss": 16.2292,
	"loss/crossentropy": 2.642868995666504,
	"loss/hidden": 0.04736328125,
	"loss/logits": 0.004405863583087921,
	"loss/reg": 13.5346097946167,
	"loss/twn": 0.0,
	"step": 55
	},
	{
	"epoch": 0.0014,
	"grad_norm": 20.875,
	"grad_norm_var": 306.026806640625,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 14.8051,
	"loss/crossentropy": 1.465383529663086,
	"loss/hidden": 0.2080078125,
	"loss/logits": 0.00864885188639164,
	"loss/reg": 13.123102188110352,
	"loss/twn": 0.0,
	"step": 56
	},
	{
	"epoch": 0.001425,
	"grad_norm": 15.875,
	"grad_norm_var": 303.045166015625,
	"learning_rate": 5.6999999999999996e-05,
	"loss": 14.4812,
	"loss/crossentropy": 1.640454649925232,
	"loss/hidden": 0.09765625,
	"loss/logits": 0.007794347126036882,
	"loss/reg": 12.735280990600586,
	"loss/twn": 0.0,
	"step": 57
	},
	{
	"epoch": 0.00145,
	"grad_norm": 16.5,
	"grad_norm_var": 301.720947265625,
	"learning_rate": 5.8e-05,
	"loss": 14.5378,
	"loss/crossentropy": 2.0751516819000244,
	"loss/hidden": 0.07861328125,
	"loss/logits": 0.006516133435070515,
	"loss/reg": 12.377544403076172,
	"loss/twn": 0.0,
	"step": 58
	},
	{
	"epoch": 0.001475,
	"grad_norm": 20.875,
	"grad_norm_var": 298.750244140625,
	"learning_rate": 5.9e-05,
	"loss": 14.1279,
	"loss/crossentropy": 1.9119625091552734,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.021668870002031326,
	"loss/reg": 12.038968086242676,
	"loss/twn": 0.0,
	"step": 59
	},
	{
	"epoch": 0.0015,
	"grad_norm": 13.5625,
	"grad_norm_var": 23.984375,
	"learning_rate": 6e-05,
	"loss": 12.6629,
	"loss/crossentropy": 0.7274801731109619,
	"loss/hidden": 0.203125,
	"loss/logits": 0.009123459458351135,
	"loss/reg": 11.72317123413086,
	"loss/twn": 0.0,
	"step": 60
	},
	{
	"epoch": 0.001525,
	"grad_norm": 11.875,
	"grad_norm_var": 23.3462890625,
	"learning_rate": 6.1e-05,
	"loss": 14.3076,
	"loss/crossentropy": 2.738680601119995,
	"loss/hidden": 0.1396484375,
	"loss/logits": 0.010733511298894882,
	"loss/reg": 11.418492317199707,
	"loss/twn": 0.0,
	"step": 61
	},
	{
	"epoch": 0.00155,
	"grad_norm": 41.25,
	"grad_norm_var": 57.518489583333334,
	"learning_rate": 6.2e-05,
	"loss": 13.614,
	"loss/crossentropy": 2.1940059661865234,
	"loss/hidden": 0.26171875,
	"loss/logits": 0.016079768538475037,
	"loss/reg": 11.142221450805664,
	"loss/twn": 0.0,
	"step": 62
	},
	{
	"epoch": 0.001575,
	"grad_norm": 16.25,
	"grad_norm_var": 56.371875,
	"learning_rate": 6.3e-05,
	"loss": 12.6424,
	"loss/crossentropy": 1.5363647937774658,
	"loss/hidden": 0.220703125,
	"loss/logits": 0.009181533940136433,
	"loss/reg": 10.876102447509766,
	"loss/twn": 0.0,
	"step": 63
	},
	{
	"epoch": 0.0016,
	"grad_norm": 8.25,
	"grad_norm_var": 58.921875,
	"learning_rate": 6.400000000000001e-05,
	"loss": 12.6573,
	"loss/crossentropy": 1.9360976219177246,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.00900467112660408,
	"loss/reg": 10.625749588012695,
	"loss/twn": 0.0,
	"step": 64
	},
	{
	"epoch": 0.001625,
	"grad_norm": 25.0,
	"grad_norm_var": 60.43958333333333,
	"learning_rate": 6.500000000000001e-05,
	"loss": 12.8598,
	"loss/crossentropy": 2.2861106395721436,
	"loss/hidden": 0.169921875,
	"loss/logits": 0.008098036982119083,
	"loss/reg": 10.395671844482422,
	"loss/twn": 0.0,
	"step": 65
	},
	{
	"epoch": 0.00165,
	"grad_norm": 10.5,
	"grad_norm_var": 62.94568684895833,
	"learning_rate": 6.6e-05,
	"loss": 10.8882,
	"loss/crossentropy": 0.5159875154495239,
	"loss/hidden": 0.1884765625,
	"loss/logits": 0.007731384597718716,
	"loss/reg": 10.176012992858887,
	"loss/twn": 0.0,
	"step": 66
	},
	{
	"epoch": 0.001675,
	"grad_norm": 15.4375,
	"grad_norm_var": 62.99166666666667,
	"learning_rate": 6.7e-05,
	"loss": 11.7439,
	"loss/crossentropy": 1.6010075807571411,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.0077722882851958275,
	"loss/reg": 9.96713924407959,
	"loss/twn": 0.0,
	"step": 67
	},
	{
	"epoch": 0.0017,
	"grad_norm": 8.125,
	"grad_norm_var": 64.82823893229167,
	"learning_rate": 6.800000000000001e-05,
	"loss": 11.7136,
	"loss/crossentropy": 1.8642301559448242,
	"loss/hidden": 0.07177734375,
	"loss/logits": 0.003159617306664586,
	"loss/reg": 9.774468421936035,
	"loss/twn": 0.0,
	"step": 68
	},
	{
	"epoch": 0.001725,
	"grad_norm": 12.75,
	"grad_norm_var": 63.475260416666664,
	"learning_rate": 6.9e-05,
	"loss": 11.2146,
	"loss/crossentropy": 1.5259939432144165,
	"loss/hidden": 0.0927734375,
	"loss/logits": 0.0040178182534873486,
	"loss/reg": 9.591811180114746,
	"loss/twn": 0.0,
	"step": 69
	},
	{
	"epoch": 0.00175,
	"grad_norm": 13.25,
	"grad_norm_var": 64.21901041666666,
	"learning_rate": 7e-05,
	"loss": 10.007,
	"loss/crossentropy": 0.4211646616458893,
	"loss/hidden": 0.1630859375,
	"loss/logits": 0.006910983473062515,
	"loss/reg": 9.415842056274414,
	"loss/twn": 0.0,
	"step": 70
	},
	{
	"epoch": 0.001775,
	"grad_norm": 15.1875,
	"grad_norm_var": 63.672900390625,
	"learning_rate": 7.1e-05,
	"loss": 11.3191,
	"loss/crossentropy": 1.91142737865448,
	"loss/hidden": 0.1416015625,
	"loss/logits": 0.012339383363723755,
	"loss/reg": 9.253693580627441,
	"loss/twn": 0.0,
	"step": 71
	},
	{
	"epoch": 0.0018,
	"grad_norm": 25.125,
	"grad_norm_var": 67.225634765625,
	"learning_rate": 7.2e-05,
	"loss": 9.6954,
	"loss/crossentropy": 0.3831652104854584,
	"loss/hidden": 0.2060546875,
	"loss/logits": 0.007283635437488556,
	"loss/reg": 9.098925590515137,
	"loss/twn": 0.0,
	"step": 72
	},
	{
	"epoch": 0.001825,
	"grad_norm": 12.375,
	"grad_norm_var": 68.45245768229167,
	"learning_rate": 7.3e-05,
	"loss": 11.8289,
	"loss/crossentropy": 2.7114861011505127,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.00806540995836258,
	"loss/reg": 8.952132225036621,
	"loss/twn": 0.0,
	"step": 73
	},
	{
	"epoch": 0.00185,
	"grad_norm": 18.0,
	"grad_norm_var": 68.56417643229166,
	"learning_rate": 7.4e-05,
	"loss": 9.9016,
	"loss/crossentropy": 0.9610092043876648,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.005808320362120867,
	"loss/reg": 8.812213897705078,
	"loss/twn": 0.0,
	"step": 74
	},
	{
	"epoch": 0.001875,
	"grad_norm": 11.75,
	"grad_norm_var": 68.73527018229167,
	"learning_rate": 7.500000000000001e-05,
	"loss": 11.33,
	"loss/crossentropy": 2.4811081886291504,
	"loss/hidden": 0.154296875,
	"loss/logits": 0.012214528396725655,
	"loss/reg": 8.682340621948242,
	"loss/twn": 0.0,
	"step": 75
	},
	{
	"epoch": 0.0019,
	"grad_norm": 16.75,
	"grad_norm_var": 68.26295572916666,
	"learning_rate": 7.6e-05,
	"loss": 10.7107,
	"loss/crossentropy": 1.9060146808624268,
	"loss/hidden": 0.2294921875,
	"loss/logits": 0.016750231385231018,
	"loss/reg": 8.558440208435059,
	"loss/twn": 0.0,
	"step": 76
	},
	{
	"epoch": 0.001925,
	"grad_norm": 11.5,
	"grad_norm_var": 68.49635416666666,
	"learning_rate": 7.7e-05,
	"loss": 10.9686,
	"loss/crossentropy": 2.370375394821167,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.014391288161277771,
	"loss/reg": 8.440238952636719,
	"loss/twn": 0.0,
	"step": 77
	},
	{
	"epoch": 0.00195,
	"grad_norm": 30.0,
	"grad_norm_var": 39.04713541666667,
	"learning_rate": 7.800000000000001e-05,
	"loss": 11.235,
	"loss/crossentropy": 2.7426469326019287,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.012605298310518265,
	"loss/reg": 8.32447624206543,
	"loss/twn": 0.0,
	"step": 78
	},
	{
	"epoch": 0.001975,
	"grad_norm": 12.8125,
	"grad_norm_var": 39.50636393229167,
	"learning_rate": 7.900000000000001e-05,
	"loss": 10.4604,
	"loss/crossentropy": 2.1269540786743164,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.0066815330646932125,
	"loss/reg": 8.216917991638184,
	"loss/twn": 0.0,
	"step": 79
	},
	{
	"epoch": 0.002,
	"grad_norm": 13.625,
	"grad_norm_var": 36.169384765625,
	"learning_rate": 8e-05,
	"loss": 10.9456,
	"loss/crossentropy": 2.6664817333221436,
	"loss/hidden": 0.15234375,
	"loss/logits": 0.011289350688457489,
	"loss/reg": 8.115513801574707,
	"loss/twn": 0.0,
	"step": 80
	},
	{
	"epoch": 0.002025,
	"grad_norm": 32.25,
	"grad_norm_var": 48.38487955729167,
	"learning_rate": 8.1e-05,
	"loss": 10.8641,
	"loss/crossentropy": 2.6699304580688477,
	"loss/hidden": 0.1640625,
	"loss/logits": 0.010942000895738602,
	"loss/reg": 8.019161224365234,
	"loss/twn": 0.0,
	"step": 81
	},
	{
	"epoch": 0.00205,
	"grad_norm": 21.875,
	"grad_norm_var": 47.804280598958336,
	"learning_rate": 8.2e-05,
	"loss": 10.4686,
	"loss/crossentropy": 2.2571003437042236,
	"loss/hidden": 0.267578125,
	"loss/logits": 0.021330825984477997,
	"loss/reg": 7.922557353973389,
	"loss/twn": 0.0,
	"step": 82
	},
	{
	"epoch": 0.002075,
	"grad_norm": 11.1875,
	"grad_norm_var": 49.776546223958334,
	"learning_rate": 8.3e-05,
	"loss": 10.8712,
	"loss/crossentropy": 2.8793890476226807,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.0122376699000597,
	"loss/reg": 7.835977077484131,
	"loss/twn": 0.0,
	"step": 83
	},
	{
	"epoch": 0.0021,
	"grad_norm": 12.125,
	"grad_norm_var": 46.224462890625,
	"learning_rate": 8.4e-05,
	"loss": 10.6407,
	"loss/crossentropy": 2.8739991188049316,
	"loss/hidden": 0.0140380859375,
	"loss/logits": 0.0031395466066896915,
	"loss/reg": 7.749497413635254,
	"loss/twn": 0.0,
	"step": 84
	},
	{
	"epoch": 0.002125,
	"grad_norm": 224.0,
	"grad_norm_var": 2718.206884765625,
	"learning_rate": 8.5e-05,
	"loss": 9.9904,
	"loss/crossentropy": 2.1338188648223877,
	"loss/hidden": 0.1748046875,
	"loss/logits": 0.013754406943917274,
	"loss/reg": 7.668061256408691,
	"loss/twn": 0.0,
	"step": 85
	},
	{
	"epoch": 0.00215,
	"grad_norm": 9.0625,
	"grad_norm_var": 2728.7181640625,
	"learning_rate": 8.6e-05,
	"loss": 10.4151,
	"loss/crossentropy": 2.6691489219665527,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.011645539663732052,
	"loss/reg": 7.588749885559082,
	"loss/twn": 0.0,
	"step": 86
	},
	{
	"epoch": 0.002175,
	"grad_norm": 23.375,
	"grad_norm_var": 2716.899593098958,
	"learning_rate": 8.7e-05,
	"loss": 9.2735,
	"loss/crossentropy": 1.5923405885696411,
	"loss/hidden": 0.1591796875,
	"loss/logits": 0.006691344082355499,
	"loss/reg": 7.515244007110596,
	"loss/twn": 0.0,
	"step": 87
	},
	{
	"epoch": 0.0022,
	"grad_norm": 11.3125,
	"grad_norm_var": 2738.4708333333333,
	"learning_rate": 8.800000000000001e-05,
	"loss": 10.0973,
	"loss/crossentropy": 2.563422679901123,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.006290389224886894,
	"loss/reg": 7.441190242767334,
	"loss/twn": 0.0,
	"step": 88
	},
	{
	"epoch": 0.002225,
	"grad_norm": 16.75,
	"grad_norm_var": 2729.6775390625,
	"learning_rate": 8.900000000000001e-05,
	"loss": 10.1917,
	"loss/crossentropy": 2.605319023132324,
	"loss/hidden": 0.1845703125,
	"loss/logits": 0.029636088758707047,
	"loss/reg": 7.372167587280273,
	"loss/twn": 0.0,
	"step": 89
	},
	{
	"epoch": 0.00225,
	"grad_norm": 17.0,
	"grad_norm_var": 2731.3098307291666,
	"learning_rate": 9e-05,
	"loss": 9.2722,
	"loss/crossentropy": 1.7703652381896973,
	"loss/hidden": 0.1845703125,
	"loss/logits": 0.011869278736412525,
	"loss/reg": 7.30535364151001,
	"loss/twn": 0.0,
	"step": 90
	},
	{
	"epoch": 0.002275,
	"grad_norm": 26.625,
	"grad_norm_var": 2709.51640625,
	"learning_rate": 9.1e-05,
	"loss": 10.0987,
	"loss/crossentropy": 2.770080327987671,
	"loss/hidden": 0.08154296875,
	"loss/logits": 0.006538551300764084,
	"loss/reg": 7.240530967712402,
	"loss/twn": 0.0,
	"step": 91
	},
	{
	"epoch": 0.0023,
	"grad_norm": 12.3125,
	"grad_norm_var": 2718.9657389322915,
	"learning_rate": 9.200000000000001e-05,
	"loss": 9.1897,
	"loss/crossentropy": 1.7330008745193481,
	"loss/hidden": 0.265625,
	"loss/logits": 0.012156343087553978,
	"loss/reg": 7.1789398193359375,
	"loss/twn": 0.0,
	"step": 92
	},
	{
	"epoch": 0.002325,
	"grad_norm": 113.5,
	"grad_norm_var": 3112.675113932292,
	"learning_rate": 9.300000000000001e-05,
	"loss": 8.4886,
	"loss/crossentropy": 1.163967490196228,
	"loss/hidden": 0.197265625,
	"loss/logits": 0.009277150966227055,
	"loss/reg": 7.11806058883667,
	"loss/twn": 0.0,
	"step": 93
	},
	{
	"epoch": 0.00235,
	"grad_norm": 37.25,
	"grad_norm_var": 3109.446598307292,
	"learning_rate": 9.4e-05,
	"loss": 9.3185,
	"loss/crossentropy": 2.135645627975464,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.0029190080240368843,
	"loss/reg": 7.06224250793457,
	"loss/twn": 0.0,
	"step": 94
	},
	{
	"epoch": 0.002375,
	"grad_norm": 8.3125,
	"grad_norm_var": 3125.339567057292,
	"learning_rate": 9.5e-05,
	"loss": 9.3855,
	"loss/crossentropy": 2.309610605239868,
	"loss/hidden": 0.06689453125,
	"loss/logits": 0.0035296978894621134,
	"loss/reg": 7.005456447601318,
	"loss/twn": 0.0,
	"step": 95
	},
	{
	"epoch": 0.0024,
	"grad_norm": 91.5,
	"grad_norm_var": 3262.5942545572916,
	"learning_rate": 9.6e-05,
	"loss": 9.9531,
	"loss/crossentropy": 2.7651376724243164,
	"loss/hidden": 0.2197265625,
	"loss/logits": 0.01677127555012703,
	"loss/reg": 6.951422214508057,
	"loss/twn": 0.0,
	"step": 96
	},
	{
	"epoch": 0.002425,
	"grad_norm": 35.25,
	"grad_norm_var": 3259.3458170572917,
	"learning_rate": 9.7e-05,
	"loss": 8.7807,
	"loss/crossentropy": 1.7207653522491455,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.011507261544466019,
	"loss/reg": 6.8990349769592285,
	"loss/twn": 0.0,
	"step": 97
	},
	{
	"epoch": 0.00245,
	"grad_norm": 13.75,
	"grad_norm_var": 3285.235791015625,
	"learning_rate": 9.8e-05,
	"loss": 8.475,
	"loss/crossentropy": 1.481154441833496,
	"loss/hidden": 0.140625,
	"loss/logits": 0.005128794349730015,
	"loss/reg": 6.848050594329834,
	"loss/twn": 0.0,
	"step": 98
	},
	{
	"epoch": 0.002475,
	"grad_norm": 10.1875,
	"grad_norm_var": 3289.334228515625,
	"learning_rate": 9.900000000000001e-05,
	"loss": 9.021,
	"loss/crossentropy": 2.196463108062744,
	"loss/hidden": 0.0234375,
	"loss/logits": 0.0013116542249917984,
	"loss/reg": 6.79979133605957,
	"loss/twn": 0.0,
	"step": 99
	},
	{
	"epoch": 0.0025,
	"grad_norm": 13.6875,
	"grad_norm_var": 3283.3889973958335,
	"learning_rate": 0.0001,
	"loss": 9.1231,
	"loss/crossentropy": 2.0860254764556885,
	"loss/hidden": 0.265625,
	"loss/logits": 0.0192781500518322,
	"loss/reg": 6.75217342376709,
	"loss/twn": 0.0,
	"step": 100
	},
	{
	"epoch": 0.002525,
	"grad_norm": 65.5,
	"grad_norm_var": 996.5311848958333,
	"learning_rate": 0.0001,
	"loss": 8.6978,
	"loss/crossentropy": 1.8436778783798218,
	"loss/hidden": 0.140625,
	"loss/logits": 0.006662796251475811,
	"loss/reg": 6.706822395324707,
	"loss/twn": 0.0,
	"step": 101
	},
	{
	"epoch": 0.00255,
	"grad_norm": 9.0625,
	"grad_norm_var": 996.5311848958333,
	"learning_rate": 0.0001,
	"loss": 9.2667,
	"loss/crossentropy": 2.4968836307525635,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.007922045886516571,
	"loss/reg": 6.663230895996094,
	"loss/twn": 0.0,
	"step": 102
	},
	{
	"epoch": 0.002575,
	"grad_norm": 11.1875,
	"grad_norm_var": 1019.1574055989583,
	"learning_rate": 0.0001,
	"loss": 8.2507,
	"loss/crossentropy": 1.475099802017212,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.007549532223492861,
	"loss/reg": 6.619617938995361,
	"loss/twn": 0.0,
	"step": 103
	},
	{
	"epoch": 0.0026,
	"grad_norm": 13.5625,
	"grad_norm_var": 1013.6202962239583,
	"learning_rate": 0.0001,
	"loss": 9.2719,
	"loss/crossentropy": 2.5519533157348633,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.00820184126496315,
	"loss/reg": 6.578925132751465,
	"loss/twn": 0.0,
	"step": 104
	},
	{
	"epoch": 0.002625,
	"grad_norm": 288.0,
	"grad_norm_var": 5098.051936848959,
	"learning_rate": 0.0001,
	"loss": 7.9889,
	"loss/crossentropy": 1.3079354763031006,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.01036953553557396,
	"loss/reg": 6.537764072418213,
	"loss/twn": 0.0,
	"step": 105
	},
	{
	"epoch": 0.00265,
	"grad_norm": 17.5,
	"grad_norm_var": 5096.006363932292,
	"learning_rate": 0.0001,
	"loss": 9.3801,
	"loss/crossentropy": 2.7196500301361084,
	"loss/hidden": 0.1474609375,
	"loss/logits": 0.013073693960905075,
	"loss/reg": 6.49993371963501,
	"loss/twn": 0.0,
	"step": 106
	},
	{
	"epoch": 0.002675,
	"grad_norm": 772.0,
	"grad_norm_var": 37700.72758789062,
	"learning_rate": 0.0001,
	"loss": 7.3614,
	"loss/crossentropy": 0.6930418014526367,
	"loss/hidden": 0.1982421875,
	"loss/logits": 0.0074032871052622795,
	"loss/reg": 6.462671279907227,
	"loss/twn": 0.0,
	"step": 107
	},
	{
	"epoch": 0.0027,
	"grad_norm": 10.125,
	"grad_norm_var": 37725.00826822917,
	"learning_rate": 0.0001,
	"loss": 8.4394,
	"loss/crossentropy": 1.9201096296310425,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.006301195826381445,
	"loss/reg": 6.426520347595215,
	"loss/twn": 0.0,
	"step": 108
	},
	{
	"epoch": 0.002725,
	"grad_norm": 11.1875,
	"grad_norm_var": 38118.67159830729,
	"learning_rate": 0.0001,
	"loss": 9.0847,
	"loss/crossentropy": 2.634326219558716,
	"loss/hidden": 0.056640625,
	"loss/logits": 0.003579255659133196,
	"loss/reg": 6.3901753425598145,
	"loss/twn": 0.0,
	"step": 109
	},
	{
	"epoch": 0.00275,
	"grad_norm": 13.0,
	"grad_norm_var": 38319.52980143229,
	"learning_rate": 0.0001,
	"loss": 9.0789,
	"loss/crossentropy": 2.5669283866882324,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.010270677506923676,
	"loss/reg": 6.356166839599609,
	"loss/twn": 0.0,
	"step": 110
	},
	{
	"epoch": 0.002775,
	"grad_norm": 14.4375,
	"grad_norm_var": 38258.03097330729,
	"learning_rate": 0.0001,
	"loss": 8.9621,
	"loss/crossentropy": 2.5042357444763184,
	"loss/hidden": 0.125,
	"loss/logits": 0.00943165272474289,
	"loss/reg": 6.323448657989502,
	"loss/twn": 0.0,
	"step": 111
	},
	{
	"epoch": 0.0028,
	"grad_norm": 10.75,
	"grad_norm_var": 38615.72823893229,
	"learning_rate": 0.0001,
	"loss": 8.0629,
	"loss/crossentropy": 1.681036353111267,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.003971286583691835,
	"loss/reg": 6.291506767272949,
	"loss/twn": 0.0,
	"step": 112
	},
	{
	"epoch": 0.002825,
	"grad_norm": 23.875,
	"grad_norm_var": 38694.45271809896,
	"learning_rate": 0.0001,
	"loss": 7.101,
	"loss/crossentropy": 0.6117576956748962,
	"loss/hidden": 0.2158203125,
	"loss/logits": 0.012755107134580612,
	"loss/reg": 6.260617256164551,
	"loss/twn": 0.0,
	"step": 113
	},
	{
	"epoch": 0.00285,
	"grad_norm": 12.1875,
	"grad_norm_var": 38708.639322916664,
	"learning_rate": 0.0001,
	"loss": 8.0025,
	"loss/crossentropy": 1.5227508544921875,
	"loss/hidden": 0.234375,
	"loss/logits": 0.015468025580048561,
	"loss/reg": 6.229867935180664,
	"loss/twn": 0.0,
	"step": 114
	},
	{
	"epoch": 0.002875,
	"grad_norm": 16.375,
	"grad_norm_var": 38652.598942057295,
	"learning_rate": 0.0001,
	"loss": 9.088,
	"loss/crossentropy": 2.7616689205169678,
	"loss/hidden": 0.115234375,
	"loss/logits": 0.009811250492930412,
	"loss/reg": 6.201269626617432,
	"loss/twn": 0.0,
	"step": 115
	},
	{
	"epoch": 0.0029,
	"grad_norm": 12.375,
	"grad_norm_var": 38664.55670572917,
	"learning_rate": 0.0001,
	"loss": 8.9623,
	"loss/crossentropy": 2.647496461868286,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.009309421293437481,
	"loss/reg": 6.172722339630127,
	"loss/twn": 0.0,
	"step": 116
	},
	{
	"epoch": 0.002925,
	"grad_norm": 20.5,
	"grad_norm_var": 38886.04108072917,
	"learning_rate": 0.0001,
	"loss": 9.1565,
	"loss/crossentropy": 2.8847148418426514,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.008627700619399548,
	"loss/reg": 6.145481586456299,
	"loss/twn": 0.0,
	"step": 117
	},
	{
	"epoch": 0.00295,
	"grad_norm": 16.375,
	"grad_norm_var": 38821.67394205729,
	"learning_rate": 0.0001,
	"loss": 9.0896,
	"loss/crossentropy": 2.7421655654907227,
	"loss/hidden": 0.212890625,
	"loss/logits": 0.016587935388088226,
	"loss/reg": 6.117995262145996,
	"loss/twn": 0.0,
	"step": 118
	},
	{
	"epoch": 0.002975,
	"grad_norm": 8.5625,
	"grad_norm_var": 38845.82667643229,
	"learning_rate": 0.0001,
	"loss": 8.091,
	"loss/crossentropy": 1.8508156538009644,
	"loss/hidden": 0.138671875,
	"loss/logits": 0.008302265778183937,
	"loss/reg": 6.093196868896484,
	"loss/twn": 0.0,
	"step": 119
	},
	{
	"epoch": 0.003,
	"grad_norm": 11.625,
	"grad_norm_var": 38862.91451822917,
	"learning_rate": 0.0001,
	"loss": 8.6832,
	"loss/crossentropy": 2.444472312927246,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.016056066378951073,
	"loss/reg": 6.067349433898926,
	"loss/twn": 0.0,
	"step": 120
	},
	{
	"epoch": 0.003025,
	"grad_norm": 15.0625,
	"grad_norm_var": 35901.329410807295,
	"learning_rate": 0.0001,
	"loss": 7.6991,
	"loss/crossentropy": 1.443003535270691,
	"loss/hidden": 0.203125,
	"loss/logits": 0.009365499019622803,
	"loss/reg": 6.043575763702393,
	"loss/twn": 0.0,
	"step": 121
	},
	{
	"epoch": 0.00305,
	"grad_norm": 10.125,
	"grad_norm_var": 35948.114567057295,
	"learning_rate": 0.0001,
	"loss": 8.3654,
	"loss/crossentropy": 2.175076961517334,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.012922637164592743,
	"loss/reg": 6.0201544761657715,
	"loss/twn": 0.0,
	"step": 122
	},
	{
	"epoch": 0.003075,
	"grad_norm": 12.9375,
	"grad_norm_var": 16.191145833333334,
	"learning_rate": 0.0001,
	"loss": 8.7509,
	"loss/crossentropy": 2.659536123275757,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.007753277197480202,
	"loss/reg": 5.997157096862793,
	"loss/twn": 0.0,
	"step": 123
	},
	{
	"epoch": 0.0031,
	"grad_norm": 11.9375,
	"grad_norm_var": 15.527978515625,
	"learning_rate": 0.0001,
	"loss": 8.4483,
	"loss/crossentropy": 2.3908164501190186,
	"loss/hidden": 0.07666015625,
	"loss/logits": 0.005580560304224491,
	"loss/reg": 5.975290298461914,
	"loss/twn": 0.0,
	"step": 124
	},
	{
	"epoch": 0.003125,
	"grad_norm": 12.8125,
	"grad_norm_var": 15.120035807291666,
	"learning_rate": 0.0001,
	"loss": 8.1928,
	"loss/crossentropy": 2.0353291034698486,
	"loss/hidden": 0.1923828125,
	"loss/logits": 0.011610760353505611,
	"loss/reg": 5.953509330749512,
	"loss/twn": 0.0,
	"step": 125
	},
	{
	"epoch": 0.00315,
	"grad_norm": 11.4375,
	"grad_norm_var": 15.467122395833334,
	"learning_rate": 0.0001,
	"loss": 6.9926,
	"loss/crossentropy": 0.923692524433136,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.006808650679886341,
	"loss/reg": 5.933147430419922,
	"loss/twn": 0.0,
	"step": 126
	},
	{
	"epoch": 0.003175,
	"grad_norm": 18.875,
	"grad_norm_var": 17.053759765625,
	"learning_rate": 0.0001,
	"loss": 8.6838,
	"loss/crossentropy": 2.7514772415161133,
	"loss/hidden": 0.016357421875,
	"loss/logits": 0.00333950063213706,
	"loss/reg": 5.91263484954834,
	"loss/twn": 0.0,
	"step": 127
	},
	{
	"epoch": 0.0032,
	"grad_norm": 13.375,
	"grad_norm_var": 16.307275390625,
	"learning_rate": 0.0001,
	"loss": 7.5016,
	"loss/crossentropy": 1.4413155317306519,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.011735007166862488,
	"loss/reg": 5.893232822418213,
	"loss/twn": 0.0,
	"step": 128
	},
	{
	"epoch": 0.003225,
	"grad_norm": 52.25,
	"grad_norm_var": 102.939697265625,
	"learning_rate": 0.0001,
	"loss": 7.4808,
	"loss/crossentropy": 1.5077205896377563,
	"loss/hidden": 0.0947265625,
	"loss/logits": 0.004158593248575926,
	"loss/reg": 5.874199867248535,
	"loss/twn": 0.0,
	"step": 129
	},
	{
	"epoch": 0.00325,
	"grad_norm": 12.75,
	"grad_norm_var": 102.6697265625,
	"learning_rate": 0.0001,
	"loss": 8.7541,
	"loss/crossentropy": 2.7712345123291016,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.006270177662372589,
	"loss/reg": 5.856495380401611,
	"loss/twn": 0.0,
	"step": 130
	},
	{
	"epoch": 0.003275,
	"grad_norm": 9.5625,
	"grad_norm_var": 105.30779622395833,
	"learning_rate": 0.0001,
	"loss": 7.2955,
	"loss/crossentropy": 1.3631829023361206,
	"loss/hidden": 0.08837890625,
	"loss/logits": 0.005783870816230774,
	"loss/reg": 5.838170528411865,
	"loss/twn": 0.0,
	"step": 131
	},
	{
	"epoch": 0.0033,
	"grad_norm": 22.625,
	"grad_norm_var": 107.38448893229166,
	"learning_rate": 0.0001,
	"loss": 8.8285,
	"loss/crossentropy": 2.8225176334381104,
	"loss/hidden": 0.1767578125,
	"loss/logits": 0.007785791996866465,
	"loss/reg": 5.82139778137207,
	"loss/twn": 0.0,
	"step": 132
	},
	{
	"epoch": 0.003325,
	"grad_norm": 23.5,
	"grad_norm_var": 109.62667643229166,
	"learning_rate": 0.0001,
	"loss": 7.4036,
	"loss/crossentropy": 1.5806615352630615,
	"loss/hidden": 0.016357421875,
	"loss/logits": 0.001918629975989461,
	"loss/reg": 5.804649829864502,
	"loss/twn": 0.0,
	"step": 133
	},
	{
	"epoch": 0.00335,
	"grad_norm": 11.1875,
	"grad_norm_var": 111.3869140625,
	"learning_rate": 0.0001,
	"loss": 8.0831,
	"loss/crossentropy": 2.268815755844116,
	"loss/hidden": 0.0233154296875,
	"loss/logits": 0.0031364229507744312,
	"loss/reg": 5.787786483764648,
	"loss/twn": 0.0,
	"step": 134
	},
	{
	"epoch": 0.003375,
	"grad_norm": 17.875,
	"grad_norm_var": 107.36847330729167,
	"learning_rate": 0.0001,
	"loss": 8.4399,
	"loss/crossentropy": 2.5208940505981445,
	"loss/hidden": 0.1376953125,
	"loss/logits": 0.009613238275051117,
	"loss/reg": 5.771730422973633,
	"loss/twn": 0.0,
	"step": 135
	},
	{
	"epoch": 0.0034,
	"grad_norm": 12.1875,
	"grad_norm_var": 107.00416666666666,
	"learning_rate": 0.0001,
	"loss": 7.3628,
	"loss/crossentropy": 1.5146337747573853,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.004632354713976383,
	"loss/reg": 5.757077693939209,
	"loss/twn": 0.0,
	"step": 136
	},
	{
	"epoch": 0.003425,
	"grad_norm": 74.5,
	"grad_norm_var": 314.18409830729166,
	"learning_rate": 0.0001,
	"loss": 8.7141,
	"loss/crossentropy": 2.663015127182007,
	"loss/hidden": 0.298828125,
	"loss/logits": 0.010531080886721611,
	"loss/reg": 5.741701126098633,
	"loss/twn": 0.0,
	"step": 137
	},
	{
	"epoch": 0.00345,
	"grad_norm": 11.5625,
	"grad_norm_var": 312.32545572916666,
	"learning_rate": 0.0001,
	"loss": 8.2802,
	"loss/crossentropy": 2.3824350833892822,
	"loss/hidden": 0.1591796875,
	"loss/logits": 0.011414668522775173,
	"loss/reg": 5.727158546447754,
	"loss/twn": 0.0,
	"step": 138
	},
	{
	"epoch": 0.003475,
	"grad_norm": 11.1875,
	"grad_norm_var": 314.30149739583334,
	"learning_rate": 0.0001,
	"loss": 8.1258,
	"loss/crossentropy": 2.285022497177124,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.008713757619261742,
	"loss/reg": 5.712470054626465,
	"loss/twn": 0.0,
	"step": 139
	},
	{
	"epoch": 0.0035,
	"grad_norm": 16.375,
	"grad_norm_var": 310.479931640625,
	"learning_rate": 0.0001,
	"loss": 8.1639,
	"loss/crossentropy": 2.350821018218994,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.012461278587579727,
	"loss/reg": 5.699510097503662,
	"loss/twn": 0.0,
	"step": 140
	},
	{
	"epoch": 0.003525,
	"grad_norm": 9.4375,
	"grad_norm_var": 314.765478515625,
	"learning_rate": 0.0001,
	"loss": 7.8463,
	"loss/crossentropy": 2.103158473968506,
	"loss/hidden": 0.05224609375,
	"loss/logits": 0.005224157590419054,
	"loss/reg": 5.685665130615234,
	"loss/twn": 0.0,
	"step": 141
	},
	{
	"epoch": 0.00355,
	"grad_norm": 9.0625,
	"grad_norm_var": 318.001416015625,
	"learning_rate": 0.0001,
	"loss": 8.1747,
	"loss/crossentropy": 2.418196678161621,
	"loss/hidden": 0.07666015625,
	"loss/logits": 0.006400687620043755,
	"loss/reg": 5.6734795570373535,
	"loss/twn": 0.0,
	"step": 142
	},
	{
	"epoch": 0.003575,
	"grad_norm": 15.4375,
	"grad_norm_var": 319.43639322916664,
	"learning_rate": 0.0001,
	"loss": 6.5554,
	"loss/crossentropy": 0.6986656785011292,
	"loss/hidden": 0.1845703125,
	"loss/logits": 0.012149279937148094,
	"loss/reg": 5.660000324249268,
	"loss/twn": 0.0,
	"step": 143
	},
	{
	"epoch": 0.0036,
	"grad_norm": 15.875,
	"grad_norm_var": 317.5587890625,
	"learning_rate": 0.0001,
	"loss": 8.5371,
	"loss/crossentropy": 2.7418227195739746,
	"loss/hidden": 0.13671875,
	"loss/logits": 0.0111403688788414,
	"loss/reg": 5.647412300109863,
	"loss/twn": 0.0,
	"step": 144
	},
	{
	"epoch": 0.003625,
	"grad_norm": 13.875,
	"grad_norm_var": 246.30520833333333,
	"learning_rate": 0.0001,
	"loss": 6.2652,
	"loss/crossentropy": 0.4583094120025635,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.012293124571442604,
	"loss/reg": 5.6363725662231445,
	"loss/twn": 0.0,
	"step": 145
	},
	{
	"epoch": 0.00365,
	"grad_norm": 22.75,
	"grad_norm_var": 245.63854166666667,
	"learning_rate": 0.0001,
	"loss": 7.3134,
	"loss/crossentropy": 1.468201994895935,
	"loss/hidden": 0.2109375,
	"loss/logits": 0.009673453867435455,
	"loss/reg": 5.624554634094238,
	"loss/twn": 0.0,
	"step": 146
	},
	{
	"epoch": 0.003675,
	"grad_norm": 310.0,
	"grad_norm_var": 5526.531754557292,
	"learning_rate": 0.0001,
	"loss": 7.0649,
	"loss/crossentropy": 1.2726686000823975,
	"loss/hidden": 0.1728515625,
	"loss/logits": 0.005334332585334778,
	"loss/reg": 5.614006042480469,
	"loss/twn": 0.0,
	"step": 147
	},
	{
	"epoch": 0.0037,
	"grad_norm": 9.25,
	"grad_norm_var": 5563.953889973958,
	"learning_rate": 0.0001,
	"loss": 6.774,
	"loss/crossentropy": 1.0251015424728394,
	"loss/hidden": 0.138671875,
	"loss/logits": 0.007210130337625742,
	"loss/reg": 5.603022575378418,
	"loss/twn": 0.0,
	"step": 148
	},
	{
	"epoch": 0.003725,
	"grad_norm": 17.875,
	"grad_norm_var": 5575.684358723958,
	"learning_rate": 0.0001,
	"loss": 8.7246,
	"loss/crossentropy": 2.911123275756836,
	"loss/hidden": 0.19921875,
	"loss/logits": 0.02136034518480301,
	"loss/reg": 5.592944145202637,
	"loss/twn": 0.0,
	"step": 149
	},
	{
	"epoch": 0.00375,
	"grad_norm": 9.875,
	"grad_norm_var": 5580.160872395833,
	"learning_rate": 0.0001,
	"loss": 8.39,
	"loss/crossentropy": 2.711456537246704,
	"loss/hidden": 0.09033203125,
	"loss/logits": 0.005852097645401955,
	"loss/reg": 5.582311153411865,
	"loss/twn": 0.0,
	"step": 150
	},
	{
	"epoch": 0.003775,
	"grad_norm": 14.625,
	"grad_norm_var": 5588.7056640625,
	"learning_rate": 0.0001,
	"loss": 7.2155,
	"loss/crossentropy": 1.4148988723754883,
	"loss/hidden": 0.2158203125,
	"loss/logits": 0.012599754147231579,
	"loss/reg": 5.5721516609191895,
	"loss/twn": 0.0,
	"step": 151
	},
	{
	"epoch": 0.0038,
	"grad_norm": 12.375,
	"grad_norm_var": 5588.115869140625,
	"learning_rate": 0.0001,
	"loss": 8.013,
	"loss/crossentropy": 2.3517696857452393,
	"loss/hidden": 0.09130859375,
	"loss/logits": 0.007323693484067917,
	"loss/reg": 5.562623023986816,
	"loss/twn": 0.0,
	"step": 152
	},
	{
	"epoch": 0.003825,
	"grad_norm": 30.5,
	"grad_norm_var": 5482.538785807292,
	"learning_rate": 0.0001,
	"loss": 7.8607,
	"loss/crossentropy": 2.2278008460998535,
	"loss/hidden": 0.07421875,
	"loss/logits": 0.0050660185515880585,
	"loss/reg": 5.553621292114258,
	"loss/twn": 0.0,
	"step": 153
	},
	{
	"epoch": 0.00385,
	"grad_norm": 13.0625,
	"grad_norm_var": 5478.366129557292,
	"learning_rate": 0.0001,
	"loss": 8.277,
	"loss/crossentropy": 2.206120252609253,
	"loss/hidden": 0.5078125,
	"loss/logits": 0.018887437880039215,
	"loss/reg": 5.544199466705322,
	"loss/twn": 0.0,
	"step": 154
	},
	{
	"epoch": 0.003875,
	"grad_norm": 93.0,
	"grad_norm_var": 5656.329622395833,
	"learning_rate": 0.0001,
	"loss": 8.3416,
	"loss/crossentropy": 2.643498420715332,
	"loss/hidden": 0.1474609375,
	"loss/logits": 0.015275152400135994,
	"loss/reg": 5.535386562347412,
	"loss/twn": 0.0,
	"step": 155
	},
	{
	"epoch": 0.0039,
	"grad_norm": 15.8125,
	"grad_norm_var": 5657.996468098959,
	"learning_rate": 0.0001,
	"loss": 8.66,
	"loss/crossentropy": 3.025573492050171,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.008579680696129799,
	"loss/reg": 5.52721643447876,
	"loss/twn": 0.0,
	"step": 156
	},
	{
	"epoch": 0.003925,
	"grad_norm": 15.3125,
	"grad_norm_var": 5637.544124348959,
	"learning_rate": 0.0001,
	"loss": 8.3922,
	"loss/crossentropy": 2.7117786407470703,
	"loss/hidden": 0.15234375,
	"loss/logits": 0.008373694494366646,
	"loss/reg": 5.519668102264404,
	"loss/twn": 0.0,
	"step": 157
	},
	{
	"epoch": 0.00395,
	"grad_norm": 24.75,
	"grad_norm_var": 5591.000455729167,
	"learning_rate": 0.0001,
	"loss": 8.4122,
	"loss/crossentropy": 2.7280266284942627,
	"loss/hidden": 0.1611328125,
	"loss/logits": 0.01191728375852108,
	"loss/reg": 5.511092662811279,
	"loss/twn": 0.0,
	"step": 158
	},
	{
	"epoch": 0.003975,
	"grad_norm": 12.9375,
	"grad_norm_var": 5599.461393229167,
	"learning_rate": 0.0001,
	"loss": 8.2413,
	"loss/crossentropy": 2.5042476654052734,
	"loss/hidden": 0.21484375,
	"loss/logits": 0.018616054207086563,
	"loss/reg": 5.503547668457031,
	"loss/twn": 0.0,
	"step": 159
	},
	{
	"epoch": 0.004,
	"grad_norm": 12.875,
	"grad_norm_var": 5609.470768229166,
	"learning_rate": 0.0001,
	"loss": 8.4032,
	"loss/crossentropy": 2.762385606765747,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.010888181626796722,
	"loss/reg": 5.496166706085205,
	"loss/twn": 0.0,
	"step": 160
	},
	{
	"epoch": 0.004025,
	"grad_norm": 10.8125,
	"grad_norm_var": 5620.440738932291,
	"learning_rate": 0.0001,
	"loss": 8.0804,
	"loss/crossentropy": 2.5779385566711426,
	"loss/hidden": 0.0093994140625,
	"loss/logits": 0.004039571154862642,
	"loss/reg": 5.489066123962402,
	"loss/twn": 0.0,
	"step": 161
	},
	{
	"epoch": 0.00405,
	"grad_norm": 334.0,
	"grad_norm_var": 10996.149723307291,
	"learning_rate": 0.0001,
	"loss": 6.2302,
	"loss/crossentropy": 0.5805911421775818,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.008694609627127647,
	"loss/reg": 5.482710361480713,
	"loss/twn": 0.0,
	"step": 162
	},
	{
	"epoch": 0.004075,
	"grad_norm": 131.0,
	"grad_norm_var": 6997.830452473959,
	"learning_rate": 0.0001,
	"loss": 7.0482,
	"loss/crossentropy": 1.3563833236694336,
	"loss/hidden": 0.2060546875,
	"loss/logits": 0.010020879097282887,
	"loss/reg": 5.475753307342529,
	"loss/twn": 0.0,
	"step": 163
	},
	{
	"epoch": 0.0041,
	"grad_norm": 13.125,
	"grad_norm_var": 6979.068994140625,
	"learning_rate": 0.0001,
	"loss": 8.1687,
	"loss/crossentropy": 2.569106101989746,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.012607071548700333,
	"loss/reg": 5.469805717468262,
	"loss/twn": 0.0,
	"step": 164
	},
	{
	"epoch": 0.004125,
	"grad_norm": 14.1875,
	"grad_norm_var": 6994.544010416666,
	"learning_rate": 0.0001,
	"loss": 7.2464,
	"loss/crossentropy": 1.6330703496932983,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.007347936742007732,
	"loss/reg": 5.463380336761475,
	"loss/twn": 0.0,
	"step": 165
	},
	{
	"epoch": 0.00415,
	"grad_norm": 11.125,
	"grad_norm_var": 6988.3890625,
	"learning_rate": 0.0001,
	"loss": 8.1928,
	"loss/crossentropy": 2.5154733657836914,
	"loss/hidden": 0.20703125,
	"loss/logits": 0.013312840834259987,
	"loss/reg": 5.45693826675415,
	"loss/twn": 0.0,
	"step": 166
	},
	{
	"epoch": 0.004175,
	"grad_norm": 13.875,
	"grad_norm_var": 6991.70859375,
	"learning_rate": 0.0001,
	"loss": 7.1058,
	"loss/crossentropy": 1.5941680669784546,
	"loss/hidden": 0.05712890625,
	"loss/logits": 0.003117609303444624,
	"loss/reg": 5.451424598693848,
	"loss/twn": 0.0,
	"step": 167
	},
	{
	"epoch": 0.0042,
	"grad_norm": 25.5,
	"grad_norm_var": 6941.1431640625,
	"learning_rate": 0.0001,
	"loss": 5.8236,
	"loss/crossentropy": 0.22541135549545288,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.002781955059617758,
	"loss/reg": 5.445990562438965,
	"loss/twn": 0.0,
	"step": 168
	},
	{
	"epoch": 0.004225,
	"grad_norm": 9.9375,
	"grad_norm_var": 7016.212353515625,
	"learning_rate": 0.0001,
	"loss": 8.0762,
	"loss/crossentropy": 2.55377197265625,
	"loss/hidden": 0.07666015625,
	"loss/logits": 0.005485657136887312,
	"loss/reg": 5.4402995109558105,
	"loss/twn": 0.0,
	"step": 169
	},
	{
	"epoch": 0.00425,
	"grad_norm": 16.0,
	"grad_norm_var": 7003.476302083333,
	"learning_rate": 0.0001,
	"loss": 8.043,
	"loss/crossentropy": 2.316843032836914,
	"loss/hidden": 0.26953125,
	"loss/logits": 0.021316442638635635,
	"loss/reg": 5.435269832611084,
	"loss/twn": 0.0,
	"step": 170
	},
	{
	"epoch": 0.004275,
	"grad_norm": 11.125,
	"grad_norm_var": 6921.814518229166,
	"learning_rate": 0.0001,
	"loss": 8.12,
	"loss/crossentropy": 2.539064645767212,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.01590101048350334,
	"loss/reg": 5.430272579193115,
	"loss/twn": 0.0,
	"step": 171
	},
	{
	"epoch": 0.0043,
	"grad_norm": 12.5625,
	"grad_norm_var": 6933.832747395833,
	"learning_rate": 0.0001,
	"loss": 7.4549,
	"loss/crossentropy": 1.8348197937011719,
	"loss/hidden": 0.1826171875,
	"loss/logits": 0.012229220010340214,
	"loss/reg": 5.425241470336914,
	"loss/twn": 0.0,
	"step": 172
	},
	{
	"epoch": 0.004325,
	"grad_norm": 14.1875,
	"grad_norm_var": 6937.888020833333,
	"learning_rate": 0.0001,
	"loss": 6.9049,
	"loss/crossentropy": 1.270473599433899,
	"loss/hidden": 0.205078125,
	"loss/logits": 0.009345902130007744,
	"loss/reg": 5.4199981689453125,
	"loss/twn": 0.0,
	"step": 173
	},
	{
	"epoch": 0.00435,
	"grad_norm": 10.5625,
	"grad_norm_var": 6982.626676432292,
	"learning_rate": 0.0001,
	"loss": 7.0624,
	"loss/crossentropy": 1.425657033920288,
	"loss/hidden": 0.2099609375,
	"loss/logits": 0.011879321187734604,
	"loss/reg": 5.4148969650268555,
	"loss/twn": 0.0,
	"step": 174
	},
	{
	"epoch": 0.004375,
	"grad_norm": 8.875,
	"grad_norm_var": 6998.784635416667,
	"learning_rate": 0.0001,
	"loss": 7.1708,
	"loss/crossentropy": 1.4886845350265503,
	"loss/hidden": 0.265625,
	"loss/logits": 0.005756002385169268,
	"loss/reg": 5.410771369934082,
	"loss/twn": 0.0,
	"step": 175
	},
	{
	"epoch": 0.0044,
	"grad_norm": 28.625,
	"grad_norm_var": 6956.046354166667,
	"learning_rate": 0.0001,
	"loss": 6.1956,
	"loss/crossentropy": 0.5712894201278687,
	"loss/hidden": 0.2119140625,
	"loss/logits": 0.006170031148940325,
	"loss/reg": 5.406195163726807,
	"loss/twn": 0.0,
	"step": 176
	},
	{
	"epoch": 0.004425,
	"grad_norm": 8.75,
	"grad_norm_var": 6964.777067057292,
	"learning_rate": 0.0001,
	"loss": 6.737,
	"loss/crossentropy": 1.1914383172988892,
	"loss/hidden": 0.13671875,
	"loss/logits": 0.006925875786691904,
	"loss/reg": 5.401881694793701,
	"loss/twn": 0.0,
	"step": 177
	},
	{
	"epoch": 0.00445,
	"grad_norm": 44.5,
	"grad_norm_var": 911.0606608072917,
	"learning_rate": 0.0001,
	"loss": 8.1517,
	"loss/crossentropy": 2.5778274536132812,
	"loss/hidden": 0.1669921875,
	"loss/logits": 0.009458218701183796,
	"loss/reg": 5.397425174713135,
	"loss/twn": 0.0,
	"step": 178
	},
	{
	"epoch": 0.004475,
	"grad_norm": 16.625,
	"grad_norm_var": 87.32237955729167,
	"learning_rate": 0.0001,
	"loss": 7.1888,
	"loss/crossentropy": 1.5994395017623901,
	"loss/hidden": 0.185546875,
	"loss/logits": 0.01000029407441616,
	"loss/reg": 5.393801212310791,
	"loss/twn": 0.0,
	"step": 179
	},
	{
	"epoch": 0.0045,
	"grad_norm": 12.1875,
	"grad_norm_var": 87.76451822916667,
	"learning_rate": 0.0001,
	"loss": 8.0046,
	"loss/crossentropy": 2.455324172973633,
	"loss/hidden": 0.1474609375,
	"loss/logits": 0.012162324041128159,
	"loss/reg": 5.389675617218018,
	"loss/twn": 0.0,
	"step": 180
	},
	{
	"epoch": 0.004525,
	"grad_norm": 124.0,
	"grad_norm_var": 812.4984212239583,
	"learning_rate": 0.0001,
	"loss": 6.3516,
	"loss/crossentropy": 0.8374608755111694,
	"loss/hidden": 0.125,
	"loss/logits": 0.003441192675381899,
	"loss/reg": 5.3856940269470215,
	"loss/twn": 0.0,
	"step": 181
	},
	{
	"epoch": 0.00455,
	"grad_norm": 10.9375,
	"grad_norm_var": 812.7981770833334,
	"learning_rate": 0.0001,
	"loss": 8.1559,
	"loss/crossentropy": 2.670118570327759,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.005220318678766489,
	"loss/reg": 5.381902694702148,
	"loss/twn": 0.0,
	"step": 182
	},
	{
	"epoch": 0.004575,
	"grad_norm": 10.0,
	"grad_norm_var": 818.4593098958334,
	"learning_rate": 0.0001,
	"loss": 7.6118,
	"loss/crossentropy": 2.0260519981384277,
	"loss/hidden": 0.1982421875,
	"loss/logits": 0.009290603920817375,
	"loss/reg": 5.378239631652832,
	"loss/twn": 0.0,
	"step": 183
	},
	{
	"epoch": 0.0046,
	"grad_norm": 11.3125,
	"grad_norm_var": 825.881884765625,
	"learning_rate": 0.0001,
	"loss": 8.0393,
	"loss/crossentropy": 2.524176597595215,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.009289154782891273,
	"loss/reg": 5.3750152587890625,
	"loss/twn": 0.0,
	"step": 184
	},
	{
	"epoch": 0.004625,
	"grad_norm": 17.375,
	"grad_norm_var": 817.4895182291667,
	"learning_rate": 0.0001,
	"loss": 8.2323,
	"loss/crossentropy": 2.7599668502807617,
	"loss/hidden": 0.09130859375,
	"loss/logits": 0.009666713885962963,
	"loss/reg": 5.371392250061035,
	"loss/twn": 0.0,
	"step": 185
	},
	{
	"epoch": 0.00465,
	"grad_norm": 20.625,
	"grad_norm_var": 814.9096354166667,
	"learning_rate": 0.0001,
	"loss": 7.9849,
	"loss/crossentropy": 2.4787378311157227,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.011332664638757706,
	"loss/reg": 5.367901802062988,
	"loss/twn": 0.0,
	"step": 186
	},
	{
	"epoch": 0.004675,
	"grad_norm": 20.625,
	"grad_norm_var": 805.9638020833333,
	"learning_rate": 0.0001,
	"loss": 8.1101,
	"loss/crossentropy": 2.6036434173583984,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.009613338857889175,
	"loss/reg": 5.364970684051514,
	"loss/twn": 0.0,
	"step": 187
	},
	{
	"epoch": 0.0047,
	"grad_norm": 14.5,
	"grad_norm_var": 803.4415201822917,
	"learning_rate": 0.0001,
	"loss": 8.2869,
	"loss/crossentropy": 2.7700679302215576,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.011366615071892738,
	"loss/reg": 5.361906051635742,
	"loss/twn": 0.0,
	"step": 188
	},
	{
	"epoch": 0.004725,
	"grad_norm": 30.75,
	"grad_norm_var": 800.3403645833333,
	"learning_rate": 0.0001,
	"loss": 8.1568,
	"loss/crossentropy": 2.633868455886841,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.006533905863761902,
	"loss/reg": 5.358221054077148,
	"loss/twn": 0.0,
	"step": 189
	},
	{
	"epoch": 0.00475,
	"grad_norm": 33.0,
	"grad_norm_var": 790.4363118489583,
	"learning_rate": 0.0001,
	"loss": 7.5575,
	"loss/crossentropy": 1.9494565725326538,
	"loss/hidden": 0.2412109375,
	"loss/logits": 0.011269403621554375,
	"loss/reg": 5.3555755615234375,
	"loss/twn": 0.0,
	"step": 190
	},
	{
	"epoch": 0.004775,
	"grad_norm": 9.625,
	"grad_norm_var": 788.7796712239583,
	"learning_rate": 0.0001,
	"loss": 7.0502,
	"loss/crossentropy": 1.607956051826477,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.0032915128394961357,
	"loss/reg": 5.35251522064209,
	"loss/twn": 0.0,
	"step": 191
	},
	{
	"epoch": 0.0048,
	"grad_norm": 100.5,
	"grad_norm_var": 1138.346728515625,
	"learning_rate": 0.0001,
	"loss": 8.4206,
	"loss/crossentropy": 2.9291961193084717,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.007461494766175747,
	"loss/reg": 5.3501105308532715,
	"loss/twn": 0.0,
	"step": 192
	},
	{
	"epoch": 0.004825,
	"grad_norm": 14.875,
	"grad_norm_var": 1123.0661295572916,
	"learning_rate": 0.0001,
	"loss": 7.4399,
	"loss/crossentropy": 1.9533724784851074,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.004339105449616909,
	"loss/reg": 5.3473944664001465,
	"loss/twn": 0.0,
	"step": 193
	},
	{
	"epoch": 0.00485,
	"grad_norm": 64.5,
	"grad_norm_var": 1184.8265462239583,
	"learning_rate": 0.0001,
	"loss": 7.542,
	"loss/crossentropy": 2.0671801567077637,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.012455419637262821,
	"loss/reg": 5.345158100128174,
	"loss/twn": 0.0,
	"step": 194
	},
	{
	"epoch": 0.004875,
	"grad_norm": 16.125,
	"grad_norm_var": 1185.8648274739583,
	"learning_rate": 0.0001,
	"loss": 7.938,
	"loss/crossentropy": 2.456360101699829,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.008208954706788063,
	"loss/reg": 5.342526435852051,
	"loss/twn": 0.0,
	"step": 195
	},
	{
	"epoch": 0.0049,
	"grad_norm": 80.0,
	"grad_norm_var": 1294.7356770833333,
	"learning_rate": 0.0001,
	"loss": 7.8581,
	"loss/crossentropy": 2.487790107727051,
	"loss/hidden": 0.025634765625,
	"loss/logits": 0.0046631209552288055,
	"loss/reg": 5.340009689331055,
	"loss/twn": 0.0,
	"step": 196
	},
	{
	"epoch": 0.004925,
	"grad_norm": 14.75,
	"grad_norm_var": 761.3453125,
	"learning_rate": 0.0001,
	"loss": 6.8181,
	"loss/crossentropy": 1.304626703262329,
	"loss/hidden": 0.171875,
	"loss/logits": 0.004350706003606319,
	"loss/reg": 5.337262153625488,
	"loss/twn": 0.0,
	"step": 197
	},
	{
	"epoch": 0.00495,
	"grad_norm": 11.125,
	"grad_norm_var": 760.887353515625,
	"learning_rate": 0.0001,
	"loss": 7.9797,
	"loss/crossentropy": 2.4714841842651367,
	"loss/hidden": 0.1611328125,
	"loss/logits": 0.011602582409977913,
	"loss/reg": 5.335472106933594,
	"loss/twn": 0.0,
	"step": 198
	},
	{
	"epoch": 0.004975,
	"grad_norm": 95.0,
	"grad_norm_var": 993.0878743489583,
	"learning_rate": 0.0001,
	"loss": 7.04,
	"loss/crossentropy": 1.4688469171524048,
	"loss/hidden": 0.2275390625,
	"loss/logits": 0.0106576569378376,
	"loss/reg": 5.332970142364502,
	"loss/twn": 0.0,
	"step": 199
	},
	{
	"epoch": 0.005,
	"grad_norm": 9.9375,
	"grad_norm_var": 997.4878743489584,
	"learning_rate": 0.0001,
	"loss": 6.7972,
	"loss/crossentropy": 1.3856897354125977,
	"loss/hidden": 0.080078125,
	"loss/logits": 0.001242777332663536,
	"loss/reg": 5.330203056335449,
	"loss/twn": 0.0,
	"step": 200
	},
	{
	"epoch": 0.005025,
	"grad_norm": 11.875,
	"grad_norm_var": 1011.9969889322916,
	"learning_rate": 0.0001,
	"loss": 7.5639,
	"loss/crossentropy": 2.073434591293335,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.013964459300041199,
	"loss/reg": 5.328036308288574,
	"loss/twn": 0.0,
	"step": 201
	},
	{
	"epoch": 0.00505,
	"grad_norm": 18.25,
	"grad_norm_var": 1016.660400390625,
	"learning_rate": 0.0001,
	"loss": 8.68,
	"loss/crossentropy": 3.2589170932769775,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.008732986636459827,
	"loss/reg": 5.325946807861328,
	"loss/twn": 0.0,
	"step": 202
	},
	{
	"epoch": 0.005075,
	"grad_norm": 16.125,
	"grad_norm_var": 1026.004931640625,
	"learning_rate": 0.0001,
	"loss": 8.6078,
	"loss/crossentropy": 3.1099424362182617,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.018260516226291656,
	"loss/reg": 5.324294090270996,
	"loss/twn": 0.0,
	"step": 203
	},
	{
	"epoch": 0.0051,
	"grad_norm": 46.75,
	"grad_norm_var": 1007.981884765625,
	"learning_rate": 0.0001,
	"loss": 7.5539,
	"loss/crossentropy": 2.091862678527832,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.009298876859247684,
	"loss/reg": 5.321921348571777,
	"loss/twn": 0.0,
	"step": 204
	},
	{
	"epoch": 0.005125,
	"grad_norm": 10.3125,
	"grad_norm_var": 1047.91484375,
	"learning_rate": 0.0001,
	"loss": 8.124,
	"loss/crossentropy": 2.732879400253296,
	"loss/hidden": 0.064453125,
	"loss/logits": 0.0066910069435834885,
	"loss/reg": 5.320003986358643,
	"loss/twn": 0.0,
	"step": 205
	},
	{
	"epoch": 0.00515,
	"grad_norm": 11.0625,
	"grad_norm_var": 1082.517822265625,
	"learning_rate": 0.0001,
	"loss": 6.9944,
	"loss/crossentropy": 1.5260496139526367,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.007849331945180893,
	"loss/reg": 5.317881107330322,
	"loss/twn": 0.0,
	"step": 206
	},
	{
	"epoch": 0.005175,
	"grad_norm": 8.6875,
	"grad_norm_var": 1085.5166015625,
	"learning_rate": 0.0001,
	"loss": 6.7833,
	"loss/crossentropy": 1.3956589698791504,
	"loss/hidden": 0.06689453125,
	"loss/logits": 0.004923268221318722,
	"loss/reg": 5.315812587738037,
	"loss/twn": 0.0,
	"step": 207
	},
	{
	"epoch": 0.0052,
	"grad_norm": 10.0625,
	"grad_norm_var": 784.176025390625,
	"learning_rate": 0.0001,
	"loss": 6.6116,
	"loss/crossentropy": 1.040010690689087,
	"loss/hidden": 0.2451171875,
	"loss/logits": 0.011602293699979782,
	"loss/reg": 5.3148298263549805,
	"loss/twn": 0.0,
	"step": 208
	},
	{
	"epoch": 0.005225,
	"grad_norm": 21.875,
	"grad_norm_var": 775.4880045572917,
	"learning_rate": 0.0001,
	"loss": 8.5451,
	"loss/crossentropy": 3.072871685028076,
	"loss/hidden": 0.1474609375,
	"loss/logits": 0.011389853432774544,
	"loss/reg": 5.313349723815918,
	"loss/twn": 0.0,
	"step": 209
	},
	{
	"epoch": 0.00525,
	"grad_norm": 16.25,
	"grad_norm_var": 685.5469889322917,
	"learning_rate": 0.0001,
	"loss": 6.872,
	"loss/crossentropy": 1.4240162372589111,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.0054016802459955215,
	"loss/reg": 5.311694145202637,
	"loss/twn": 0.0,
	"step": 210
	},
	{
	"epoch": 0.005275,
	"grad_norm": 10.8125,
	"grad_norm_var": 693.5171223958333,
	"learning_rate": 0.0001,
	"loss": 6.665,
	"loss/crossentropy": 1.2265129089355469,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.0037709574680775404,
	"loss/reg": 5.31024169921875,
	"loss/twn": 0.0,
	"step": 211
	},
	{
	"epoch": 0.0053,
	"grad_norm": 11.4375,
	"grad_norm_var": 480.45558268229166,
	"learning_rate": 0.0001,
	"loss": 8.1829,
	"loss/crossentropy": 2.7488791942596436,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.007810299750417471,
	"loss/reg": 5.3085198402404785,
	"loss/twn": 0.0,
	"step": 212
	},
	{
	"epoch": 0.005325,
	"grad_norm": 13.5,
	"grad_norm_var": 481.47316080729166,
	"learning_rate": 0.0001,
	"loss": 8.1725,
	"loss/crossentropy": 2.769019603729248,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.010608029551804066,
	"loss/reg": 5.306417942047119,
	"loss/twn": 0.0,
	"step": 213
	},
	{
	"epoch": 0.00535,
	"grad_norm": 10.875,
	"grad_norm_var": 481.77928059895834,
	"learning_rate": 0.0001,
	"loss": 7.1392,
	"loss/crossentropy": 1.7968316078186035,
	"loss/hidden": 0.03271484375,
	"loss/logits": 0.004501561634242535,
	"loss/reg": 5.305141925811768,
	"loss/twn": 0.0,
	"step": 214
	},
	{
	"epoch": 0.005375,
	"grad_norm": 11.1875,
	"grad_norm_var": 84.65208333333334,
	"learning_rate": 0.0001,
	"loss": 7.577,
	"loss/crossentropy": 2.1686487197875977,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.006175590679049492,
	"loss/reg": 5.303523540496826,
	"loss/twn": 0.0,
	"step": 215
	},
	{
	"epoch": 0.0054,
	"grad_norm": 12.0625,
	"grad_norm_var": 83.51764322916667,
	"learning_rate": 0.0001,
	"loss": 8.042,
	"loss/crossentropy": 2.737717628479004,
	"loss/hidden": 6.16908073425293e-06,
	"loss/logits": 0.0018352700863033533,
	"loss/reg": 5.302443027496338,
	"loss/twn": 0.0,
	"step": 216
	},
	{
	"epoch": 0.005425,
	"grad_norm": 12.8125,
	"grad_norm_var": 83.17316080729167,
	"learning_rate": 0.0001,
	"loss": 8.3658,
	"loss/crossentropy": 2.9845688343048096,
	"loss/hidden": 0.07421875,
	"loss/logits": 0.005686669610440731,
	"loss/reg": 5.301285743713379,
	"loss/twn": 0.0,
	"step": 217
	},
	{
	"epoch": 0.00545,
	"grad_norm": 13.25,
	"grad_norm_var": 82.654931640625,
	"learning_rate": 0.0001,
	"loss": 8.1609,
	"loss/crossentropy": 2.7524123191833496,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.007715051528066397,
	"loss/reg": 5.299709320068359,
	"loss/twn": 0.0,
	"step": 218
	},
	{
	"epoch": 0.005475,
	"grad_norm": 23.375,
	"grad_norm_var": 87.20506184895834,
	"learning_rate": 0.0001,
	"loss": 7.156,
	"loss/crossentropy": 1.624443531036377,
	"loss/hidden": 0.2216796875,
	"loss/logits": 0.011536870151758194,
	"loss/reg": 5.298386573791504,
	"loss/twn": 0.0,
	"step": 219
	},
	{
	"epoch": 0.0055,
	"grad_norm": 18.625,
	"grad_norm_var": 18.591780598958334,
	"learning_rate": 0.0001,
	"loss": 8.0654,
	"loss/crossentropy": 2.5879249572753906,
	"loss/hidden": 0.1630859375,
	"loss/logits": 0.017003701999783516,
	"loss/reg": 5.297426223754883,
	"loss/twn": 0.0,
	"step": 220
	},
	{
	"epoch": 0.005525,
	"grad_norm": 43.25,
	"grad_norm_var": 72.34680989583333,
	"learning_rate": 0.0001,
	"loss": 7.8801,
	"loss/crossentropy": 2.4491031169891357,
	"loss/hidden": 0.125,
	"loss/logits": 0.010065239854156971,
	"loss/reg": 5.295965194702148,
	"loss/twn": 0.0,
	"step": 221
	},
	{
	"epoch": 0.00555,
	"grad_norm": 9.5,
	"grad_norm_var": 73.438525390625,
	"learning_rate": 0.0001,
	"loss": 7.2681,
	"loss/crossentropy": 1.8589441776275635,
	"loss/hidden": 0.10595703125,
	"loss/logits": 0.0087303277105093,
	"loss/reg": 5.2944464683532715,
	"loss/twn": 0.0,
	"step": 222
	},
	{
	"epoch": 0.005575,
	"grad_norm": 10.3125,
	"grad_norm_var": 72.133447265625,
	"learning_rate": 0.0001,
	"loss": 6.9474,
	"loss/crossentropy": 1.452248215675354,
	"loss/hidden": 0.1962890625,
	"loss/logits": 0.005369896534830332,
	"loss/reg": 5.293449401855469,
	"loss/twn": 0.0,
	"step": 223
	},
	{
	"epoch": 0.0056,
	"grad_norm": 15.25,
	"grad_norm_var": 70.00305989583333,
	"learning_rate": 0.0001,
	"loss": 8.1935,
	"loss/crossentropy": 2.740863800048828,
	"loss/hidden": 0.14453125,
	"loss/logits": 0.01583397574722767,
	"loss/reg": 5.292267799377441,
	"loss/twn": 0.0,
	"step": 224
	},
	{
	"epoch": 0.005625,
	"grad_norm": 1056.0,
	"grad_norm_var": 67732.47864583334,
	"learning_rate": 0.0001,
	"loss": 7.8539,
	"loss/crossentropy": 2.403062105178833,
	"loss/hidden": 0.1474609375,
	"loss/logits": 0.012353872880339622,
	"loss/reg": 5.29097318649292,
	"loss/twn": 0.0,
	"step": 225
	},
	{
	"epoch": 0.00565,
	"grad_norm": 10.3125,
	"grad_norm_var": 67785.57133789062,
	"learning_rate": 0.0001,
	"loss": 7.194,
	"loss/crossentropy": 1.7008212804794312,
	"loss/hidden": 0.189453125,
	"loss/logits": 0.013665840029716492,
	"loss/reg": 5.290075778961182,
	"loss/twn": 0.0,
	"step": 226
	},
	{
	"epoch": 0.005675,
	"grad_norm": 12.5,
	"grad_norm_var": 67770.14609375,
	"learning_rate": 0.0001,
	"loss": 6.5587,
	"loss/crossentropy": 1.045196771621704,
	"loss/hidden": 0.2080078125,
	"loss/logits": 0.016789620742201805,
	"loss/reg": 5.288687705993652,
	"loss/twn": 0.0,
	"step": 227
	},
	{
	"epoch": 0.0057,
	"grad_norm": 27.625,
	"grad_norm_var": 67637.96925455729,
	"learning_rate": 0.0001,
	"loss": 7.1449,
	"loss/crossentropy": 1.6837458610534668,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.015014993026852608,
	"loss/reg": 5.2879252433776855,
	"loss/twn": 0.0,
	"step": 228
	},
	{
	"epoch": 0.005725,
	"grad_norm": 10.6875,
	"grad_norm_var": 67663.88014322917,
	"learning_rate": 0.0001,
	"loss": 7.0729,
	"loss/crossentropy": 1.7119382619857788,
	"loss/hidden": 0.06689453125,
	"loss/logits": 0.007287868298590183,
	"loss/reg": 5.286799907684326,
	"loss/twn": 0.0,
	"step": 229
	},
	{
	"epoch": 0.00575,
	"grad_norm": 53.0,
	"grad_norm_var": 67380.34817708333,
	"learning_rate": 0.0001,
	"loss": 7.5607,
	"loss/crossentropy": 2.0949935913085938,
	"loss/hidden": 0.169921875,
	"loss/logits": 0.009483925998210907,
	"loss/reg": 5.286267280578613,
	"loss/twn": 0.0,
	"step": 230
	},
	{
	"epoch": 0.005775,
	"grad_norm": 19.375,
	"grad_norm_var": 67305.34086914062,
	"learning_rate": 0.0001,
	"loss": 7.9328,
	"loss/crossentropy": 2.538356304168701,
	"loss/hidden": 0.10498046875,
	"loss/logits": 0.005003707949072123,
	"loss/reg": 5.284492492675781,
	"loss/twn": 0.0,
	"step": 231
	},
	{
	"epoch": 0.0058,
	"grad_norm": 24.5,
	"grad_norm_var": 67195.30462239584,
	"learning_rate": 0.0001,
	"loss": 8.2162,
	"loss/crossentropy": 2.749314308166504,
	"loss/hidden": 0.169921875,
	"loss/logits": 0.012603437528014183,
	"loss/reg": 5.2843194007873535,
	"loss/twn": 0.0,
	"step": 232
	},
	{
	"epoch": 0.005825,
	"grad_norm": 14.6875,
	"grad_norm_var": 67177.47161458334,
	"learning_rate": 0.0001,
	"loss": 7.1017,
	"loss/crossentropy": 1.6476311683654785,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.01403855625540018,
	"loss/reg": 5.282772064208984,
	"loss/twn": 0.0,
	"step": 233
	},
	{
	"epoch": 0.00585,
	"grad_norm": 10.875,
	"grad_norm_var": 67200.58951822917,
	"learning_rate": 0.0001,
	"loss": 7.2783,
	"loss/crossentropy": 1.8889567852020264,
	"loss/hidden": 0.09814453125,
	"loss/logits": 0.009974194690585136,
	"loss/reg": 5.281259059906006,
	"loss/twn": 0.0,
	"step": 234
	},
	{
	"epoch": 0.005875,
	"grad_norm": 8.4375,
	"grad_norm_var": 67337.25597330728,
	"learning_rate": 0.0001,
	"loss": 7.2088,
	"loss/crossentropy": 1.7615716457366943,
	"loss/hidden": 0.16015625,
	"loss/logits": 0.0061751967296004295,
	"loss/reg": 5.280921459197998,
	"loss/twn": 0.0,
	"step": 235
	},
	{
	"epoch": 0.0059,
	"grad_norm": 9.4375,
	"grad_norm_var": 67422.68776041667,
	"learning_rate": 0.0001,
	"loss": 7.3424,
	"loss/crossentropy": 1.9424008131027222,
	"loss/hidden": 0.115234375,
	"loss/logits": 0.004247123841196299,
	"loss/reg": 5.280468940734863,
	"loss/twn": 0.0,
	"step": 236
	},
	{
	"epoch": 0.005925,
	"grad_norm": 10.3125,
	"grad_norm_var": 67667.18865559896,
	"learning_rate": 0.0001,
	"loss": 8.127,
	"loss/crossentropy": 2.7163503170013428,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.008166075684130192,
	"loss/reg": 5.279946804046631,
	"loss/twn": 0.0,
	"step": 237
	},
	{
	"epoch": 0.00595,
	"grad_norm": 12.5,
	"grad_norm_var": 67638.98084309897,
	"learning_rate": 0.0001,
	"loss": 7.0844,
	"loss/crossentropy": 1.5295031070709229,
	"loss/hidden": 0.26953125,
	"loss/logits": 0.006746275350451469,
	"loss/reg": 5.278590679168701,
	"loss/twn": 0.0,
	"step": 238
	},
	{
	"epoch": 0.005975,
	"grad_norm": 92.5,
	"grad_norm_var": 67279.8171875,
	"learning_rate": 0.0001,
	"loss": 5.8036,
	"loss/crossentropy": 0.4050528109073639,
	"loss/hidden": 0.1142578125,
	"loss/logits": 0.005355454981327057,
	"loss/reg": 5.278897762298584,
	"loss/twn": 0.0,
	"step": 239
	},
	{
	"epoch": 0.006,
	"grad_norm": 28.875,
	"grad_norm_var": 67161.52805989583,
	"learning_rate": 0.0001,
	"loss": 8.1647,
	"loss/crossentropy": 2.643662929534912,
	"loss/hidden": 0.2294921875,
	"loss/logits": 0.013766671530902386,
	"loss/reg": 5.277756214141846,
	"loss/twn": 0.0,
	"step": 240
	},
	{
	"epoch": 0.006025,
	"grad_norm": 13.1875,
	"grad_norm_var": 479.914697265625,
	"learning_rate": 0.0001,
	"loss": 6.9306,
	"loss/crossentropy": 1.5002285242080688,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.009923199191689491,
	"loss/reg": 5.276930809020996,
	"loss/twn": 0.0,
	"step": 241
	},
	{
	"epoch": 0.00605,
	"grad_norm": 11.9375,
	"grad_norm_var": 477.45519205729164,
	"learning_rate": 0.0001,
	"loss": 8.1267,
	"loss/crossentropy": 2.7130773067474365,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.00791969709098339,
	"loss/reg": 5.276750087738037,
	"loss/twn": 0.0,
	"step": 242
	},
	{
	"epoch": 0.006075,
	"grad_norm": 10.75,
	"grad_norm_var": 479.98631184895834,
	"learning_rate": 0.0001,
	"loss": 7.1488,
	"loss/crossentropy": 1.727049469947815,
	"loss/hidden": 0.1376953125,
	"loss/logits": 0.00825846754014492,
	"loss/reg": 5.2758002281188965,
	"loss/twn": 0.0,
	"step": 243
	},
	{
	"epoch": 0.0061,
	"grad_norm": 15.4375,
	"grad_norm_var": 480.80833333333334,
	"learning_rate": 0.0001,
	"loss": 7.921,
	"loss/crossentropy": 2.5109403133392334,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.012591829523444176,
	"loss/reg": 5.274876594543457,
	"loss/twn": 0.0,
	"step": 244
	},
	{
	"epoch": 0.006125,
	"grad_norm": 14.6875,
	"grad_norm_var": 475.9583333333333,
	"learning_rate": 0.0001,
	"loss": 7.9285,
	"loss/crossentropy": 2.4956674575805664,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.012429025955498219,
	"loss/reg": 5.2739410400390625,
	"loss/twn": 0.0,
	"step": 245
	},
	{
	"epoch": 0.00615,
	"grad_norm": 11.5625,
	"grad_norm_var": 411.4820149739583,
	"learning_rate": 0.0001,
	"loss": 7.9078,
	"loss/crossentropy": 2.5263020992279053,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.007129446603357792,
	"loss/reg": 5.273260116577148,
	"loss/twn": 0.0,
	"step": 246
	},
	{
	"epoch": 0.006175,
	"grad_norm": 17.5,
	"grad_norm_var": 411.6870930989583,
	"learning_rate": 0.0001,
	"loss": 7.0028,
	"loss/crossentropy": 1.6373541355133057,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.0059446613304317,
	"loss/reg": 5.273036479949951,
	"loss/twn": 0.0,
	"step": 247
	},
	{
	"epoch": 0.0062,
	"grad_norm": 11.375,
	"grad_norm_var": 413.1773274739583,
	"learning_rate": 0.0001,
	"loss": 7.5298,
	"loss/crossentropy": 2.1802141666412354,
	"loss/hidden": 0.07568359375,
	"loss/logits": 0.0017865689005702734,
	"loss/reg": 5.272162914276123,
	"loss/twn": 0.0,
	"step": 248
	},
	{
	"epoch": 0.006225,
	"grad_norm": 8.625,
	"grad_norm_var": 418.4583333333333,
	"learning_rate": 0.0001,
	"loss": 6.7983,
	"loss/crossentropy": 1.4629161357879639,
	"loss/hidden": 0.06201171875,
	"loss/logits": 0.0020404397509992123,
	"loss/reg": 5.271305084228516,
	"loss/twn": 0.0,
	"step": 249
	},
	{
	"epoch": 0.00625,
	"grad_norm": 10.625,
	"grad_norm_var": 418.6997395833333,
	"learning_rate": 0.0001,
	"loss": 6.9642,
	"loss/crossentropy": 1.5569666624069214,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.011692131869494915,
	"loss/reg": 5.27101469039917,
	"loss/twn": 0.0,
	"step": 250
	},
	{
	"epoch": 0.006275,
	"grad_norm": 174.0,
	"grad_norm_var": 1921.1363118489583,
	"learning_rate": 0.0001,
	"loss": 6.8711,
	"loss/crossentropy": 1.442520260810852,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.009676285088062286,
	"loss/reg": 5.270504951477051,
	"loss/twn": 0.0,
	"step": 251
	},
	{
	"epoch": 0.0063,
	"grad_norm": 7.75,
	"grad_norm_var": 1925.5655598958333,
	"learning_rate": 0.0001,
	"loss": 6.6066,
	"loss/crossentropy": 1.229660153388977,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.006052733864635229,
	"loss/reg": 5.269782543182373,
	"loss/twn": 0.0,
	"step": 252
	},
	{
	"epoch": 0.006325,
	"grad_norm": 10.75,
	"grad_norm_var": 1924.5325358072917,
	"learning_rate": 0.0001,
	"loss": 7.977,
	"loss/crossentropy": 2.645150899887085,
	"loss/hidden": 0.05712890625,
	"loss/logits": 0.005253541748970747,
	"loss/reg": 5.269515514373779,
	"loss/twn": 0.0,
	"step": 253
	},
	{
	"epoch": 0.00635,
	"grad_norm": 15.3125,
	"grad_norm_var": 1919.1192057291667,
	"learning_rate": 0.0001,
	"loss": 8.4118,
	"loss/crossentropy": 2.997927188873291,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.010878477245569229,
	"loss/reg": 5.269217014312744,
	"loss/twn": 0.0,
	"step": 254
	},
	{
	"epoch": 0.006375,
	"grad_norm": 10.5625,
	"grad_norm_var": 1638.7606608072917,
	"learning_rate": 0.0001,
	"loss": 7.96,
	"loss/crossentropy": 2.5343592166900635,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.00772454310208559,
	"loss/reg": 5.268545627593994,
	"loss/twn": 0.0,
	"step": 255
	},
	{
	"epoch": 0.0064,
	"grad_norm": 11.125,
	"grad_norm_var": 1645.2782389322917,
	"learning_rate": 0.0001,
	"loss": 8.081,
	"loss/crossentropy": 2.7416863441467285,
	"loss/hidden": 0.06689453125,
	"loss/logits": 0.004296740982681513,
	"loss/reg": 5.268085479736328,
	"loss/twn": 0.0,
	"step": 256
	},
	{
	"epoch": 0.006425,
	"grad_norm": 83.5,
	"grad_norm_var": 1869.7838541666667,
	"learning_rate": 0.0001,
	"loss": 7.679,
	"loss/crossentropy": 2.278621196746826,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.01035086065530777,
	"loss/reg": 5.267502307891846,
	"loss/twn": 0.0,
	"step": 257
	},
	{
	"epoch": 0.00645,
	"grad_norm": 11.3125,
	"grad_norm_var": 1871.0296223958333,
	"learning_rate": 0.0001,
	"loss": 7.0164,
	"loss/crossentropy": 1.6138280630111694,
	"loss/hidden": 0.125,
	"loss/logits": 0.01041114330291748,
	"loss/reg": 5.267125606536865,
	"loss/twn": 0.0,
	"step": 258
	},
	{
	"epoch": 0.006475,
	"grad_norm": 9.375,
	"grad_norm_var": 1874.0453125,
	"learning_rate": 0.0001,
	"loss": 8.1242,
	"loss/crossentropy": 2.724980354309082,
	"loss/hidden": 0.1220703125,
	"loss/logits": 0.010582932271063328,
	"loss/reg": 5.266530990600586,
	"loss/twn": 0.0,
	"step": 259
	},
	{
	"epoch": 0.0065,
	"grad_norm": 7.09375,
	"grad_norm_var": 1890.6687133789062,
	"learning_rate": 0.0001,
	"loss": 7.1719,
	"loss/crossentropy": 1.8638581037521362,
	"loss/hidden": 0.0400390625,
	"loss/logits": 0.002111276611685753,
	"loss/reg": 5.265857696533203,
	"loss/twn": 0.0,
	"step": 260
	},
	{
	"epoch": 0.006525,
	"grad_norm": 12.9375,
	"grad_norm_var": 1893.4873982747397,
	"learning_rate": 0.0001,
	"loss": 7.2962,
	"loss/crossentropy": 1.825720191001892,
	"loss/hidden": 0.189453125,
	"loss/logits": 0.015128025785088539,
	"loss/reg": 5.26585054397583,
	"loss/twn": 0.0,
	"step": 261
	},
	{
	"epoch": 0.00655,
	"grad_norm": 116.5,
	"grad_norm_var": 2381.9933227539063,
	"learning_rate": 0.0001,
	"loss": 5.8142,
	"loss/crossentropy": 0.3675730228424072,
	"loss/hidden": 0.173828125,
	"loss/logits": 0.0077675022184848785,
	"loss/reg": 5.265065670013428,
	"loss/twn": 0.0,
	"step": 262
	},
	{
	"epoch": 0.006575,
	"grad_norm": 10.875,
	"grad_norm_var": 2397.895048014323,
	"learning_rate": 0.0001,
	"loss": 7.9558,
	"loss/crossentropy": 2.6135733127593994,
	"loss/hidden": 0.07177734375,
	"loss/logits": 0.005567469634115696,
	"loss/reg": 5.264838695526123,
	"loss/twn": 0.0,
	"step": 263
	},
	{
	"epoch": 0.0066,
	"grad_norm": 26.75,
	"grad_norm_var": 2370.424247233073,
	"learning_rate": 0.0001,
	"loss": 7.1463,
	"loss/crossentropy": 1.744168996810913,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.006982623599469662,
	"loss/reg": 5.264274597167969,
	"loss/twn": 0.0,
	"step": 264
	},
	{
	"epoch": 0.006625,
	"grad_norm": 12.9375,
	"grad_norm_var": 2357.603544108073,
	"learning_rate": 0.0001,
	"loss": 6.835,
	"loss/crossentropy": 1.3916579484939575,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.011533312499523163,
	"loss/reg": 5.263826847076416,
	"loss/twn": 0.0,
	"step": 265
	},
	{
	"epoch": 0.00665,
	"grad_norm": 86.0,
	"grad_norm_var": 2485.682157389323,
	"learning_rate": 0.0001,
	"loss": 8.1388,
	"loss/crossentropy": 2.743070363998413,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.012774601578712463,
	"loss/reg": 5.263358116149902,
	"loss/twn": 0.0,
	"step": 266
	},
	{
	"epoch": 0.006675,
	"grad_norm": 20.125,
	"grad_norm_var": 1173.6974243164063,
	"learning_rate": 0.0001,
	"loss": 7.547,
	"loss/crossentropy": 2.15224289894104,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.004906866233795881,
	"loss/reg": 5.262901782989502,
	"loss/twn": 0.0,
	"step": 267
	},
	{
	"epoch": 0.0067,
	"grad_norm": 8.25,
	"grad_norm_var": 1172.3426066080729,
	"learning_rate": 0.0001,
	"loss": 8.0178,
	"loss/crossentropy": 2.7544662952423096,
	"loss/hidden": 2.9206275939941406e-06,
	"loss/logits": 0.0010420402977615595,
	"loss/reg": 5.262295246124268,
	"loss/twn": 0.0,
	"step": 268
	},
	{
	"epoch": 0.006725,
	"grad_norm": 10.5625,
	"grad_norm_var": 1172.7845011393229,
	"learning_rate": 0.0001,
	"loss": 7.2573,
	"loss/crossentropy": 1.708762288093567,
	"loss/hidden": 0.27734375,
	"loss/logits": 0.008786465972661972,
	"loss/reg": 5.262362480163574,
	"loss/twn": 0.0,
	"step": 269
	},
	{
	"epoch": 0.00675,
	"grad_norm": 8.6875,
	"grad_norm_var": 1187.023075358073,
	"learning_rate": 0.0001,
	"loss": 7.3198,
	"loss/crossentropy": 1.9545139074325562,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.0075501929968595505,
	"loss/reg": 5.261580467224121,
	"loss/twn": 0.0,
	"step": 270
	},
	{
	"epoch": 0.006775,
	"grad_norm": 27.75,
	"grad_norm_var": 1165.726688639323,
	"learning_rate": 0.0001,
	"loss": 7.9432,
	"loss/crossentropy": 2.5177128314971924,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.008861662819981575,
	"loss/reg": 5.261343955993652,
	"loss/twn": 0.0,
	"step": 271
	},
	{
	"epoch": 0.0068,
	"grad_norm": 12.75,
	"grad_norm_var": 1162.0217732747396,
	"learning_rate": 0.0001,
	"loss": 7.2029,
	"loss/crossentropy": 1.8247922658920288,
	"loss/hidden": 0.1103515625,
	"loss/logits": 0.00664330180734396,
	"loss/reg": 5.261136054992676,
	"loss/twn": 0.0,
	"step": 272
	},
	{
	"epoch": 0.006825,
	"grad_norm": 24.625,
	"grad_norm_var": 951.5283162434896,
	"learning_rate": 0.0001,
	"loss": 6.3479,
	"loss/crossentropy": 0.8956549167633057,
	"loss/hidden": 0.1845703125,
	"loss/logits": 0.00696325721219182,
	"loss/reg": 5.2607598304748535,
	"loss/twn": 0.0,
	"step": 273
	},
	{
	"epoch": 0.00685,
	"grad_norm": 15.3125,
	"grad_norm_var": 945.0106079101563,
	"learning_rate": 0.0001,
	"loss": 7.1854,
	"loss/crossentropy": 1.796543002128601,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.005927722901105881,
	"loss/reg": 5.26037073135376,
	"loss/twn": 0.0,
	"step": 274
	},
	{
	"epoch": 0.006875,
	"grad_norm": 18.625,
	"grad_norm_var": 930.2756469726562,
	"learning_rate": 0.0001,
	"loss": 8.1342,
	"loss/crossentropy": 2.680659770965576,
	"loss/hidden": 0.181640625,
	"loss/logits": 0.011690370738506317,
	"loss/reg": 5.260243892669678,
	"loss/twn": 0.0,
	"step": 275
	},
	{
	"epoch": 0.0069,
	"grad_norm": 14.4375,
	"grad_norm_var": 914.9025390625,
	"learning_rate": 0.0001,
	"loss": 8.5123,
	"loss/crossentropy": 3.0964365005493164,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.010575573891401291,
	"loss/reg": 5.259780406951904,
	"loss/twn": 0.0,
	"step": 276
	},
	{
	"epoch": 0.006925,
	"grad_norm": 12.6875,
	"grad_norm_var": 915.3650390625,
	"learning_rate": 0.0001,
	"loss": 8.2582,
	"loss/crossentropy": 2.825162172317505,
	"loss/hidden": 0.15625,
	"loss/logits": 0.01738206297159195,
	"loss/reg": 5.259433746337891,
	"loss/twn": 0.0,
	"step": 277
	},
	{
	"epoch": 0.00695,
	"grad_norm": 21.625,
	"grad_norm_var": 341.7171875,
	"learning_rate": 0.0001,
	"loss": 7.1032,
	"loss/crossentropy": 1.7048217058181763,
	"loss/hidden": 0.1279296875,
	"loss/logits": 0.011121492832899094,
	"loss/reg": 5.259332656860352,
	"loss/twn": 0.0,
	"step": 278
	},
	{
	"epoch": 0.006975,
	"grad_norm": 9.3125,
	"grad_norm_var": 343.92706705729165,
	"learning_rate": 0.0001,
	"loss": 7.4175,
	"loss/crossentropy": 1.9668402671813965,
	"loss/hidden": 0.1826171875,
	"loss/logits": 0.009085997007787228,
	"loss/reg": 5.258953094482422,
	"loss/twn": 0.0,
	"step": 279
	},
	{
	"epoch": 0.007,
	"grad_norm": 14.3125,
	"grad_norm_var": 343.48333333333335,
	"learning_rate": 0.0001,
	"loss": 7.5905,
	"loss/crossentropy": 2.2082672119140625,
	"loss/hidden": 0.1181640625,
	"loss/logits": 0.005382226780056953,
	"loss/reg": 5.258672714233398,
	"loss/twn": 0.0,
	"step": 280
	},
	{
	"epoch": 0.007025,
	"grad_norm": 17.75,
	"grad_norm_var": 340.4792805989583,
	"learning_rate": 0.0001,
	"loss": 6.2281,
	"loss/crossentropy": 0.711824893951416,
	"loss/hidden": 0.251953125,
	"loss/logits": 0.005929501727223396,
	"loss/reg": 5.258391380310059,
	"loss/twn": 0.0,
	"step": 281
	},
	{
	"epoch": 0.00705,
	"grad_norm": 48.5,
	"grad_norm_var": 99.24881184895834,
	"learning_rate": 0.0001,
	"loss": 6.6114,
	"loss/crossentropy": 1.0958250761032104,
	"loss/hidden": 0.25,
	"loss/logits": 0.007801922038197517,
	"loss/reg": 5.257816314697266,
	"loss/twn": 0.0,
	"step": 282
	},
	{
	"epoch": 0.007075,
	"grad_norm": 16.0,
	"grad_norm_var": 99.05115559895833,
	"learning_rate": 0.0001,
	"loss": 6.7629,
	"loss/crossentropy": 1.2992652654647827,
	"loss/hidden": 0.1953125,
	"loss/logits": 0.01093169767409563,
	"loss/reg": 5.257413864135742,
	"loss/twn": 0.0,
	"step": 283
	},
	{
	"epoch": 0.0071,
	"grad_norm": 9.5,
	"grad_norm_var": 97.594775390625,
	"learning_rate": 0.0001,
	"loss": 7.7528,
	"loss/crossentropy": 2.3623929023742676,
	"loss/hidden": 0.1279296875,
	"loss/logits": 0.00520264683291316,
	"loss/reg": 5.257322788238525,
	"loss/twn": 0.0,
	"step": 284
	},
	{
	"epoch": 0.007125,
	"grad_norm": 16.75,
	"grad_norm_var": 94.1384765625,
	"learning_rate": 0.0001,
	"loss": 7.282,
	"loss/crossentropy": 1.8802975416183472,
	"loss/hidden": 0.1357421875,
	"loss/logits": 0.008890845812857151,
	"loss/reg": 5.2571001052856445,
	"loss/twn": 0.0,
	"step": 285
	},
	{
	"epoch": 0.00715,
	"grad_norm": 9.875,
	"grad_norm_var": 92.745947265625,
	"learning_rate": 0.0001,
	"loss": 7.0654,
	"loss/crossentropy": 1.632087230682373,
	"loss/hidden": 0.1669921875,
	"loss/logits": 0.009606104344129562,
	"loss/reg": 5.256716728210449,
	"loss/twn": 0.0,
	"step": 286
	},
	{
	"epoch": 0.007175,
	"grad_norm": 29.25,
	"grad_norm_var": 94.813916015625,
	"learning_rate": 0.0001,
	"loss": 7.8745,
	"loss/crossentropy": 2.4687438011169434,
	"loss/hidden": 0.140625,
	"loss/logits": 0.00846975389868021,
	"loss/reg": 5.256651878356934,
	"loss/twn": 0.0,
	"step": 287
	},
	{
	"epoch": 0.0072,
	"grad_norm": 28.25,
	"grad_norm_var": 98.55167643229167,
	"learning_rate": 0.0001,
	"loss": 8.246,
	"loss/crossentropy": 2.8182952404022217,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.013284040614962578,
	"loss/reg": 5.256263256072998,
	"loss/twn": 0.0,
	"step": 288
	},
	{
	"epoch": 0.007225,
	"grad_norm": 10.625,
	"grad_norm_var": 100.62980143229167,
	"learning_rate": 0.0001,
	"loss": 8.0743,
	"loss/crossentropy": 2.664623737335205,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.009994969703257084,
	"loss/reg": 5.256109237670898,
	"loss/twn": 0.0,
	"step": 289
	},
	{
	"epoch": 0.00725,
	"grad_norm": 134.0,
	"grad_norm_var": 933.7604166666666,
	"learning_rate": 0.0001,
	"loss": 8.0955,
	"loss/crossentropy": 2.6748669147491455,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.006934846751391888,
	"loss/reg": 5.25545597076416,
	"loss/twn": 0.0,
	"step": 290
	},
	{
	"epoch": 0.007275,
	"grad_norm": 11.0625,
	"grad_norm_var": 944.487744140625,
	"learning_rate": 0.0001,
	"loss": 7.7484,
	"loss/crossentropy": 2.490112781524658,
	"loss/hidden": 9.655952453613281e-06,
	"loss/logits": 0.0029325929936021566,
	"loss/reg": 5.255389213562012,
	"loss/twn": 0.0,
	"step": 291
	},
	{
	"epoch": 0.0073,
	"grad_norm": 9.375,
	"grad_norm_var": 953.3853515625,
	"learning_rate": 0.0001,
	"loss": 7.3465,
	"loss/crossentropy": 1.976689338684082,
	"loss/hidden": 0.10791015625,
	"loss/logits": 0.006814016494899988,
	"loss/reg": 5.255037307739258,
	"loss/twn": 0.0,
	"step": 292
	},
	{
	"epoch": 0.007325,
	"grad_norm": 20.125,
	"grad_norm_var": 944.7024576822917,
	"learning_rate": 0.0001,
	"loss": 7.0865,
	"loss/crossentropy": 1.7022920846939087,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.004657519515603781,
	"loss/reg": 5.25502347946167,
	"loss/twn": 0.0,
	"step": 293
	},
	{
	"epoch": 0.00735,
	"grad_norm": 10.8125,
	"grad_norm_var": 957.44375,
	"learning_rate": 0.0001,
	"loss": 5.8776,
	"loss/crossentropy": 0.5808318853378296,
	"loss/hidden": 0.0400390625,
	"loss/logits": 0.001980610191822052,
	"loss/reg": 5.254761219024658,
	"loss/twn": 0.0,
	"step": 294
	},
	{
	"epoch": 0.007375,
	"grad_norm": 10.0,
	"grad_norm_var": 956.0610514322917,
	"learning_rate": 0.0001,
	"loss": 7.66,
	"loss/crossentropy": 2.271899700164795,
	"loss/hidden": 0.125,
	"loss/logits": 0.008504629135131836,
	"loss/reg": 5.254581451416016,
	"loss/twn": 0.0,
	"step": 295
	},
	{
	"epoch": 0.0074,
	"grad_norm": 8.6875,
	"grad_norm_var": 965.8755045572917,
	"learning_rate": 0.0001,
	"loss": 6.0481,
	"loss/crossentropy": 0.639009952545166,
	"loss/hidden": 0.1533203125,
	"loss/logits": 0.0019615632481873035,
	"loss/reg": 5.253849983215332,
	"loss/twn": 0.0,
	"step": 296
	},
	{
	"epoch": 0.007425,
	"grad_norm": 11.1875,
	"grad_norm_var": 974.3947916666667,
	"learning_rate": 0.0001,
	"loss": 7.7422,
	"loss/crossentropy": 2.3546876907348633,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.00921722687780857,
	"loss/reg": 5.253818035125732,
	"loss/twn": 0.0,
	"step": 297
	},
	{
	"epoch": 0.00745,
	"grad_norm": 17.625,
	"grad_norm_var": 933.1155598958334,
	"learning_rate": 0.0001,
	"loss": 8.3911,
	"loss/crossentropy": 3.0292787551879883,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.00718055572360754,
	"loss/reg": 5.253612518310547,
	"loss/twn": 0.0,
	"step": 298
	},
	{
	"epoch": 0.007475,
	"grad_norm": 440.0,
	"grad_norm_var": 11825.940559895833,
	"learning_rate": 0.0001,
	"loss": 7.0072,
	"loss/crossentropy": 1.5630390644073486,
	"loss/hidden": 0.18359375,
	"loss/logits": 0.007107208017259836,
	"loss/reg": 5.253422737121582,
	"loss/twn": 0.0,
	"step": 299
	},
	{
	"epoch": 0.0075,
	"grad_norm": 10.875,
	"grad_norm_var": 11818.895833333334,
	"learning_rate": 0.0001,
	"loss": 6.9788,
	"loss/crossentropy": 1.483949065208435,
	"loss/hidden": 0.2314453125,
	"loss/logits": 0.010475615039467812,
	"loss/reg": 5.25289249420166,
	"loss/twn": 0.0,
	"step": 300
	},
	{
	"epoch": 0.007525,
	"grad_norm": 9.8125,
	"grad_norm_var": 11851.417171223959,
	"learning_rate": 0.0001,
	"loss": 7.5546,
	"loss/crossentropy": 2.208834648132324,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.006687905173748732,
	"loss/reg": 5.2526960372924805,
	"loss/twn": 0.0,
	"step": 301
	},
	{
	"epoch": 0.00755,
	"grad_norm": 11.25,
	"grad_norm_var": 11844.504931640626,
	"learning_rate": 0.0001,
	"loss": 7.1337,
	"loss/crossentropy": 1.752866506576538,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.008473502472043037,
	"loss/reg": 5.2522807121276855,
	"loss/twn": 0.0,
	"step": 302
	},
	{
	"epoch": 0.007575,
	"grad_norm": 20.5,
	"grad_norm_var": 11871.525113932292,
	"learning_rate": 0.0001,
	"loss": 5.9332,
	"loss/crossentropy": 0.6589277386665344,
	"loss/hidden": 0.02099609375,
	"loss/logits": 0.0013422563206404448,
	"loss/reg": 5.251956462860107,
	"loss/twn": 0.0,
	"step": 303
	},
	{
	"epoch": 0.0076,
	"grad_norm": 11.5625,
	"grad_norm_var": 11932.343229166667,
	"learning_rate": 0.0001,
	"loss": 7.0088,
	"loss/crossentropy": 1.5739790201187134,
	"loss/hidden": 0.1748046875,
	"loss/logits": 0.007969235070049763,
	"loss/reg": 5.2520952224731445,
	"loss/twn": 0.0,
	"step": 304
	},
	{
	"epoch": 0.007625,
	"grad_norm": 8.9375,
	"grad_norm_var": 11940.642301432292,
	"learning_rate": 0.0001,
	"loss": 8.1038,
	"loss/crossentropy": 2.782174587249756,
	"loss/hidden": 0.064453125,
	"loss/logits": 0.005289027933031321,
	"loss/reg": 5.251874923706055,
	"loss/twn": 0.0,
	"step": 305
	},
	{
	"epoch": 0.00765,
	"grad_norm": 19.75,
	"grad_norm_var": 11425.267692057292,
	"learning_rate": 0.0001,
	"loss": 8.1897,
	"loss/crossentropy": 2.776104688644409,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.011526349931955338,
	"loss/reg": 5.251704692840576,
	"loss/twn": 0.0,
	"step": 306
	},
	{
	"epoch": 0.007675,
	"grad_norm": 7.9375,
	"grad_norm_var": 11437.715608723958,
	"learning_rate": 0.0001,
	"loss": 8.9456,
	"loss/crossentropy": 3.692781686782837,
	"loss/hidden": 5.245208740234375e-06,
	"loss/logits": 0.0012750843307003379,
	"loss/reg": 5.251509189605713,
	"loss/twn": 0.0,
	"step": 307
	},
	{
	"epoch": 0.0077,
	"grad_norm": 69.0,
	"grad_norm_var": 11422.188264973958,
	"learning_rate": 0.0001,
	"loss": 8.1468,
	"loss/crossentropy": 2.5686264038085938,
	"loss/hidden": 0.30078125,
	"loss/logits": 0.025831755250692368,
	"loss/reg": 5.251588821411133,
	"loss/twn": 0.0,
	"step": 308
	},
	{
	"epoch": 0.007725,
	"grad_norm": 13.375,
	"grad_norm_var": 11445.626936848957,
	"learning_rate": 0.0001,
	"loss": 7.1097,
	"loss/crossentropy": 1.660717248916626,
	"loss/hidden": 0.185546875,
	"loss/logits": 0.01224461942911148,
	"loss/reg": 5.25119161605835,
	"loss/twn": 0.0,
	"step": 309
	},
	{
	"epoch": 0.00775,
	"grad_norm": 17.875,
	"grad_norm_var": 11418.828059895834,
	"learning_rate": 0.0001,
	"loss": 8.2796,
	"loss/crossentropy": 2.8778281211853027,
	"loss/hidden": 0.1376953125,
	"loss/logits": 0.013323968276381493,
	"loss/reg": 5.250760555267334,
	"loss/twn": 0.0,
	"step": 310
	},
	{
	"epoch": 0.007775,
	"grad_norm": 10.25,
	"grad_norm_var": 11417.731184895832,
	"learning_rate": 0.0001,
	"loss": 7.1638,
	"loss/crossentropy": 1.7495626211166382,
	"loss/hidden": 0.1533203125,
	"loss/logits": 0.010259518399834633,
	"loss/reg": 5.250608921051025,
	"loss/twn": 0.0,
	"step": 311
	},
	{
	"epoch": 0.0078,
	"grad_norm": 21.0,
	"grad_norm_var": 11370.812223307292,
	"learning_rate": 0.0001,
	"loss": 7.2684,
	"loss/crossentropy": 1.8736885786056519,
	"loss/hidden": 0.1357421875,
	"loss/logits": 0.008427501656115055,
	"loss/reg": 5.250565528869629,
	"loss/twn": 0.0,
	"step": 312
	},
	{
	"epoch": 0.007825,
	"grad_norm": 171.0,
	"grad_norm_var": 12271.96328125,
	"learning_rate": 0.0001,
	"loss": 6.804,
	"loss/crossentropy": 1.4117506742477417,
	"loss/hidden": 0.13671875,
	"loss/logits": 0.004921610467135906,
	"loss/reg": 5.250616550445557,
	"loss/twn": 0.0,
	"step": 313
	},
	{
	"epoch": 0.00785,
	"grad_norm": 21.75,
	"grad_norm_var": 12253.1322265625,
	"learning_rate": 0.0001,
	"loss": 7.013,
	"loss/crossentropy": 1.5148544311523438,
	"loss/hidden": 0.23828125,
	"loss/logits": 0.009858010336756706,
	"loss/reg": 5.24995756149292,
	"loss/twn": 0.0,
	"step": 314
	},
	{
	"epoch": 0.007875,
	"grad_norm": 127.0,
	"grad_norm_var": 2269.4103515625,
	"learning_rate": 0.0001,
	"loss": 8.0458,
	"loss/crossentropy": 2.6658105850219727,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.007101866416633129,
	"loss/reg": 5.250338077545166,
	"loss/twn": 0.0,
	"step": 315
	},
	{
	"epoch": 0.0079,
	"grad_norm": 49.25,
	"grad_norm_var": 2240.6091145833334,
	"learning_rate": 0.0001,
	"loss": 6.9261,
	"loss/crossentropy": 1.5474319458007812,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.004424188286066055,
	"loss/reg": 5.249726295471191,
	"loss/twn": 0.0,
	"step": 316
	},
	{
	"epoch": 0.007925,
	"grad_norm": 11.0625,
	"grad_norm_var": 2236.19375,
	"learning_rate": 0.0001,
	"loss": 7.9458,
	"loss/crossentropy": 2.6948788166046143,
	"loss/hidden": 3.7550926208496094e-06,
	"loss/logits": 0.0011138684349134564,
	"loss/reg": 5.249834060668945,
	"loss/twn": 0.0,
	"step": 317
	},
	{
	"epoch": 0.00795,
	"grad_norm": 14.625,
	"grad_norm_var": 2225.3322265625,
	"learning_rate": 0.0001,
	"loss": 7.097,
	"loss/crossentropy": 1.674680233001709,
	"loss/hidden": 0.1533203125,
	"loss/logits": 0.018878858536481857,
	"loss/reg": 5.250132083892822,
	"loss/twn": 0.0,
	"step": 318
	},
	{
	"epoch": 0.007975,
	"grad_norm": 280.0,
	"grad_norm_var": 5856.9806640625,
	"learning_rate": 0.0001,
	"loss": 6.8544,
	"loss/crossentropy": 1.4390206336975098,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.007244464010000229,
	"loss/reg": 5.249932765960693,
	"loss/twn": 0.0,
	"step": 319
	},
	{
	"epoch": 0.008,
	"grad_norm": 17.75,
	"grad_norm_var": 5824.858837890625,
	"learning_rate": 0.0001,
	"loss": 8.0011,
	"loss/crossentropy": 2.620617389678955,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.008633976802229881,
	"loss/reg": 5.249265193939209,
	"loss/twn": 0.0,
	"step": 320
	},
	{
	"epoch": 0.008025,
	"grad_norm": 18.625,
	"grad_norm_var": 5772.79609375,
	"learning_rate": 0.0001,
	"loss": 6.3629,
	"loss/crossentropy": 0.973727822303772,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.005988460034132004,
	"loss/reg": 5.249377250671387,
	"loss/twn": 0.0,
	"step": 321
	},
	{
	"epoch": 0.00805,
	"grad_norm": 7.71875,
	"grad_norm_var": 5837.412365722656,
	"learning_rate": 0.0001,
	"loss": 6.802,
	"loss/crossentropy": 1.4281165599822998,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.007195750251412392,
	"loss/reg": 5.249452114105225,
	"loss/twn": 0.0,
	"step": 322
	},
	{
	"epoch": 0.008075,
	"grad_norm": 10.375,
	"grad_norm_var": 5822.930822753906,
	"learning_rate": 0.0001,
	"loss": 8.0202,
	"loss/crossentropy": 2.667816162109375,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.00719710998237133,
	"loss/reg": 5.249003887176514,
	"loss/twn": 0.0,
	"step": 323
	},
	{
	"epoch": 0.0081,
	"grad_norm": 30.5,
	"grad_norm_var": 5837.498661295573,
	"learning_rate": 0.0001,
	"loss": 8.5258,
	"loss/crossentropy": 3.144439697265625,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.01504556369036436,
	"loss/reg": 5.249162197113037,
	"loss/twn": 0.0,
	"step": 324
	},
	{
	"epoch": 0.008125,
	"grad_norm": 10.5625,
	"grad_norm_var": 5852.246708170573,
	"learning_rate": 0.0001,
	"loss": 7.8167,
	"loss/crossentropy": 2.3962008953094482,
	"loss/hidden": 0.1650390625,
	"loss/logits": 0.006836063228547573,
	"loss/reg": 5.248575210571289,
	"loss/twn": 0.0,
	"step": 325
	},
	{
	"epoch": 0.00815,
	"grad_norm": 486.0,
	"grad_norm_var": 17467.963993326823,
	"learning_rate": 0.0001,
	"loss": 5.9967,
	"loss/crossentropy": 0.583743691444397,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.007230043411254883,
	"loss/reg": 5.248484134674072,
	"loss/twn": 0.0,
	"step": 326
	},
	{
	"epoch": 0.008175,
	"grad_norm": 10.8125,
	"grad_norm_var": 17462.717508951824,
	"learning_rate": 0.0001,
	"loss": 7.1253,
	"loss/crossentropy": 1.6490944623947144,
	"loss/hidden": 0.2138671875,
	"loss/logits": 0.01414478849619627,
	"loss/reg": 5.248198509216309,
	"loss/twn": 0.0,
	"step": 327
	},
	{
	"epoch": 0.0082,
	"grad_norm": 10.125,
	"grad_norm_var": 17556.386942545574,
	"learning_rate": 0.0001,
	"loss": 7.8925,
	"loss/crossentropy": 2.5412166118621826,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.006635190453380346,
	"loss/reg": 5.248410701751709,
	"loss/twn": 0.0,
	"step": 328
	},
	{
	"epoch": 0.008225,
	"grad_norm": 12.6875,
	"grad_norm_var": 17198.204911295572,
	"learning_rate": 0.0001,
	"loss": 6.9945,
	"loss/crossentropy": 1.603257656097412,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.010111295618116856,
	"loss/reg": 5.248310565948486,
	"loss/twn": 0.0,
	"step": 329
	},
	{
	"epoch": 0.00825,
	"grad_norm": 12.5,
	"grad_norm_var": 17262.97177327474,
	"learning_rate": 0.0001,
	"loss": 5.7919,
	"loss/crossentropy": 0.3630053400993347,
	"loss/hidden": 0.177734375,
	"loss/logits": 0.002837226027622819,
	"loss/reg": 5.248295783996582,
	"loss/twn": 0.0,
	"step": 330
	},
	{
	"epoch": 0.008275,
	"grad_norm": 22.0,
	"grad_norm_var": 17144.92880452474,
	"learning_rate": 0.0001,
	"loss": 8.1295,
	"loss/crossentropy": 2.8160948753356934,
	"loss/hidden": 0.0595703125,
	"loss/logits": 0.005728469230234623,
	"loss/reg": 5.24811315536499,
	"loss/twn": 0.0,
	"step": 331
	},
	{
	"epoch": 0.0083,
	"grad_norm": 17.125,
	"grad_norm_var": 17267.413732910158,
	"learning_rate": 0.0001,
	"loss": 6.9959,
	"loss/crossentropy": 1.5546507835388184,
	"loss/hidden": 0.18359375,
	"loss/logits": 0.010080805979669094,
	"loss/reg": 5.247556209564209,
	"loss/twn": 0.0,
	"step": 332
	},
	{
	"epoch": 0.008325,
	"grad_norm": 11.5625,
	"grad_norm_var": 17264.114904785158,
	"learning_rate": 0.0001,
	"loss": 7.8893,
	"loss/crossentropy": 2.5168728828430176,
	"loss/hidden": 0.115234375,
	"loss/logits": 0.009305896237492561,
	"loss/reg": 5.247858047485352,
	"loss/twn": 0.0,
	"step": 333
	},
	{
	"epoch": 0.00835,
	"grad_norm": 13.4375,
	"grad_norm_var": 17271.515751139323,
	"learning_rate": 0.0001,
	"loss": 8.1715,
	"loss/crossentropy": 2.723308563232422,
	"loss/hidden": 0.1884765625,
	"loss/logits": 0.01238995511084795,
	"loss/reg": 5.247326374053955,
	"loss/twn": 0.0,
	"step": 334
	},
	{
	"epoch": 0.008375,
	"grad_norm": 13.0,
	"grad_norm_var": 13921.291532389323,
	"learning_rate": 0.0001,
	"loss": 8.3945,
	"loss/crossentropy": 3.096419334411621,
	"loss/hidden": 0.04736328125,
	"loss/logits": 0.0033957725390791893,
	"loss/reg": 5.247368812561035,
	"loss/twn": 0.0,
	"step": 335
	},
	{
	"epoch": 0.0084,
	"grad_norm": 17.75,
	"grad_norm_var": 13921.291532389323,
	"learning_rate": 0.0001,
	"loss": 7.3812,
	"loss/crossentropy": 1.8540621995925903,
	"loss/hidden": 0.2734375,
	"loss/logits": 0.006610853597521782,
	"loss/reg": 5.247133731842041,
	"loss/twn": 0.0,
	"step": 336
	},
	{
	"epoch": 0.008425,
	"grad_norm": 13.3125,
	"grad_norm_var": 13941.063993326823,
	"learning_rate": 0.0001,
	"loss": 8.1344,
	"loss/crossentropy": 2.7475340366363525,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.007097205147147179,
	"loss/reg": 5.246928691864014,
	"loss/twn": 0.0,
	"step": 337
	},
	{
	"epoch": 0.00845,
	"grad_norm": 68.5,
	"grad_norm_var": 13880.22734375,
	"learning_rate": 0.0001,
	"loss": 7.8648,
	"loss/crossentropy": 2.4544427394866943,
	"loss/hidden": 0.15234375,
	"loss/logits": 0.010997762903571129,
	"loss/reg": 5.246999263763428,
	"loss/twn": 0.0,
	"step": 338
	},
	{
	"epoch": 0.008475,
	"grad_norm": 18.75,
	"grad_norm_var": 13843.137434895832,
	"learning_rate": 0.0001,
	"loss": 7.9608,
	"loss/crossentropy": 2.603945255279541,
	"loss/hidden": 0.099609375,
	"loss/logits": 0.010800717398524284,
	"loss/reg": 5.246415615081787,
	"loss/twn": 0.0,
	"step": 339
	},
	{
	"epoch": 0.0085,
	"grad_norm": 29.5,
	"grad_norm_var": 13845.5384765625,
	"learning_rate": 0.0001,
	"loss": 6.9841,
	"loss/crossentropy": 1.614331603050232,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.005967713892459869,
	"loss/reg": 5.246609687805176,
	"loss/twn": 0.0,
	"step": 340
	},
	{
	"epoch": 0.008525,
	"grad_norm": 11.0625,
	"grad_norm_var": 13843.059830729168,
	"learning_rate": 0.0001,
	"loss": 7.04,
	"loss/crossentropy": 1.6529104709625244,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.009600062854588032,
	"loss/reg": 5.246581554412842,
	"loss/twn": 0.0,
	"step": 341
	},
	{
	"epoch": 0.00855,
	"grad_norm": 13.5,
	"grad_norm_var": 203.06764322916666,
	"learning_rate": 0.0001,
	"loss": 7.3224,
	"loss/crossentropy": 1.903311848640442,
	"loss/hidden": 0.162109375,
	"loss/logits": 0.010554994456470013,
	"loss/reg": 5.246466636657715,
	"loss/twn": 0.0,
	"step": 342
	},
	{
	"epoch": 0.008575,
	"grad_norm": 21.125,
	"grad_norm_var": 199.17628580729166,
	"learning_rate": 0.0001,
	"loss": 7.0821,
	"loss/crossentropy": 1.5746668577194214,
	"loss/hidden": 0.24609375,
	"loss/logits": 0.014962641522288322,
	"loss/reg": 5.246390342712402,
	"loss/twn": 0.0,
	"step": 343
	},
	{
	"epoch": 0.0086,
	"grad_norm": 14.4375,
	"grad_norm_var": 195.16588541666667,
	"learning_rate": 0.0001,
	"loss": 7.2347,
	"loss/crossentropy": 1.8215773105621338,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.01197369396686554,
	"loss/reg": 5.24590539932251,
	"loss/twn": 0.0,
	"step": 344
	},
	{
	"epoch": 0.008625,
	"grad_norm": 109.0,
	"grad_norm_var": 688.8426920572916,
	"learning_rate": 0.0001,
	"loss": 7.5554,
	"loss/crossentropy": 2.1289989948272705,
	"loss/hidden": 0.1630859375,
	"loss/logits": 0.017385877668857574,
	"loss/reg": 5.245935440063477,
	"loss/twn": 0.0,
	"step": 345
	},
	{
	"epoch": 0.00865,
	"grad_norm": 238.0,
	"grad_norm_var": 3478.8179524739585,
	"learning_rate": 0.0001,
	"loss": 7.9943,
	"loss/crossentropy": 2.593379020690918,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.012457353994250298,
	"loss/reg": 5.245845317840576,
	"loss/twn": 0.0,
	"step": 346
	},
	{
	"epoch": 0.008675,
	"grad_norm": 43.5,
	"grad_norm_var": 3457.530712890625,
	"learning_rate": 0.0001,
	"loss": 7.1267,
	"loss/crossentropy": 1.6978092193603516,
	"loss/hidden": 0.1728515625,
	"loss/logits": 0.010361634194850922,
	"loss/reg": 5.245694637298584,
	"loss/twn": 0.0,
	"step": 347
	},
	{
	"epoch": 0.0087,
	"grad_norm": 24.875,
	"grad_norm_var": 3436.771207682292,
	"learning_rate": 0.0001,
	"loss": 6.7434,
	"loss/crossentropy": 1.4021539688110352,
	"loss/hidden": 0.08837890625,
	"loss/logits": 0.007280138321220875,
	"loss/reg": 5.245609283447266,
	"loss/twn": 0.0,
	"step": 348
	},
	{
	"epoch": 0.008725,
	"grad_norm": 26.25,
	"grad_norm_var": 3391.9552083333333,
	"learning_rate": 0.0001,
	"loss": 8.1297,
	"loss/crossentropy": 2.7253024578094482,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.012663663364946842,
	"loss/reg": 5.245262145996094,
	"loss/twn": 0.0,
	"step": 349
	},
	{
	"epoch": 0.00875,
	"grad_norm": 10.875,
	"grad_norm_var": 3402.2098795572915,
	"learning_rate": 0.0001,
	"loss": 7.2976,
	"loss/crossentropy": 1.8926178216934204,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.013426396995782852,
	"loss/reg": 5.245053291320801,
	"loss/twn": 0.0,
	"step": 350
	},
	{
	"epoch": 0.008775,
	"grad_norm": 13.0625,
	"grad_norm_var": 3401.967708333333,
	"learning_rate": 0.0001,
	"loss": 7.3178,
	"loss/crossentropy": 1.8622666597366333,
	"loss/hidden": 0.1953125,
	"loss/logits": 0.015104337595403194,
	"loss/reg": 5.245081424713135,
	"loss/twn": 0.0,
	"step": 351
	},
	{
	"epoch": 0.0088,
	"grad_norm": 29.875,
	"grad_norm_var": 3371.8004557291665,
	"learning_rate": 0.0001,
	"loss": 7.9433,
	"loss/crossentropy": 2.5869476795196533,
	"loss/hidden": 0.10546875,
	"loss/logits": 0.0058593666180968285,
	"loss/reg": 5.2449822425842285,
	"loss/twn": 0.0,
	"step": 352
	},
	{
	"epoch": 0.008825,
	"grad_norm": 28.5,
	"grad_norm_var": 3326.400113932292,
	"learning_rate": 0.0001,
	"loss": 7.0321,
	"loss/crossentropy": 1.740645408630371,
	"loss/hidden": 0.04248046875,
	"loss/logits": 0.004086637869477272,
	"loss/reg": 5.244920253753662,
	"loss/twn": 0.0,
	"step": 353
	},
	{
	"epoch": 0.00885,
	"grad_norm": 11.75,
	"grad_norm_var": 3340.7945149739585,
	"learning_rate": 0.0001,
	"loss": 7.3477,
	"loss/crossentropy": 1.9114320278167725,
	"loss/hidden": 0.1787109375,
	"loss/logits": 0.012824185192584991,
	"loss/reg": 5.244693279266357,
	"loss/twn": 0.0,
	"step": 354
	},
	{
	"epoch": 0.008875,
	"grad_norm": 9.6875,
	"grad_norm_var": 3371.9114583333335,
	"learning_rate": 0.0001,
	"loss": 6.4325,
	"loss/crossentropy": 1.1136820316314697,
	"loss/hidden": 0.0732421875,
	"loss/logits": 0.001058733556419611,
	"loss/reg": 5.244504451751709,
	"loss/twn": 0.0,
	"step": 355
	},
	{
	"epoch": 0.0089,
	"grad_norm": 9.625,
	"grad_norm_var": 3423.5968098958333,
	"learning_rate": 0.0001,
	"loss": 7.5243,
	"loss/crossentropy": 2.1711511611938477,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.009911064058542252,
	"loss/reg": 5.244630813598633,
	"loss/twn": 0.0,
	"step": 356
	},
	{
	"epoch": 0.008925,
	"grad_norm": 13.25,
	"grad_norm_var": 3415.909228515625,
	"learning_rate": 0.0001,
	"loss": 7.3907,
	"loss/crossentropy": 1.9722574949264526,
	"loss/hidden": 0.1611328125,
	"loss/logits": 0.012831033207476139,
	"loss/reg": 5.244527816772461,
	"loss/twn": 0.0,
	"step": 357
	},
	{
	"epoch": 0.00895,
	"grad_norm": 258.0,
	"grad_norm_var": 6334.500634765625,
	"learning_rate": 0.0001,
	"loss": 6.6838,
	"loss/crossentropy": 1.2551920413970947,
	"loss/hidden": 0.1796875,
	"loss/logits": 0.004792730323970318,
	"loss/reg": 5.244173526763916,
	"loss/twn": 0.0,
	"step": 358
	},
	{
	"epoch": 0.008975,
	"grad_norm": 9.375,
	"grad_norm_var": 6394.419514973958,
	"learning_rate": 0.0001,
	"loss": 7.731,
	"loss/crossentropy": 2.3687314987182617,
	"loss/hidden": 0.10791015625,
	"loss/logits": 0.010197984986007214,
	"loss/reg": 5.244191646575928,
	"loss/twn": 0.0,
	"step": 359
	},
	{
	"epoch": 0.009,
	"grad_norm": 10.75,
	"grad_norm_var": 6414.292643229167,
	"learning_rate": 0.0001,
	"loss": 6.3021,
	"loss/crossentropy": 0.8574244379997253,
	"loss/hidden": 0.19140625,
	"loss/logits": 0.009014951065182686,
	"loss/reg": 5.244270324707031,
	"loss/twn": 0.0,
	"step": 360
	},
	{
	"epoch": 0.009025,
	"grad_norm": 12.0,
	"grad_norm_var": 6276.774934895833,
	"learning_rate": 0.0001,
	"loss": 7.8089,
	"loss/crossentropy": 2.456528902053833,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.012111629359424114,
	"loss/reg": 5.244028091430664,
	"loss/twn": 0.0,
	"step": 361
	},
	{
	"epoch": 0.00905,
	"grad_norm": 12.6875,
	"grad_norm_var": 3706.745556640625,
	"learning_rate": 0.0001,
	"loss": 6.1318,
	"loss/crossentropy": 0.654383659362793,
	"loss/hidden": 0.2255859375,
	"loss/logits": 0.00800924189388752,
	"loss/reg": 5.243789196014404,
	"loss/twn": 0.0,
	"step": 362
	},
	{
	"epoch": 0.009075,
	"grad_norm": 60.0,
	"grad_norm_var": 3747.402587890625,
	"learning_rate": 0.0001,
	"loss": 5.8096,
	"loss/crossentropy": 0.38534435629844666,
	"loss/hidden": 0.17578125,
	"loss/logits": 0.004911348223686218,
	"loss/reg": 5.243527412414551,
	"loss/twn": 0.0,
	"step": 363
	},
	{
	"epoch": 0.0091,
	"grad_norm": 8.625,
	"grad_norm_var": 3783.2118326822915,
	"learning_rate": 0.0001,
	"loss": 7.0141,
	"loss/crossentropy": 1.7209011316299438,
	"loss/hidden": 0.04736328125,
	"loss/logits": 0.002276923507452011,
	"loss/reg": 5.243542671203613,
	"loss/twn": 0.0,
	"step": 364
	},
	{
	"epoch": 0.009125,
	"grad_norm": 700.0,
	"grad_norm_var": 31568.732014973957,
	"learning_rate": 0.0001,
	"loss": 6.5463,
	"loss/crossentropy": 1.1213988065719604,
	"loss/hidden": 0.171875,
	"loss/logits": 0.009275542572140694,
	"loss/reg": 5.243773937225342,
	"loss/twn": 0.0,
	"step": 365
	},
	{
	"epoch": 0.00915,
	"grad_norm": 9.5,
	"grad_norm_var": 31580.584228515625,
	"learning_rate": 0.0001,
	"loss": 7.2758,
	"loss/crossentropy": 1.888658046722412,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.011050861328840256,
	"loss/reg": 5.243287086486816,
	"loss/twn": 0.0,
	"step": 366
	},
	{
	"epoch": 0.009175,
	"grad_norm": 7.6875,
	"grad_norm_var": 31626.63006184896,
	"learning_rate": 0.0001,
	"loss": 6.2879,
	"loss/crossentropy": 0.9124002456665039,
	"loss/hidden": 0.1220703125,
	"loss/logits": 0.00983446091413498,
	"loss/reg": 5.243640899658203,
	"loss/twn": 0.0,
	"step": 367
	},
	{
	"epoch": 0.0092,
	"grad_norm": 17.75,
	"grad_norm_var": 31707.892822265625,
	"learning_rate": 0.0001,
	"loss": 8.2629,
	"loss/crossentropy": 2.844151735305786,
	"loss/hidden": 0.16015625,
	"loss/logits": 0.015287065878510475,
	"loss/reg": 5.243282794952393,
	"loss/twn": 0.0,
	"step": 368
	},
	{
	"epoch": 0.009225,
	"grad_norm": 10.8125,
	"grad_norm_var": 31834.040625,
	"learning_rate": 0.0001,
	"loss": 7.021,
	"loss/crossentropy": 1.6278934478759766,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.007217081263661385,
	"loss/reg": 5.243272304534912,
	"loss/twn": 0.0,
	"step": 369
	},
	{
	"epoch": 0.00925,
	"grad_norm": 8.875,
	"grad_norm_var": 31857.8806640625,
	"learning_rate": 0.0001,
	"loss": 7.2069,
	"loss/crossentropy": 1.8656002283096313,
	"loss/hidden": 0.09375,
	"loss/logits": 0.004388316534459591,
	"loss/reg": 5.243135452270508,
	"loss/twn": 0.0,
	"step": 370
	},
	{
	"epoch": 0.009275,
	"grad_norm": 14.0625,
	"grad_norm_var": 31822.486458333333,
	"learning_rate": 0.0001,
	"loss": 6.0393,
	"loss/crossentropy": 0.5794708132743835,
	"loss/hidden": 0.2080078125,
	"loss/logits": 0.008730066008865833,
	"loss/reg": 5.243083953857422,
	"loss/twn": 0.0,
	"step": 371
	},
	{
	"epoch": 0.0093,
	"grad_norm": 10.625,
	"grad_norm_var": 31814.140625,
	"learning_rate": 0.0001,
	"loss": 7.7146,
	"loss/crossentropy": 2.3672714233398438,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.005637788213789463,
	"loss/reg": 5.243073463439941,
	"loss/twn": 0.0,
	"step": 372
	},
	{
	"epoch": 0.009325,
	"grad_norm": 11.125,
	"grad_norm_var": 31831.281184895834,
	"learning_rate": 0.0001,
	"loss": 7.1862,
	"loss/crossentropy": 1.8489041328430176,
	"loss/hidden": 0.08837890625,
	"loss/logits": 0.00582461804151535,
	"loss/reg": 5.243066787719727,
	"loss/twn": 0.0,
	"step": 373
	},
	{
	"epoch": 0.00935,
	"grad_norm": 10.3125,
	"grad_norm_var": 29543.332405598958,
	"learning_rate": 0.0001,
	"loss": 8.1468,
	"loss/crossentropy": 2.779754877090454,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.011424477212131023,
	"loss/reg": 5.242800235748291,
	"loss/twn": 0.0,
	"step": 374
	},
	{
	"epoch": 0.009375,
	"grad_norm": 13.5625,
	"grad_norm_var": 29517.761393229168,
	"learning_rate": 0.0001,
	"loss": 5.9118,
	"loss/crossentropy": 0.5431471467018127,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.008679039776325226,
	"loss/reg": 5.242814064025879,
	"loss/twn": 0.0,
	"step": 375
	},
	{
	"epoch": 0.0094,
	"grad_norm": 13.3125,
	"grad_norm_var": 29502.23357747396,
	"learning_rate": 0.0001,
	"loss": 7.1375,
	"loss/crossentropy": 1.6137068271636963,
	"loss/hidden": 0.267578125,
	"loss/logits": 0.013521241024136543,
	"loss/reg": 5.2426886558532715,
	"loss/twn": 0.0,
	"step": 376
	},
	{
	"epoch": 0.009425,
	"grad_norm": 20.25,
	"grad_norm_var": 29456.37303059896,
	"learning_rate": 0.0001,
	"loss": 8.1117,
	"loss/crossentropy": 2.5268547534942627,
	"loss/hidden": 0.328125,
	"loss/logits": 0.014234257861971855,
	"loss/reg": 5.242476463317871,
	"loss/twn": 0.0,
	"step": 377
	},
	{
	"epoch": 0.00945,
	"grad_norm": 12.625,
	"grad_norm_var": 29456.751497395835,
	"learning_rate": 0.0001,
	"loss": 7.0252,
	"loss/crossentropy": 1.6614928245544434,
	"loss/hidden": 0.1123046875,
	"loss/logits": 0.009039688855409622,
	"loss/reg": 5.242366313934326,
	"loss/twn": 0.0,
	"step": 378
	},
	{
	"epoch": 0.009475,
	"grad_norm": 12.375,
	"grad_norm_var": 29586.256770833334,
	"learning_rate": 0.0001,
	"loss": 7.3434,
	"loss/crossentropy": 1.9416403770446777,
	"loss/hidden": 0.1513671875,
	"loss/logits": 0.008125634863972664,
	"loss/reg": 5.242313385009766,
	"loss/twn": 0.0,
	"step": 379
	},
	{
	"epoch": 0.0095,
	"grad_norm": 9.3125,
	"grad_norm_var": 29582.02667643229,
	"learning_rate": 0.0001,
	"loss": 7.2748,
	"loss/crossentropy": 1.8965728282928467,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.0069448379799723625,
	"loss/reg": 5.242362976074219,
	"loss/twn": 0.0,
	"step": 380
	},
	{
	"epoch": 0.009525,
	"grad_norm": 10.75,
	"grad_norm_var": 10.688785807291667,
	"learning_rate": 0.0001,
	"loss": 7.591,
	"loss/crossentropy": 2.19319224357605,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.009041574783623219,
	"loss/reg": 5.242304801940918,
	"loss/twn": 0.0,
	"step": 381
	},
	{
	"epoch": 0.00955,
	"grad_norm": 17.875,
	"grad_norm_var": 12.215478515625,
	"learning_rate": 0.0001,
	"loss": 8.1746,
	"loss/crossentropy": 2.799837827682495,
	"loss/hidden": 0.1220703125,
	"loss/logits": 0.010410355404019356,
	"loss/reg": 5.242269992828369,
	"loss/twn": 0.0,
	"step": 382
	},
	{
	"epoch": 0.009575,
	"grad_norm": 142.0,
	"grad_norm_var": 1052.0530598958333,
	"learning_rate": 0.0001,
	"loss": 5.5973,
	"loss/crossentropy": 0.23081077635288239,
	"loss/hidden": 0.119140625,
	"loss/logits": 0.00518256239593029,
	"loss/reg": 5.242154121398926,
	"loss/twn": 0.0,
	"step": 383
	},
	{
	"epoch": 0.0096,
	"grad_norm": 178.0,
	"grad_norm_var": 2588.1160807291667,
	"learning_rate": 0.0001,
	"loss": 7.9228,
	"loss/crossentropy": 2.5279970169067383,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.006114904303103685,
	"loss/reg": 5.242175102233887,
	"loss/twn": 0.0,
	"step": 384
	},
	{
	"epoch": 0.009625,
	"grad_norm": 9.6875,
	"grad_norm_var": 2591.222135416667,
	"learning_rate": 0.0001,
	"loss": 8.0683,
	"loss/crossentropy": 2.7547900676727295,
	"loss/hidden": 0.064453125,
	"loss/logits": 0.007344301789999008,
	"loss/reg": 5.241701602935791,
	"loss/twn": 0.0,
	"step": 385
	},
	{
	"epoch": 0.00965,
	"grad_norm": 15.4375,
	"grad_norm_var": 2574.622770182292,
	"learning_rate": 0.0001,
	"loss": 8.1417,
	"loss/crossentropy": 2.6952314376831055,
	"loss/hidden": 0.185546875,
	"loss/logits": 0.019006717950105667,
	"loss/reg": 5.241945743560791,
	"loss/twn": 0.0,
	"step": 386
	},
	{
	"epoch": 0.009675,
	"grad_norm": 10.5625,
	"grad_norm_var": 2583.447509765625,
	"learning_rate": 0.0001,
	"loss": 7.02,
	"loss/crossentropy": 1.5960569381713867,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.014128390699625015,
	"loss/reg": 5.241806507110596,
	"loss/twn": 0.0,
	"step": 387
	},
	{
	"epoch": 0.0097,
	"grad_norm": 9.875,
	"grad_norm_var": 2585.531494140625,
	"learning_rate": 0.0001,
	"loss": 7.6158,
	"loss/crossentropy": 2.310436487197876,
	"loss/hidden": 0.05712890625,
	"loss/logits": 0.006508246064186096,
	"loss/reg": 5.241683006286621,
	"loss/twn": 0.0,
	"step": 388
	},
	{
	"epoch": 0.009725,
	"grad_norm": 13.625,
	"grad_norm_var": 2579.2749837239585,
	"learning_rate": 0.0001,
	"loss": 8.1291,
	"loss/crossentropy": 2.7542238235473633,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.010532179847359657,
	"loss/reg": 5.241789817810059,
	"loss/twn": 0.0,
	"step": 389
	},
	{
	"epoch": 0.00975,
	"grad_norm": 8.0625,
	"grad_norm_var": 2585.864436848958,
	"learning_rate": 0.0001,
	"loss": 7.6721,
	"loss/crossentropy": 2.319371223449707,
	"loss/hidden": 0.107421875,
	"loss/logits": 0.003740239655598998,
	"loss/reg": 5.241525650024414,
	"loss/twn": 0.0,
	"step": 390
	},
	{
	"epoch": 0.009775,
	"grad_norm": 10.4375,
	"grad_norm_var": 2593.774593098958,
	"learning_rate": 0.0001,
	"loss": 8.1857,
	"loss/crossentropy": 2.8464860916137695,
	"loss/hidden": 0.09130859375,
	"loss/logits": 0.006419371347874403,
	"loss/reg": 5.241455078125,
	"loss/twn": 0.0,
	"step": 391
	},
	{
	"epoch": 0.0098,
	"grad_norm": 17.125,
	"grad_norm_var": 2585.749479166667,
	"learning_rate": 0.0001,
	"loss": 8.0076,
	"loss/crossentropy": 2.555150032043457,
	"loss/hidden": 0.2001953125,
	"loss/logits": 0.01086280308663845,
	"loss/reg": 5.241420745849609,
	"loss/twn": 0.0,
	"step": 392
	},
	{
	"epoch": 0.009825,
	"grad_norm": 9.0,
	"grad_norm_var": 2609.972135416667,
	"learning_rate": 0.0001,
	"loss": 6.3665,
	"loss/crossentropy": 1.016921877861023,
	"loss/hidden": 0.10205078125,
	"loss/logits": 0.005952711217105389,
	"loss/reg": 5.241562843322754,
	"loss/twn": 0.0,
	"step": 393
	},
	{
	"epoch": 0.00985,
	"grad_norm": 10.875,
	"grad_norm_var": 2614.3161458333334,
	"learning_rate": 0.0001,
	"loss": 7.8429,
	"loss/crossentropy": 2.5393762588500977,
	"loss/hidden": 0.05712890625,
	"loss/logits": 0.005034131929278374,
	"loss/reg": 5.241337299346924,
	"loss/twn": 0.0,
	"step": 394
	},
	{
	"epoch": 0.009875,
	"grad_norm": 80.0,
	"grad_norm_var": 2738.4009765625,
	"learning_rate": 0.0001,
	"loss": 8.0734,
	"loss/crossentropy": 2.591184377670288,
	"loss/hidden": 0.2294921875,
	"loss/logits": 0.01196893397718668,
	"loss/reg": 5.24077033996582,
	"loss/twn": 0.0,
	"step": 395
	},
	{
	"epoch": 0.0099,
	"grad_norm": 20.375,
	"grad_norm_var": 2708.840478515625,
	"learning_rate": 0.0001,
	"loss": 8.3222,
	"loss/crossentropy": 2.96229887008667,
	"loss/hidden": 0.10791015625,
	"loss/logits": 0.010710952803492546,
	"loss/reg": 5.2412495613098145,
	"loss/twn": 0.0,
	"step": 396
	},
	{
	"epoch": 0.009925,
	"grad_norm": 14.0,
	"grad_norm_var": 2698.892431640625,
	"learning_rate": 0.0001,
	"loss": 7.2185,
	"loss/crossentropy": 1.843474268913269,
	"loss/hidden": 0.125,
	"loss/logits": 0.009277286008000374,
	"loss/reg": 5.240739345550537,
	"loss/twn": 0.0,
	"step": 397
	},
	{
	"epoch": 0.00995,
	"grad_norm": 11.0,
	"grad_norm_var": 2717.9419108072916,
	"learning_rate": 0.0001,
	"loss": 7.7714,
	"loss/crossentropy": 2.3742737770080566,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.009680403396487236,
	"loss/reg": 5.240973472595215,
	"loss/twn": 0.0,
	"step": 398
	},
	{
	"epoch": 0.009975,
	"grad_norm": 12.0,
	"grad_norm_var": 1919.5929524739583,
	"learning_rate": 0.0001,
	"loss": 8.0069,
	"loss/crossentropy": 2.649110794067383,
	"loss/hidden": 0.10791015625,
	"loss/logits": 0.00901185255497694,
	"loss/reg": 5.24085807800293,
	"loss/twn": 0.0,
	"step": 399
	},
	{
	"epoch": 0.01,
	"grad_norm": 9.5,
	"grad_norm_var": 298.921337890625,
	"learning_rate": 0.0001,
	"loss": 7.3041,
	"loss/crossentropy": 1.9669857025146484,
	"loss/hidden": 0.0908203125,
	"loss/logits": 0.005569307133555412,
	"loss/reg": 5.240681171417236,
	"loss/twn": 0.0,
	"step": 400
	},
	{
	"epoch": 0.010025,
	"grad_norm": 169.0,
	"grad_norm_var": 1743.7280598958334,
	"learning_rate": 0.0001,
	"loss": 5.7116,
	"loss/crossentropy": 0.3063473105430603,
	"loss/hidden": 0.1611328125,
	"loss/logits": 0.003124656155705452,
	"loss/reg": 5.2410149574279785,
	"loss/twn": 0.0,
	"step": 401
	},
	{
	"epoch": 0.01005,
	"grad_norm": 61.75,
	"grad_norm_var": 1810.6761555989583,
	"learning_rate": 0.0001,
	"loss": 7.4546,
	"loss/crossentropy": 2.0817315578460693,
	"loss/hidden": 0.1279296875,
	"loss/logits": 0.004020760301500559,
	"loss/reg": 5.240888595581055,
	"loss/twn": 0.0,
	"step": 402
	},
	{
	"epoch": 0.010075,
	"grad_norm": 19.25,
	"grad_norm_var": 1793.8056640625,
	"learning_rate": 0.0001,
	"loss": 6.645,
	"loss/crossentropy": 1.261731743812561,
	"loss/hidden": 0.13671875,
	"loss/logits": 0.006218242458999157,
	"loss/reg": 5.240310192108154,
	"loss/twn": 0.0,
	"step": 403
	},
	{
	"epoch": 0.0101,
	"grad_norm": 8.875,
	"grad_norm_var": 1796.5171223958334,
	"learning_rate": 0.0001,
	"loss": 6.3703,
	"loss/crossentropy": 0.9765498638153076,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.007485189475119114,
	"loss/reg": 5.240753650665283,
	"loss/twn": 0.0,
	"step": 404
	},
	{
	"epoch": 0.010125,
	"grad_norm": 10.8125,
	"grad_norm_var": 1803.0320149739584,
	"learning_rate": 0.0001,
	"loss": 7.0126,
	"loss/crossentropy": 1.6325502395629883,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.007993818260729313,
	"loss/reg": 5.240240097045898,
	"loss/twn": 0.0,
	"step": 405
	},
	{
	"epoch": 0.01015,
	"grad_norm": 41.25,
	"grad_norm_var": 1776.9919270833334,
	"learning_rate": 0.0001,
	"loss": 6.1547,
	"loss/crossentropy": 0.801928699016571,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.002597600221633911,
	"loss/reg": 5.240261554718018,
	"loss/twn": 0.0,
	"step": 406
	},
	{
	"epoch": 0.010175,
	"grad_norm": 15.4375,
	"grad_norm_var": 1764.4606770833334,
	"learning_rate": 0.0001,
	"loss": 7.3067,
	"loss/crossentropy": 1.9361686706542969,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.01030397042632103,
	"loss/reg": 5.240562438964844,
	"loss/twn": 0.0,
	"step": 407
	},
	{
	"epoch": 0.0102,
	"grad_norm": 9.375,
	"grad_norm_var": 1783.4723958333334,
	"learning_rate": 0.0001,
	"loss": 8.0074,
	"loss/crossentropy": 2.654067039489746,
	"loss/hidden": 0.10546875,
	"loss/logits": 0.0074330884963274,
	"loss/reg": 5.240452766418457,
	"loss/twn": 0.0,
	"step": 408
	},
	{
	"epoch": 0.010225,
	"grad_norm": 8.0625,
	"grad_norm_var": 1786.3281087239584,
	"learning_rate": 0.0001,
	"loss": 7.3042,
	"loss/crossentropy": 1.928905963897705,
	"loss/hidden": 0.125,
	"loss/logits": 0.009886398911476135,
	"loss/reg": 5.240396499633789,
	"loss/twn": 0.0,
	"step": 409
	},
	{
	"epoch": 0.01025,
	"grad_norm": 11.8125,
	"grad_norm_var": 1783.8239583333334,
	"learning_rate": 0.0001,
	"loss": 7.1916,
	"loss/crossentropy": 1.7467641830444336,
	"loss/hidden": 0.1943359375,
	"loss/logits": 0.010304899886250496,
	"loss/reg": 5.2401838302612305,
	"loss/twn": 0.0,
	"step": 410
	},
	{
	"epoch": 0.010275,
	"grad_norm": 9.6875,
	"grad_norm_var": 1637.2480305989584,
	"learning_rate": 0.0001,
	"loss": 7.8017,
	"loss/crossentropy": 2.478278636932373,
	"loss/hidden": 0.07666015625,
	"loss/logits": 0.0064398422837257385,
	"loss/reg": 5.2403669357299805,
	"loss/twn": 0.0,
	"step": 411
	},
	{
	"epoch": 0.0103,
	"grad_norm": 13.75,
	"grad_norm_var": 1645.8536295572917,
	"learning_rate": 0.0001,
	"loss": 5.9725,
	"loss/crossentropy": 0.5244819521903992,
	"loss/hidden": 0.1982421875,
	"loss/logits": 0.009226880967617035,
	"loss/reg": 5.24050760269165,
	"loss/twn": 0.0,
	"step": 412
	},
	{
	"epoch": 0.010325,
	"grad_norm": 12.75,
	"grad_norm_var": 1648.0508951822917,
	"learning_rate": 0.0001,
	"loss": 6.1233,
	"loss/crossentropy": 0.6444658041000366,
	"loss/hidden": 0.228515625,
	"loss/logits": 0.009683252312242985,
	"loss/reg": 5.240647792816162,
	"loss/twn": 0.0,
	"step": 413
	},
	{
	"epoch": 0.01035,
	"grad_norm": 30.375,
	"grad_norm_var": 1631.4206868489584,
	"learning_rate": 0.0001,
	"loss": 7.3483,
	"loss/crossentropy": 1.942959189414978,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.014488045126199722,
	"loss/reg": 5.2405009269714355,
	"loss/twn": 0.0,
	"step": 414
	},
	{
	"epoch": 0.010375,
	"grad_norm": 148.0,
	"grad_norm_var": 2502.174853515625,
	"learning_rate": 0.0001,
	"loss": 5.7032,
	"loss/crossentropy": 0.21244874596595764,
	"loss/hidden": 0.2451171875,
	"loss/logits": 0.005563709884881973,
	"loss/reg": 5.240046501159668,
	"loss/twn": 0.0,
	"step": 415
	},
	{
	"epoch": 0.0104,
	"grad_norm": 11.3125,
	"grad_norm_var": 2495.9203125,
	"learning_rate": 0.0001,
	"loss": 8.1335,
	"loss/crossentropy": 2.8577675819396973,
	"loss/hidden": 0.0302734375,
	"loss/logits": 0.005365458317101002,
	"loss/reg": 5.240131378173828,
	"loss/twn": 0.0,
	"step": 416
	},
	{
	"epoch": 0.010425,
	"grad_norm": 10.8125,
	"grad_norm_var": 1261.934228515625,
	"learning_rate": 0.0001,
	"loss": 6.9774,
	"loss/crossentropy": 1.5951570272445679,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.007291505113244057,
	"loss/reg": 5.240211486816406,
	"loss/twn": 0.0,
	"step": 417
	},
	{
	"epoch": 0.01045,
	"grad_norm": 9.875,
	"grad_norm_var": 1186.0130045572917,
	"learning_rate": 0.0001,
	"loss": 7.6738,
	"loss/crossentropy": 2.354665756225586,
	"loss/hidden": 0.07421875,
	"loss/logits": 0.004681308753788471,
	"loss/reg": 5.240237236022949,
	"loss/twn": 0.0,
	"step": 418
	},
	{
	"epoch": 0.010475,
	"grad_norm": 18.0,
	"grad_norm_var": 1186.7714680989584,
	"learning_rate": 0.0001,
	"loss": 7.9042,
	"loss/crossentropy": 2.479489326477051,
	"loss/hidden": 0.1748046875,
	"loss/logits": 0.009896760806441307,
	"loss/reg": 5.239961624145508,
	"loss/twn": 0.0,
	"step": 419
	},
	{
	"epoch": 0.0105,
	"grad_norm": 78.0,
	"grad_norm_var": 1353.9675618489584,
	"learning_rate": 0.0001,
	"loss": 6.7,
	"loss/crossentropy": 1.1504077911376953,
	"loss/hidden": 0.306640625,
	"loss/logits": 0.0026911741588264704,
	"loss/reg": 5.240240097045898,
	"loss/twn": 0.0,
	"step": 420
	},
	{
	"epoch": 0.010525,
	"grad_norm": 14.5625,
	"grad_norm_var": 1346.5242024739584,
	"learning_rate": 0.0001,
	"loss": 8.0741,
	"loss/crossentropy": 2.7434136867523193,
	"loss/hidden": 0.083984375,
	"loss/logits": 0.006712112110108137,
	"loss/reg": 5.2399516105651855,
	"loss/twn": 0.0,
	"step": 421
	},
	{
	"epoch": 0.01055,
	"grad_norm": 14.375,
	"grad_norm_var": 1343.0808430989584,
	"learning_rate": 0.0001,
	"loss": 6.6885,
	"loss/crossentropy": 1.297805666923523,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.005279569886624813,
	"loss/reg": 5.2398576736450195,
	"loss/twn": 0.0,
	"step": 422
	},
	{
	"epoch": 0.010575,
	"grad_norm": 10.125,
	"grad_norm_var": 1352.3348307291667,
	"learning_rate": 0.0001,
	"loss": 5.9427,
	"loss/crossentropy": 0.5282614231109619,
	"loss/hidden": 0.1669921875,
	"loss/logits": 0.007687091361731291,
	"loss/reg": 5.239724159240723,
	"loss/twn": 0.0,
	"step": 423
	},
	{
	"epoch": 0.0106,
	"grad_norm": 13.6875,
	"grad_norm_var": 1344.1219889322917,
	"learning_rate": 0.0001,
	"loss": 7.3072,
	"loss/crossentropy": 1.7837430238723755,
	"loss/hidden": 0.271484375,
	"loss/logits": 0.012293729931116104,
	"loss/reg": 5.2396626472473145,
	"loss/twn": 0.0,
	"step": 424
	},
	{
	"epoch": 0.010625,
	"grad_norm": 53.75,
	"grad_norm_var": 1365.6212890625,
	"learning_rate": 0.0001,
	"loss": 8.513,
	"loss/crossentropy": 3.109501838684082,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.006876545026898384,
	"loss/reg": 5.239365100860596,
	"loss/twn": 0.0,
	"step": 425
	},
	{
	"epoch": 0.01065,
	"grad_norm": 8.5625,
	"grad_norm_var": 1373.6447265625,
	"learning_rate": 0.0001,
	"loss": 7.5404,
	"loss/crossentropy": 2.174077272415161,
	"loss/hidden": 0.115234375,
	"loss/logits": 0.011358590796589851,
	"loss/reg": 5.239738941192627,
	"loss/twn": 0.0,
	"step": 426
	},
	{
	"epoch": 0.010675,
	"grad_norm": 12.1875,
	"grad_norm_var": 1367.7306640625,
	"learning_rate": 0.0001,
	"loss": 8.1571,
	"loss/crossentropy": 2.827575922012329,
	"loss/hidden": 0.083984375,
	"loss/logits": 0.005951396189630032,
	"loss/reg": 5.239595890045166,
	"loss/twn": 0.0,
	"step": 427
	},
	{
	"epoch": 0.0107,
	"grad_norm": 14.875,
	"grad_norm_var": 1365.55859375,
	"learning_rate": 0.0001,
	"loss": 8.0294,
	"loss/crossentropy": 2.697416305541992,
	"loss/hidden": 0.087890625,
	"loss/logits": 0.004499722272157669,
	"loss/reg": 5.239617824554443,
	"loss/twn": 0.0,
	"step": 428
	},
	{
	"epoch": 0.010725,
	"grad_norm": 11.0,
	"grad_norm_var": 1369.5015625,
	"learning_rate": 0.0001,
	"loss": 6.9497,
	"loss/crossentropy": 1.5794799327850342,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.008041350170969963,
	"loss/reg": 5.239623069763184,
	"loss/twn": 0.0,
	"step": 429
	},
	{
	"epoch": 0.01075,
	"grad_norm": 12.0,
	"grad_norm_var": 1386.5462890625,
	"learning_rate": 0.0001,
	"loss": 6.8916,
	"loss/crossentropy": 1.5268070697784424,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.0057592848315835,
	"loss/reg": 5.23940372467041,
	"loss/twn": 0.0,
	"step": 430
	},
	{
	"epoch": 0.010775,
	"grad_norm": 11.5,
	"grad_norm_var": 359.2416015625,
	"learning_rate": 0.0001,
	"loss": 8.0251,
	"loss/crossentropy": 2.647442579269409,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.009594411589205265,
	"loss/reg": 5.239197254180908,
	"loss/twn": 0.0,
	"step": 431
	},
	{
	"epoch": 0.0108,
	"grad_norm": 18.75,
	"grad_norm_var": 355.0367024739583,
	"learning_rate": 0.0001,
	"loss": 8.1387,
	"loss/crossentropy": 2.7440555095672607,
	"loss/hidden": 0.1376953125,
	"loss/logits": 0.01775319315493107,
	"loss/reg": 5.23914909362793,
	"loss/twn": 0.0,
	"step": 432
	},
	{
	"epoch": 0.010825,
	"grad_norm": 9.0,
	"grad_norm_var": 357.3424479166667,
	"learning_rate": 0.0001,
	"loss": 7.2622,
	"loss/crossentropy": 1.8811193704605103,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.007980940863490105,
	"loss/reg": 5.239285469055176,
	"loss/twn": 0.0,
	"step": 433
	},
	{
	"epoch": 0.01085,
	"grad_norm": 10.625,
	"grad_norm_var": 356.42604166666666,
	"learning_rate": 0.0001,
	"loss": 8.2447,
	"loss/crossentropy": 2.8804891109466553,
	"loss/hidden": 0.1123046875,
	"loss/logits": 0.01278759352862835,
	"loss/reg": 5.239134311676025,
	"loss/twn": 0.0,
	"step": 434
	},
	{
	"epoch": 0.010875,
	"grad_norm": 102.0,
	"grad_norm_var": 781.3260416666667,
	"learning_rate": 0.0001,
	"loss": 6.8421,
	"loss/crossentropy": 1.4239375591278076,
	"loss/hidden": 0.1669921875,
	"loss/logits": 0.011750075966119766,
	"loss/reg": 5.239468574523926,
	"loss/twn": 0.0,
	"step": 435
	},
	{
	"epoch": 0.0109,
	"grad_norm": 14.25,
	"grad_norm_var": 582.1736979166667,
	"learning_rate": 0.0001,
	"loss": 7.9746,
	"loss/crossentropy": 2.5394973754882812,
	"loss/hidden": 0.1875,
	"loss/logits": 0.008459478616714478,
	"loss/reg": 5.239116191864014,
	"loss/twn": 0.0,
	"step": 436
	},
	{
	"epoch": 0.010925,
	"grad_norm": 7.8125,
	"grad_norm_var": 590.5479166666667,
	"learning_rate": 0.0001,
	"loss": 7.3172,
	"loss/crossentropy": 1.975609540939331,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.0038147151935845613,
	"loss/reg": 5.239123344421387,
	"loss/twn": 0.0,
	"step": 437
	},
	{
	"epoch": 0.01095,
	"grad_norm": 10.8125,
	"grad_norm_var": 594.1465983072917,
	"learning_rate": 0.0001,
	"loss": 7.1303,
	"loss/crossentropy": 1.7625492811203003,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.005926240235567093,
	"loss/reg": 5.239302635192871,
	"loss/twn": 0.0,
	"step": 438
	},
	{
	"epoch": 0.010975,
	"grad_norm": 11.75,
	"grad_norm_var": 592.1593587239583,
	"learning_rate": 0.0001,
	"loss": 8.0788,
	"loss/crossentropy": 2.697333812713623,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.013756821863353252,
	"loss/reg": 5.2388529777526855,
	"loss/twn": 0.0,
	"step": 439
	},
	{
	"epoch": 0.011,
	"grad_norm": 57.0,
	"grad_norm_var": 672.0280598958333,
	"learning_rate": 0.0001,
	"loss": 7.046,
	"loss/crossentropy": 1.7012284994125366,
	"loss/hidden": 0.10009765625,
	"loss/logits": 0.005743634421378374,
	"loss/reg": 5.238898754119873,
	"loss/twn": 0.0,
	"step": 440
	},
	{
	"epoch": 0.011025,
	"grad_norm": 16.375,
	"grad_norm_var": 605.434375,
	"learning_rate": 0.0001,
	"loss": 7.7288,
	"loss/crossentropy": 2.397491216659546,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.005718431435525417,
	"loss/reg": 5.239189624786377,
	"loss/twn": 0.0,
	"step": 441
	},
	{
	"epoch": 0.01105,
	"grad_norm": 30.75,
	"grad_norm_var": 600.7946451822917,
	"learning_rate": 0.0001,
	"loss": 6.7732,
	"loss/crossentropy": 1.3775757551193237,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.006438620388507843,
	"loss/reg": 5.23883056640625,
	"loss/twn": 0.0,
	"step": 442
	},
	{
	"epoch": 0.011075,
	"grad_norm": 326.0,
	"grad_norm_var": 6348.5484375,
	"learning_rate": 0.0001,
	"loss": 6.8298,
	"loss/crossentropy": 1.457594394683838,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.00396731635555625,
	"loss/reg": 5.239315509796143,
	"loss/twn": 0.0,
	"step": 443
	},
	{
	"epoch": 0.0111,
	"grad_norm": 12.9375,
	"grad_norm_var": 6355.669254557291,
	"learning_rate": 0.0001,
	"loss": 8.2584,
	"loss/crossentropy": 2.878317356109619,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.010759024880826473,
	"loss/reg": 5.238509178161621,
	"loss/twn": 0.0,
	"step": 444
	},
	{
	"epoch": 0.011125,
	"grad_norm": 8.4375,
	"grad_norm_var": 6366.469791666666,
	"learning_rate": 0.0001,
	"loss": 7.6916,
	"loss/crossentropy": 2.346791982650757,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.004902126267552376,
	"loss/reg": 5.2388715744018555,
	"loss/twn": 0.0,
	"step": 445
	},
	{
	"epoch": 0.01115,
	"grad_norm": 35.75,
	"grad_norm_var": 6309.098697916666,
	"learning_rate": 0.0001,
	"loss": 6.5195,
	"loss/crossentropy": 1.047242283821106,
	"loss/hidden": 0.2265625,
	"loss/logits": 0.006808393634855747,
	"loss/reg": 5.2388739585876465,
	"loss/twn": 0.0,
	"step": 446
	},
	{
	"epoch": 0.011175,
	"grad_norm": 51.75,
	"grad_norm_var": 6242.728125,
	"learning_rate": 0.0001,
	"loss": 8.1962,
	"loss/crossentropy": 2.7516071796417236,
	"loss/hidden": 0.1865234375,
	"loss/logits": 0.0192459337413311,
	"loss/reg": 5.238797187805176,
	"loss/twn": 0.0,
	"step": 447
	},
	{
	"epoch": 0.0112,
	"grad_norm": 12.6875,
	"grad_norm_var": 6266.446077473958,
	"learning_rate": 0.0001,
	"loss": 8.1265,
	"loss/crossentropy": 2.730348587036133,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.015144633129239082,
	"loss/reg": 5.238423824310303,
	"loss/twn": 0.0,
	"step": 448
	},
	{
	"epoch": 0.011225,
	"grad_norm": 48.25,
	"grad_norm_var": 6175.005843098958,
	"learning_rate": 0.0001,
	"loss": 6.9994,
	"loss/crossentropy": 1.4689970016479492,
	"loss/hidden": 0.283203125,
	"loss/logits": 0.008740945719182491,
	"loss/reg": 5.238440036773682,
	"loss/twn": 0.0,
	"step": 449
	},
	{
	"epoch": 0.01125,
	"grad_norm": 7.8125,
	"grad_norm_var": 6189.262434895833,
	"learning_rate": 0.0001,
	"loss": 7.8836,
	"loss/crossentropy": 2.586432695388794,
	"loss/hidden": 0.0546875,
	"loss/logits": 0.004194296896457672,
	"loss/reg": 5.238241672515869,
	"loss/twn": 0.0,
	"step": 450
	},
	{
	"epoch": 0.011275,
	"grad_norm": 12.5625,
	"grad_norm_var": 6035.099202473958,
	"learning_rate": 0.0001,
	"loss": 7.5775,
	"loss/crossentropy": 2.230092763900757,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.007766470313072205,
	"loss/reg": 5.238610744476318,
	"loss/twn": 0.0,
	"step": 451
	},
	{
	"epoch": 0.0113,
	"grad_norm": 10.9375,
	"grad_norm_var": 6047.8462890625,
	"learning_rate": 0.0001,
	"loss": 7.9835,
	"loss/crossentropy": 2.615774154663086,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.009664995595812798,
	"loss/reg": 5.237979412078857,
	"loss/twn": 0.0,
	"step": 452
	},
	{
	"epoch": 0.011325,
	"grad_norm": 76.0,
	"grad_norm_var": 6033.516259765625,
	"learning_rate": 0.0001,
	"loss": 6.81,
	"loss/crossentropy": 1.415939450263977,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.01219608448445797,
	"loss/reg": 5.238288402557373,
	"loss/twn": 0.0,
	"step": 453
	},
	{
	"epoch": 0.01135,
	"grad_norm": 9.125,
	"grad_norm_var": 6041.5244140625,
	"learning_rate": 0.0001,
	"loss": 7.0682,
	"loss/crossentropy": 1.6937216520309448,
	"loss/hidden": 0.1298828125,
	"loss/logits": 0.006700664758682251,
	"loss/reg": 5.237900733947754,
	"loss/twn": 0.0,
	"step": 454
	},
	{
	"epoch": 0.011375,
	"grad_norm": 19.125,
	"grad_norm_var": 6011.728645833334,
	"learning_rate": 0.0001,
	"loss": 8.4153,
	"loss/crossentropy": 2.93511700630188,
	"loss/hidden": 0.2197265625,
	"loss/logits": 0.022560518234968185,
	"loss/reg": 5.237886905670166,
	"loss/twn": 0.0,
	"step": 455
	},
	{
	"epoch": 0.0114,
	"grad_norm": 15.3125,
	"grad_norm_var": 6059.028759765625,
	"learning_rate": 0.0001,
	"loss": 7.0063,
	"loss/crossentropy": 1.5995585918426514,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.011760546825826168,
	"loss/reg": 5.237764835357666,
	"loss/twn": 0.0,
	"step": 456
	},
	{
	"epoch": 0.011425,
	"grad_norm": 10.875,
	"grad_norm_var": 6080.710791015625,
	"learning_rate": 0.0001,
	"loss": 7.0912,
	"loss/crossentropy": 1.6729381084442139,
	"loss/hidden": 0.1669921875,
	"loss/logits": 0.013158103451132774,
	"loss/reg": 5.238087177276611,
	"loss/twn": 0.0,
	"step": 457
	},
	{
	"epoch": 0.01145,
	"grad_norm": 11.3125,
	"grad_norm_var": 6136.1228515625,
	"learning_rate": 0.0001,
	"loss": 7.8938,
	"loss/crossentropy": 2.558936834335327,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.010592980310320854,
	"loss/reg": 5.23784065246582,
	"loss/twn": 0.0,
	"step": 458
	},
	{
	"epoch": 0.011475,
	"grad_norm": 14.3125,
	"grad_norm_var": 397.25792643229164,
	"learning_rate": 0.0001,
	"loss": 8.1499,
	"loss/crossentropy": 2.677492141723633,
	"loss/hidden": 0.21875,
	"loss/logits": 0.015965130180120468,
	"loss/reg": 5.237676620483398,
	"loss/twn": 0.0,
	"step": 459
	},
	{
	"epoch": 0.0115,
	"grad_norm": 15.4375,
	"grad_norm_var": 394.51964518229164,
	"learning_rate": 0.0001,
	"loss": 8.1308,
	"loss/crossentropy": 2.706998348236084,
	"loss/hidden": 0.1708984375,
	"loss/logits": 0.015249890275299549,
	"loss/reg": 5.237621784210205,
	"loss/twn": 0.0,
	"step": 460
	},
	{
	"epoch": 0.011525,
	"grad_norm": 10.6875,
	"grad_norm_var": 390.62316080729164,
	"learning_rate": 0.0001,
	"loss": 7.1208,
	"loss/crossentropy": 1.7324503660202026,
	"loss/hidden": 0.1416015625,
	"loss/logits": 0.008826036937534809,
	"loss/reg": 5.237947940826416,
	"loss/twn": 0.0,
	"step": 461
	},
	{
	"epoch": 0.01155,
	"grad_norm": 88.0,
	"grad_norm_var": 652.7167805989583,
	"learning_rate": 0.0001,
	"loss": 7.8363,
	"loss/crossentropy": 2.4369447231292725,
	"loss/hidden": 0.15234375,
	"loss/logits": 0.00924272183328867,
	"loss/reg": 5.237813949584961,
	"loss/twn": 0.0,
	"step": 462
	},
	{
	"epoch": 0.011575,
	"grad_norm": 8.875,
	"grad_norm_var": 619.7566243489583,
	"learning_rate": 0.0001,
	"loss": 7.7379,
	"loss/crossentropy": 2.4647915363311768,
	"loss/hidden": 0.0302734375,
	"loss/logits": 0.005017576273530722,
	"loss/reg": 5.237803936004639,
	"loss/twn": 0.0,
	"step": 463
	},
	{
	"epoch": 0.0116,
	"grad_norm": 8.3125,
	"grad_norm_var": 627.089306640625,
	"learning_rate": 0.0001,
	"loss": 7.7172,
	"loss/crossentropy": 2.3781650066375732,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.0055891769006848335,
	"loss/reg": 5.237229824066162,
	"loss/twn": 0.0,
	"step": 464
	},
	{
	"epoch": 0.011625,
	"grad_norm": 65.5,
	"grad_norm_var": 703.914697265625,
	"learning_rate": 0.0001,
	"loss": 8.1072,
	"loss/crossentropy": 2.73203182220459,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.010718154720962048,
	"loss/reg": 5.237488746643066,
	"loss/twn": 0.0,
	"step": 465
	},
	{
	"epoch": 0.01165,
	"grad_norm": 21.875,
	"grad_norm_var": 685.90078125,
	"learning_rate": 0.0001,
	"loss": 8.3027,
	"loss/crossentropy": 2.8547723293304443,
	"loss/hidden": 0.1865234375,
	"loss/logits": 0.023786598816514015,
	"loss/reg": 5.2376484870910645,
	"loss/twn": 0.0,
	"step": 466
	},
	{
	"epoch": 0.011675,
	"grad_norm": 101.5,
	"grad_norm_var": 1034.077197265625,
	"learning_rate": 0.0001,
	"loss": 7.6863,
	"loss/crossentropy": 2.4159936904907227,
	"loss/hidden": 0.0302734375,
	"loss/logits": 0.0024244533851742744,
	"loss/reg": 5.23759126663208,
	"loss/twn": 0.0,
	"step": 467
	},
	{
	"epoch": 0.0117,
	"grad_norm": 13.9375,
	"grad_norm_var": 1026.835009765625,
	"learning_rate": 0.0001,
	"loss": 8.0093,
	"loss/crossentropy": 2.580734968185425,
	"loss/hidden": 0.17578125,
	"loss/logits": 0.015159064903855324,
	"loss/reg": 5.2376275062561035,
	"loss/twn": 0.0,
	"step": 468
	},
	{
	"epoch": 0.011725,
	"grad_norm": 9.8125,
	"grad_norm_var": 900.303125,
	"learning_rate": 0.0001,
	"loss": 7.7953,
	"loss/crossentropy": 2.4660680294036865,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.005589427426457405,
	"loss/reg": 5.237224578857422,
	"loss/twn": 0.0,
	"step": 469
	},
	{
	"epoch": 0.01175,
	"grad_norm": 384.0,
	"grad_norm_var": 8815.046809895834,
	"learning_rate": 0.0001,
	"loss": 6.1676,
	"loss/crossentropy": 0.7747684121131897,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.005672769621014595,
	"loss/reg": 5.23769998550415,
	"loss/twn": 0.0,
	"step": 470
	},
	{
	"epoch": 0.011775,
	"grad_norm": 14.75,
	"grad_norm_var": 8834.2125,
	"learning_rate": 0.0001,
	"loss": 6.978,
	"loss/crossentropy": 1.5184272527694702,
	"loss/hidden": 0.2109375,
	"loss/logits": 0.011126836761832237,
	"loss/reg": 5.2375288009643555,
	"loss/twn": 0.0,
	"step": 471
	},
	{
	"epoch": 0.0118,
	"grad_norm": 10.4375,
	"grad_norm_var": 8858.0212890625,
	"learning_rate": 0.0001,
	"loss": 7.7419,
	"loss/crossentropy": 2.359570264816284,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.013412706553936005,
	"loss/reg": 5.2371039390563965,
	"loss/twn": 0.0,
	"step": 472
	},
	{
	"epoch": 0.011825,
	"grad_norm": 13.9375,
	"grad_norm_var": 8842.896207682292,
	"learning_rate": 0.0001,
	"loss": 8.1685,
	"loss/crossentropy": 2.766843557357788,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.01371270976960659,
	"loss/reg": 5.237538814544678,
	"loss/twn": 0.0,
	"step": 473
	},
	{
	"epoch": 0.01185,
	"grad_norm": 15.3125,
	"grad_norm_var": 8823.506624348958,
	"learning_rate": 0.0001,
	"loss": 7.5292,
	"loss/crossentropy": 2.151641607284546,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.008503757417201996,
	"loss/reg": 5.237189769744873,
	"loss/twn": 0.0,
	"step": 474
	},
	{
	"epoch": 0.011875,
	"grad_norm": 11.25,
	"grad_norm_var": 8838.5806640625,
	"learning_rate": 0.0001,
	"loss": 8.0395,
	"loss/crossentropy": 2.686025619506836,
	"loss/hidden": 0.1103515625,
	"loss/logits": 0.005928123835474253,
	"loss/reg": 5.237187385559082,
	"loss/twn": 0.0,
	"step": 475
	},
	{
	"epoch": 0.0119,
	"grad_norm": 10.1875,
	"grad_norm_var": 8864.2181640625,
	"learning_rate": 0.0001,
	"loss": 6.7249,
	"loss/crossentropy": 1.3968653678894043,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.004261254798620939,
	"loss/reg": 5.23736047744751,
	"loss/twn": 0.0,
	"step": 476
	},
	{
	"epoch": 0.011925,
	"grad_norm": 17.375,
	"grad_norm_var": 8832.607535807292,
	"learning_rate": 0.0001,
	"loss": 7.1631,
	"loss/crossentropy": 1.7119083404541016,
	"loss/hidden": 0.203125,
	"loss/logits": 0.010743262246251106,
	"loss/reg": 5.237338542938232,
	"loss/twn": 0.0,
	"step": 477
	},
	{
	"epoch": 0.01195,
	"grad_norm": 584.0,
	"grad_norm_var": 26742.08253580729,
	"learning_rate": 0.0001,
	"loss": 6.4806,
	"loss/crossentropy": 1.1264278888702393,
	"loss/hidden": 0.11376953125,
	"loss/logits": 0.003235449083149433,
	"loss/reg": 5.237181663513184,
	"loss/twn": 0.0,
	"step": 478
	},
	{
	"epoch": 0.011975,
	"grad_norm": 11.375,
	"grad_norm_var": 26718.53435872396,
	"learning_rate": 0.0001,
	"loss": 5.9934,
	"loss/crossentropy": 0.5191141963005066,
	"loss/hidden": 0.2275390625,
	"loss/logits": 0.009647047147154808,
	"loss/reg": 5.237125396728516,
	"loss/twn": 0.0,
	"step": 479
	},
	{
	"epoch": 0.012,
	"grad_norm": 10.375,
	"grad_norm_var": 26698.853059895835,
	"learning_rate": 0.0001,
	"loss": 8.1124,
	"loss/crossentropy": 2.780978202819824,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.007745138369500637,
	"loss/reg": 5.23725700378418,
	"loss/twn": 0.0,
	"step": 480
	},
	{
	"epoch": 0.012025,
	"grad_norm": 34.5,
	"grad_norm_var": 26822.8853515625,
	"learning_rate": 0.0001,
	"loss": 7.868,
	"loss/crossentropy": 2.5087831020355225,
	"loss/hidden": 0.11474609375,
	"loss/logits": 0.007656463421881199,
	"loss/reg": 5.236792087554932,
	"loss/twn": 0.0,
	"step": 481
	},
	{
	"epoch": 0.01205,
	"grad_norm": 8.6875,
	"grad_norm_var": 26934.268212890624,
	"learning_rate": 0.0001,
	"loss": 7.2881,
	"loss/crossentropy": 1.942946434020996,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.007265533320605755,
	"loss/reg": 5.236773490905762,
	"loss/twn": 0.0,
	"step": 482
	},
	{
	"epoch": 0.012075,
	"grad_norm": 10.375,
	"grad_norm_var": 27170.338916015626,
	"learning_rate": 0.0001,
	"loss": 7.3296,
	"loss/crossentropy": 1.9258122444152832,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.011823762208223343,
	"loss/reg": 5.2366719245910645,
	"loss/twn": 0.0,
	"step": 483
	},
	{
	"epoch": 0.0121,
	"grad_norm": 9.4375,
	"grad_norm_var": 27206.753759765626,
	"learning_rate": 0.0001,
	"loss": 7.756,
	"loss/crossentropy": 2.4538094997406006,
	"loss/hidden": 0.0595703125,
	"loss/logits": 0.005918778479099274,
	"loss/reg": 5.2366943359375,
	"loss/twn": 0.0,
	"step": 484
	},
	{
	"epoch": 0.012125,
	"grad_norm": 13.0625,
	"grad_norm_var": 27180.362744140624,
	"learning_rate": 0.0001,
	"loss": 8.1167,
	"loss/crossentropy": 2.796402931213379,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.004426885861903429,
	"loss/reg": 5.236767768859863,
	"loss/twn": 0.0,
	"step": 485
	},
	{
	"epoch": 0.01215,
	"grad_norm": 10.0625,
	"grad_norm_var": 20385.898893229165,
	"learning_rate": 0.0001,
	"loss": 7.9673,
	"loss/crossentropy": 2.5698435306549072,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.011329087428748608,
	"loss/reg": 5.236757278442383,
	"loss/twn": 0.0,
	"step": 486
	},
	{
	"epoch": 0.012175,
	"grad_norm": 10.625,
	"grad_norm_var": 20405.838541666668,
	"learning_rate": 0.0001,
	"loss": 7.2025,
	"loss/crossentropy": 1.8346238136291504,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.004264689050614834,
	"loss/reg": 5.236656188964844,
	"loss/twn": 0.0,
	"step": 487
	},
	{
	"epoch": 0.0122,
	"grad_norm": 14.9375,
	"grad_norm_var": 20384.079166666666,
	"learning_rate": 0.0001,
	"loss": 7.7223,
	"loss/crossentropy": 2.3055596351623535,
	"loss/hidden": 0.1650390625,
	"loss/logits": 0.015009969472885132,
	"loss/reg": 5.236688137054443,
	"loss/twn": 0.0,
	"step": 488
	},
	{
	"epoch": 0.012225,
	"grad_norm": 16.25,
	"grad_norm_var": 20373.57355143229,
	"learning_rate": 0.0001,
	"loss": 7.9159,
	"loss/crossentropy": 2.573246955871582,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.007458841428160667,
	"loss/reg": 5.236563682556152,
	"loss/twn": 0.0,
	"step": 489
	},
	{
	"epoch": 0.01225,
	"grad_norm": 12.3125,
	"grad_norm_var": 20387.70636393229,
	"learning_rate": 0.0001,
	"loss": 7.9834,
	"loss/crossentropy": 2.5690972805023193,
	"loss/hidden": 0.1650390625,
	"loss/logits": 0.012899991124868393,
	"loss/reg": 5.236404895782471,
	"loss/twn": 0.0,
	"step": 490
	},
	{
	"epoch": 0.012275,
	"grad_norm": 10.0625,
	"grad_norm_var": 20393.779622395832,
	"learning_rate": 0.0001,
	"loss": 8.1415,
	"loss/crossentropy": 2.8210272789001465,
	"loss/hidden": 0.07666015625,
	"loss/logits": 0.006865846458822489,
	"loss/reg": 5.23691463470459,
	"loss/twn": 0.0,
	"step": 491
	},
	{
	"epoch": 0.0123,
	"grad_norm": 9.8125,
	"grad_norm_var": 20395.727864583332,
	"learning_rate": 0.0001,
	"loss": 7.8399,
	"loss/crossentropy": 2.5191946029663086,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.00524523202329874,
	"loss/reg": 5.2364020347595215,
	"loss/twn": 0.0,
	"step": 492
	},
	{
	"epoch": 0.012325,
	"grad_norm": 19.625,
	"grad_norm_var": 20386.570833333335,
	"learning_rate": 0.0001,
	"loss": 8.46,
	"loss/crossentropy": 3.0929410457611084,
	"loss/hidden": 0.12060546875,
	"loss/logits": 0.010085565969347954,
	"loss/reg": 5.236414909362793,
	"loss/twn": 0.0,
	"step": 493
	},
	{
	"epoch": 0.01235,
	"grad_norm": 13.375,
	"grad_norm_var": 39.9259765625,
	"learning_rate": 0.0001,
	"loss": 8.1608,
	"loss/crossentropy": 2.7697112560272217,
	"loss/hidden": 0.1396484375,
	"loss/logits": 0.015202455222606659,
	"loss/reg": 5.236268043518066,
	"loss/twn": 0.0,
	"step": 494
	},
	{
	"epoch": 0.012375,
	"grad_norm": 24.125,
	"grad_norm_var": 46.5931640625,
	"learning_rate": 0.0001,
	"loss": 7.9654,
	"loss/crossentropy": 2.5814311504364014,
	"loss/hidden": 0.140625,
	"loss/logits": 0.006853965111076832,
	"loss/reg": 5.236512184143066,
	"loss/twn": 0.0,
	"step": 495
	},
	{
	"epoch": 0.0124,
	"grad_norm": 10.3125,
	"grad_norm_var": 46.62550455729167,
	"learning_rate": 0.0001,
	"loss": 6.2441,
	"loss/crossentropy": 0.8653862476348877,
	"loss/hidden": 0.13671875,
	"loss/logits": 0.005771493539214134,
	"loss/reg": 5.236272811889648,
	"loss/twn": 0.0,
	"step": 496
	},
	{
	"epoch": 0.012425,
	"grad_norm": 19.0,
	"grad_norm_var": 19.734619140625,
	"learning_rate": 0.0001,
	"loss": 7.8094,
	"loss/crossentropy": 2.4122979640960693,
	"loss/hidden": 0.1533203125,
	"loss/logits": 0.007559158839285374,
	"loss/reg": 5.236222743988037,
	"loss/twn": 0.0,
	"step": 497
	},
	{
	"epoch": 0.01245,
	"grad_norm": 23.375,
	"grad_norm_var": 24.274739583333332,
	"learning_rate": 0.0001,
	"loss": 7.2016,
	"loss/crossentropy": 1.773500680923462,
	"loss/hidden": 0.177734375,
	"loss/logits": 0.01412028819322586,
	"loss/reg": 5.236289024353027,
	"loss/twn": 0.0,
	"step": 498
	},
	{
	"epoch": 0.012475,
	"grad_norm": 12.25,
	"grad_norm_var": 23.545247395833332,
	"learning_rate": 0.0001,
	"loss": 7.306,
	"loss/crossentropy": 1.899260401725769,
	"loss/hidden": 0.16015625,
	"loss/logits": 0.010113149881362915,
	"loss/reg": 5.236475467681885,
	"loss/twn": 0.0,
	"step": 499
	},
	{
	"epoch": 0.0125,
	"grad_norm": 10.0625,
	"grad_norm_var": 23.165364583333332,
	"learning_rate": 0.0001,
	"loss": 7.6044,
	"loss/crossentropy": 2.234079360961914,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.0073781562969088554,
	"loss/reg": 5.235958576202393,
	"loss/twn": 0.0,
	"step": 500
	},
	{
	"epoch": 0.012525,
	"grad_norm": 11.8125,
	"grad_norm_var": 23.473958333333332,
	"learning_rate": 0.0001,
	"loss": 7.5774,
	"loss/crossentropy": 2.250281572341919,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.004540358670055866,
	"loss/reg": 5.236131191253662,
	"loss/twn": 0.0,
	"step": 501
	},
	{
	"epoch": 0.01255,
	"grad_norm": 10.1875,
	"grad_norm_var": 23.405143229166665,
	"learning_rate": 0.0001,
	"loss": 6.5639,
	"loss/crossentropy": 1.1574146747589111,
	"loss/hidden": 0.1591796875,
	"loss/logits": 0.011335412040352821,
	"loss/reg": 5.236012935638428,
	"loss/twn": 0.0,
	"step": 502
	},
	{
	"epoch": 0.012575,
	"grad_norm": 12.0,
	"grad_norm_var": 22.857291666666665,
	"learning_rate": 0.0001,
	"loss": 7.8073,
	"loss/crossentropy": 2.4466099739074707,
	"loss/hidden": 0.115234375,
	"loss/logits": 0.009260098449885845,
	"loss/reg": 5.236217021942139,
	"loss/twn": 0.0,
	"step": 503
	},
	{
	"epoch": 0.0126,
	"grad_norm": 15.0,
	"grad_norm_var": 22.862483723958334,
	"learning_rate": 0.0001,
	"loss": 6.7732,
	"loss/crossentropy": 1.3012182712554932,
	"loss/hidden": 0.2265625,
	"loss/logits": 0.00941612757742405,
	"loss/reg": 5.235978126525879,
	"loss/twn": 0.0,
	"step": 504
	},
	{
	"epoch": 0.012625,
	"grad_norm": 141.0,
	"grad_norm_var": 1027.1649576822917,
	"learning_rate": 0.0001,
	"loss": 7.359,
	"loss/crossentropy": 1.941611886024475,
	"loss/hidden": 0.173828125,
	"loss/logits": 0.007238644640892744,
	"loss/reg": 5.236276626586914,
	"loss/twn": 0.0,
	"step": 505
	},
	{
	"epoch": 0.01265,
	"grad_norm": 11.875,
	"grad_norm_var": 1027.7504557291666,
	"learning_rate": 0.0001,
	"loss": 8.2093,
	"loss/crossentropy": 2.877250909805298,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.009630267508327961,
	"loss/reg": 5.235978603363037,
	"loss/twn": 0.0,
	"step": 506
	},
	{
	"epoch": 0.012675,
	"grad_norm": 136.0,
	"grad_norm_var": 1816.5980305989583,
	"learning_rate": 0.0001,
	"loss": 8.2749,
	"loss/crossentropy": 2.9017584323883057,
	"loss/hidden": 0.1279296875,
	"loss/logits": 0.00875360518693924,
	"loss/reg": 5.236504077911377,
	"loss/twn": 0.0,
	"step": 507
	},
	{
	"epoch": 0.0127,
	"grad_norm": 124.5,
	"grad_norm_var": 2330.153125,
	"learning_rate": 0.0001,
	"loss": 5.9319,
	"loss/crossentropy": 0.569814920425415,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.006820861250162125,
	"loss/reg": 5.235653400421143,
	"loss/twn": 0.0,
	"step": 508
	},
	{
	"epoch": 0.012725,
	"grad_norm": 12.6875,
	"grad_norm_var": 2349.377587890625,
	"learning_rate": 0.0001,
	"loss": 7.4016,
	"loss/crossentropy": 2.056201934814453,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.010679306462407112,
	"loss/reg": 5.236123085021973,
	"loss/twn": 0.0,
	"step": 509
	},
	{
	"epoch": 0.01275,
	"grad_norm": 10.9375,
	"grad_norm_var": 2357.3369140625,
	"learning_rate": 0.0001,
	"loss": 7.799,
	"loss/crossentropy": 2.4681053161621094,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.008713052608072758,
	"loss/reg": 5.235713481903076,
	"loss/twn": 0.0,
	"step": 510
	},
	{
	"epoch": 0.012775,
	"grad_norm": 11.8125,
	"grad_norm_var": 2387.242822265625,
	"learning_rate": 0.0001,
	"loss": 7.0821,
	"loss/crossentropy": 1.63010573387146,
	"loss/hidden": 0.2041015625,
	"loss/logits": 0.011883174069225788,
	"loss/reg": 5.235997200012207,
	"loss/twn": 0.0,
	"step": 511
	},
	{
	"epoch": 0.0128,
	"grad_norm": 9.3125,
	"grad_norm_var": 2390.703759765625,
	"learning_rate": 0.0001,
	"loss": 7.1311,
	"loss/crossentropy": 1.7556850910186768,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.0065896175801754,
	"loss/reg": 5.236062049865723,
	"loss/twn": 0.0,
	"step": 512
	},
	{
	"epoch": 0.012825,
	"grad_norm": 7.15625,
	"grad_norm_var": 2425.903446451823,
	"learning_rate": 0.0001,
	"loss": 6.1515,
	"loss/crossentropy": 0.7963519096374512,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.006251027341932058,
	"loss/reg": 5.236119270324707,
	"loss/twn": 0.0,
	"step": 513
	},
	{
	"epoch": 0.01285,
	"grad_norm": 14.3125,
	"grad_norm_var": 2445.081018066406,
	"learning_rate": 0.0001,
	"loss": 8.0629,
	"loss/crossentropy": 2.6161036491394043,
	"loss/hidden": 0.197265625,
	"loss/logits": 0.013607255183160305,
	"loss/reg": 5.235938549041748,
	"loss/twn": 0.0,
	"step": 514
	},
	{
	"epoch": 0.012875,
	"grad_norm": 9.25,
	"grad_norm_var": 2454.5161743164062,
	"learning_rate": 0.0001,
	"loss": 8.0433,
	"loss/crossentropy": 2.7305965423583984,
	"loss/hidden": 0.0693359375,
	"loss/logits": 0.007636295165866613,
	"loss/reg": 5.235754489898682,
	"loss/twn": 0.0,
	"step": 515
	},
	{
	"epoch": 0.0129,
	"grad_norm": 17.125,
	"grad_norm_var": 2434.8625610351564,
	"learning_rate": 0.0001,
	"loss": 7.871,
	"loss/crossentropy": 2.3984246253967285,
	"loss/hidden": 0.220703125,
	"loss/logits": 0.01586098223924637,
	"loss/reg": 5.2359771728515625,
	"loss/twn": 0.0,
	"step": 516
	},
	{
	"epoch": 0.012925,
	"grad_norm": 16.75,
	"grad_norm_var": 2421.328153483073,
	"learning_rate": 0.0001,
	"loss": 8.2615,
	"loss/crossentropy": 2.9614031314849854,
	"loss/hidden": 0.0595703125,
	"loss/logits": 0.0044908830896019936,
	"loss/reg": 5.23606014251709,
	"loss/twn": 0.0,
	"step": 517
	},
	{
	"epoch": 0.01295,
	"grad_norm": 13.375,
	"grad_norm_var": 2411.420340983073,
	"learning_rate": 0.0001,
	"loss": 7.3563,
	"loss/crossentropy": 2.021721363067627,
	"loss/hidden": 0.09375,
	"loss/logits": 0.004891795106232166,
	"loss/reg": 5.235958099365234,
	"loss/twn": 0.0,
	"step": 518
	},
	{
	"epoch": 0.012975,
	"grad_norm": 14.6875,
	"grad_norm_var": 2403.5608032226564,
	"learning_rate": 0.0001,
	"loss": 7.2795,
	"loss/crossentropy": 1.8727322816848755,
	"loss/hidden": 0.16015625,
	"loss/logits": 0.010636523365974426,
	"loss/reg": 5.235999584197998,
	"loss/twn": 0.0,
	"step": 519
	},
	{
	"epoch": 0.013,
	"grad_norm": 10.1875,
	"grad_norm_var": 2418.0734985351564,
	"learning_rate": 0.0001,
	"loss": 7.2173,
	"loss/crossentropy": 1.8416680097579956,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.00781365018337965,
	"loss/reg": 5.235951900482178,
	"loss/twn": 0.0,
	"step": 520
	},
	{
	"epoch": 0.013025,
	"grad_norm": 9.8125,
	"grad_norm_var": 1640.6509073893228,
	"learning_rate": 0.0001,
	"loss": 7.9581,
	"loss/crossentropy": 2.697462797164917,
	"loss/hidden": 0.02099609375,
	"loss/logits": 0.004056986421346664,
	"loss/reg": 5.235566139221191,
	"loss/twn": 0.0,
	"step": 521
	},
	{
	"epoch": 0.01305,
	"grad_norm": 444.0,
	"grad_norm_var": 12447.939611816406,
	"learning_rate": 0.0001,
	"loss": 6.4374,
	"loss/crossentropy": 1.0375036001205444,
	"loss/hidden": 0.1611328125,
	"loss/logits": 0.003013317007571459,
	"loss/reg": 5.235776901245117,
	"loss/twn": 0.0,
	"step": 522
	},
	{
	"epoch": 0.013075,
	"grad_norm": 14.5625,
	"grad_norm_var": 12039.795764160157,
	"learning_rate": 0.0001,
	"loss": 7.6035,
	"loss/crossentropy": 2.2387633323669434,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.011812473647296429,
	"loss/reg": 5.235291957855225,
	"loss/twn": 0.0,
	"step": 523
	},
	{
	"epoch": 0.0131,
	"grad_norm": 11.75,
	"grad_norm_var": 11658.413016764323,
	"learning_rate": 0.0001,
	"loss": 8.2169,
	"loss/crossentropy": 2.89178729057312,
	"loss/hidden": 0.083984375,
	"loss/logits": 0.005315279122442007,
	"loss/reg": 5.235769748687744,
	"loss/twn": 0.0,
	"step": 524
	},
	{
	"epoch": 0.013125,
	"grad_norm": 25.0,
	"grad_norm_var": 11624.30995686849,
	"learning_rate": 0.0001,
	"loss": 6.9365,
	"loss/crossentropy": 1.5732824802398682,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.007601576391607523,
	"loss/reg": 5.235477924346924,
	"loss/twn": 0.0,
	"step": 525
	},
	{
	"epoch": 0.01315,
	"grad_norm": 10.875,
	"grad_norm_var": 11624.552404785156,
	"learning_rate": 0.0001,
	"loss": 8.1942,
	"loss/crossentropy": 2.9256229400634766,
	"loss/hidden": 0.0302734375,
	"loss/logits": 0.002373297931626439,
	"loss/reg": 5.235915184020996,
	"loss/twn": 0.0,
	"step": 526
	},
	{
	"epoch": 0.013175,
	"grad_norm": 8.1875,
	"grad_norm_var": 11638.996708170573,
	"learning_rate": 0.0001,
	"loss": 6.944,
	"loss/crossentropy": 1.6115573644638062,
	"loss/hidden": 0.09375,
	"loss/logits": 0.002878053579479456,
	"loss/reg": 5.235781669616699,
	"loss/twn": 0.0,
	"step": 527
	},
	{
	"epoch": 0.0132,
	"grad_norm": 33.75,
	"grad_norm_var": 11577.075646972657,
	"learning_rate": 0.0001,
	"loss": 5.7046,
	"loss/crossentropy": 0.35535818338394165,
	"loss/hidden": 0.11328125,
	"loss/logits": 0.0003594207810238004,
	"loss/reg": 5.235568046569824,
	"loss/twn": 0.0,
	"step": 528
	},
	{
	"epoch": 0.013225,
	"grad_norm": 17.0,
	"grad_norm_var": 11538.3197265625,
	"learning_rate": 0.0001,
	"loss": 7.8718,
	"loss/crossentropy": 2.430708646774292,
	"loss/hidden": 0.197265625,
	"loss/logits": 0.008184842765331268,
	"loss/reg": 5.235634803771973,
	"loss/twn": 0.0,
	"step": 529
	},
	{
	"epoch": 0.01325,
	"grad_norm": 12.6875,
	"grad_norm_var": 11544.465104166668,
	"learning_rate": 0.0001,
	"loss": 7.1415,
	"loss/crossentropy": 1.7498486042022705,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.009613174945116043,
	"loss/reg": 5.235511302947998,
	"loss/twn": 0.0,
	"step": 530
	},
	{
	"epoch": 0.013275,
	"grad_norm": 10.5,
	"grad_norm_var": 11539.135677083334,
	"learning_rate": 0.0001,
	"loss": 7.9653,
	"loss/crossentropy": 2.616609573364258,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.011807188391685486,
	"loss/reg": 5.235820770263672,
	"loss/twn": 0.0,
	"step": 531
	},
	{
	"epoch": 0.0133,
	"grad_norm": 15.5625,
	"grad_norm_var": 11544.447770182293,
	"learning_rate": 0.0001,
	"loss": 7.821,
	"loss/crossentropy": 2.5074052810668945,
	"loss/hidden": 0.07177734375,
	"loss/logits": 0.006313705816864967,
	"loss/reg": 5.235459804534912,
	"loss/twn": 0.0,
	"step": 532
	},
	{
	"epoch": 0.013325,
	"grad_norm": 55.0,
	"grad_norm_var": 11508.170035807292,
	"learning_rate": 0.0001,
	"loss": 6.9534,
	"loss/crossentropy": 1.6006724834442139,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.007289988920092583,
	"loss/reg": 5.235603332519531,
	"loss/twn": 0.0,
	"step": 533
	},
	{
	"epoch": 0.01335,
	"grad_norm": 12.625,
	"grad_norm_var": 11511.286051432291,
	"learning_rate": 0.0001,
	"loss": 8.027,
	"loss/crossentropy": 2.671614646911621,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.0071898894384503365,
	"loss/reg": 5.235414028167725,
	"loss/twn": 0.0,
	"step": 534
	},
	{
	"epoch": 0.013375,
	"grad_norm": 372.0,
	"grad_norm_var": 18087.790104166666,
	"learning_rate": 0.0001,
	"loss": 8.0188,
	"loss/crossentropy": 2.639939308166504,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.008616717532277107,
	"loss/reg": 5.235448360443115,
	"loss/twn": 0.0,
	"step": 535
	},
	{
	"epoch": 0.0134,
	"grad_norm": 9.0625,
	"grad_norm_var": 18096.311393229167,
	"learning_rate": 0.0001,
	"loss": 7.087,
	"loss/crossentropy": 1.6764798164367676,
	"loss/hidden": 0.1630859375,
	"loss/logits": 0.012176426127552986,
	"loss/reg": 5.235233783721924,
	"loss/twn": 0.0,
	"step": 536
	},
	{
	"epoch": 0.013425,
	"grad_norm": 9.3125,
	"grad_norm_var": 18100.0994140625,
	"learning_rate": 0.0001,
	"loss": 6.986,
	"loss/crossentropy": 1.620530605316162,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.007392015308141708,
	"loss/reg": 5.235503673553467,
	"loss/twn": 0.0,
	"step": 537
	},
	{
	"epoch": 0.01345,
	"grad_norm": 16.125,
	"grad_norm_var": 7998.4609375,
	"learning_rate": 0.0001,
	"loss": 8.4295,
	"loss/crossentropy": 3.019792079925537,
	"loss/hidden": 0.1591796875,
	"loss/logits": 0.015434058383107185,
	"loss/reg": 5.235138893127441,
	"loss/twn": 0.0,
	"step": 538
	},
	{
	"epoch": 0.013475,
	"grad_norm": 18.5,
	"grad_norm_var": 7986.272119140625,
	"learning_rate": 0.0001,
	"loss": 6.5863,
	"loss/crossentropy": 0.9472768902778625,
	"loss/hidden": 0.3984375,
	"loss/logits": 0.005067166872322559,
	"loss/reg": 5.235495090484619,
	"loss/twn": 0.0,
	"step": 539
	},
	{
	"epoch": 0.0135,
	"grad_norm": 68.0,
	"grad_norm_var": 7973.117822265625,
	"learning_rate": 0.0001,
	"loss": 7.0399,
	"loss/crossentropy": 1.5947017669677734,
	"loss/hidden": 0.201171875,
	"loss/logits": 0.008832491934299469,
	"loss/reg": 5.235156059265137,
	"loss/twn": 0.0,
	"step": 540
	},
	{
	"epoch": 0.013525,
	"grad_norm": 696.0,
	"grad_norm_var": 34468.181884765625,
	"learning_rate": 0.0001,
	"loss": 8.1707,
	"loss/crossentropy": 2.8003129959106445,
	"loss/hidden": 0.123046875,
	"loss/logits": 0.012298551388084888,
	"loss/reg": 5.235071659088135,
	"loss/twn": 0.0,
	"step": 541
	},
	{
	"epoch": 0.01355,
	"grad_norm": 11.5,
	"grad_norm_var": 34462.002197265625,
	"learning_rate": 0.0001,
	"loss": 7.5471,
	"loss/crossentropy": 2.217853546142578,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.007477154955267906,
	"loss/reg": 5.235381126403809,
	"loss/twn": 0.0,
	"step": 542
	},
	{
	"epoch": 0.013575,
	"grad_norm": 12.6875,
	"grad_norm_var": 34416.96235351563,
	"learning_rate": 0.0001,
	"loss": 8.3214,
	"loss/crossentropy": 2.926238775253296,
	"loss/hidden": 0.14453125,
	"loss/logits": 0.015387848019599915,
	"loss/reg": 5.235249042510986,
	"loss/twn": 0.0,
	"step": 543
	},
	{
	"epoch": 0.0136,
	"grad_norm": 78.0,
	"grad_norm_var": 34233.16352539063,
	"learning_rate": 0.0001,
	"loss": 8.227,
	"loss/crossentropy": 2.8347182273864746,
	"loss/hidden": 0.1416015625,
	"loss/logits": 0.015542502515017986,
	"loss/reg": 5.235121250152588,
	"loss/twn": 0.0,
	"step": 544
	},
	{
	"epoch": 0.013625,
	"grad_norm": 9.625,
	"grad_norm_var": 34306.78292643229,
	"learning_rate": 0.0001,
	"loss": 7.7463,
	"loss/crossentropy": 2.451880693435669,
	"loss/hidden": 0.0546875,
	"loss/logits": 0.004437028430402279,
	"loss/reg": 5.2353057861328125,
	"loss/twn": 0.0,
	"step": 545
	},
	{
	"epoch": 0.01365,
	"grad_norm": 11.3125,
	"grad_norm_var": 34320.69907226563,
	"learning_rate": 0.0001,
	"loss": 6.514,
	"loss/crossentropy": 1.0950896739959717,
	"loss/hidden": 0.1787109375,
	"loss/logits": 0.004933930933475494,
	"loss/reg": 5.235309600830078,
	"loss/twn": 0.0,
	"step": 546
	},
	{
	"epoch": 0.013675,
	"grad_norm": 19.375,
	"grad_norm_var": 34234.075374348955,
	"learning_rate": 0.0001,
	"loss": 7.917,
	"loss/crossentropy": 2.5059616565704346,
	"loss/hidden": 0.1650390625,
	"loss/logits": 0.010931363329291344,
	"loss/reg": 5.23504114151001,
	"loss/twn": 0.0,
	"step": 547
	},
	{
	"epoch": 0.0137,
	"grad_norm": 13.0625,
	"grad_norm_var": 34258.751155598955,
	"learning_rate": 0.0001,
	"loss": 8.0647,
	"loss/crossentropy": 2.657578706741333,
	"loss/hidden": 0.1640625,
	"loss/logits": 0.007689584046602249,
	"loss/reg": 5.235403060913086,
	"loss/twn": 0.0,
	"step": 548
	},
	{
	"epoch": 0.013725,
	"grad_norm": 8.6875,
	"grad_norm_var": 34598.19524739583,
	"learning_rate": 0.0001,
	"loss": 7.7748,
	"loss/crossentropy": 2.4471874237060547,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.006248220801353455,
	"loss/reg": 5.234949588775635,
	"loss/twn": 0.0,
	"step": 549
	},
	{
	"epoch": 0.01375,
	"grad_norm": 20.125,
	"grad_norm_var": 34528.96868489583,
	"learning_rate": 0.0001,
	"loss": 8.0594,
	"loss/crossentropy": 2.625808000564575,
	"loss/hidden": 0.1826171875,
	"loss/logits": 0.015631355345249176,
	"loss/reg": 5.235373020172119,
	"loss/twn": 0.0,
	"step": 550
	},
	{
	"epoch": 0.013775,
	"grad_norm": 13.875,
	"grad_norm_var": 28880.479427083334,
	"learning_rate": 0.0001,
	"loss": 5.896,
	"loss/crossentropy": 0.3797203600406647,
	"loss/hidden": 0.27734375,
	"loss/logits": 0.003970766440033913,
	"loss/reg": 5.234944820404053,
	"loss/twn": 0.0,
	"step": 551
	},
	{
	"epoch": 0.0138,
	"grad_norm": 37.0,
	"grad_norm_var": 28726.655843098957,
	"learning_rate": 0.0001,
	"loss": 8.1785,
	"loss/crossentropy": 2.7710931301116943,
	"loss/hidden": 0.1650390625,
	"loss/logits": 0.007251654751598835,
	"loss/reg": 5.235079765319824,
	"loss/twn": 0.0,
	"step": 552
	},
	{
	"epoch": 0.013825,
	"grad_norm": 10.4375,
	"grad_norm_var": 28718.351936848958,
	"learning_rate": 0.0001,
	"loss": 7.4216,
	"loss/crossentropy": 2.1164746284484863,
	"loss/hidden": 0.06689453125,
	"loss/logits": 0.003332372521981597,
	"loss/reg": 5.234862327575684,
	"loss/twn": 0.0,
	"step": 553
	},
	{
	"epoch": 0.01385,
	"grad_norm": 8.625,
	"grad_norm_var": 28771.012093098958,
	"learning_rate": 0.0001,
	"loss": 6.9919,
	"loss/crossentropy": 1.6055660247802734,
	"loss/hidden": 0.140625,
	"loss/logits": 0.010463319718837738,
	"loss/reg": 5.235208034515381,
	"loss/twn": 0.0,
	"step": 554
	},
	{
	"epoch": 0.013875,
	"grad_norm": 19.375,
	"grad_norm_var": 28765.65818684896,
	"learning_rate": 0.0001,
	"loss": 7.6993,
	"loss/crossentropy": 2.3250389099121094,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.006799938622862101,
	"loss/reg": 5.234645843505859,
	"loss/twn": 0.0,
	"step": 555
	},
	{
	"epoch": 0.0139,
	"grad_norm": 28.0,
	"grad_norm_var": 28848.887353515624,
	"learning_rate": 0.0001,
	"loss": 6.6932,
	"loss/crossentropy": 1.2838351726531982,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.00634372141212225,
	"loss/reg": 5.235021591186523,
	"loss/twn": 0.0,
	"step": 556
	},
	{
	"epoch": 0.013925,
	"grad_norm": 209.0,
	"grad_norm_var": 2527.298291015625,
	"learning_rate": 0.0001,
	"loss": 8.2303,
	"loss/crossentropy": 2.8924214839935303,
	"loss/hidden": 0.095703125,
	"loss/logits": 0.007457260973751545,
	"loss/reg": 5.234717845916748,
	"loss/twn": 0.0,
	"step": 557
	},
	{
	"epoch": 0.01395,
	"grad_norm": 14.25,
	"grad_norm_var": 2520.284358723958,
	"learning_rate": 0.0001,
	"loss": 7.1526,
	"loss/crossentropy": 1.7737421989440918,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.009325024671852589,
	"loss/reg": 5.2347235679626465,
	"loss/twn": 0.0,
	"step": 558
	},
	{
	"epoch": 0.013975,
	"grad_norm": 31.75,
	"grad_norm_var": 2493.68125,
	"learning_rate": 0.0001,
	"loss": 7.8427,
	"loss/crossentropy": 2.5061957836151123,
	"loss/hidden": 0.09326171875,
	"loss/logits": 0.008374359458684921,
	"loss/reg": 5.234871864318848,
	"loss/twn": 0.0,
	"step": 559
	},
	{
	"epoch": 0.014,
	"grad_norm": 9.5625,
	"grad_norm_var": 2378.353369140625,
	"learning_rate": 0.0001,
	"loss": 8.2168,
	"loss/crossentropy": 2.899165391921997,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.0035689827054739,
	"loss/reg": 5.234927654266357,
	"loss/twn": 0.0,
	"step": 560
	},
	{
	"epoch": 0.014025,
	"grad_norm": 53.0,
	"grad_norm_var": 2383.8656087239583,
	"learning_rate": 0.0001,
	"loss": 5.8024,
	"loss/crossentropy": 0.35774412751197815,
	"loss/hidden": 0.2021484375,
	"loss/logits": 0.00793472956866026,
	"loss/reg": 5.234549045562744,
	"loss/twn": 0.0,
	"step": 561
	},
	{
	"epoch": 0.01405,
	"grad_norm": 64.5,
	"grad_norm_var": 2415.985872395833,
	"learning_rate": 0.0001,
	"loss": 7.1944,
	"loss/crossentropy": 1.7934857606887817,
	"loss/hidden": 0.15625,
	"loss/logits": 0.01002482883632183,
	"loss/reg": 5.234671115875244,
	"loss/twn": 0.0,
	"step": 562
	},
	{
	"epoch": 0.014075,
	"grad_norm": 7.78125,
	"grad_norm_var": 2448.6008422851564,
	"learning_rate": 0.0001,
	"loss": 7.6461,
	"loss/crossentropy": 2.308584451675415,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.006569989956915379,
	"loss/reg": 5.23472261428833,
	"loss/twn": 0.0,
	"step": 563
	},
	{
	"epoch": 0.0141,
	"grad_norm": 55.25,
	"grad_norm_var": 2440.2951782226564,
	"learning_rate": 0.0001,
	"loss": 7.8559,
	"loss/crossentropy": 2.439448118209839,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.01364111714065075,
	"loss/reg": 5.234842300415039,
	"loss/twn": 0.0,
	"step": 564
	},
	{
	"epoch": 0.014125,
	"grad_norm": 16.25,
	"grad_norm_var": 2415.370438639323,
	"learning_rate": 0.0001,
	"loss": 8.3004,
	"loss/crossentropy": 2.8731632232666016,
	"loss/hidden": 0.1787109375,
	"loss/logits": 0.014065857976675034,
	"loss/reg": 5.23447847366333,
	"loss/twn": 0.0,
	"step": 565
	},
	{
	"epoch": 0.01415,
	"grad_norm": 11.8125,
	"grad_norm_var": 2438.8619099934895,
	"learning_rate": 0.0001,
	"loss": 7.1178,
	"loss/crossentropy": 1.780933141708374,
	"loss/hidden": 0.09375,
	"loss/logits": 0.008497532457113266,
	"loss/reg": 5.234607696533203,
	"loss/twn": 0.0,
	"step": 566
	},
	{
	"epoch": 0.014175,
	"grad_norm": 14.375,
	"grad_norm_var": 2437.342248535156,
	"learning_rate": 0.0001,
	"loss": 8.2505,
	"loss/crossentropy": 2.875947952270508,
	"loss/hidden": 0.125,
	"loss/logits": 0.0144406259059906,
	"loss/reg": 5.235077857971191,
	"loss/twn": 0.0,
	"step": 567
	},
	{
	"epoch": 0.0142,
	"grad_norm": 22.75,
	"grad_norm_var": 2449.9111938476562,
	"learning_rate": 0.0001,
	"loss": 7.0607,
	"loss/crossentropy": 1.6746110916137695,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.0051438165828585625,
	"loss/reg": 5.234502792358398,
	"loss/twn": 0.0,
	"step": 568
	},
	{
	"epoch": 0.014225,
	"grad_norm": 19.625,
	"grad_norm_var": 2423.817736816406,
	"learning_rate": 0.0001,
	"loss": 7.989,
	"loss/crossentropy": 2.5603058338165283,
	"loss/hidden": 0.1826171875,
	"loss/logits": 0.011639740318059921,
	"loss/reg": 5.234450340270996,
	"loss/twn": 0.0,
	"step": 569
	},
	{
	"epoch": 0.01425,
	"grad_norm": 12.5625,
	"grad_norm_var": 2410.089807128906,
	"learning_rate": 0.0001,
	"loss": 6.1451,
	"loss/crossentropy": 0.8017870187759399,
	"loss/hidden": 0.10498046875,
	"loss/logits": 0.004113970324397087,
	"loss/reg": 5.2342610359191895,
	"loss/twn": 0.0,
	"step": 570
	},
	{
	"epoch": 0.014275,
	"grad_norm": 7.96875,
	"grad_norm_var": 2444.820947265625,
	"learning_rate": 0.0001,
	"loss": 6.3145,
	"loss/crossentropy": 0.9622921943664551,
	"loss/hidden": 0.10791015625,
	"loss/logits": 0.00957135483622551,
	"loss/reg": 5.234708786010742,
	"loss/twn": 0.0,
	"step": 571
	},
	{
	"epoch": 0.0143,
	"grad_norm": 9.5,
	"grad_norm_var": 2486.3206868489583,
	"learning_rate": 0.0001,
	"loss": 7.6128,
	"loss/crossentropy": 2.2709686756134033,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.008640400134027004,
	"loss/reg": 5.2345733642578125,
	"loss/twn": 0.0,
	"step": 572
	},
	{
	"epoch": 0.014325,
	"grad_norm": 7.6875,
	"grad_norm_var": 348.6860026041667,
	"learning_rate": 0.0001,
	"loss": 7.5522,
	"loss/crossentropy": 2.1828360557556152,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.008249370381236076,
	"loss/reg": 5.234208583831787,
	"loss/twn": 0.0,
	"step": 573
	},
	{
	"epoch": 0.01435,
	"grad_norm": 12.4375,
	"grad_norm_var": 350.864306640625,
	"learning_rate": 0.0001,
	"loss": 8.2355,
	"loss/crossentropy": 2.8409531116485596,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.01071943435817957,
	"loss/reg": 5.234445095062256,
	"loss/twn": 0.0,
	"step": 574
	},
	{
	"epoch": 0.014375,
	"grad_norm": 9.8125,
	"grad_norm_var": 353.3037109375,
	"learning_rate": 0.0001,
	"loss": 6.8632,
	"loss/crossentropy": 1.4696354866027832,
	"loss/hidden": 0.1513671875,
	"loss/logits": 0.007870590314269066,
	"loss/reg": 5.234313011169434,
	"loss/twn": 0.0,
	"step": 575
	},
	{
	"epoch": 0.0144,
	"grad_norm": 54.5,
	"grad_norm_var": 411.406494140625,
	"learning_rate": 0.0001,
	"loss": 7.1332,
	"loss/crossentropy": 1.8072994947433472,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.004960792139172554,
	"loss/reg": 5.234533309936523,
	"loss/twn": 0.0,
	"step": 576
	},
	{
	"epoch": 0.014425,
	"grad_norm": 14.9375,
	"grad_norm_var": 353.450390625,
	"learning_rate": 0.0001,
	"loss": 8.0425,
	"loss/crossentropy": 2.6438798904418945,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.014983810484409332,
	"loss/reg": 5.234223365783691,
	"loss/twn": 0.0,
	"step": 577
	},
	{
	"epoch": 0.01445,
	"grad_norm": 8.6875,
	"grad_norm_var": 227.10193684895833,
	"learning_rate": 0.0001,
	"loss": 6.7681,
	"loss/crossentropy": 1.3993828296661377,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.005370709113776684,
	"loss/reg": 5.234410285949707,
	"loss/twn": 0.0,
	"step": 578
	},
	{
	"epoch": 0.014475,
	"grad_norm": 30.875,
	"grad_norm_var": 229.36620686848957,
	"learning_rate": 0.0001,
	"loss": 8.3016,
	"loss/crossentropy": 2.88641095161438,
	"loss/hidden": 0.166015625,
	"loss/logits": 0.014844672754406929,
	"loss/reg": 5.234356880187988,
	"loss/twn": 0.0,
	"step": 579
	},
	{
	"epoch": 0.0145,
	"grad_norm": 10.625,
	"grad_norm_var": 140.0116170247396,
	"learning_rate": 0.0001,
	"loss": 6.7513,
	"loss/crossentropy": 1.4178798198699951,
	"loss/hidden": 0.09375,
	"loss/logits": 0.005413350649178028,
	"loss/reg": 5.234261989593506,
	"loss/twn": 0.0,
	"step": 580
	},
	{
	"epoch": 0.014525,
	"grad_norm": 17.875,
	"grad_norm_var": 140.1169881184896,
	"learning_rate": 0.0001,
	"loss": 7.069,
	"loss/crossentropy": 1.6242541074752808,
	"loss/hidden": 0.19921875,
	"loss/logits": 0.011282745748758316,
	"loss/reg": 5.234253883361816,
	"loss/twn": 0.0,
	"step": 581
	},
	{
	"epoch": 0.01455,
	"grad_norm": 13.5,
	"grad_norm_var": 139.2117146809896,
	"learning_rate": 0.0001,
	"loss": 6.743,
	"loss/crossentropy": 1.388974666595459,
	"loss/hidden": 0.1103515625,
	"loss/logits": 0.009235072880983353,
	"loss/reg": 5.234424591064453,
	"loss/twn": 0.0,
	"step": 582
	},
	{
	"epoch": 0.014575,
	"grad_norm": 13.125,
	"grad_norm_var": 139.70227457682293,
	"learning_rate": 0.0001,
	"loss": 7.0183,
	"loss/crossentropy": 1.626574993133545,
	"loss/hidden": 0.15234375,
	"loss/logits": 0.005102044437080622,
	"loss/reg": 5.234281539916992,
	"loss/twn": 0.0,
	"step": 583
	},
	{
	"epoch": 0.0146,
	"grad_norm": 11.4375,
	"grad_norm_var": 138.50621337890624,
	"learning_rate": 0.0001,
	"loss": 8.1816,
	"loss/crossentropy": 2.712043285369873,
	"loss/hidden": 0.21484375,
	"loss/logits": 0.020563386380672455,
	"loss/reg": 5.234140396118164,
	"loss/twn": 0.0,
	"step": 584
	},
	{
	"epoch": 0.014625,
	"grad_norm": 135.0,
	"grad_norm_var": 1027.0439412434896,
	"learning_rate": 0.0001,
	"loss": 7.6221,
	"loss/crossentropy": 2.309222936630249,
	"loss/hidden": 0.07177734375,
	"loss/logits": 0.00689616659656167,
	"loss/reg": 5.234216213226318,
	"loss/twn": 0.0,
	"step": 585
	},
	{
	"epoch": 0.01465,
	"grad_norm": 12.3125,
	"grad_norm_var": 1027.4010375976563,
	"learning_rate": 0.0001,
	"loss": 8.0345,
	"loss/crossentropy": 2.648197650909424,
	"loss/hidden": 0.14453125,
	"loss/logits": 0.0074767498299479485,
	"loss/reg": 5.2342705726623535,
	"loss/twn": 0.0,
	"step": 586
	},
	{
	"epoch": 0.014675,
	"grad_norm": 11.3125,
	"grad_norm_var": 1021.3348307291667,
	"learning_rate": 0.0001,
	"loss": 6.9087,
	"loss/crossentropy": 1.557716965675354,
	"loss/hidden": 0.1103515625,
	"loss/logits": 0.0062755015678703785,
	"loss/reg": 5.2343974113464355,
	"loss/twn": 0.0,
	"step": 587
	},
	{
	"epoch": 0.0147,
	"grad_norm": 14.0,
	"grad_norm_var": 1014.2895182291667,
	"learning_rate": 0.0001,
	"loss": 7.9829,
	"loss/crossentropy": 2.599196195602417,
	"loss/hidden": 0.1416015625,
	"loss/logits": 0.008030779659748077,
	"loss/reg": 5.23403787612915,
	"loss/twn": 0.0,
	"step": 588
	},
	{
	"epoch": 0.014725,
	"grad_norm": 10.75,
	"grad_norm_var": 1008.364697265625,
	"learning_rate": 0.0001,
	"loss": 6.2994,
	"loss/crossentropy": 0.9181722402572632,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.0018882363801822066,
	"loss/reg": 5.2338151931762695,
	"loss/twn": 0.0,
	"step": 589
	},
	{
	"epoch": 0.01475,
	"grad_norm": 10.75,
	"grad_norm_var": 1011.1046875,
	"learning_rate": 0.0001,
	"loss": 7.8917,
	"loss/crossentropy": 2.6068289279937744,
	"loss/hidden": 0.04736328125,
	"loss/logits": 0.003562201978638768,
	"loss/reg": 5.233980178833008,
	"loss/twn": 0.0,
	"step": 590
	},
	{
	"epoch": 0.014775,
	"grad_norm": 10.4375,
	"grad_norm_var": 1009.9702473958333,
	"learning_rate": 0.0001,
	"loss": 6.9904,
	"loss/crossentropy": 1.5700491666793823,
	"loss/hidden": 0.1787109375,
	"loss/logits": 0.0076020704582333565,
	"loss/reg": 5.234048366546631,
	"loss/twn": 0.0,
	"step": 591
	},
	{
	"epoch": 0.0148,
	"grad_norm": 13.75,
	"grad_norm_var": 946.7228515625,
	"learning_rate": 0.0001,
	"loss": 8.3853,
	"loss/crossentropy": 2.9748241901397705,
	"loss/hidden": 0.162109375,
	"loss/logits": 0.014261037111282349,
	"loss/reg": 5.234062194824219,
	"loss/twn": 0.0,
	"step": 592
	},
	{
	"epoch": 0.014825,
	"grad_norm": 20.625,
	"grad_norm_var": 943.9872233072916,
	"learning_rate": 0.0001,
	"loss": 7.1549,
	"loss/crossentropy": 1.6911969184875488,
	"loss/hidden": 0.2158203125,
	"loss/logits": 0.013989459723234177,
	"loss/reg": 5.233931541442871,
	"loss/twn": 0.0,
	"step": 593
	},
	{
	"epoch": 0.01485,
	"grad_norm": 12.1875,
	"grad_norm_var": 938.7426920572917,
	"learning_rate": 0.0001,
	"loss": 6.7309,
	"loss/crossentropy": 1.2908926010131836,
	"loss/hidden": 0.1943359375,
	"loss/logits": 0.011645066551864147,
	"loss/reg": 5.234016418457031,
	"loss/twn": 0.0,
	"step": 594
	},
	{
	"epoch": 0.014875,
	"grad_norm": 11.1875,
	"grad_norm_var": 939.1067057291667,
	"learning_rate": 0.0001,
	"loss": 8.2017,
	"loss/crossentropy": 2.890516757965088,
	"loss/hidden": 0.07177734375,
	"loss/logits": 0.005793450400233269,
	"loss/reg": 5.233628273010254,
	"loss/twn": 0.0,
	"step": 595
	},
	{
	"epoch": 0.0149,
	"grad_norm": 9.75,
	"grad_norm_var": 940.3130208333333,
	"learning_rate": 0.0001,
	"loss": 6.5188,
	"loss/crossentropy": 1.189386010169983,
	"loss/hidden": 0.09130859375,
	"loss/logits": 0.004200034309178591,
	"loss/reg": 5.233954906463623,
	"loss/twn": 0.0,
	"step": 596
	},
	{
	"epoch": 0.014925,
	"grad_norm": 7.09375,
	"grad_norm_var": 951.3511678059896,
	"learning_rate": 0.0001,
	"loss": 6.7014,
	"loss/crossentropy": 1.3759723901748657,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.0052226390689611435,
	"loss/reg": 5.233729362487793,
	"loss/twn": 0.0,
	"step": 597
	},
	{
	"epoch": 0.01495,
	"grad_norm": 8.875,
	"grad_norm_var": 956.5892211914063,
	"learning_rate": 0.0001,
	"loss": 7.4921,
	"loss/crossentropy": 2.140756368637085,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.007792431861162186,
	"loss/reg": 5.233695983886719,
	"loss/twn": 0.0,
	"step": 598
	},
	{
	"epoch": 0.014975,
	"grad_norm": 12.5,
	"grad_norm_var": 957.1479777018229,
	"learning_rate": 0.0001,
	"loss": 8.0241,
	"loss/crossentropy": 2.6345574855804443,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.012438047677278519,
	"loss/reg": 5.233548164367676,
	"loss/twn": 0.0,
	"step": 599
	},
	{
	"epoch": 0.015,
	"grad_norm": 10.0,
	"grad_norm_var": 958.8220662434895,
	"learning_rate": 0.0001,
	"loss": 6.329,
	"loss/crossentropy": 0.9624335765838623,
	"loss/hidden": 0.125,
	"loss/logits": 0.007683398202061653,
	"loss/reg": 5.233921051025391,
	"loss/twn": 0.0,
	"step": 600
	},
	{
	"epoch": 0.015025,
	"grad_norm": 78.5,
	"grad_norm_var": 287.54615478515626,
	"learning_rate": 0.0001,
	"loss": 8.289,
	"loss/crossentropy": 2.931908369064331,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.010676998645067215,
	"loss/reg": 5.233586311340332,
	"loss/twn": 0.0,
	"step": 601
	},
	{
	"epoch": 0.01505,
	"grad_norm": 11.125,
	"grad_norm_var": 288.1986612955729,
	"learning_rate": 0.0001,
	"loss": 7.1402,
	"loss/crossentropy": 1.7836761474609375,
	"loss/hidden": 0.115234375,
	"loss/logits": 0.007275612559169531,
	"loss/reg": 5.234038352966309,
	"loss/twn": 0.0,
	"step": 602
	},
	{
	"epoch": 0.015075,
	"grad_norm": 214.0,
	"grad_norm_var": 2734.4889933268228,
	"learning_rate": 0.0001,
	"loss": 8.0975,
	"loss/crossentropy": 2.6364102363586426,
	"loss/hidden": 0.220703125,
	"loss/logits": 0.006685142405331135,
	"loss/reg": 5.233693599700928,
	"loss/twn": 0.0,
	"step": 603
	},
	{
	"epoch": 0.0151,
	"grad_norm": 14.125,
	"grad_norm_var": 2734.2487915039064,
	"learning_rate": 0.0001,
	"loss": 7.7466,
	"loss/crossentropy": 2.511186122894287,
	"loss/hidden": 6.556510925292969e-06,
	"loss/logits": 0.0016271582571789622,
	"loss/reg": 5.233736515045166,
	"loss/twn": 0.0,
	"step": 604
	},
	{
	"epoch": 0.015125,
	"grad_norm": 11.3125,
	"grad_norm_var": 2732.938928222656,
	"learning_rate": 0.0001,
	"loss": 7.2908,
	"loss/crossentropy": 1.9334180355072021,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.011062689125537872,
	"loss/reg": 5.233515739440918,
	"loss/twn": 0.0,
	"step": 605
	},
	{
	"epoch": 0.01515,
	"grad_norm": 38.25,
	"grad_norm_var": 2715.0710896809896,
	"learning_rate": 0.0001,
	"loss": 7.1654,
	"loss/crossentropy": 1.7573686838150024,
	"loss/hidden": 0.1630859375,
	"loss/logits": 0.01111831609159708,
	"loss/reg": 5.233856201171875,
	"loss/twn": 0.0,
	"step": 606
	},
	{
	"epoch": 0.015175,
	"grad_norm": 10.9375,
	"grad_norm_var": 2713.767053222656,
	"learning_rate": 0.0001,
	"loss": 8.0656,
	"loss/crossentropy": 2.725510835647583,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.010500291362404823,
	"loss/reg": 5.233447074890137,
	"loss/twn": 0.0,
	"step": 607
	},
	{
	"epoch": 0.0152,
	"grad_norm": 15.4375,
	"grad_norm_var": 2710.229455566406,
	"learning_rate": 0.0001,
	"loss": 8.219,
	"loss/crossentropy": 2.8715081214904785,
	"loss/hidden": 0.103515625,
	"loss/logits": 0.010522611439228058,
	"loss/reg": 5.233500003814697,
	"loss/twn": 0.0,
	"step": 608
	},
	{
	"epoch": 0.015225,
	"grad_norm": 12.75,
	"grad_norm_var": 2724.336779785156,
	"learning_rate": 0.0001,
	"loss": 7.4159,
	"loss/crossentropy": 2.050481081008911,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.012026194483041763,
	"loss/reg": 5.233264446258545,
	"loss/twn": 0.0,
	"step": 609
	},
	{
	"epoch": 0.01525,
	"grad_norm": 102.5,
	"grad_norm_var": 3021.098010253906,
	"learning_rate": 0.0001,
	"loss": 6.1157,
	"loss/crossentropy": 0.7093434929847717,
	"loss/hidden": 0.162109375,
	"loss/logits": 0.010594572871923447,
	"loss/reg": 5.233696460723877,
	"loss/twn": 0.0,
	"step": 610
	},
	{
	"epoch": 0.015275,
	"grad_norm": 11.0,
	"grad_norm_var": 3021.7085571289062,
	"learning_rate": 0.0001,
	"loss": 7.9153,
	"loss/crossentropy": 2.5407986640930176,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.010352734476327896,
	"loss/reg": 5.233257293701172,
	"loss/twn": 0.0,
	"step": 611
	},
	{
	"epoch": 0.0153,
	"grad_norm": 9.3125,
	"grad_norm_var": 3023.223173014323,
	"learning_rate": 0.0001,
	"loss": 7.4287,
	"loss/crossentropy": 2.056551694869995,
	"loss/hidden": 0.1298828125,
	"loss/logits": 0.008765427395701408,
	"loss/reg": 5.233468055725098,
	"loss/twn": 0.0,
	"step": 612
	},
	{
	"epoch": 0.015325,
	"grad_norm": 39.25,
	"grad_norm_var": 2966.133268229167,
	"learning_rate": 0.0001,
	"loss": 7.0537,
	"loss/crossentropy": 1.7130509614944458,
	"loss/hidden": 0.10205078125,
	"loss/logits": 0.005178738851100206,
	"loss/reg": 5.233448028564453,
	"loss/twn": 0.0,
	"step": 613
	},
	{
	"epoch": 0.01535,
	"grad_norm": 15.6875,
	"grad_norm_var": 2943.0399576822915,
	"learning_rate": 0.0001,
	"loss": 7.4671,
	"loss/crossentropy": 2.072944402694702,
	"loss/hidden": 0.138671875,
	"loss/logits": 0.021782729774713516,
	"loss/reg": 5.233670234680176,
	"loss/twn": 0.0,
	"step": 614
	},
	{
	"epoch": 0.015375,
	"grad_norm": 40.5,
	"grad_norm_var": 2897.146207682292,
	"learning_rate": 0.0001,
	"loss": 7.2931,
	"loss/crossentropy": 1.9488314390182495,
	"loss/hidden": 0.10693359375,
	"loss/logits": 0.004016375169157982,
	"loss/reg": 5.233325481414795,
	"loss/twn": 0.0,
	"step": 615
	},
	{
	"epoch": 0.0154,
	"grad_norm": 17.875,
	"grad_norm_var": 2869.870817057292,
	"learning_rate": 0.0001,
	"loss": 7.5828,
	"loss/crossentropy": 2.250316858291626,
	"loss/hidden": 0.09375,
	"loss/logits": 0.005294739734381437,
	"loss/reg": 5.233473300933838,
	"loss/twn": 0.0,
	"step": 616
	},
	{
	"epoch": 0.015425,
	"grad_norm": 13.6875,
	"grad_norm_var": 2801.0919270833333,
	"learning_rate": 0.0001,
	"loss": 7.946,
	"loss/crossentropy": 2.605081796646118,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.01103608775883913,
	"loss/reg": 5.233642578125,
	"loss/twn": 0.0,
	"step": 617
	},
	{
	"epoch": 0.01545,
	"grad_norm": 10.8125,
	"grad_norm_var": 2802.1390462239583,
	"learning_rate": 0.0001,
	"loss": 7.9096,
	"loss/crossentropy": 2.6560287475585938,
	"loss/hidden": 0.016357421875,
	"loss/logits": 0.0036827209405601025,
	"loss/reg": 5.233491897583008,
	"loss/twn": 0.0,
	"step": 618
	},
	{
	"epoch": 0.015475,
	"grad_norm": 10.5625,
	"grad_norm_var": 563.0020833333333,
	"learning_rate": 0.0001,
	"loss": 7.9054,
	"loss/crossentropy": 2.542119026184082,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.007251254748553038,
	"loss/reg": 5.2334303855896,
	"loss/twn": 0.0,
	"step": 619
	},
	{
	"epoch": 0.0155,
	"grad_norm": 17.875,
	"grad_norm_var": 559.2559895833333,
	"learning_rate": 0.0001,
	"loss": 8.014,
	"loss/crossentropy": 2.6021788120269775,
	"loss/hidden": 0.1708984375,
	"loss/logits": 0.007565245497971773,
	"loss/reg": 5.23338508605957,
	"loss/twn": 0.0,
	"step": 620
	},
	{
	"epoch": 0.015525,
	"grad_norm": 21.625,
	"grad_norm_var": 548.9945149739583,
	"learning_rate": 0.0001,
	"loss": 8.1369,
	"loss/crossentropy": 2.7238121032714844,
	"loss/hidden": 0.1650390625,
	"loss/logits": 0.0146188298240304,
	"loss/reg": 5.233391284942627,
	"loss/twn": 0.0,
	"step": 621
	},
	{
	"epoch": 0.01555,
	"grad_norm": 26.875,
	"grad_norm_var": 535.8540201822917,
	"learning_rate": 0.0001,
	"loss": 6.8563,
	"loss/crossentropy": 1.4800411462783813,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.008334355428814888,
	"loss/reg": 5.233196258544922,
	"loss/twn": 0.0,
	"step": 622
	},
	{
	"epoch": 0.015575,
	"grad_norm": 53.0,
	"grad_norm_var": 575.73671875,
	"learning_rate": 0.0001,
	"loss": 8.042,
	"loss/crossentropy": 2.7313811779022217,
	"loss/hidden": 0.07275390625,
	"loss/logits": 0.004363874904811382,
	"loss/reg": 5.23349666595459,
	"loss/twn": 0.0,
	"step": 623
	},
	{
	"epoch": 0.0156,
	"grad_norm": 11.9375,
	"grad_norm_var": 581.51171875,
	"learning_rate": 0.0001,
	"loss": 7.9383,
	"loss/crossentropy": 2.561565637588501,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.014568326994776726,
	"loss/reg": 5.233224868774414,
	"loss/twn": 0.0,
	"step": 624
	},
	{
	"epoch": 0.015625,
	"grad_norm": 17.875,
	"grad_norm_var": 574.1311848958334,
	"learning_rate": 0.0001,
	"loss": 7.8326,
	"loss/crossentropy": 2.5030391216278076,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.009584227576851845,
	"loss/reg": 5.233513355255127,
	"loss/twn": 0.0,
	"step": 625
	},
	{
	"epoch": 0.01565,
	"grad_norm": 14.8125,
	"grad_norm_var": 163.484228515625,
	"learning_rate": 0.0001,
	"loss": 6.0231,
	"loss/crossentropy": 0.6415687203407288,
	"loss/hidden": 0.1376953125,
	"loss/logits": 0.010496280156075954,
	"loss/reg": 5.233306884765625,
	"loss/twn": 0.0,
	"step": 626
	},
	{
	"epoch": 0.015675,
	"grad_norm": 20.125,
	"grad_norm_var": 156.77355143229167,
	"learning_rate": 0.0001,
	"loss": 6.8528,
	"loss/crossentropy": 1.486595630645752,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.005804477259516716,
	"loss/reg": 5.2334794998168945,
	"loss/twn": 0.0,
	"step": 627
	},
	{
	"epoch": 0.0157,
	"grad_norm": 18.0,
	"grad_norm_var": 147.53177083333333,
	"learning_rate": 0.0001,
	"loss": 6.2299,
	"loss/crossentropy": 0.6993483304977417,
	"loss/hidden": 0.287109375,
	"loss/logits": 0.010279776528477669,
	"loss/reg": 5.233189582824707,
	"loss/twn": 0.0,
	"step": 628
	},
	{
	"epoch": 0.015725,
	"grad_norm": 9.0625,
	"grad_norm_var": 134.67849934895833,
	"learning_rate": 0.0001,
	"loss": 7.3681,
	"loss/crossentropy": 2.038987874984741,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.009393742308020592,
	"loss/reg": 5.2332634925842285,
	"loss/twn": 0.0,
	"step": 629
	},
	{
	"epoch": 0.01575,
	"grad_norm": 13.625,
	"grad_norm_var": 136.13567708333332,
	"learning_rate": 0.0001,
	"loss": 7.7675,
	"loss/crossentropy": 2.3605449199676514,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.006129886955022812,
	"loss/reg": 5.232873916625977,
	"loss/twn": 0.0,
	"step": 630
	},
	{
	"epoch": 0.015775,
	"grad_norm": 14.6875,
	"grad_norm_var": 106.847900390625,
	"learning_rate": 0.0001,
	"loss": 8.0393,
	"loss/crossentropy": 2.6303060054779053,
	"loss/hidden": 0.1689453125,
	"loss/logits": 0.007038387469947338,
	"loss/reg": 5.23299503326416,
	"loss/twn": 0.0,
	"step": 631
	},
	{
	"epoch": 0.0158,
	"grad_norm": 72.0,
	"grad_norm_var": 287.03904622395834,
	"learning_rate": 0.0001,
	"loss": 8.0743,
	"loss/crossentropy": 2.7000534534454346,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.010081219486892223,
	"loss/reg": 5.233316421508789,
	"loss/twn": 0.0,
	"step": 632
	},
	{
	"epoch": 0.015825,
	"grad_norm": 39.0,
	"grad_norm_var": 300.17649739583334,
	"learning_rate": 0.0001,
	"loss": 7.4968,
	"loss/crossentropy": 2.066685676574707,
	"loss/hidden": 0.1875,
	"loss/logits": 0.009645121172070503,
	"loss/reg": 5.233018398284912,
	"loss/twn": 0.0,
	"step": 633
	},
	{
	"epoch": 0.01585,
	"grad_norm": 11.125,
	"grad_norm_var": 299.664697265625,
	"learning_rate": 0.0001,
	"loss": 7.4915,
	"loss/crossentropy": 2.1979663372039795,
	"loss/hidden": 0.0546875,
	"loss/logits": 0.0055001177825033665,
	"loss/reg": 5.23332405090332,
	"loss/twn": 0.0,
	"step": 634
	},
	{
	"epoch": 0.015875,
	"grad_norm": 13.5625,
	"grad_norm_var": 295.147509765625,
	"learning_rate": 0.0001,
	"loss": 8.1414,
	"loss/crossentropy": 2.8441083431243896,
	"loss/hidden": 0.05712890625,
	"loss/logits": 0.007112159393727779,
	"loss/reg": 5.233099460601807,
	"loss/twn": 0.0,
	"step": 635
	},
	{
	"epoch": 0.0159,
	"grad_norm": 14.4375,
	"grad_norm_var": 298.4408854166667,
	"learning_rate": 0.0001,
	"loss": 7.8434,
	"loss/crossentropy": 2.419523239135742,
	"loss/hidden": 0.1787109375,
	"loss/logits": 0.011547038331627846,
	"loss/reg": 5.233601093292236,
	"loss/twn": 0.0,
	"step": 636
	},
	{
	"epoch": 0.015925,
	"grad_norm": 135.0,
	"grad_norm_var": 1077.4806640625,
	"learning_rate": 0.0001,
	"loss": 7.9874,
	"loss/crossentropy": 2.4825010299682617,
	"loss/hidden": 0.25390625,
	"loss/logits": 0.017681429162621498,
	"loss/reg": 5.233287811279297,
	"loss/twn": 0.0,
	"step": 637
	},
	{
	"epoch": 0.01595,
	"grad_norm": 79.5,
	"grad_norm_var": 1226.39296875,
	"learning_rate": 0.0001,
	"loss": 5.6235,
	"loss/crossentropy": 0.20704708993434906,
	"loss/hidden": 0.1806640625,
	"loss/logits": 0.0022514096926897764,
	"loss/reg": 5.233528137207031,
	"loss/twn": 0.0,
	"step": 638
	},
	{
	"epoch": 0.015975,
	"grad_norm": 12.3125,
	"grad_norm_var": 1224.665869140625,
	"learning_rate": 0.0001,
	"loss": 7.9267,
	"loss/crossentropy": 2.5261454582214355,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.010081654414534569,
	"loss/reg": 5.233248233795166,
	"loss/twn": 0.0,
	"step": 639
	},
	{
	"epoch": 0.016,
	"grad_norm": 384.0,
	"grad_norm_var": 8927.619205729166,
	"learning_rate": 0.0001,
	"loss": 7.0656,
	"loss/crossentropy": 1.7351843118667603,
	"loss/hidden": 0.0927734375,
	"loss/logits": 0.004287827759981155,
	"loss/reg": 5.233373641967773,
	"loss/twn": 0.0,
	"step": 640
	},
	{
	"epoch": 0.016025,
	"grad_norm": 18.125,
	"grad_norm_var": 8926.408268229166,
	"learning_rate": 0.0001,
	"loss": 7.0317,
	"loss/crossentropy": 1.592779278755188,
	"loss/hidden": 0.193359375,
	"loss/logits": 0.012589013203978539,
	"loss/reg": 5.232937335968018,
	"loss/twn": 0.0,
	"step": 641
	},
	{
	"epoch": 0.01605,
	"grad_norm": 9.125,
	"grad_norm_var": 8958.401936848959,
	"learning_rate": 0.0001,
	"loss": 8.2427,
	"loss/crossentropy": 2.891831874847412,
	"loss/hidden": 0.1123046875,
	"loss/logits": 0.005527087952941656,
	"loss/reg": 5.233004093170166,
	"loss/twn": 0.0,
	"step": 642
	},
	{
	"epoch": 0.016075,
	"grad_norm": 93.0,
	"grad_norm_var": 8961.362483723959,
	"learning_rate": 0.0001,
	"loss": 6.9493,
	"loss/crossentropy": 1.5797322988510132,
	"loss/hidden": 0.1259765625,
	"loss/logits": 0.010628938674926758,
	"loss/reg": 5.232941627502441,
	"loss/twn": 0.0,
	"step": 643
	},
	{
	"epoch": 0.0161,
	"grad_norm": 9.875,
	"grad_norm_var": 9009.401546223959,
	"learning_rate": 0.0001,
	"loss": 8.1281,
	"loss/crossentropy": 2.7545292377471924,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.007755103521049023,
	"loss/reg": 5.232993125915527,
	"loss/twn": 0.0,
	"step": 644
	},
	{
	"epoch": 0.016125,
	"grad_norm": 28.75,
	"grad_norm_var": 8905.093684895834,
	"learning_rate": 0.0001,
	"loss": 7.9328,
	"loss/crossentropy": 2.643615245819092,
	"loss/hidden": 0.054443359375,
	"loss/logits": 0.0016623031115159392,
	"loss/reg": 5.2330780029296875,
	"loss/twn": 0.0,
	"step": 645
	},
	{
	"epoch": 0.01615,
	"grad_norm": 20.625,
	"grad_norm_var": 8865.565559895833,
	"learning_rate": 0.0001,
	"loss": 6.9237,
	"loss/crossentropy": 1.4672698974609375,
	"loss/hidden": 0.2138671875,
	"loss/logits": 0.009410521015524864,
	"loss/reg": 5.233164310455322,
	"loss/twn": 0.0,
	"step": 646
	},
	{
	"epoch": 0.016175,
	"grad_norm": 15.25,
	"grad_norm_var": 8862.209749348958,
	"learning_rate": 0.0001,
	"loss": 7.9973,
	"loss/crossentropy": 2.6482272148132324,
	"loss/hidden": 0.10791015625,
	"loss/logits": 0.00825223047286272,
	"loss/reg": 5.232880592346191,
	"loss/twn": 0.0,
	"step": 647
	},
	{
	"epoch": 0.0162,
	"grad_norm": 13.6875,
	"grad_norm_var": 8979.335872395834,
	"learning_rate": 0.0001,
	"loss": 6.1538,
	"loss/crossentropy": 0.7194666862487793,
	"loss/hidden": 0.1884765625,
	"loss/logits": 0.012791863642632961,
	"loss/reg": 5.233090877532959,
	"loss/twn": 0.0,
	"step": 648
	},
	{
	"epoch": 0.016225,
	"grad_norm": 24.875,
	"grad_norm_var": 9023.984114583332,
	"learning_rate": 0.0001,
	"loss": 7.1305,
	"loss/crossentropy": 1.7185572385787964,
	"loss/hidden": 0.1669921875,
	"loss/logits": 0.011910820379853249,
	"loss/reg": 5.233007431030273,
	"loss/twn": 0.0,
	"step": 649
	},
	{
	"epoch": 0.01625,
	"grad_norm": 12.4375,
	"grad_norm_var": 9016.378108723959,
	"learning_rate": 0.0001,
	"loss": 7.4389,
	"loss/crossentropy": 2.082362174987793,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.010908122174441814,
	"loss/reg": 5.232817649841309,
	"loss/twn": 0.0,
	"step": 650
	},
	{
	"epoch": 0.016275,
	"grad_norm": 8.9375,
	"grad_norm_var": 9043.443994140625,
	"learning_rate": 0.0001,
	"loss": 7.4177,
	"loss/crossentropy": 2.062870502471924,
	"loss/hidden": 0.11328125,
	"loss/logits": 0.008752668276429176,
	"loss/reg": 5.232777118682861,
	"loss/twn": 0.0,
	"step": 651
	},
	{
	"epoch": 0.0163,
	"grad_norm": 12.0625,
	"grad_norm_var": 9056.640087890624,
	"learning_rate": 0.0001,
	"loss": 7.9823,
	"loss/crossentropy": 2.6078176498413086,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.008596043102443218,
	"loss/reg": 5.23306941986084,
	"loss/twn": 0.0,
	"step": 652
	},
	{
	"epoch": 0.016325,
	"grad_norm": 122.5,
	"grad_norm_var": 8932.818473307292,
	"learning_rate": 0.0001,
	"loss": 7.9264,
	"loss/crossentropy": 2.5046682357788086,
	"loss/hidden": 0.1748046875,
	"loss/logits": 0.014288893900811672,
	"loss/reg": 5.232659339904785,
	"loss/twn": 0.0,
	"step": 653
	},
	{
	"epoch": 0.01635,
	"grad_norm": 21.5,
	"grad_norm_var": 8946.382014973959,
	"learning_rate": 0.0001,
	"loss": 7.2315,
	"loss/crossentropy": 1.8828779458999634,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.005740518681704998,
	"loss/reg": 5.23300838470459,
	"loss/twn": 0.0,
	"step": 654
	},
	{
	"epoch": 0.016375,
	"grad_norm": 352.0,
	"grad_norm_var": 14431.18515625,
	"learning_rate": 0.0001,
	"loss": 6.8525,
	"loss/crossentropy": 1.471374273300171,
	"loss/hidden": 0.138671875,
	"loss/logits": 0.009916655719280243,
	"loss/reg": 5.232522010803223,
	"loss/twn": 0.0,
	"step": 655
	},
	{
	"epoch": 0.0164,
	"grad_norm": 33.75,
	"grad_norm_var": 7512.653125,
	"learning_rate": 0.0001,
	"loss": 6.2595,
	"loss/crossentropy": 0.7713863253593445,
	"loss/hidden": 0.244140625,
	"loss/logits": 0.01109264511615038,
	"loss/reg": 5.232911109924316,
	"loss/twn": 0.0,
	"step": 656
	},
	{
	"epoch": 0.016425,
	"grad_norm": 15.0625,
	"grad_norm_var": 7526.165608723958,
	"learning_rate": 0.0001,
	"loss": 8.093,
	"loss/crossentropy": 2.709456205368042,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.01727338880300522,
	"loss/reg": 5.23248815536499,
	"loss/twn": 0.0,
	"step": 657
	},
	{
	"epoch": 0.01645,
	"grad_norm": 9.5625,
	"grad_norm_var": 7523.817122395833,
	"learning_rate": 0.0001,
	"loss": 6.334,
	"loss/crossentropy": 0.9124006032943726,
	"loss/hidden": 0.1806640625,
	"loss/logits": 0.007904157042503357,
	"loss/reg": 5.2329912185668945,
	"loss/twn": 0.0,
	"step": 658
	},
	{
	"epoch": 0.016475,
	"grad_norm": 9.625,
	"grad_norm_var": 7476.006770833334,
	"learning_rate": 0.0001,
	"loss": 7.0775,
	"loss/crossentropy": 1.669623613357544,
	"loss/hidden": 0.1640625,
	"loss/logits": 0.011253604665398598,
	"loss/reg": 5.232557773590088,
	"loss/twn": 0.0,
	"step": 659
	},
	{
	"epoch": 0.0165,
	"grad_norm": 9.8125,
	"grad_norm_var": 7476.294775390625,
	"learning_rate": 0.0001,
	"loss": 8.0574,
	"loss/crossentropy": 2.7882609367370605,
	"loss/hidden": 0.03515625,
	"loss/logits": 0.0012600821210071445,
	"loss/reg": 5.23272705078125,
	"loss/twn": 0.0,
	"step": 660
	},
	{
	"epoch": 0.016525,
	"grad_norm": 64.5,
	"grad_norm_var": 7481.564176432292,
	"learning_rate": 0.0001,
	"loss": 7.1712,
	"loss/crossentropy": 1.5283738374710083,
	"loss/hidden": 0.40234375,
	"loss/logits": 0.008047623559832573,
	"loss/reg": 5.2324652671813965,
	"loss/twn": 0.0,
	"step": 661
	},
	{
	"epoch": 0.01655,
	"grad_norm": 14.0625,
	"grad_norm_var": 7507.016080729167,
	"learning_rate": 0.0001,
	"loss": 6.9527,
	"loss/crossentropy": 1.5561813116073608,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.013308672234416008,
	"loss/reg": 5.232776641845703,
	"loss/twn": 0.0,
	"step": 662
	},
	{
	"epoch": 0.016575,
	"grad_norm": 8.5625,
	"grad_norm_var": 7537.432014973959,
	"learning_rate": 0.0001,
	"loss": 6.883,
	"loss/crossentropy": 1.4900498390197754,
	"loss/hidden": 0.15234375,
	"loss/logits": 0.008140160702168941,
	"loss/reg": 5.232505798339844,
	"loss/twn": 0.0,
	"step": 663
	},
	{
	"epoch": 0.0166,
	"grad_norm": 10.4375,
	"grad_norm_var": 7552.011311848958,
	"learning_rate": 0.0001,
	"loss": 7.9879,
	"loss/crossentropy": 2.649501085281372,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.006926264148205519,
	"loss/reg": 5.2328362464904785,
	"loss/twn": 0.0,
	"step": 664
	},
	{
	"epoch": 0.016625,
	"grad_norm": 20.875,
	"grad_norm_var": 7564.067561848959,
	"learning_rate": 0.0001,
	"loss": 7.9074,
	"loss/crossentropy": 2.5822925567626953,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.006065651774406433,
	"loss/reg": 5.232655048370361,
	"loss/twn": 0.0,
	"step": 665
	},
	{
	"epoch": 0.01665,
	"grad_norm": 10.125,
	"grad_norm_var": 7574.551497395833,
	"learning_rate": 0.0001,
	"loss": 8.0297,
	"loss/crossentropy": 2.7020585536956787,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.008298511616885662,
	"loss/reg": 5.232966899871826,
	"loss/twn": 0.0,
	"step": 666
	},
	{
	"epoch": 0.016675,
	"grad_norm": 11.3125,
	"grad_norm_var": 7563.417447916667,
	"learning_rate": 0.0001,
	"loss": 6.2821,
	"loss/crossentropy": 0.8871417045593262,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.005114687606692314,
	"loss/reg": 5.232606410980225,
	"loss/twn": 0.0,
	"step": 667
	},
	{
	"epoch": 0.0167,
	"grad_norm": 16.75,
	"grad_norm_var": 7543.980192057292,
	"learning_rate": 0.0001,
	"loss": 7.9399,
	"loss/crossentropy": 2.610417604446411,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.010183998383581638,
	"loss/reg": 5.2328290939331055,
	"loss/twn": 0.0,
	"step": 668
	},
	{
	"epoch": 0.016725,
	"grad_norm": 7.71875,
	"grad_norm_var": 7191.31181233724,
	"learning_rate": 0.0001,
	"loss": 7.23,
	"loss/crossentropy": 1.891376256942749,
	"loss/hidden": 0.09765625,
	"loss/logits": 0.008510958403348923,
	"loss/reg": 5.232450485229492,
	"loss/twn": 0.0,
	"step": 669
	},
	{
	"epoch": 0.01675,
	"grad_norm": 16.5,
	"grad_norm_var": 7204.193322753907,
	"learning_rate": 0.0001,
	"loss": 6.8222,
	"loss/crossentropy": 1.4736872911453247,
	"loss/hidden": 0.10546875,
	"loss/logits": 0.010109667666256428,
	"loss/reg": 5.232895374298096,
	"loss/twn": 0.0,
	"step": 670
	},
	{
	"epoch": 0.016775,
	"grad_norm": 17.0,
	"grad_norm_var": 200.33785400390624,
	"learning_rate": 0.0001,
	"loss": 8.133,
	"loss/crossentropy": 2.7790119647979736,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.008631115779280663,
	"loss/reg": 5.232613563537598,
	"loss/twn": 0.0,
	"step": 671
	},
	{
	"epoch": 0.0168,
	"grad_norm": 21.875,
	"grad_norm_var": 182.99231363932293,
	"learning_rate": 0.0001,
	"loss": 8.1379,
	"loss/crossentropy": 2.766389846801758,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.009614645503461361,
	"loss/reg": 5.232971668243408,
	"loss/twn": 0.0,
	"step": 672
	},
	{
	"epoch": 0.016825,
	"grad_norm": 10.1875,
	"grad_norm_var": 185.4031534830729,
	"learning_rate": 0.0001,
	"loss": 7.7498,
	"loss/crossentropy": 2.4996728897094727,
	"loss/hidden": 0.0140380859375,
	"loss/logits": 0.0034008692018687725,
	"loss/reg": 5.2326860427856445,
	"loss/twn": 0.0,
	"step": 673
	},
	{
	"epoch": 0.01685,
	"grad_norm": 11.6875,
	"grad_norm_var": 183.8099568684896,
	"learning_rate": 0.0001,
	"loss": 6.7223,
	"loss/crossentropy": 1.3949775695800781,
	"loss/hidden": 0.0927734375,
	"loss/logits": 0.0020429021678864956,
	"loss/reg": 5.23252010345459,
	"loss/twn": 0.0,
	"step": 674
	},
	{
	"epoch": 0.016875,
	"grad_norm": 11.0,
	"grad_norm_var": 182.70172119140625,
	"learning_rate": 0.0001,
	"loss": 7.9354,
	"loss/crossentropy": 2.6207685470581055,
	"loss/hidden": 0.07666015625,
	"loss/logits": 0.005197848193347454,
	"loss/reg": 5.232755184173584,
	"loss/twn": 0.0,
	"step": 675
	},
	{
	"epoch": 0.0169,
	"grad_norm": 20.5,
	"grad_norm_var": 180.45289306640626,
	"learning_rate": 0.0001,
	"loss": 8.3505,
	"loss/crossentropy": 2.9047460556030273,
	"loss/hidden": 0.193359375,
	"loss/logits": 0.019472159445285797,
	"loss/reg": 5.232929706573486,
	"loss/twn": 0.0,
	"step": 676
	},
	{
	"epoch": 0.016925,
	"grad_norm": 8.5,
	"grad_norm_var": 22.29664306640625,
	"learning_rate": 0.0001,
	"loss": 7.8368,
	"loss/crossentropy": 2.4469549655914307,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.008610617369413376,
	"loss/reg": 5.232751369476318,
	"loss/twn": 0.0,
	"step": 677
	},
	{
	"epoch": 0.01695,
	"grad_norm": 14.9375,
	"grad_norm_var": 22.402144368489584,
	"learning_rate": 0.0001,
	"loss": 7.847,
	"loss/crossentropy": 2.5082645416259766,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.007502686232328415,
	"loss/reg": 5.2326483726501465,
	"loss/twn": 0.0,
	"step": 678
	},
	{
	"epoch": 0.016975,
	"grad_norm": 179.0,
	"grad_norm_var": 1722.9600545247397,
	"learning_rate": 0.0001,
	"loss": 6.7476,
	"loss/crossentropy": 1.1506078243255615,
	"loss/hidden": 0.35546875,
	"loss/logits": 0.008823427371680737,
	"loss/reg": 5.2327399253845215,
	"loss/twn": 0.0,
	"step": 679
	},
	{
	"epoch": 0.017,
	"grad_norm": 10.0625,
	"grad_norm_var": 1723.6607381184897,
	"learning_rate": 0.0001,
	"loss": 7.9045,
	"loss/crossentropy": 2.541614055633545,
	"loss/hidden": 0.12109375,
	"loss/logits": 0.008851654827594757,
	"loss/reg": 5.232950687408447,
	"loss/twn": 0.0,
	"step": 680
	},
	{
	"epoch": 0.017025,
	"grad_norm": 38.5,
	"grad_norm_var": 1735.1399373372396,
	"learning_rate": 0.0001,
	"loss": 6.9999,
	"loss/crossentropy": 1.6033979654312134,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.006385164335370064,
	"loss/reg": 5.232907772064209,
	"loss/twn": 0.0,
	"step": 681
	},
	{
	"epoch": 0.01705,
	"grad_norm": 17.625,
	"grad_norm_var": 1723.4270467122396,
	"learning_rate": 0.0001,
	"loss": 7.998,
	"loss/crossentropy": 2.6382601261138916,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.014375717379152775,
	"loss/reg": 5.232568264007568,
	"loss/twn": 0.0,
	"step": 682
	},
	{
	"epoch": 0.017075,
	"grad_norm": 10.6875,
	"grad_norm_var": 1724.6606079101562,
	"learning_rate": 0.0001,
	"loss": 6.5706,
	"loss/crossentropy": 1.2485917806625366,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.002942750696092844,
	"loss/reg": 5.232631206512451,
	"loss/twn": 0.0,
	"step": 683
	},
	{
	"epoch": 0.0171,
	"grad_norm": 55.25,
	"grad_norm_var": 1770.930790201823,
	"learning_rate": 0.0001,
	"loss": 7.0946,
	"loss/crossentropy": 1.641523003578186,
	"loss/hidden": 0.212890625,
	"loss/logits": 0.007442857138812542,
	"loss/reg": 5.2327880859375,
	"loss/twn": 0.0,
	"step": 684
	},
	{
	"epoch": 0.017125,
	"grad_norm": 12.0,
	"grad_norm_var": 1760.3909993489583,
	"learning_rate": 0.0001,
	"loss": 6.5653,
	"loss/crossentropy": 1.1899452209472656,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.0118794534355402,
	"loss/reg": 5.232624530792236,
	"loss/twn": 0.0,
	"step": 685
	},
	{
	"epoch": 0.01715,
	"grad_norm": 11.0625,
	"grad_norm_var": 1770.9077473958334,
	"learning_rate": 0.0001,
	"loss": 7.3521,
	"loss/crossentropy": 2.0265913009643555,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.006208708509802818,
	"loss/reg": 5.2328410148620605,
	"loss/twn": 0.0,
	"step": 686
	},
	{
	"epoch": 0.017175,
	"grad_norm": 17.75,
	"grad_norm_var": 1769.8311848958333,
	"learning_rate": 0.0001,
	"loss": 6.2951,
	"loss/crossentropy": 0.9038959741592407,
	"loss/hidden": 0.1513671875,
	"loss/logits": 0.007222220301628113,
	"loss/reg": 5.2325825691223145,
	"loss/twn": 0.0,
	"step": 687
	},
	{
	"epoch": 0.0172,
	"grad_norm": 137.0,
	"grad_norm_var": 2501.6544270833333,
	"learning_rate": 0.0001,
	"loss": 7.9399,
	"loss/crossentropy": 2.5502278804779053,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.011638427153229713,
	"loss/reg": 5.232552528381348,
	"loss/twn": 0.0,
	"step": 688
	},
	{
	"epoch": 0.017225,
	"grad_norm": 16.25,
	"grad_norm_var": 2483.604280598958,
	"learning_rate": 0.0001,
	"loss": 8.1215,
	"loss/crossentropy": 2.7514421939849854,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.010679876431822777,
	"loss/reg": 5.232418537139893,
	"loss/twn": 0.0,
	"step": 689
	},
	{
	"epoch": 0.01725,
	"grad_norm": 9.75,
	"grad_norm_var": 2490.0520182291666,
	"learning_rate": 0.0001,
	"loss": 7.1755,
	"loss/crossentropy": 1.8485499620437622,
	"loss/hidden": 0.08837890625,
	"loss/logits": 0.005838857963681221,
	"loss/reg": 5.2327117919921875,
	"loss/twn": 0.0,
	"step": 690
	},
	{
	"epoch": 0.017275,
	"grad_norm": 12.5,
	"grad_norm_var": 2485.2692057291665,
	"learning_rate": 0.0001,
	"loss": 7.1405,
	"loss/crossentropy": 1.8488080501556396,
	"loss/hidden": 0.0546875,
	"loss/logits": 0.0044571696780622005,
	"loss/reg": 5.232502460479736,
	"loss/twn": 0.0,
	"step": 691
	},
	{
	"epoch": 0.0173,
	"grad_norm": 1448.0,
	"grad_norm_var": 126949.88639322917,
	"learning_rate": 0.0001,
	"loss": 6.8951,
	"loss/crossentropy": 1.4486842155456543,
	"loss/hidden": 0.2001953125,
	"loss/logits": 0.013465155847370625,
	"loss/reg": 5.23276424407959,
	"loss/twn": 0.0,
	"step": 692
	},
	{
	"epoch": 0.017325,
	"grad_norm": 192.0,
	"grad_norm_var": 126205.7556640625,
	"learning_rate": 0.0001,
	"loss": 6.7837,
	"loss/crossentropy": 1.3860431909561157,
	"loss/hidden": 0.1591796875,
	"loss/logits": 0.006227361969649792,
	"loss/reg": 5.232283592224121,
	"loss/twn": 0.0,
	"step": 693
	},
	{
	"epoch": 0.01735,
	"grad_norm": 8.8125,
	"grad_norm_var": 126307.29348958333,
	"learning_rate": 0.0001,
	"loss": 7.7481,
	"loss/crossentropy": 2.4704062938690186,
	"loss/hidden": 0.0400390625,
	"loss/logits": 0.004876245744526386,
	"loss/reg": 5.232789993286133,
	"loss/twn": 0.0,
	"step": 694
	},
	{
	"epoch": 0.017375,
	"grad_norm": 13.9375,
	"grad_norm_var": 127064.13084309896,
	"learning_rate": 0.0001,
	"loss": 7.4,
	"loss/crossentropy": 2.0642364025115967,
	"loss/hidden": 0.09375,
	"loss/logits": 0.009522231295704842,
	"loss/reg": 5.2324628829956055,
	"loss/twn": 0.0,
	"step": 695
	},
	{
	"epoch": 0.0174,
	"grad_norm": 9.3125,
	"grad_norm_var": 127075.72967122396,
	"learning_rate": 0.0001,
	"loss": 7.1133,
	"loss/crossentropy": 1.8082016706466675,
	"loss/hidden": 0.0693359375,
	"loss/logits": 0.0033433041535317898,
	"loss/reg": 5.232382297515869,
	"loss/twn": 0.0,
	"step": 696
	},
	{
	"epoch": 0.017425,
	"grad_norm": 15.5,
	"grad_norm_var": 127376.05935872396,
	"learning_rate": 0.0001,
	"loss": 8.0679,
	"loss/crossentropy": 2.6998050212860107,
	"loss/hidden": 0.125,
	"loss/logits": 0.011031926609575748,
	"loss/reg": 5.232105731964111,
	"loss/twn": 0.0,
	"step": 697
	},
	{
	"epoch": 0.01745,
	"grad_norm": 16.5,
	"grad_norm_var": 127392.12693684896,
	"learning_rate": 0.0001,
	"loss": 7.1902,
	"loss/crossentropy": 1.788904070854187,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.010435621254146099,
	"loss/reg": 5.232694149017334,
	"loss/twn": 0.0,
	"step": 698
	},
	{
	"epoch": 0.017475,
	"grad_norm": 26.25,
	"grad_norm_var": 127171.84055989583,
	"learning_rate": 0.0001,
	"loss": 8.0089,
	"loss/crossentropy": 2.5942537784576416,
	"loss/hidden": 0.1728515625,
	"loss/logits": 0.009584179148077965,
	"loss/reg": 5.232229232788086,
	"loss/twn": 0.0,
	"step": 699
	},
	{
	"epoch": 0.0175,
	"grad_norm": 7.375,
	"grad_norm_var": 127761.07708333334,
	"learning_rate": 0.0001,
	"loss": 7.1149,
	"loss/crossentropy": 1.7783420085906982,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.0052945781499147415,
	"loss/reg": 5.232630252838135,
	"loss/twn": 0.0,
	"step": 700
	},
	{
	"epoch": 0.017525,
	"grad_norm": 14.875,
	"grad_norm_var": 127719.3791015625,
	"learning_rate": 0.0001,
	"loss": 8.0908,
	"loss/crossentropy": 2.7603297233581543,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.011579321697354317,
	"loss/reg": 5.232461929321289,
	"loss/twn": 0.0,
	"step": 701
	},
	{
	"epoch": 0.01755,
	"grad_norm": 25.75,
	"grad_norm_var": 127515.01248372396,
	"learning_rate": 0.0001,
	"loss": 7.8012,
	"loss/crossentropy": 2.4607961177825928,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.009348167106509209,
	"loss/reg": 5.232429504394531,
	"loss/twn": 0.0,
	"step": 702
	},
	{
	"epoch": 0.017575,
	"grad_norm": 36.25,
	"grad_norm_var": 127276.2372233073,
	"learning_rate": 0.0001,
	"loss": 7.7355,
	"loss/crossentropy": 2.2735610008239746,
	"loss/hidden": 0.216796875,
	"loss/logits": 0.012781517580151558,
	"loss/reg": 5.232335090637207,
	"loss/twn": 0.0,
	"step": 703
	},
	{
	"epoch": 0.0176,
	"grad_norm": 12.8125,
	"grad_norm_var": 128031.16139322917,
	"learning_rate": 0.0001,
	"loss": 7.7608,
	"loss/crossentropy": 2.4146182537078857,
	"loss/hidden": 0.10595703125,
	"loss/logits": 0.007775201462209225,
	"loss/reg": 5.232488632202148,
	"loss/twn": 0.0,
	"step": 704
	},
	{
	"epoch": 0.017625,
	"grad_norm": 12.875,
	"grad_norm_var": 128077.03854166667,
	"learning_rate": 0.0001,
	"loss": 7.6663,
	"loss/crossentropy": 2.3123011589050293,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.008896533399820328,
	"loss/reg": 5.232283115386963,
	"loss/twn": 0.0,
	"step": 705
	},
	{
	"epoch": 0.01765,
	"grad_norm": 9.8125,
	"grad_norm_var": 128076.14998372395,
	"learning_rate": 0.0001,
	"loss": 6.7063,
	"loss/crossentropy": 1.328172206878662,
	"loss/hidden": 0.138671875,
	"loss/logits": 0.006915399804711342,
	"loss/reg": 5.232503414154053,
	"loss/twn": 0.0,
	"step": 706
	},
	{
	"epoch": 0.017675,
	"grad_norm": 10.25,
	"grad_norm_var": 128107.63943684896,
	"learning_rate": 0.0001,
	"loss": 5.6211,
	"loss/crossentropy": 0.28784415125846863,
	"loss/hidden": 0.09521484375,
	"loss/logits": 0.005815575830638409,
	"loss/reg": 5.232184410095215,
	"loss/twn": 0.0,
	"step": 707
	},
	{
	"epoch": 0.0177,
	"grad_norm": 9.875,
	"grad_norm_var": 2011.0417805989584,
	"learning_rate": 0.0001,
	"loss": 7.6542,
	"loss/crossentropy": 2.2898013591766357,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.005081703420728445,
	"loss/reg": 5.232325553894043,
	"loss/twn": 0.0,
	"step": 708
	},
	{
	"epoch": 0.017725,
	"grad_norm": 9.6875,
	"grad_norm_var": 62.6244140625,
	"learning_rate": 0.0001,
	"loss": 6.8514,
	"loss/crossentropy": 1.4818062782287598,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.0045208255760371685,
	"loss/reg": 5.232298851013184,
	"loss/twn": 0.0,
	"step": 709
	},
	{
	"epoch": 0.01775,
	"grad_norm": 14.9375,
	"grad_norm_var": 59.92239583333333,
	"learning_rate": 0.0001,
	"loss": 7.9023,
	"loss/crossentropy": 2.559528112411499,
	"loss/hidden": 0.103515625,
	"loss/logits": 0.006969613488763571,
	"loss/reg": 5.232254505157471,
	"loss/twn": 0.0,
	"step": 710
	},
	{
	"epoch": 0.017775,
	"grad_norm": 11.375,
	"grad_norm_var": 60.82394205729167,
	"learning_rate": 0.0001,
	"loss": 6.8892,
	"loss/crossentropy": 1.5907115936279297,
	"loss/hidden": 0.064453125,
	"loss/logits": 0.0018022289732471108,
	"loss/reg": 5.232196807861328,
	"loss/twn": 0.0,
	"step": 711
	},
	{
	"epoch": 0.0178,
	"grad_norm": 12.5,
	"grad_norm_var": 58.95045572916667,
	"learning_rate": 0.0001,
	"loss": 8.0051,
	"loss/crossentropy": 2.6705007553100586,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.005942562595009804,
	"loss/reg": 5.232419967651367,
	"loss/twn": 0.0,
	"step": 712
	},
	{
	"epoch": 0.017825,
	"grad_norm": 7.6875,
	"grad_norm_var": 62.675634765625,
	"learning_rate": 0.0001,
	"loss": 7.4538,
	"loss/crossentropy": 2.1238763332366943,
	"loss/hidden": 0.09130859375,
	"loss/logits": 0.006380223203450441,
	"loss/reg": 5.232213497161865,
	"loss/twn": 0.0,
	"step": 713
	},
	{
	"epoch": 0.01785,
	"grad_norm": 11.5,
	"grad_norm_var": 63.188655598958334,
	"learning_rate": 0.0001,
	"loss": 7.0007,
	"loss/crossentropy": 1.551921010017395,
	"loss/hidden": 0.2099609375,
	"loss/logits": 0.006598391104489565,
	"loss/reg": 5.2322468757629395,
	"loss/twn": 0.0,
	"step": 714
	},
	{
	"epoch": 0.017875,
	"grad_norm": 12.5625,
	"grad_norm_var": 53.66087239583333,
	"learning_rate": 0.0001,
	"loss": 8.5447,
	"loss/crossentropy": 3.1880903244018555,
	"loss/hidden": 0.11474609375,
	"loss/logits": 0.009867793880403042,
	"loss/reg": 5.2319817543029785,
	"loss/twn": 0.0,
	"step": 715
	},
	{
	"epoch": 0.0179,
	"grad_norm": 8.8125,
	"grad_norm_var": 52.566650390625,
	"learning_rate": 0.0001,
	"loss": 7.3708,
	"loss/crossentropy": 2.0305135250091553,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.00682512391358614,
	"loss/reg": 5.232370853424072,
	"loss/twn": 0.0,
	"step": 716
	},
	{
	"epoch": 0.017925,
	"grad_norm": 9.5,
	"grad_norm_var": 53.636051432291666,
	"learning_rate": 0.0001,
	"loss": 6.9861,
	"loss/crossentropy": 1.6283918619155884,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.0056338622234761715,
	"loss/reg": 5.231950759887695,
	"loss/twn": 0.0,
	"step": 717
	},
	{
	"epoch": 0.01795,
	"grad_norm": 16.375,
	"grad_norm_var": 43.831363932291666,
	"learning_rate": 0.0001,
	"loss": 7.5541,
	"loss/crossentropy": 2.1077566146850586,
	"loss/hidden": 0.2041015625,
	"loss/logits": 0.009965687990188599,
	"loss/reg": 5.232308387756348,
	"loss/twn": 0.0,
	"step": 718
	},
	{
	"epoch": 0.017975,
	"grad_norm": 12.8125,
	"grad_norm_var": 5.275455729166667,
	"learning_rate": 0.0001,
	"loss": 8.3363,
	"loss/crossentropy": 2.959925413131714,
	"loss/hidden": 0.1298828125,
	"loss/logits": 0.014515706337988377,
	"loss/reg": 5.231976509094238,
	"loss/twn": 0.0,
	"step": 719
	},
	{
	"epoch": 0.018,
	"grad_norm": 13.1875,
	"grad_norm_var": 5.351822916666666,
	"learning_rate": 0.0001,
	"loss": 8.3041,
	"loss/crossentropy": 2.966278553009033,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.007250492461025715,
	"loss/reg": 5.2319159507751465,
	"loss/twn": 0.0,
	"step": 720
	},
	{
	"epoch": 0.018025,
	"grad_norm": 16.25,
	"grad_norm_var": 6.689518229166667,
	"learning_rate": 0.0001,
	"loss": 8.1075,
	"loss/crossentropy": 2.7332916259765625,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.0132482023909688,
	"loss/reg": 5.232076644897461,
	"loss/twn": 0.0,
	"step": 721
	},
	{
	"epoch": 0.01805,
	"grad_norm": 12.0,
	"grad_norm_var": 6.439436848958334,
	"learning_rate": 0.0001,
	"loss": 6.6983,
	"loss/crossentropy": 1.3738974332809448,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.006151068024337292,
	"loss/reg": 5.231801986694336,
	"loss/twn": 0.0,
	"step": 722
	},
	{
	"epoch": 0.018075,
	"grad_norm": 8.8125,
	"grad_norm_var": 6.871809895833334,
	"learning_rate": 0.0001,
	"loss": 7.4411,
	"loss/crossentropy": 2.184509515762329,
	"loss/hidden": 0.02099609375,
	"loss/logits": 0.00361478328704834,
	"loss/reg": 5.23202657699585,
	"loss/twn": 0.0,
	"step": 723
	},
	{
	"epoch": 0.0181,
	"grad_norm": 13.75,
	"grad_norm_var": 6.845572916666667,
	"learning_rate": 0.0001,
	"loss": 7.2513,
	"loss/crossentropy": 1.84177827835083,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.009550071321427822,
	"loss/reg": 5.231957912445068,
	"loss/twn": 0.0,
	"step": 724
	},
	{
	"epoch": 0.018125,
	"grad_norm": 11.625,
	"grad_norm_var": 6.486832682291666,
	"learning_rate": 0.0001,
	"loss": 8.1392,
	"loss/crossentropy": 2.7632906436920166,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.012371431104838848,
	"loss/reg": 5.231691360473633,
	"loss/twn": 0.0,
	"step": 725
	},
	{
	"epoch": 0.01815,
	"grad_norm": 13.625,
	"grad_norm_var": 6.098893229166666,
	"learning_rate": 0.0001,
	"loss": 8.1336,
	"loss/crossentropy": 2.7336745262145996,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.00991059560328722,
	"loss/reg": 5.231861114501953,
	"loss/twn": 0.0,
	"step": 726
	},
	{
	"epoch": 0.018175,
	"grad_norm": 9.3125,
	"grad_norm_var": 6.543082682291667,
	"learning_rate": 0.0001,
	"loss": 8.1011,
	"loss/crossentropy": 2.7824230194091797,
	"loss/hidden": 0.08154296875,
	"loss/logits": 0.005494968965649605,
	"loss/reg": 5.231605052947998,
	"loss/twn": 0.0,
	"step": 727
	},
	{
	"epoch": 0.0182,
	"grad_norm": 214.0,
	"grad_norm_var": 2560.450634765625,
	"learning_rate": 0.0001,
	"loss": 7.8675,
	"loss/crossentropy": 2.6006758213043213,
	"loss/hidden": 0.03271484375,
	"loss/logits": 0.0022825347259640694,
	"loss/reg": 5.231857776641846,
	"loss/twn": 0.0,
	"step": 728
	},
	{
	"epoch": 0.018225,
	"grad_norm": 10.25,
	"grad_norm_var": 2555.1207682291665,
	"learning_rate": 0.0001,
	"loss": 7.9332,
	"loss/crossentropy": 2.5436322689056396,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.007534053176641464,
	"loss/reg": 5.231611251831055,
	"loss/twn": 0.0,
	"step": 729
	},
	{
	"epoch": 0.01825,
	"grad_norm": 7.46875,
	"grad_norm_var": 2563.203739420573,
	"learning_rate": 0.0001,
	"loss": 6.4295,
	"loss/crossentropy": 1.0562663078308105,
	"loss/hidden": 0.1357421875,
	"loss/logits": 0.005792177282273769,
	"loss/reg": 5.231747150421143,
	"loss/twn": 0.0,
	"step": 730
	},
	{
	"epoch": 0.018275,
	"grad_norm": 9.5,
	"grad_norm_var": 2568.6221313476562,
	"learning_rate": 0.0001,
	"loss": 6.1,
	"loss/crossentropy": 0.7717524766921997,
	"loss/hidden": 0.0908203125,
	"loss/logits": 0.005497816018760204,
	"loss/reg": 5.231908321380615,
	"loss/twn": 0.0,
	"step": 731
	},
	{
	"epoch": 0.0183,
	"grad_norm": 15.25,
	"grad_norm_var": 2558.0002563476564,
	"learning_rate": 0.0001,
	"loss": 8.2472,
	"loss/crossentropy": 2.8519446849823,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.015055367723107338,
	"loss/reg": 5.231762886047363,
	"loss/twn": 0.0,
	"step": 732
	},
	{
	"epoch": 0.018325,
	"grad_norm": 18.625,
	"grad_norm_var": 2544.823661295573,
	"learning_rate": 0.0001,
	"loss": 8.0862,
	"loss/crossentropy": 2.667858600616455,
	"loss/hidden": 0.1708984375,
	"loss/logits": 0.015612177550792694,
	"loss/reg": 5.231838703155518,
	"loss/twn": 0.0,
	"step": 733
	},
	{
	"epoch": 0.01835,
	"grad_norm": 11.0,
	"grad_norm_var": 2552.937951660156,
	"learning_rate": 0.0001,
	"loss": 8.1949,
	"loss/crossentropy": 2.86808705329895,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.00871000811457634,
	"loss/reg": 5.231663703918457,
	"loss/twn": 0.0,
	"step": 734
	},
	{
	"epoch": 0.018375,
	"grad_norm": 10.375,
	"grad_norm_var": 2557.2188110351562,
	"learning_rate": 0.0001,
	"loss": 5.7664,
	"loss/crossentropy": 0.43561050295829773,
	"loss/hidden": 0.0947265625,
	"loss/logits": 0.004361970815807581,
	"loss/reg": 5.231712818145752,
	"loss/twn": 0.0,
	"step": 735
	},
	{
	"epoch": 0.0184,
	"grad_norm": 10.375,
	"grad_norm_var": 2562.0264282226562,
	"learning_rate": 0.0001,
	"loss": 5.8451,
	"loss/crossentropy": 0.3734654188156128,
	"loss/hidden": 0.232421875,
	"loss/logits": 0.0075777387246489525,
	"loss/reg": 5.231621265411377,
	"loss/twn": 0.0,
	"step": 736
	},
	{
	"epoch": 0.018425,
	"grad_norm": 14.625,
	"grad_norm_var": 2563.9819295247394,
	"learning_rate": 0.0001,
	"loss": 6.356,
	"loss/crossentropy": 0.9930484294891357,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.006776281166821718,
	"loss/reg": 5.231681823730469,
	"loss/twn": 0.0,
	"step": 737
	},
	{
	"epoch": 0.01845,
	"grad_norm": 7.75,
	"grad_norm_var": 2572.144364420573,
	"learning_rate": 0.0001,
	"loss": 6.7646,
	"loss/crossentropy": 1.4421303272247314,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.0040518054738640785,
	"loss/reg": 5.231963157653809,
	"loss/twn": 0.0,
	"step": 738
	},
	{
	"epoch": 0.018475,
	"grad_norm": 13.5,
	"grad_norm_var": 2563.933915201823,
	"learning_rate": 0.0001,
	"loss": 8.2343,
	"loss/crossentropy": 2.907639741897583,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.008740050718188286,
	"loss/reg": 5.23153829574585,
	"loss/twn": 0.0,
	"step": 739
	},
	{
	"epoch": 0.0185,
	"grad_norm": 13.875,
	"grad_norm_var": 2563.7567342122397,
	"learning_rate": 0.0001,
	"loss": 8.0317,
	"loss/crossentropy": 2.705251693725586,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.008279213681817055,
	"loss/reg": 5.231719493865967,
	"loss/twn": 0.0,
	"step": 740
	},
	{
	"epoch": 0.018525,
	"grad_norm": 13.6875,
	"grad_norm_var": 2560.4964803059897,
	"learning_rate": 0.0001,
	"loss": 6.2045,
	"loss/crossentropy": 0.7274767160415649,
	"loss/hidden": 0.236328125,
	"loss/logits": 0.009199721738696098,
	"loss/reg": 5.231486797332764,
	"loss/twn": 0.0,
	"step": 741
	},
	{
	"epoch": 0.01855,
	"grad_norm": 17.5,
	"grad_norm_var": 2555.7768513997394,
	"learning_rate": 0.0001,
	"loss": 7.1638,
	"loss/crossentropy": 1.6126173734664917,
	"loss/hidden": 0.30078125,
	"loss/logits": 0.018833626061677933,
	"loss/reg": 5.231540203094482,
	"loss/twn": 0.0,
	"step": 742
	},
	{
	"epoch": 0.018575,
	"grad_norm": 63.25,
	"grad_norm_var": 2626.092248535156,
	"learning_rate": 0.0001,
	"loss": 7.4974,
	"loss/crossentropy": 1.9825630187988281,
	"loss/hidden": 0.263671875,
	"loss/logits": 0.019452253356575966,
	"loss/reg": 5.231677055358887,
	"loss/twn": 0.0,
	"step": 743
	},
	{
	"epoch": 0.0186,
	"grad_norm": 11.5625,
	"grad_norm_var": 172.0647420247396,
	"learning_rate": 0.0001,
	"loss": 7.2546,
	"loss/crossentropy": 1.7497669458389282,
	"loss/hidden": 0.259765625,
	"loss/logits": 0.013276930898427963,
	"loss/reg": 5.231839179992676,
	"loss/twn": 0.0,
	"step": 744
	},
	{
	"epoch": 0.018625,
	"grad_norm": 9.5,
	"grad_norm_var": 172.62860921223958,
	"learning_rate": 0.0001,
	"loss": 7.8067,
	"loss/crossentropy": 2.420611619949341,
	"loss/hidden": 0.1455078125,
	"loss/logits": 0.009184225462377071,
	"loss/reg": 5.231430530548096,
	"loss/twn": 0.0,
	"step": 745
	},
	{
	"epoch": 0.01865,
	"grad_norm": 13.875,
	"grad_norm_var": 168.34192708333333,
	"learning_rate": 0.0001,
	"loss": 6.583,
	"loss/crossentropy": 1.1484166383743286,
	"loss/hidden": 0.1943359375,
	"loss/logits": 0.008578259497880936,
	"loss/reg": 5.231657028198242,
	"loss/twn": 0.0,
	"step": 746
	},
	{
	"epoch": 0.018675,
	"grad_norm": 118.0,
	"grad_norm_var": 811.6565104166667,
	"learning_rate": 0.0001,
	"loss": 6.9941,
	"loss/crossentropy": 1.6018927097320557,
	"loss/hidden": 0.154296875,
	"loss/logits": 0.0065146745182573795,
	"loss/reg": 5.231416702270508,
	"loss/twn": 0.0,
	"step": 747
	},
	{
	"epoch": 0.0187,
	"grad_norm": 17.625,
	"grad_norm_var": 809.6587890625,
	"learning_rate": 0.0001,
	"loss": 7.9705,
	"loss/crossentropy": 2.5781874656677246,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.010151069611310959,
	"loss/reg": 5.2317585945129395,
	"loss/twn": 0.0,
	"step": 748
	},
	{
	"epoch": 0.018725,
	"grad_norm": 15.75,
	"grad_norm_var": 811.78359375,
	"learning_rate": 0.0001,
	"loss": 7.9057,
	"loss/crossentropy": 2.5473275184631348,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.009290559217333794,
	"loss/reg": 5.231451034545898,
	"loss/twn": 0.0,
	"step": 749
	},
	{
	"epoch": 0.01875,
	"grad_norm": 57.0,
	"grad_norm_var": 872.6377604166667,
	"learning_rate": 0.0001,
	"loss": 5.8577,
	"loss/crossentropy": 0.43267643451690674,
	"loss/hidden": 0.1845703125,
	"loss/logits": 0.008671510964632034,
	"loss/reg": 5.231771469116211,
	"loss/twn": 0.0,
	"step": 750
	},
	{
	"epoch": 0.018775,
	"grad_norm": 12.875,
	"grad_norm_var": 867.9815104166667,
	"learning_rate": 0.0001,
	"loss": 8.1731,
	"loss/crossentropy": 2.8458542823791504,
	"loss/hidden": 0.0888671875,
	"loss/logits": 0.00722483079880476,
	"loss/reg": 5.231186389923096,
	"loss/twn": 0.0,
	"step": 751
	},
	{
	"epoch": 0.0188,
	"grad_norm": 31.25,
	"grad_norm_var": 852.6405598958333,
	"learning_rate": 0.0001,
	"loss": 6.5314,
	"loss/crossentropy": 1.1035902500152588,
	"loss/hidden": 0.19140625,
	"loss/logits": 0.0045470790937542915,
	"loss/reg": 5.231815814971924,
	"loss/twn": 0.0,
	"step": 752
	},
	{
	"epoch": 0.018825,
	"grad_norm": 9.6875,
	"grad_norm_var": 862.2956868489583,
	"learning_rate": 0.0001,
	"loss": 5.7019,
	"loss/crossentropy": 0.3551396429538727,
	"loss/hidden": 0.1123046875,
	"loss/logits": 0.003157853614538908,
	"loss/reg": 5.2312774658203125,
	"loss/twn": 0.0,
	"step": 753
	},
	{
	"epoch": 0.01885,
	"grad_norm": 9.6875,
	"grad_norm_var": 857.6431640625,
	"learning_rate": 0.0001,
	"loss": 7.8963,
	"loss/crossentropy": 2.603400945663452,
	"loss/hidden": 0.05712890625,
	"loss/logits": 0.004422674421221018,
	"loss/reg": 5.231386661529541,
	"loss/twn": 0.0,
	"step": 754
	},
	{
	"epoch": 0.018875,
	"grad_norm": 14.125,
	"grad_norm_var": 856.56015625,
	"learning_rate": 0.0001,
	"loss": 7.4962,
	"loss/crossentropy": 2.134359359741211,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.010161285288631916,
	"loss/reg": 5.231522083282471,
	"loss/twn": 0.0,
	"step": 755
	},
	{
	"epoch": 0.0189,
	"grad_norm": 16.125,
	"grad_norm_var": 852.990625,
	"learning_rate": 0.0001,
	"loss": 8.2635,
	"loss/crossentropy": 2.91304874420166,
	"loss/hidden": 0.10595703125,
	"loss/logits": 0.01325392909348011,
	"loss/reg": 5.231236934661865,
	"loss/twn": 0.0,
	"step": 756
	},
	{
	"epoch": 0.018925,
	"grad_norm": 8.75,
	"grad_norm_var": 863.2577962239583,
	"learning_rate": 0.0001,
	"loss": 6.6673,
	"loss/crossentropy": 1.2952691316604614,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.006863090209662914,
	"loss/reg": 5.231356143951416,
	"loss/twn": 0.0,
	"step": 757
	},
	{
	"epoch": 0.01895,
	"grad_norm": 9.4375,
	"grad_norm_var": 877.1677083333333,
	"learning_rate": 0.0001,
	"loss": 6.9557,
	"loss/crossentropy": 1.5827580690383911,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.008454329334199429,
	"loss/reg": 5.231715202331543,
	"loss/twn": 0.0,
	"step": 758
	},
	{
	"epoch": 0.018975,
	"grad_norm": 16.0,
	"grad_norm_var": 783.0122395833333,
	"learning_rate": 0.0001,
	"loss": 7.1366,
	"loss/crossentropy": 1.7788175344467163,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.006595224142074585,
	"loss/reg": 5.231091499328613,
	"loss/twn": 0.0,
	"step": 759
	},
	{
	"epoch": 0.019,
	"grad_norm": 9.75,
	"grad_norm_var": 786.030712890625,
	"learning_rate": 0.0001,
	"loss": 8.1245,
	"loss/crossentropy": 2.800469160079956,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.006068210117518902,
	"loss/reg": 5.231574535369873,
	"loss/twn": 0.0,
	"step": 760
	},
	{
	"epoch": 0.019025,
	"grad_norm": 19.25,
	"grad_norm_var": 774.305322265625,
	"learning_rate": 0.0001,
	"loss": 6.9579,
	"loss/crossentropy": 1.6193712949752808,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.006502064410597086,
	"loss/reg": 5.2309889793396,
	"loss/twn": 0.0,
	"step": 761
	},
	{
	"epoch": 0.01905,
	"grad_norm": 20.625,
	"grad_norm_var": 768.311181640625,
	"learning_rate": 0.0001,
	"loss": 8.3539,
	"loss/crossentropy": 2.9865291118621826,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.016289401799440384,
	"loss/reg": 5.231488227844238,
	"loss/twn": 0.0,
	"step": 762
	},
	{
	"epoch": 0.019075,
	"grad_norm": 31.625,
	"grad_norm_var": 153.429150390625,
	"learning_rate": 0.0001,
	"loss": 7.0021,
	"loss/crossentropy": 1.6152843236923218,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.006050444208085537,
	"loss/reg": 5.2313923835754395,
	"loss/twn": 0.0,
	"step": 763
	},
	{
	"epoch": 0.0191,
	"grad_norm": 39.25,
	"grad_norm_var": 179.49178059895834,
	"learning_rate": 0.0001,
	"loss": 6.1086,
	"loss/crossentropy": 0.6142204403877258,
	"loss/hidden": 0.2578125,
	"loss/logits": 0.005147262010723352,
	"loss/reg": 5.231447219848633,
	"loss/twn": 0.0,
	"step": 764
	},
	{
	"epoch": 0.019125,
	"grad_norm": 28.0,
	"grad_norm_var": 181.80779622395832,
	"learning_rate": 0.0001,
	"loss": 7.0546,
	"loss/crossentropy": 1.6059232950210571,
	"loss/hidden": 0.212890625,
	"loss/logits": 0.00476275198161602,
	"loss/reg": 5.231032371520996,
	"loss/twn": 0.0,
	"step": 765
	},
	{
	"epoch": 0.01915,
	"grad_norm": 11.875,
	"grad_norm_var": 91.510791015625,
	"learning_rate": 0.0001,
	"loss": 7.9657,
	"loss/crossentropy": 2.631168842315674,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.007133619859814644,
	"loss/reg": 5.231229305267334,
	"loss/twn": 0.0,
	"step": 766
	},
	{
	"epoch": 0.019175,
	"grad_norm": 43.75,
	"grad_norm_var": 129.911572265625,
	"learning_rate": 0.0001,
	"loss": 6.3914,
	"loss/crossentropy": 1.015294075012207,
	"loss/hidden": 0.13671875,
	"loss/logits": 0.00839436985552311,
	"loss/reg": 5.231020450592041,
	"loss/twn": 0.0,
	"step": 767
	},
	{
	"epoch": 0.0192,
	"grad_norm": 13.625,
	"grad_norm_var": 122.769775390625,
	"learning_rate": 0.0001,
	"loss": 6.8334,
	"loss/crossentropy": 1.33900785446167,
	"loss/hidden": 0.251953125,
	"loss/logits": 0.011178944259881973,
	"loss/reg": 5.2312493324279785,
	"loss/twn": 0.0,
	"step": 768
	},
	{
	"epoch": 0.019225,
	"grad_norm": 11.5625,
	"grad_norm_var": 120.699462890625,
	"learning_rate": 0.0001,
	"loss": 6.9225,
	"loss/crossentropy": 1.5955766439437866,
	"loss/hidden": 0.0908203125,
	"loss/logits": 0.005241988226771355,
	"loss/reg": 5.230888366699219,
	"loss/twn": 0.0,
	"step": 769
	},
	{
	"epoch": 0.01925,
	"grad_norm": 17.125,
	"grad_norm_var": 114.95670572916667,
	"learning_rate": 0.0001,
	"loss": 8.1154,
	"loss/crossentropy": 2.7243542671203613,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.017005622386932373,
	"loss/reg": 5.231443881988525,
	"loss/twn": 0.0,
	"step": 770
	},
	{
	"epoch": 0.019275,
	"grad_norm": 306.0,
	"grad_norm_var": 5232.954427083333,
	"learning_rate": 0.0001,
	"loss": 7.935,
	"loss/crossentropy": 2.5942704677581787,
	"loss/hidden": 0.10205078125,
	"loss/logits": 0.007505115121603012,
	"loss/reg": 5.231191635131836,
	"loss/twn": 0.0,
	"step": 771
	},
	{
	"epoch": 0.0193,
	"grad_norm": 13.0,
	"grad_norm_var": 5242.542643229167,
	"learning_rate": 0.0001,
	"loss": 7.9428,
	"loss/crossentropy": 2.644366979598999,
	"loss/hidden": 0.0595703125,
	"loss/logits": 0.007467132993042469,
	"loss/reg": 5.231389045715332,
	"loss/twn": 0.0,
	"step": 772
	},
	{
	"epoch": 0.019325,
	"grad_norm": 49.5,
	"grad_norm_var": 5190.246809895833,
	"learning_rate": 0.0001,
	"loss": 6.8313,
	"loss/crossentropy": 1.4516693353652954,
	"loss/hidden": 0.1416015625,
	"loss/logits": 0.006859183311462402,
	"loss/reg": 5.231204032897949,
	"loss/twn": 0.0,
	"step": 773
	},
	{
	"epoch": 0.01935,
	"grad_norm": 10.25,
	"grad_norm_var": 5186.974593098958,
	"learning_rate": 0.0001,
	"loss": 8.2807,
	"loss/crossentropy": 3.0418143272399902,
	"loss/hidden": 0.00469970703125,
	"loss/logits": 0.002671225229278207,
	"loss/reg": 5.23149299621582,
	"loss/twn": 0.0,
	"step": 774
	},
	{
	"epoch": 0.019375,
	"grad_norm": 12.8125,
	"grad_norm_var": 5197.841145833333,
	"learning_rate": 0.0001,
	"loss": 7.9916,
	"loss/crossentropy": 2.7271320819854736,
	"loss/hidden": 0.0302734375,
	"loss/logits": 0.00295096542686224,
	"loss/reg": 5.231270790100098,
	"loss/twn": 0.0,
	"step": 775
	},
	{
	"epoch": 0.0194,
	"grad_norm": 23.0,
	"grad_norm_var": 5155.59296875,
	"learning_rate": 0.0001,
	"loss": 8.1296,
	"loss/crossentropy": 2.7584662437438965,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.012552576139569283,
	"loss/reg": 5.231604099273682,
	"loss/twn": 0.0,
	"step": 776
	},
	{
	"epoch": 0.019425,
	"grad_norm": 14.1875,
	"grad_norm_var": 5171.675634765625,
	"learning_rate": 0.0001,
	"loss": 5.5239,
	"loss/crossentropy": 0.21823735535144806,
	"loss/hidden": 0.0693359375,
	"loss/logits": 0.005251707974821329,
	"loss/reg": 5.231090545654297,
	"loss/twn": 0.0,
	"step": 777
	},
	{
	"epoch": 0.01945,
	"grad_norm": 11.875,
	"grad_norm_var": 5199.516129557292,
	"learning_rate": 0.0001,
	"loss": 7.0206,
	"loss/crossentropy": 1.654329538345337,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.01058058813214302,
	"loss/reg": 5.231167316436768,
	"loss/twn": 0.0,
	"step": 778
	},
	{
	"epoch": 0.019475,
	"grad_norm": 31.75,
	"grad_norm_var": 5199.380192057291,
	"learning_rate": 0.0001,
	"loss": 7.4021,
	"loss/crossentropy": 2.093484878540039,
	"loss/hidden": 0.07568359375,
	"loss/logits": 0.0018800008110702038,
	"loss/reg": 5.231100082397461,
	"loss/twn": 0.0,
	"step": 779
	},
	{
	"epoch": 0.0195,
	"grad_norm": 230.0,
	"grad_norm_var": 7458.277457682291,
	"learning_rate": 0.0001,
	"loss": 7.047,
	"loss/crossentropy": 1.6409082412719727,
	"loss/hidden": 0.1650390625,
	"loss/logits": 0.00975135900080204,
	"loss/reg": 5.231270790100098,
	"loss/twn": 0.0,
	"step": 780
	},
	{
	"epoch": 0.019525,
	"grad_norm": 17.875,
	"grad_norm_var": 7496.773551432291,
	"learning_rate": 0.0001,
	"loss": 8.1639,
	"loss/crossentropy": 2.775987148284912,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.006807660683989525,
	"loss/reg": 5.230672836303711,
	"loss/twn": 0.0,
	"step": 781
	},
	{
	"epoch": 0.01955,
	"grad_norm": 13.6875,
	"grad_norm_var": 7487.490625,
	"learning_rate": 0.0001,
	"loss": 6.7803,
	"loss/crossentropy": 1.4760520458221436,
	"loss/hidden": 0.0693359375,
	"loss/logits": 0.003954825457185507,
	"loss/reg": 5.230950355529785,
	"loss/twn": 0.0,
	"step": 782
	},
	{
	"epoch": 0.019575,
	"grad_norm": 15.0625,
	"grad_norm_var": 7567.613916015625,
	"learning_rate": 0.0001,
	"loss": 8.3797,
	"loss/crossentropy": 3.015629291534424,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.013525455258786678,
	"loss/reg": 5.230944633483887,
	"loss/twn": 0.0,
	"step": 783
	},
	{
	"epoch": 0.0196,
	"grad_norm": 13.125,
	"grad_norm_var": 7570.018343098958,
	"learning_rate": 0.0001,
	"loss": 8.0947,
	"loss/crossentropy": 2.698845863342285,
	"loss/hidden": 0.1474609375,
	"loss/logits": 0.017367932945489883,
	"loss/reg": 5.231037616729736,
	"loss/twn": 0.0,
	"step": 784
	},
	{
	"epoch": 0.019625,
	"grad_norm": 98.0,
	"grad_norm_var": 7600.609114583333,
	"learning_rate": 0.0001,
	"loss": 8.2002,
	"loss/crossentropy": 2.826629161834717,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.0108743105083704,
	"loss/reg": 5.230876445770264,
	"loss/twn": 0.0,
	"step": 785
	},
	{
	"epoch": 0.01965,
	"grad_norm": 10.125,
	"grad_norm_var": 7638.861197916666,
	"learning_rate": 0.0001,
	"loss": 7.1464,
	"loss/crossentropy": 1.752783179283142,
	"loss/hidden": 0.15625,
	"loss/logits": 0.006541845388710499,
	"loss/reg": 5.230816841125488,
	"loss/twn": 0.0,
	"step": 786
	},
	{
	"epoch": 0.019675,
	"grad_norm": 12.75,
	"grad_norm_var": 3175.657291666667,
	"learning_rate": 0.0001,
	"loss": 7.4269,
	"loss/crossentropy": 2.056227207183838,
	"loss/hidden": 0.125,
	"loss/logits": 0.014510264620184898,
	"loss/reg": 5.231206893920898,
	"loss/twn": 0.0,
	"step": 787
	},
	{
	"epoch": 0.0197,
	"grad_norm": 10.3125,
	"grad_norm_var": 3184.372770182292,
	"learning_rate": 0.0001,
	"loss": 6.9013,
	"loss/crossentropy": 1.5427310466766357,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.007622131146490574,
	"loss/reg": 5.230830192565918,
	"loss/twn": 0.0,
	"step": 788
	},
	{
	"epoch": 0.019725,
	"grad_norm": 9.375,
	"grad_norm_var": 3212.2094889322916,
	"learning_rate": 0.0001,
	"loss": 8.0128,
	"loss/crossentropy": 2.7377614974975586,
	"loss/hidden": 0.0400390625,
	"loss/logits": 0.004178863950073719,
	"loss/reg": 5.230835914611816,
	"loss/twn": 0.0,
	"step": 789
	},
	{
	"epoch": 0.01975,
	"grad_norm": 9.625,
	"grad_norm_var": 3214.161962890625,
	"learning_rate": 0.0001,
	"loss": 6.8224,
	"loss/crossentropy": 1.4642736911773682,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.009586405009031296,
	"loss/reg": 5.230891704559326,
	"loss/twn": 0.0,
	"step": 790
	},
	{
	"epoch": 0.019775,
	"grad_norm": 9.125,
	"grad_norm_var": 3225.1082682291667,
	"learning_rate": 0.0001,
	"loss": 7.9752,
	"loss/crossentropy": 2.6582653522491455,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.007132208906114101,
	"loss/reg": 5.230742931365967,
	"loss/twn": 0.0,
	"step": 791
	},
	{
	"epoch": 0.0198,
	"grad_norm": 14.0625,
	"grad_norm_var": 3242.157014973958,
	"learning_rate": 0.0001,
	"loss": 7.6474,
	"loss/crossentropy": 2.298769235610962,
	"loss/hidden": 0.11279296875,
	"loss/logits": 0.004840749781578779,
	"loss/reg": 5.2309794425964355,
	"loss/twn": 0.0,
	"step": 792
	},
	{
	"epoch": 0.019825,
	"grad_norm": 17.375,
	"grad_norm_var": 3234.984309895833,
	"learning_rate": 0.0001,
	"loss": 7.5051,
	"loss/crossentropy": 2.1144237518310547,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.011511989869177341,
	"loss/reg": 5.230709552764893,
	"loss/twn": 0.0,
	"step": 793
	},
	{
	"epoch": 0.01985,
	"grad_norm": 12.6875,
	"grad_norm_var": 3232.7632649739585,
	"learning_rate": 0.0001,
	"loss": 6.3903,
	"loss/crossentropy": 0.9461896419525146,
	"loss/hidden": 0.2080078125,
	"loss/logits": 0.005450299009680748,
	"loss/reg": 5.230684757232666,
	"loss/twn": 0.0,
	"step": 794
	},
	{
	"epoch": 0.019875,
	"grad_norm": 13.9375,
	"grad_norm_var": 3255.1077473958335,
	"learning_rate": 0.0001,
	"loss": 7.4702,
	"loss/crossentropy": 2.1320881843566895,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.008736222982406616,
	"loss/reg": 5.230694770812988,
	"loss/twn": 0.0,
	"step": 795
	},
	{
	"epoch": 0.0199,
	"grad_norm": 9.8125,
	"grad_norm_var": 463.37107747395834,
	"learning_rate": 0.0001,
	"loss": 5.7159,
	"loss/crossentropy": 0.34444770216941833,
	"loss/hidden": 0.1357421875,
	"loss/logits": 0.005040573887526989,
	"loss/reg": 5.230666160583496,
	"loss/twn": 0.0,
	"step": 796
	},
	{
	"epoch": 0.019925,
	"grad_norm": 7.125,
	"grad_norm_var": 470.67771809895834,
	"learning_rate": 0.0001,
	"loss": 6.3741,
	"loss/crossentropy": 0.9926528334617615,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.007962658070027828,
	"loss/reg": 5.23092794418335,
	"loss/twn": 0.0,
	"step": 797
	},
	{
	"epoch": 0.01995,
	"grad_norm": 9.0,
	"grad_norm_var": 474.28489583333334,
	"learning_rate": 0.0001,
	"loss": 7.4732,
	"loss/crossentropy": 2.123459815979004,
	"loss/hidden": 0.1123046875,
	"loss/logits": 0.0064601292833685875,
	"loss/reg": 5.2309346199035645,
	"loss/twn": 0.0,
	"step": 798
	},
	{
	"epoch": 0.019975,
	"grad_norm": 17.25,
	"grad_norm_var": 474.027978515625,
	"learning_rate": 0.0001,
	"loss": 7.4841,
	"loss/crossentropy": 2.1429977416992188,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.009501198306679726,
	"loss/reg": 5.230530738830566,
	"loss/twn": 0.0,
	"step": 799
	},
	{
	"epoch": 0.02,
	"grad_norm": 13.3125,
	"grad_norm_var": 473.9306640625,
	"learning_rate": 0.0001,
	"loss": 7.9787,
	"loss/crossentropy": 2.5355384349823,
	"loss/hidden": 0.203125,
	"loss/logits": 0.009105566889047623,
	"loss/reg": 5.230905055999756,
	"loss/twn": 0.0,
	"step": 800
	},
	{
	"epoch": 0.020025,
	"grad_norm": 15.5625,
	"grad_norm_var": 9.640087890625,
	"learning_rate": 0.0001,
	"loss": 7.6371,
	"loss/crossentropy": 2.3353328704833984,
	"loss/hidden": 0.064453125,
	"loss/logits": 0.00665889261290431,
	"loss/reg": 5.230616569519043,
	"loss/twn": 0.0,
	"step": 801
	},
	{
	"epoch": 0.02005,
	"grad_norm": 64.0,
	"grad_norm_var": 177.831103515625,
	"learning_rate": 0.0001,
	"loss": 8.2014,
	"loss/crossentropy": 2.8111629486083984,
	"loss/hidden": 0.1513671875,
	"loss/logits": 0.008202088996767998,
	"loss/reg": 5.230618476867676,
	"loss/twn": 0.0,
	"step": 802
	},
	{
	"epoch": 0.020075,
	"grad_norm": 12.0625,
	"grad_norm_var": 178.09733072916666,
	"learning_rate": 0.0001,
	"loss": 6.0497,
	"loss/crossentropy": 0.6109923124313354,
	"loss/hidden": 0.2021484375,
	"loss/logits": 0.005807585082948208,
	"loss/reg": 5.230772495269775,
	"loss/twn": 0.0,
	"step": 803
	},
	{
	"epoch": 0.0201,
	"grad_norm": 8.8125,
	"grad_norm_var": 179.23326822916667,
	"learning_rate": 0.0001,
	"loss": 7.8262,
	"loss/crossentropy": 2.455592393875122,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.0069784787483513355,
	"loss/reg": 5.230773448944092,
	"loss/twn": 0.0,
	"step": 804
	},
	{
	"epoch": 0.020125,
	"grad_norm": 73.5,
	"grad_norm_var": 386.47057291666664,
	"learning_rate": 0.0001,
	"loss": 7.1917,
	"loss/crossentropy": 1.826701283454895,
	"loss/hidden": 0.125,
	"loss/logits": 0.0094426479190588,
	"loss/reg": 5.230578422546387,
	"loss/twn": 0.0,
	"step": 805
	},
	{
	"epoch": 0.02015,
	"grad_norm": 10.25,
	"grad_norm_var": 385.6968098958333,
	"learning_rate": 0.0001,
	"loss": 7.9012,
	"loss/crossentropy": 2.539992094039917,
	"loss/hidden": 0.12158203125,
	"loss/logits": 0.008753599599003792,
	"loss/reg": 5.230825424194336,
	"loss/twn": 0.0,
	"step": 806
	},
	{
	"epoch": 0.020175,
	"grad_norm": 19.875,
	"grad_norm_var": 378.4181640625,
	"learning_rate": 0.0001,
	"loss": 6.9229,
	"loss/crossentropy": 1.5474615097045898,
	"loss/hidden": 0.1376953125,
	"loss/logits": 0.00709810946136713,
	"loss/reg": 5.230693817138672,
	"loss/twn": 0.0,
	"step": 807
	},
	{
	"epoch": 0.0202,
	"grad_norm": 10.25,
	"grad_norm_var": 382.30115559895836,
	"learning_rate": 0.0001,
	"loss": 7.2085,
	"loss/crossentropy": 1.7812546491622925,
	"loss/hidden": 0.189453125,
	"loss/logits": 0.007315409369766712,
	"loss/reg": 5.230427265167236,
	"loss/twn": 0.0,
	"step": 808
	},
	{
	"epoch": 0.020225,
	"grad_norm": 9.5,
	"grad_norm_var": 388.59295247395835,
	"learning_rate": 0.0001,
	"loss": 7.8477,
	"loss/crossentropy": 2.541975498199463,
	"loss/hidden": 0.07177734375,
	"loss/logits": 0.003062914125621319,
	"loss/reg": 5.230909824371338,
	"loss/twn": 0.0,
	"step": 809
	},
	{
	"epoch": 0.02025,
	"grad_norm": 15.5625,
	"grad_norm_var": 386.619384765625,
	"learning_rate": 0.0001,
	"loss": 7.3771,
	"loss/crossentropy": 2.025947332382202,
	"loss/hidden": 0.11083984375,
	"loss/logits": 0.009859994053840637,
	"loss/reg": 5.230443954467773,
	"loss/twn": 0.0,
	"step": 810
	},
	{
	"epoch": 0.020275,
	"grad_norm": 8.6875,
	"grad_norm_var": 392.140087890625,
	"learning_rate": 0.0001,
	"loss": 7.2273,
	"loss/crossentropy": 1.893878698348999,
	"loss/hidden": 0.09375,
	"loss/logits": 0.009128249250352383,
	"loss/reg": 5.2305426597595215,
	"loss/twn": 0.0,
	"step": 811
	},
	{
	"epoch": 0.0203,
	"grad_norm": 33.75,
	"grad_norm_var": 398.5171875,
	"learning_rate": 0.0001,
	"loss": 8.1449,
	"loss/crossentropy": 2.717454195022583,
	"loss/hidden": 0.1796875,
	"loss/logits": 0.016887273639440536,
	"loss/reg": 5.230856895446777,
	"loss/twn": 0.0,
	"step": 812
	},
	{
	"epoch": 0.020325,
	"grad_norm": 12.875,
	"grad_norm_var": 390.30546875,
	"learning_rate": 0.0001,
	"loss": 8.3305,
	"loss/crossentropy": 3.0012078285217285,
	"loss/hidden": 0.09326171875,
	"loss/logits": 0.005363960284739733,
	"loss/reg": 5.230653285980225,
	"loss/twn": 0.0,
	"step": 813
	},
	{
	"epoch": 0.02035,
	"grad_norm": 34.0,
	"grad_norm_var": 389.73255208333336,
	"learning_rate": 0.0001,
	"loss": 6.834,
	"loss/crossentropy": 1.4066799879074097,
	"loss/hidden": 0.193359375,
	"loss/logits": 0.003266718937084079,
	"loss/reg": 5.230650901794434,
	"loss/twn": 0.0,
	"step": 814
	},
	{
	"epoch": 0.020375,
	"grad_norm": 326.0,
	"grad_norm_var": 6133.447395833334,
	"learning_rate": 0.0001,
	"loss": 8.109,
	"loss/crossentropy": 2.785377025604248,
	"loss/hidden": 0.087890625,
	"loss/logits": 0.005352129694074392,
	"loss/reg": 5.230373859405518,
	"loss/twn": 0.0,
	"step": 815
	},
	{
	"epoch": 0.0204,
	"grad_norm": 61.75,
	"grad_norm_var": 6096.425504557292,
	"learning_rate": 0.0001,
	"loss": 6.3327,
	"loss/crossentropy": 0.9138974547386169,
	"loss/hidden": 0.17578125,
	"loss/logits": 0.012529873289167881,
	"loss/reg": 5.230535984039307,
	"loss/twn": 0.0,
	"step": 816
	},
	{
	"epoch": 0.020425,
	"grad_norm": 15.8125,
	"grad_norm_var": 6095.455582682292,
	"learning_rate": 0.0001,
	"loss": 8.4489,
	"loss/crossentropy": 3.057579517364502,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.018565690144896507,
	"loss/reg": 5.230161666870117,
	"loss/twn": 0.0,
	"step": 817
	},
	{
	"epoch": 0.02045,
	"grad_norm": 18.125,
	"grad_norm_var": 6109.504801432292,
	"learning_rate": 0.0001,
	"loss": 7.9928,
	"loss/crossentropy": 2.607743740081787,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.004932316951453686,
	"loss/reg": 5.230733394622803,
	"loss/twn": 0.0,
	"step": 818
	},
	{
	"epoch": 0.020475,
	"grad_norm": 21.25,
	"grad_norm_var": 6078.197916666667,
	"learning_rate": 0.0001,
	"loss": 8.2796,
	"loss/crossentropy": 2.8803536891937256,
	"loss/hidden": 0.15234375,
	"loss/logits": 0.016475437209010124,
	"loss/reg": 5.230462551116943,
	"loss/twn": 0.0,
	"step": 819
	},
	{
	"epoch": 0.0205,
	"grad_norm": 9.6875,
	"grad_norm_var": 6074.315559895834,
	"learning_rate": 0.0001,
	"loss": 7.3712,
	"loss/crossentropy": 1.9426707029342651,
	"loss/hidden": 0.1923828125,
	"loss/logits": 0.005748513620346785,
	"loss/reg": 5.230403900146484,
	"loss/twn": 0.0,
	"step": 820
	},
	{
	"epoch": 0.020525,
	"grad_norm": 10.0,
	"grad_norm_var": 6064.3275390625,
	"learning_rate": 0.0001,
	"loss": 8.233,
	"loss/crossentropy": 2.895735025405884,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.008359922096133232,
	"loss/reg": 5.230307102203369,
	"loss/twn": 0.0,
	"step": 821
	},
	{
	"epoch": 0.02055,
	"grad_norm": 11.8125,
	"grad_norm_var": 6058.576806640625,
	"learning_rate": 0.0001,
	"loss": 7.0902,
	"loss/crossentropy": 1.73037588596344,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.009449999779462814,
	"loss/reg": 5.230698585510254,
	"loss/twn": 0.0,
	"step": 822
	},
	{
	"epoch": 0.020575,
	"grad_norm": 11.125,
	"grad_norm_var": 6085.305322265625,
	"learning_rate": 0.0001,
	"loss": 7.9687,
	"loss/crossentropy": 2.613971471786499,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.0068368250504136086,
	"loss/reg": 5.230223178863525,
	"loss/twn": 0.0,
	"step": 823
	},
	{
	"epoch": 0.0206,
	"grad_norm": 13.625,
	"grad_norm_var": 6073.468212890625,
	"learning_rate": 0.0001,
	"loss": 7.6646,
	"loss/crossentropy": 2.2981951236724854,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.01143670454621315,
	"loss/reg": 5.230466842651367,
	"loss/twn": 0.0,
	"step": 824
	},
	{
	"epoch": 0.020625,
	"grad_norm": 9.1875,
	"grad_norm_var": 6074.676302083333,
	"learning_rate": 0.0001,
	"loss": 7.9187,
	"loss/crossentropy": 2.578167676925659,
	"loss/hidden": 0.10546875,
	"loss/logits": 0.005032903980463743,
	"loss/reg": 5.2300333976745605,
	"loss/twn": 0.0,
	"step": 825
	},
	{
	"epoch": 0.02065,
	"grad_norm": 12.3125,
	"grad_norm_var": 6085.2015625,
	"learning_rate": 0.0001,
	"loss": 7.4645,
	"loss/crossentropy": 2.171114444732666,
	"loss/hidden": 0.0595703125,
	"loss/logits": 0.003213082440197468,
	"loss/reg": 5.23060417175293,
	"loss/twn": 0.0,
	"step": 826
	},
	{
	"epoch": 0.020675,
	"grad_norm": 7.75,
	"grad_norm_var": 6088.936181640625,
	"learning_rate": 0.0001,
	"loss": 7.2651,
	"loss/crossentropy": 1.9576009511947632,
	"loss/hidden": 0.0693359375,
	"loss/logits": 0.008241134695708752,
	"loss/reg": 5.229961395263672,
	"loss/twn": 0.0,
	"step": 827
	},
	{
	"epoch": 0.0207,
	"grad_norm": 9.1875,
	"grad_norm_var": 6140.7796875,
	"learning_rate": 0.0001,
	"loss": 6.9102,
	"loss/crossentropy": 1.5859615802764893,
	"loss/hidden": 0.09130859375,
	"loss/logits": 0.0022871571127325296,
	"loss/reg": 5.230637550354004,
	"loss/twn": 0.0,
	"step": 828
	},
	{
	"epoch": 0.020725,
	"grad_norm": 8.875,
	"grad_norm_var": 6154.396354166666,
	"learning_rate": 0.0001,
	"loss": 6.8867,
	"loss/crossentropy": 1.5643407106399536,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.005755975842475891,
	"loss/reg": 5.230214595794678,
	"loss/twn": 0.0,
	"step": 829
	},
	{
	"epoch": 0.02075,
	"grad_norm": 79.5,
	"grad_norm_var": 6269.947395833334,
	"learning_rate": 0.0001,
	"loss": 6.9087,
	"loss/crossentropy": 1.5483061075210571,
	"loss/hidden": 0.12451171875,
	"loss/logits": 0.005769835785031319,
	"loss/reg": 5.230134963989258,
	"loss/twn": 0.0,
	"step": 830
	},
	{
	"epoch": 0.020775,
	"grad_norm": 10.25,
	"grad_norm_var": 423.63880208333336,
	"learning_rate": 0.0001,
	"loss": 8.0232,
	"loss/crossentropy": 2.6613450050354004,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.004578165709972382,
	"loss/reg": 5.2303147315979,
	"loss/twn": 0.0,
	"step": 831
	},
	{
	"epoch": 0.0208,
	"grad_norm": 11.9375,
	"grad_norm_var": 297.382275390625,
	"learning_rate": 0.0001,
	"loss": 7.1745,
	"loss/crossentropy": 1.7624868154525757,
	"loss/hidden": 0.1708984375,
	"loss/logits": 0.0105954110622406,
	"loss/reg": 5.2305684089660645,
	"loss/twn": 0.0,
	"step": 832
	},
	{
	"epoch": 0.020825,
	"grad_norm": 11.8125,
	"grad_norm_var": 298.63019205729165,
	"learning_rate": 0.0001,
	"loss": 8.0084,
	"loss/crossentropy": 2.670598030090332,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.009010246023535728,
	"loss/reg": 5.230124473571777,
	"loss/twn": 0.0,
	"step": 833
	},
	{
	"epoch": 0.02085,
	"grad_norm": 11.6875,
	"grad_norm_var": 299.41979166666664,
	"learning_rate": 0.0001,
	"loss": 7.9989,
	"loss/crossentropy": 2.6066150665283203,
	"loss/hidden": 0.1533203125,
	"loss/logits": 0.008532057516276836,
	"loss/reg": 5.230454444885254,
	"loss/twn": 0.0,
	"step": 834
	},
	{
	"epoch": 0.020875,
	"grad_norm": 21.375,
	"grad_norm_var": 299.51451822916664,
	"learning_rate": 0.0001,
	"loss": 8.5087,
	"loss/crossentropy": 3.1679840087890625,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.009620252065360546,
	"loss/reg": 5.230065822601318,
	"loss/twn": 0.0,
	"step": 835
	},
	{
	"epoch": 0.0209,
	"grad_norm": 44.0,
	"grad_norm_var": 345.89894205729166,
	"learning_rate": 0.0001,
	"loss": 7.9201,
	"loss/crossentropy": 2.6046769618988037,
	"loss/hidden": 0.080078125,
	"loss/logits": 0.004920288920402527,
	"loss/reg": 5.230381488800049,
	"loss/twn": 0.0,
	"step": 836
	},
	{
	"epoch": 0.020925,
	"grad_norm": 8.875,
	"grad_norm_var": 347.14464518229164,
	"learning_rate": 0.0001,
	"loss": 7.3371,
	"loss/crossentropy": 1.9817231893539429,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.007638626731932163,
	"loss/reg": 5.230074405670166,
	"loss/twn": 0.0,
	"step": 837
	},
	{
	"epoch": 0.02095,
	"grad_norm": 42.25,
	"grad_norm_var": 381.12526041666666,
	"learning_rate": 0.0001,
	"loss": 8.104,
	"loss/crossentropy": 2.708381414413452,
	"loss/hidden": 0.1513671875,
	"loss/logits": 0.013956461101770401,
	"loss/reg": 5.230310440063477,
	"loss/twn": 0.0,
	"step": 838
	},
	{
	"epoch": 0.020975,
	"grad_norm": 15.75,
	"grad_norm_var": 377.2301432291667,
	"learning_rate": 0.0001,
	"loss": 7.4726,
	"loss/crossentropy": 2.0920002460479736,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.00805431604385376,
	"loss/reg": 5.230012893676758,
	"loss/twn": 0.0,
	"step": 839
	},
	{
	"epoch": 0.021,
	"grad_norm": 15.5,
	"grad_norm_var": 375.8815104166667,
	"learning_rate": 0.0001,
	"loss": 8.1933,
	"loss/crossentropy": 2.8643245697021484,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.012173913419246674,
	"loss/reg": 5.230340480804443,
	"loss/twn": 0.0,
	"step": 840
	},
	{
	"epoch": 0.021025,
	"grad_norm": 15.8125,
	"grad_norm_var": 369.05983072916666,
	"learning_rate": 0.0001,
	"loss": 7.1166,
	"loss/crossentropy": 1.7462717294692993,
	"loss/hidden": 0.126953125,
	"loss/logits": 0.0133826844394207,
	"loss/reg": 5.2299885749816895,
	"loss/twn": 0.0,
	"step": 841
	},
	{
	"epoch": 0.02105,
	"grad_norm": 11.25,
	"grad_norm_var": 370.280322265625,
	"learning_rate": 0.0001,
	"loss": 8.2839,
	"loss/crossentropy": 2.8843467235565186,
	"loss/hidden": 0.1591796875,
	"loss/logits": 0.01038344856351614,
	"loss/reg": 5.229991912841797,
	"loss/twn": 0.0,
	"step": 842
	},
	{
	"epoch": 0.021075,
	"grad_norm": 10.5,
	"grad_norm_var": 366.12810872395835,
	"learning_rate": 0.0001,
	"loss": 7.9547,
	"loss/crossentropy": 2.5944228172302246,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.009886080399155617,
	"loss/reg": 5.230307579040527,
	"loss/twn": 0.0,
	"step": 843
	},
	{
	"epoch": 0.0211,
	"grad_norm": 9.125,
	"grad_norm_var": 366.22291666666666,
	"learning_rate": 0.0001,
	"loss": 7.8067,
	"loss/crossentropy": 2.4823381900787354,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.007714688777923584,
	"loss/reg": 5.2301812171936035,
	"loss/twn": 0.0,
	"step": 844
	},
	{
	"epoch": 0.021125,
	"grad_norm": 10.125,
	"grad_norm_var": 364.37786458333335,
	"learning_rate": 0.0001,
	"loss": 7.77,
	"loss/crossentropy": 2.477754592895508,
	"loss/hidden": 0.058837890625,
	"loss/logits": 0.0033183712512254715,
	"loss/reg": 5.2300519943237305,
	"loss/twn": 0.0,
	"step": 845
	},
	{
	"epoch": 0.02115,
	"grad_norm": 8.125,
	"grad_norm_var": 122.33483072916667,
	"learning_rate": 0.0001,
	"loss": 6.1579,
	"loss/crossentropy": 0.859074056148529,
	"loss/hidden": 0.06689453125,
	"loss/logits": 0.0018144365167245269,
	"loss/reg": 5.230114936828613,
	"loss/twn": 0.0,
	"step": 846
	},
	{
	"epoch": 0.021175,
	"grad_norm": 11.375,
	"grad_norm_var": 121.52916666666667,
	"learning_rate": 0.0001,
	"loss": 7.8874,
	"loss/crossentropy": 2.5228824615478516,
	"loss/hidden": 0.1279296875,
	"loss/logits": 0.006642586551606655,
	"loss/reg": 5.229929447174072,
	"loss/twn": 0.0,
	"step": 847
	},
	{
	"epoch": 0.0212,
	"grad_norm": 7.84375,
	"grad_norm_var": 124.91343994140625,
	"learning_rate": 0.0001,
	"loss": 7.0446,
	"loss/crossentropy": 1.6815242767333984,
	"loss/hidden": 0.123046875,
	"loss/logits": 0.009667545557022095,
	"loss/reg": 5.230370044708252,
	"loss/twn": 0.0,
	"step": 848
	},
	{
	"epoch": 0.021225,
	"grad_norm": 10.875,
	"grad_norm_var": 125.48717041015625,
	"learning_rate": 0.0001,
	"loss": 7.8503,
	"loss/crossentropy": 2.5361642837524414,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.004664687905460596,
	"loss/reg": 5.230417728424072,
	"loss/twn": 0.0,
	"step": 849
	},
	{
	"epoch": 0.02125,
	"grad_norm": 8.5625,
	"grad_norm_var": 127.85452067057291,
	"learning_rate": 0.0001,
	"loss": 7.3983,
	"loss/crossentropy": 2.035668134689331,
	"loss/hidden": 0.125,
	"loss/logits": 0.00722795445472002,
	"loss/reg": 5.230389595031738,
	"loss/twn": 0.0,
	"step": 850
	},
	{
	"epoch": 0.021275,
	"grad_norm": 12.5,
	"grad_norm_var": 126.07258707682291,
	"learning_rate": 0.0001,
	"loss": 7.8854,
	"loss/crossentropy": 2.4939327239990234,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.012096907943487167,
	"loss/reg": 5.229991912841797,
	"loss/twn": 0.0,
	"step": 851
	},
	{
	"epoch": 0.0213,
	"grad_norm": 11.5,
	"grad_norm_var": 67.09016520182291,
	"learning_rate": 0.0001,
	"loss": 6.8451,
	"loss/crossentropy": 1.4572025537490845,
	"loss/hidden": 0.14453125,
	"loss/logits": 0.013090159744024277,
	"loss/reg": 5.230262756347656,
	"loss/twn": 0.0,
	"step": 852
	},
	{
	"epoch": 0.021325,
	"grad_norm": 12.0625,
	"grad_norm_var": 65.91975504557291,
	"learning_rate": 0.0001,
	"loss": 7.7312,
	"loss/crossentropy": 2.376828193664551,
	"loss/hidden": 0.115234375,
	"loss/logits": 0.009080484509468079,
	"loss/reg": 5.230012893676758,
	"loss/twn": 0.0,
	"step": 853
	},
	{
	"epoch": 0.02135,
	"grad_norm": 11.75,
	"grad_norm_var": 6.420926920572916,
	"learning_rate": 0.0001,
	"loss": 7.0291,
	"loss/crossentropy": 1.6736173629760742,
	"loss/hidden": 0.12060546875,
	"loss/logits": 0.004477534908801317,
	"loss/reg": 5.230405807495117,
	"loss/twn": 0.0,
	"step": 854
	},
	{
	"epoch": 0.021375,
	"grad_norm": 12.0,
	"grad_norm_var": 5.132840983072916,
	"learning_rate": 0.0001,
	"loss": 6.8586,
	"loss/crossentropy": 1.5102664232254028,
	"loss/hidden": 0.1103515625,
	"loss/logits": 0.008198726922273636,
	"loss/reg": 5.229762077331543,
	"loss/twn": 0.0,
	"step": 855
	},
	{
	"epoch": 0.0214,
	"grad_norm": 38.0,
	"grad_norm_var": 49.72854410807292,
	"learning_rate": 0.0001,
	"loss": 7.6098,
	"loss/crossentropy": 2.24526047706604,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.011424753814935684,
	"loss/reg": 5.23051118850708,
	"loss/twn": 0.0,
	"step": 856
	},
	{
	"epoch": 0.021425,
	"grad_norm": 164.0,
	"grad_norm_var": 1485.9123982747396,
	"learning_rate": 0.0001,
	"loss": 7.3561,
	"loss/crossentropy": 1.972996711730957,
	"loss/hidden": 0.14453125,
	"loss/logits": 0.008586418814957142,
	"loss/reg": 5.230007648468018,
	"loss/twn": 0.0,
	"step": 857
	},
	{
	"epoch": 0.02145,
	"grad_norm": 24.25,
	"grad_norm_var": 1478.1022420247396,
	"learning_rate": 0.0001,
	"loss": 7.1992,
	"loss/crossentropy": 1.7982319593429565,
	"loss/hidden": 0.1611328125,
	"loss/logits": 0.009712583385407925,
	"loss/reg": 5.230077743530273,
	"loss/twn": 0.0,
	"step": 858
	},
	{
	"epoch": 0.021475,
	"grad_norm": 55.0,
	"grad_norm_var": 1529.7060180664062,
	"learning_rate": 0.0001,
	"loss": 6.8691,
	"loss/crossentropy": 1.487571358680725,
	"loss/hidden": 0.1416015625,
	"loss/logits": 0.009719829075038433,
	"loss/reg": 5.230188369750977,
	"loss/twn": 0.0,
	"step": 859
	},
	{
	"epoch": 0.0215,
	"grad_norm": 37.75,
	"grad_norm_var": 1518.6361938476562,
	"learning_rate": 0.0001,
	"loss": 6.2527,
	"loss/crossentropy": 0.7488301396369934,
	"loss/hidden": 0.263671875,
	"loss/logits": 0.010243739932775497,
	"loss/reg": 5.229933261871338,
	"loss/twn": 0.0,
	"step": 860
	},
	{
	"epoch": 0.021525,
	"grad_norm": 22.75,
	"grad_norm_var": 1499.8006144205729,
	"learning_rate": 0.0001,
	"loss": 6.8342,
	"loss/crossentropy": 1.4506139755249023,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.002946457825601101,
	"loss/reg": 5.23027229309082,
	"loss/twn": 0.0,
	"step": 861
	},
	{
	"epoch": 0.02155,
	"grad_norm": 26.125,
	"grad_norm_var": 1472.299051920573,
	"learning_rate": 0.0001,
	"loss": 8.298,
	"loss/crossentropy": 2.793138265609741,
	"loss/hidden": 0.2578125,
	"loss/logits": 0.016960376873612404,
	"loss/reg": 5.230113506317139,
	"loss/twn": 0.0,
	"step": 862
	},
	{
	"epoch": 0.021575,
	"grad_norm": 12.0,
	"grad_norm_var": 1470.842508951823,
	"learning_rate": 0.0001,
	"loss": 8.426,
	"loss/crossentropy": 3.0826714038848877,
	"loss/hidden": 0.10302734375,
	"loss/logits": 0.009999147616326809,
	"loss/reg": 5.230251789093018,
	"loss/twn": 0.0,
	"step": 863
	},
	{
	"epoch": 0.0216,
	"grad_norm": 170.0,
	"grad_norm_var": 2652.8306640625,
	"learning_rate": 0.0001,
	"loss": 8.011,
	"loss/crossentropy": 2.557135820388794,
	"loss/hidden": 0.205078125,
	"loss/logits": 0.018819302320480347,
	"loss/reg": 5.2300004959106445,
	"loss/twn": 0.0,
	"step": 864
	},
	{
	"epoch": 0.021625,
	"grad_norm": 9.8125,
	"grad_norm_var": 2656.930973307292,
	"learning_rate": 0.0001,
	"loss": 6.4711,
	"loss/crossentropy": 1.1575171947479248,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.004193156957626343,
	"loss/reg": 5.230248928070068,
	"loss/twn": 0.0,
	"step": 865
	},
	{
	"epoch": 0.02165,
	"grad_norm": 10.125,
	"grad_norm_var": 2650.689518229167,
	"learning_rate": 0.0001,
	"loss": 7.0724,
	"loss/crossentropy": 1.6960041522979736,
	"loss/hidden": 0.13671875,
	"loss/logits": 0.009182040579617023,
	"loss/reg": 5.230460166931152,
	"loss/twn": 0.0,
	"step": 866
	},
	{
	"epoch": 0.021675,
	"grad_norm": 7.875,
	"grad_norm_var": 2668.584895833333,
	"learning_rate": 0.0001,
	"loss": 7.1586,
	"loss/crossentropy": 1.821337103843689,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.00650972593575716,
	"loss/reg": 5.229717254638672,
	"loss/twn": 0.0,
	"step": 867
	},
	{
	"epoch": 0.0217,
	"grad_norm": 14.6875,
	"grad_norm_var": 2657.5058430989584,
	"learning_rate": 0.0001,
	"loss": 8.054,
	"loss/crossentropy": 2.651723623275757,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.01694151759147644,
	"loss/reg": 5.230074405670166,
	"loss/twn": 0.0,
	"step": 868
	},
	{
	"epoch": 0.021725,
	"grad_norm": 17.5,
	"grad_norm_var": 2639.634309895833,
	"learning_rate": 0.0001,
	"loss": 7.8281,
	"loss/crossentropy": 2.49051570892334,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.009045520797371864,
	"loss/reg": 5.229867935180664,
	"loss/twn": 0.0,
	"step": 869
	},
	{
	"epoch": 0.02175,
	"grad_norm": 13.4375,
	"grad_norm_var": 2633.545686848958,
	"learning_rate": 0.0001,
	"loss": 7.0012,
	"loss/crossentropy": 1.546895146369934,
	"loss/hidden": 0.21484375,
	"loss/logits": 0.009267905727028847,
	"loss/reg": 5.230212211608887,
	"loss/twn": 0.0,
	"step": 870
	},
	{
	"epoch": 0.021775,
	"grad_norm": 14.9375,
	"grad_norm_var": 2623.2330729166665,
	"learning_rate": 0.0001,
	"loss": 7.582,
	"loss/crossentropy": 2.2645156383514404,
	"loss/hidden": 0.08154296875,
	"loss/logits": 0.006237420719116926,
	"loss/reg": 5.229740619659424,
	"loss/twn": 0.0,
	"step": 871
	},
	{
	"epoch": 0.0218,
	"grad_norm": 12.6875,
	"grad_norm_var": 2669.6590983072915,
	"learning_rate": 0.0001,
	"loss": 6.8665,
	"loss/crossentropy": 1.5306649208068848,
	"loss/hidden": 0.1005859375,
	"loss/logits": 0.004954389296472073,
	"loss/reg": 5.230282306671143,
	"loss/twn": 0.0,
	"step": 872
	},
	{
	"epoch": 0.021825,
	"grad_norm": 35.0,
	"grad_norm_var": 1547.8294108072917,
	"learning_rate": 0.0001,
	"loss": 8.1648,
	"loss/crossentropy": 2.7598485946655273,
	"loss/hidden": 0.1611328125,
	"loss/logits": 0.014029700309038162,
	"loss/reg": 5.229771137237549,
	"loss/twn": 0.0,
	"step": 873
	},
	{
	"epoch": 0.02185,
	"grad_norm": 9.375,
	"grad_norm_var": 1573.5507649739584,
	"learning_rate": 0.0001,
	"loss": 6.9286,
	"loss/crossentropy": 1.5998884439468384,
	"loss/hidden": 0.09521484375,
	"loss/logits": 0.003966475836932659,
	"loss/reg": 5.2295050621032715,
	"loss/twn": 0.0,
	"step": 874
	},
	{
	"epoch": 0.021875,
	"grad_norm": 13.375,
	"grad_norm_var": 1539.2968587239584,
	"learning_rate": 0.0001,
	"loss": 8.1337,
	"loss/crossentropy": 2.756443977355957,
	"loss/hidden": 0.1357421875,
	"loss/logits": 0.011736356653273106,
	"loss/reg": 5.229776859283447,
	"loss/twn": 0.0,
	"step": 875
	},
	{
	"epoch": 0.0219,
	"grad_norm": 14.1875,
	"grad_norm_var": 1539.3275390625,
	"learning_rate": 0.0001,
	"loss": 8.4196,
	"loss/crossentropy": 3.001187324523926,
	"loss/hidden": 0.171875,
	"loss/logits": 0.01653527095913887,
	"loss/reg": 5.230004787445068,
	"loss/twn": 0.0,
	"step": 876
	},
	{
	"epoch": 0.021925,
	"grad_norm": 10.0625,
	"grad_norm_var": 1553.6042805989584,
	"learning_rate": 0.0001,
	"loss": 7.6758,
	"loss/crossentropy": 2.371596097946167,
	"loss/hidden": 0.0693359375,
	"loss/logits": 0.004934161901473999,
	"loss/reg": 5.229954242706299,
	"loss/twn": 0.0,
	"step": 877
	},
	{
	"epoch": 0.02195,
	"grad_norm": 15.25,
	"grad_norm_var": 1558.5659993489583,
	"learning_rate": 0.0001,
	"loss": 7.0978,
	"loss/crossentropy": 1.6408387422561646,
	"loss/hidden": 0.208984375,
	"loss/logits": 0.017855621874332428,
	"loss/reg": 5.230149745941162,
	"loss/twn": 0.0,
	"step": 878
	},
	{
	"epoch": 0.021975,
	"grad_norm": 11.6875,
	"grad_norm_var": 1559.0625,
	"learning_rate": 0.0001,
	"loss": 7.826,
	"loss/crossentropy": 2.489450454711914,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.005990723147988319,
	"loss/reg": 5.22952938079834,
	"loss/twn": 0.0,
	"step": 879
	},
	{
	"epoch": 0.022,
	"grad_norm": 142.0,
	"grad_norm_var": 1062.0625,
	"learning_rate": 0.0001,
	"loss": 6.2769,
	"loss/crossentropy": 0.8815757632255554,
	"loss/hidden": 0.1513671875,
	"loss/logits": 0.01392771303653717,
	"loss/reg": 5.230021953582764,
	"loss/twn": 0.0,
	"step": 880
	},
	{
	"epoch": 0.022025,
	"grad_norm": 9.75,
	"grad_norm_var": 1062.164306640625,
	"learning_rate": 0.0001,
	"loss": 7.2034,
	"loss/crossentropy": 1.8355108499526978,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.00601241085678339,
	"loss/reg": 5.230048656463623,
	"loss/twn": 0.0,
	"step": 881
	},
	{
	"epoch": 0.02205,
	"grad_norm": 10.5625,
	"grad_norm_var": 1061.4837890625,
	"learning_rate": 0.0001,
	"loss": 6.8518,
	"loss/crossentropy": 1.397723913192749,
	"loss/hidden": 0.2158203125,
	"loss/logits": 0.00827928725630045,
	"loss/reg": 5.229991912841797,
	"loss/twn": 0.0,
	"step": 882
	},
	{
	"epoch": 0.022075,
	"grad_norm": 10.6875,
	"grad_norm_var": 1056.672509765625,
	"learning_rate": 0.0001,
	"loss": 8.2004,
	"loss/crossentropy": 2.9133853912353516,
	"loss/hidden": 0.05224609375,
	"loss/logits": 0.005087848752737045,
	"loss/reg": 5.2297210693359375,
	"loss/twn": 0.0,
	"step": 883
	},
	{
	"epoch": 0.0221,
	"grad_norm": 37.75,
	"grad_norm_var": 1066.81640625,
	"learning_rate": 0.0001,
	"loss": 6.094,
	"loss/crossentropy": 0.7456091046333313,
	"loss/hidden": 0.1162109375,
	"loss/logits": 0.002344908192753792,
	"loss/reg": 5.229843616485596,
	"loss/twn": 0.0,
	"step": 884
	},
	{
	"epoch": 0.022125,
	"grad_norm": 14.3125,
	"grad_norm_var": 1070.061181640625,
	"learning_rate": 0.0001,
	"loss": 7.1178,
	"loss/crossentropy": 1.7599776983261108,
	"loss/hidden": 0.12109375,
	"loss/logits": 0.0070150988176465034,
	"loss/reg": 5.229736804962158,
	"loss/twn": 0.0,
	"step": 885
	},
	{
	"epoch": 0.02215,
	"grad_norm": 18.0,
	"grad_norm_var": 1065.2764973958333,
	"learning_rate": 0.0001,
	"loss": 6.9191,
	"loss/crossentropy": 1.5698696374893188,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.009311170317232609,
	"loss/reg": 5.230006217956543,
	"loss/twn": 0.0,
	"step": 886
	},
	{
	"epoch": 0.022175,
	"grad_norm": 12.875,
	"grad_norm_var": 1067.9593587239583,
	"learning_rate": 0.0001,
	"loss": 7.0143,
	"loss/crossentropy": 1.6162168979644775,
	"loss/hidden": 0.1552734375,
	"loss/logits": 0.013361955992877483,
	"loss/reg": 5.229493618011475,
	"loss/twn": 0.0,
	"step": 887
	},
	{
	"epoch": 0.0222,
	"grad_norm": 13.4375,
	"grad_norm_var": 1066.9034993489583,
	"learning_rate": 0.0001,
	"loss": 8.1799,
	"loss/crossentropy": 2.848146915435791,
	"loss/hidden": 0.09375,
	"loss/logits": 0.008583602495491505,
	"loss/reg": 5.229381561279297,
	"loss/twn": 0.0,
	"step": 888
	},
	{
	"epoch": 0.022225,
	"grad_norm": 18.75,
	"grad_norm_var": 1058.8038899739583,
	"learning_rate": 0.0001,
	"loss": 8.1476,
	"loss/crossentropy": 2.7504210472106934,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.00982433557510376,
	"loss/reg": 5.229184627532959,
	"loss/twn": 0.0,
	"step": 889
	},
	{
	"epoch": 0.02225,
	"grad_norm": 57.25,
	"grad_norm_var": 1117.4507649739583,
	"learning_rate": 0.0001,
	"loss": 6.9922,
	"loss/crossentropy": 1.6320585012435913,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.01302691176533699,
	"loss/reg": 5.229902267456055,
	"loss/twn": 0.0,
	"step": 890
	},
	{
	"epoch": 0.022275,
	"grad_norm": 11.125,
	"grad_norm_var": 1121.4409993489583,
	"learning_rate": 0.0001,
	"loss": 7.9641,
	"loss/crossentropy": 2.6222574710845947,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.011231745593249798,
	"loss/reg": 5.229504108428955,
	"loss/twn": 0.0,
	"step": 891
	},
	{
	"epoch": 0.0223,
	"grad_norm": 7.65625,
	"grad_norm_var": 1133.9413696289062,
	"learning_rate": 0.0001,
	"loss": 7.5977,
	"loss/crossentropy": 2.262641191482544,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.008943114429712296,
	"loss/reg": 5.229957103729248,
	"loss/twn": 0.0,
	"step": 892
	},
	{
	"epoch": 0.022325,
	"grad_norm": 11.3125,
	"grad_norm_var": 1131.5373982747396,
	"learning_rate": 0.0001,
	"loss": 7.885,
	"loss/crossentropy": 2.514071226119995,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.006755891256034374,
	"loss/reg": 5.229411602020264,
	"loss/twn": 0.0,
	"step": 893
	},
	{
	"epoch": 0.02235,
	"grad_norm": 31.875,
	"grad_norm_var": 1126.865946451823,
	"learning_rate": 0.0001,
	"loss": 6.8167,
	"loss/crossentropy": 1.4057066440582275,
	"loss/hidden": 0.17578125,
	"loss/logits": 0.005477352067828178,
	"loss/reg": 5.229723930358887,
	"loss/twn": 0.0,
	"step": 894
	},
	{
	"epoch": 0.022375,
	"grad_norm": 10.375,
	"grad_norm_var": 1129.511454264323,
	"learning_rate": 0.0001,
	"loss": 7.7274,
	"loss/crossentropy": 2.414677381515503,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.004009230528026819,
	"loss/reg": 5.229562282562256,
	"loss/twn": 0.0,
	"step": 895
	},
	{
	"epoch": 0.0224,
	"grad_norm": 11.125,
	"grad_norm_var": 177.70256754557292,
	"learning_rate": 0.0001,
	"loss": 6.6999,
	"loss/crossentropy": 1.3421200513839722,
	"loss/hidden": 0.1220703125,
	"loss/logits": 0.006061128340661526,
	"loss/reg": 5.229669094085693,
	"loss/twn": 0.0,
	"step": 896
	},
	{
	"epoch": 0.022425,
	"grad_norm": 20.125,
	"grad_norm_var": 173.1175740559896,
	"learning_rate": 0.0001,
	"loss": 7.0618,
	"loss/crossentropy": 1.6401444673538208,
	"loss/hidden": 0.1806640625,
	"loss/logits": 0.011477080173790455,
	"loss/reg": 5.229546546936035,
	"loss/twn": 0.0,
	"step": 897
	},
	{
	"epoch": 0.02245,
	"grad_norm": 9.5,
	"grad_norm_var": 174.32340087890626,
	"learning_rate": 0.0001,
	"loss": 7.0679,
	"loss/crossentropy": 1.6865355968475342,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.007968233898282051,
	"loss/reg": 5.229793071746826,
	"loss/twn": 0.0,
	"step": 898
	},
	{
	"epoch": 0.022475,
	"grad_norm": 9.5625,
	"grad_norm_var": 175.57584228515626,
	"learning_rate": 0.0001,
	"loss": 6.9239,
	"loss/crossentropy": 1.5547279119491577,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.006813929416239262,
	"loss/reg": 5.229519844055176,
	"loss/twn": 0.0,
	"step": 899
	},
	{
	"epoch": 0.0225,
	"grad_norm": 15.1875,
	"grad_norm_var": 149.29993082682293,
	"learning_rate": 0.0001,
	"loss": 7.6572,
	"loss/crossentropy": 2.416555166244507,
	"loss/hidden": 0.0093994140625,
	"loss/logits": 0.001800237107090652,
	"loss/reg": 5.229480266571045,
	"loss/twn": 0.0,
	"step": 900
	},
	{
	"epoch": 0.022525,
	"grad_norm": 21.5,
	"grad_norm_var": 149.9250935872396,
	"learning_rate": 0.0001,
	"loss": 8.2505,
	"loss/crossentropy": 2.8510868549346924,
	"loss/hidden": 0.1591796875,
	"loss/logits": 0.01060121227055788,
	"loss/reg": 5.229599952697754,
	"loss/twn": 0.0,
	"step": 901
	},
	{
	"epoch": 0.02255,
	"grad_norm": 9.6875,
	"grad_norm_var": 153.66571858723958,
	"learning_rate": 0.0001,
	"loss": 7.8264,
	"loss/crossentropy": 2.532890796661377,
	"loss/hidden": 0.0595703125,
	"loss/logits": 0.004101074766367674,
	"loss/reg": 5.229794979095459,
	"loss/twn": 0.0,
	"step": 902
	},
	{
	"epoch": 0.022575,
	"grad_norm": 41.75,
	"grad_norm_var": 190.05273030598957,
	"learning_rate": 0.0001,
	"loss": 7.0146,
	"loss/crossentropy": 1.6412537097930908,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.008777379989624023,
	"loss/reg": 5.229798793792725,
	"loss/twn": 0.0,
	"step": 903
	},
	{
	"epoch": 0.0226,
	"grad_norm": 15.625,
	"grad_norm_var": 188.79833577473957,
	"learning_rate": 0.0001,
	"loss": 8.2633,
	"loss/crossentropy": 2.9667930603027344,
	"loss/hidden": 0.06201171875,
	"loss/logits": 0.005043432116508484,
	"loss/reg": 5.229448318481445,
	"loss/twn": 0.0,
	"step": 904
	},
	{
	"epoch": 0.022625,
	"grad_norm": 12.4375,
	"grad_norm_var": 191.41539306640624,
	"learning_rate": 0.0001,
	"loss": 8.0256,
	"loss/crossentropy": 2.680783987045288,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.005312731955200434,
	"loss/reg": 5.229615211486816,
	"loss/twn": 0.0,
	"step": 905
	},
	{
	"epoch": 0.02265,
	"grad_norm": 16.625,
	"grad_norm_var": 84.70071207682291,
	"learning_rate": 0.0001,
	"loss": 7.5648,
	"loss/crossentropy": 2.088520050048828,
	"loss/hidden": 0.234375,
	"loss/logits": 0.012642334215342999,
	"loss/reg": 5.229223251342773,
	"loss/twn": 0.0,
	"step": 906
	},
	{
	"epoch": 0.022675,
	"grad_norm": 24.125,
	"grad_norm_var": 86.87076416015626,
	"learning_rate": 0.0001,
	"loss": 5.9125,
	"loss/crossentropy": 0.48404479026794434,
	"loss/hidden": 0.1904296875,
	"loss/logits": 0.008365976624190807,
	"loss/reg": 5.2296600341796875,
	"loss/twn": 0.0,
	"step": 907
	},
	{
	"epoch": 0.0227,
	"grad_norm": 11.0,
	"grad_norm_var": 83.502197265625,
	"learning_rate": 0.0001,
	"loss": 6.8349,
	"loss/crossentropy": 1.4288034439086914,
	"loss/hidden": 0.1669921875,
	"loss/logits": 0.009537655860185623,
	"loss/reg": 5.229605674743652,
	"loss/twn": 0.0,
	"step": 908
	},
	{
	"epoch": 0.022725,
	"grad_norm": 16.75,
	"grad_norm_var": 81.23515625,
	"learning_rate": 0.0001,
	"loss": 7.9611,
	"loss/crossentropy": 2.5989267826080322,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.012637370266020298,
	"loss/reg": 5.22941255569458,
	"loss/twn": 0.0,
	"step": 909
	},
	{
	"epoch": 0.02275,
	"grad_norm": 15.8125,
	"grad_norm_var": 66.20584309895834,
	"learning_rate": 0.0001,
	"loss": 7.4412,
	"loss/crossentropy": 2.0751564502716064,
	"loss/hidden": 0.125,
	"loss/logits": 0.011572781018912792,
	"loss/reg": 5.229443550109863,
	"loss/twn": 0.0,
	"step": 910
	},
	{
	"epoch": 0.022775,
	"grad_norm": 13.0,
	"grad_norm_var": 64.55428059895833,
	"learning_rate": 0.0001,
	"loss": 6.7192,
	"loss/crossentropy": 1.3851910829544067,
	"loss/hidden": 0.09716796875,
	"loss/logits": 0.007330389227718115,
	"loss/reg": 5.229530334472656,
	"loss/twn": 0.0,
	"step": 911
	},
	{
	"epoch": 0.0228,
	"grad_norm": 12.125,
	"grad_norm_var": 63.901676432291666,
	"learning_rate": 0.0001,
	"loss": 7.152,
	"loss/crossentropy": 1.8044177293777466,
	"loss/hidden": 0.1123046875,
	"loss/logits": 0.005986911244690418,
	"loss/reg": 5.22929048538208,
	"loss/twn": 0.0,
	"step": 912
	},
	{
	"epoch": 0.022825,
	"grad_norm": 8.8125,
	"grad_norm_var": 66.50885416666667,
	"learning_rate": 0.0001,
	"loss": 8.4326,
	"loss/crossentropy": 3.201655864715576,
	"loss/hidden": 4.380941390991211e-06,
	"loss/logits": 0.0015021440340206027,
	"loss/reg": 5.229450702667236,
	"loss/twn": 0.0,
	"step": 913
	},
	{
	"epoch": 0.02285,
	"grad_norm": 10.3125,
	"grad_norm_var": 65.86287434895833,
	"learning_rate": 0.0001,
	"loss": 6.5774,
	"loss/crossentropy": 1.2178183794021606,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.007649564184248447,
	"loss/reg": 5.22938346862793,
	"loss/twn": 0.0,
	"step": 914
	},
	{
	"epoch": 0.022875,
	"grad_norm": 13.0,
	"grad_norm_var": 63.69921875,
	"learning_rate": 0.0001,
	"loss": 7.8085,
	"loss/crossentropy": 2.4297561645507812,
	"loss/hidden": 0.1376953125,
	"loss/logits": 0.011574456468224525,
	"loss/reg": 5.2294511795043945,
	"loss/twn": 0.0,
	"step": 915
	},
	{
	"epoch": 0.0229,
	"grad_norm": 13.25,
	"grad_norm_var": 64.17198893229167,
	"learning_rate": 0.0001,
	"loss": 7.9386,
	"loss/crossentropy": 2.616173028945923,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.0062749385833740234,
	"loss/reg": 5.229771137237549,
	"loss/twn": 0.0,
	"step": 916
	},
	{
	"epoch": 0.022925,
	"grad_norm": 10.6875,
	"grad_norm_var": 63.5328125,
	"learning_rate": 0.0001,
	"loss": 8.1081,
	"loss/crossentropy": 2.7487690448760986,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.009604476392269135,
	"loss/reg": 5.2296576499938965,
	"loss/twn": 0.0,
	"step": 917
	},
	{
	"epoch": 0.02295,
	"grad_norm": 21.625,
	"grad_norm_var": 63.486181640625,
	"learning_rate": 0.0001,
	"loss": 7.0533,
	"loss/crossentropy": 1.7067608833312988,
	"loss/hidden": 0.1123046875,
	"loss/logits": 0.004787761718034744,
	"loss/reg": 5.2294087409973145,
	"loss/twn": 0.0,
	"step": 918
	},
	{
	"epoch": 0.022975,
	"grad_norm": 14.6875,
	"grad_norm_var": 16.556705729166666,
	"learning_rate": 0.0001,
	"loss": 6.862,
	"loss/crossentropy": 1.5273187160491943,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.006548475474119186,
	"loss/reg": 5.229493618011475,
	"loss/twn": 0.0,
	"step": 919
	},
	{
	"epoch": 0.023,
	"grad_norm": 10.25,
	"grad_norm_var": 17.4609375,
	"learning_rate": 0.0001,
	"loss": 8.096,
	"loss/crossentropy": 2.765378952026367,
	"loss/hidden": 0.09375,
	"loss/logits": 0.007458665873855352,
	"loss/reg": 5.229459285736084,
	"loss/twn": 0.0,
	"step": 920
	},
	{
	"epoch": 0.023025,
	"grad_norm": 15.875,
	"grad_norm_var": 17.468994140625,
	"learning_rate": 0.0001,
	"loss": 6.2566,
	"loss/crossentropy": 0.8696529865264893,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.009295967407524586,
	"loss/reg": 5.229222297668457,
	"loss/twn": 0.0,
	"step": 921
	},
	{
	"epoch": 0.02305,
	"grad_norm": 14.5,
	"grad_norm_var": 17.077197265625,
	"learning_rate": 0.0001,
	"loss": 7.8853,
	"loss/crossentropy": 2.496795892715454,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.009545085951685905,
	"loss/reg": 5.229542255401611,
	"loss/twn": 0.0,
	"step": 922
	},
	{
	"epoch": 0.023075,
	"grad_norm": 23.25,
	"grad_norm_var": 15.957014973958334,
	"learning_rate": 0.0001,
	"loss": 7.049,
	"loss/crossentropy": 1.6003493070602417,
	"loss/hidden": 0.2060546875,
	"loss/logits": 0.013520617038011551,
	"loss/reg": 5.229060173034668,
	"loss/twn": 0.0,
	"step": 923
	},
	{
	"epoch": 0.0231,
	"grad_norm": 9.75,
	"grad_norm_var": 16.564436848958334,
	"learning_rate": 0.0001,
	"loss": 6.8671,
	"loss/crossentropy": 1.5159342288970947,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.011563955806195736,
	"loss/reg": 5.2297444343566895,
	"loss/twn": 0.0,
	"step": 924
	},
	{
	"epoch": 0.023125,
	"grad_norm": 9.125,
	"grad_norm_var": 17.382535807291667,
	"learning_rate": 0.0001,
	"loss": 7.8368,
	"loss/crossentropy": 2.537524938583374,
	"loss/hidden": 0.064453125,
	"loss/logits": 0.005966213531792164,
	"loss/reg": 5.228902339935303,
	"loss/twn": 0.0,
	"step": 925
	},
	{
	"epoch": 0.02315,
	"grad_norm": 10.6875,
	"grad_norm_var": 17.446598307291666,
	"learning_rate": 0.0001,
	"loss": 7.097,
	"loss/crossentropy": 1.695339560508728,
	"loss/hidden": 0.1630859375,
	"loss/logits": 0.009303221479058266,
	"loss/reg": 5.229240894317627,
	"loss/twn": 0.0,
	"step": 926
	},
	{
	"epoch": 0.023175,
	"grad_norm": 10.375,
	"grad_norm_var": 17.941520182291665,
	"learning_rate": 0.0001,
	"loss": 8.0381,
	"loss/crossentropy": 2.6705760955810547,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.00920666940510273,
	"loss/reg": 5.229386329650879,
	"loss/twn": 0.0,
	"step": 927
	},
	{
	"epoch": 0.0232,
	"grad_norm": 8.75,
	"grad_norm_var": 19.055973307291666,
	"learning_rate": 0.0001,
	"loss": 7.8173,
	"loss/crossentropy": 2.529360055923462,
	"loss/hidden": 0.0546875,
	"loss/logits": 0.003768081543967128,
	"loss/reg": 5.229437351226807,
	"loss/twn": 0.0,
	"step": 928
	},
	{
	"epoch": 0.023225,
	"grad_norm": 74.5,
	"grad_norm_var": 253.73483072916667,
	"learning_rate": 0.0001,
	"loss": 6.3033,
	"loss/crossentropy": 0.9277183413505554,
	"loss/hidden": 0.138671875,
	"loss/logits": 0.007658226415514946,
	"loss/reg": 5.229298114776611,
	"loss/twn": 0.0,
	"step": 929
	},
	{
	"epoch": 0.02325,
	"grad_norm": 19.875,
	"grad_norm_var": 251.03292643229167,
	"learning_rate": 0.0001,
	"loss": 8.3524,
	"loss/crossentropy": 2.9925942420959473,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.010561013594269753,
	"loss/reg": 5.229130268096924,
	"loss/twn": 0.0,
	"step": 930
	},
	{
	"epoch": 0.023275,
	"grad_norm": 25.5,
	"grad_norm_var": 253.27902018229167,
	"learning_rate": 0.0001,
	"loss": 7.8689,
	"loss/crossentropy": 2.5310251712799072,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.010016044601798058,
	"loss/reg": 5.229218482971191,
	"loss/twn": 0.0,
	"step": 931
	},
	{
	"epoch": 0.0233,
	"grad_norm": 138.0,
	"grad_norm_var": 1142.0577962239583,
	"learning_rate": 0.0001,
	"loss": 6.7784,
	"loss/crossentropy": 1.2963286638259888,
	"loss/hidden": 0.2431640625,
	"loss/logits": 0.00944933295249939,
	"loss/reg": 5.229430198669434,
	"loss/twn": 0.0,
	"step": 932
	},
	{
	"epoch": 0.023325,
	"grad_norm": 12.0625,
	"grad_norm_var": 1139.352197265625,
	"learning_rate": 0.0001,
	"loss": 8.0218,
	"loss/crossentropy": 2.6391210556030273,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.011118912138044834,
	"loss/reg": 5.229004383087158,
	"loss/twn": 0.0,
	"step": 933
	},
	{
	"epoch": 0.02335,
	"grad_norm": 10.75,
	"grad_norm_var": 1153.342431640625,
	"learning_rate": 0.0001,
	"loss": 7.3416,
	"loss/crossentropy": 2.0831658840179443,
	"loss/hidden": 0.0279541015625,
	"loss/logits": 0.0012758576776832342,
	"loss/reg": 5.229192733764648,
	"loss/twn": 0.0,
	"step": 934
	},
	{
	"epoch": 0.023375,
	"grad_norm": 29.125,
	"grad_norm_var": 1145.5634765625,
	"learning_rate": 0.0001,
	"loss": 6.8365,
	"loss/crossentropy": 1.4616435766220093,
	"loss/hidden": 0.138671875,
	"loss/logits": 0.007113803178071976,
	"loss/reg": 5.229030132293701,
	"loss/twn": 0.0,
	"step": 935
	},
	{
	"epoch": 0.0234,
	"grad_norm": 13.625,
	"grad_norm_var": 1139.00859375,
	"learning_rate": 0.0001,
	"loss": 6.1257,
	"loss/crossentropy": 0.7412286400794983,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.006910163909196854,
	"loss/reg": 5.229117393493652,
	"loss/twn": 0.0,
	"step": 936
	},
	{
	"epoch": 0.023425,
	"grad_norm": 98.5,
	"grad_norm_var": 1447.4322265625,
	"learning_rate": 0.0001,
	"loss": 7.7219,
	"loss/crossentropy": 2.3482983112335205,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.013444026932120323,
	"loss/reg": 5.229300498962402,
	"loss/twn": 0.0,
	"step": 937
	},
	{
	"epoch": 0.02345,
	"grad_norm": 6.3125,
	"grad_norm_var": 1470.478759765625,
	"learning_rate": 0.0001,
	"loss": 6.4927,
	"loss/crossentropy": 1.20167076587677,
	"loss/hidden": 0.0595703125,
	"loss/logits": 0.0022249873727560043,
	"loss/reg": 5.229248523712158,
	"loss/twn": 0.0,
	"step": 938
	},
	{
	"epoch": 0.023475,
	"grad_norm": 9.3125,
	"grad_norm_var": 1497.5080729166666,
	"learning_rate": 0.0001,
	"loss": 7.1103,
	"loss/crossentropy": 1.7726614475250244,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.009686892852187157,
	"loss/reg": 5.2292704582214355,
	"loss/twn": 0.0,
	"step": 939
	},
	{
	"epoch": 0.0235,
	"grad_norm": 62.75,
	"grad_norm_var": 1527.21015625,
	"learning_rate": 0.0001,
	"loss": 6.9551,
	"loss/crossentropy": 1.6360843181610107,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.0034621984232217073,
	"loss/reg": 5.229147434234619,
	"loss/twn": 0.0,
	"step": 940
	},
	{
	"epoch": 0.023525,
	"grad_norm": 25.0,
	"grad_norm_var": 1490.9374348958333,
	"learning_rate": 0.0001,
	"loss": 6.9106,
	"loss/crossentropy": 1.543732762336731,
	"loss/hidden": 0.12890625,
	"loss/logits": 0.008542709052562714,
	"loss/reg": 5.229380130767822,
	"loss/twn": 0.0,
	"step": 941
	},
	{
	"epoch": 0.02355,
	"grad_norm": 15.0,
	"grad_norm_var": 1478.2952962239583,
	"learning_rate": 0.0001,
	"loss": 8.1479,
	"loss/crossentropy": 2.7828969955444336,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.013092401437461376,
	"loss/reg": 5.229334831237793,
	"loss/twn": 0.0,
	"step": 942
	},
	{
	"epoch": 0.023575,
	"grad_norm": 10.375,
	"grad_norm_var": 1478.2952962239583,
	"learning_rate": 0.0001,
	"loss": 6.8721,
	"loss/crossentropy": 1.47151517868042,
	"loss/hidden": 0.1611328125,
	"loss/logits": 0.010217259638011456,
	"loss/reg": 5.229234218597412,
	"loss/twn": 0.0,
	"step": 943
	},
	{
	"epoch": 0.0236,
	"grad_norm": 10.5,
	"grad_norm_var": 1472.3699055989584,
	"learning_rate": 0.0001,
	"loss": 6.1565,
	"loss/crossentropy": 0.7564952373504639,
	"loss/hidden": 0.1630859375,
	"loss/logits": 0.007633813191205263,
	"loss/reg": 5.229316234588623,
	"loss/twn": 0.0,
	"step": 944
	},
	{
	"epoch": 0.023625,
	"grad_norm": 12.0,
	"grad_norm_var": 1387.962353515625,
	"learning_rate": 0.0001,
	"loss": 8.4192,
	"loss/crossentropy": 3.100782871246338,
	"loss/hidden": 0.08154296875,
	"loss/logits": 0.00750060984864831,
	"loss/reg": 5.22934627532959,
	"loss/twn": 0.0,
	"step": 945
	},
	{
	"epoch": 0.02365,
	"grad_norm": 10.5,
	"grad_norm_var": 1407.571728515625,
	"learning_rate": 0.0001,
	"loss": 7.9888,
	"loss/crossentropy": 2.6322426795959473,
	"loss/hidden": 0.11962890625,
	"loss/logits": 0.008000584319233894,
	"loss/reg": 5.2289581298828125,
	"loss/twn": 0.0,
	"step": 946
	},
	{
	"epoch": 0.023675,
	"grad_norm": 15.5625,
	"grad_norm_var": 1420.4775390625,
	"learning_rate": 0.0001,
	"loss": 8.039,
	"loss/crossentropy": 2.6621694564819336,
	"loss/hidden": 0.138671875,
	"loss/logits": 0.008840564638376236,
	"loss/reg": 5.229346752166748,
	"loss/twn": 0.0,
	"step": 947
	},
	{
	"epoch": 0.0237,
	"grad_norm": 9.1875,
	"grad_norm_var": 601.947900390625,
	"learning_rate": 0.0001,
	"loss": 6.9809,
	"loss/crossentropy": 1.6236486434936523,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.0081618158146739,
	"loss/reg": 5.229002475738525,
	"loss/twn": 0.0,
	"step": 948
	},
	{
	"epoch": 0.023725,
	"grad_norm": 52.0,
	"grad_norm_var": 649.196875,
	"learning_rate": 0.0001,
	"loss": 7.1623,
	"loss/crossentropy": 1.6345115900039673,
	"loss/hidden": 0.294921875,
	"loss/logits": 0.00377917499281466,
	"loss/reg": 5.2290778160095215,
	"loss/twn": 0.0,
	"step": 949
	},
	{
	"epoch": 0.02375,
	"grad_norm": 11.8125,
	"grad_norm_var": 647.3327962239583,
	"learning_rate": 0.0001,
	"loss": 6.9575,
	"loss/crossentropy": 1.564661979675293,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.006771073676645756,
	"loss/reg": 5.228812217712402,
	"loss/twn": 0.0,
	"step": 950
	},
	{
	"epoch": 0.023775,
	"grad_norm": 9.5,
	"grad_norm_var": 659.2304524739583,
	"learning_rate": 0.0001,
	"loss": 7.8587,
	"loss/crossentropy": 2.5682647228240967,
	"loss/hidden": 0.05712890625,
	"loss/logits": 0.003940091468393803,
	"loss/reg": 5.229336261749268,
	"loss/twn": 0.0,
	"step": 951
	},
	{
	"epoch": 0.0238,
	"grad_norm": 12.25,
	"grad_norm_var": 661.1124837239583,
	"learning_rate": 0.0001,
	"loss": 7.4498,
	"loss/crossentropy": 2.0796985626220703,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.007796227466315031,
	"loss/reg": 5.229506015777588,
	"loss/twn": 0.0,
	"step": 952
	},
	{
	"epoch": 0.023825,
	"grad_norm": 12.9375,
	"grad_norm_var": 259.1692708333333,
	"learning_rate": 0.0001,
	"loss": 7.7385,
	"loss/crossentropy": 2.351168155670166,
	"loss/hidden": 0.1484375,
	"loss/logits": 0.010073304176330566,
	"loss/reg": 5.228799819946289,
	"loss/twn": 0.0,
	"step": 953
	},
	{
	"epoch": 0.02385,
	"grad_norm": 7.3125,
	"grad_norm_var": 257.6984375,
	"learning_rate": 0.0001,
	"loss": 6.6797,
	"loss/crossentropy": 1.3460360765457153,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.005743211135268211,
	"loss/reg": 5.229253768920898,
	"loss/twn": 0.0,
	"step": 954
	},
	{
	"epoch": 0.023875,
	"grad_norm": 50.5,
	"grad_norm_var": 316.70167643229166,
	"learning_rate": 0.0001,
	"loss": 7.4466,
	"loss/crossentropy": 2.0729310512542725,
	"loss/hidden": 0.134765625,
	"loss/logits": 0.009920709766447544,
	"loss/reg": 5.228950023651123,
	"loss/twn": 0.0,
	"step": 955
	},
	{
	"epoch": 0.0239,
	"grad_norm": 32.0,
	"grad_norm_var": 202.36612955729166,
	"learning_rate": 0.0001,
	"loss": 6.7081,
	"loss/crossentropy": 1.379569172859192,
	"loss/hidden": 0.09521484375,
	"loss/logits": 0.00438508577644825,
	"loss/reg": 5.228931903839111,
	"loss/twn": 0.0,
	"step": 956
	},
	{
	"epoch": 0.023925,
	"grad_norm": 8.875,
	"grad_norm_var": 204.70089518229167,
	"learning_rate": 0.0001,
	"loss": 6.1735,
	"loss/crossentropy": 0.8404383063316345,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.0052786958403885365,
	"loss/reg": 5.229166030883789,
	"loss/twn": 0.0,
	"step": 957
	},
	{
	"epoch": 0.02395,
	"grad_norm": 11.0625,
	"grad_norm_var": 206.99264322916667,
	"learning_rate": 0.0001,
	"loss": 8.0646,
	"loss/crossentropy": 2.8019535541534424,
	"loss/hidden": 0.0302734375,
	"loss/logits": 0.003258619224652648,
	"loss/reg": 5.229119777679443,
	"loss/twn": 0.0,
	"step": 958
	},
	{
	"epoch": 0.023975,
	"grad_norm": 62.25,
	"grad_norm_var": 327.46692708333336,
	"learning_rate": 0.0001,
	"loss": 6.2366,
	"loss/crossentropy": 0.899376630783081,
	"loss/hidden": 0.1044921875,
	"loss/logits": 0.0037081395275890827,
	"loss/reg": 5.229043960571289,
	"loss/twn": 0.0,
	"step": 959
	},
	{
	"epoch": 0.024,
	"grad_norm": 19.75,
	"grad_norm_var": 320.46197916666665,
	"learning_rate": 0.0001,
	"loss": 8.3454,
	"loss/crossentropy": 2.9434502124786377,
	"loss/hidden": 0.1572265625,
	"loss/logits": 0.015512878075242043,
	"loss/reg": 5.2291717529296875,
	"loss/twn": 0.0,
	"step": 960
	},
	{
	"epoch": 0.024025,
	"grad_norm": 12.8125,
	"grad_norm_var": 319.51808268229166,
	"learning_rate": 0.0001,
	"loss": 6.8387,
	"loss/crossentropy": 1.3557770252227783,
	"loss/hidden": 0.2470703125,
	"loss/logits": 0.006780410185456276,
	"loss/reg": 5.229072093963623,
	"loss/twn": 0.0,
	"step": 961
	},
	{
	"epoch": 0.02405,
	"grad_norm": 69.0,
	"grad_norm_var": 450.38136393229166,
	"learning_rate": 0.0001,
	"loss": 6.6024,
	"loss/crossentropy": 1.2391810417175293,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.011559647507965565,
	"loss/reg": 5.229081630706787,
	"loss/twn": 0.0,
	"step": 962
	},
	{
	"epoch": 0.024075,
	"grad_norm": 11.1875,
	"grad_norm_var": 456.966650390625,
	"learning_rate": 0.0001,
	"loss": 6.8096,
	"loss/crossentropy": 1.4291319847106934,
	"loss/hidden": 0.150390625,
	"loss/logits": 0.0013875500299036503,
	"loss/reg": 5.228731632232666,
	"loss/twn": 0.0,
	"step": 963
	},
	{
	"epoch": 0.0241,
	"grad_norm": 13.8125,
	"grad_norm_var": 448.843994140625,
	"learning_rate": 0.0001,
	"loss": 6.9963,
	"loss/crossentropy": 1.6549384593963623,
	"loss/hidden": 0.1025390625,
	"loss/logits": 0.009464550763368607,
	"loss/reg": 5.22934103012085,
	"loss/twn": 0.0,
	"step": 964
	},
	{
	"epoch": 0.024125,
	"grad_norm": 160.0,
	"grad_norm_var": 1569.287744140625,
	"learning_rate": 0.0001,
	"loss": 5.8326,
	"loss/crossentropy": 0.4071745276451111,
	"loss/hidden": 0.19140625,
	"loss/logits": 0.005319996736943722,
	"loss/reg": 5.228703498840332,
	"loss/twn": 0.0,
	"step": 965
	},
	{
	"epoch": 0.02415,
	"grad_norm": 9.625,
	"grad_norm_var": 1575.3483723958334,
	"learning_rate": 0.0001,
	"loss": 7.4917,
	"loss/crossentropy": 2.1543774604797363,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.00969572365283966,
	"loss/reg": 5.229022026062012,
	"loss/twn": 0.0,
	"step": 966
	},
	{
	"epoch": 0.024175,
	"grad_norm": 22.5,
	"grad_norm_var": 1547.8994140625,
	"learning_rate": 0.0001,
	"loss": 8.001,
	"loss/crossentropy": 2.677924156188965,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.007645599078387022,
	"loss/reg": 5.228973388671875,
	"loss/twn": 0.0,
	"step": 967
	},
	{
	"epoch": 0.0242,
	"grad_norm": 14.1875,
	"grad_norm_var": 1542.969384765625,
	"learning_rate": 0.0001,
	"loss": 7.5317,
	"loss/crossentropy": 2.1442387104034424,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.012024961411952972,
	"loss/reg": 5.228928089141846,
	"loss/twn": 0.0,
	"step": 968
	},
	{
	"epoch": 0.024225,
	"grad_norm": 12.5,
	"grad_norm_var": 1544.1145182291666,
	"learning_rate": 0.0001,
	"loss": 6.3484,
	"loss/crossentropy": 0.9374382495880127,
	"loss/hidden": 0.177734375,
	"loss/logits": 0.004194112028926611,
	"loss/reg": 5.229069232940674,
	"loss/twn": 0.0,
	"step": 969
	},
	{
	"epoch": 0.02425,
	"grad_norm": 17.75,
	"grad_norm_var": 1516.099072265625,
	"learning_rate": 0.0001,
	"loss": 6.8346,
	"loss/crossentropy": 1.4595236778259277,
	"loss/hidden": 0.142578125,
	"loss/logits": 0.0036797509528696537,
	"loss/reg": 5.228834629058838,
	"loss/twn": 0.0,
	"step": 970
	},
	{
	"epoch": 0.024275,
	"grad_norm": 12.3125,
	"grad_norm_var": 1518.0780598958333,
	"learning_rate": 0.0001,
	"loss": 6.2077,
	"loss/crossentropy": 0.8395573496818542,
	"loss/hidden": 0.1328125,
	"loss/logits": 0.0061765448190271854,
	"loss/reg": 5.22913122177124,
	"loss/twn": 0.0,
	"step": 971
	},
	{
	"epoch": 0.0243,
	"grad_norm": 8.9375,
	"grad_norm_var": 1547.0202962239584,
	"learning_rate": 0.0001,
	"loss": 6.998,
	"loss/crossentropy": 1.55341374874115,
	"loss/hidden": 0.2080078125,
	"loss/logits": 0.008093073032796383,
	"loss/reg": 5.228493690490723,
	"loss/twn": 0.0,
	"step": 972
	},
	{
	"epoch": 0.024325,
	"grad_norm": 8.5625,
	"grad_norm_var": 1547.8716145833334,
	"learning_rate": 0.0001,
	"loss": 7.1173,
	"loss/crossentropy": 1.7166783809661865,
	"loss/hidden": 0.1640625,
	"loss/logits": 0.007523189298808575,
	"loss/reg": 5.229001045227051,
	"loss/twn": 0.0,
	"step": 973
	},
	{
	"epoch": 0.02435,
	"grad_norm": 224.0,
	"grad_norm_var": 3868.502197265625,
	"learning_rate": 0.0001,
	"loss": 6.3737,
	"loss/crossentropy": 0.9948546886444092,
	"loss/hidden": 0.1435546875,
	"loss/logits": 0.00641383184120059,
	"loss/reg": 5.228926658630371,
	"loss/twn": 0.0,
	"step": 974
	},
	{
	"epoch": 0.024375,
	"grad_norm": 15.375,
	"grad_norm_var": 3882.076416015625,
	"learning_rate": 0.0001,
	"loss": 8.2234,
	"loss/crossentropy": 2.891629219055176,
	"loss/hidden": 0.09375,
	"loss/logits": 0.00904359295964241,
	"loss/reg": 5.228950500488281,
	"loss/twn": 0.0,
	"step": 975
	},
	{
	"epoch": 0.0244,
	"grad_norm": 740.0,
	"grad_norm_var": 34406.04633789063,
	"learning_rate": 0.0001,
	"loss": 6.273,
	"loss/crossentropy": 0.9103600978851318,
	"loss/hidden": 0.1298828125,
	"loss/logits": 0.003978141117841005,
	"loss/reg": 5.228822231292725,
	"loss/twn": 0.0,
	"step": 976
	},
	{
	"epoch": 0.024425,
	"grad_norm": 12.75,
	"grad_norm_var": 34406.644270833334,
	"learning_rate": 0.0001,
	"loss": 7.4745,
	"loss/crossentropy": 2.0163183212280273,
	"loss/hidden": 0.2197265625,
	"loss/logits": 0.009444335475564003,
	"loss/reg": 5.229053497314453,
	"loss/twn": 0.0,
	"step": 977
	},
	{
	"epoch": 0.02445,
	"grad_norm": 12.4375,
	"grad_norm_var": 34723.73305664062,
	"learning_rate": 0.0001,
	"loss": 7.8159,
	"loss/crossentropy": 2.453317642211914,
	"loss/hidden": 0.125,
	"loss/logits": 0.008999479934573174,
	"loss/reg": 5.228621959686279,
	"loss/twn": 0.0,
	"step": 978
	},
	{
	"epoch": 0.024475,
	"grad_norm": 15.0,
	"grad_norm_var": 34689.15546875,
	"learning_rate": 0.0001,
	"loss": 8.3269,
	"loss/crossentropy": 2.9546549320220947,
	"loss/hidden": 0.130859375,
	"loss/logits": 0.012454254552721977,
	"loss/reg": 5.2289299964904785,
	"loss/twn": 0.0,
	"step": 979
	},
	{
	"epoch": 0.0245,
	"grad_norm": 23.625,
	"grad_norm_var": 34606.96300455729,
	"learning_rate": 0.0001,
	"loss": 5.9559,
	"loss/crossentropy": 0.5534784197807312,
	"loss/hidden": 0.166015625,
	"loss/logits": 0.007569343317300081,
	"loss/reg": 5.2288498878479,
	"loss/twn": 0.0,
	"step": 980
	},
	{
	"epoch": 0.024525,
	"grad_norm": 12.125,
	"grad_norm_var": 34432.74777018229,
	"learning_rate": 0.0001,
	"loss": 8.0158,
	"loss/crossentropy": 2.6883370876312256,
	"loss/hidden": 0.08642578125,
	"loss/logits": 0.012242003343999386,
	"loss/reg": 5.228771686553955,
	"loss/twn": 0.0,
	"step": 981
	},
	{
	"epoch": 0.02455,
	"grad_norm": 17.0,
	"grad_norm_var": 34374.21638997396,
	"learning_rate": 0.0001,
	"loss": 8.0208,
	"loss/crossentropy": 2.660618782043457,
	"loss/hidden": 0.11767578125,
	"loss/logits": 0.013429110869765282,
	"loss/reg": 5.229035377502441,
	"loss/twn": 0.0,
	"step": 982
	},
	{
	"epoch": 0.024575,
	"grad_norm": 26.875,
	"grad_norm_var": 34345.91560872396,
	"learning_rate": 0.0001,
	"loss": 7.0489,
	"loss/crossentropy": 1.6950386762619019,
	"loss/hidden": 0.119140625,
	"loss/logits": 0.006002393085509539,
	"loss/reg": 5.2287116050720215,
	"loss/twn": 0.0,
	"step": 983
	},
	{
	"epoch": 0.0246,
	"grad_norm": 44.0,
	"grad_norm_var": 34166.33411458333,
	"learning_rate": 0.0001,
	"loss": 7.4035,
	"loss/crossentropy": 2.058884859085083,
	"loss/hidden": 0.107421875,
	"loss/logits": 0.008141661062836647,
	"loss/reg": 5.22901725769043,
	"loss/twn": 0.0,
	"step": 984
	},
	{
	"epoch": 0.024625,
	"grad_norm": 196.0,
	"grad_norm_var": 34736.71328125,
	"learning_rate": 0.0001,
	"loss": 8.0381,
	"loss/crossentropy": 2.5864806175231934,
	"loss/hidden": 0.2119140625,
	"loss/logits": 0.01062602736055851,
	"loss/reg": 5.229076862335205,
	"loss/twn": 0.0,
	"step": 985
	},
	{
	"epoch": 0.02465,
	"grad_norm": 11.8125,
	"grad_norm_var": 34793.479801432295,
	"learning_rate": 0.0001,
	"loss": 7.9697,
	"loss/crossentropy": 2.6345629692077637,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.007676620967686176,
	"loss/reg": 5.228846073150635,
	"loss/twn": 0.0,
	"step": 986
	},
	{
	"epoch": 0.024675,
	"grad_norm": 11.8125,
	"grad_norm_var": 34798.427978515625,
	"learning_rate": 0.0001,
	"loss": 7.7632,
	"loss/crossentropy": 2.396425724029541,
	"loss/hidden": 0.1240234375,
	"loss/logits": 0.013703764416277409,
	"loss/reg": 5.229032516479492,
	"loss/twn": 0.0,
	"step": 987
	},
	{
	"epoch": 0.0247,
	"grad_norm": 10.125,
	"grad_norm_var": 34786.271875,
	"learning_rate": 0.0001,
	"loss": 8.1079,
	"loss/crossentropy": 2.747255325317383,
	"loss/hidden": 0.1240234375,
	"loss/logits": 0.007296864874660969,
	"loss/reg": 5.2292985916137695,
	"loss/twn": 0.0,
	"step": 988
	},
	{
	"epoch": 0.024725,
	"grad_norm": 15.0,
	"grad_norm_var": 34722.09972330729,
	"learning_rate": 0.0001,
	"loss": 6.9097,
	"loss/crossentropy": 1.5659387111663818,
	"loss/hidden": 0.10986328125,
	"loss/logits": 0.005029057152569294,
	"loss/reg": 5.228851795196533,
	"loss/twn": 0.0,
	"step": 989
	},
	{
	"epoch": 0.02475,
	"grad_norm": 15.75,
	"grad_norm_var": 33621.52016601562,
	"learning_rate": 0.0001,
	"loss": 7.1496,
	"loss/crossentropy": 1.7617563009262085,
	"loss/hidden": 0.1513671875,
	"loss/logits": 0.007417085114866495,
	"loss/reg": 5.229080677032471,
	"loss/twn": 0.0,
	"step": 990
	},
	{
	"epoch": 0.024775,
	"grad_norm": 14.75,
	"grad_norm_var": 33626.407535807295,
	"learning_rate": 0.0001,
	"loss": 7.4938,
	"loss/crossentropy": 2.093966245651245,
	"loss/hidden": 0.162109375,
	"loss/logits": 0.008837287314236164,
	"loss/reg": 5.228903770446777,
	"loss/twn": 0.0,
	"step": 991
	},
	{
	"epoch": 0.0248,
	"grad_norm": 21.375,
	"grad_norm_var": 2059.307275390625,
	"learning_rate": 0.0001,
	"loss": 5.6135,
	"loss/crossentropy": 0.2334800660610199,
	"loss/hidden": 0.14453125,
	"loss/logits": 0.00651364354416728,
	"loss/reg": 5.228927135467529,
	"loss/twn": 0.0,
	"step": 992
	},
	{
	"epoch": 0.024825,
	"grad_norm": 11.875,
	"grad_norm_var": 2061.2249837239583,
	"learning_rate": 0.0001,
	"loss": 7.9624,
	"loss/crossentropy": 2.5844943523406982,
	"loss/hidden": 0.1396484375,
	"loss/logits": 0.009160241112112999,
	"loss/reg": 5.229069709777832,
	"loss/twn": 0.0,
	"step": 993
	},
	{
	"epoch": 0.02485,
	"grad_norm": 16.75,
	"grad_norm_var": 2053.023372395833,
	"learning_rate": 0.0001,
	"loss": 7.9445,
	"loss/crossentropy": 2.5577454566955566,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.011256640776991844,
	"loss/reg": 5.229057312011719,
	"loss/twn": 0.0,
	"step": 994
	},
	{
	"epoch": 0.024875,
	"grad_norm": 15.875,
	"grad_norm_var": 2051.4388020833335,
	"learning_rate": 0.0001,
	"loss": 8.5701,
	"loss/crossentropy": 3.218754529953003,
	"loss/hidden": 0.115234375,
	"loss/logits": 0.0072383033111691475,
	"loss/reg": 5.228893280029297,
	"loss/twn": 0.0,
	"step": 995
	},
	{
	"epoch": 0.0249,
	"grad_norm": 11.6875,
	"grad_norm_var": 2068.9751139322916,
	"learning_rate": 0.0001,
	"loss": 6.8167,
	"loss/crossentropy": 1.4376857280731201,
	"loss/hidden": 0.140625,
	"loss/logits": 0.009291324764490128,
	"loss/reg": 5.22910737991333,
	"loss/twn": 0.0,
	"step": 996
	},
	{
	"epoch": 0.024925,
	"grad_norm": 23.875,
	"grad_norm_var": 2052.261962890625,
	"learning_rate": 0.0001,
	"loss": 7.6128,
	"loss/crossentropy": 2.2152881622314453,
	"loss/hidden": 0.1630859375,
	"loss/logits": 0.0057820603251457214,
	"loss/reg": 5.228606700897217,
	"loss/twn": 0.0,
	"step": 997
	},
	{
	"epoch": 0.02495,
	"grad_norm": 84.5,
	"grad_norm_var": 2228.711181640625,
	"learning_rate": 0.0001,
	"loss": 8.1583,
	"loss/crossentropy": 2.797482490539551,
	"loss/hidden": 0.1220703125,
	"loss/logits": 0.009698813781142235,
	"loss/reg": 5.229077339172363,
	"loss/twn": 0.0,
	"step": 998
	},
	{
	"epoch": 0.024975,
	"grad_norm": 10.125,
	"grad_norm_var": 2260.4925618489583,
	"learning_rate": 0.0001,
	"loss": 7.9002,
	"loss/crossentropy": 2.5686769485473633,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.006712072994560003,
	"loss/reg": 5.228668212890625,
	"loss/twn": 0.0,
	"step": 999
	},
	{
	"epoch": 0.025,
	"grad_norm": 71.0,
	"grad_norm_var": 2348.5097493489584,
	"learning_rate": 0.0001,
	"loss": 7.9685,
	"loss/crossentropy": 2.6334779262542725,
	"loss/hidden": 0.099609375,
	"loss/logits": 0.0062838364392519,
	"loss/reg": 5.229094505310059,
	"loss/twn": 0.0,
	"step": 1000
	}
	],
	"logging_steps": 1,
	"max_steps": 40000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": true,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.0457034088448e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}