4b2-2k / trainer_state.json

Upload folder using huggingface_hub

309f1d9 verified 10 months ago

63.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.2,
	"eval_steps": 2000,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001,
	"grad_norm": 10752.0,
	"learning_rate": 1.9e-05,
	"loss": 158.0638,
	"loss/crossentropy": 14.456178283691406,
	"loss/hidden": 18.91875,
	"loss/jsd": 0.0,
	"loss/logits": 12.539741969108581,
	"step": 10
	},
	{
	"epoch": 0.002,
	"grad_norm": 3264.0,
	"grad_norm_var": 13568954.666666666,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 129.8883,
	"loss/crossentropy": 11.943150734901428,
	"loss/hidden": 19.128125,
	"loss/jsd": 0.0,
	"loss/logits": 10.032073307037354,
	"step": 20
	},
	{
	"epoch": 0.003,
	"grad_norm": 1824.0,
	"grad_norm_var": 3372859.7333333334,
	"learning_rate": 3.7e-05,
	"loss": 100.0245,
	"loss/crossentropy": 9.159896969795227,
	"loss/hidden": 18.609375,
	"loss/jsd": 0.0,
	"loss/logits": 7.277156031131744,
	"step": 30
	},
	{
	"epoch": 0.004,
	"grad_norm": 604.0,
	"grad_norm_var": 331110.3333333333,
	"learning_rate": 4.600000000000001e-05,
	"loss": 90.5579,
	"loss/crossentropy": 8.28059525489807,
	"loss/hidden": 18.39375,
	"loss/jsd": 0.0,
	"loss/logits": 6.247069478034973,
	"step": 40
	},
	{
	"epoch": 0.005,
	"grad_norm": 1128.0,
	"grad_norm_var": 60515.2,
	"learning_rate": 5.500000000000001e-05,
	"loss": 86.1966,
	"loss/crossentropy": 8.01256047487259,
	"loss/hidden": 18.175,
	"loss/jsd": 0.0,
	"loss/logits": 6.1038679599761965,
	"step": 50
	},
	{
	"epoch": 0.006,
	"grad_norm": 1360.0,
	"grad_norm_var": 67713.86666666667,
	"learning_rate": 6.400000000000001e-05,
	"loss": 82.9348,
	"loss/crossentropy": 7.731317961215973,
	"loss/hidden": 17.959375,
	"loss/jsd": 0.0,
	"loss/logits": 5.726186037063599,
	"step": 60
	},
	{
	"epoch": 0.007,
	"grad_norm": 1016.0,
	"grad_norm_var": 35902.933333333334,
	"learning_rate": 7.3e-05,
	"loss": 78.6625,
	"loss/crossentropy": 7.318132603168488,
	"loss/hidden": 17.8375,
	"loss/jsd": 0.0,
	"loss/logits": 5.322234338521957,
	"step": 70
	},
	{
	"epoch": 0.008,
	"grad_norm": 836.0,
	"grad_norm_var": 12856.466666666667,
	"learning_rate": 8.200000000000001e-05,
	"loss": 74.6,
	"loss/crossentropy": 6.863537752628327,
	"loss/hidden": 17.325,
	"loss/jsd": 0.0,
	"loss/logits": 4.851147556304932,
	"step": 80
	},
	{
	"epoch": 0.009,
	"grad_norm": 1168.0,
	"grad_norm_var": 38569.0,
	"learning_rate": 9.1e-05,
	"loss": 69.2648,
	"loss/crossentropy": 6.536011290550232,
	"loss/hidden": 16.871875,
	"loss/jsd": 0.0,
	"loss/logits": 4.729572284221649,
	"step": 90
	},
	{
	"epoch": 0.01,
	"grad_norm": 956.0,
	"grad_norm_var": 54132.26666666667,
	"learning_rate": 0.0001,
	"loss": 61.5492,
	"loss/crossentropy": 5.978731215000153,
	"loss/hidden": 15.9046875,
	"loss/jsd": 0.0,
	"loss/logits": 4.037681633234024,
	"step": 100
	},
	{
	"epoch": 0.011,
	"grad_norm": 494.0,
	"grad_norm_var": 60329.066666666666,
	"learning_rate": 0.0001,
	"loss": 50.5696,
	"loss/crossentropy": 5.069290089607239,
	"loss/hidden": 13.9625,
	"loss/jsd": 0.0,
	"loss/logits": 3.04628010392189,
	"step": 110
	},
	{
	"epoch": 0.012,
	"grad_norm": 242.0,
	"grad_norm_var": 33342.59583333333,
	"learning_rate": 0.0001,
	"loss": 38.8513,
	"loss/crossentropy": 4.116593188047409,
	"loss/hidden": 12.21875,
	"loss/jsd": 0.0,
	"loss/logits": 2.207608225941658,
	"step": 120
	},
	{
	"epoch": 0.013,
	"grad_norm": 189.0,
	"grad_norm_var": 2268.9625,
	"learning_rate": 0.0001,
	"loss": 30.2934,
	"loss/crossentropy": 3.6065172433853148,
	"loss/hidden": 10.4703125,
	"loss/jsd": 0.0,
	"loss/logits": 1.553831559419632,
	"step": 130
	},
	{
	"epoch": 0.014,
	"grad_norm": 129.0,
	"grad_norm_var": 428.78333333333336,
	"learning_rate": 0.0001,
	"loss": 25.4075,
	"loss/crossentropy": 3.238997083902359,
	"loss/hidden": 9.36875,
	"loss/jsd": 0.0,
	"loss/logits": 1.2455815717577934,
	"step": 140
	},
	{
	"epoch": 0.015,
	"grad_norm": 147.0,
	"grad_norm_var": 884.8666666666667,
	"learning_rate": 0.0001,
	"loss": 21.889,
	"loss/crossentropy": 3.104075390100479,
	"loss/hidden": 8.19296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.981781056523323,
	"step": 150
	},
	{
	"epoch": 0.016,
	"grad_norm": 242.0,
	"grad_norm_var": 1127.890625,
	"learning_rate": 0.0001,
	"loss": 19.3636,
	"loss/crossentropy": 2.6487351998686792,
	"loss/hidden": 7.96328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.862408060580492,
	"step": 160
	},
	{
	"epoch": 0.017,
	"grad_norm": 139.0,
	"grad_norm_var": 1720.690625,
	"learning_rate": 0.0001,
	"loss": 17.9103,
	"loss/crossentropy": 2.944036450982094,
	"loss/hidden": 7.28671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.7954695858061314,
	"step": 170
	},
	{
	"epoch": 0.018,
	"grad_norm": 127.0,
	"grad_norm_var": 1522.8958333333333,
	"learning_rate": 0.0001,
	"loss": 17.1787,
	"loss/crossentropy": 2.7259451180696486,
	"loss/hidden": 7.03046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.7603268466889859,
	"step": 180
	},
	{
	"epoch": 0.019,
	"grad_norm": 155.0,
	"grad_norm_var": 1390.2666666666667,
	"learning_rate": 0.0001,
	"loss": 16.3546,
	"loss/crossentropy": 2.745239295065403,
	"loss/hidden": 6.74765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.6926519803702831,
	"step": 190
	},
	{
	"epoch": 0.02,
	"grad_norm": 164.0,
	"grad_norm_var": 902.2666666666667,
	"learning_rate": 0.0001,
	"loss": 15.7972,
	"loss/crossentropy": 2.6587735950946807,
	"loss/hidden": 6.6234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.6642795346677304,
	"step": 200
	},
	{
	"epoch": 0.021,
	"grad_norm": 173.0,
	"grad_norm_var": 1056.5166666666667,
	"learning_rate": 0.0001,
	"loss": 15.4154,
	"loss/crossentropy": 2.67086471170187,
	"loss/hidden": 6.30390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.6120679222047329,
	"step": 210
	},
	{
	"epoch": 0.022,
	"grad_norm": 168.0,
	"grad_norm_var": 446.2291666666667,
	"learning_rate": 0.0001,
	"loss": 14.9164,
	"loss/crossentropy": 2.8284773945808412,
	"loss/hidden": 6.15546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.6234366297721863,
	"step": 220
	},
	{
	"epoch": 0.023,
	"grad_norm": 187.0,
	"grad_norm_var": 7334.5625,
	"learning_rate": 0.0001,
	"loss": 14.9531,
	"loss/crossentropy": 2.716707041859627,
	"loss/hidden": 6.196875,
	"loss/jsd": 0.0,
	"loss/logits": 0.6206937313079834,
	"step": 230
	},
	{
	"epoch": 0.024,
	"grad_norm": 172.0,
	"grad_norm_var": 6329.6625,
	"learning_rate": 0.0001,
	"loss": 14.4769,
	"loss/crossentropy": 2.4854482382535936,
	"loss/hidden": 6.05859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.5394440380856395,
	"step": 240
	},
	{
	"epoch": 0.025,
	"grad_norm": 1149239296.0,
	"grad_norm_var": 8.254690576187568e+16,
	"learning_rate": 0.0001,
	"loss": 14.4045,
	"loss/crossentropy": 2.717127138376236,
	"loss/hidden": 5.9890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.5883205510675907,
	"step": 250
	},
	{
	"epoch": 0.026,
	"grad_norm": 149.0,
	"grad_norm_var": 8.254691009067347e+16,
	"learning_rate": 0.0001,
	"loss": 13.9101,
	"loss/crossentropy": 2.478851719200611,
	"loss/hidden": 5.8765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.5184394292533397,
	"step": 260
	},
	{
	"epoch": 0.027,
	"grad_norm": 186.0,
	"grad_norm_var": 930.0625,
	"learning_rate": 0.0001,
	"loss": 13.6027,
	"loss/crossentropy": 2.553143638372421,
	"loss/hidden": 5.75234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.5368255846202373,
	"step": 270
	},
	{
	"epoch": 0.028,
	"grad_norm": 172.0,
	"grad_norm_var": 3805.0666666666666,
	"learning_rate": 0.0001,
	"loss": 13.9542,
	"loss/crossentropy": 2.7657821238040925,
	"loss/hidden": 5.8421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.5587639883160591,
	"step": 280
	},
	{
	"epoch": 0.029,
	"grad_norm": 135.0,
	"grad_norm_var": 3837.616666666667,
	"learning_rate": 0.0001,
	"loss": 13.3979,
	"loss/crossentropy": 2.4579825714230537,
	"loss/hidden": 5.62421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.5003356814384461,
	"step": 290
	},
	{
	"epoch": 0.03,
	"grad_norm": 119.5,
	"grad_norm_var": 4336.095833333334,
	"learning_rate": 0.0001,
	"loss": 13.372,
	"loss/crossentropy": 2.4825384080410005,
	"loss/hidden": 5.77734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.5297574065625668,
	"step": 300
	},
	{
	"epoch": 0.031,
	"grad_norm": 144.0,
	"grad_norm_var": 2114.4333333333334,
	"learning_rate": 0.0001,
	"loss": 13.2199,
	"loss/crossentropy": 2.6365180641412733,
	"loss/hidden": 5.5484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.5377178646624088,
	"step": 310
	},
	{
	"epoch": 0.032,
	"grad_norm": 126.5,
	"grad_norm_var": 885.75,
	"learning_rate": 0.0001,
	"loss": 13.022,
	"loss/crossentropy": 2.41667592599988,
	"loss/hidden": 5.5296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.4934091318398714,
	"step": 320
	},
	{
	"epoch": 0.033,
	"grad_norm": 113.0,
	"grad_norm_var": 4216.623958333334,
	"learning_rate": 0.0001,
	"loss": 12.6825,
	"loss/crossentropy": 2.6186458706855773,
	"loss/hidden": 5.3796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.48778619766235354,
	"step": 330
	},
	{
	"epoch": 0.034,
	"grad_norm": 154.0,
	"grad_norm_var": 637.090625,
	"learning_rate": 0.0001,
	"loss": 12.6415,
	"loss/crossentropy": 2.6686057686805724,
	"loss/hidden": 5.384375,
	"loss/jsd": 0.0,
	"loss/logits": 0.4940062865614891,
	"step": 340
	},
	{
	"epoch": 0.035,
	"grad_norm": 144.0,
	"grad_norm_var": 2633.765625,
	"learning_rate": 0.0001,
	"loss": 12.6064,
	"loss/crossentropy": 2.52793410718441,
	"loss/hidden": 5.21171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.45680325478315353,
	"step": 350
	},
	{
	"epoch": 0.036,
	"grad_norm": 141.0,
	"grad_norm_var": 2513.148958333333,
	"learning_rate": 0.0001,
	"loss": 12.508,
	"loss/crossentropy": 2.445630243420601,
	"loss/hidden": 5.31171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.4673466898500919,
	"step": 360
	},
	{
	"epoch": 0.037,
	"grad_norm": 146.0,
	"grad_norm_var": 161.95729166666666,
	"learning_rate": 0.0001,
	"loss": 12.3383,
	"loss/crossentropy": 2.432392257452011,
	"loss/hidden": 5.2109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.4600852273404598,
	"step": 370
	},
	{
	"epoch": 0.038,
	"grad_norm": 122.5,
	"grad_norm_var": 1555.340625,
	"learning_rate": 0.0001,
	"loss": 12.2486,
	"loss/crossentropy": 2.448658475279808,
	"loss/hidden": 5.29765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.47797103337943553,
	"step": 380
	},
	{
	"epoch": 0.039,
	"grad_norm": 110.5,
	"grad_norm_var": 159.92916666666667,
	"learning_rate": 0.0001,
	"loss": 11.9006,
	"loss/crossentropy": 2.4291503965854644,
	"loss/hidden": 5.01328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.43006020598113537,
	"step": 390
	},
	{
	"epoch": 0.04,
	"grad_norm": 136.0,
	"grad_norm_var": 175.37395833333332,
	"learning_rate": 0.0001,
	"loss": 11.9938,
	"loss/crossentropy": 2.604290932416916,
	"loss/hidden": 4.9828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.4612982179969549,
	"step": 400
	},
	{
	"epoch": 0.041,
	"grad_norm": 109.0,
	"grad_norm_var": 170.09583333333333,
	"learning_rate": 0.0001,
	"loss": 11.8251,
	"loss/crossentropy": 2.3994911506772043,
	"loss/hidden": 5.03984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.4143600896000862,
	"step": 410
	},
	{
	"epoch": 0.042,
	"grad_norm": 122.0,
	"grad_norm_var": 150.45729166666666,
	"learning_rate": 0.0001,
	"loss": 11.6797,
	"loss/crossentropy": 2.428033410012722,
	"loss/hidden": 4.96171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.41778192222118377,
	"step": 420
	},
	{
	"epoch": 0.043,
	"grad_norm": 119.0,
	"grad_norm_var": 125.55729166666667,
	"learning_rate": 0.0001,
	"loss": 11.7055,
	"loss/crossentropy": 2.569334480166435,
	"loss/hidden": 4.9921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.4176106728613377,
	"step": 430
	},
	{
	"epoch": 0.044,
	"grad_norm": 120.0,
	"grad_norm_var": 186.67395833333333,
	"learning_rate": 0.0001,
	"loss": 11.5608,
	"loss/crossentropy": 2.5353519901633264,
	"loss/hidden": 4.82578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.4004150029271841,
	"step": 440
	},
	{
	"epoch": 0.045,
	"grad_norm": 111.5,
	"grad_norm_var": 157.52395833333333,
	"learning_rate": 0.0001,
	"loss": 11.6926,
	"loss/crossentropy": 2.539342051744461,
	"loss/hidden": 4.9390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.4505396105349064,
	"step": 450
	},
	{
	"epoch": 0.046,
	"grad_norm": 126.0,
	"grad_norm_var": 329.32916666666665,
	"learning_rate": 0.0001,
	"loss": 11.3179,
	"loss/crossentropy": 2.4947912380099297,
	"loss/hidden": 4.70703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.39311613626778125,
	"step": 460
	},
	{
	"epoch": 0.047,
	"grad_norm": 130.0,
	"grad_norm_var": 482.1958333333333,
	"learning_rate": 0.0001,
	"loss": 11.2995,
	"loss/crossentropy": 2.522867926955223,
	"loss/hidden": 4.778125,
	"loss/jsd": 0.0,
	"loss/logits": 0.39878650680184363,
	"step": 470
	},
	{
	"epoch": 0.048,
	"grad_norm": 114.5,
	"grad_norm_var": 159.2,
	"learning_rate": 0.0001,
	"loss": 11.1298,
	"loss/crossentropy": 2.503119890391827,
	"loss/hidden": 4.6859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.4145892545580864,
	"step": 480
	},
	{
	"epoch": 0.049,
	"grad_norm": 123.5,
	"grad_norm_var": 2113.4625,
	"learning_rate": 0.0001,
	"loss": 11.0383,
	"loss/crossentropy": 2.4039885073900225,
	"loss/hidden": 4.658203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.37959295585751535,
	"step": 490
	},
	{
	"epoch": 0.05,
	"grad_norm": 110.0,
	"grad_norm_var": 1545.5291666666667,
	"learning_rate": 0.0001,
	"loss": 10.9564,
	"loss/crossentropy": 2.3160028889775277,
	"loss/hidden": 4.78359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.4041217315942049,
	"step": 500
	},
	{
	"epoch": 0.051,
	"grad_norm": 118.5,
	"grad_norm_var": 1485.1572916666667,
	"learning_rate": 0.0001,
	"loss": 11.0273,
	"loss/crossentropy": 2.3481629095971583,
	"loss/hidden": 4.76796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.388704277202487,
	"step": 510
	},
	{
	"epoch": 0.052,
	"grad_norm": 302.0,
	"grad_norm_var": 4060.695833333333,
	"learning_rate": 0.0001,
	"loss": 10.8826,
	"loss/crossentropy": 2.432570169866085,
	"loss/hidden": 4.647265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.4005543690174818,
	"step": 520
	},
	{
	"epoch": 0.053,
	"grad_norm": 262.0,
	"grad_norm_var": 5144.929166666667,
	"learning_rate": 0.0001,
	"loss": 10.9255,
	"loss/crossentropy": 2.4078257739543916,
	"loss/hidden": 4.51953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3619723778218031,
	"step": 530
	},
	{
	"epoch": 0.054,
	"grad_norm": 111.5,
	"grad_norm_var": 3058.195833333333,
	"learning_rate": 0.0001,
	"loss": 10.8513,
	"loss/crossentropy": 2.1905623614788055,
	"loss/hidden": 4.54921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.3489991918206215,
	"step": 540
	},
	{
	"epoch": 0.055,
	"grad_norm": 98.0,
	"grad_norm_var": 2313.990625,
	"learning_rate": 0.0001,
	"loss": 10.8386,
	"loss/crossentropy": 2.4719990983605387,
	"loss/hidden": 4.63984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.4116944268345833,
	"step": 550
	},
	{
	"epoch": 0.056,
	"grad_norm": 105.0,
	"grad_norm_var": 1808.315625,
	"learning_rate": 0.0001,
	"loss": 10.7797,
	"loss/crossentropy": 2.381363682448864,
	"loss/hidden": 4.58828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.38398357704281805,
	"step": 560
	},
	{
	"epoch": 0.057,
	"grad_norm": 206.0,
	"grad_norm_var": 1395.3,
	"learning_rate": 0.0001,
	"loss": 10.6643,
	"loss/crossentropy": 2.531977267563343,
	"loss/hidden": 4.6171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.37524734511971475,
	"step": 570
	},
	{
	"epoch": 0.058,
	"grad_norm": 150.0,
	"grad_norm_var": 1246.6333333333334,
	"learning_rate": 0.0001,
	"loss": 10.5081,
	"loss/crossentropy": 2.391422814875841,
	"loss/hidden": 4.46484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.3587542846798897,
	"step": 580
	},
	{
	"epoch": 0.059,
	"grad_norm": 110.5,
	"grad_norm_var": 678.5333333333333,
	"learning_rate": 0.0001,
	"loss": 10.4338,
	"loss/crossentropy": 2.267008524388075,
	"loss/hidden": 4.356640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.3174692545086145,
	"step": 590
	},
	{
	"epoch": 0.06,
	"grad_norm": 135.0,
	"grad_norm_var": 914.0489583333333,
	"learning_rate": 0.0001,
	"loss": 10.5236,
	"loss/crossentropy": 2.3517861902713775,
	"loss/hidden": 4.42265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.3542962525039911,
	"step": 600
	},
	{
	"epoch": 0.061,
	"grad_norm": 103.0,
	"grad_norm_var": 904.1989583333333,
	"learning_rate": 0.0001,
	"loss": 10.345,
	"loss/crossentropy": 2.3741147622466086,
	"loss/hidden": 4.4171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.3606201378628612,
	"step": 610
	},
	{
	"epoch": 0.062,
	"grad_norm": 86.0,
	"grad_norm_var": 624.25,
	"learning_rate": 0.0001,
	"loss": 10.4494,
	"loss/crossentropy": 2.3786921083927153,
	"loss/hidden": 4.291796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.33345147483050824,
	"step": 620
	},
	{
	"epoch": 0.063,
	"grad_norm": 109.0,
	"grad_norm_var": 580.0333333333333,
	"learning_rate": 0.0001,
	"loss": 10.1494,
	"loss/crossentropy": 2.3835427895188332,
	"loss/hidden": 4.328515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.33732542097568513,
	"step": 630
	},
	{
	"epoch": 0.064,
	"grad_norm": 106.5,
	"grad_norm_var": 407.5625,
	"learning_rate": 0.0001,
	"loss": 10.334,
	"loss/crossentropy": 2.3970961540937425,
	"loss/hidden": 4.486328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3739761531352997,
	"step": 640
	},
	{
	"epoch": 0.065,
	"grad_norm": 127.0,
	"grad_norm_var": 8.827054751968406e+17,
	"learning_rate": 0.0001,
	"loss": 10.3909,
	"loss/crossentropy": 2.603018820285797,
	"loss/hidden": 4.336328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.35302893407642844,
	"step": 650
	},
	{
	"epoch": 0.066,
	"grad_norm": 103.0,
	"grad_norm_var": 8.827054748993245e+17,
	"learning_rate": 0.0001,
	"loss": 10.3448,
	"loss/crossentropy": 2.209125077724457,
	"loss/hidden": 4.298046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.3420632269233465,
	"step": 660
	},
	{
	"epoch": 0.067,
	"grad_norm": 111.5,
	"grad_norm_var": 190.75,
	"learning_rate": 0.0001,
	"loss": 10.1599,
	"loss/crossentropy": 2.1904555816203355,
	"loss/hidden": 4.413671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.3357353564351797,
	"step": 670
	},
	{
	"epoch": 0.068,
	"grad_norm": 88.5,
	"grad_norm_var": 215.29895833333333,
	"learning_rate": 0.0001,
	"loss": 9.9371,
	"loss/crossentropy": 2.3618984460830688,
	"loss/hidden": 4.186328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.33678749240934847,
	"step": 680
	},
	{
	"epoch": 0.069,
	"grad_norm": 95.0,
	"grad_norm_var": 228.140625,
	"learning_rate": 0.0001,
	"loss": 10.0861,
	"loss/crossentropy": 2.372377243638039,
	"loss/hidden": 4.2109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.3243491280823946,
	"step": 690
	},
	{
	"epoch": 0.07,
	"grad_norm": 84.0,
	"grad_norm_var": 520.1666666666666,
	"learning_rate": 0.0001,
	"loss": 10.2116,
	"loss/crossentropy": 2.235209721326828,
	"loss/hidden": 4.303515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.34188132397830484,
	"step": 700
	},
	{
	"epoch": 0.071,
	"grad_norm": 103.0,
	"grad_norm_var": 553.9291666666667,
	"learning_rate": 0.0001,
	"loss": 9.9575,
	"loss/crossentropy": 2.3372152552008627,
	"loss/hidden": 4.1390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.3105729196220636,
	"step": 710
	},
	{
	"epoch": 0.072,
	"grad_norm": 107.0,
	"grad_norm_var": 538.540625,
	"learning_rate": 0.0001,
	"loss": 9.978,
	"loss/crossentropy": 2.510573136806488,
	"loss/hidden": 4.14453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3471809647977352,
	"step": 720
	},
	{
	"epoch": 0.073,
	"grad_norm": 139.0,
	"grad_norm_var": 493.49583333333334,
	"learning_rate": 0.0001,
	"loss": 9.9677,
	"loss/crossentropy": 2.3755437433719635,
	"loss/hidden": 4.123828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3338810380548239,
	"step": 730
	},
	{
	"epoch": 0.074,
	"grad_norm": 99.0,
	"grad_norm_var": 286.8625,
	"learning_rate": 0.0001,
	"loss": 9.8714,
	"loss/crossentropy": 2.3226330026984217,
	"loss/hidden": 4.11015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.32580162063241,
	"step": 740
	},
	{
	"epoch": 0.075,
	"grad_norm": 85.5,
	"grad_norm_var": 425.8625,
	"learning_rate": 0.0001,
	"loss": 9.7891,
	"loss/crossentropy": 2.3768628584221005,
	"loss/hidden": 4.124609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.31062583327293397,
	"step": 750
	},
	{
	"epoch": 0.076,
	"grad_norm": 120.0,
	"grad_norm_var": 373.765625,
	"learning_rate": 0.0001,
	"loss": 9.8455,
	"loss/crossentropy": 2.4248126417398455,
	"loss/hidden": 4.2359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.3379279874265194,
	"step": 760
	},
	{
	"epoch": 0.077,
	"grad_norm": 115.5,
	"grad_norm_var": 366.765625,
	"learning_rate": 0.0001,
	"loss": 9.7894,
	"loss/crossentropy": 2.2128719061613085,
	"loss/hidden": 4.18515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.3335044614970684,
	"step": 770
	},
	{
	"epoch": 0.078,
	"grad_norm": 82.0,
	"grad_norm_var": 207.05,
	"learning_rate": 0.0001,
	"loss": 9.7323,
	"loss/crossentropy": 2.321111184358597,
	"loss/hidden": 4.112109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.30921670254319905,
	"step": 780
	},
	{
	"epoch": 0.079,
	"grad_norm": 90.0,
	"grad_norm_var": 321.65729166666665,
	"learning_rate": 0.0001,
	"loss": 9.7419,
	"loss/crossentropy": 2.3887290723621843,
	"loss/hidden": 4.17421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.34963752441108226,
	"step": 790
	},
	{
	"epoch": 0.08,
	"grad_norm": 90.0,
	"grad_norm_var": 1653.9958333333334,
	"learning_rate": 0.0001,
	"loss": 9.6443,
	"loss/crossentropy": 2.34355805516243,
	"loss/hidden": 4.119140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.3216205321252346,
	"step": 800
	},
	{
	"epoch": 0.081,
	"grad_norm": 111.0,
	"grad_norm_var": 1760.865625,
	"learning_rate": 0.0001,
	"loss": 9.7151,
	"loss/crossentropy": 2.26568204164505,
	"loss/hidden": 4.0734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.3119744971394539,
	"step": 810
	},
	{
	"epoch": 0.082,
	"grad_norm": 100.0,
	"grad_norm_var": 365.0,
	"learning_rate": 0.0001,
	"loss": 9.6335,
	"loss/crossentropy": 2.363439542800188,
	"loss/hidden": 4.0421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.3196489207446575,
	"step": 820
	},
	{
	"epoch": 0.083,
	"grad_norm": 105.0,
	"grad_norm_var": 725.840625,
	"learning_rate": 0.0001,
	"loss": 9.5683,
	"loss/crossentropy": 2.25376470759511,
	"loss/hidden": 4.040625,
	"loss/jsd": 0.0,
	"loss/logits": 0.3137321826070547,
	"step": 830
	},
	{
	"epoch": 0.084,
	"grad_norm": 91.0,
	"grad_norm_var": 243.115625,
	"learning_rate": 0.0001,
	"loss": 9.6059,
	"loss/crossentropy": 2.402809253334999,
	"loss/hidden": 4.08359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.3079391553997993,
	"step": 840
	},
	{
	"epoch": 0.085,
	"grad_norm": 115.5,
	"grad_norm_var": 52.3625,
	"learning_rate": 0.0001,
	"loss": 9.4809,
	"loss/crossentropy": 2.3521162420511246,
	"loss/hidden": 3.929296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.3063440557569265,
	"step": 850
	},
	{
	"epoch": 0.086,
	"grad_norm": 91.0,
	"grad_norm_var": 109.71666666666667,
	"learning_rate": 0.0001,
	"loss": 9.6562,
	"loss/crossentropy": 2.443948082625866,
	"loss/hidden": 4.025390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.33005591817200186,
	"step": 860
	},
	{
	"epoch": 0.087,
	"grad_norm": 99.0,
	"grad_norm_var": 8.906043697083199e+17,
	"learning_rate": 0.0001,
	"loss": 9.6756,
	"loss/crossentropy": 2.2569786101579665,
	"loss/hidden": 4.169140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.32912670746445655,
	"step": 870
	},
	{
	"epoch": 0.088,
	"grad_norm": 87.5,
	"grad_norm_var": 8.90604369488119e+17,
	"learning_rate": 0.0001,
	"loss": 9.6822,
	"loss/crossentropy": 2.542811484634876,
	"loss/hidden": 3.961328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3259673956781626,
	"step": 880
	},
	{
	"epoch": 0.089,
	"grad_norm": 117.0,
	"grad_norm_var": 227.42395833333333,
	"learning_rate": 0.0001,
	"loss": 9.44,
	"loss/crossentropy": 2.3939336955547335,
	"loss/hidden": 3.878515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.29817260801792145,
	"step": 890
	},
	{
	"epoch": 0.09,
	"grad_norm": 79.0,
	"grad_norm_var": 200.97395833333334,
	"learning_rate": 0.0001,
	"loss": 9.3573,
	"loss/crossentropy": 2.496935114264488,
	"loss/hidden": 4.0015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.3248747974634171,
	"step": 900
	},
	{
	"epoch": 0.091,
	"grad_norm": 97.5,
	"grad_norm_var": 517.7,
	"learning_rate": 0.0001,
	"loss": 9.4559,
	"loss/crossentropy": 2.245865948498249,
	"loss/hidden": 3.951953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.30880712568759916,
	"step": 910
	},
	{
	"epoch": 0.092,
	"grad_norm": 93.0,
	"grad_norm_var": 475.07395833333334,
	"learning_rate": 0.0001,
	"loss": 9.3572,
	"loss/crossentropy": 2.3004986569285393,
	"loss/hidden": 3.912890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2959143763408065,
	"step": 920
	},
	{
	"epoch": 0.093,
	"grad_norm": 94.5,
	"grad_norm_var": 139.9,
	"learning_rate": 0.0001,
	"loss": 9.461,
	"loss/crossentropy": 2.360969065129757,
	"loss/hidden": 3.9828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3106645856052637,
	"step": 930
	},
	{
	"epoch": 0.094,
	"grad_norm": 102.5,
	"grad_norm_var": 82.290625,
	"learning_rate": 0.0001,
	"loss": 9.3725,
	"loss/crossentropy": 2.442077124118805,
	"loss/hidden": 3.887109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.30320504680275917,
	"step": 940
	},
	{
	"epoch": 0.095,
	"grad_norm": 81.0,
	"grad_norm_var": 283.8989583333333,
	"learning_rate": 0.0001,
	"loss": 9.215,
	"loss/crossentropy": 2.2990706115961075,
	"loss/hidden": 3.908203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2945917289704084,
	"step": 950
	},
	{
	"epoch": 0.096,
	"grad_norm": 85.5,
	"grad_norm_var": 935.5291666666667,
	"learning_rate": 0.0001,
	"loss": 9.3148,
	"loss/crossentropy": 2.405318558216095,
	"loss/hidden": 3.8734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.29377752766013143,
	"step": 960
	},
	{
	"epoch": 0.097,
	"grad_norm": 90.5,
	"grad_norm_var": 745.3291666666667,
	"learning_rate": 0.0001,
	"loss": 9.2675,
	"loss/crossentropy": 2.313190388679504,
	"loss/hidden": 3.908203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3074024930596352,
	"step": 970
	},
	{
	"epoch": 0.098,
	"grad_norm": 91.5,
	"grad_norm_var": 74.38333333333334,
	"learning_rate": 0.0001,
	"loss": 9.3473,
	"loss/crossentropy": 2.4643412232398987,
	"loss/hidden": 3.9109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.31328765451908114,
	"step": 980
	},
	{
	"epoch": 0.099,
	"grad_norm": 83.0,
	"grad_norm_var": 77.24895833333333,
	"learning_rate": 0.0001,
	"loss": 9.1591,
	"loss/crossentropy": 2.3321994699537756,
	"loss/hidden": 3.794140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2842238027602434,
	"step": 990
	},
	{
	"epoch": 0.1,
	"grad_norm": 2919235584.0,
	"grad_norm_var": 5.3262099304352365e+17,
	"learning_rate": 0.0001,
	"loss": 9.2499,
	"loss/crossentropy": 2.24974425137043,
	"loss/hidden": 3.69921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2656703107059002,
	"step": 1000
	},
	{
	"epoch": 0.101,
	"grad_norm": 83.0,
	"grad_norm_var": 5.3262099137712704e+17,
	"learning_rate": 0.0001,
	"loss": 9.1036,
	"loss/crossentropy": 2.248470115661621,
	"loss/hidden": 3.834375,
	"loss/jsd": 0.0,
	"loss/logits": 0.28389163631945846,
	"step": 1010
	},
	{
	"epoch": 0.102,
	"grad_norm": 99.5,
	"grad_norm_var": 260.3958333333333,
	"learning_rate": 0.0001,
	"loss": 9.1529,
	"loss/crossentropy": 2.177551028132439,
	"loss/hidden": 3.85625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2901096811518073,
	"step": 1020
	},
	{
	"epoch": 0.103,
	"grad_norm": 107.0,
	"grad_norm_var": 126.18333333333334,
	"learning_rate": 0.0001,
	"loss": 9.2276,
	"loss/crossentropy": 2.4588360369205473,
	"loss/hidden": 3.81953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3054195210337639,
	"step": 1030
	},
	{
	"epoch": 0.104,
	"grad_norm": 92.5,
	"grad_norm_var": 773.6822916666666,
	"learning_rate": 0.0001,
	"loss": 9.2522,
	"loss/crossentropy": 2.36704108864069,
	"loss/hidden": 3.98984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.32540309652686117,
	"step": 1040
	},
	{
	"epoch": 0.105,
	"grad_norm": 94.0,
	"grad_norm_var": 747.9958333333333,
	"learning_rate": 0.0001,
	"loss": 9.1546,
	"loss/crossentropy": 2.2803470581769942,
	"loss/hidden": 3.805078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3206649195402861,
	"step": 1050
	},
	{
	"epoch": 0.106,
	"grad_norm": 74.0,
	"grad_norm_var": 118.565625,
	"learning_rate": 0.0001,
	"loss": 9.1738,
	"loss/crossentropy": 2.468463772535324,
	"loss/hidden": 3.775390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.3029760651290417,
	"step": 1060
	},
	{
	"epoch": 0.107,
	"grad_norm": 76.0,
	"grad_norm_var": 112.42395833333333,
	"learning_rate": 0.0001,
	"loss": 9.0442,
	"loss/crossentropy": 2.3093275628983974,
	"loss/hidden": 3.8203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.30387087166309357,
	"step": 1070
	},
	{
	"epoch": 0.108,
	"grad_norm": 92.5,
	"grad_norm_var": 47.71666666666667,
	"learning_rate": 0.0001,
	"loss": 9.0691,
	"loss/crossentropy": 2.3587117075920103,
	"loss/hidden": 3.7921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2959397092461586,
	"step": 1080
	},
	{
	"epoch": 0.109,
	"grad_norm": 82.0,
	"grad_norm_var": 82.57395833333334,
	"learning_rate": 0.0001,
	"loss": 9.0681,
	"loss/crossentropy": 2.3668819189071657,
	"loss/hidden": 3.873828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.30734706819057467,
	"step": 1090
	},
	{
	"epoch": 0.11,
	"grad_norm": 98.0,
	"grad_norm_var": 130.02916666666667,
	"learning_rate": 0.0001,
	"loss": 9.1895,
	"loss/crossentropy": 2.4498503282666206,
	"loss/hidden": 3.838671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.30784521605819465,
	"step": 1100
	},
	{
	"epoch": 0.111,
	"grad_norm": 88.5,
	"grad_norm_var": 92.05729166666667,
	"learning_rate": 0.0001,
	"loss": 9.2165,
	"loss/crossentropy": 2.37082399725914,
	"loss/hidden": 3.859375,
	"loss/jsd": 0.0,
	"loss/logits": 0.29330057725310327,
	"step": 1110
	},
	{
	"epoch": 0.112,
	"grad_norm": 89.5,
	"grad_norm_var": 160.39895833333333,
	"learning_rate": 0.0001,
	"loss": 9.0963,
	"loss/crossentropy": 2.245619586110115,
	"loss/hidden": 3.839453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.3090781785547733,
	"step": 1120
	},
	{
	"epoch": 0.113,
	"grad_norm": 89.0,
	"grad_norm_var": 153.57395833333334,
	"learning_rate": 0.0001,
	"loss": 9.1747,
	"loss/crossentropy": 2.254079730808735,
	"loss/hidden": 3.863671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.29664100557565687,
	"step": 1130
	},
	{
	"epoch": 0.114,
	"grad_norm": 85.5,
	"grad_norm_var": 177.3625,
	"learning_rate": 0.0001,
	"loss": 8.9365,
	"loss/crossentropy": 2.3813750982284545,
	"loss/hidden": 3.841796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2955601759254932,
	"step": 1140
	},
	{
	"epoch": 0.115,
	"grad_norm": 97.0,
	"grad_norm_var": 177.75,
	"learning_rate": 0.0001,
	"loss": 9.0288,
	"loss/crossentropy": 2.317107746005058,
	"loss/hidden": 3.7171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2740287099033594,
	"step": 1150
	},
	{
	"epoch": 0.116,
	"grad_norm": 84.0,
	"grad_norm_var": 192.15,
	"learning_rate": 0.0001,
	"loss": 8.9149,
	"loss/crossentropy": 2.2348272860050202,
	"loss/hidden": 3.748828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.26385229676961897,
	"step": 1160
	},
	{
	"epoch": 0.117,
	"grad_norm": 78.0,
	"grad_norm_var": 139.8625,
	"learning_rate": 0.0001,
	"loss": 8.9416,
	"loss/crossentropy": 2.186076807975769,
	"loss/hidden": 3.68046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2610600605607033,
	"step": 1170
	},
	{
	"epoch": 0.118,
	"grad_norm": 80.5,
	"grad_norm_var": 175.85,
	"learning_rate": 0.0001,
	"loss": 8.9542,
	"loss/crossentropy": 2.258153685927391,
	"loss/hidden": 3.740234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.27120565343648195,
	"step": 1180
	},
	{
	"epoch": 0.119,
	"grad_norm": 79.0,
	"grad_norm_var": 164.89583333333334,
	"learning_rate": 0.0001,
	"loss": 8.8167,
	"loss/crossentropy": 2.4536369144916534,
	"loss/hidden": 3.7125,
	"loss/jsd": 0.0,
	"loss/logits": 0.28769057895988226,
	"step": 1190
	},
	{
	"epoch": 0.12,
	"grad_norm": 63.0,
	"grad_norm_var": 103.565625,
	"learning_rate": 0.0001,
	"loss": 8.7058,
	"loss/crossentropy": 2.2031524434685705,
	"loss/hidden": 3.709375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2841499318368733,
	"step": 1200
	},
	{
	"epoch": 0.121,
	"grad_norm": 74.0,
	"grad_norm_var": 117.23229166666667,
	"learning_rate": 0.0001,
	"loss": 8.8823,
	"loss/crossentropy": 2.2541019685566424,
	"loss/hidden": 3.725,
	"loss/jsd": 0.0,
	"loss/logits": 0.2822803447023034,
	"step": 1210
	},
	{
	"epoch": 0.122,
	"grad_norm": 75.5,
	"grad_norm_var": 163.3625,
	"learning_rate": 0.0001,
	"loss": 8.7654,
	"loss/crossentropy": 2.4589641630649566,
	"loss/hidden": 3.77265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.28896796628832816,
	"step": 1220
	},
	{
	"epoch": 0.123,
	"grad_norm": 83.0,
	"grad_norm_var": 68.25,
	"learning_rate": 0.0001,
	"loss": 8.9438,
	"loss/crossentropy": 2.2707848742604257,
	"loss/hidden": 3.685546875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2688711144030094,
	"step": 1230
	},
	{
	"epoch": 0.124,
	"grad_norm": 97.5,
	"grad_norm_var": 75.89895833333334,
	"learning_rate": 0.0001,
	"loss": 8.8432,
	"loss/crossentropy": 2.5097223311662673,
	"loss/hidden": 3.656640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.29047914147377013,
	"step": 1240
	},
	{
	"epoch": 0.125,
	"grad_norm": 89.0,
	"grad_norm_var": 1450.2989583333333,
	"learning_rate": 0.0001,
	"loss": 8.8377,
	"loss/crossentropy": 2.3170286387205126,
	"loss/hidden": 3.7,
	"loss/jsd": 0.0,
	"loss/logits": 0.2755675740540028,
	"step": 1250
	},
	{
	"epoch": 0.126,
	"grad_norm": 65.0,
	"grad_norm_var": 1693.0291666666667,
	"learning_rate": 0.0001,
	"loss": 8.6604,
	"loss/crossentropy": 2.1438958957791328,
	"loss/hidden": 3.639453125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2576067052781582,
	"step": 1260
	},
	{
	"epoch": 0.127,
	"grad_norm": 74.0,
	"grad_norm_var": 126.190625,
	"learning_rate": 0.0001,
	"loss": 8.8333,
	"loss/crossentropy": 2.3025652706623077,
	"loss/hidden": 3.691015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2775576956570148,
	"step": 1270
	},
	{
	"epoch": 0.128,
	"grad_norm": 71.5,
	"grad_norm_var": 87.23229166666667,
	"learning_rate": 0.0001,
	"loss": 8.7094,
	"loss/crossentropy": 2.13181097432971,
	"loss/hidden": 3.702734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.27296230792999265,
	"step": 1280
	},
	{
	"epoch": 0.129,
	"grad_norm": 113.0,
	"grad_norm_var": 149.48229166666667,
	"learning_rate": 0.0001,
	"loss": 8.6782,
	"loss/crossentropy": 2.1315632432699205,
	"loss/hidden": 3.625390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2651492517441511,
	"step": 1290
	},
	{
	"epoch": 0.13,
	"grad_norm": 85.0,
	"grad_norm_var": 111.440625,
	"learning_rate": 0.0001,
	"loss": 8.742,
	"loss/crossentropy": 2.339846658706665,
	"loss/hidden": 3.623828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2743611980229616,
	"step": 1300
	},
	{
	"epoch": 0.131,
	"grad_norm": 86.0,
	"grad_norm_var": 122.965625,
	"learning_rate": 0.0001,
	"loss": 8.6397,
	"loss/crossentropy": 2.2031438082456587,
	"loss/hidden": 3.5578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2621523380279541,
	"step": 1310
	},
	{
	"epoch": 0.132,
	"grad_norm": 71.5,
	"grad_norm_var": 132.10729166666667,
	"learning_rate": 0.0001,
	"loss": 8.7931,
	"loss/crossentropy": 2.465841978788376,
	"loss/hidden": 3.657421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.29582356065511706,
	"step": 1320
	},
	{
	"epoch": 0.133,
	"grad_norm": 98.5,
	"grad_norm_var": 136.34973958333333,
	"learning_rate": 0.0001,
	"loss": 8.7755,
	"loss/crossentropy": 2.3093322798609734,
	"loss/hidden": 3.675390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.28201375566422937,
	"step": 1330
	},
	{
	"epoch": 0.134,
	"grad_norm": 87.0,
	"grad_norm_var": 45.1625,
	"learning_rate": 0.0001,
	"loss": 8.8767,
	"loss/crossentropy": 2.3267322540283204,
	"loss/hidden": 3.687109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.27597835548222066,
	"step": 1340
	},
	{
	"epoch": 0.135,
	"grad_norm": 78.5,
	"grad_norm_var": 52.19583333333333,
	"learning_rate": 0.0001,
	"loss": 8.7636,
	"loss/crossentropy": 2.250748935341835,
	"loss/hidden": 3.722265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.275000686571002,
	"step": 1350
	},
	{
	"epoch": 0.136,
	"grad_norm": 74.0,
	"grad_norm_var": 77.68229166666667,
	"learning_rate": 0.0001,
	"loss": 8.8309,
	"loss/crossentropy": 2.294243222475052,
	"loss/hidden": 3.781640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.29517283104360104,
	"step": 1360
	},
	{
	"epoch": 0.137,
	"grad_norm": 73.0,
	"grad_norm_var": 70.565625,
	"learning_rate": 0.0001,
	"loss": 8.6486,
	"loss/crossentropy": 2.4063815265893935,
	"loss/hidden": 3.561328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.27084620147943494,
	"step": 1370
	},
	{
	"epoch": 0.138,
	"grad_norm": 72.0,
	"grad_norm_var": 160.365625,
	"learning_rate": 0.0001,
	"loss": 8.6319,
	"loss/crossentropy": 2.0357704624533652,
	"loss/hidden": 3.55390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.24529488924890758,
	"step": 1380
	},
	{
	"epoch": 0.139,
	"grad_norm": 92.0,
	"grad_norm_var": 159.2625,
	"learning_rate": 0.0001,
	"loss": 8.6773,
	"loss/crossentropy": 2.207934172451496,
	"loss/hidden": 3.626953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.26206000819802283,
	"step": 1390
	},
	{
	"epoch": 0.14,
	"grad_norm": 92.0,
	"grad_norm_var": 75.85,
	"learning_rate": 0.0001,
	"loss": 8.6142,
	"loss/crossentropy": 2.2258728444576263,
	"loss/hidden": 3.694140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2842423222959042,
	"step": 1400
	},
	{
	"epoch": 0.141,
	"grad_norm": 75.5,
	"grad_norm_var": 69.590625,
	"learning_rate": 0.0001,
	"loss": 8.7049,
	"loss/crossentropy": 2.405027574300766,
	"loss/hidden": 3.594140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2595718756318092,
	"step": 1410
	},
	{
	"epoch": 0.142,
	"grad_norm": 175.0,
	"grad_norm_var": 622.85,
	"learning_rate": 0.0001,
	"loss": 8.5144,
	"loss/crossentropy": 2.3508727669715883,
	"loss/hidden": 3.6578125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2513396417722106,
	"step": 1420
	},
	{
	"epoch": 0.143,
	"grad_norm": 144.0,
	"grad_norm_var": 827.8739583333333,
	"learning_rate": 0.0001,
	"loss": 8.64,
	"loss/crossentropy": 2.158524568378925,
	"loss/hidden": 3.666015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.25669998563826085,
	"step": 1430
	},
	{
	"epoch": 0.144,
	"grad_norm": 90.5,
	"grad_norm_var": 339.35729166666664,
	"learning_rate": 0.0001,
	"loss": 8.5076,
	"loss/crossentropy": 2.1952589228749275,
	"loss/hidden": 3.490625,
	"loss/jsd": 0.0,
	"loss/logits": 0.246895507350564,
	"step": 1440
	},
	{
	"epoch": 0.145,
	"grad_norm": 65.5,
	"grad_norm_var": 314.6333333333333,
	"learning_rate": 0.0001,
	"loss": 8.6159,
	"loss/crossentropy": 2.3050056755542756,
	"loss/hidden": 3.553515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2641986530274153,
	"step": 1450
	},
	{
	"epoch": 0.146,
	"grad_norm": 76.5,
	"grad_norm_var": 426.1166666666667,
	"learning_rate": 0.0001,
	"loss": 8.527,
	"loss/crossentropy": 2.281977441906929,
	"loss/hidden": 3.49296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2622336186468601,
	"step": 1460
	},
	{
	"epoch": 0.147,
	"grad_norm": 74.0,
	"grad_norm_var": 278.69348958333336,
	"learning_rate": 0.0001,
	"loss": 8.6149,
	"loss/crossentropy": 2.303273032605648,
	"loss/hidden": 3.5671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2778003554791212,
	"step": 1470
	},
	{
	"epoch": 0.148,
	"grad_norm": 102.0,
	"grad_norm_var": 134.70729166666666,
	"learning_rate": 0.0001,
	"loss": 8.4927,
	"loss/crossentropy": 2.40097414329648,
	"loss/hidden": 3.536328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.27044865442439914,
	"step": 1480
	},
	{
	"epoch": 0.149,
	"grad_norm": 72.0,
	"grad_norm_var": 87.8,
	"learning_rate": 0.0001,
	"loss": 8.4056,
	"loss/crossentropy": 2.186897784471512,
	"loss/hidden": 3.532421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.24866797383874656,
	"step": 1490
	},
	{
	"epoch": 0.15,
	"grad_norm": 75.5,
	"grad_norm_var": 133.09583333333333,
	"learning_rate": 0.0001,
	"loss": 8.5426,
	"loss/crossentropy": 2.311472164094448,
	"loss/hidden": 3.53359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.25585599690675737,
	"step": 1500
	},
	{
	"epoch": 0.151,
	"grad_norm": 136.0,
	"grad_norm_var": 258.7625,
	"learning_rate": 0.0001,
	"loss": 8.3875,
	"loss/crossentropy": 2.2983651250600814,
	"loss/hidden": 3.562890625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2763795707374811,
	"step": 1510
	},
	{
	"epoch": 0.152,
	"grad_norm": 94.5,
	"grad_norm_var": 292.75598958333336,
	"learning_rate": 0.0001,
	"loss": 8.5971,
	"loss/crossentropy": 2.3549255669116973,
	"loss/hidden": 3.55703125,
	"loss/jsd": 0.0,
	"loss/logits": 0.268990096822381,
	"step": 1520
	},
	{
	"epoch": 0.153,
	"grad_norm": 83.0,
	"grad_norm_var": 1.4189153071319926e+18,
	"learning_rate": 0.0001,
	"loss": 8.7383,
	"loss/crossentropy": 2.267159214615822,
	"loss/hidden": 3.5671875,
	"loss/jsd": 0.0,
	"loss/logits": 0.27373309470713136,
	"step": 1530
	},
	{
	"epoch": 0.154,
	"grad_norm": 77.5,
	"grad_norm_var": 63.916666666666664,
	"learning_rate": 0.0001,
	"loss": 8.5718,
	"loss/crossentropy": 2.259125065803528,
	"loss/hidden": 3.67265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.28385352455079554,
	"step": 1540
	},
	{
	"epoch": 0.155,
	"grad_norm": 73.5,
	"grad_norm_var": 39.78723958333333,
	"learning_rate": 0.0001,
	"loss": 8.4993,
	"loss/crossentropy": 2.3606351226568223,
	"loss/hidden": 3.558984375,
	"loss/jsd": 0.0,
	"loss/logits": 0.272869897633791,
	"step": 1550
	},
	{
	"epoch": 0.156,
	"grad_norm": 71.5,
	"grad_norm_var": 247.2625,
	"learning_rate": 0.0001,
	"loss": 8.6188,
	"loss/crossentropy": 2.394289918243885,
	"loss/hidden": 3.519921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.269069866463542,
	"step": 1560
	},
	{
	"epoch": 0.157,
	"grad_norm": 71.0,
	"grad_norm_var": 265.7,
	"learning_rate": 0.0001,
	"loss": 8.4936,
	"loss/crossentropy": 2.2599784307181836,
	"loss/hidden": 3.533203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.26600994151085616,
	"step": 1570
	},
	{
	"epoch": 0.158,
	"grad_norm": 83.0,
	"grad_norm_var": 42.88333333333333,
	"learning_rate": 0.0001,
	"loss": 8.5015,
	"loss/crossentropy": 2.3098704159259795,
	"loss/hidden": 3.628515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.285567194968462,
	"step": 1580
	},
	{
	"epoch": 0.159,
	"grad_norm": 67.0,
	"grad_norm_var": 111.665625,
	"learning_rate": 0.0001,
	"loss": 8.4128,
	"loss/crossentropy": 2.1794722147285936,
	"loss/hidden": 3.526953125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2647275095805526,
	"step": 1590
	},
	{
	"epoch": 0.16,
	"grad_norm": 91.0,
	"grad_norm_var": 149.97890625,
	"learning_rate": 0.0001,
	"loss": 8.4745,
	"loss/crossentropy": 2.2243838563561438,
	"loss/hidden": 3.550390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2563688028603792,
	"step": 1600
	},
	{
	"epoch": 0.161,
	"grad_norm": 90.0,
	"grad_norm_var": 157.87395833333332,
	"learning_rate": 0.0001,
	"loss": 8.4168,
	"loss/crossentropy": 2.3965038657188416,
	"loss/hidden": 3.52265625,
	"loss/jsd": 0.0,
	"loss/logits": 0.27364722844213246,
	"step": 1610
	},
	{
	"epoch": 0.162,
	"grad_norm": 96.0,
	"grad_norm_var": 380.89348958333335,
	"learning_rate": 0.0001,
	"loss": 8.6256,
	"loss/crossentropy": 2.519009140133858,
	"loss/hidden": 3.536328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.29145103991031646,
	"step": 1620
	},
	{
	"epoch": 0.163,
	"grad_norm": 80.0,
	"grad_norm_var": 331.05,
	"learning_rate": 0.0001,
	"loss": 8.2011,
	"loss/crossentropy": 2.1994084089994432,
	"loss/hidden": 3.530078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2542119387537241,
	"step": 1630
	},
	{
	"epoch": 0.164,
	"grad_norm": 72.0,
	"grad_norm_var": 41.19583333333333,
	"learning_rate": 0.0001,
	"loss": 8.3636,
	"loss/crossentropy": 2.4333469703793527,
	"loss/hidden": 3.4828125,
	"loss/jsd": 0.0,
	"loss/logits": 0.25861090533435344,
	"step": 1640
	},
	{
	"epoch": 0.165,
	"grad_norm": 79.0,
	"grad_norm_var": 226.29583333333332,
	"learning_rate": 0.0001,
	"loss": 8.5285,
	"loss/crossentropy": 2.468096488714218,
	"loss/hidden": 3.478515625,
	"loss/jsd": 0.0,
	"loss/logits": 0.26285996809601786,
	"step": 1650
	},
	{
	"epoch": 0.166,
	"grad_norm": 84.5,
	"grad_norm_var": 218.12916666666666,
	"learning_rate": 0.0001,
	"loss": 8.4346,
	"loss/crossentropy": 2.2107077345252035,
	"loss/hidden": 3.591015625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2654247496277094,
	"step": 1660
	},
	{
	"epoch": 0.167,
	"grad_norm": 68.0,
	"grad_norm_var": 47.329166666666666,
	"learning_rate": 0.0001,
	"loss": 8.4021,
	"loss/crossentropy": 2.188153588026762,
	"loss/hidden": 3.481640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.24756914153695106,
	"step": 1670
	},
	{
	"epoch": 0.168,
	"grad_norm": 68.0,
	"grad_norm_var": 232.240625,
	"learning_rate": 0.0001,
	"loss": 8.4491,
	"loss/crossentropy": 2.3357387453317644,
	"loss/hidden": 3.552734375,
	"loss/jsd": 0.0,
	"loss/logits": 0.28453084602952006,
	"step": 1680
	},
	{
	"epoch": 0.169,
	"grad_norm": 63.5,
	"grad_norm_var": 179.80729166666666,
	"learning_rate": 0.0001,
	"loss": 8.4439,
	"loss/crossentropy": 2.3677712947130205,
	"loss/hidden": 3.6484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2788976304233074,
	"step": 1690
	},
	{
	"epoch": 0.17,
	"grad_norm": 119.5,
	"grad_norm_var": 398.665625,
	"learning_rate": 0.0001,
	"loss": 8.3827,
	"loss/crossentropy": 2.4275426417589188,
	"loss/hidden": 3.425390625,
	"loss/jsd": 0.0,
	"loss/logits": 0.26100732628256085,
	"step": 1700
	},
	{
	"epoch": 0.171,
	"grad_norm": 66.5,
	"grad_norm_var": 209.37395833333332,
	"learning_rate": 0.0001,
	"loss": 8.3197,
	"loss/crossentropy": 2.237619758397341,
	"loss/hidden": 3.508203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2523366323672235,
	"step": 1710
	},
	{
	"epoch": 0.172,
	"grad_norm": 171.0,
	"grad_norm_var": 636.4833333333333,
	"learning_rate": 0.0001,
	"loss": 8.2648,
	"loss/crossentropy": 2.169030448794365,
	"loss/hidden": 3.505078125,
	"loss/jsd": 0.0,
	"loss/logits": 0.24771953662857413,
	"step": 1720
	},
	{
	"epoch": 0.173,
	"grad_norm": 68.0,
	"grad_norm_var": 861.1247395833333,
	"learning_rate": 0.0001,
	"loss": 8.2948,
	"loss/crossentropy": 2.197067990899086,
	"loss/hidden": 3.424609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2451560577377677,
	"step": 1730
	},
	{
	"epoch": 0.174,
	"grad_norm": 63.5,
	"grad_norm_var": 524.7833333333333,
	"learning_rate": 0.0001,
	"loss": 8.2316,
	"loss/crossentropy": 2.2412655726075172,
	"loss/hidden": 3.498046875,
	"loss/jsd": 0.0,
	"loss/logits": 0.26945888753980396,
	"step": 1740
	},
	{
	"epoch": 0.175,
	"grad_norm": 90.5,
	"grad_norm_var": 496.12395833333335,
	"learning_rate": 0.0001,
	"loss": 8.3094,
	"loss/crossentropy": 2.314925655722618,
	"loss/hidden": 3.59375,
	"loss/jsd": 0.0,
	"loss/logits": 0.27251414209604263,
	"step": 1750
	},
	{
	"epoch": 0.176,
	"grad_norm": 70.0,
	"grad_norm_var": 484.890625,
	"learning_rate": 0.0001,
	"loss": 8.3807,
	"loss/crossentropy": 2.3074424833059313,
	"loss/hidden": 3.4640625,
	"loss/jsd": 0.0,
	"loss/logits": 0.2574224047362804,
	"step": 1760
	},
	{
	"epoch": 0.177,
	"grad_norm": 69.0,
	"grad_norm_var": 88.83932291666666,
	"learning_rate": 0.0001,
	"loss": 8.3403,
	"loss/crossentropy": 2.2954701989889146,
	"loss/hidden": 3.46484375,
	"loss/jsd": 0.0,
	"loss/logits": 0.25794004313647745,
	"step": 1770
	},
	{
	"epoch": 0.178,
	"grad_norm": 71.5,
	"grad_norm_var": 86.65598958333334,
	"learning_rate": 0.0001,
	"loss": 8.1745,
	"loss/crossentropy": 2.2755073979496956,
	"loss/hidden": 3.521875,
	"loss/jsd": 0.0,
	"loss/logits": 0.26081139910966156,
	"step": 1780
	},
	{
	"epoch": 0.179,
	"grad_norm": 73.5,
	"grad_norm_var": 46.40390625,
	"learning_rate": 0.0001,
	"loss": 8.2619,
	"loss/crossentropy": 2.2126931130886076,
	"loss/hidden": 3.4921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.27995246797800066,
	"step": 1790
	},
	{
	"epoch": 0.18,
	"grad_norm": 70.0,
	"grad_norm_var": 44.215625,
	"learning_rate": 0.0001,
	"loss": 8.3462,
	"loss/crossentropy": 2.3120188415050507,
	"loss/hidden": 3.482421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.25568581037223337,
	"step": 1800
	},
	{
	"epoch": 0.181,
	"grad_norm": 79.0,
	"grad_norm_var": 250.965625,
	"learning_rate": 0.0001,
	"loss": 8.3991,
	"loss/crossentropy": 2.2807445406913756,
	"loss/hidden": 3.4328125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2566069485619664,
	"step": 1810
	},
	{
	"epoch": 0.182,
	"grad_norm": 72.5,
	"grad_norm_var": 287.98333333333335,
	"learning_rate": 0.0001,
	"loss": 8.2019,
	"loss/crossentropy": 2.3523808985948564,
	"loss/hidden": 3.369921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2528150577098131,
	"step": 1820
	},
	{
	"epoch": 0.183,
	"grad_norm": 85.0,
	"grad_norm_var": 37.733072916666664,
	"learning_rate": 0.0001,
	"loss": 8.1958,
	"loss/crossentropy": 2.0805646784603598,
	"loss/hidden": 3.38359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.22354185171425342,
	"step": 1830
	},
	{
	"epoch": 0.184,
	"grad_norm": 67.5,
	"grad_norm_var": 72.85729166666667,
	"learning_rate": 0.0001,
	"loss": 8.0768,
	"loss/crossentropy": 2.3133904695510865,
	"loss/hidden": 3.401171875,
	"loss/jsd": 0.0,
	"loss/logits": 0.24347416013479234,
	"step": 1840
	},
	{
	"epoch": 0.185,
	"grad_norm": 79.0,
	"grad_norm_var": 169.65833333333333,
	"learning_rate": 0.0001,
	"loss": 8.2994,
	"loss/crossentropy": 2.3512276649475097,
	"loss/hidden": 3.444921875,
	"loss/jsd": 0.0,
	"loss/logits": 0.26196608748286965,
	"step": 1850
	},
	{
	"epoch": 0.186,
	"grad_norm": 69.5,
	"grad_norm_var": 2388.08515625,
	"learning_rate": 0.0001,
	"loss": 8.3424,
	"loss/crossentropy": 2.3174356922507284,
	"loss/hidden": 3.454296875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2508500372990966,
	"step": 1860
	},
	{
	"epoch": 0.187,
	"grad_norm": 60.0,
	"grad_norm_var": 196.15833333333333,
	"learning_rate": 0.0001,
	"loss": 8.256,
	"loss/crossentropy": 2.280574831366539,
	"loss/hidden": 3.421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.2615037776529789,
	"step": 1870
	},
	{
	"epoch": 0.188,
	"grad_norm": 73.0,
	"grad_norm_var": 116.42890625,
	"learning_rate": 0.0001,
	"loss": 8.2108,
	"loss/crossentropy": 2.275608576834202,
	"loss/hidden": 3.449609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2556317184120417,
	"step": 1880
	},
	{
	"epoch": 0.189,
	"grad_norm": 66.5,
	"grad_norm_var": 38.723958333333336,
	"learning_rate": 0.0001,
	"loss": 8.3584,
	"loss/crossentropy": 2.356363560259342,
	"loss/hidden": 3.490625,
	"loss/jsd": 0.0,
	"loss/logits": 0.26850553378462794,
	"step": 1890
	},
	{
	"epoch": 0.19,
	"grad_norm": 70.0,
	"grad_norm_var": 90.62916666666666,
	"learning_rate": 0.0001,
	"loss": 8.1875,
	"loss/crossentropy": 2.282008448243141,
	"loss/hidden": 3.4234375,
	"loss/jsd": 0.0,
	"loss/logits": 0.25158569142222403,
	"step": 1900
	},
	{
	"epoch": 0.191,
	"grad_norm": 69.0,
	"grad_norm_var": 26.895833333333332,
	"learning_rate": 0.0001,
	"loss": 8.1676,
	"loss/crossentropy": 2.3583726406097414,
	"loss/hidden": 3.475,
	"loss/jsd": 0.0,
	"loss/logits": 0.2574294516816735,
	"step": 1910
	},
	{
	"epoch": 0.192,
	"grad_norm": 62.25,
	"grad_norm_var": 34.430989583333336,
	"learning_rate": 0.0001,
	"loss": 8.2457,
	"loss/crossentropy": 2.310526317358017,
	"loss/hidden": 3.407421875,
	"loss/jsd": 0.0,
	"loss/logits": 0.25894895792007444,
	"step": 1920
	},
	{
	"epoch": 0.193,
	"grad_norm": 84.0,
	"grad_norm_var": 65.58307291666667,
	"learning_rate": 0.0001,
	"loss": 8.2176,
	"loss/crossentropy": 2.0871855318546295,
	"loss/hidden": 3.3796875,
	"loss/jsd": 0.0,
	"loss/logits": 0.24589193761348724,
	"step": 1930
	},
	{
	"epoch": 0.194,
	"grad_norm": 65.5,
	"grad_norm_var": 39.07473958333333,
	"learning_rate": 0.0001,
	"loss": 8.1842,
	"loss/crossentropy": 2.261622406542301,
	"loss/hidden": 3.3609375,
	"loss/jsd": 0.0,
	"loss/logits": 0.24441927969455718,
	"step": 1940
	},
	{
	"epoch": 0.195,
	"grad_norm": 64.0,
	"grad_norm_var": 57.848958333333336,
	"learning_rate": 0.0001,
	"loss": 8.1485,
	"loss/crossentropy": 2.386093820631504,
	"loss/hidden": 3.3359375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2539959207177162,
	"step": 1950
	},
	{
	"epoch": 0.196,
	"grad_norm": 72.5,
	"grad_norm_var": 37.01223958333333,
	"learning_rate": 0.0001,
	"loss": 8.3277,
	"loss/crossentropy": 2.2825982570648193,
	"loss/hidden": 3.433203125,
	"loss/jsd": 0.0,
	"loss/logits": 0.2809562737122178,
	"step": 1960
	},
	{
	"epoch": 0.197,
	"grad_norm": 69.0,
	"grad_norm_var": 15.633333333333333,
	"learning_rate": 0.0001,
	"loss": 8.1367,
	"loss/crossentropy": 2.181477516889572,
	"loss/hidden": 3.494140625,
	"loss/jsd": 0.0,
	"loss/logits": 0.26897694952785967,
	"step": 1970
	},
	{
	"epoch": 0.198,
	"grad_norm": 68.5,
	"grad_norm_var": 13.966666666666667,
	"learning_rate": 0.0001,
	"loss": 8.1232,
	"loss/crossentropy": 2.292652648687363,
	"loss/hidden": 3.409765625,
	"loss/jsd": 0.0,
	"loss/logits": 0.24958589412271975,
	"step": 1980
	},
	{
	"epoch": 0.199,
	"grad_norm": 68.0,
	"grad_norm_var": 88.34765625,
	"learning_rate": 0.0001,
	"loss": 8.09,
	"loss/crossentropy": 2.367698776721954,
	"loss/hidden": 3.387109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.2641737159341574,
	"step": 1990
	},
	{
	"epoch": 0.2,
	"grad_norm": 91.5,
	"grad_norm_var": 120.825,
	"learning_rate": 0.0001,
	"loss": 8.1587,
	"loss/crossentropy": 2.3354921892285345,
	"loss/hidden": 3.42109375,
	"loss/jsd": 0.0,
	"loss/logits": 0.24634175039827824,
	"step": 2000
	}
	],
	"logging_steps": 10,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 2000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.715020064017613e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}