cqtest2500 / trainer_state.json

Upload folder using huggingface_hub

a523dc8 verified 11 months ago

152 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.5,
	"eval_steps": 250,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001,
	"grad_norm": 0.000537872314453125,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 0.0002,
	"loss/crossentropy": 0.8766392022371292,
	"loss/hidden": 0.0,
	"loss/logits": 0.00021765431665698998,
	"step": 1
	},
	{
	"epoch": 0.002,
	"grad_norm": 0.2265625,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 0.005,
	"loss/crossentropy": 1.9883175492286682,
	"loss/hidden": 0.0039215087890625,
	"loss/logits": 0.001088879187591374,
	"step": 2
	},
	{
	"epoch": 0.003,
	"grad_norm": 0.25390625,
	"learning_rate": 6.000000000000001e-07,
	"loss": 0.0052,
	"loss/crossentropy": 1.8020615577697754,
	"loss/hidden": 0.004180908203125,
	"loss/logits": 0.0010398300073575228,
	"step": 3
	},
	{
	"epoch": 0.004,
	"grad_norm": 0.255859375,
	"learning_rate": 8.000000000000001e-07,
	"loss": 0.0049,
	"loss/crossentropy": 1.0764193534851074,
	"loss/hidden": 0.00399017333984375,
	"loss/logits": 0.0008995172393042594,
	"step": 4
	},
	{
	"epoch": 0.005,
	"grad_norm": 0.224609375,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.0049,
	"loss/crossentropy": 1.7853868007659912,
	"loss/hidden": 0.0038604736328125,
	"loss/logits": 0.0010730837238952518,
	"step": 5
	},
	{
	"epoch": 0.006,
	"grad_norm": 0.2333984375,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 0.0051,
	"loss/crossentropy": 2.4102118015289307,
	"loss/hidden": 0.00388336181640625,
	"loss/logits": 0.0011915687937289476,
	"step": 6
	},
	{
	"epoch": 0.007,
	"grad_norm": 0.35546875,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 0.0056,
	"loss/crossentropy": 1.9921993017196655,
	"loss/hidden": 0.0044403076171875,
	"loss/logits": 0.0011139529524371028,
	"step": 7
	},
	{
	"epoch": 0.008,
	"grad_norm": 0.2353515625,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 0.0049,
	"loss/crossentropy": 2.269957184791565,
	"loss/hidden": 0.00376129150390625,
	"loss/logits": 0.0011444001575000584,
	"step": 8
	},
	{
	"epoch": 0.009,
	"grad_norm": 0.22265625,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 0.0051,
	"loss/crossentropy": 2.1889681220054626,
	"loss/hidden": 0.0038909912109375,
	"loss/logits": 0.0011716101435013115,
	"step": 9
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.291015625,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.0052,
	"loss/crossentropy": 1.76205712556839,
	"loss/hidden": 0.0041351318359375,
	"loss/logits": 0.001058999594533816,
	"step": 10
	},
	{
	"epoch": 0.011,
	"grad_norm": 0.2177734375,
	"learning_rate": 2.2e-06,
	"loss": 0.0049,
	"loss/crossentropy": 2.438264012336731,
	"loss/hidden": 0.003753662109375,
	"loss/logits": 0.0011843050015158951,
	"step": 11
	},
	{
	"epoch": 0.012,
	"grad_norm": 0.41015625,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 0.0071,
	"loss/crossentropy": 1.8871825337409973,
	"loss/hidden": 0.0059051513671875,
	"loss/logits": 0.0011930759064853191,
	"step": 12
	},
	{
	"epoch": 0.013,
	"grad_norm": 0.53125,
	"learning_rate": 2.6e-06,
	"loss": 0.0084,
	"loss/crossentropy": 1.7400972247123718,
	"loss/hidden": 0.0071258544921875,
	"loss/logits": 0.001270102453418076,
	"step": 13
	},
	{
	"epoch": 0.014,
	"grad_norm": 0.365234375,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 0.0075,
	"loss/crossentropy": 2.0053656101226807,
	"loss/hidden": 0.006256103515625,
	"loss/logits": 0.0012446122709661722,
	"step": 14
	},
	{
	"epoch": 0.015,
	"grad_norm": 0.455078125,
	"learning_rate": 3e-06,
	"loss": 0.0072,
	"loss/crossentropy": 1.984630048274994,
	"loss/hidden": 0.0059356689453125,
	"loss/logits": 0.0012947238283231854,
	"step": 15
	},
	{
	"epoch": 0.016,
	"grad_norm": 0.447265625,
	"grad_norm_var": 0.016307008621940136,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.0072,
	"loss/crossentropy": 2.4732788801193237,
	"loss/hidden": 0.005767822265625,
	"loss/logits": 0.00144299550447613,
	"step": 16
	},
	{
	"epoch": 0.017,
	"grad_norm": 0.89453125,
	"grad_norm_var": 0.031113270918528238,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 0.0076,
	"loss/crossentropy": 1.7775737643241882,
	"loss/hidden": 0.006317138671875,
	"loss/logits": 0.001260987774003297,
	"step": 17
	},
	{
	"epoch": 0.018,
	"grad_norm": 0.45703125,
	"grad_norm_var": 0.030601243178049724,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.0067,
	"loss/crossentropy": 1.1123631671071053,
	"loss/hidden": 0.0057373046875,
	"loss/logits": 0.0009507400100119412,
	"step": 18
	},
	{
	"epoch": 0.019,
	"grad_norm": 0.298828125,
	"grad_norm_var": 0.030057998498280843,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 0.0068,
	"loss/crossentropy": 1.8855515718460083,
	"loss/hidden": 0.0055694580078125,
	"loss/logits": 0.0012491169618442655,
	"step": 19
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.3984375,
	"grad_norm_var": 0.02918777068456014,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.007,
	"loss/crossentropy": 1.773246705532074,
	"loss/hidden": 0.005828857421875,
	"loss/logits": 0.0011664124322123826,
	"step": 20
	},
	{
	"epoch": 0.021,
	"grad_norm": 0.302734375,
	"grad_norm_var": 0.02797787586847941,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 0.0069,
	"loss/crossentropy": 2.1012651920318604,
	"loss/hidden": 0.0056610107421875,
	"loss/logits": 0.0012796117807738483,
	"step": 21
	},
	{
	"epoch": 0.022,
	"grad_norm": 0.486328125,
	"grad_norm_var": 0.026955906550089517,
	"learning_rate": 4.4e-06,
	"loss": 0.0101,
	"loss/crossentropy": 1.9430513381958008,
	"loss/hidden": 0.008514404296875,
	"loss/logits": 0.0016175230266526341,
	"step": 22
	},
	{
	"epoch": 0.023,
	"grad_norm": 0.609375,
	"grad_norm_var": 0.029542907079060873,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.0118,
	"loss/crossentropy": 1.5989271998405457,
	"loss/hidden": 0.01025390625,
	"loss/logits": 0.0015109491650946438,
	"step": 23
	},
	{
	"epoch": 0.024,
	"grad_norm": 0.80078125,
	"grad_norm_var": 0.03606090148289998,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.0102,
	"loss/crossentropy": 1.141058474779129,
	"loss/hidden": 0.009033203125,
	"loss/logits": 0.0011210083321202546,
	"step": 24
	},
	{
	"epoch": 0.025,
	"grad_norm": 0.361328125,
	"grad_norm_var": 0.03307259480158488,
	"learning_rate": 5e-06,
	"loss": 0.0094,
	"loss/crossentropy": 2.0950170755386353,
	"loss/hidden": 0.0077972412109375,
	"loss/logits": 0.001559894997626543,
	"step": 25
	},
	{
	"epoch": 0.026,
	"grad_norm": 0.83984375,
	"grad_norm_var": 0.0396828293800354,
	"learning_rate": 5.2e-06,
	"loss": 0.0112,
	"loss/crossentropy": 0.9552253857254982,
	"loss/hidden": 0.010284423828125,
	"loss/logits": 0.0008805262332316488,
	"step": 26
	},
	{
	"epoch": 0.027,
	"grad_norm": 0.546875,
	"grad_norm_var": 0.034408044815063474,
	"learning_rate": 5.400000000000001e-06,
	"loss": 0.0091,
	"loss/crossentropy": 1.3719437271356583,
	"loss/hidden": 0.007965087890625,
	"loss/logits": 0.001155910431407392,
	"step": 27
	},
	{
	"epoch": 0.028,
	"grad_norm": 0.73046875,
	"grad_norm_var": 0.036436065038045244,
	"learning_rate": 5.600000000000001e-06,
	"loss": 0.0107,
	"loss/crossentropy": 1.6477643251419067,
	"loss/hidden": 0.009185791015625,
	"loss/logits": 0.0015593590214848518,
	"step": 28
	},
	{
	"epoch": 0.029,
	"grad_norm": 0.41796875,
	"grad_norm_var": 0.03726207415262858,
	"learning_rate": 5.8e-06,
	"loss": 0.0096,
	"loss/crossentropy": 1.7987680435180664,
	"loss/hidden": 0.008087158203125,
	"loss/logits": 0.0015162223717197776,
	"step": 29
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.33203125,
	"grad_norm_var": 0.03804162343343099,
	"learning_rate": 6e-06,
	"loss": 0.0094,
	"loss/crossentropy": 1.74210923910141,
	"loss/hidden": 0.008026123046875,
	"loss/logits": 0.0013514517340809107,
	"step": 30
	},
	{
	"epoch": 0.031,
	"grad_norm": 0.4296875,
	"grad_norm_var": 0.038314167658487955,
	"learning_rate": 6.200000000000001e-06,
	"loss": 0.0095,
	"loss/crossentropy": 1.45715793967247,
	"loss/hidden": 0.0081329345703125,
	"loss/logits": 0.0013754194369539618,
	"step": 31
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.54296875,
	"grad_norm_var": 0.03793176015218099,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 0.0137,
	"loss/crossentropy": 1.635874330997467,
	"loss/hidden": 0.01190185546875,
	"loss/logits": 0.0017871989402920008,
	"step": 32
	},
	{
	"epoch": 0.033,
	"grad_norm": 0.76171875,
	"grad_norm_var": 0.03254489898681641,
	"learning_rate": 6.600000000000001e-06,
	"loss": 0.0143,
	"loss/crossentropy": 1.0347481966018677,
	"loss/hidden": 0.01300048828125,
	"loss/logits": 0.0012789819156751037,
	"step": 33
	},
	{
	"epoch": 0.034,
	"grad_norm": 0.515625,
	"grad_norm_var": 0.032269287109375,
	"learning_rate": 6.800000000000001e-06,
	"loss": 0.0132,
	"loss/crossentropy": 2.0032879114151,
	"loss/hidden": 0.011383056640625,
	"loss/logits": 0.0018645224627107382,
	"step": 34
	},
	{
	"epoch": 0.035,
	"grad_norm": 1.0703125,
	"grad_norm_var": 0.04636419614156087,
	"learning_rate": 7e-06,
	"loss": 0.0143,
	"loss/crossentropy": 1.8410796523094177,
	"loss/hidden": 0.01226806640625,
	"loss/logits": 0.001986370305530727,
	"step": 35
	},
	{
	"epoch": 0.036,
	"grad_norm": 0.4296875,
	"grad_norm_var": 0.045703490575154625,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 0.0136,
	"loss/crossentropy": 1.9098870158195496,
	"loss/hidden": 0.01171875,
	"loss/logits": 0.0018596722511574626,
	"step": 36
	},
	{
	"epoch": 0.037,
	"grad_norm": 68.0,
	"grad_norm_var": 284.03319854736327,
	"learning_rate": 7.4e-06,
	"loss": 0.0558,
	"loss/crossentropy": 1.5951663255691528,
	"loss/hidden": 0.051666259765625,
	"loss/logits": 0.004160793498158455,
	"step": 37
	},
	{
	"epoch": 0.038,
	"grad_norm": 0.380859375,
	"grad_norm_var": 284.0946207046509,
	"learning_rate": 7.600000000000001e-06,
	"loss": 0.0133,
	"loss/crossentropy": 2.25837504863739,
	"loss/hidden": 0.01129150390625,
	"loss/logits": 0.0020168160554021597,
	"step": 38
	},
	{
	"epoch": 0.039,
	"grad_norm": 0.455078125,
	"grad_norm_var": 284.1822828769684,
	"learning_rate": 7.800000000000002e-06,
	"loss": 0.0126,
	"loss/crossentropy": 2.126526176929474,
	"loss/hidden": 0.0107421875,
	"loss/logits": 0.0018400833941996098,
	"step": 39
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.63671875,
	"grad_norm_var": 284.27119545936586,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.0142,
	"loss/crossentropy": 1.4863142371177673,
	"loss/hidden": 0.012481689453125,
	"loss/logits": 0.0017027563299052417,
	"step": 40
	},
	{
	"epoch": 0.041,
	"grad_norm": 0.283203125,
	"grad_norm_var": 284.3175859928131,
	"learning_rate": 8.2e-06,
	"loss": 0.0112,
	"loss/crossentropy": 2.0888695120811462,
	"loss/hidden": 0.009521484375,
	"loss/logits": 0.0017255974235013127,
	"step": 41
	},
	{
	"epoch": 0.042,
	"grad_norm": 0.431640625,
	"grad_norm_var": 284.5420877456665,
	"learning_rate": 8.400000000000001e-06,
	"loss": 0.0173,
	"loss/crossentropy": 1.611488163471222,
	"loss/hidden": 0.015380859375,
	"loss/logits": 0.0019445380312390625,
	"step": 42
	},
	{
	"epoch": 0.043,
	"grad_norm": 0.419921875,
	"grad_norm_var": 284.6142045180003,
	"learning_rate": 8.6e-06,
	"loss": 0.0166,
	"loss/crossentropy": 1.8987411260604858,
	"loss/hidden": 0.0146484375,
	"loss/logits": 0.0019467678503133357,
	"step": 43
	},
	{
	"epoch": 0.044,
	"grad_norm": 0.58203125,
	"grad_norm_var": 284.6949343204498,
	"learning_rate": 8.8e-06,
	"loss": 0.0183,
	"loss/crossentropy": 1.4084473848342896,
	"loss/hidden": 0.01605224609375,
	"loss/logits": 0.002271471545100212,
	"step": 44
	},
	{
	"epoch": 0.045,
	"grad_norm": 0.380859375,
	"grad_norm_var": 284.71635888417563,
	"learning_rate": 9e-06,
	"loss": 0.0159,
	"loss/crossentropy": 1.6970309615135193,
	"loss/hidden": 0.01397705078125,
	"loss/logits": 0.0019325784523971379,
	"step": 45
	},
	{
	"epoch": 0.046,
	"grad_norm": 0.455078125,
	"grad_norm_var": 284.64517935117084,
	"learning_rate": 9.200000000000002e-06,
	"loss": 0.0165,
	"loss/crossentropy": 2.1346731781959534,
	"loss/hidden": 0.014312744140625,
	"loss/logits": 0.002142712823115289,
	"step": 46
	},
	{
	"epoch": 0.047,
	"grad_norm": 2.21875,
	"grad_norm_var": 283.818000014623,
	"learning_rate": 9.4e-06,
	"loss": 0.0175,
	"loss/crossentropy": 1.6114214062690735,
	"loss/hidden": 0.0155029296875,
	"loss/logits": 0.0020421514636836946,
	"step": 47
	},
	{
	"epoch": 0.048,
	"grad_norm": 0.44921875,
	"grad_norm_var": 283.87235945065817,
	"learning_rate": 9.600000000000001e-06,
	"loss": 0.0157,
	"loss/crossentropy": 2.056842625141144,
	"loss/hidden": 0.013671875,
	"loss/logits": 0.0020451846066862345,
	"step": 48
	},
	{
	"epoch": 0.049,
	"grad_norm": 0.439453125,
	"grad_norm_var": 284.05417149861654,
	"learning_rate": 9.800000000000001e-06,
	"loss": 0.016,
	"loss/crossentropy": 1.5892411470413208,
	"loss/hidden": 0.013946533203125,
	"loss/logits": 0.00205704930704087,
	"step": 49
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.3359375,
	"grad_norm_var": 284.15935770670575,
	"learning_rate": 1e-05,
	"loss": 0.0153,
	"loss/crossentropy": 2.3872954845428467,
	"loss/hidden": 0.01312255859375,
	"loss/logits": 0.0021313573233783245,
	"step": 50
	},
	{
	"epoch": 0.051,
	"grad_norm": 0.451171875,
	"grad_norm_var": 284.49208029111225,
	"learning_rate": 1.02e-05,
	"loss": 0.0168,
	"loss/crossentropy": 2.0149841904640198,
	"loss/hidden": 0.01470947265625,
	"loss/logits": 0.0020815907046198845,
	"step": 51
	},
	{
	"epoch": 0.052,
	"grad_norm": 0.51953125,
	"grad_norm_var": 284.44056928952534,
	"learning_rate": 1.04e-05,
	"loss": 0.021,
	"loss/crossentropy": 1.9311216473579407,
	"loss/hidden": 0.0185546875,
	"loss/logits": 0.0024686548858880997,
	"step": 52
	},
	{
	"epoch": 0.053,
	"grad_norm": 0.546875,
	"grad_norm_var": 0.20315702756245932,
	"learning_rate": 1.0600000000000002e-05,
	"loss": 0.0204,
	"loss/crossentropy": 1.9871841073036194,
	"loss/hidden": 0.01806640625,
	"loss/logits": 0.00237347767688334,
	"step": 53
	},
	{
	"epoch": 0.054,
	"grad_norm": 0.51171875,
	"grad_norm_var": 0.2010729471842448,
	"learning_rate": 1.0800000000000002e-05,
	"loss": 0.0195,
	"loss/crossentropy": 1.4909774661064148,
	"loss/hidden": 0.017578125,
	"loss/logits": 0.0018839699332602322,
	"step": 54
	},
	{
	"epoch": 0.055,
	"grad_norm": 0.376953125,
	"grad_norm_var": 0.20264968872070313,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 0.0188,
	"loss/crossentropy": 1.731587290763855,
	"loss/hidden": 0.01666259765625,
	"loss/logits": 0.0021363290725275874,
	"step": 55
	},
	{
	"epoch": 0.056,
	"grad_norm": 0.482421875,
	"grad_norm_var": 0.20266098976135255,
	"learning_rate": 1.1200000000000001e-05,
	"loss": 0.0198,
	"loss/crossentropy": 1.8391692638397217,
	"loss/hidden": 0.01751708984375,
	"loss/logits": 0.0022706754971295595,
	"step": 56
	},
	{
	"epoch": 0.057,
	"grad_norm": 0.82421875,
	"grad_norm_var": 0.20132694244384766,
	"learning_rate": 1.14e-05,
	"loss": 0.0181,
	"loss/crossentropy": 1.326266534626484,
	"loss/hidden": 0.01654052734375,
	"loss/logits": 0.0015604346699547023,
	"step": 57
	},
	{
	"epoch": 0.058,
	"grad_norm": 0.41015625,
	"grad_norm_var": 0.2018068790435791,
	"learning_rate": 1.16e-05,
	"loss": 0.0185,
	"loss/crossentropy": 2.5511186122894287,
	"loss/hidden": 0.01611328125,
	"loss/logits": 0.0024241225328296423,
	"step": 58
	},
	{
	"epoch": 0.059,
	"grad_norm": 1.609375,
	"grad_norm_var": 0.26361236572265623,
	"learning_rate": 1.18e-05,
	"loss": 0.0183,
	"loss/crossentropy": 1.0930684125050902,
	"loss/hidden": 0.01702880859375,
	"loss/logits": 0.0013018156460020691,
	"step": 59
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.486328125,
	"grad_norm_var": 0.2652066389719645,
	"learning_rate": 1.2e-05,
	"loss": 0.02,
	"loss/crossentropy": 2.0819135308265686,
	"loss/hidden": 0.0174560546875,
	"loss/logits": 0.0025293552316725254,
	"step": 60
	},
	{
	"epoch": 0.061,
	"grad_norm": 1.09375,
	"grad_norm_var": 0.2708051045735677,
	"learning_rate": 1.22e-05,
	"loss": 0.0183,
	"loss/crossentropy": 0.9290539920330048,
	"loss/hidden": 0.016754150390625,
	"loss/logits": 0.0015562092885375023,
	"step": 61
	},
	{
	"epoch": 0.062,
	"grad_norm": 0.453125,
	"grad_norm_var": 0.2708693027496338,
	"learning_rate": 1.2400000000000002e-05,
	"loss": 0.0227,
	"loss/crossentropy": 2.1691651344299316,
	"loss/hidden": 0.01995849609375,
	"loss/logits": 0.002767750178463757,
	"step": 62
	},
	{
	"epoch": 0.063,
	"grad_norm": 0.4765625,
	"grad_norm_var": 0.10790785153706868,
	"learning_rate": 1.2600000000000001e-05,
	"loss": 0.0233,
	"loss/crossentropy": 2.1545491218566895,
	"loss/hidden": 0.0205078125,
	"loss/logits": 0.002785824006423354,
	"step": 63
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.47265625,
	"grad_norm_var": 0.10749700864156088,
	"learning_rate": 1.2800000000000001e-05,
	"loss": 0.0223,
	"loss/crossentropy": 1.9527725577354431,
	"loss/hidden": 0.01971435546875,
	"loss/logits": 0.0025634407065808773,
	"step": 64
	},
	{
	"epoch": 0.065,
	"grad_norm": 0.55078125,
	"grad_norm_var": 0.10599034627278646,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 0.0256,
	"loss/crossentropy": 1.8496606945991516,
	"loss/hidden": 0.02288818359375,
	"loss/logits": 0.0027499888092279434,
	"step": 65
	},
	{
	"epoch": 0.066,
	"grad_norm": 0.55859375,
	"grad_norm_var": 0.1012465794881185,
	"learning_rate": 1.3200000000000002e-05,
	"loss": 0.0221,
	"loss/crossentropy": 1.9440131187438965,
	"loss/hidden": 0.01971435546875,
	"loss/logits": 0.002431391447316855,
	"step": 66
	},
	{
	"epoch": 0.067,
	"grad_norm": 0.498046875,
	"grad_norm_var": 0.10036614735921225,
	"learning_rate": 1.3400000000000002e-05,
	"loss": 0.0241,
	"loss/crossentropy": 1.7777947187423706,
	"loss/hidden": 0.02142333984375,
	"loss/logits": 0.0026856372132897377,
	"step": 67
	},
	{
	"epoch": 0.068,
	"grad_norm": 0.66015625,
	"grad_norm_var": 0.09977563222249348,
	"learning_rate": 1.3600000000000002e-05,
	"loss": 0.0241,
	"loss/crossentropy": 1.6634170711040497,
	"loss/hidden": 0.02178955078125,
	"loss/logits": 0.002268874435685575,
	"step": 68
	},
	{
	"epoch": 0.069,
	"grad_norm": 0.359375,
	"grad_norm_var": 0.1039443333943685,
	"learning_rate": 1.38e-05,
	"loss": 0.0217,
	"loss/crossentropy": 1.9945446252822876,
	"loss/hidden": 0.019287109375,
	"loss/logits": 0.0024602848570793867,
	"step": 69
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.546875,
	"grad_norm_var": 0.10354207356770834,
	"learning_rate": 1.4e-05,
	"loss": 0.0212,
	"loss/crossentropy": 2.234881281852722,
	"loss/hidden": 0.0185546875,
	"loss/logits": 0.0026649613864719868,
	"step": 70
	},
	{
	"epoch": 0.071,
	"grad_norm": 0.5390625,
	"grad_norm_var": 0.1000130812327067,
	"learning_rate": 1.4200000000000001e-05,
	"loss": 0.0235,
	"loss/crossentropy": 2.3283374309539795,
	"loss/hidden": 0.0206298828125,
	"loss/logits": 0.0028440920868888497,
	"step": 71
	},
	{
	"epoch": 0.072,
	"grad_norm": 0.96484375,
	"grad_norm_var": 0.10530134836832682,
	"learning_rate": 1.4400000000000001e-05,
	"loss": 0.0273,
	"loss/crossentropy": 2.446515917778015,
	"loss/hidden": 0.0244140625,
	"loss/logits": 0.002847215859219432,
	"step": 72
	},
	{
	"epoch": 0.073,
	"grad_norm": 0.66015625,
	"grad_norm_var": 0.10331465403238932,
	"learning_rate": 1.46e-05,
	"loss": 0.0313,
	"loss/crossentropy": 1.8365015387535095,
	"loss/hidden": 0.0277099609375,
	"loss/logits": 0.003543111262843013,
	"step": 73
	},
	{
	"epoch": 0.074,
	"grad_norm": 0.58203125,
	"grad_norm_var": 0.0997507095336914,
	"learning_rate": 1.48e-05,
	"loss": 0.0275,
	"loss/crossentropy": 1.8750606179237366,
	"loss/hidden": 0.0244140625,
	"loss/logits": 0.0030850095208734274,
	"step": 74
	},
	{
	"epoch": 0.075,
	"grad_norm": 0.6171875,
	"grad_norm_var": 0.03528436024983724,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.0285,
	"loss/crossentropy": 1.6197695136070251,
	"loss/hidden": 0.02557373046875,
	"loss/logits": 0.002948817447759211,
	"step": 75
	},
	{
	"epoch": 0.076,
	"grad_norm": 0.5546875,
	"grad_norm_var": 0.034586191177368164,
	"learning_rate": 1.5200000000000002e-05,
	"loss": 0.0253,
	"loss/crossentropy": 2.139370322227478,
	"loss/hidden": 0.0225830078125,
	"loss/logits": 0.002709153341129422,
	"step": 76
	},
	{
	"epoch": 0.077,
	"grad_norm": 0.78125,
	"grad_norm_var": 0.020085255304972332,
	"learning_rate": 1.54e-05,
	"loss": 0.0308,
	"loss/crossentropy": 1.5335928797721863,
	"loss/hidden": 0.02777099609375,
	"loss/logits": 0.00305762467905879,
	"step": 77
	},
	{
	"epoch": 0.078,
	"grad_norm": 0.5078125,
	"grad_norm_var": 0.019349145889282226,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 0.0273,
	"loss/crossentropy": 2.623558282852173,
	"loss/hidden": 0.024169921875,
	"loss/logits": 0.0031643210677430034,
	"step": 78
	},
	{
	"epoch": 0.079,
	"grad_norm": 0.470703125,
	"grad_norm_var": 0.019434547424316405,
	"learning_rate": 1.58e-05,
	"loss": 0.0275,
	"loss/crossentropy": 2.3246337175369263,
	"loss/hidden": 0.0242919921875,
	"loss/logits": 0.0031679703388363123,
	"step": 79
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.431640625,
	"grad_norm_var": 0.0201418399810791,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.0254,
	"loss/crossentropy": 1.801970660686493,
	"loss/hidden": 0.0228271484375,
	"loss/logits": 0.0025987064000219107,
	"step": 80
	},
	{
	"epoch": 0.081,
	"grad_norm": 0.44921875,
	"grad_norm_var": 0.021184905370076498,
	"learning_rate": 1.62e-05,
	"loss": 0.0265,
	"loss/crossentropy": 1.9489317536354065,
	"loss/hidden": 0.02374267578125,
	"loss/logits": 0.0027701087528839707,
	"step": 81
	},
	{
	"epoch": 0.082,
	"grad_norm": 0.67578125,
	"grad_norm_var": 0.02180479367574056,
	"learning_rate": 1.64e-05,
	"loss": 0.034,
	"loss/crossentropy": 1.7697851061820984,
	"loss/hidden": 0.03070068359375,
	"loss/logits": 0.003283574478700757,
	"step": 82
	},
	{
	"epoch": 0.083,
	"grad_norm": 0.57421875,
	"grad_norm_var": 0.021323140462239584,
	"learning_rate": 1.66e-05,
	"loss": 0.0309,
	"loss/crossentropy": 1.5783970654010773,
	"loss/hidden": 0.028076171875,
	"loss/logits": 0.002809713245369494,
	"step": 83
	},
	{
	"epoch": 0.084,
	"grad_norm": 0.53125,
	"grad_norm_var": 0.02108605702718099,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 0.0332,
	"loss/crossentropy": 1.460361659526825,
	"loss/hidden": 0.0303955078125,
	"loss/logits": 0.0027706819819286466,
	"step": 84
	},
	{
	"epoch": 0.085,
	"grad_norm": 0.6015625,
	"grad_norm_var": 0.017696062723795574,
	"learning_rate": 1.7e-05,
	"loss": 0.0324,
	"loss/crossentropy": 2.1110434532165527,
	"loss/hidden": 0.02911376953125,
	"loss/logits": 0.0033112409291788936,
	"step": 85
	},
	{
	"epoch": 0.086,
	"grad_norm": 0.451171875,
	"grad_norm_var": 0.018857304255167642,
	"learning_rate": 1.72e-05,
	"loss": 0.0291,
	"loss/crossentropy": 1.7163687944412231,
	"loss/hidden": 0.02630615234375,
	"loss/logits": 0.0027680074563249946,
	"step": 86
	},
	{
	"epoch": 0.087,
	"grad_norm": 0.5703125,
	"grad_norm_var": 0.018718449274698894,
	"learning_rate": 1.7400000000000003e-05,
	"loss": 0.0339,
	"loss/crossentropy": 1.8893783688545227,
	"loss/hidden": 0.03021240234375,
	"loss/logits": 0.0037144168745726347,
	"step": 87
	},
	{
	"epoch": 0.088,
	"grad_norm": 1.75,
	"grad_norm_var": 0.0965951124827067,
	"learning_rate": 1.76e-05,
	"loss": 0.0293,
	"loss/crossentropy": 1.0857177823781967,
	"loss/hidden": 0.02716064453125,
	"loss/logits": 0.002114512084517628,
	"step": 88
	},
	{
	"epoch": 0.089,
	"grad_norm": 0.4609375,
	"grad_norm_var": 0.09848872820536296,
	"learning_rate": 1.7800000000000002e-05,
	"loss": 0.0278,
	"loss/crossentropy": 2.1670188307762146,
	"loss/hidden": 0.0250244140625,
	"loss/logits": 0.0027708488050848246,
	"step": 89
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.984375,
	"grad_norm_var": 0.4452332655588786,
	"learning_rate": 1.8e-05,
	"loss": 0.034,
	"loss/crossentropy": 0.8697951380163431,
	"loss/hidden": 0.0322265625,
	"loss/logits": 0.0017659573932178319,
	"step": 90
	},
	{
	"epoch": 0.091,
	"grad_norm": 0.58984375,
	"grad_norm_var": 0.44585811297098793,
	"learning_rate": 1.8200000000000002e-05,
	"loss": 0.0315,
	"loss/crossentropy": 2.0653520226478577,
	"loss/hidden": 0.02813720703125,
	"loss/logits": 0.003313788794912398,
	"step": 91
	},
	{
	"epoch": 0.092,
	"grad_norm": 0.66015625,
	"grad_norm_var": 0.44346858660380045,
	"learning_rate": 1.8400000000000003e-05,
	"loss": 0.0352,
	"loss/crossentropy": 2.1175276041030884,
	"loss/hidden": 0.0318603515625,
	"loss/logits": 0.003378898836672306,
	"step": 92
	},
	{
	"epoch": 0.093,
	"grad_norm": 0.478515625,
	"grad_norm_var": 0.44917195638020835,
	"learning_rate": 1.86e-05,
	"loss": 0.0328,
	"loss/crossentropy": 2.192784309387207,
	"loss/hidden": 0.029296875,
	"loss/logits": 0.003497788915410638,
	"step": 93
	},
	{
	"epoch": 0.094,
	"grad_norm": 0.50390625,
	"grad_norm_var": 0.4493051528930664,
	"learning_rate": 1.88e-05,
	"loss": 0.0342,
	"loss/crossentropy": 1.8000940680503845,
	"loss/hidden": 0.0308837890625,
	"loss/logits": 0.003295119386166334,
	"step": 94
	},
	{
	"epoch": 0.095,
	"grad_norm": 0.86328125,
	"grad_norm_var": 0.44371743202209474,
	"learning_rate": 1.9e-05,
	"loss": 0.0376,
	"loss/crossentropy": 1.9514374732971191,
	"loss/hidden": 0.0340576171875,
	"loss/logits": 0.0035327656660228968,
	"step": 95
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.55859375,
	"grad_norm_var": 0.4387262980143229,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 0.0334,
	"loss/crossentropy": 1.7834157943725586,
	"loss/hidden": 0.03021240234375,
	"loss/logits": 0.003167669870890677,
	"step": 96
	},
	{
	"epoch": 0.097,
	"grad_norm": 0.71484375,
	"grad_norm_var": 0.4309270222981771,
	"learning_rate": 1.94e-05,
	"loss": 0.0327,
	"loss/crossentropy": 1.6889591813087463,
	"loss/hidden": 0.02972412109375,
	"loss/logits": 0.0029616469983011484,
	"step": 97
	},
	{
	"epoch": 0.098,
	"grad_norm": 0.56640625,
	"grad_norm_var": 0.4336400349934896,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 0.0354,
	"loss/crossentropy": 1.7813147902488708,
	"loss/hidden": 0.031982421875,
	"loss/logits": 0.003417789936065674,
	"step": 98
	},
	{
	"epoch": 0.099,
	"grad_norm": 0.9140625,
	"grad_norm_var": 0.43045953114827473,
	"learning_rate": 1.98e-05,
	"loss": 0.0376,
	"loss/crossentropy": 1.3951178789138794,
	"loss/hidden": 0.0345458984375,
	"loss/logits": 0.0030310061993077397,
	"step": 99
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.56640625,
	"grad_norm_var": 0.4291600545247396,
	"learning_rate": 2e-05,
	"loss": 0.0364,
	"loss/crossentropy": 2.255498170852661,
	"loss/hidden": 0.03277587890625,
	"loss/logits": 0.0036420804681256413,
	"step": 100
	},
	{
	"epoch": 0.101,
	"grad_norm": 0.58984375,
	"grad_norm_var": 0.429521115620931,
	"learning_rate": 2e-05,
	"loss": 0.033,
	"loss/crossentropy": 2.4104394912719727,
	"loss/hidden": 0.02960205078125,
	"loss/logits": 0.0033488960471004248,
	"step": 101
	},
	{
	"epoch": 0.102,
	"grad_norm": 4.8125,
	"grad_norm_var": 1.4001366774241129,
	"learning_rate": 2e-05,
	"loss": 0.0477,
	"loss/crossentropy": 1.0830636993050575,
	"loss/hidden": 0.0452880859375,
	"loss/logits": 0.0023841604124754667,
	"step": 102
	},
	{
	"epoch": 0.103,
	"grad_norm": 4.1875,
	"grad_norm_var": 1.9629084110260009,
	"learning_rate": 2e-05,
	"loss": 0.0475,
	"loss/crossentropy": 0.7437883876264095,
	"loss/hidden": 0.0455322265625,
	"loss/logits": 0.0019981139339506626,
	"step": 103
	},
	{
	"epoch": 0.104,
	"grad_norm": 0.77734375,
	"grad_norm_var": 1.9669294834136963,
	"learning_rate": 2e-05,
	"loss": 0.0387,
	"loss/crossentropy": 2.1284059882164,
	"loss/hidden": 0.0345458984375,
	"loss/logits": 0.00411223981063813,
	"step": 104
	},
	{
	"epoch": 0.105,
	"grad_norm": 1.6796875,
	"grad_norm_var": 1.92922043800354,
	"learning_rate": 2e-05,
	"loss": 0.0459,
	"loss/crossentropy": 2.1119471192359924,
	"loss/hidden": 0.0411376953125,
	"loss/logits": 0.0047579677775502205,
	"step": 105
	},
	{
	"epoch": 0.106,
	"grad_norm": 0.90234375,
	"grad_norm_var": 1.7437895298004151,
	"learning_rate": 2e-05,
	"loss": 0.044,
	"loss/crossentropy": 2.391239643096924,
	"loss/hidden": 0.0390625,
	"loss/logits": 0.004930721828714013,
	"step": 106
	},
	{
	"epoch": 0.107,
	"grad_norm": 1.6875,
	"grad_norm_var": 1.7282822767893473,
	"learning_rate": 2e-05,
	"loss": 0.0451,
	"loss/crossentropy": 1.7602136731147766,
	"loss/hidden": 0.040283203125,
	"loss/logits": 0.004797366913408041,
	"step": 107
	},
	{
	"epoch": 0.108,
	"grad_norm": 0.8828125,
	"grad_norm_var": 1.7130108992258708,
	"learning_rate": 2e-05,
	"loss": 0.0428,
	"loss/crossentropy": 2.0745638012886047,
	"loss/hidden": 0.0386962890625,
	"loss/logits": 0.004113797098398209,
	"step": 108
	},
	{
	"epoch": 0.109,
	"grad_norm": 0.82421875,
	"grad_norm_var": 1.6829447428385416,
	"learning_rate": 2e-05,
	"loss": 0.0422,
	"loss/crossentropy": 1.685157299041748,
	"loss/hidden": 0.03857421875,
	"loss/logits": 0.0036494951928034425,
	"step": 109
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.5703125,
	"grad_norm_var": 1.6387715021769205,
	"learning_rate": 2e-05,
	"loss": 0.0376,
	"loss/crossentropy": 2.625019073486328,
	"loss/hidden": 0.03369140625,
	"loss/logits": 0.0039150441298261285,
	"step": 110
	},
	{
	"epoch": 0.111,
	"grad_norm": 1.5234375,
	"grad_norm_var": 1.6204302469889322,
	"learning_rate": 2e-05,
	"loss": 0.0422,
	"loss/crossentropy": 0.676440417766571,
	"loss/hidden": 0.0401611328125,
	"loss/logits": 0.0020512532209977508,
	"step": 111
	},
	{
	"epoch": 0.112,
	"grad_norm": 0.65234375,
	"grad_norm_var": 1.6101824442545574,
	"learning_rate": 2e-05,
	"loss": 0.0479,
	"loss/crossentropy": 1.8928841352462769,
	"loss/hidden": 0.0435791015625,
	"loss/logits": 0.00434900657273829,
	"step": 112
	},
	{
	"epoch": 0.113,
	"grad_norm": 1.09375,
	"grad_norm_var": 1.5831150690714517,
	"learning_rate": 2e-05,
	"loss": 0.0498,
	"loss/crossentropy": 1.2006176710128784,
	"loss/hidden": 0.04638671875,
	"loss/logits": 0.0034257903462275863,
	"step": 113
	},
	{
	"epoch": 0.114,
	"grad_norm": 0.84375,
	"grad_norm_var": 1.5551775614420573,
	"learning_rate": 2e-05,
	"loss": 0.0437,
	"loss/crossentropy": 2.164067029953003,
	"loss/hidden": 0.03955078125,
	"loss/logits": 0.004164737183600664,
	"step": 114
	},
	{
	"epoch": 0.115,
	"grad_norm": 0.875,
	"grad_norm_var": 1.5581644694010417,
	"learning_rate": 2e-05,
	"loss": 0.0469,
	"loss/crossentropy": 1.963140070438385,
	"loss/hidden": 0.0419921875,
	"loss/logits": 0.004867425188422203,
	"step": 115
	},
	{
	"epoch": 0.116,
	"grad_norm": 0.83984375,
	"grad_norm_var": 1.530010732014974,
	"learning_rate": 2e-05,
	"loss": 0.0469,
	"loss/crossentropy": 1.936423420906067,
	"loss/hidden": 0.04248046875,
	"loss/logits": 0.004457900300621986,
	"step": 116
	},
	{
	"epoch": 0.117,
	"grad_norm": 1.0,
	"grad_norm_var": 1.4916320164998373,
	"learning_rate": 2e-05,
	"loss": 0.044,
	"loss/crossentropy": 1.9027796387672424,
	"loss/hidden": 0.0396728515625,
	"loss/logits": 0.004306067014113069,
	"step": 117
	},
	{
	"epoch": 0.118,
	"grad_norm": 0.921875,
	"grad_norm_var": 0.724272092183431,
	"learning_rate": 2e-05,
	"loss": 0.048,
	"loss/crossentropy": 1.4962169528007507,
	"loss/hidden": 0.043212890625,
	"loss/logits": 0.004831232130527496,
	"step": 118
	},
	{
	"epoch": 0.119,
	"grad_norm": 1.3046875,
	"grad_norm_var": 0.12087090810139973,
	"learning_rate": 2e-05,
	"loss": 0.0458,
	"loss/crossentropy": 1.8558754324913025,
	"loss/hidden": 0.04150390625,
	"loss/logits": 0.004260358400642872,
	"step": 119
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.7421875,
	"grad_norm_var": 0.12239583333333333,
	"learning_rate": 2e-05,
	"loss": 0.0467,
	"loss/crossentropy": 2.163163900375366,
	"loss/hidden": 0.042236328125,
	"loss/logits": 0.0044949238654226065,
	"step": 120
	},
	{
	"epoch": 0.121,
	"grad_norm": 0.66796875,
	"grad_norm_var": 0.10601139068603516,
	"learning_rate": 2e-05,
	"loss": 0.0429,
	"loss/crossentropy": 1.875292718410492,
	"loss/hidden": 0.0389404296875,
	"loss/logits": 0.003972187405452132,
	"step": 121
	},
	{
	"epoch": 0.122,
	"grad_norm": 0.97265625,
	"grad_norm_var": 0.1052103042602539,
	"learning_rate": 2e-05,
	"loss": 0.0504,
	"loss/crossentropy": 1.581692636013031,
	"loss/hidden": 0.0462646484375,
	"loss/logits": 0.0040856958366930485,
	"step": 122
	},
	{
	"epoch": 0.123,
	"grad_norm": 0.77734375,
	"grad_norm_var": 0.07660497029622396,
	"learning_rate": 2e-05,
	"loss": 0.0467,
	"loss/crossentropy": 2.185007333755493,
	"loss/hidden": 0.0419921875,
	"loss/logits": 0.0047312104143202305,
	"step": 123
	},
	{
	"epoch": 0.124,
	"grad_norm": 0.70703125,
	"grad_norm_var": 0.08053887685139974,
	"learning_rate": 2e-05,
	"loss": 0.0527,
	"loss/crossentropy": 1.7746418118476868,
	"loss/hidden": 0.0482177734375,
	"loss/logits": 0.004488097038120031,
	"step": 124
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.82421875,
	"grad_norm_var": 0.08053887685139974,
	"learning_rate": 2e-05,
	"loss": 0.0483,
	"loss/crossentropy": 1.8139249682426453,
	"loss/hidden": 0.044189453125,
	"loss/logits": 0.00407675513997674,
	"step": 125
	},
	{
	"epoch": 0.126,
	"grad_norm": 0.80078125,
	"grad_norm_var": 0.05464986165364583,
	"learning_rate": 2e-05,
	"loss": 0.0536,
	"loss/crossentropy": 1.8078742623329163,
	"loss/hidden": 0.0489501953125,
	"loss/logits": 0.004657944664359093,
	"step": 126
	},
	{
	"epoch": 0.127,
	"grad_norm": 1.09375,
	"grad_norm_var": 0.030997467041015626,
	"learning_rate": 2e-05,
	"loss": 0.0496,
	"loss/crossentropy": 2.0267322659492493,
	"loss/hidden": 0.0447998046875,
	"loss/logits": 0.0047590641770511866,
	"step": 127
	},
	{
	"epoch": 0.128,
	"grad_norm": 0.85546875,
	"grad_norm_var": 0.027347564697265625,
	"learning_rate": 2e-05,
	"loss": 0.0587,
	"loss/crossentropy": 1.6603793501853943,
	"loss/hidden": 0.052978515625,
	"loss/logits": 0.005712392507120967,
	"step": 128
	},
	{
	"epoch": 0.129,
	"grad_norm": 5.375,
	"grad_norm_var": 1.286358388264974,
	"learning_rate": 2e-05,
	"loss": 0.0577,
	"loss/crossentropy": 0.8844976872205734,
	"loss/hidden": 0.0550537109375,
	"loss/logits": 0.0026012896560132504,
	"step": 129
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.94140625,
	"grad_norm_var": 1.2828027725219726,
	"learning_rate": 2e-05,
	"loss": 0.0532,
	"loss/crossentropy": 2.151723265647888,
	"loss/hidden": 0.04833984375,
	"loss/logits": 0.0048982377629727125,
	"step": 130
	},
	{
	"epoch": 0.131,
	"grad_norm": 0.92578125,
	"grad_norm_var": 1.280975341796875,
	"learning_rate": 2e-05,
	"loss": 0.048,
	"loss/crossentropy": 2.190707802772522,
	"loss/hidden": 0.0435791015625,
	"loss/logits": 0.004458446754142642,
	"step": 131
	},
	{
	"epoch": 0.132,
	"grad_norm": 0.73828125,
	"grad_norm_var": 1.2861162821451824,
	"learning_rate": 2e-05,
	"loss": 0.0562,
	"loss/crossentropy": 2.0854132175445557,
	"loss/hidden": 0.0511474609375,
	"loss/logits": 0.005020990269258618,
	"step": 132
	},
	{
	"epoch": 0.133,
	"grad_norm": 0.6796875,
	"grad_norm_var": 1.299598185221354,
	"learning_rate": 2e-05,
	"loss": 0.0509,
	"loss/crossentropy": 2.0993438959121704,
	"loss/hidden": 0.046142578125,
	"loss/logits": 0.004787095822393894,
	"step": 133
	},
	{
	"epoch": 0.134,
	"grad_norm": 0.96875,
	"grad_norm_var": 1.2983378092447917,
	"learning_rate": 2e-05,
	"loss": 0.0491,
	"loss/crossentropy": 2.2328933477401733,
	"loss/hidden": 0.0445556640625,
	"loss/logits": 0.004536583088338375,
	"step": 134
	},
	{
	"epoch": 0.135,
	"grad_norm": 1.0625,
	"grad_norm_var": 1.2969581604003906,
	"learning_rate": 2e-05,
	"loss": 0.0638,
	"loss/crossentropy": 1.9981300234794617,
	"loss/hidden": 0.0579833984375,
	"loss/logits": 0.00582107319496572,
	"step": 135
	},
	{
	"epoch": 0.136,
	"grad_norm": 0.6796875,
	"grad_norm_var": 1.3004615783691407,
	"learning_rate": 2e-05,
	"loss": 0.0542,
	"loss/crossentropy": 2.1993343830108643,
	"loss/hidden": 0.049072265625,
	"loss/logits": 0.005134769715368748,
	"step": 136
	},
	{
	"epoch": 0.137,
	"grad_norm": 3.5,
	"grad_norm_var": 1.627500343322754,
	"learning_rate": 2e-05,
	"loss": 0.0595,
	"loss/crossentropy": 1.469780683517456,
	"loss/hidden": 0.0552978515625,
	"loss/logits": 0.0042177007999271154,
	"step": 137
	},
	{
	"epoch": 0.138,
	"grad_norm": 0.87109375,
	"grad_norm_var": 1.632664426167806,
	"learning_rate": 2e-05,
	"loss": 0.0554,
	"loss/crossentropy": 1.8814529180526733,
	"loss/hidden": 0.0506591796875,
	"loss/logits": 0.004711252404376864,
	"step": 138
	},
	{
	"epoch": 0.139,
	"grad_norm": 0.9140625,
	"grad_norm_var": 1.62430419921875,
	"learning_rate": 2e-05,
	"loss": 0.0542,
	"loss/crossentropy": 1.9769226908683777,
	"loss/hidden": 0.049560546875,
	"loss/logits": 0.004602615023031831,
	"step": 139
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.296875,
	"grad_norm_var": 1.5987385431925456,
	"learning_rate": 2e-05,
	"loss": 0.0562,
	"loss/crossentropy": 1.3646953105926514,
	"loss/hidden": 0.0516357421875,
	"loss/logits": 0.0045162534806877375,
	"step": 140
	},
	{
	"epoch": 0.141,
	"grad_norm": 0.91796875,
	"grad_norm_var": 1.592772356669108,
	"learning_rate": 2e-05,
	"loss": 0.0586,
	"loss/crossentropy": 1.5901939272880554,
	"loss/hidden": 0.0538330078125,
	"loss/logits": 0.004788138438016176,
	"step": 141
	},
	{
	"epoch": 0.142,
	"grad_norm": 1.109375,
	"grad_norm_var": 1.5760719299316406,
	"learning_rate": 2e-05,
	"loss": 0.0686,
	"loss/crossentropy": 1.8436982035636902,
	"loss/hidden": 0.062744140625,
	"loss/logits": 0.005897135473787785,
	"step": 142
	},
	{
	"epoch": 0.143,
	"grad_norm": 1.0,
	"grad_norm_var": 1.5800819396972656,
	"learning_rate": 2e-05,
	"loss": 0.0677,
	"loss/crossentropy": 1.7922558188438416,
	"loss/hidden": 0.06103515625,
	"loss/logits": 0.006622593384236097,
	"step": 143
	},
	{
	"epoch": 0.144,
	"grad_norm": 1.046875,
	"grad_norm_var": 1.5693745295206705,
	"learning_rate": 2e-05,
	"loss": 0.0626,
	"loss/crossentropy": 1.8654756546020508,
	"loss/hidden": 0.05712890625,
	"loss/logits": 0.005447414005175233,
	"step": 144
	},
	{
	"epoch": 0.145,
	"grad_norm": 0.8046875,
	"grad_norm_var": 0.43840071360270183,
	"learning_rate": 2e-05,
	"loss": 0.0653,
	"loss/crossentropy": 2.023370146751404,
	"loss/hidden": 0.0596923828125,
	"loss/logits": 0.005567178362980485,
	"step": 145
	},
	{
	"epoch": 0.146,
	"grad_norm": 1.7265625,
	"grad_norm_var": 0.4612627665201823,
	"learning_rate": 2e-05,
	"loss": 0.0718,
	"loss/crossentropy": 1.2652358412742615,
	"loss/hidden": 0.066162109375,
	"loss/logits": 0.00563872791826725,
	"step": 146
	},
	{
	"epoch": 0.147,
	"grad_norm": 0.8359375,
	"grad_norm_var": 0.4643350601196289,
	"learning_rate": 2e-05,
	"loss": 0.0579,
	"loss/crossentropy": 2.181838572025299,
	"loss/hidden": 0.0528564453125,
	"loss/logits": 0.0050070807337760925,
	"step": 147
	},
	{
	"epoch": 0.148,
	"grad_norm": 1.65625,
	"grad_norm_var": 0.4685035705566406,
	"learning_rate": 2e-05,
	"loss": 0.0653,
	"loss/crossentropy": 1.6760476231575012,
	"loss/hidden": 0.059814453125,
	"loss/logits": 0.005448109935969114,
	"step": 148
	},
	{
	"epoch": 0.149,
	"grad_norm": 0.875,
	"grad_norm_var": 0.45754903157552085,
	"learning_rate": 2e-05,
	"loss": 0.0608,
	"loss/crossentropy": 1.9610846042633057,
	"loss/hidden": 0.05517578125,
	"loss/logits": 0.0055898819118738174,
	"step": 149
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.2890625,
	"grad_norm_var": 0.45391006469726564,
	"learning_rate": 2e-05,
	"loss": 0.0607,
	"loss/crossentropy": 2.0354663729667664,
	"loss/hidden": 0.054931640625,
	"loss/logits": 0.005750466603785753,
	"step": 150
	},
	{
	"epoch": 0.151,
	"grad_norm": 0.91015625,
	"grad_norm_var": 0.4586435317993164,
	"learning_rate": 2e-05,
	"loss": 0.061,
	"loss/crossentropy": 1.5509551763534546,
	"loss/hidden": 0.05615234375,
	"loss/logits": 0.00486933346837759,
	"step": 151
	},
	{
	"epoch": 0.152,
	"grad_norm": 1.8203125,
	"grad_norm_var": 0.45860640207926434,
	"learning_rate": 2e-05,
	"loss": 0.0823,
	"loss/crossentropy": 1.3190861344337463,
	"loss/hidden": 0.076171875,
	"loss/logits": 0.006146557629108429,
	"step": 152
	},
	{
	"epoch": 0.153,
	"grad_norm": 1.65625,
	"grad_norm_var": 0.12676741282145182,
	"learning_rate": 2e-05,
	"loss": 0.0689,
	"loss/crossentropy": 2.0075970888137817,
	"loss/hidden": 0.0626220703125,
	"loss/logits": 0.0062951259315013885,
	"step": 153
	},
	{
	"epoch": 0.154,
	"grad_norm": 0.84375,
	"grad_norm_var": 0.12790629069010417,
	"learning_rate": 2e-05,
	"loss": 0.0645,
	"loss/crossentropy": 2.5025904178619385,
	"loss/hidden": 0.0584716796875,
	"loss/logits": 0.005998906912282109,
	"step": 154
	},
	{
	"epoch": 0.155,
	"grad_norm": 1.75,
	"grad_norm_var": 0.14317194620768228,
	"learning_rate": 2e-05,
	"loss": 0.0673,
	"loss/crossentropy": 1.7674061059951782,
	"loss/hidden": 0.0618896484375,
	"loss/logits": 0.005377188790589571,
	"step": 155
	},
	{
	"epoch": 0.156,
	"grad_norm": 1.046875,
	"grad_norm_var": 0.14455540974934897,
	"learning_rate": 2e-05,
	"loss": 0.0696,
	"loss/crossentropy": 1.4891575574874878,
	"loss/hidden": 0.0640869140625,
	"loss/logits": 0.005491052754223347,
	"step": 156
	},
	{
	"epoch": 0.157,
	"grad_norm": 1.0078125,
	"grad_norm_var": 0.1416147232055664,
	"learning_rate": 2e-05,
	"loss": 0.0656,
	"loss/crossentropy": 1.4295508861541748,
	"loss/hidden": 0.060546875,
	"loss/logits": 0.005026416387408972,
	"step": 157
	},
	{
	"epoch": 0.158,
	"grad_norm": 8.5,
	"grad_norm_var": 3.4551263809204102,
	"learning_rate": 2e-05,
	"loss": 0.1047,
	"loss/crossentropy": 1.6207728683948517,
	"loss/hidden": 0.09716796875,
	"loss/logits": 0.007503823610022664,
	"step": 158
	},
	{
	"epoch": 0.159,
	"grad_norm": 1.3125,
	"grad_norm_var": 3.4331842422485352,
	"learning_rate": 2e-05,
	"loss": 0.0663,
	"loss/crossentropy": 1.838720440864563,
	"loss/hidden": 0.06103515625,
	"loss/logits": 0.0052408319897949696,
	"step": 159
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.765625,
	"grad_norm_var": 3.403587277730306,
	"learning_rate": 2e-05,
	"loss": 0.0729,
	"loss/crossentropy": 1.9572261571884155,
	"loss/hidden": 0.06640625,
	"loss/logits": 0.00649917172268033,
	"step": 160
	},
	{
	"epoch": 0.161,
	"grad_norm": 7.71875,
	"grad_norm_var": 5.5313720067342125,
	"learning_rate": 2e-05,
	"loss": 0.0873,
	"loss/crossentropy": 0.06751747522503138,
	"loss/hidden": 0.086181640625,
	"loss/logits": 0.001096382096875459,
	"step": 161
	},
	{
	"epoch": 0.162,
	"grad_norm": 1.65625,
	"grad_norm_var": 5.535835202534994,
	"learning_rate": 2e-05,
	"loss": 0.0753,
	"loss/crossentropy": 1.9767259359359741,
	"loss/hidden": 0.06884765625,
	"loss/logits": 0.006433435715734959,
	"step": 162
	},
	{
	"epoch": 0.163,
	"grad_norm": 1.2734375,
	"grad_norm_var": 5.470252927144369,
	"learning_rate": 2e-05,
	"loss": 0.0742,
	"loss/crossentropy": 1.6337787508964539,
	"loss/hidden": 0.068359375,
	"loss/logits": 0.0058679585345089436,
	"step": 163
	},
	{
	"epoch": 0.164,
	"grad_norm": 1.171875,
	"grad_norm_var": 5.519557634989421,
	"learning_rate": 2e-05,
	"loss": 0.0791,
	"loss/crossentropy": 1.5085630416870117,
	"loss/hidden": 0.0732421875,
	"loss/logits": 0.00587455416098237,
	"step": 164
	},
	{
	"epoch": 0.165,
	"grad_norm": 1.328125,
	"grad_norm_var": 5.454612668355306,
	"learning_rate": 2e-05,
	"loss": 0.0733,
	"loss/crossentropy": 2.1295101046562195,
	"loss/hidden": 0.0665283203125,
	"loss/logits": 0.006821601651608944,
	"step": 165
	},
	{
	"epoch": 0.166,
	"grad_norm": 0.828125,
	"grad_norm_var": 5.523303159077963,
	"learning_rate": 2e-05,
	"loss": 0.0681,
	"loss/crossentropy": 2.1514192819595337,
	"loss/hidden": 0.061767578125,
	"loss/logits": 0.0063285790383815765,
	"step": 166
	},
	{
	"epoch": 0.167,
	"grad_norm": 0.9140625,
	"grad_norm_var": 5.522652180989583,
	"learning_rate": 2e-05,
	"loss": 0.0799,
	"loss/crossentropy": 1.907168447971344,
	"loss/hidden": 0.072509765625,
	"loss/logits": 0.0073654367588460445,
	"step": 167
	},
	{
	"epoch": 0.168,
	"grad_norm": 0.70703125,
	"grad_norm_var": 5.650849850972493,
	"learning_rate": 2e-05,
	"loss": 0.0665,
	"loss/crossentropy": 2.490573525428772,
	"loss/hidden": 0.0604248046875,
	"loss/logits": 0.006123463856056333,
	"step": 168
	},
	{
	"epoch": 0.169,
	"grad_norm": 0.921875,
	"grad_norm_var": 5.727275530497233,
	"learning_rate": 2e-05,
	"loss": 0.0686,
	"loss/crossentropy": 2.1971182823181152,
	"loss/hidden": 0.0625,
	"loss/logits": 0.006081034895032644,
	"step": 169
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.84375,
	"grad_norm_var": 5.727275530497233,
	"learning_rate": 2e-05,
	"loss": 0.0723,
	"loss/crossentropy": 1.9449633955955505,
	"loss/hidden": 0.06591796875,
	"loss/logits": 0.00633727153763175,
	"step": 170
	},
	{
	"epoch": 0.171,
	"grad_norm": 0.80078125,
	"grad_norm_var": 5.8211313883463545,
	"learning_rate": 2e-05,
	"loss": 0.0721,
	"loss/crossentropy": 1.8933625221252441,
	"loss/hidden": 0.066162109375,
	"loss/logits": 0.005927694728597999,
	"step": 171
	},
	{
	"epoch": 0.172,
	"grad_norm": 0.734375,
	"grad_norm_var": 5.8664194742838545,
	"learning_rate": 2e-05,
	"loss": 0.0756,
	"loss/crossentropy": 2.2961581349372864,
	"loss/hidden": 0.069091796875,
	"loss/logits": 0.00650426116771996,
	"step": 172
	},
	{
	"epoch": 0.173,
	"grad_norm": 1.0859375,
	"grad_norm_var": 5.856801350911458,
	"learning_rate": 2e-05,
	"loss": 0.0876,
	"loss/crossentropy": 1.5580723285675049,
	"loss/hidden": 0.080322265625,
	"loss/logits": 0.00728521216660738,
	"step": 173
	},
	{
	"epoch": 0.174,
	"grad_norm": 0.87109375,
	"grad_norm_var": 2.8547820409138995,
	"learning_rate": 2e-05,
	"loss": 0.0785,
	"loss/crossentropy": 2.4996918439865112,
	"loss/hidden": 0.07080078125,
	"loss/logits": 0.0076872315257787704,
	"step": 174
	},
	{
	"epoch": 0.175,
	"grad_norm": 1.09375,
	"grad_norm_var": 2.863120460510254,
	"learning_rate": 2e-05,
	"loss": 0.0842,
	"loss/crossentropy": 2.341306686401367,
	"loss/hidden": 0.075927734375,
	"loss/logits": 0.008260179311037064,
	"step": 175
	},
	{
	"epoch": 0.176,
	"grad_norm": 1.2734375,
	"grad_norm_var": 2.859659767150879,
	"learning_rate": 2e-05,
	"loss": 0.0839,
	"loss/crossentropy": 2.0976521968841553,
	"loss/hidden": 0.075927734375,
	"loss/logits": 0.007956868037581444,
	"step": 176
	},
	{
	"epoch": 0.177,
	"grad_norm": 1.6640625,
	"grad_norm_var": 0.09129581451416016,
	"learning_rate": 2e-05,
	"loss": 0.0854,
	"loss/crossentropy": 1.5655289888381958,
	"loss/hidden": 0.078857421875,
	"loss/logits": 0.006505638128146529,
	"step": 177
	},
	{
	"epoch": 0.178,
	"grad_norm": 0.96484375,
	"grad_norm_var": 0.06740493774414062,
	"learning_rate": 2e-05,
	"loss": 0.0832,
	"loss/crossentropy": 1.947506844997406,
	"loss/hidden": 0.076171875,
	"loss/logits": 0.0070168147794902325,
	"step": 178
	},
	{
	"epoch": 0.179,
	"grad_norm": 4.5625,
	"grad_norm_var": 0.8503774007161459,
	"learning_rate": 2e-05,
	"loss": 0.0965,
	"loss/crossentropy": 1.557403326034546,
	"loss/hidden": 0.087158203125,
	"loss/logits": 0.009354921989142895,
	"step": 179
	},
	{
	"epoch": 0.18,
	"grad_norm": 8.3125,
	"grad_norm_var": 3.9767252604166665,
	"learning_rate": 2e-05,
	"loss": 0.1122,
	"loss/crossentropy": 0.45333431661129,
	"loss/hidden": 0.109375,
	"loss/logits": 0.0027967533096671104,
	"step": 180
	},
	{
	"epoch": 0.181,
	"grad_norm": 1.546875,
	"grad_norm_var": 3.969405110677083,
	"learning_rate": 2e-05,
	"loss": 0.0829,
	"loss/crossentropy": 2.005882978439331,
	"loss/hidden": 0.075439453125,
	"loss/logits": 0.007453362224623561,
	"step": 181
	},
	{
	"epoch": 0.182,
	"grad_norm": 1.3515625,
	"grad_norm_var": 3.926006825764974,
	"learning_rate": 2e-05,
	"loss": 0.0849,
	"loss/crossentropy": 2.199571132659912,
	"loss/hidden": 0.077880859375,
	"loss/logits": 0.0069826748222112656,
	"step": 182
	},
	{
	"epoch": 0.183,
	"grad_norm": 1.5703125,
	"grad_norm_var": 3.8817014058430988,
	"learning_rate": 2e-05,
	"loss": 0.0921,
	"loss/crossentropy": 1.6926537156105042,
	"loss/hidden": 0.085205078125,
	"loss/logits": 0.006879956694319844,
	"step": 183
	},
	{
	"epoch": 0.184,
	"grad_norm": 1.203125,
	"grad_norm_var": 3.826835568745931,
	"learning_rate": 2e-05,
	"loss": 0.0964,
	"loss/crossentropy": 1.509221613407135,
	"loss/hidden": 0.087890625,
	"loss/logits": 0.00847849901765585,
	"step": 184
	},
	{
	"epoch": 0.185,
	"grad_norm": 0.703125,
	"grad_norm_var": 3.8554396947224934,
	"learning_rate": 2e-05,
	"loss": 0.0788,
	"loss/crossentropy": 2.4337867498397827,
	"loss/hidden": 0.072021484375,
	"loss/logits": 0.0067423065192997456,
	"step": 185
	},
	{
	"epoch": 0.186,
	"grad_norm": 1.234375,
	"grad_norm_var": 3.815881284077962,
	"learning_rate": 2e-05,
	"loss": 0.0966,
	"loss/crossentropy": 1.7458332180976868,
	"loss/hidden": 0.08837890625,
	"loss/logits": 0.008262162329629064,
	"step": 186
	},
	{
	"epoch": 0.187,
	"grad_norm": 6.59375,
	"grad_norm_var": 5.133159383138021,
	"learning_rate": 2e-05,
	"loss": 0.0928,
	"loss/crossentropy": 2.116236627101898,
	"loss/hidden": 0.0830078125,
	"loss/logits": 0.00975541677325964,
	"step": 187
	},
	{
	"epoch": 0.188,
	"grad_norm": 1.8203125,
	"grad_norm_var": 4.998583730061849,
	"learning_rate": 2e-05,
	"loss": 0.0831,
	"loss/crossentropy": 2.324514389038086,
	"loss/hidden": 0.075439453125,
	"loss/logits": 0.007644579978659749,
	"step": 188
	},
	{
	"epoch": 0.189,
	"grad_norm": 0.796875,
	"grad_norm_var": 5.048313395182292,
	"learning_rate": 2e-05,
	"loss": 0.0867,
	"loss/crossentropy": 1.9479625821113586,
	"loss/hidden": 0.0791015625,
	"loss/logits": 0.0075566458981484175,
	"step": 189
	},
	{
	"epoch": 0.19,
	"grad_norm": 15.875,
	"grad_norm_var": 16.414309628804524,
	"learning_rate": 2e-05,
	"loss": 0.1592,
	"loss/crossentropy": 1.5863521695137024,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.009787225630134344,
	"step": 190
	},
	{
	"epoch": 0.191,
	"grad_norm": 2.046875,
	"grad_norm_var": 16.208450762430825,
	"learning_rate": 2e-05,
	"loss": 0.0784,
	"loss/crossentropy": 0.8779918029904366,
	"loss/hidden": 0.073974609375,
	"loss/logits": 0.004391094436869025,
	"step": 191
	},
	{
	"epoch": 0.192,
	"grad_norm": 1.375,
	"grad_norm_var": 16.1827361424764,
	"learning_rate": 2e-05,
	"loss": 0.0931,
	"loss/crossentropy": 2.1567060947418213,
	"loss/hidden": 0.085693359375,
	"loss/logits": 0.007449513301253319,
	"step": 192
	},
	{
	"epoch": 0.193,
	"grad_norm": 0.875,
	"grad_norm_var": 16.386012204488118,
	"learning_rate": 2e-05,
	"loss": 0.0898,
	"loss/crossentropy": 1.8178179860115051,
	"loss/hidden": 0.08251953125,
	"loss/logits": 0.007294924231246114,
	"step": 193
	},
	{
	"epoch": 0.194,
	"grad_norm": 2.21875,
	"grad_norm_var": 16.114434560139973,
	"learning_rate": 2e-05,
	"loss": 0.1014,
	"loss/crossentropy": 1.8806178569793701,
	"loss/hidden": 0.09375,
	"loss/logits": 0.0076924534514546394,
	"step": 194
	},
	{
	"epoch": 0.195,
	"grad_norm": 1.8671875,
	"grad_norm_var": 16.098729451497395,
	"learning_rate": 2e-05,
	"loss": 0.1048,
	"loss/crossentropy": 1.6054936051368713,
	"loss/hidden": 0.096435546875,
	"loss/logits": 0.008354771416634321,
	"step": 195
	},
	{
	"epoch": 0.196,
	"grad_norm": 1.90625,
	"grad_norm_var": 14.200210571289062,
	"learning_rate": 2e-05,
	"loss": 0.0851,
	"loss/crossentropy": 1.1937458366155624,
	"loss/hidden": 0.079833984375,
	"loss/logits": 0.005313969450071454,
	"step": 196
	},
	{
	"epoch": 0.197,
	"grad_norm": 2.453125,
	"grad_norm_var": 14.113833618164062,
	"learning_rate": 2e-05,
	"loss": 0.1056,
	"loss/crossentropy": 1.9973903894424438,
	"loss/hidden": 0.09619140625,
	"loss/logits": 0.00938287889584899,
	"step": 197
	},
	{
	"epoch": 0.198,
	"grad_norm": 1.5546875,
	"grad_norm_var": 14.07872314453125,
	"learning_rate": 2e-05,
	"loss": 0.087,
	"loss/crossentropy": 2.0422087907791138,
	"loss/hidden": 0.07958984375,
	"loss/logits": 0.007449948927387595,
	"step": 198
	},
	{
	"epoch": 0.199,
	"grad_norm": 0.875,
	"grad_norm_var": 14.218849436442058,
	"learning_rate": 2e-05,
	"loss": 0.0908,
	"loss/crossentropy": 2.040232002735138,
	"loss/hidden": 0.08349609375,
	"loss/logits": 0.007334771566092968,
	"step": 199
	},
	{
	"epoch": 0.2,
	"grad_norm": 3.6875,
	"grad_norm_var": 14.104658762613932,
	"learning_rate": 2e-05,
	"loss": 0.0996,
	"loss/crossentropy": 1.7977141737937927,
	"loss/hidden": 0.09130859375,
	"loss/logits": 0.008285259362310171,
	"step": 200
	},
	{
	"epoch": 0.201,
	"grad_norm": 1.1640625,
	"grad_norm_var": 13.984908040364584,
	"learning_rate": 2e-05,
	"loss": 0.0923,
	"loss/crossentropy": 1.960830569267273,
	"loss/hidden": 0.0849609375,
	"loss/logits": 0.007373227505013347,
	"step": 201
	},
	{
	"epoch": 0.202,
	"grad_norm": 1.2109375,
	"grad_norm_var": 13.99013646443685,
	"learning_rate": 2e-05,
	"loss": 0.1063,
	"loss/crossentropy": 1.5903997421264648,
	"loss/hidden": 0.098876953125,
	"loss/logits": 0.007376475026831031,
	"step": 202
	},
	{
	"epoch": 0.203,
	"grad_norm": 2.015625,
	"grad_norm_var": 13.0423215230306,
	"learning_rate": 2e-05,
	"loss": 0.0958,
	"loss/crossentropy": 1.1866007596254349,
	"loss/hidden": 0.0908203125,
	"loss/logits": 0.0049855056568048894,
	"step": 203
	},
	{
	"epoch": 0.204,
	"grad_norm": 2.203125,
	"grad_norm_var": 13.01123046875,
	"learning_rate": 2e-05,
	"loss": 0.1001,
	"loss/crossentropy": 2.016387164592743,
	"loss/hidden": 0.092529296875,
	"loss/logits": 0.0076178074814379215,
	"step": 204
	},
	{
	"epoch": 0.205,
	"grad_norm": 0.98828125,
	"grad_norm_var": 12.966665585835775,
	"learning_rate": 2e-05,
	"loss": 0.1017,
	"loss/crossentropy": 1.9937080144882202,
	"loss/hidden": 0.09326171875,
	"loss/logits": 0.008388462010771036,
	"step": 205
	},
	{
	"epoch": 0.206,
	"grad_norm": 1.65625,
	"grad_norm_var": 0.5201679865519205,
	"learning_rate": 2e-05,
	"loss": 0.1012,
	"loss/crossentropy": 1.8353246450424194,
	"loss/hidden": 0.09326171875,
	"loss/logits": 0.00795629364438355,
	"step": 206
	},
	{
	"epoch": 0.207,
	"grad_norm": 1.6875,
	"grad_norm_var": 0.5143070856730143,
	"learning_rate": 2e-05,
	"loss": 0.0918,
	"loss/crossentropy": 1.0499791204929352,
	"loss/hidden": 0.08740234375,
	"loss/logits": 0.004438678151927888,
	"step": 207
	},
	{
	"epoch": 0.208,
	"grad_norm": 1.0625,
	"grad_norm_var": 0.5353540420532227,
	"learning_rate": 2e-05,
	"loss": 0.107,
	"loss/crossentropy": 1.8614663481712341,
	"loss/hidden": 0.09814453125,
	"loss/logits": 0.008855776861310005,
	"step": 208
	},
	{
	"epoch": 0.209,
	"grad_norm": 2.390625,
	"grad_norm_var": 0.5093535741170248,
	"learning_rate": 2e-05,
	"loss": 0.1072,
	"loss/crossentropy": 2.363565683364868,
	"loss/hidden": 0.096923828125,
	"loss/logits": 0.010271006729453802,
	"step": 209
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.171875,
	"grad_norm_var": 0.5069289525349935,
	"learning_rate": 2e-05,
	"loss": 0.1086,
	"loss/crossentropy": 1.955030083656311,
	"loss/hidden": 0.099365234375,
	"loss/logits": 0.0092296302318573,
	"step": 210
	},
	{
	"epoch": 0.211,
	"grad_norm": 1.2265625,
	"grad_norm_var": 0.5273447036743164,
	"learning_rate": 2e-05,
	"loss": 0.1062,
	"loss/crossentropy": 1.774095892906189,
	"loss/hidden": 0.0986328125,
	"loss/logits": 0.007574398070573807,
	"step": 211
	},
	{
	"epoch": 0.212,
	"grad_norm": 1.2890625,
	"grad_norm_var": 0.5396000544230143,
	"learning_rate": 2e-05,
	"loss": 0.1117,
	"loss/crossentropy": 1.8405153155326843,
	"loss/hidden": 0.10302734375,
	"loss/logits": 0.008719130419194698,
	"step": 212
	},
	{
	"epoch": 0.213,
	"grad_norm": 1.40625,
	"grad_norm_var": 0.5067829767862956,
	"learning_rate": 2e-05,
	"loss": 0.1045,
	"loss/crossentropy": 2.0069875717163086,
	"loss/hidden": 0.095947265625,
	"loss/logits": 0.008583055343478918,
	"step": 213
	},
	{
	"epoch": 0.214,
	"grad_norm": 1.1640625,
	"grad_norm_var": 0.5219018936157227,
	"learning_rate": 2e-05,
	"loss": 0.1103,
	"loss/crossentropy": 1.670526921749115,
	"loss/hidden": 0.102294921875,
	"loss/logits": 0.008038338739424944,
	"step": 214
	},
	{
	"epoch": 0.215,
	"grad_norm": 1.8828125,
	"grad_norm_var": 0.48292789459228513,
	"learning_rate": 2e-05,
	"loss": 0.1121,
	"loss/crossentropy": 1.795514464378357,
	"loss/hidden": 0.103759765625,
	"loss/logits": 0.008318986743688583,
	"step": 215
	},
	{
	"epoch": 0.216,
	"grad_norm": 1.1328125,
	"grad_norm_var": 0.2139871597290039,
	"learning_rate": 2e-05,
	"loss": 0.1066,
	"loss/crossentropy": 2.180332064628601,
	"loss/hidden": 0.09716796875,
	"loss/logits": 0.009391986764967442,
	"step": 216
	},
	{
	"epoch": 0.217,
	"grad_norm": 1.9375,
	"grad_norm_var": 0.21252689361572266,
	"learning_rate": 2e-05,
	"loss": 0.1234,
	"loss/crossentropy": 1.8504464030265808,
	"loss/hidden": 0.11181640625,
	"loss/logits": 0.011583337560296059,
	"step": 217
	},
	{
	"epoch": 0.218,
	"grad_norm": 1.046875,
	"grad_norm_var": 0.22248172760009766,
	"learning_rate": 2e-05,
	"loss": 0.1098,
	"loss/crossentropy": 1.6542016863822937,
	"loss/hidden": 0.101806640625,
	"loss/logits": 0.007953221211209893,
	"step": 218
	},
	{
	"epoch": 0.219,
	"grad_norm": 1.1484375,
	"grad_norm_var": 0.21898136138916016,
	"learning_rate": 2e-05,
	"loss": 0.1185,
	"loss/crossentropy": 1.8401342630386353,
	"loss/hidden": 0.107421875,
	"loss/logits": 0.011056106071919203,
	"step": 219
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.2578125,
	"grad_norm_var": 0.18931725819905598,
	"learning_rate": 2e-05,
	"loss": 0.1082,
	"loss/crossentropy": 1.8265935778617859,
	"loss/hidden": 0.09912109375,
	"loss/logits": 0.009068313986063004,
	"step": 220
	},
	{
	"epoch": 0.221,
	"grad_norm": 52.25,
	"grad_norm_var": 161.16229426066081,
	"learning_rate": 2e-05,
	"loss": 0.1937,
	"loss/crossentropy": 1.5437742471694946,
	"loss/hidden": 0.170654296875,
	"loss/logits": 0.023064299020916224,
	"step": 221
	},
	{
	"epoch": 0.222,
	"grad_norm": 2.28125,
	"grad_norm_var": 160.93560969034831,
	"learning_rate": 2e-05,
	"loss": 0.1246,
	"loss/crossentropy": 1.227450430393219,
	"loss/hidden": 0.11572265625,
	"loss/logits": 0.008849140722304583,
	"step": 222
	},
	{
	"epoch": 0.223,
	"grad_norm": 1.28125,
	"grad_norm_var": 161.10956192016602,
	"learning_rate": 2e-05,
	"loss": 0.1196,
	"loss/crossentropy": 1.9892451167106628,
	"loss/hidden": 0.1103515625,
	"loss/logits": 0.009212612174451351,
	"step": 223
	},
	{
	"epoch": 0.224,
	"grad_norm": 1.0625,
	"grad_norm_var": 161.10956192016602,
	"learning_rate": 2e-05,
	"loss": 0.1208,
	"loss/crossentropy": 1.9727575778961182,
	"loss/hidden": 0.111328125,
	"loss/logits": 0.009519532322883606,
	"step": 224
	},
	{
	"epoch": 0.225,
	"grad_norm": 1.9140625,
	"grad_norm_var": 161.26942443847656,
	"learning_rate": 2e-05,
	"loss": 0.1112,
	"loss/crossentropy": 2.20854651927948,
	"loss/hidden": 0.1025390625,
	"loss/logits": 0.008704130537807941,
	"step": 225
	},
	{
	"epoch": 0.226,
	"grad_norm": 1.703125,
	"grad_norm_var": 161.43824768066406,
	"learning_rate": 2e-05,
	"loss": 0.1249,
	"loss/crossentropy": 1.8244708180427551,
	"loss/hidden": 0.115478515625,
	"loss/logits": 0.009438233450055122,
	"step": 226
	},
	{
	"epoch": 0.227,
	"grad_norm": 1.9921875,
	"grad_norm_var": 161.12805989583333,
	"learning_rate": 2e-05,
	"loss": 0.1264,
	"loss/crossentropy": 1.6184683442115784,
	"loss/hidden": 0.117431640625,
	"loss/logits": 0.008998575620353222,
	"step": 227
	},
	{
	"epoch": 0.228,
	"grad_norm": 1.40625,
	"grad_norm_var": 161.0760617574056,
	"learning_rate": 2e-05,
	"loss": 0.1427,
	"loss/crossentropy": 1.9090940952301025,
	"loss/hidden": 0.1298828125,
	"loss/logits": 0.01286676386371255,
	"step": 228
	},
	{
	"epoch": 0.229,
	"grad_norm": 1.5078125,
	"grad_norm_var": 161.03238525390626,
	"learning_rate": 2e-05,
	"loss": 0.1191,
	"loss/crossentropy": 1.7622392773628235,
	"loss/hidden": 0.109619140625,
	"loss/logits": 0.009484861977398396,
	"step": 229
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.3671875,
	"grad_norm_var": 160.93959045410156,
	"learning_rate": 2e-05,
	"loss": 0.1185,
	"loss/crossentropy": 1.7633178234100342,
	"loss/hidden": 0.109130859375,
	"loss/logits": 0.009330280125141144,
	"step": 230
	},
	{
	"epoch": 0.231,
	"grad_norm": 0.98828125,
	"grad_norm_var": 161.32540073394776,
	"learning_rate": 2e-05,
	"loss": 0.1188,
	"loss/crossentropy": 2.186140298843384,
	"loss/hidden": 0.108154296875,
	"loss/logits": 0.010631876531988382,
	"step": 231
	},
	{
	"epoch": 0.232,
	"grad_norm": 3.28125,
	"grad_norm_var": 160.60855553944904,
	"learning_rate": 2e-05,
	"loss": 0.1224,
	"loss/crossentropy": 0.8389374911785126,
	"loss/hidden": 0.1171875,
	"loss/logits": 0.005214276316110045,
	"step": 232
	},
	{
	"epoch": 0.233,
	"grad_norm": 1.0703125,
	"grad_norm_var": 160.98382867177327,
	"learning_rate": 2e-05,
	"loss": 0.116,
	"loss/crossentropy": 2.1515474915504456,
	"loss/hidden": 0.107421875,
	"loss/logits": 0.00860951654613018,
	"step": 233
	},
	{
	"epoch": 0.234,
	"grad_norm": 4.5,
	"grad_norm_var": 160.03680464426677,
	"learning_rate": 2e-05,
	"loss": 0.1312,
	"loss/crossentropy": 1.6820667684078217,
	"loss/hidden": 0.123046875,
	"loss/logits": 0.008124232292175293,
	"step": 234
	},
	{
	"epoch": 0.235,
	"grad_norm": 2.40625,
	"grad_norm_var": 159.50010522206625,
	"learning_rate": 2e-05,
	"loss": 0.1056,
	"loss/crossentropy": 0.9079534839838743,
	"loss/hidden": 0.10107421875,
	"loss/logits": 0.004542189242783934,
	"step": 235
	},
	{
	"epoch": 0.236,
	"grad_norm": 0.984375,
	"grad_norm_var": 159.64182631174722,
	"learning_rate": 2e-05,
	"loss": 0.1192,
	"loss/crossentropy": 2.261181592941284,
	"loss/hidden": 0.109619140625,
	"loss/logits": 0.009581252932548523,
	"step": 236
	},
	{
	"epoch": 0.237,
	"grad_norm": 0.9921875,
	"grad_norm_var": 0.9261479059855143,
	"learning_rate": 2e-05,
	"loss": 0.1281,
	"loss/crossentropy": 1.9553669095039368,
	"loss/hidden": 0.116943359375,
	"loss/logits": 0.011152476072311401,
	"step": 237
	},
	{
	"epoch": 0.238,
	"grad_norm": 1.640625,
	"grad_norm_var": 0.9103616714477539,
	"learning_rate": 2e-05,
	"loss": 0.1466,
	"loss/crossentropy": 1.6360890865325928,
	"loss/hidden": 0.13525390625,
	"loss/logits": 0.011308418586850166,
	"step": 238
	},
	{
	"epoch": 0.239,
	"grad_norm": 2.265625,
	"grad_norm_var": 0.9085992813110352,
	"learning_rate": 2e-05,
	"loss": 0.133,
	"loss/crossentropy": 1.0788212679326534,
	"loss/hidden": 0.125732421875,
	"loss/logits": 0.007256039883941412,
	"step": 239
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.7578125,
	"grad_norm_var": 0.8688089370727539,
	"learning_rate": 2e-05,
	"loss": 0.1296,
	"loss/crossentropy": 1.6809419393539429,
	"loss/hidden": 0.119873046875,
	"loss/logits": 0.009761545807123184,
	"step": 240
	},
	{
	"epoch": 0.241,
	"grad_norm": 1.4921875,
	"grad_norm_var": 0.8769525527954102,
	"learning_rate": 2e-05,
	"loss": 0.1298,
	"loss/crossentropy": 2.1073160767555237,
	"loss/hidden": 0.1201171875,
	"loss/logits": 0.009713000617921352,
	"step": 241
	},
	{
	"epoch": 0.242,
	"grad_norm": 3.3125,
	"grad_norm_var": 1.0105956395467122,
	"learning_rate": 2e-05,
	"loss": 0.1851,
	"loss/crossentropy": 1.7140259146690369,
	"loss/hidden": 0.168212890625,
	"loss/logits": 0.01692299358546734,
	"step": 242
	},
	{
	"epoch": 0.243,
	"grad_norm": 1.3203125,
	"grad_norm_var": 1.0337132136027019,
	"learning_rate": 2e-05,
	"loss": 0.141,
	"loss/crossentropy": 1.70401269197464,
	"loss/hidden": 0.13037109375,
	"loss/logits": 0.010653213132172823,
	"step": 243
	},
	{
	"epoch": 0.244,
	"grad_norm": 2.015625,
	"grad_norm_var": 1.0173481623331706,
	"learning_rate": 2e-05,
	"loss": 0.1561,
	"loss/crossentropy": 1.9086145758628845,
	"loss/hidden": 0.1416015625,
	"loss/logits": 0.01448416942730546,
	"step": 244
	},
	{
	"epoch": 0.245,
	"grad_norm": 1.890625,
	"grad_norm_var": 1.0048868179321289,
	"learning_rate": 2e-05,
	"loss": 0.1751,
	"loss/crossentropy": 1.5015806555747986,
	"loss/hidden": 0.16064453125,
	"loss/logits": 0.014442750252783298,
	"step": 245
	},
	{
	"epoch": 0.246,
	"grad_norm": 1.6796875,
	"grad_norm_var": 0.9864847183227539,
	"learning_rate": 2e-05,
	"loss": 0.1323,
	"loss/crossentropy": 1.9546470642089844,
	"loss/hidden": 0.12255859375,
	"loss/logits": 0.009766705334186554,
	"step": 246
	},
	{
	"epoch": 0.247,
	"grad_norm": 1.203125,
	"grad_norm_var": 0.9611083984375,
	"learning_rate": 2e-05,
	"loss": 0.1539,
	"loss/crossentropy": 1.7062721848487854,
	"loss/hidden": 0.1416015625,
	"loss/logits": 0.01230617519468069,
	"step": 247
	},
	{
	"epoch": 0.248,
	"grad_norm": 4.21875,
	"grad_norm_var": 1.1776611328125,
	"learning_rate": 2e-05,
	"loss": 0.1515,
	"loss/crossentropy": 1.740279734134674,
	"loss/hidden": 0.14013671875,
	"loss/logits": 0.011402689386159182,
	"step": 248
	},
	{
	"epoch": 0.249,
	"grad_norm": 2.3125,
	"grad_norm_var": 1.1123573303222656,
	"learning_rate": 2e-05,
	"loss": 0.1504,
	"loss/crossentropy": 1.640882670879364,
	"loss/hidden": 0.1396484375,
	"loss/logits": 0.01071554934605956,
	"step": 249
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.796875,
	"grad_norm_var": 0.7542132059733073,
	"learning_rate": 2e-05,
	"loss": 0.1364,
	"loss/crossentropy": 1.4670004844665527,
	"loss/hidden": 0.126708984375,
	"loss/logits": 0.0096431621350348,
	"step": 250
	},
	{
	"epoch": 0.251,
	"grad_norm": 1.1796875,
	"grad_norm_var": 0.7847574869791667,
	"learning_rate": 2e-05,
	"loss": 0.14,
	"loss/crossentropy": 2.2024736404418945,
	"loss/hidden": 0.127197265625,
	"loss/logits": 0.012759591452777386,
	"step": 251
	},
	{
	"epoch": 0.252,
	"grad_norm": 3.53125,
	"grad_norm_var": 0.8651763916015625,
	"learning_rate": 2e-05,
	"loss": 0.1539,
	"loss/crossentropy": 2.0269722938537598,
	"loss/hidden": 0.14208984375,
	"loss/logits": 0.011817097198218107,
	"step": 252
	},
	{
	"epoch": 0.253,
	"grad_norm": 9.375,
	"grad_norm_var": 4.018281809488932,
	"learning_rate": 2e-05,
	"loss": 0.1661,
	"loss/crossentropy": 0.34899202920496464,
	"loss/hidden": 0.163818359375,
	"loss/logits": 0.0022718849941156805,
	"step": 253
	},
	{
	"epoch": 0.254,
	"grad_norm": 1.9921875,
	"grad_norm_var": 3.9798868815104167,
	"learning_rate": 2e-05,
	"loss": 0.1441,
	"loss/crossentropy": 2.2475985288619995,
	"loss/hidden": 0.1318359375,
	"loss/logits": 0.012224531266838312,
	"step": 254
	},
	{
	"epoch": 0.255,
	"grad_norm": 1.6328125,
	"grad_norm_var": 4.037050120035807,
	"learning_rate": 2e-05,
	"loss": 0.1497,
	"loss/crossentropy": 2.8270416259765625,
	"loss/hidden": 0.13623046875,
	"loss/logits": 0.013480226043611765,
	"step": 255
	},
	{
	"epoch": 0.256,
	"grad_norm": 1.4609375,
	"grad_norm_var": 4.07616958618164,
	"learning_rate": 2e-05,
	"loss": 0.1668,
	"loss/crossentropy": 1.3126854300498962,
	"loss/hidden": 0.15576171875,
	"loss/logits": 0.01107651786878705,
	"step": 256
	},
	{
	"epoch": 0.257,
	"grad_norm": 1.9140625,
	"grad_norm_var": 4.02563247680664,
	"learning_rate": 2e-05,
	"loss": 0.1502,
	"loss/crossentropy": 1.4198355078697205,
	"loss/hidden": 0.1396484375,
	"loss/logits": 0.01056258101016283,
	"step": 257
	},
	{
	"epoch": 0.258,
	"grad_norm": 1.3671875,
	"grad_norm_var": 4.081167602539063,
	"learning_rate": 2e-05,
	"loss": 0.1421,
	"loss/crossentropy": 1.657827377319336,
	"loss/hidden": 0.13232421875,
	"loss/logits": 0.009755304548889399,
	"step": 258
	},
	{
	"epoch": 0.259,
	"grad_norm": 1.75,
	"grad_norm_var": 4.025512440999349,
	"learning_rate": 2e-05,
	"loss": 0.1352,
	"loss/crossentropy": 2.3775731325149536,
	"loss/hidden": 0.12548828125,
	"loss/logits": 0.0096644451841712,
	"step": 259
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.40625,
	"grad_norm_var": 4.089703114827474,
	"learning_rate": 2e-05,
	"loss": 0.1442,
	"loss/crossentropy": 2.2461366653442383,
	"loss/hidden": 0.13232421875,
	"loss/logits": 0.011895926669239998,
	"step": 260
	},
	{
	"epoch": 0.261,
	"grad_norm": 2.578125,
	"grad_norm_var": 4.065040842692057,
	"learning_rate": 2e-05,
	"loss": 0.1474,
	"loss/crossentropy": 1.560776025056839,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.013578795362263918,
	"step": 261
	},
	{
	"epoch": 0.262,
	"grad_norm": 1.5390625,
	"grad_norm_var": 4.082124582926432,
	"learning_rate": 2e-05,
	"loss": 0.1556,
	"loss/crossentropy": 1.9976117014884949,
	"loss/hidden": 0.14404296875,
	"loss/logits": 0.011512083932757378,
	"step": 262
	},
	{
	"epoch": 0.263,
	"grad_norm": 1.6328125,
	"grad_norm_var": 4.018440755208333,
	"learning_rate": 2e-05,
	"loss": 0.1759,
	"loss/crossentropy": 1.705672264099121,
	"loss/hidden": 0.16162109375,
	"loss/logits": 0.014301342889666557,
	"step": 263
	},
	{
	"epoch": 0.264,
	"grad_norm": 1.765625,
	"grad_norm_var": 3.8464345296223956,
	"learning_rate": 2e-05,
	"loss": 0.1864,
	"loss/crossentropy": 1.7075408101081848,
	"loss/hidden": 0.171875,
	"loss/logits": 0.01456779520958662,
	"step": 264
	},
	{
	"epoch": 0.265,
	"grad_norm": 1.859375,
	"grad_norm_var": 3.86392822265625,
	"learning_rate": 2e-05,
	"loss": 0.1677,
	"loss/crossentropy": 2.094871759414673,
	"loss/hidden": 0.15380859375,
	"loss/logits": 0.013906504027545452,
	"step": 265
	},
	{
	"epoch": 0.266,
	"grad_norm": 2.578125,
	"grad_norm_var": 3.8542154947916667,
	"learning_rate": 2e-05,
	"loss": 0.1591,
	"loss/crossentropy": 2.166890859603882,
	"loss/hidden": 0.146484375,
	"loss/logits": 0.012606294360011816,
	"step": 266
	},
	{
	"epoch": 0.267,
	"grad_norm": 3.859375,
	"grad_norm_var": 3.885705312093099,
	"learning_rate": 2e-05,
	"loss": 0.1763,
	"loss/crossentropy": 1.674479365348816,
	"loss/hidden": 0.162109375,
	"loss/logits": 0.01416744152083993,
	"step": 267
	},
	{
	"epoch": 0.268,
	"grad_norm": 2.625,
	"grad_norm_var": 3.8142555236816404,
	"learning_rate": 2e-05,
	"loss": 0.2022,
	"loss/crossentropy": 1.0146620571613312,
	"loss/hidden": 0.1904296875,
	"loss/logits": 0.01172702293843031,
	"step": 268
	},
	{
	"epoch": 0.269,
	"grad_norm": 1.21875,
	"grad_norm_var": 0.4503334045410156,
	"learning_rate": 2e-05,
	"loss": 0.1457,
	"loss/crossentropy": 1.8024365305900574,
	"loss/hidden": 0.13427734375,
	"loss/logits": 0.011465264018625021,
	"step": 269
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.4296875,
	"grad_norm_var": 0.46684951782226564,
	"learning_rate": 2e-05,
	"loss": 0.161,
	"loss/crossentropy": 1.7421787977218628,
	"loss/hidden": 0.14892578125,
	"loss/logits": 0.012049074750393629,
	"step": 270
	},
	{
	"epoch": 0.271,
	"grad_norm": 2.21875,
	"grad_norm_var": 0.4663726806640625,
	"learning_rate": 2e-05,
	"loss": 0.1519,
	"loss/crossentropy": 1.1601504981517792,
	"loss/hidden": 0.14404296875,
	"loss/logits": 0.007814974524080753,
	"step": 271
	},
	{
	"epoch": 0.272,
	"grad_norm": 1.7421875,
	"grad_norm_var": 0.4529693603515625,
	"learning_rate": 2e-05,
	"loss": 0.1693,
	"loss/crossentropy": 1.9806629419326782,
	"loss/hidden": 0.15625,
	"loss/logits": 0.01302909990772605,
	"step": 272
	},
	{
	"epoch": 0.273,
	"grad_norm": 1.1796875,
	"grad_norm_var": 0.4919352213541667,
	"learning_rate": 2e-05,
	"loss": 0.1724,
	"loss/crossentropy": 2.005366265773773,
	"loss/hidden": 0.158203125,
	"loss/logits": 0.014153223484754562,
	"step": 273
	},
	{
	"epoch": 0.274,
	"grad_norm": 1.765625,
	"grad_norm_var": 0.4723894755045573,
	"learning_rate": 2e-05,
	"loss": 0.1808,
	"loss/crossentropy": 1.7814961075782776,
	"loss/hidden": 0.166015625,
	"loss/logits": 0.014784782659262419,
	"step": 274
	},
	{
	"epoch": 0.275,
	"grad_norm": 1.9921875,
	"grad_norm_var": 0.4697011311848958,
	"learning_rate": 2e-05,
	"loss": 0.1963,
	"loss/crossentropy": 1.5670437216758728,
	"loss/hidden": 0.1796875,
	"loss/logits": 0.016570267733186483,
	"step": 275
	},
	{
	"epoch": 0.276,
	"grad_norm": 1.4765625,
	"grad_norm_var": 0.464800771077474,
	"learning_rate": 2e-05,
	"loss": 0.1604,
	"loss/crossentropy": 2.009281039237976,
	"loss/hidden": 0.1494140625,
	"loss/logits": 0.010985464788973331,
	"step": 276
	},
	{
	"epoch": 0.277,
	"grad_norm": 1.4453125,
	"grad_norm_var": 0.45259501139322916,
	"learning_rate": 2e-05,
	"loss": 0.168,
	"loss/crossentropy": 1.7085555791854858,
	"loss/hidden": 0.15625,
	"loss/logits": 0.011709913145750761,
	"step": 277
	},
	{
	"epoch": 0.278,
	"grad_norm": 1.3828125,
	"grad_norm_var": 0.46154683430989585,
	"learning_rate": 2e-05,
	"loss": 0.1456,
	"loss/crossentropy": 2.789747476577759,
	"loss/hidden": 0.1337890625,
	"loss/logits": 0.011802888009697199,
	"step": 278
	},
	{
	"epoch": 0.279,
	"grad_norm": 1.859375,
	"grad_norm_var": 0.45711441040039064,
	"learning_rate": 2e-05,
	"loss": 0.1881,
	"loss/crossentropy": 1.5918955504894257,
	"loss/hidden": 0.173828125,
	"loss/logits": 0.014291070867329836,
	"step": 279
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.8125,
	"grad_norm_var": 0.5068682352701823,
	"learning_rate": 2e-05,
	"loss": 0.1458,
	"loss/crossentropy": 0.8236657343804836,
	"loss/hidden": 0.139404296875,
	"loss/logits": 0.00643135339487344,
	"step": 280
	},
	{
	"epoch": 0.281,
	"grad_norm": 4.125,
	"grad_norm_var": 0.7956764221191406,
	"learning_rate": 2e-05,
	"loss": 0.1714,
	"loss/crossentropy": 2.1279306411743164,
	"loss/hidden": 0.15625,
	"loss/logits": 0.015115040354430676,
	"step": 281
	},
	{
	"epoch": 0.282,
	"grad_norm": 1.296875,
	"grad_norm_var": 0.8177813212076823,
	"learning_rate": 2e-05,
	"loss": 0.1669,
	"loss/crossentropy": 2.2272568941116333,
	"loss/hidden": 0.1533203125,
	"loss/logits": 0.0135371801443398,
	"step": 282
	},
	{
	"epoch": 0.283,
	"grad_norm": 2.515625,
	"grad_norm_var": 0.6023089090983073,
	"learning_rate": 2e-05,
	"loss": 0.1781,
	"loss/crossentropy": 2.2013776302337646,
	"loss/hidden": 0.16259765625,
	"loss/logits": 0.015500886365771294,
	"step": 283
	},
	{
	"epoch": 0.284,
	"grad_norm": 1.96875,
	"grad_norm_var": 0.5695391337076823,
	"learning_rate": 2e-05,
	"loss": 0.1822,
	"loss/crossentropy": 1.6315099596977234,
	"loss/hidden": 0.1689453125,
	"loss/logits": 0.013229990843683481,
	"step": 284
	},
	{
	"epoch": 0.285,
	"grad_norm": 2.421875,
	"grad_norm_var": 0.550426991780599,
	"learning_rate": 2e-05,
	"loss": 0.1877,
	"loss/crossentropy": 1.329133152961731,
	"loss/hidden": 0.1748046875,
	"loss/logits": 0.012850106693804264,
	"step": 285
	},
	{
	"epoch": 0.286,
	"grad_norm": 2.78125,
	"grad_norm_var": 0.5659576416015625,
	"learning_rate": 2e-05,
	"loss": 0.1725,
	"loss/crossentropy": 2.0431485772132874,
	"loss/hidden": 0.15966796875,
	"loss/logits": 0.01284833624958992,
	"step": 286
	},
	{
	"epoch": 0.287,
	"grad_norm": 2.15625,
	"grad_norm_var": 0.5648915608723958,
	"learning_rate": 2e-05,
	"loss": 0.2173,
	"loss/crossentropy": 1.6292879581451416,
	"loss/hidden": 0.19970703125,
	"loss/logits": 0.017579292878508568,
	"step": 287
	},
	{
	"epoch": 0.288,
	"grad_norm": 1.4296875,
	"grad_norm_var": 0.5841379801432292,
	"learning_rate": 2e-05,
	"loss": 0.1632,
	"loss/crossentropy": 2.0630630254745483,
	"loss/hidden": 0.14990234375,
	"loss/logits": 0.013251845724880695,
	"step": 288
	},
	{
	"epoch": 0.289,
	"grad_norm": 1.8203125,
	"grad_norm_var": 0.5364664713541667,
	"learning_rate": 2e-05,
	"loss": 0.2067,
	"loss/crossentropy": 2.168562591075897,
	"loss/hidden": 0.18798828125,
	"loss/logits": 0.01867722487077117,
	"step": 289
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.21875,
	"grad_norm_var": 0.5779449462890625,
	"learning_rate": 2e-05,
	"loss": 0.166,
	"loss/crossentropy": 1.8953060507774353,
	"loss/hidden": 0.15380859375,
	"loss/logits": 0.01215141685679555,
	"step": 290
	},
	{
	"epoch": 0.291,
	"grad_norm": 1.7109375,
	"grad_norm_var": 0.5848297119140625,
	"learning_rate": 2e-05,
	"loss": 0.187,
	"loss/crossentropy": 1.6148796081542969,
	"loss/hidden": 0.173828125,
	"loss/logits": 0.013202093075960875,
	"step": 291
	},
	{
	"epoch": 0.292,
	"grad_norm": 1.6328125,
	"grad_norm_var": 0.5749013264973958,
	"learning_rate": 2e-05,
	"loss": 0.197,
	"loss/crossentropy": 1.7814635038375854,
	"loss/hidden": 0.1826171875,
	"loss/logits": 0.014429094269871712,
	"step": 292
	},
	{
	"epoch": 0.293,
	"grad_norm": 2.015625,
	"grad_norm_var": 0.5503028869628906,
	"learning_rate": 2e-05,
	"loss": 0.1814,
	"loss/crossentropy": 2.1830875873565674,
	"loss/hidden": 0.16748046875,
	"loss/logits": 0.013968405313789845,
	"step": 293
	},
	{
	"epoch": 0.294,
	"grad_norm": 1.7109375,
	"grad_norm_var": 0.5268898010253906,
	"learning_rate": 2e-05,
	"loss": 0.2098,
	"loss/crossentropy": 1.681401550769806,
	"loss/hidden": 0.19482421875,
	"loss/logits": 0.01494319923222065,
	"step": 294
	},
	{
	"epoch": 0.295,
	"grad_norm": 1.3046875,
	"grad_norm_var": 0.5633453369140625,
	"learning_rate": 2e-05,
	"loss": 0.1884,
	"loss/crossentropy": 1.953886091709137,
	"loss/hidden": 0.173828125,
	"loss/logits": 0.014602533541619778,
	"step": 295
	},
	{
	"epoch": 0.296,
	"grad_norm": 1.6875,
	"grad_norm_var": 0.5292144775390625,
	"learning_rate": 2e-05,
	"loss": 0.1987,
	"loss/crossentropy": 1.6944631338119507,
	"loss/hidden": 0.18603515625,
	"loss/logits": 0.012617598287761211,
	"step": 296
	},
	{
	"epoch": 0.297,
	"grad_norm": 1.8359375,
	"grad_norm_var": 0.20425999959309896,
	"learning_rate": 2e-05,
	"loss": 0.2261,
	"loss/crossentropy": 2.214042544364929,
	"loss/hidden": 0.205078125,
	"loss/logits": 0.020975200459361076,
	"step": 297
	},
	{
	"epoch": 0.298,
	"grad_norm": 1.1484375,
	"grad_norm_var": 0.2164703369140625,
	"learning_rate": 2e-05,
	"loss": 0.1842,
	"loss/crossentropy": 2.1237878799438477,
	"loss/hidden": 0.16943359375,
	"loss/logits": 0.014801782555878162,
	"step": 298
	},
	{
	"epoch": 0.299,
	"grad_norm": 1.4765625,
	"grad_norm_var": 0.18964818318684895,
	"learning_rate": 2e-05,
	"loss": 0.1814,
	"loss/crossentropy": 1.492847979068756,
	"loss/hidden": 0.16845703125,
	"loss/logits": 0.012967187445610762,
	"step": 299
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.890625,
	"grad_norm_var": 0.1879595438639323,
	"learning_rate": 2e-05,
	"loss": 0.1776,
	"loss/crossentropy": 2.2924291491508484,
	"loss/hidden": 0.16357421875,
	"loss/logits": 0.014043833129107952,
	"step": 300
	},
	{
	"epoch": 0.301,
	"grad_norm": 4.1875,
	"grad_norm_var": 0.5374061584472656,
	"learning_rate": 2e-05,
	"loss": 0.2062,
	"loss/crossentropy": 1.607342541217804,
	"loss/hidden": 0.18994140625,
	"loss/logits": 0.016273885034024715,
	"step": 301
	},
	{
	"epoch": 0.302,
	"grad_norm": 1.5859375,
	"grad_norm_var": 0.4823486328125,
	"learning_rate": 2e-05,
	"loss": 0.2143,
	"loss/crossentropy": 1.8559609055519104,
	"loss/hidden": 0.197265625,
	"loss/logits": 0.017047187313437462,
	"step": 302
	},
	{
	"epoch": 0.303,
	"grad_norm": 1.2265625,
	"grad_norm_var": 0.4923052469889323,
	"learning_rate": 2e-05,
	"loss": 0.1814,
	"loss/crossentropy": 2.4204115867614746,
	"loss/hidden": 0.16796875,
	"loss/logits": 0.013407074846327305,
	"step": 303
	},
	{
	"epoch": 0.304,
	"grad_norm": 2.15625,
	"grad_norm_var": 0.49497782389322914,
	"learning_rate": 2e-05,
	"loss": 0.2058,
	"loss/crossentropy": 1.7306669354438782,
	"loss/hidden": 0.189453125,
	"loss/logits": 0.016323519870638847,
	"step": 304
	},
	{
	"epoch": 0.305,
	"grad_norm": 1.6484375,
	"grad_norm_var": 0.4960856119791667,
	"learning_rate": 2e-05,
	"loss": 0.1877,
	"loss/crossentropy": 2.212082266807556,
	"loss/hidden": 0.171875,
	"loss/logits": 0.015811644960194826,
	"step": 305
	},
	{
	"epoch": 0.306,
	"grad_norm": 1.3046875,
	"grad_norm_var": 0.4901466369628906,
	"learning_rate": 2e-05,
	"loss": 0.1902,
	"loss/crossentropy": 1.9250993132591248,
	"loss/hidden": 0.17626953125,
	"loss/logits": 0.013882125727832317,
	"step": 306
	},
	{
	"epoch": 0.307,
	"grad_norm": 5.75,
	"grad_norm_var": 1.4711181640625,
	"learning_rate": 2e-05,
	"loss": 0.1934,
	"loss/crossentropy": 0.4879331737756729,
	"loss/hidden": 0.18701171875,
	"loss/logits": 0.006413323106244206,
	"step": 307
	},
	{
	"epoch": 0.308,
	"grad_norm": 3.046875,
	"grad_norm_var": 1.520232899983724,
	"learning_rate": 2e-05,
	"loss": 0.1973,
	"loss/crossentropy": 1.4504847526550293,
	"loss/hidden": 0.1875,
	"loss/logits": 0.009785078698769212,
	"step": 308
	},
	{
	"epoch": 0.309,
	"grad_norm": 1.40625,
	"grad_norm_var": 1.5522092183430989,
	"learning_rate": 2e-05,
	"loss": 0.2057,
	"loss/crossentropy": 2.149027943611145,
	"loss/hidden": 0.189453125,
	"loss/logits": 0.01620970480144024,
	"step": 309
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.7578125,
	"grad_norm_var": 1.550005849202474,
	"learning_rate": 2e-05,
	"loss": 0.2027,
	"loss/crossentropy": 2.1503273248672485,
	"loss/hidden": 0.185546875,
	"loss/logits": 0.01712088193744421,
	"step": 310
	},
	{
	"epoch": 0.311,
	"grad_norm": 1.4375,
	"grad_norm_var": 1.5372304280598958,
	"learning_rate": 2e-05,
	"loss": 0.1888,
	"loss/crossentropy": 2.1748342514038086,
	"loss/hidden": 0.17333984375,
	"loss/logits": 0.01546872965991497,
	"step": 311
	},
	{
	"epoch": 0.312,
	"grad_norm": 1.4921875,
	"grad_norm_var": 1.5502703348795572,
	"learning_rate": 2e-05,
	"loss": 0.2158,
	"loss/crossentropy": 1.3706732988357544,
	"loss/hidden": 0.20166015625,
	"loss/logits": 0.014161557890474796,
	"step": 312
	},
	{
	"epoch": 0.313,
	"grad_norm": 2.421875,
	"grad_norm_var": 1.5523111979166666,
	"learning_rate": 2e-05,
	"loss": 0.2021,
	"loss/crossentropy": 1.8907567262649536,
	"loss/hidden": 0.18701171875,
	"loss/logits": 0.015071831177920103,
	"step": 313
	},
	{
	"epoch": 0.314,
	"grad_norm": 1.296875,
	"grad_norm_var": 1.5344378153483074,
	"learning_rate": 2e-05,
	"loss": 0.201,
	"loss/crossentropy": 1.7888588905334473,
	"loss/hidden": 0.1875,
	"loss/logits": 0.013532605487853289,
	"step": 314
	},
	{
	"epoch": 0.315,
	"grad_norm": 1.5859375,
	"grad_norm_var": 1.5256507873535157,
	"learning_rate": 2e-05,
	"loss": 0.2166,
	"loss/crossentropy": 1.5358025133609772,
	"loss/hidden": 0.2021484375,
	"loss/logits": 0.014410331379622221,
	"step": 315
	},
	{
	"epoch": 0.316,
	"grad_norm": 56.0,
	"grad_norm_var": 182.73569310506184,
	"learning_rate": 2e-05,
	"loss": 0.2529,
	"loss/crossentropy": 2.1001065373420715,
	"loss/hidden": 0.234375,
	"loss/logits": 0.01847642147913575,
	"step": 316
	},
	{
	"epoch": 0.317,
	"grad_norm": 1.296875,
	"grad_norm_var": 183.77112401326497,
	"learning_rate": 2e-05,
	"loss": 0.1958,
	"loss/crossentropy": 2.3731868267059326,
	"loss/hidden": 0.1796875,
	"loss/logits": 0.01615766156464815,
	"step": 317
	},
	{
	"epoch": 0.318,
	"grad_norm": 1.53125,
	"grad_norm_var": 183.79867248535157,
	"learning_rate": 2e-05,
	"loss": 0.2212,
	"loss/crossentropy": 1.8716753125190735,
	"loss/hidden": 0.2041015625,
	"loss/logits": 0.017116894014179707,
	"step": 318
	},
	{
	"epoch": 0.319,
	"grad_norm": 1.9921875,
	"grad_norm_var": 183.41590983072916,
	"learning_rate": 2e-05,
	"loss": 0.1938,
	"loss/crossentropy": 1.2205194532871246,
	"loss/hidden": 0.18115234375,
	"loss/logits": 0.012608660385012627,
	"step": 319
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.203125,
	"grad_norm_var": 183.88273010253906,
	"learning_rate": 2e-05,
	"loss": 0.1822,
	"loss/crossentropy": 2.3611029386520386,
	"loss/hidden": 0.1689453125,
	"loss/logits": 0.013240456581115723,
	"step": 320
	},
	{
	"epoch": 0.321,
	"grad_norm": 1.3046875,
	"grad_norm_var": 184.05854390462238,
	"learning_rate": 2e-05,
	"loss": 0.193,
	"loss/crossentropy": 1.8402240872383118,
	"loss/hidden": 0.18017578125,
	"loss/logits": 0.012811433058232069,
	"step": 321
	},
	{
	"epoch": 0.322,
	"grad_norm": 1.3671875,
	"grad_norm_var": 184.02547912597657,
	"learning_rate": 2e-05,
	"loss": 0.2238,
	"loss/crossentropy": 1.9131136536598206,
	"loss/hidden": 0.20751953125,
	"loss/logits": 0.016317113302648067,
	"step": 322
	},
	{
	"epoch": 0.323,
	"grad_norm": 1.9765625,
	"grad_norm_var": 184.69184951782228,
	"learning_rate": 2e-05,
	"loss": 0.2509,
	"loss/crossentropy": 1.4010455012321472,
	"loss/hidden": 0.23193359375,
	"loss/logits": 0.018928353674709797,
	"step": 323
	},
	{
	"epoch": 0.324,
	"grad_norm": 2.234375,
	"grad_norm_var": 184.9522621154785,
	"learning_rate": 2e-05,
	"loss": 0.1929,
	"loss/crossentropy": 1.9659223556518555,
	"loss/hidden": 0.1796875,
	"loss/logits": 0.013216304127126932,
	"step": 324
	},
	{
	"epoch": 0.325,
	"grad_norm": 1.75,
	"grad_norm_var": 184.79406102498373,
	"learning_rate": 2e-05,
	"loss": 0.1877,
	"loss/crossentropy": 1.5221052765846252,
	"loss/hidden": 0.17626953125,
	"loss/logits": 0.011447824770584702,
	"step": 325
	},
	{
	"epoch": 0.326,
	"grad_norm": 1.5546875,
	"grad_norm_var": 184.88554662068685,
	"learning_rate": 2e-05,
	"loss": 0.2212,
	"loss/crossentropy": 2.06081086397171,
	"loss/hidden": 0.20361328125,
	"loss/logits": 0.017567144706845284,
	"step": 326
	},
	{
	"epoch": 0.327,
	"grad_norm": 3.578125,
	"grad_norm_var": 184.14719823201497,
	"learning_rate": 2e-05,
	"loss": 0.1707,
	"loss/crossentropy": 0.8908511102199554,
	"loss/hidden": 0.1640625,
	"loss/logits": 0.006589735276065767,
	"step": 327
	},
	{
	"epoch": 0.328,
	"grad_norm": 2.1875,
	"grad_norm_var": 183.83722737630208,
	"learning_rate": 2e-05,
	"loss": 0.2041,
	"loss/crossentropy": 1.4793621897697449,
	"loss/hidden": 0.19384765625,
	"loss/logits": 0.010210367618128657,
	"step": 328
	},
	{
	"epoch": 0.329,
	"grad_norm": 1.5703125,
	"grad_norm_var": 184.19855931599935,
	"learning_rate": 2e-05,
	"loss": 0.2174,
	"loss/crossentropy": 1.5629376769065857,
	"loss/hidden": 0.20166015625,
	"loss/logits": 0.015733799897134304,
	"step": 329
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.4609375,
	"grad_norm_var": 184.11591389973958,
	"learning_rate": 2e-05,
	"loss": 0.2297,
	"loss/crossentropy": 2.016783118247986,
	"loss/hidden": 0.2119140625,
	"loss/logits": 0.017778108827769756,
	"step": 330
	},
	{
	"epoch": 0.331,
	"grad_norm": 1.3671875,
	"grad_norm_var": 184.22320963541668,
	"learning_rate": 2e-05,
	"loss": 0.2183,
	"loss/crossentropy": 2.3946865797042847,
	"loss/hidden": 0.2001953125,
	"loss/logits": 0.01807898748666048,
	"step": 331
	},
	{
	"epoch": 0.332,
	"grad_norm": 1.234375,
	"grad_norm_var": 0.35546773274739585,
	"learning_rate": 2e-05,
	"loss": 0.2244,
	"loss/crossentropy": 1.6463975310325623,
	"loss/hidden": 0.2099609375,
	"loss/logits": 0.014466887805610895,
	"step": 332
	},
	{
	"epoch": 0.333,
	"grad_norm": 1.703125,
	"grad_norm_var": 0.34256083170572915,
	"learning_rate": 2e-05,
	"loss": 0.2653,
	"loss/crossentropy": 1.727737307548523,
	"loss/hidden": 0.24462890625,
	"loss/logits": 0.020694734528660774,
	"step": 333
	},
	{
	"epoch": 0.334,
	"grad_norm": 2.34375,
	"grad_norm_var": 0.36001688639322915,
	"learning_rate": 2e-05,
	"loss": 0.2636,
	"loss/crossentropy": 1.8381291031837463,
	"loss/hidden": 0.244140625,
	"loss/logits": 0.019478057511150837,
	"step": 334
	},
	{
	"epoch": 0.335,
	"grad_norm": 5.5,
	"grad_norm_var": 1.2181292215983073,
	"learning_rate": 2e-05,
	"loss": 0.2789,
	"loss/crossentropy": 1.395434319972992,
	"loss/hidden": 0.25732421875,
	"loss/logits": 0.02152822446078062,
	"step": 335
	},
	{
	"epoch": 0.336,
	"grad_norm": 1.7578125,
	"grad_norm_var": 1.1768707275390624,
	"learning_rate": 2e-05,
	"loss": 0.2301,
	"loss/crossentropy": 1.7802979946136475,
	"loss/hidden": 0.212890625,
	"loss/logits": 0.01717265695333481,
	"step": 336
	},
	{
	"epoch": 0.337,
	"grad_norm": 1.2265625,
	"grad_norm_var": 1.1850748697916667,
	"learning_rate": 2e-05,
	"loss": 0.2195,
	"loss/crossentropy": 1.864999234676361,
	"loss/hidden": 0.20361328125,
	"loss/logits": 0.015909720212221146,
	"step": 337
	},
	{
	"epoch": 0.338,
	"grad_norm": 1.5078125,
	"grad_norm_var": 1.1734934488932292,
	"learning_rate": 2e-05,
	"loss": 0.2322,
	"loss/crossentropy": 1.9171935319900513,
	"loss/hidden": 0.2138671875,
	"loss/logits": 0.01834118738770485,
	"step": 338
	},
	{
	"epoch": 0.339,
	"grad_norm": 1.7109375,
	"grad_norm_var": 1.1808430989583334,
	"learning_rate": 2e-05,
	"loss": 0.2546,
	"loss/crossentropy": 2.232408821582794,
	"loss/hidden": 0.23388671875,
	"loss/logits": 0.02068551816046238,
	"step": 339
	},
	{
	"epoch": 0.34,
	"grad_norm": 4.40625,
	"grad_norm_var": 1.531086222330729,
	"learning_rate": 2e-05,
	"loss": 0.2209,
	"loss/crossentropy": 0.885938722640276,
	"loss/hidden": 0.2138671875,
	"loss/logits": 0.0069831793662160635,
	"step": 340
	},
	{
	"epoch": 0.341,
	"grad_norm": 1.8046875,
	"grad_norm_var": 1.5281471252441405,
	"learning_rate": 2e-05,
	"loss": 0.274,
	"loss/crossentropy": 2.053671360015869,
	"loss/hidden": 0.25,
	"loss/logits": 0.024039674550294876,
	"step": 341
	},
	{
	"epoch": 0.342,
	"grad_norm": 1.4765625,
	"grad_norm_var": 1.535064442952474,
	"learning_rate": 2e-05,
	"loss": 0.248,
	"loss/crossentropy": 2.1628893613815308,
	"loss/hidden": 0.22900390625,
	"loss/logits": 0.01902489084750414,
	"step": 342
	},
	{
	"epoch": 0.343,
	"grad_norm": 1.6875,
	"grad_norm_var": 1.4053301493326822,
	"learning_rate": 2e-05,
	"loss": 0.2355,
	"loss/crossentropy": 1.9784727692604065,
	"loss/hidden": 0.216796875,
	"loss/logits": 0.018667724914848804,
	"step": 343
	},
	{
	"epoch": 0.344,
	"grad_norm": 1.9453125,
	"grad_norm_var": 1.4048492431640625,
	"learning_rate": 2e-05,
	"loss": 0.2215,
	"loss/crossentropy": 2.1430813670158386,
	"loss/hidden": 0.205078125,
	"loss/logits": 0.016372697427868843,
	"step": 344
	},
	{
	"epoch": 0.345,
	"grad_norm": 3.34375,
	"grad_norm_var": 1.489422353108724,
	"learning_rate": 2e-05,
	"loss": 0.2828,
	"loss/crossentropy": 1.4574592113494873,
	"loss/hidden": 0.259765625,
	"loss/logits": 0.02300189435482025,
	"step": 345
	},
	{
	"epoch": 0.346,
	"grad_norm": 4.59375,
	"grad_norm_var": 1.8130035400390625,
	"learning_rate": 2e-05,
	"loss": 0.2555,
	"loss/crossentropy": 2.1325125694274902,
	"loss/hidden": 0.234375,
	"loss/logits": 0.021130304783582687,
	"step": 346
	},
	{
	"epoch": 0.347,
	"grad_norm": 1.4453125,
	"grad_norm_var": 1.8031412760416667,
	"learning_rate": 2e-05,
	"loss": 0.233,
	"loss/crossentropy": 2.6941460371017456,
	"loss/hidden": 0.21435546875,
	"loss/logits": 0.01859632506966591,
	"step": 347
	},
	{
	"epoch": 0.348,
	"grad_norm": 1.6171875,
	"grad_norm_var": 1.755077870686849,
	"learning_rate": 2e-05,
	"loss": 0.2562,
	"loss/crossentropy": 1.8957814574241638,
	"loss/hidden": 0.236328125,
	"loss/logits": 0.019866405054926872,
	"step": 348
	},
	{
	"epoch": 0.349,
	"grad_norm": 1.953125,
	"grad_norm_var": 1.7364418029785156,
	"learning_rate": 2e-05,
	"loss": 0.2507,
	"loss/crossentropy": 2.5658878087997437,
	"loss/hidden": 0.2294921875,
	"loss/logits": 0.02118699811398983,
	"step": 349
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.890625,
	"grad_norm_var": 1.7523719787597656,
	"learning_rate": 2e-05,
	"loss": 0.233,
	"loss/crossentropy": 1.9111933708190918,
	"loss/hidden": 0.21533203125,
	"loss/logits": 0.01770856324583292,
	"step": 350
	},
	{
	"epoch": 0.351,
	"grad_norm": 2.625,
	"grad_norm_var": 1.0678749084472656,
	"learning_rate": 2e-05,
	"loss": 0.2712,
	"loss/crossentropy": 1.5525288581848145,
	"loss/hidden": 0.25244140625,
	"loss/logits": 0.01877846010029316,
	"step": 351
	},
	{
	"epoch": 0.352,
	"grad_norm": 1.671875,
	"grad_norm_var": 1.07325439453125,
	"learning_rate": 2e-05,
	"loss": 0.2398,
	"loss/crossentropy": 1.47780179977417,
	"loss/hidden": 0.224609375,
	"loss/logits": 0.015163760632276535,
	"step": 352
	},
	{
	"epoch": 0.353,
	"grad_norm": 1.40625,
	"grad_norm_var": 1.0523902893066406,
	"learning_rate": 2e-05,
	"loss": 0.2579,
	"loss/crossentropy": 1.6976242065429688,
	"loss/hidden": 0.240234375,
	"loss/logits": 0.01768268644809723,
	"step": 353
	},
	{
	"epoch": 0.354,
	"grad_norm": 1.375,
	"grad_norm_var": 1.065623982747396,
	"learning_rate": 2e-05,
	"loss": 0.2594,
	"loss/crossentropy": 1.5402989983558655,
	"loss/hidden": 0.24169921875,
	"loss/logits": 0.017742513678967953,
	"step": 354
	},
	{
	"epoch": 0.355,
	"grad_norm": 2.609375,
	"grad_norm_var": 1.0593360900878905,
	"learning_rate": 2e-05,
	"loss": 0.2983,
	"loss/crossentropy": 1.7891557812690735,
	"loss/hidden": 0.2744140625,
	"loss/logits": 0.023881751112639904,
	"step": 355
	},
	{
	"epoch": 0.356,
	"grad_norm": 1.5859375,
	"grad_norm_var": 0.7421427408854167,
	"learning_rate": 2e-05,
	"loss": 0.2353,
	"loss/crossentropy": 2.255465269088745,
	"loss/hidden": 0.2177734375,
	"loss/logits": 0.01755282748490572,
	"step": 356
	},
	{
	"epoch": 0.357,
	"grad_norm": 1.4375,
	"grad_norm_var": 0.763287099202474,
	"learning_rate": 2e-05,
	"loss": 0.2388,
	"loss/crossentropy": 2.2716734409332275,
	"loss/hidden": 0.22021484375,
	"loss/logits": 0.018602201715111732,
	"step": 357
	},
	{
	"epoch": 0.358,
	"grad_norm": 2.34375,
	"grad_norm_var": 0.7449666341145833,
	"learning_rate": 2e-05,
	"loss": 0.2737,
	"loss/crossentropy": 1.8382077813148499,
	"loss/hidden": 0.2548828125,
	"loss/logits": 0.018825003411620855,
	"step": 358
	},
	{
	"epoch": 0.359,
	"grad_norm": 1.5546875,
	"grad_norm_var": 0.7532976786295573,
	"learning_rate": 2e-05,
	"loss": 0.2391,
	"loss/crossentropy": 1.6230210661888123,
	"loss/hidden": 0.224609375,
	"loss/logits": 0.014487342443317175,
	"step": 359
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.421875,
	"grad_norm_var": 0.7803385416666667,
	"learning_rate": 2e-05,
	"loss": 0.2519,
	"loss/crossentropy": 1.6961406469345093,
	"loss/hidden": 0.234375,
	"loss/logits": 0.017499960027635098,
	"step": 360
	},
	{
	"epoch": 0.361,
	"grad_norm": 1.5703125,
	"grad_norm_var": 0.6720965067545573,
	"learning_rate": 2e-05,
	"loss": 0.2623,
	"loss/crossentropy": 2.1821005940437317,
	"loss/hidden": 0.24072265625,
	"loss/logits": 0.021556712687015533,
	"step": 361
	},
	{
	"epoch": 0.362,
	"grad_norm": 1.6484375,
	"grad_norm_var": 0.17363688151041667,
	"learning_rate": 2e-05,
	"loss": 0.2759,
	"loss/crossentropy": 1.7173206806182861,
	"loss/hidden": 0.255859375,
	"loss/logits": 0.020033356733620167,
	"step": 362
	},
	{
	"epoch": 0.363,
	"grad_norm": 1.5859375,
	"grad_norm_var": 0.16897684733072918,
	"learning_rate": 2e-05,
	"loss": 0.2552,
	"loss/crossentropy": 1.8281689882278442,
	"loss/hidden": 0.23681640625,
	"loss/logits": 0.018404729664325714,
	"step": 363
	},
	{
	"epoch": 0.364,
	"grad_norm": 1.3125,
	"grad_norm_var": 0.1809282938639323,
	"learning_rate": 2e-05,
	"loss": 0.2546,
	"loss/crossentropy": 2.181256651878357,
	"loss/hidden": 0.23486328125,
	"loss/logits": 0.01975287776440382,
	"step": 364
	},
	{
	"epoch": 0.365,
	"grad_norm": 3.796875,
	"grad_norm_var": 0.4434466044108073,
	"learning_rate": 2e-05,
	"loss": 0.2803,
	"loss/crossentropy": 1.4486916065216064,
	"loss/hidden": 0.2607421875,
	"loss/logits": 0.01950985286384821,
	"step": 365
	},
	{
	"epoch": 0.366,
	"grad_norm": 1.234375,
	"grad_norm_var": 0.4680987040201823,
	"learning_rate": 2e-05,
	"loss": 0.2504,
	"loss/crossentropy": 2.026048183441162,
	"loss/hidden": 0.232421875,
	"loss/logits": 0.017978372983634472,
	"step": 366
	},
	{
	"epoch": 0.367,
	"grad_norm": 4.3125,
	"grad_norm_var": 0.8263628641764323,
	"learning_rate": 2e-05,
	"loss": 0.2579,
	"loss/crossentropy": 1.4382375180721283,
	"loss/hidden": 0.2412109375,
	"loss/logits": 0.016655512619763613,
	"step": 367
	},
	{
	"epoch": 0.368,
	"grad_norm": 2.25,
	"grad_norm_var": 0.827416737874349,
	"learning_rate": 2e-05,
	"loss": 0.3072,
	"loss/crossentropy": 1.57509446144104,
	"loss/hidden": 0.2880859375,
	"loss/logits": 0.019162926822900772,
	"step": 368
	},
	{
	"epoch": 0.369,
	"grad_norm": 1.78125,
	"grad_norm_var": 0.808251698811849,
	"learning_rate": 2e-05,
	"loss": 0.2383,
	"loss/crossentropy": 2.0060970187187195,
	"loss/hidden": 0.22021484375,
	"loss/logits": 0.018060280941426754,
	"step": 369
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.546875,
	"grad_norm_var": 0.798180898030599,
	"learning_rate": 2e-05,
	"loss": 0.2523,
	"loss/crossentropy": 1.2137621641159058,
	"loss/hidden": 0.24072265625,
	"loss/logits": 0.011561613995581865,
	"step": 370
	},
	{
	"epoch": 0.371,
	"grad_norm": 1.703125,
	"grad_norm_var": 0.7833717346191407,
	"learning_rate": 2e-05,
	"loss": 0.2561,
	"loss/crossentropy": 1.764179289340973,
	"loss/hidden": 0.240234375,
	"loss/logits": 0.015869705006480217,
	"step": 371
	},
	{
	"epoch": 0.372,
	"grad_norm": 1.5625,
	"grad_norm_var": 0.784716796875,
	"learning_rate": 2e-05,
	"loss": 0.2642,
	"loss/crossentropy": 2.1394487619400024,
	"loss/hidden": 0.2451171875,
	"loss/logits": 0.01907090563327074,
	"step": 372
	},
	{
	"epoch": 0.373,
	"grad_norm": 1.9765625,
	"grad_norm_var": 0.7621681213378906,
	"learning_rate": 2e-05,
	"loss": 0.2496,
	"loss/crossentropy": 2.151320219039917,
	"loss/hidden": 0.23095703125,
	"loss/logits": 0.018605505116283894,
	"step": 373
	},
	{
	"epoch": 0.374,
	"grad_norm": 1.5234375,
	"grad_norm_var": 0.77073974609375,
	"learning_rate": 2e-05,
	"loss": 0.2426,
	"loss/crossentropy": 2.291616916656494,
	"loss/hidden": 0.2255859375,
	"loss/logits": 0.01696862932294607,
	"step": 374
	},
	{
	"epoch": 0.375,
	"grad_norm": 1.1640625,
	"grad_norm_var": 0.8027577718098958,
	"learning_rate": 2e-05,
	"loss": 0.2482,
	"loss/crossentropy": 2.1597548127174377,
	"loss/hidden": 0.228515625,
	"loss/logits": 0.019656311720609665,
	"step": 375
	},
	{
	"epoch": 0.376,
	"grad_norm": 4.5625,
	"grad_norm_var": 1.1930867513020833,
	"learning_rate": 2e-05,
	"loss": 0.2546,
	"loss/crossentropy": 0.7966546472162008,
	"loss/hidden": 0.24609375,
	"loss/logits": 0.008532016014214605,
	"step": 376
	},
	{
	"epoch": 0.377,
	"grad_norm": 1.25,
	"grad_norm_var": 1.2246070861816407,
	"learning_rate": 2e-05,
	"loss": 0.2394,
	"loss/crossentropy": 1.730500340461731,
	"loss/hidden": 0.22314453125,
	"loss/logits": 0.016217158176004887,
	"step": 377
	},
	{
	"epoch": 0.378,
	"grad_norm": 1.9453125,
	"grad_norm_var": 1.210729726155599,
	"learning_rate": 2e-05,
	"loss": 0.2672,
	"loss/crossentropy": 2.0575554966926575,
	"loss/hidden": 0.2470703125,
	"loss/logits": 0.02009457629173994,
	"step": 378
	},
	{
	"epoch": 0.379,
	"grad_norm": 4.15625,
	"grad_norm_var": 1.4280181884765626,
	"learning_rate": 2e-05,
	"loss": 0.3649,
	"loss/crossentropy": 2.409613251686096,
	"loss/hidden": 0.330078125,
	"loss/logits": 0.034814249724149704,
	"step": 379
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.34375,
	"grad_norm_var": 1.3563140869140624,
	"learning_rate": 2e-05,
	"loss": 0.2651,
	"loss/crossentropy": 1.4721761345863342,
	"loss/hidden": 0.2490234375,
	"loss/logits": 0.016095119062811136,
	"step": 380
	},
	{
	"epoch": 0.381,
	"grad_norm": 1.2265625,
	"grad_norm_var": 1.2842750549316406,
	"learning_rate": 2e-05,
	"loss": 0.2538,
	"loss/crossentropy": 2.51900315284729,
	"loss/hidden": 0.2314453125,
	"loss/logits": 0.022326381877064705,
	"step": 381
	},
	{
	"epoch": 0.382,
	"grad_norm": 2.234375,
	"grad_norm_var": 1.2151995340983073,
	"learning_rate": 2e-05,
	"loss": 0.2743,
	"loss/crossentropy": 2.030519187450409,
	"loss/hidden": 0.2548828125,
	"loss/logits": 0.01944338995963335,
	"step": 382
	},
	{
	"epoch": 0.383,
	"grad_norm": 3.859375,
	"grad_norm_var": 1.1054583231608073,
	"learning_rate": 2e-05,
	"loss": 0.3105,
	"loss/crossentropy": 0.7516276463866234,
	"loss/hidden": 0.2978515625,
	"loss/logits": 0.012636175146326423,
	"step": 383
	},
	{
	"epoch": 0.384,
	"grad_norm": 2.296875,
	"grad_norm_var": 1.1055620829264323,
	"learning_rate": 2e-05,
	"loss": 0.2867,
	"loss/crossentropy": 1.9317356944084167,
	"loss/hidden": 0.263671875,
	"loss/logits": 0.023075740784406662,
	"step": 384
	},
	{
	"epoch": 0.385,
	"grad_norm": 2.09375,
	"grad_norm_var": 1.0917884826660156,
	"learning_rate": 2e-05,
	"loss": 0.3261,
	"loss/crossentropy": 2.1155296564102173,
	"loss/hidden": 0.2998046875,
	"loss/logits": 0.02629261091351509,
	"step": 385
	},
	{
	"epoch": 0.386,
	"grad_norm": 1.7734375,
	"grad_norm_var": 1.1014312744140624,
	"learning_rate": 2e-05,
	"loss": 0.287,
	"loss/crossentropy": 2.1998232007026672,
	"loss/hidden": 0.265625,
	"loss/logits": 0.021336179226636887,
	"step": 386
	},
	{
	"epoch": 0.387,
	"grad_norm": 1.8671875,
	"grad_norm_var": 1.0915992736816407,
	"learning_rate": 2e-05,
	"loss": 0.2608,
	"loss/crossentropy": 1.9437836408615112,
	"loss/hidden": 0.2412109375,
	"loss/logits": 0.019607914611697197,
	"step": 387
	},
	{
	"epoch": 0.388,
	"grad_norm": 2.125,
	"grad_norm_var": 1.0605812072753906,
	"learning_rate": 2e-05,
	"loss": 0.2871,
	"loss/crossentropy": 1.7142232656478882,
	"loss/hidden": 0.2666015625,
	"loss/logits": 0.020461218431591988,
	"step": 388
	},
	{
	"epoch": 0.389,
	"grad_norm": 1.640625,
	"grad_norm_var": 1.0809977213541666,
	"learning_rate": 2e-05,
	"loss": 0.2863,
	"loss/crossentropy": 2.236941933631897,
	"loss/hidden": 0.2626953125,
	"loss/logits": 0.023648610338568687,
	"step": 389
	},
	{
	"epoch": 0.39,
	"grad_norm": 3.125,
	"grad_norm_var": 1.0853248596191407,
	"learning_rate": 2e-05,
	"loss": 0.2733,
	"loss/crossentropy": 1.2834028005599976,
	"loss/hidden": 0.2607421875,
	"loss/logits": 0.01257804874330759,
	"step": 390
	},
	{
	"epoch": 0.391,
	"grad_norm": 1.5,
	"grad_norm_var": 1.0390787760416667,
	"learning_rate": 2e-05,
	"loss": 0.3026,
	"loss/crossentropy": 1.5867803692817688,
	"loss/hidden": 0.2822265625,
	"loss/logits": 0.020396556705236435,
	"step": 391
	},
	{
	"epoch": 0.392,
	"grad_norm": 1.53125,
	"grad_norm_var": 0.7292439778645833,
	"learning_rate": 2e-05,
	"loss": 0.297,
	"loss/crossentropy": 1.4337636232376099,
	"loss/hidden": 0.2783203125,
	"loss/logits": 0.01866168435662985,
	"step": 392
	},
	{
	"epoch": 0.393,
	"grad_norm": 1.71875,
	"grad_norm_var": 0.6845052083333333,
	"learning_rate": 2e-05,
	"loss": 0.2642,
	"loss/crossentropy": 2.1386572122573853,
	"loss/hidden": 0.24462890625,
	"loss/logits": 0.019583708606660366,
	"step": 393
	},
	{
	"epoch": 0.394,
	"grad_norm": 2.9375,
	"grad_norm_var": 0.710375722249349,
	"learning_rate": 2e-05,
	"loss": 0.3313,
	"loss/crossentropy": 1.936402440071106,
	"loss/hidden": 0.3046875,
	"loss/logits": 0.026638174429535866,
	"step": 394
	},
	{
	"epoch": 0.395,
	"grad_norm": 1.8671875,
	"grad_norm_var": 0.4642567952473958,
	"learning_rate": 2e-05,
	"loss": 0.2699,
	"loss/crossentropy": 2.2741682529449463,
	"loss/hidden": 0.248046875,
	"loss/logits": 0.021812792867422104,
	"step": 395
	},
	{
	"epoch": 0.396,
	"grad_norm": 4.84375,
	"grad_norm_var": 0.9248687744140625,
	"learning_rate": 2e-05,
	"loss": 0.3035,
	"loss/crossentropy": 1.1322659850120544,
	"loss/hidden": 0.291015625,
	"loss/logits": 0.01252604997716844,
	"step": 396
	},
	{
	"epoch": 0.397,
	"grad_norm": 2.53125,
	"grad_norm_var": 0.8462562561035156,
	"learning_rate": 2e-05,
	"loss": 0.3108,
	"loss/crossentropy": 1.358659565448761,
	"loss/hidden": 0.2900390625,
	"loss/logits": 0.02074052207171917,
	"step": 397
	},
	{
	"epoch": 0.398,
	"grad_norm": 1.84375,
	"grad_norm_var": 0.862939198811849,
	"learning_rate": 2e-05,
	"loss": 0.3,
	"loss/crossentropy": 1.9806614518165588,
	"loss/hidden": 0.2783203125,
	"loss/logits": 0.02170161809772253,
	"step": 398
	},
	{
	"epoch": 0.399,
	"grad_norm": 1.9296875,
	"grad_norm_var": 0.706591796875,
	"learning_rate": 2e-05,
	"loss": 0.2984,
	"loss/crossentropy": 2.3857691287994385,
	"loss/hidden": 0.2744140625,
	"loss/logits": 0.023968273773789406,
	"step": 399
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.9140625,
	"grad_norm_var": 0.7121620178222656,
	"learning_rate": 2e-05,
	"loss": 0.2732,
	"loss/crossentropy": 2.006265163421631,
	"loss/hidden": 0.2509765625,
	"loss/logits": 0.02220850996673107,
	"step": 400
	},
	{
	"epoch": 0.401,
	"grad_norm": 1.8046875,
	"grad_norm_var": 0.7215810139973958,
	"learning_rate": 2e-05,
	"loss": 0.2935,
	"loss/crossentropy": 1.7221473455429077,
	"loss/hidden": 0.275390625,
	"loss/logits": 0.018067960627377033,
	"step": 401
	},
	{
	"epoch": 0.402,
	"grad_norm": 2.421875,
	"grad_norm_var": 0.7123146057128906,
	"learning_rate": 2e-05,
	"loss": 0.2923,
	"loss/crossentropy": 2.0756383538246155,
	"loss/hidden": 0.275390625,
	"loss/logits": 0.016928995959460735,
	"step": 402
	},
	{
	"epoch": 0.403,
	"grad_norm": 1.53125,
	"grad_norm_var": 0.7353993733723958,
	"learning_rate": 2e-05,
	"loss": 0.2972,
	"loss/crossentropy": 1.6683465242385864,
	"loss/hidden": 0.2783203125,
	"loss/logits": 0.018839839845895767,
	"step": 403
	},
	{
	"epoch": 0.404,
	"grad_norm": 1.8125,
	"grad_norm_var": 0.7447987874348958,
	"learning_rate": 2e-05,
	"loss": 0.2966,
	"loss/crossentropy": 1.737410545349121,
	"loss/hidden": 0.2763671875,
	"loss/logits": 0.02023144531995058,
	"step": 404
	},
	{
	"epoch": 0.405,
	"grad_norm": 1.3046875,
	"grad_norm_var": 0.7762163798014323,
	"learning_rate": 2e-05,
	"loss": 0.2855,
	"loss/crossentropy": 2.2183534502983093,
	"loss/hidden": 0.26513671875,
	"loss/logits": 0.02036190778017044,
	"step": 405
	},
	{
	"epoch": 0.406,
	"grad_norm": 1.5,
	"grad_norm_var": 0.7329465230305989,
	"learning_rate": 2e-05,
	"loss": 0.3193,
	"loss/crossentropy": 1.8786720633506775,
	"loss/hidden": 0.294921875,
	"loss/logits": 0.024385149590671062,
	"step": 406
	},
	{
	"epoch": 0.407,
	"grad_norm": 1.5,
	"grad_norm_var": 0.7329465230305989,
	"learning_rate": 2e-05,
	"loss": 0.3099,
	"loss/crossentropy": 1.8731706738471985,
	"loss/hidden": 0.2861328125,
	"loss/logits": 0.023721362464129925,
	"step": 407
	},
	{
	"epoch": 0.408,
	"grad_norm": 1.953125,
	"grad_norm_var": 0.714214833577474,
	"learning_rate": 2e-05,
	"loss": 0.2993,
	"loss/crossentropy": 2.0363497734069824,
	"loss/hidden": 0.2763671875,
	"loss/logits": 0.02292494662106037,
	"step": 408
	},
	{
	"epoch": 0.409,
	"grad_norm": 1.421875,
	"grad_norm_var": 0.7343544006347656,
	"learning_rate": 2e-05,
	"loss": 0.2919,
	"loss/crossentropy": 1.7596482038497925,
	"loss/hidden": 0.2705078125,
	"loss/logits": 0.021396052092313766,
	"step": 409
	},
	{
	"epoch": 0.41,
	"grad_norm": 2.84375,
	"grad_norm_var": 0.7240577697753906,
	"learning_rate": 2e-05,
	"loss": 0.3154,
	"loss/crossentropy": 1.080414205789566,
	"loss/hidden": 0.29736328125,
	"loss/logits": 0.018078335095196962,
	"step": 410
	},
	{
	"epoch": 0.411,
	"grad_norm": 1.5625,
	"grad_norm_var": 0.73785400390625,
	"learning_rate": 2e-05,
	"loss": 0.2928,
	"loss/crossentropy": 2.527972936630249,
	"loss/hidden": 0.26953125,
	"loss/logits": 0.02323300577700138,
	"step": 411
	},
	{
	"epoch": 0.412,
	"grad_norm": 1.5078125,
	"grad_norm_var": 0.18848851521809895,
	"learning_rate": 2e-05,
	"loss": 0.2989,
	"loss/crossentropy": 1.5808929204940796,
	"loss/hidden": 0.28125,
	"loss/logits": 0.01763766910880804,
	"step": 412
	},
	{
	"epoch": 0.413,
	"grad_norm": 1.6328125,
	"grad_norm_var": 0.1557037353515625,
	"learning_rate": 2e-05,
	"loss": 0.3052,
	"loss/crossentropy": 2.073564648628235,
	"loss/hidden": 0.2841796875,
	"loss/logits": 0.021017897874116898,
	"step": 413
	},
	{
	"epoch": 0.414,
	"grad_norm": 1.703125,
	"grad_norm_var": 0.15574951171875,
	"learning_rate": 2e-05,
	"loss": 0.3341,
	"loss/crossentropy": 1.5968445539474487,
	"loss/hidden": 0.310546875,
	"loss/logits": 0.023572119884192944,
	"step": 414
	},
	{
	"epoch": 0.415,
	"grad_norm": 1.65625,
	"grad_norm_var": 0.15465469360351564,
	"learning_rate": 2e-05,
	"loss": 0.3319,
	"loss/crossentropy": 2.13019335269928,
	"loss/hidden": 0.3037109375,
	"loss/logits": 0.028160166926681995,
	"step": 415
	},
	{
	"epoch": 0.416,
	"grad_norm": 1.8828125,
	"grad_norm_var": 0.15405044555664063,
	"learning_rate": 2e-05,
	"loss": 0.2928,
	"loss/crossentropy": 1.3558663129806519,
	"loss/hidden": 0.2744140625,
	"loss/logits": 0.018423012923449278,
	"step": 416
	},
	{
	"epoch": 0.417,
	"grad_norm": 2.15625,
	"grad_norm_var": 0.1642242431640625,
	"learning_rate": 2e-05,
	"loss": 0.3349,
	"loss/crossentropy": 1.556907832622528,
	"loss/hidden": 0.310546875,
	"loss/logits": 0.0243788855150342,
	"step": 417
	},
	{
	"epoch": 0.418,
	"grad_norm": 1.765625,
	"grad_norm_var": 0.1344879150390625,
	"learning_rate": 2e-05,
	"loss": 0.293,
	"loss/crossentropy": 2.18166720867157,
	"loss/hidden": 0.2705078125,
	"loss/logits": 0.022501694969832897,
	"step": 418
	},
	{
	"epoch": 0.419,
	"grad_norm": 5.0,
	"grad_norm_var": 0.7930084228515625,
	"learning_rate": 2e-05,
	"loss": 0.306,
	"loss/crossentropy": 1.875123679637909,
	"loss/hidden": 0.2841796875,
	"loss/logits": 0.021816120482981205,
	"step": 419
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.0,
	"grad_norm_var": 0.7917633056640625,
	"learning_rate": 2e-05,
	"loss": 0.3207,
	"loss/crossentropy": 2.1878353357315063,
	"loss/hidden": 0.29296875,
	"loss/logits": 0.027718784287571907,
	"step": 420
	},
	{
	"epoch": 0.421,
	"grad_norm": 2.5,
	"grad_norm_var": 0.7763160705566406,
	"learning_rate": 2e-05,
	"loss": 0.3106,
	"loss/crossentropy": 2.46438992023468,
	"loss/hidden": 0.2841796875,
	"loss/logits": 0.026430321857333183,
	"step": 421
	},
	{
	"epoch": 0.422,
	"grad_norm": 1.59375,
	"grad_norm_var": 0.7701576232910157,
	"learning_rate": 2e-05,
	"loss": 0.2847,
	"loss/crossentropy": 1.991809368133545,
	"loss/hidden": 0.265625,
	"loss/logits": 0.019083392806351185,
	"step": 422
	},
	{
	"epoch": 0.423,
	"grad_norm": 2.421875,
	"grad_norm_var": 0.7565935770670573,
	"learning_rate": 2e-05,
	"loss": 0.415,
	"loss/crossentropy": 1.6859049797058105,
	"loss/hidden": 0.3818359375,
	"loss/logits": 0.03313039615750313,
	"step": 423
	},
	{
	"epoch": 0.424,
	"grad_norm": 1.859375,
	"grad_norm_var": 0.7589800516764323,
	"learning_rate": 2e-05,
	"loss": 0.3098,
	"loss/crossentropy": 1.8961586952209473,
	"loss/hidden": 0.2900390625,
	"loss/logits": 0.019725864753127098,
	"step": 424
	},
	{
	"epoch": 0.425,
	"grad_norm": 1.6171875,
	"grad_norm_var": 0.7438547770182292,
	"learning_rate": 2e-05,
	"loss": 0.3427,
	"loss/crossentropy": 2.085192084312439,
	"loss/hidden": 0.31640625,
	"loss/logits": 0.026326753199100494,
	"step": 425
	},
	{
	"epoch": 0.426,
	"grad_norm": 2.078125,
	"grad_norm_var": 0.705224609375,
	"learning_rate": 2e-05,
	"loss": 0.3321,
	"loss/crossentropy": 1.912731111049652,
	"loss/hidden": 0.3076171875,
	"loss/logits": 0.02450721152126789,
	"step": 426
	},
	{
	"epoch": 0.427,
	"grad_norm": 1.8359375,
	"grad_norm_var": 0.6918108622233073,
	"learning_rate": 2e-05,
	"loss": 0.3396,
	"loss/crossentropy": 2.1176230907440186,
	"loss/hidden": 0.310546875,
	"loss/logits": 0.029072879813611507,
	"step": 427
	},
	{
	"epoch": 0.428,
	"grad_norm": 1.6015625,
	"grad_norm_var": 0.6852617899576823,
	"learning_rate": 2e-05,
	"loss": 0.318,
	"loss/crossentropy": 2.351975202560425,
	"loss/hidden": 0.291015625,
	"loss/logits": 0.026953624561429024,
	"step": 428
	},
	{
	"epoch": 0.429,
	"grad_norm": 2.3125,
	"grad_norm_var": 0.6734690348307292,
	"learning_rate": 2e-05,
	"loss": 0.4069,
	"loss/crossentropy": 1.6036078929901123,
	"loss/hidden": 0.37109375,
	"loss/logits": 0.03581710997968912,
	"step": 429
	},
	{
	"epoch": 0.43,
	"grad_norm": 2.46875,
	"grad_norm_var": 0.667138671875,
	"learning_rate": 2e-05,
	"loss": 0.3472,
	"loss/crossentropy": 1.881849765777588,
	"loss/hidden": 0.3232421875,
	"loss/logits": 0.023961665108799934,
	"step": 430
	},
	{
	"epoch": 0.431,
	"grad_norm": 3.625,
	"grad_norm_var": 0.77403564453125,
	"learning_rate": 2e-05,
	"loss": 0.3121,
	"loss/crossentropy": 2.3671000599861145,
	"loss/hidden": 0.2900390625,
	"loss/logits": 0.022101588547229767,
	"step": 431
	},
	{
	"epoch": 0.432,
	"grad_norm": 2.4375,
	"grad_norm_var": 0.7627866109212239,
	"learning_rate": 2e-05,
	"loss": 0.3151,
	"loss/crossentropy": 1.1575224101543427,
	"loss/hidden": 0.298828125,
	"loss/logits": 0.016257786191999912,
	"step": 432
	},
	{
	"epoch": 0.433,
	"grad_norm": 5.40625,
	"grad_norm_var": 1.3478289286295573,
	"learning_rate": 2e-05,
	"loss": 0.3283,
	"loss/crossentropy": 1.3821857124567032,
	"loss/hidden": 0.3115234375,
	"loss/logits": 0.016785149462521076,
	"step": 433
	},
	{
	"epoch": 0.434,
	"grad_norm": 2.140625,
	"grad_norm_var": 1.3182634989420572,
	"learning_rate": 2e-05,
	"loss": 0.3499,
	"loss/crossentropy": 1.4704007506370544,
	"loss/hidden": 0.326171875,
	"loss/logits": 0.02373607736080885,
	"step": 434
	},
	{
	"epoch": 0.435,
	"grad_norm": 1.7890625,
	"grad_norm_var": 0.9163736979166667,
	"learning_rate": 2e-05,
	"loss": 0.3453,
	"loss/crossentropy": 1.7521992325782776,
	"loss/hidden": 0.322265625,
	"loss/logits": 0.023045840673148632,
	"step": 435
	},
	{
	"epoch": 0.436,
	"grad_norm": 2.203125,
	"grad_norm_var": 0.9093251546223958,
	"learning_rate": 2e-05,
	"loss": 0.3079,
	"loss/crossentropy": 1.4147529304027557,
	"loss/hidden": 0.2919921875,
	"loss/logits": 0.01587154157459736,
	"step": 436
	},
	{
	"epoch": 0.437,
	"grad_norm": 1.78125,
	"grad_norm_var": 0.9289784749348958,
	"learning_rate": 2e-05,
	"loss": 0.3572,
	"loss/crossentropy": 2.1589527130126953,
	"loss/hidden": 0.330078125,
	"loss/logits": 0.027110325172543526,
	"step": 437
	},
	{
	"epoch": 0.438,
	"grad_norm": 1.546875,
	"grad_norm_var": 0.9336751302083334,
	"learning_rate": 2e-05,
	"loss": 0.3112,
	"loss/crossentropy": 2.0695826411247253,
	"loss/hidden": 0.2890625,
	"loss/logits": 0.022175450809299946,
	"step": 438
	},
	{
	"epoch": 0.439,
	"grad_norm": 8.6875,
	"grad_norm_var": 3.472150675455729,
	"learning_rate": 2e-05,
	"loss": 0.3174,
	"loss/crossentropy": 2.715834140777588,
	"loss/hidden": 0.2919921875,
	"loss/logits": 0.02542768605053425,
	"step": 439
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.0625,
	"grad_norm_var": 3.4516398111979165,
	"learning_rate": 2e-05,
	"loss": 0.3531,
	"loss/crossentropy": 2.089130699634552,
	"loss/hidden": 0.326171875,
	"loss/logits": 0.026951050385832787,
	"step": 440
	},
	{
	"epoch": 0.441,
	"grad_norm": 5.6875,
	"grad_norm_var": 3.8860979715983075,
	"learning_rate": 2e-05,
	"loss": 0.352,
	"loss/crossentropy": 1.6687681376934052,
	"loss/hidden": 0.3330078125,
	"loss/logits": 0.018973306752741337,
	"step": 441
	},
	{
	"epoch": 0.442,
	"grad_norm": 1.6953125,
	"grad_norm_var": 3.941239420572917,
	"learning_rate": 2e-05,
	"loss": 0.354,
	"loss/crossentropy": 1.4019538760185242,
	"loss/hidden": 0.33203125,
	"loss/logits": 0.021962410770356655,
	"step": 442
	},
	{
	"epoch": 0.443,
	"grad_norm": 2.453125,
	"grad_norm_var": 3.8729509989420574,
	"learning_rate": 2e-05,
	"loss": 0.3591,
	"loss/crossentropy": 2.068819046020508,
	"loss/hidden": 0.328125,
	"loss/logits": 0.03100405167788267,
	"step": 443
	},
	{
	"epoch": 0.444,
	"grad_norm": 2.625,
	"grad_norm_var": 3.7484527587890626,
	"learning_rate": 2e-05,
	"loss": 0.3207,
	"loss/crossentropy": 1.2215966582298279,
	"loss/hidden": 0.306640625,
	"loss/logits": 0.014033652492798865,
	"step": 444
	},
	{
	"epoch": 0.445,
	"grad_norm": 2.796875,
	"grad_norm_var": 3.7149943033854167,
	"learning_rate": 2e-05,
	"loss": 0.2843,
	"loss/crossentropy": 0.8393277078866959,
	"loss/hidden": 0.2734375,
	"loss/logits": 0.010860613780096173,
	"step": 445
	},
	{
	"epoch": 0.446,
	"grad_norm": 3.6875,
	"grad_norm_var": 3.7072184244791666,
	"learning_rate": 2e-05,
	"loss": 0.3369,
	"loss/crossentropy": 0.8106656819581985,
	"loss/hidden": 0.32421875,
	"loss/logits": 0.01267361780628562,
	"step": 446
	},
	{
	"epoch": 0.447,
	"grad_norm": 4.28125,
	"grad_norm_var": 3.774466959635417,
	"learning_rate": 2e-05,
	"loss": 0.3246,
	"loss/crossentropy": 1.0552468746900558,
	"loss/hidden": 0.3095703125,
	"loss/logits": 0.015042064245790243,
	"step": 447
	},
	{
	"epoch": 0.448,
	"grad_norm": 2.734375,
	"grad_norm_var": 3.749592081705729,
	"learning_rate": 2e-05,
	"loss": 0.3734,
	"loss/crossentropy": 2.4344149827957153,
	"loss/hidden": 0.3427734375,
	"loss/logits": 0.030597456730902195,
	"step": 448
	},
	{
	"epoch": 0.449,
	"grad_norm": 3.984375,
	"grad_norm_var": 3.4621622721354166,
	"learning_rate": 2e-05,
	"loss": 0.3036,
	"loss/crossentropy": 1.054320715367794,
	"loss/hidden": 0.28857421875,
	"loss/logits": 0.014980267733335495,
	"step": 449
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.8359375,
	"grad_norm_var": 3.5083513895670575,
	"learning_rate": 2e-05,
	"loss": 0.3366,
	"loss/crossentropy": 2.0155181288719177,
	"loss/hidden": 0.310546875,
	"loss/logits": 0.02600990142673254,
	"step": 450
	},
	{
	"epoch": 0.451,
	"grad_norm": 2.0,
	"grad_norm_var": 3.4738199869791666,
	"learning_rate": 2e-05,
	"loss": 0.3511,
	"loss/crossentropy": 1.755088448524475,
	"loss/hidden": 0.3271484375,
	"loss/logits": 0.023935355246067047,
	"step": 451
	},
	{
	"epoch": 0.452,
	"grad_norm": 2.046875,
	"grad_norm_var": 3.4946329752604166,
	"learning_rate": 2e-05,
	"loss": 0.3499,
	"loss/crossentropy": 1.7622599005699158,
	"loss/hidden": 0.326171875,
	"loss/logits": 0.023745747283101082,
	"step": 452
	},
	{
	"epoch": 0.453,
	"grad_norm": 1.7890625,
	"grad_norm_var": 3.4932431538899738,
	"learning_rate": 2e-05,
	"loss": 0.3215,
	"loss/crossentropy": 2.3116530179977417,
	"loss/hidden": 0.298828125,
	"loss/logits": 0.022703303024172783,
	"step": 453
	},
	{
	"epoch": 0.454,
	"grad_norm": 1.6875,
	"grad_norm_var": 3.464989980061849,
	"learning_rate": 2e-05,
	"loss": 0.3673,
	"loss/crossentropy": 1.5556917786598206,
	"loss/hidden": 0.3408203125,
	"loss/logits": 0.026494111865758896,
	"step": 454
	},
	{
	"epoch": 0.455,
	"grad_norm": 2.0,
	"grad_norm_var": 1.3033078511555989,
	"learning_rate": 2e-05,
	"loss": 0.3715,
	"loss/crossentropy": 1.7844219207763672,
	"loss/hidden": 0.345703125,
	"loss/logits": 0.02580021321773529,
	"step": 455
	},
	{
	"epoch": 0.456,
	"grad_norm": 2.53125,
	"grad_norm_var": 1.2765439351399739,
	"learning_rate": 2e-05,
	"loss": 0.448,
	"loss/crossentropy": 1.2347650527954102,
	"loss/hidden": 0.4150390625,
	"loss/logits": 0.0329879354685545,
	"step": 456
	},
	{
	"epoch": 0.457,
	"grad_norm": 1.4375,
	"grad_norm_var": 0.7350563049316406,
	"learning_rate": 2e-05,
	"loss": 0.3455,
	"loss/crossentropy": 1.9715585112571716,
	"loss/hidden": 0.318359375,
	"loss/logits": 0.02718514297157526,
	"step": 457
	},
	{
	"epoch": 0.458,
	"grad_norm": 1.5859375,
	"grad_norm_var": 0.7471616109212239,
	"learning_rate": 2e-05,
	"loss": 0.3339,
	"loss/crossentropy": 2.389525294303894,
	"loss/hidden": 0.30859375,
	"loss/logits": 0.025292156264185905,
	"step": 458
	},
	{
	"epoch": 0.459,
	"grad_norm": 1.4921875,
	"grad_norm_var": 0.8066884358723958,
	"learning_rate": 2e-05,
	"loss": 0.3166,
	"loss/crossentropy": 1.7892733812332153,
	"loss/hidden": 0.29296875,
	"loss/logits": 0.023592060431838036,
	"step": 459
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.8125,
	"grad_norm_var": 0.8243560791015625,
	"learning_rate": 2e-05,
	"loss": 0.3353,
	"loss/crossentropy": 1.9092342853546143,
	"loss/hidden": 0.3115234375,
	"loss/logits": 0.02376522123813629,
	"step": 460
	},
	{
	"epoch": 0.461,
	"grad_norm": 1.34375,
	"grad_norm_var": 0.87099609375,
	"learning_rate": 2e-05,
	"loss": 0.349,
	"loss/crossentropy": 1.9013403058052063,
	"loss/hidden": 0.3251953125,
	"loss/logits": 0.02381738182157278,
	"step": 461
	},
	{
	"epoch": 0.462,
	"grad_norm": 2.9375,
	"grad_norm_var": 0.76396484375,
	"learning_rate": 2e-05,
	"loss": 0.3492,
	"loss/crossentropy": 0.9097070023417473,
	"loss/hidden": 0.330078125,
	"loss/logits": 0.01913693710230291,
	"step": 462
	},
	{
	"epoch": 0.463,
	"grad_norm": 2.828125,
	"grad_norm_var": 0.4963287353515625,
	"learning_rate": 2e-05,
	"loss": 0.4669,
	"loss/crossentropy": 1.9413211345672607,
	"loss/hidden": 0.427734375,
	"loss/logits": 0.03912976011633873,
	"step": 463
	},
	{
	"epoch": 0.464,
	"grad_norm": 1.9296875,
	"grad_norm_var": 0.47173233032226564,
	"learning_rate": 2e-05,
	"loss": 0.3569,
	"loss/crossentropy": 2.3746496438980103,
	"loss/hidden": 0.326171875,
	"loss/logits": 0.030762989073991776,
	"step": 464
	},
	{
	"epoch": 0.465,
	"grad_norm": 1.796875,
	"grad_norm_var": 0.21467259724934895,
	"learning_rate": 2e-05,
	"loss": 0.3875,
	"loss/crossentropy": 1.920172929763794,
	"loss/hidden": 0.359375,
	"loss/logits": 0.028154666535556316,
	"step": 465
	},
	{
	"epoch": 0.466,
	"grad_norm": 2.59375,
	"grad_norm_var": 0.23995768229166667,
	"learning_rate": 2e-05,
	"loss": 0.4173,
	"loss/crossentropy": 2.1804317831993103,
	"loss/hidden": 0.3828125,
	"loss/logits": 0.03448019549250603,
	"step": 466
	},
	{
	"epoch": 0.467,
	"grad_norm": 2.453125,
	"grad_norm_var": 0.25349833170572916,
	"learning_rate": 2e-05,
	"loss": 0.3635,
	"loss/crossentropy": 2.1129865646362305,
	"loss/hidden": 0.3369140625,
	"loss/logits": 0.026613284833729267,
	"step": 467
	},
	{
	"epoch": 0.468,
	"grad_norm": 3.4375,
	"grad_norm_var": 0.37997639973958336,
	"learning_rate": 2e-05,
	"loss": 0.3892,
	"loss/crossentropy": 1.6438812613487244,
	"loss/hidden": 0.3623046875,
	"loss/logits": 0.026910429820418358,
	"step": 468
	},
	{
	"epoch": 0.469,
	"grad_norm": 13.125,
	"grad_norm_var": 7.936161041259766,
	"learning_rate": 2e-05,
	"loss": 0.4187,
	"loss/crossentropy": 1.8062403798103333,
	"loss/hidden": 0.3857421875,
	"loss/logits": 0.03291827440261841,
	"step": 469
	},
	{
	"epoch": 0.47,
	"grad_norm": 3.421875,
	"grad_norm_var": 7.8641212463378904,
	"learning_rate": 2e-05,
	"loss": 0.4157,
	"loss/crossentropy": 1.2208881378173828,
	"loss/hidden": 0.39453125,
	"loss/logits": 0.02117818035185337,
	"step": 470
	},
	{
	"epoch": 0.471,
	"grad_norm": 1.953125,
	"grad_norm_var": 7.8700111389160154,
	"learning_rate": 2e-05,
	"loss": 0.3306,
	"loss/crossentropy": 2.474324107170105,
	"loss/hidden": 0.3037109375,
	"loss/logits": 0.026909410022199154,
	"step": 471
	},
	{
	"epoch": 0.472,
	"grad_norm": 2.796875,
	"grad_norm_var": 7.860741933186849,
	"learning_rate": 2e-05,
	"loss": 0.4071,
	"loss/crossentropy": 1.8907885551452637,
	"loss/hidden": 0.3740234375,
	"loss/logits": 0.03311134688556194,
	"step": 472
	},
	{
	"epoch": 0.473,
	"grad_norm": 5.40625,
	"grad_norm_var": 8.053236643473307,
	"learning_rate": 2e-05,
	"loss": 0.482,
	"loss/crossentropy": 1.851112186908722,
	"loss/hidden": 0.4287109375,
	"loss/logits": 0.0532735763117671,
	"step": 473
	},
	{
	"epoch": 0.474,
	"grad_norm": 1.8125,
	"grad_norm_var": 8.008226521809895,
	"learning_rate": 2e-05,
	"loss": 0.4011,
	"loss/crossentropy": 2.0893144607543945,
	"loss/hidden": 0.37109375,
	"loss/logits": 0.03000558167695999,
	"step": 474
	},
	{
	"epoch": 0.475,
	"grad_norm": 1.84375,
	"grad_norm_var": 7.936071523030599,
	"learning_rate": 2e-05,
	"loss": 0.4086,
	"loss/crossentropy": 1.692557156085968,
	"loss/hidden": 0.37890625,
	"loss/logits": 0.029658248648047447,
	"step": 475
	},
	{
	"epoch": 0.476,
	"grad_norm": 1.734375,
	"grad_norm_var": 7.9510963439941404,
	"learning_rate": 2e-05,
	"loss": 0.3369,
	"loss/crossentropy": 2.7231298685073853,
	"loss/hidden": 0.3095703125,
	"loss/logits": 0.027365448884665966,
	"step": 476
	},
	{
	"epoch": 0.477,
	"grad_norm": 122.5,
	"grad_norm_var": 895.1761065165202,
	"learning_rate": 2e-05,
	"loss": 1.8739,
	"loss/crossentropy": 1.9931391477584839,
	"loss/hidden": 1.73828125,
	"loss/logits": 0.13565433584153652,
	"step": 477
	},
	{
	"epoch": 0.478,
	"grad_norm": 18.75,
	"grad_norm_var": 894.2567990620931,
	"learning_rate": 2e-05,
	"loss": 0.4467,
	"loss/crossentropy": 1.0818050801753998,
	"loss/hidden": 0.423828125,
	"loss/logits": 0.022886332124471664,
	"step": 478
	},
	{
	"epoch": 0.479,
	"grad_norm": 1.9609375,
	"grad_norm_var": 895.3381581624349,
	"learning_rate": 2e-05,
	"loss": 0.3744,
	"loss/crossentropy": 2.382234215736389,
	"loss/hidden": 0.3447265625,
	"loss/logits": 0.029717115685343742,
	"step": 479
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.71875,
	"grad_norm_var": 895.6162839253743,
	"learning_rate": 2e-05,
	"loss": 0.3323,
	"loss/crossentropy": 2.0683305859565735,
	"loss/hidden": 0.30859375,
	"loss/logits": 0.023680799640715122,
	"step": 480
	},
	{
	"epoch": 0.481,
	"grad_norm": 2.546875,
	"grad_norm_var": 894.6604733784993,
	"learning_rate": 2e-05,
	"loss": 0.3756,
	"loss/crossentropy": 2.154377818107605,
	"loss/hidden": 0.34765625,
	"loss/logits": 0.02795298583805561,
	"step": 481
	},
	{
	"epoch": 0.482,
	"grad_norm": 3.1875,
	"grad_norm_var": 893.9573666890462,
	"learning_rate": 2e-05,
	"loss": 0.4124,
	"loss/crossentropy": 1.9701088666915894,
	"loss/hidden": 0.3779296875,
	"loss/logits": 0.03451960347592831,
	"step": 482
	},
	{
	"epoch": 0.483,
	"grad_norm": 2.5,
	"grad_norm_var": 893.8991452534993,
	"learning_rate": 2e-05,
	"loss": 0.4523,
	"loss/crossentropy": 0.9486123919487,
	"loss/hidden": 0.4306640625,
	"loss/logits": 0.02167674619704485,
	"step": 483
	},
	{
	"epoch": 0.484,
	"grad_norm": 2.578125,
	"grad_norm_var": 894.9027565002441,
	"learning_rate": 2e-05,
	"loss": 0.3955,
	"loss/crossentropy": 1.7118502855300903,
	"loss/hidden": 0.365234375,
	"loss/logits": 0.030311796814203262,
	"step": 484
	},
	{
	"epoch": 0.485,
	"grad_norm": 1.890625,
	"grad_norm_var": 900.7159604390462,
	"learning_rate": 2e-05,
	"loss": 0.3914,
	"loss/crossentropy": 1.7511045932769775,
	"loss/hidden": 0.36328125,
	"loss/logits": 0.02810109406709671,
	"step": 485
	},
	{
	"epoch": 0.486,
	"grad_norm": 2.203125,
	"grad_norm_var": 902.0463498433431,
	"learning_rate": 2e-05,
	"loss": 0.3893,
	"loss/crossentropy": 1.9742628931999207,
	"loss/hidden": 0.3603515625,
	"loss/logits": 0.028935128822922707,
	"step": 486
	},
	{
	"epoch": 0.487,
	"grad_norm": 2.609375,
	"grad_norm_var": 901.28504002889,
	"learning_rate": 2e-05,
	"loss": 0.338,
	"loss/crossentropy": 1.5944682955741882,
	"loss/hidden": 0.31640625,
	"loss/logits": 0.02155130822211504,
	"step": 487
	},
	{
	"epoch": 0.488,
	"grad_norm": 2.0,
	"grad_norm_var": 902.1965695699056,
	"learning_rate": 2e-05,
	"loss": 0.3749,
	"loss/crossentropy": 2.109809994697571,
	"loss/hidden": 0.3486328125,
	"loss/logits": 0.026237317360937595,
	"step": 488
	},
	{
	"epoch": 0.489,
	"grad_norm": 2.828125,
	"grad_norm_var": 904.5185605367025,
	"learning_rate": 2e-05,
	"loss": 0.3601,
	"loss/crossentropy": 2.371906280517578,
	"loss/hidden": 0.33203125,
	"loss/logits": 0.0280781090259552,
	"step": 489
	},
	{
	"epoch": 0.49,
	"grad_norm": 2.25,
	"grad_norm_var": 904.0067481994629,
	"learning_rate": 2e-05,
	"loss": 0.3881,
	"loss/crossentropy": 2.3074965476989746,
	"loss/hidden": 0.3583984375,
	"loss/logits": 0.029700559563934803,
	"step": 490
	},
	{
	"epoch": 0.491,
	"grad_norm": 1.609375,
	"grad_norm_var": 904.2906532287598,
	"learning_rate": 2e-05,
	"loss": 0.3533,
	"loss/crossentropy": 2.0604811906814575,
	"loss/hidden": 0.3271484375,
	"loss/logits": 0.026149596087634563,
	"step": 491
	},
	{
	"epoch": 0.492,
	"grad_norm": 2.203125,
	"grad_norm_var": 903.7375221252441,
	"learning_rate": 2e-05,
	"loss": 0.3982,
	"loss/crossentropy": 2.0394086837768555,
	"loss/hidden": 0.3671875,
	"loss/logits": 0.030979415401816368,
	"step": 492
	},
	{
	"epoch": 0.493,
	"grad_norm": 1.53125,
	"grad_norm_var": 17.239774322509767,
	"learning_rate": 2e-05,
	"loss": 0.3721,
	"loss/crossentropy": 1.992867350578308,
	"loss/hidden": 0.3447265625,
	"loss/logits": 0.02732760366052389,
	"step": 493
	},
	{
	"epoch": 0.494,
	"grad_norm": 1.5,
	"grad_norm_var": 0.24021377563476562,
	"learning_rate": 2e-05,
	"loss": 0.3607,
	"loss/crossentropy": 2.0647668838500977,
	"loss/hidden": 0.3349609375,
	"loss/logits": 0.02573198452591896,
	"step": 494
	},
	{
	"epoch": 0.495,
	"grad_norm": 3.265625,
	"grad_norm_var": 0.3059153238932292,
	"learning_rate": 2e-05,
	"loss": 0.4332,
	"loss/crossentropy": 2.0061678886413574,
	"loss/hidden": 0.4033203125,
	"loss/logits": 0.029847824946045876,
	"step": 495
	},
	{
	"epoch": 0.496,
	"grad_norm": 1.671875,
	"grad_norm_var": 0.30953776041666664,
	"learning_rate": 2e-05,
	"loss": 0.3677,
	"loss/crossentropy": 2.029963493347168,
	"loss/hidden": 0.3408203125,
	"loss/logits": 0.026841914281249046,
	"step": 496
	},
	{
	"epoch": 0.497,
	"grad_norm": 2.1875,
	"grad_norm_var": 0.3045074462890625,
	"learning_rate": 2e-05,
	"loss": 0.3773,
	"loss/crossentropy": 1.836094081401825,
	"loss/hidden": 0.3505859375,
	"loss/logits": 0.026703315787017345,
	"step": 497
	},
	{
	"epoch": 0.498,
	"grad_norm": 1.8984375,
	"grad_norm_var": 0.24739761352539064,
	"learning_rate": 2e-05,
	"loss": 0.3934,
	"loss/crossentropy": 2.284022331237793,
	"loss/hidden": 0.36328125,
	"loss/logits": 0.030102317221462727,
	"step": 498
	},
	{
	"epoch": 0.499,
	"grad_norm": 1.609375,
	"grad_norm_var": 0.25783462524414064,
	"learning_rate": 2e-05,
	"loss": 0.422,
	"loss/crossentropy": 1.7640503644943237,
	"loss/hidden": 0.388671875,
	"loss/logits": 0.03330034948885441,
	"step": 499
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.40625,
	"grad_norm_var": 0.2490618387858073,
	"learning_rate": 2e-05,
	"loss": 0.4409,
	"loss/crossentropy": 1.4432637095451355,
	"loss/hidden": 0.4130859375,
	"loss/logits": 0.027862844988703728,
	"step": 500
	}
	],
	"logging_steps": 1,
	"max_steps": 1000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": true,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.2202930782208e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}