PaperPrediction-ALL-4B-ba / trainer_state.json

Upload folder using huggingface_hub

26eccac verified 7 months ago

295 kB

	{
	"best_global_step": 1800,
	"best_metric": 0.74,
	"best_model_checkpoint": "/mnt/parscratch/users/acr24wz/etu/topcon/qwen3_4B/cpt_model/balanced/finetuned/all/checkpoint-1800",
	"epoch": 2.0642662458757712,
	"eval_steps": 100,
	"global_step": 1800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0011476115334959117,
	"grad_norm": 201.0,
	"learning_rate": 0.0,
	"loss": 18.5701,
	"step": 1
	},
	{
	"epoch": 0.0022952230669918234,
	"grad_norm": 1392.0,
	"learning_rate": 4.587155963302753e-08,
	"loss": 12.0441,
	"step": 2
	},
	{
	"epoch": 0.0034428346004877347,
	"grad_norm": 161.0,
	"learning_rate": 9.174311926605506e-08,
	"loss": 14.3223,
	"step": 3
	},
	{
	"epoch": 0.004590446133983647,
	"grad_norm": 150.0,
	"learning_rate": 1.376146788990826e-07,
	"loss": 10.3759,
	"step": 4
	},
	{
	"epoch": 0.005738057667479558,
	"grad_norm": 141.0,
	"learning_rate": 1.8348623853211012e-07,
	"loss": 11.4624,
	"step": 5
	},
	{
	"epoch": 0.006885669200975469,
	"grad_norm": 159.0,
	"learning_rate": 2.2935779816513764e-07,
	"loss": 10.5127,
	"step": 6
	},
	{
	"epoch": 0.008033280734471382,
	"grad_norm": 166.0,
	"learning_rate": 2.752293577981652e-07,
	"loss": 15.7339,
	"step": 7
	},
	{
	"epoch": 0.009180892267967294,
	"grad_norm": 310.0,
	"learning_rate": 3.211009174311927e-07,
	"loss": 21.2237,
	"step": 8
	},
	{
	"epoch": 0.010328503801463204,
	"grad_norm": 153.0,
	"learning_rate": 3.6697247706422023e-07,
	"loss": 11.4438,
	"step": 9
	},
	{
	"epoch": 0.011476115334959116,
	"grad_norm": 146.0,
	"learning_rate": 4.128440366972478e-07,
	"loss": 14.27,
	"step": 10
	},
	{
	"epoch": 0.012623726868455028,
	"grad_norm": 185.0,
	"learning_rate": 4.587155963302753e-07,
	"loss": 17.4331,
	"step": 11
	},
	{
	"epoch": 0.013771338401950939,
	"grad_norm": 157.0,
	"learning_rate": 5.045871559633028e-07,
	"loss": 16.0972,
	"step": 12
	},
	{
	"epoch": 0.014918949935446851,
	"grad_norm": 146.0,
	"learning_rate": 5.504587155963304e-07,
	"loss": 10.9198,
	"step": 13
	},
	{
	"epoch": 0.016066561468942763,
	"grad_norm": 194.0,
	"learning_rate": 5.963302752293579e-07,
	"loss": 14.1635,
	"step": 14
	},
	{
	"epoch": 0.017214173002438674,
	"grad_norm": 162.0,
	"learning_rate": 6.422018348623854e-07,
	"loss": 11.853,
	"step": 15
	},
	{
	"epoch": 0.018361784535934587,
	"grad_norm": 160.0,
	"learning_rate": 6.880733944954129e-07,
	"loss": 12.7435,
	"step": 16
	},
	{
	"epoch": 0.019509396069430498,
	"grad_norm": 158.0,
	"learning_rate": 7.339449541284405e-07,
	"loss": 11.8396,
	"step": 17
	},
	{
	"epoch": 0.020657007602926408,
	"grad_norm": 165.0,
	"learning_rate": 7.79816513761468e-07,
	"loss": 11.5206,
	"step": 18
	},
	{
	"epoch": 0.021804619136422322,
	"grad_norm": 177.0,
	"learning_rate": 8.256880733944956e-07,
	"loss": 11.5111,
	"step": 19
	},
	{
	"epoch": 0.022952230669918233,
	"grad_norm": 157.0,
	"learning_rate": 8.71559633027523e-07,
	"loss": 14.7131,
	"step": 20
	},
	{
	"epoch": 0.024099842203414143,
	"grad_norm": 172.0,
	"learning_rate": 9.174311926605506e-07,
	"loss": 11.1313,
	"step": 21
	},
	{
	"epoch": 0.025247453736910057,
	"grad_norm": 194.0,
	"learning_rate": 9.633027522935782e-07,
	"loss": 16.6221,
	"step": 22
	},
	{
	"epoch": 0.026395065270405967,
	"grad_norm": 268.0,
	"learning_rate": 1.0091743119266057e-06,
	"loss": 15.6201,
	"step": 23
	},
	{
	"epoch": 0.027542676803901878,
	"grad_norm": 218.0,
	"learning_rate": 1.055045871559633e-06,
	"loss": 11.6275,
	"step": 24
	},
	{
	"epoch": 0.02869028833739779,
	"grad_norm": 158.0,
	"learning_rate": 1.1009174311926608e-06,
	"loss": 15.5678,
	"step": 25
	},
	{
	"epoch": 0.029837899870893702,
	"grad_norm": 236.0,
	"learning_rate": 1.1467889908256882e-06,
	"loss": 15.4133,
	"step": 26
	},
	{
	"epoch": 0.030985511404389616,
	"grad_norm": 131.0,
	"learning_rate": 1.1926605504587159e-06,
	"loss": 12.6406,
	"step": 27
	},
	{
	"epoch": 0.032133122937885526,
	"grad_norm": 139.0,
	"learning_rate": 1.2385321100917433e-06,
	"loss": 15.0131,
	"step": 28
	},
	{
	"epoch": 0.03328073447138144,
	"grad_norm": 150.0,
	"learning_rate": 1.2844036697247707e-06,
	"loss": 13.4583,
	"step": 29
	},
	{
	"epoch": 0.03442834600487735,
	"grad_norm": 166.0,
	"learning_rate": 1.3302752293577984e-06,
	"loss": 15.6894,
	"step": 30
	},
	{
	"epoch": 0.03557595753837326,
	"grad_norm": 168.0,
	"learning_rate": 1.3761467889908258e-06,
	"loss": 13.8435,
	"step": 31
	},
	{
	"epoch": 0.036723569071869175,
	"grad_norm": 191.0,
	"learning_rate": 1.4220183486238535e-06,
	"loss": 8.6607,
	"step": 32
	},
	{
	"epoch": 0.03787118060536508,
	"grad_norm": 140.0,
	"learning_rate": 1.467889908256881e-06,
	"loss": 12.4132,
	"step": 33
	},
	{
	"epoch": 0.039018792138860996,
	"grad_norm": 201.0,
	"learning_rate": 1.5137614678899084e-06,
	"loss": 13.8843,
	"step": 34
	},
	{
	"epoch": 0.04016640367235691,
	"grad_norm": 164.0,
	"learning_rate": 1.559633027522936e-06,
	"loss": 15.1008,
	"step": 35
	},
	{
	"epoch": 0.041314015205852817,
	"grad_norm": 284.0,
	"learning_rate": 1.6055045871559635e-06,
	"loss": 21.6636,
	"step": 36
	},
	{
	"epoch": 0.04246162673934873,
	"grad_norm": 394.0,
	"learning_rate": 1.6513761467889911e-06,
	"loss": 14.0359,
	"step": 37
	},
	{
	"epoch": 0.043609238272844644,
	"grad_norm": 161.0,
	"learning_rate": 1.6972477064220186e-06,
	"loss": 13.4677,
	"step": 38
	},
	{
	"epoch": 0.04475684980634055,
	"grad_norm": 164.0,
	"learning_rate": 1.743119266055046e-06,
	"loss": 8.3447,
	"step": 39
	},
	{
	"epoch": 0.045904461339836465,
	"grad_norm": 148.0,
	"learning_rate": 1.7889908256880737e-06,
	"loss": 6.5679,
	"step": 40
	},
	{
	"epoch": 0.04705207287333238,
	"grad_norm": 168.0,
	"learning_rate": 1.8348623853211011e-06,
	"loss": 15.6762,
	"step": 41
	},
	{
	"epoch": 0.048199684406828286,
	"grad_norm": 164.0,
	"learning_rate": 1.8807339449541288e-06,
	"loss": 6.2052,
	"step": 42
	},
	{
	"epoch": 0.0493472959403242,
	"grad_norm": 103.5,
	"learning_rate": 1.9266055045871564e-06,
	"loss": 8.8464,
	"step": 43
	},
	{
	"epoch": 0.050494907473820114,
	"grad_norm": 372.0,
	"learning_rate": 1.9724770642201837e-06,
	"loss": 15.5934,
	"step": 44
	},
	{
	"epoch": 0.05164251900731602,
	"grad_norm": 210.0,
	"learning_rate": 2.0183486238532113e-06,
	"loss": 11.6431,
	"step": 45
	},
	{
	"epoch": 0.052790130540811935,
	"grad_norm": 125.5,
	"learning_rate": 2.064220183486239e-06,
	"loss": 8.5935,
	"step": 46
	},
	{
	"epoch": 0.05393774207430785,
	"grad_norm": 102.5,
	"learning_rate": 2.110091743119266e-06,
	"loss": 9.1192,
	"step": 47
	},
	{
	"epoch": 0.055085353607803755,
	"grad_norm": 143.0,
	"learning_rate": 2.155963302752294e-06,
	"loss": 8.8696,
	"step": 48
	},
	{
	"epoch": 0.05623296514129967,
	"grad_norm": 137.0,
	"learning_rate": 2.2018348623853215e-06,
	"loss": 11.2497,
	"step": 49
	},
	{
	"epoch": 0.05738057667479558,
	"grad_norm": 129.0,
	"learning_rate": 2.2477064220183487e-06,
	"loss": 11.6115,
	"step": 50
	},
	{
	"epoch": 0.05852818820829149,
	"grad_norm": 149.0,
	"learning_rate": 2.2935779816513764e-06,
	"loss": 13.9466,
	"step": 51
	},
	{
	"epoch": 0.059675799741787404,
	"grad_norm": 120.5,
	"learning_rate": 2.339449541284404e-06,
	"loss": 9.2116,
	"step": 52
	},
	{
	"epoch": 0.06082341127528332,
	"grad_norm": 240.0,
	"learning_rate": 2.3853211009174317e-06,
	"loss": 21.5138,
	"step": 53
	},
	{
	"epoch": 0.06197102280877923,
	"grad_norm": 112.0,
	"learning_rate": 2.431192660550459e-06,
	"loss": 9.7849,
	"step": 54
	},
	{
	"epoch": 0.06311863434227515,
	"grad_norm": 135.0,
	"learning_rate": 2.4770642201834866e-06,
	"loss": 12.795,
	"step": 55
	},
	{
	"epoch": 0.06426624587577105,
	"grad_norm": 222.0,
	"learning_rate": 2.522935779816514e-06,
	"loss": 15.822,
	"step": 56
	},
	{
	"epoch": 0.06541385740926696,
	"grad_norm": 137.0,
	"learning_rate": 2.5688073394495415e-06,
	"loss": 14.4134,
	"step": 57
	},
	{
	"epoch": 0.06656146894276288,
	"grad_norm": 100.0,
	"learning_rate": 2.6146788990825687e-06,
	"loss": 10.1907,
	"step": 58
	},
	{
	"epoch": 0.06770908047625879,
	"grad_norm": 154.0,
	"learning_rate": 2.6605504587155968e-06,
	"loss": 14.2824,
	"step": 59
	},
	{
	"epoch": 0.0688566920097547,
	"grad_norm": 109.0,
	"learning_rate": 2.706422018348624e-06,
	"loss": 8.6855,
	"step": 60
	},
	{
	"epoch": 0.07000430354325061,
	"grad_norm": 198.0,
	"learning_rate": 2.7522935779816517e-06,
	"loss": 14.2233,
	"step": 61
	},
	{
	"epoch": 0.07115191507674652,
	"grad_norm": 134.0,
	"learning_rate": 2.798165137614679e-06,
	"loss": 11.8776,
	"step": 62
	},
	{
	"epoch": 0.07229952661024243,
	"grad_norm": 112.5,
	"learning_rate": 2.844036697247707e-06,
	"loss": 9.321,
	"step": 63
	},
	{
	"epoch": 0.07344713814373835,
	"grad_norm": 118.0,
	"learning_rate": 2.8899082568807342e-06,
	"loss": 10.727,
	"step": 64
	},
	{
	"epoch": 0.07459474967723426,
	"grad_norm": 167.0,
	"learning_rate": 2.935779816513762e-06,
	"loss": 13.9879,
	"step": 65
	},
	{
	"epoch": 0.07574236121073016,
	"grad_norm": 100.0,
	"learning_rate": 2.981651376146789e-06,
	"loss": 7.9334,
	"step": 66
	},
	{
	"epoch": 0.07688997274422608,
	"grad_norm": 153.0,
	"learning_rate": 3.0275229357798168e-06,
	"loss": 14.9343,
	"step": 67
	},
	{
	"epoch": 0.07803758427772199,
	"grad_norm": 119.0,
	"learning_rate": 3.073394495412844e-06,
	"loss": 8.6676,
	"step": 68
	},
	{
	"epoch": 0.0791851958112179,
	"grad_norm": 117.5,
	"learning_rate": 3.119266055045872e-06,
	"loss": 10.101,
	"step": 69
	},
	{
	"epoch": 0.08033280734471382,
	"grad_norm": 85.5,
	"learning_rate": 3.1651376146788993e-06,
	"loss": 7.5899,
	"step": 70
	},
	{
	"epoch": 0.08148041887820973,
	"grad_norm": 174.0,
	"learning_rate": 3.211009174311927e-06,
	"loss": 15.9673,
	"step": 71
	},
	{
	"epoch": 0.08262803041170563,
	"grad_norm": 221.0,
	"learning_rate": 3.256880733944954e-06,
	"loss": 14.1455,
	"step": 72
	},
	{
	"epoch": 0.08377564194520155,
	"grad_norm": 172.0,
	"learning_rate": 3.3027522935779823e-06,
	"loss": 15.9228,
	"step": 73
	},
	{
	"epoch": 0.08492325347869746,
	"grad_norm": 144.0,
	"learning_rate": 3.3486238532110095e-06,
	"loss": 12.6043,
	"step": 74
	},
	{
	"epoch": 0.08607086501219337,
	"grad_norm": 118.5,
	"learning_rate": 3.394495412844037e-06,
	"loss": 9.2068,
	"step": 75
	},
	{
	"epoch": 0.08721847654568929,
	"grad_norm": 147.0,
	"learning_rate": 3.4403669724770644e-06,
	"loss": 11.8722,
	"step": 76
	},
	{
	"epoch": 0.0883660880791852,
	"grad_norm": 119.5,
	"learning_rate": 3.486238532110092e-06,
	"loss": 10.4207,
	"step": 77
	},
	{
	"epoch": 0.0895136996126811,
	"grad_norm": 170.0,
	"learning_rate": 3.5321100917431193e-06,
	"loss": 14.4936,
	"step": 78
	},
	{
	"epoch": 0.09066131114617702,
	"grad_norm": 183.0,
	"learning_rate": 3.5779816513761473e-06,
	"loss": 14.2192,
	"step": 79
	},
	{
	"epoch": 0.09180892267967293,
	"grad_norm": 128.0,
	"learning_rate": 3.6238532110091746e-06,
	"loss": 12.4628,
	"step": 80
	},
	{
	"epoch": 0.09295653421316884,
	"grad_norm": 100.0,
	"learning_rate": 3.6697247706422022e-06,
	"loss": 5.9004,
	"step": 81
	},
	{
	"epoch": 0.09410414574666476,
	"grad_norm": 163.0,
	"learning_rate": 3.7155963302752295e-06,
	"loss": 12.766,
	"step": 82
	},
	{
	"epoch": 0.09525175728016066,
	"grad_norm": 202.0,
	"learning_rate": 3.7614678899082575e-06,
	"loss": 14.3118,
	"step": 83
	},
	{
	"epoch": 0.09639936881365657,
	"grad_norm": 314.0,
	"learning_rate": 3.8073394495412848e-06,
	"loss": 12.7559,
	"step": 84
	},
	{
	"epoch": 0.09754698034715249,
	"grad_norm": 100.0,
	"learning_rate": 3.853211009174313e-06,
	"loss": 7.6448,
	"step": 85
	},
	{
	"epoch": 0.0986945918806484,
	"grad_norm": 135.0,
	"learning_rate": 3.89908256880734e-06,
	"loss": 11.1222,
	"step": 86
	},
	{
	"epoch": 0.0998422034141443,
	"grad_norm": 176.0,
	"learning_rate": 3.944954128440367e-06,
	"loss": 11.0153,
	"step": 87
	},
	{
	"epoch": 0.10098981494764023,
	"grad_norm": 130.0,
	"learning_rate": 3.9908256880733945e-06,
	"loss": 11.3109,
	"step": 88
	},
	{
	"epoch": 0.10213742648113613,
	"grad_norm": 176.0,
	"learning_rate": 4.036697247706423e-06,
	"loss": 11.3729,
	"step": 89
	},
	{
	"epoch": 0.10328503801463204,
	"grad_norm": 132.0,
	"learning_rate": 4.08256880733945e-06,
	"loss": 10.5579,
	"step": 90
	},
	{
	"epoch": 0.10443264954812796,
	"grad_norm": 126.0,
	"learning_rate": 4.128440366972478e-06,
	"loss": 9.2442,
	"step": 91
	},
	{
	"epoch": 0.10558026108162387,
	"grad_norm": 151.0,
	"learning_rate": 4.174311926605505e-06,
	"loss": 13.6998,
	"step": 92
	},
	{
	"epoch": 0.10672787261511978,
	"grad_norm": 99.5,
	"learning_rate": 4.220183486238532e-06,
	"loss": 8.6871,
	"step": 93
	},
	{
	"epoch": 0.1078754841486157,
	"grad_norm": 128.0,
	"learning_rate": 4.26605504587156e-06,
	"loss": 8.4919,
	"step": 94
	},
	{
	"epoch": 0.1090230956821116,
	"grad_norm": 132.0,
	"learning_rate": 4.311926605504588e-06,
	"loss": 8.9568,
	"step": 95
	},
	{
	"epoch": 0.11017070721560751,
	"grad_norm": 135.0,
	"learning_rate": 4.357798165137615e-06,
	"loss": 11.2536,
	"step": 96
	},
	{
	"epoch": 0.11131831874910343,
	"grad_norm": 141.0,
	"learning_rate": 4.403669724770643e-06,
	"loss": 10.4686,
	"step": 97
	},
	{
	"epoch": 0.11246593028259934,
	"grad_norm": 78.5,
	"learning_rate": 4.44954128440367e-06,
	"loss": 4.7855,
	"step": 98
	},
	{
	"epoch": 0.11361354181609525,
	"grad_norm": 126.5,
	"learning_rate": 4.4954128440366975e-06,
	"loss": 8.6237,
	"step": 99
	},
	{
	"epoch": 0.11476115334959117,
	"grad_norm": 104.5,
	"learning_rate": 4.541284403669725e-06,
	"loss": 6.5662,
	"step": 100
	},
	{
	"epoch": 0.11476115334959117,
	"eval_accuracy": 0.46,
	"eval_loss": 10.765486717224121,
	"eval_runtime": 49.6485,
	"eval_samples_per_second": 2.014,
	"eval_steps_per_second": 2.014,
	"step": 100
	},
	{
	"epoch": 0.11590876488308707,
	"grad_norm": 103.0,
	"learning_rate": 4.587155963302753e-06,
	"loss": 6.5649,
	"step": 101
	},
	{
	"epoch": 0.11705637641658298,
	"grad_norm": 144.0,
	"learning_rate": 4.63302752293578e-06,
	"loss": 8.2535,
	"step": 102
	},
	{
	"epoch": 0.1182039879500789,
	"grad_norm": 135.0,
	"learning_rate": 4.678899082568808e-06,
	"loss": 11.0001,
	"step": 103
	},
	{
	"epoch": 0.11935159948357481,
	"grad_norm": 109.0,
	"learning_rate": 4.724770642201835e-06,
	"loss": 8.2321,
	"step": 104
	},
	{
	"epoch": 0.12049921101707071,
	"grad_norm": 134.0,
	"learning_rate": 4.770642201834863e-06,
	"loss": 10.8236,
	"step": 105
	},
	{
	"epoch": 0.12164682255056664,
	"grad_norm": 133.0,
	"learning_rate": 4.816513761467891e-06,
	"loss": 10.03,
	"step": 106
	},
	{
	"epoch": 0.12279443408406254,
	"grad_norm": 148.0,
	"learning_rate": 4.862385321100918e-06,
	"loss": 13.1908,
	"step": 107
	},
	{
	"epoch": 0.12394204561755846,
	"grad_norm": 64.0,
	"learning_rate": 4.908256880733945e-06,
	"loss": 3.6086,
	"step": 108
	},
	{
	"epoch": 0.12508965715105436,
	"grad_norm": 139.0,
	"learning_rate": 4.954128440366973e-06,
	"loss": 10.9146,
	"step": 109
	},
	{
	"epoch": 0.1262372686845503,
	"grad_norm": 100.5,
	"learning_rate": 5e-06,
	"loss": 7.6266,
	"step": 110
	},
	{
	"epoch": 0.1273848802180462,
	"grad_norm": 102.0,
	"learning_rate": 5.045871559633028e-06,
	"loss": 8.3553,
	"step": 111
	},
	{
	"epoch": 0.1285324917515421,
	"grad_norm": 145.0,
	"learning_rate": 5.091743119266055e-06,
	"loss": 8.7646,
	"step": 112
	},
	{
	"epoch": 0.129680103285038,
	"grad_norm": 178.0,
	"learning_rate": 5.137614678899083e-06,
	"loss": 12.6374,
	"step": 113
	},
	{
	"epoch": 0.13082771481853392,
	"grad_norm": 91.5,
	"learning_rate": 5.18348623853211e-06,
	"loss": 5.8455,
	"step": 114
	},
	{
	"epoch": 0.13197532635202983,
	"grad_norm": 122.0,
	"learning_rate": 5.229357798165137e-06,
	"loss": 9.7438,
	"step": 115
	},
	{
	"epoch": 0.13312293788552576,
	"grad_norm": 192.0,
	"learning_rate": 5.275229357798165e-06,
	"loss": 9.9915,
	"step": 116
	},
	{
	"epoch": 0.13427054941902167,
	"grad_norm": 108.0,
	"learning_rate": 5.3211009174311936e-06,
	"loss": 7.6686,
	"step": 117
	},
	{
	"epoch": 0.13541816095251757,
	"grad_norm": 153.0,
	"learning_rate": 5.366972477064221e-06,
	"loss": 10.4111,
	"step": 118
	},
	{
	"epoch": 0.13656577248601348,
	"grad_norm": 139.0,
	"learning_rate": 5.412844036697248e-06,
	"loss": 6.46,
	"step": 119
	},
	{
	"epoch": 0.1377133840195094,
	"grad_norm": 79.0,
	"learning_rate": 5.458715596330275e-06,
	"loss": 5.2337,
	"step": 120
	},
	{
	"epoch": 0.1388609955530053,
	"grad_norm": 114.5,
	"learning_rate": 5.504587155963303e-06,
	"loss": 5.2836,
	"step": 121
	},
	{
	"epoch": 0.14000860708650123,
	"grad_norm": 99.5,
	"learning_rate": 5.5504587155963306e-06,
	"loss": 7.6412,
	"step": 122
	},
	{
	"epoch": 0.14115621861999714,
	"grad_norm": 147.0,
	"learning_rate": 5.596330275229358e-06,
	"loss": 9.4328,
	"step": 123
	},
	{
	"epoch": 0.14230383015349304,
	"grad_norm": 114.5,
	"learning_rate": 5.642201834862385e-06,
	"loss": 7.6121,
	"step": 124
	},
	{
	"epoch": 0.14345144168698895,
	"grad_norm": 131.0,
	"learning_rate": 5.688073394495414e-06,
	"loss": 8.1481,
	"step": 125
	},
	{
	"epoch": 0.14459905322048486,
	"grad_norm": 124.5,
	"learning_rate": 5.733944954128441e-06,
	"loss": 6.9154,
	"step": 126
	},
	{
	"epoch": 0.14574666475398076,
	"grad_norm": 125.0,
	"learning_rate": 5.7798165137614684e-06,
	"loss": 7.5579,
	"step": 127
	},
	{
	"epoch": 0.1468942762874767,
	"grad_norm": 69.0,
	"learning_rate": 5.825688073394496e-06,
	"loss": 4.5767,
	"step": 128
	},
	{
	"epoch": 0.1480418878209726,
	"grad_norm": 136.0,
	"learning_rate": 5.871559633027524e-06,
	"loss": 8.226,
	"step": 129
	},
	{
	"epoch": 0.1491894993544685,
	"grad_norm": 592.0,
	"learning_rate": 5.917431192660551e-06,
	"loss": 4.7686,
	"step": 130
	},
	{
	"epoch": 0.15033711088796442,
	"grad_norm": 199.0,
	"learning_rate": 5.963302752293578e-06,
	"loss": 8.1914,
	"step": 131
	},
	{
	"epoch": 0.15148472242146033,
	"grad_norm": 99.0,
	"learning_rate": 6.0091743119266054e-06,
	"loss": 4.6827,
	"step": 132
	},
	{
	"epoch": 0.15263233395495623,
	"grad_norm": 79.0,
	"learning_rate": 6.0550458715596335e-06,
	"loss": 4.0036,
	"step": 133
	},
	{
	"epoch": 0.15377994548845217,
	"grad_norm": 104.0,
	"learning_rate": 6.100917431192661e-06,
	"loss": 5.5383,
	"step": 134
	},
	{
	"epoch": 0.15492755702194808,
	"grad_norm": 89.5,
	"learning_rate": 6.146788990825688e-06,
	"loss": 5.6737,
	"step": 135
	},
	{
	"epoch": 0.15607516855544398,
	"grad_norm": 126.0,
	"learning_rate": 6.192660550458715e-06,
	"loss": 6.3379,
	"step": 136
	},
	{
	"epoch": 0.1572227800889399,
	"grad_norm": 106.0,
	"learning_rate": 6.238532110091744e-06,
	"loss": 5.8609,
	"step": 137
	},
	{
	"epoch": 0.1583703916224358,
	"grad_norm": 74.0,
	"learning_rate": 6.284403669724771e-06,
	"loss": 2.5903,
	"step": 138
	},
	{
	"epoch": 0.1595180031559317,
	"grad_norm": 166.0,
	"learning_rate": 6.330275229357799e-06,
	"loss": 6.5836,
	"step": 139
	},
	{
	"epoch": 0.16066561468942764,
	"grad_norm": 132.0,
	"learning_rate": 6.376146788990826e-06,
	"loss": 4.7941,
	"step": 140
	},
	{
	"epoch": 0.16181322622292355,
	"grad_norm": 79.5,
	"learning_rate": 6.422018348623854e-06,
	"loss": 3.4315,
	"step": 141
	},
	{
	"epoch": 0.16296083775641945,
	"grad_norm": 90.0,
	"learning_rate": 6.467889908256881e-06,
	"loss": 2.8439,
	"step": 142
	},
	{
	"epoch": 0.16410844928991536,
	"grad_norm": 147.0,
	"learning_rate": 6.513761467889908e-06,
	"loss": 5.9459,
	"step": 143
	},
	{
	"epoch": 0.16525606082341127,
	"grad_norm": 127.5,
	"learning_rate": 6.559633027522936e-06,
	"loss": 5.9421,
	"step": 144
	},
	{
	"epoch": 0.1664036723569072,
	"grad_norm": 108.5,
	"learning_rate": 6.6055045871559645e-06,
	"loss": 4.3347,
	"step": 145
	},
	{
	"epoch": 0.1675512838904031,
	"grad_norm": 110.0,
	"learning_rate": 6.651376146788992e-06,
	"loss": 2.862,
	"step": 146
	},
	{
	"epoch": 0.16869889542389901,
	"grad_norm": 91.5,
	"learning_rate": 6.697247706422019e-06,
	"loss": 3.0382,
	"step": 147
	},
	{
	"epoch": 0.16984650695739492,
	"grad_norm": 90.0,
	"learning_rate": 6.743119266055046e-06,
	"loss": 2.4137,
	"step": 148
	},
	{
	"epoch": 0.17099411849089083,
	"grad_norm": 205.0,
	"learning_rate": 6.788990825688074e-06,
	"loss": 3.6585,
	"step": 149
	},
	{
	"epoch": 0.17214173002438674,
	"grad_norm": 132.0,
	"learning_rate": 6.8348623853211015e-06,
	"loss": 3.3452,
	"step": 150
	},
	{
	"epoch": 0.17328934155788267,
	"grad_norm": 102.5,
	"learning_rate": 6.880733944954129e-06,
	"loss": 2.6872,
	"step": 151
	},
	{
	"epoch": 0.17443695309137858,
	"grad_norm": 92.5,
	"learning_rate": 6.926605504587156e-06,
	"loss": 2.7081,
	"step": 152
	},
	{
	"epoch": 0.17558456462487448,
	"grad_norm": 97.0,
	"learning_rate": 6.972477064220184e-06,
	"loss": 1.789,
	"step": 153
	},
	{
	"epoch": 0.1767321761583704,
	"grad_norm": 96.5,
	"learning_rate": 7.018348623853211e-06,
	"loss": 2.1933,
	"step": 154
	},
	{
	"epoch": 0.1778797876918663,
	"grad_norm": 117.0,
	"learning_rate": 7.0642201834862385e-06,
	"loss": 1.5972,
	"step": 155
	},
	{
	"epoch": 0.1790273992253622,
	"grad_norm": 70.0,
	"learning_rate": 7.110091743119267e-06,
	"loss": 1.6302,
	"step": 156
	},
	{
	"epoch": 0.18017501075885814,
	"grad_norm": 50.0,
	"learning_rate": 7.155963302752295e-06,
	"loss": 1.1936,
	"step": 157
	},
	{
	"epoch": 0.18132262229235405,
	"grad_norm": 71.5,
	"learning_rate": 7.201834862385322e-06,
	"loss": 1.2134,
	"step": 158
	},
	{
	"epoch": 0.18247023382584995,
	"grad_norm": 37.75,
	"learning_rate": 7.247706422018349e-06,
	"loss": 0.8042,
	"step": 159
	},
	{
	"epoch": 0.18361784535934586,
	"grad_norm": 54.75,
	"learning_rate": 7.293577981651376e-06,
	"loss": 0.7016,
	"step": 160
	},
	{
	"epoch": 0.18476545689284177,
	"grad_norm": 141.0,
	"learning_rate": 7.3394495412844045e-06,
	"loss": 1.6214,
	"step": 161
	},
	{
	"epoch": 0.18591306842633767,
	"grad_norm": 118.0,
	"learning_rate": 7.385321100917432e-06,
	"loss": 1.4091,
	"step": 162
	},
	{
	"epoch": 0.1870606799598336,
	"grad_norm": 42.0,
	"learning_rate": 7.431192660550459e-06,
	"loss": 0.636,
	"step": 163
	},
	{
	"epoch": 0.18820829149332952,
	"grad_norm": 165.0,
	"learning_rate": 7.477064220183486e-06,
	"loss": 1.8344,
	"step": 164
	},
	{
	"epoch": 0.18935590302682542,
	"grad_norm": 62.0,
	"learning_rate": 7.522935779816515e-06,
	"loss": 0.5202,
	"step": 165
	},
	{
	"epoch": 0.19050351456032133,
	"grad_norm": 87.5,
	"learning_rate": 7.568807339449542e-06,
	"loss": 1.1639,
	"step": 166
	},
	{
	"epoch": 0.19165112609381724,
	"grad_norm": 53.0,
	"learning_rate": 7.6146788990825695e-06,
	"loss": 0.907,
	"step": 167
	},
	{
	"epoch": 0.19279873762731314,
	"grad_norm": 59.5,
	"learning_rate": 7.660550458715596e-06,
	"loss": 1.0624,
	"step": 168
	},
	{
	"epoch": 0.19394634916080908,
	"grad_norm": 37.0,
	"learning_rate": 7.706422018348626e-06,
	"loss": 0.6051,
	"step": 169
	},
	{
	"epoch": 0.19509396069430499,
	"grad_norm": 50.75,
	"learning_rate": 7.752293577981652e-06,
	"loss": 0.9568,
	"step": 170
	},
	{
	"epoch": 0.1962415722278009,
	"grad_norm": 99.5,
	"learning_rate": 7.79816513761468e-06,
	"loss": 1.0009,
	"step": 171
	},
	{
	"epoch": 0.1973891837612968,
	"grad_norm": 58.75,
	"learning_rate": 7.844036697247707e-06,
	"loss": 1.2179,
	"step": 172
	},
	{
	"epoch": 0.1985367952947927,
	"grad_norm": 30.375,
	"learning_rate": 7.889908256880735e-06,
	"loss": 0.2789,
	"step": 173
	},
	{
	"epoch": 0.1996844068282886,
	"grad_norm": 48.5,
	"learning_rate": 7.935779816513763e-06,
	"loss": 0.7911,
	"step": 174
	},
	{
	"epoch": 0.20083201836178455,
	"grad_norm": 42.25,
	"learning_rate": 7.981651376146789e-06,
	"loss": 0.8686,
	"step": 175
	},
	{
	"epoch": 0.20197962989528045,
	"grad_norm": 141.0,
	"learning_rate": 8.027522935779817e-06,
	"loss": 1.1276,
	"step": 176
	},
	{
	"epoch": 0.20312724142877636,
	"grad_norm": 156.0,
	"learning_rate": 8.073394495412845e-06,
	"loss": 0.8758,
	"step": 177
	},
	{
	"epoch": 0.20427485296227227,
	"grad_norm": 32.75,
	"learning_rate": 8.119266055045872e-06,
	"loss": 0.6642,
	"step": 178
	},
	{
	"epoch": 0.20542246449576818,
	"grad_norm": 56.25,
	"learning_rate": 8.1651376146789e-06,
	"loss": 1.0594,
	"step": 179
	},
	{
	"epoch": 0.20657007602926408,
	"grad_norm": 34.5,
	"learning_rate": 8.211009174311926e-06,
	"loss": 0.6556,
	"step": 180
	},
	{
	"epoch": 0.20771768756276002,
	"grad_norm": 80.5,
	"learning_rate": 8.256880733944956e-06,
	"loss": 0.8868,
	"step": 181
	},
	{
	"epoch": 0.20886529909625592,
	"grad_norm": 47.5,
	"learning_rate": 8.302752293577982e-06,
	"loss": 0.7725,
	"step": 182
	},
	{
	"epoch": 0.21001291062975183,
	"grad_norm": 23.0,
	"learning_rate": 8.34862385321101e-06,
	"loss": 0.6719,
	"step": 183
	},
	{
	"epoch": 0.21116052216324774,
	"grad_norm": 72.0,
	"learning_rate": 8.394495412844037e-06,
	"loss": 0.8492,
	"step": 184
	},
	{
	"epoch": 0.21230813369674364,
	"grad_norm": 73.0,
	"learning_rate": 8.440366972477065e-06,
	"loss": 0.7163,
	"step": 185
	},
	{
	"epoch": 0.21345574523023955,
	"grad_norm": 82.0,
	"learning_rate": 8.486238532110093e-06,
	"loss": 0.7227,
	"step": 186
	},
	{
	"epoch": 0.2146033567637355,
	"grad_norm": 48.75,
	"learning_rate": 8.53211009174312e-06,
	"loss": 0.8237,
	"step": 187
	},
	{
	"epoch": 0.2157509682972314,
	"grad_norm": 30.75,
	"learning_rate": 8.577981651376147e-06,
	"loss": 0.7007,
	"step": 188
	},
	{
	"epoch": 0.2168985798307273,
	"grad_norm": 76.0,
	"learning_rate": 8.623853211009175e-06,
	"loss": 0.7568,
	"step": 189
	},
	{
	"epoch": 0.2180461913642232,
	"grad_norm": 126.0,
	"learning_rate": 8.669724770642203e-06,
	"loss": 0.8139,
	"step": 190
	},
	{
	"epoch": 0.21919380289771911,
	"grad_norm": 67.5,
	"learning_rate": 8.71559633027523e-06,
	"loss": 0.7062,
	"step": 191
	},
	{
	"epoch": 0.22034141443121502,
	"grad_norm": 26.375,
	"learning_rate": 8.761467889908258e-06,
	"loss": 0.5425,
	"step": 192
	},
	{
	"epoch": 0.22148902596471096,
	"grad_norm": 105.5,
	"learning_rate": 8.807339449541286e-06,
	"loss": 0.8822,
	"step": 193
	},
	{
	"epoch": 0.22263663749820686,
	"grad_norm": 131.0,
	"learning_rate": 8.853211009174312e-06,
	"loss": 0.9047,
	"step": 194
	},
	{
	"epoch": 0.22378424903170277,
	"grad_norm": 56.5,
	"learning_rate": 8.89908256880734e-06,
	"loss": 0.5039,
	"step": 195
	},
	{
	"epoch": 0.22493186056519868,
	"grad_norm": 73.5,
	"learning_rate": 8.944954128440367e-06,
	"loss": 0.7597,
	"step": 196
	},
	{
	"epoch": 0.22607947209869458,
	"grad_norm": 56.25,
	"learning_rate": 8.990825688073395e-06,
	"loss": 0.742,
	"step": 197
	},
	{
	"epoch": 0.2272270836321905,
	"grad_norm": 71.5,
	"learning_rate": 9.036697247706423e-06,
	"loss": 0.892,
	"step": 198
	},
	{
	"epoch": 0.22837469516568643,
	"grad_norm": 33.0,
	"learning_rate": 9.08256880733945e-06,
	"loss": 0.6746,
	"step": 199
	},
	{
	"epoch": 0.22952230669918233,
	"grad_norm": 95.0,
	"learning_rate": 9.128440366972477e-06,
	"loss": 0.8428,
	"step": 200
	},
	{
	"epoch": 0.22952230669918233,
	"eval_accuracy": 0.23,
	"eval_loss": 0.7526699900627136,
	"eval_runtime": 49.2923,
	"eval_samples_per_second": 2.029,
	"eval_steps_per_second": 2.029,
	"step": 200
	},
	{
	"epoch": 0.23066991823267824,
	"grad_norm": 43.0,
	"learning_rate": 9.174311926605506e-06,
	"loss": 0.6504,
	"step": 201
	},
	{
	"epoch": 0.23181752976617415,
	"grad_norm": 46.75,
	"learning_rate": 9.220183486238534e-06,
	"loss": 0.7568,
	"step": 202
	},
	{
	"epoch": 0.23296514129967005,
	"grad_norm": 76.5,
	"learning_rate": 9.26605504587156e-06,
	"loss": 0.5601,
	"step": 203
	},
	{
	"epoch": 0.23411275283316596,
	"grad_norm": 82.0,
	"learning_rate": 9.311926605504588e-06,
	"loss": 0.6661,
	"step": 204
	},
	{
	"epoch": 0.2352603643666619,
	"grad_norm": 63.75,
	"learning_rate": 9.357798165137616e-06,
	"loss": 0.7619,
	"step": 205
	},
	{
	"epoch": 0.2364079759001578,
	"grad_norm": 28.5,
	"learning_rate": 9.403669724770643e-06,
	"loss": 0.6332,
	"step": 206
	},
	{
	"epoch": 0.2375555874336537,
	"grad_norm": 48.75,
	"learning_rate": 9.44954128440367e-06,
	"loss": 0.8103,
	"step": 207
	},
	{
	"epoch": 0.23870319896714962,
	"grad_norm": 32.25,
	"learning_rate": 9.495412844036697e-06,
	"loss": 0.8623,
	"step": 208
	},
	{
	"epoch": 0.23985081050064552,
	"grad_norm": 51.25,
	"learning_rate": 9.541284403669727e-06,
	"loss": 0.6734,
	"step": 209
	},
	{
	"epoch": 0.24099842203414143,
	"grad_norm": 106.0,
	"learning_rate": 9.587155963302753e-06,
	"loss": 0.7637,
	"step": 210
	},
	{
	"epoch": 0.24214603356763736,
	"grad_norm": 43.5,
	"learning_rate": 9.633027522935781e-06,
	"loss": 0.6827,
	"step": 211
	},
	{
	"epoch": 0.24329364510113327,
	"grad_norm": 56.25,
	"learning_rate": 9.678899082568808e-06,
	"loss": 0.9193,
	"step": 212
	},
	{
	"epoch": 0.24444125663462918,
	"grad_norm": 67.5,
	"learning_rate": 9.724770642201836e-06,
	"loss": 0.8784,
	"step": 213
	},
	{
	"epoch": 0.24558886816812509,
	"grad_norm": 61.0,
	"learning_rate": 9.770642201834864e-06,
	"loss": 0.6853,
	"step": 214
	},
	{
	"epoch": 0.246736479701621,
	"grad_norm": 33.5,
	"learning_rate": 9.81651376146789e-06,
	"loss": 0.6893,
	"step": 215
	},
	{
	"epoch": 0.24788409123511693,
	"grad_norm": 20.5,
	"learning_rate": 9.862385321100918e-06,
	"loss": 0.6858,
	"step": 216
	},
	{
	"epoch": 0.24903170276861283,
	"grad_norm": 51.0,
	"learning_rate": 9.908256880733946e-06,
	"loss": 0.5894,
	"step": 217
	},
	{
	"epoch": 0.2501793143021087,
	"grad_norm": 61.0,
	"learning_rate": 9.954128440366973e-06,
	"loss": 0.9096,
	"step": 218
	},
	{
	"epoch": 0.2513269258356047,
	"grad_norm": 28.625,
	"learning_rate": 1e-05,
	"loss": 0.801,
	"step": 219
	},
	{
	"epoch": 0.2524745373691006,
	"grad_norm": 41.0,
	"learning_rate": 1.0045871559633029e-05,
	"loss": 0.6585,
	"step": 220
	},
	{
	"epoch": 0.2536221489025965,
	"grad_norm": 39.75,
	"learning_rate": 1.0091743119266055e-05,
	"loss": 0.7587,
	"step": 221
	},
	{
	"epoch": 0.2547697604360924,
	"grad_norm": 40.0,
	"learning_rate": 1.0137614678899083e-05,
	"loss": 0.7094,
	"step": 222
	},
	{
	"epoch": 0.2559173719695883,
	"grad_norm": 684.0,
	"learning_rate": 1.018348623853211e-05,
	"loss": 0.7388,
	"step": 223
	},
	{
	"epoch": 0.2570649835030842,
	"grad_norm": 54.5,
	"learning_rate": 1.0229357798165138e-05,
	"loss": 0.7495,
	"step": 224
	},
	{
	"epoch": 0.2582125950365801,
	"grad_norm": 65.5,
	"learning_rate": 1.0275229357798166e-05,
	"loss": 0.834,
	"step": 225
	},
	{
	"epoch": 0.259360206570076,
	"grad_norm": 68.5,
	"learning_rate": 1.0321100917431192e-05,
	"loss": 0.9911,
	"step": 226
	},
	{
	"epoch": 0.26050781810357193,
	"grad_norm": 59.75,
	"learning_rate": 1.036697247706422e-05,
	"loss": 0.7996,
	"step": 227
	},
	{
	"epoch": 0.26165542963706784,
	"grad_norm": 39.0,
	"learning_rate": 1.041284403669725e-05,
	"loss": 0.7586,
	"step": 228
	},
	{
	"epoch": 0.26280304117056374,
	"grad_norm": 41.0,
	"learning_rate": 1.0458715596330275e-05,
	"loss": 0.6575,
	"step": 229
	},
	{
	"epoch": 0.26395065270405965,
	"grad_norm": 25.75,
	"learning_rate": 1.0504587155963305e-05,
	"loss": 0.5676,
	"step": 230
	},
	{
	"epoch": 0.2650982642375556,
	"grad_norm": 38.5,
	"learning_rate": 1.055045871559633e-05,
	"loss": 0.7107,
	"step": 231
	},
	{
	"epoch": 0.2662458757710515,
	"grad_norm": 29.0,
	"learning_rate": 1.0596330275229359e-05,
	"loss": 0.5768,
	"step": 232
	},
	{
	"epoch": 0.26739348730454743,
	"grad_norm": 67.0,
	"learning_rate": 1.0642201834862387e-05,
	"loss": 0.8002,
	"step": 233
	},
	{
	"epoch": 0.26854109883804334,
	"grad_norm": 92.0,
	"learning_rate": 1.0688073394495414e-05,
	"loss": 0.9373,
	"step": 234
	},
	{
	"epoch": 0.26968871037153924,
	"grad_norm": 95.0,
	"learning_rate": 1.0733944954128442e-05,
	"loss": 0.9883,
	"step": 235
	},
	{
	"epoch": 0.27083632190503515,
	"grad_norm": 32.25,
	"learning_rate": 1.077981651376147e-05,
	"loss": 0.3327,
	"step": 236
	},
	{
	"epoch": 0.27198393343853106,
	"grad_norm": 38.75,
	"learning_rate": 1.0825688073394496e-05,
	"loss": 0.9128,
	"step": 237
	},
	{
	"epoch": 0.27313154497202696,
	"grad_norm": 113.5,
	"learning_rate": 1.0871559633027524e-05,
	"loss": 0.7185,
	"step": 238
	},
	{
	"epoch": 0.27427915650552287,
	"grad_norm": 78.5,
	"learning_rate": 1.091743119266055e-05,
	"loss": 0.7406,
	"step": 239
	},
	{
	"epoch": 0.2754267680390188,
	"grad_norm": 54.25,
	"learning_rate": 1.0963302752293579e-05,
	"loss": 0.5355,
	"step": 240
	},
	{
	"epoch": 0.2765743795725147,
	"grad_norm": 88.0,
	"learning_rate": 1.1009174311926607e-05,
	"loss": 0.7876,
	"step": 241
	},
	{
	"epoch": 0.2777219911060106,
	"grad_norm": 25.125,
	"learning_rate": 1.1055045871559633e-05,
	"loss": 0.7005,
	"step": 242
	},
	{
	"epoch": 0.27886960263950655,
	"grad_norm": 62.0,
	"learning_rate": 1.1100917431192661e-05,
	"loss": 0.6772,
	"step": 243
	},
	{
	"epoch": 0.28001721417300246,
	"grad_norm": 88.5,
	"learning_rate": 1.114678899082569e-05,
	"loss": 0.7296,
	"step": 244
	},
	{
	"epoch": 0.28116482570649837,
	"grad_norm": 29.375,
	"learning_rate": 1.1192660550458716e-05,
	"loss": 0.7339,
	"step": 245
	},
	{
	"epoch": 0.2823124372399943,
	"grad_norm": 21.75,
	"learning_rate": 1.1238532110091744e-05,
	"loss": 0.5743,
	"step": 246
	},
	{
	"epoch": 0.2834600487734902,
	"grad_norm": 127.5,
	"learning_rate": 1.128440366972477e-05,
	"loss": 0.9532,
	"step": 247
	},
	{
	"epoch": 0.2846076603069861,
	"grad_norm": 97.0,
	"learning_rate": 1.1330275229357798e-05,
	"loss": 0.9855,
	"step": 248
	},
	{
	"epoch": 0.285755271840482,
	"grad_norm": 54.25,
	"learning_rate": 1.1376146788990828e-05,
	"loss": 0.6011,
	"step": 249
	},
	{
	"epoch": 0.2869028833739779,
	"grad_norm": 27.125,
	"learning_rate": 1.1422018348623853e-05,
	"loss": 0.4934,
	"step": 250
	},
	{
	"epoch": 0.2880504949074738,
	"grad_norm": 156.0,
	"learning_rate": 1.1467889908256882e-05,
	"loss": 1.0312,
	"step": 251
	},
	{
	"epoch": 0.2891981064409697,
	"grad_norm": 31.5,
	"learning_rate": 1.151376146788991e-05,
	"loss": 0.6735,
	"step": 252
	},
	{
	"epoch": 0.2903457179744656,
	"grad_norm": 26.0,
	"learning_rate": 1.1559633027522937e-05,
	"loss": 0.5176,
	"step": 253
	},
	{
	"epoch": 0.29149332950796153,
	"grad_norm": 28.0,
	"learning_rate": 1.1605504587155965e-05,
	"loss": 0.7067,
	"step": 254
	},
	{
	"epoch": 0.2926409410414575,
	"grad_norm": 50.75,
	"learning_rate": 1.1651376146788991e-05,
	"loss": 0.5816,
	"step": 255
	},
	{
	"epoch": 0.2937885525749534,
	"grad_norm": 33.0,
	"learning_rate": 1.169724770642202e-05,
	"loss": 0.5099,
	"step": 256
	},
	{
	"epoch": 0.2949361641084493,
	"grad_norm": 63.25,
	"learning_rate": 1.1743119266055047e-05,
	"loss": 0.6038,
	"step": 257
	},
	{
	"epoch": 0.2960837756419452,
	"grad_norm": 152.0,
	"learning_rate": 1.1788990825688074e-05,
	"loss": 1.2612,
	"step": 258
	},
	{
	"epoch": 0.2972313871754411,
	"grad_norm": 55.5,
	"learning_rate": 1.1834862385321102e-05,
	"loss": 0.8309,
	"step": 259
	},
	{
	"epoch": 0.298378998708937,
	"grad_norm": 49.75,
	"learning_rate": 1.188073394495413e-05,
	"loss": 0.7434,
	"step": 260
	},
	{
	"epoch": 0.29952661024243293,
	"grad_norm": 38.25,
	"learning_rate": 1.1926605504587156e-05,
	"loss": 0.6988,
	"step": 261
	},
	{
	"epoch": 0.30067422177592884,
	"grad_norm": 31.25,
	"learning_rate": 1.1972477064220184e-05,
	"loss": 0.674,
	"step": 262
	},
	{
	"epoch": 0.30182183330942475,
	"grad_norm": 61.25,
	"learning_rate": 1.2018348623853211e-05,
	"loss": 0.8105,
	"step": 263
	},
	{
	"epoch": 0.30296944484292065,
	"grad_norm": 67.0,
	"learning_rate": 1.2064220183486239e-05,
	"loss": 0.7834,
	"step": 264
	},
	{
	"epoch": 0.30411705637641656,
	"grad_norm": 34.0,
	"learning_rate": 1.2110091743119267e-05,
	"loss": 0.6694,
	"step": 265
	},
	{
	"epoch": 0.30526466790991247,
	"grad_norm": 48.75,
	"learning_rate": 1.2155963302752293e-05,
	"loss": 0.4389,
	"step": 266
	},
	{
	"epoch": 0.30641227944340843,
	"grad_norm": 45.0,
	"learning_rate": 1.2201834862385321e-05,
	"loss": 0.9619,
	"step": 267
	},
	{
	"epoch": 0.30755989097690434,
	"grad_norm": 27.25,
	"learning_rate": 1.2247706422018351e-05,
	"loss": 0.8181,
	"step": 268
	},
	{
	"epoch": 0.30870750251040024,
	"grad_norm": 78.5,
	"learning_rate": 1.2293577981651376e-05,
	"loss": 0.8289,
	"step": 269
	},
	{
	"epoch": 0.30985511404389615,
	"grad_norm": 29.625,
	"learning_rate": 1.2339449541284406e-05,
	"loss": 0.66,
	"step": 270
	},
	{
	"epoch": 0.31100272557739206,
	"grad_norm": 51.25,
	"learning_rate": 1.238532110091743e-05,
	"loss": 0.6833,
	"step": 271
	},
	{
	"epoch": 0.31215033711088797,
	"grad_norm": 45.0,
	"learning_rate": 1.243119266055046e-05,
	"loss": 0.6545,
	"step": 272
	},
	{
	"epoch": 0.3132979486443839,
	"grad_norm": 35.5,
	"learning_rate": 1.2477064220183488e-05,
	"loss": 0.6642,
	"step": 273
	},
	{
	"epoch": 0.3144455601778798,
	"grad_norm": 27.75,
	"learning_rate": 1.2522935779816515e-05,
	"loss": 0.7786,
	"step": 274
	},
	{
	"epoch": 0.3155931717113757,
	"grad_norm": 103.0,
	"learning_rate": 1.2568807339449543e-05,
	"loss": 0.9578,
	"step": 275
	},
	{
	"epoch": 0.3167407832448716,
	"grad_norm": 61.75,
	"learning_rate": 1.261467889908257e-05,
	"loss": 0.5513,
	"step": 276
	},
	{
	"epoch": 0.3178883947783675,
	"grad_norm": 86.5,
	"learning_rate": 1.2660550458715597e-05,
	"loss": 0.855,
	"step": 277
	},
	{
	"epoch": 0.3190360063118634,
	"grad_norm": 47.0,
	"learning_rate": 1.2706422018348625e-05,
	"loss": 0.7903,
	"step": 278
	},
	{
	"epoch": 0.32018361784535937,
	"grad_norm": 21.125,
	"learning_rate": 1.2752293577981652e-05,
	"loss": 0.6084,
	"step": 279
	},
	{
	"epoch": 0.3213312293788553,
	"grad_norm": 53.0,
	"learning_rate": 1.279816513761468e-05,
	"loss": 0.7655,
	"step": 280
	},
	{
	"epoch": 0.3224788409123512,
	"grad_norm": 69.0,
	"learning_rate": 1.2844036697247708e-05,
	"loss": 0.7763,
	"step": 281
	},
	{
	"epoch": 0.3236264524458471,
	"grad_norm": 98.0,
	"learning_rate": 1.2889908256880734e-05,
	"loss": 0.8355,
	"step": 282
	},
	{
	"epoch": 0.324774063979343,
	"grad_norm": 65.0,
	"learning_rate": 1.2935779816513762e-05,
	"loss": 0.7071,
	"step": 283
	},
	{
	"epoch": 0.3259216755128389,
	"grad_norm": 25.75,
	"learning_rate": 1.298165137614679e-05,
	"loss": 0.8358,
	"step": 284
	},
	{
	"epoch": 0.3270692870463348,
	"grad_norm": 48.25,
	"learning_rate": 1.3027522935779817e-05,
	"loss": 0.7069,
	"step": 285
	},
	{
	"epoch": 0.3282168985798307,
	"grad_norm": 27.75,
	"learning_rate": 1.3073394495412845e-05,
	"loss": 0.601,
	"step": 286
	},
	{
	"epoch": 0.3293645101133266,
	"grad_norm": 44.25,
	"learning_rate": 1.3119266055045871e-05,
	"loss": 0.6844,
	"step": 287
	},
	{
	"epoch": 0.33051212164682253,
	"grad_norm": 73.0,
	"learning_rate": 1.31651376146789e-05,
	"loss": 1.5458,
	"step": 288
	},
	{
	"epoch": 0.33165973318031844,
	"grad_norm": 36.0,
	"learning_rate": 1.3211009174311929e-05,
	"loss": 0.8631,
	"step": 289
	},
	{
	"epoch": 0.3328073447138144,
	"grad_norm": 60.25,
	"learning_rate": 1.3256880733944954e-05,
	"loss": 0.7894,
	"step": 290
	},
	{
	"epoch": 0.3339549562473103,
	"grad_norm": 46.75,
	"learning_rate": 1.3302752293577984e-05,
	"loss": 0.7715,
	"step": 291
	},
	{
	"epoch": 0.3351025677808062,
	"grad_norm": 17.5,
	"learning_rate": 1.3348623853211012e-05,
	"loss": 0.5756,
	"step": 292
	},
	{
	"epoch": 0.3362501793143021,
	"grad_norm": 32.0,
	"learning_rate": 1.3394495412844038e-05,
	"loss": 0.7155,
	"step": 293
	},
	{
	"epoch": 0.33739779084779803,
	"grad_norm": 96.5,
	"learning_rate": 1.3440366972477066e-05,
	"loss": 0.6518,
	"step": 294
	},
	{
	"epoch": 0.33854540238129394,
	"grad_norm": 37.75,
	"learning_rate": 1.3486238532110092e-05,
	"loss": 0.6962,
	"step": 295
	},
	{
	"epoch": 0.33969301391478984,
	"grad_norm": 57.5,
	"learning_rate": 1.353211009174312e-05,
	"loss": 0.5687,
	"step": 296
	},
	{
	"epoch": 0.34084062544828575,
	"grad_norm": 20.125,
	"learning_rate": 1.3577981651376149e-05,
	"loss": 0.7647,
	"step": 297
	},
	{
	"epoch": 0.34198823698178166,
	"grad_norm": 22.75,
	"learning_rate": 1.3623853211009175e-05,
	"loss": 0.7313,
	"step": 298
	},
	{
	"epoch": 0.34313584851527756,
	"grad_norm": 71.0,
	"learning_rate": 1.3669724770642203e-05,
	"loss": 0.8702,
	"step": 299
	},
	{
	"epoch": 0.34428346004877347,
	"grad_norm": 70.0,
	"learning_rate": 1.3715596330275231e-05,
	"loss": 0.7895,
	"step": 300
	},
	{
	"epoch": 0.34428346004877347,
	"eval_accuracy": 0.22,
	"eval_loss": 0.6987403631210327,
	"eval_runtime": 49.3136,
	"eval_samples_per_second": 2.028,
	"eval_steps_per_second": 2.028,
	"step": 300
	},
	{
	"epoch": 0.3454310715822694,
	"grad_norm": 32.0,
	"learning_rate": 1.3761467889908258e-05,
	"loss": 0.6857,
	"step": 301
	},
	{
	"epoch": 0.34657868311576534,
	"grad_norm": 58.25,
	"learning_rate": 1.3807339449541286e-05,
	"loss": 0.6662,
	"step": 302
	},
	{
	"epoch": 0.34772629464926125,
	"grad_norm": 26.875,
	"learning_rate": 1.3853211009174312e-05,
	"loss": 0.5594,
	"step": 303
	},
	{
	"epoch": 0.34887390618275715,
	"grad_norm": 36.5,
	"learning_rate": 1.389908256880734e-05,
	"loss": 0.6889,
	"step": 304
	},
	{
	"epoch": 0.35002151771625306,
	"grad_norm": 49.0,
	"learning_rate": 1.3944954128440368e-05,
	"loss": 0.6969,
	"step": 305
	},
	{
	"epoch": 0.35116912924974897,
	"grad_norm": 173.0,
	"learning_rate": 1.3990825688073395e-05,
	"loss": 0.6462,
	"step": 306
	},
	{
	"epoch": 0.3523167407832449,
	"grad_norm": 60.0,
	"learning_rate": 1.4036697247706423e-05,
	"loss": 0.539,
	"step": 307
	},
	{
	"epoch": 0.3534643523167408,
	"grad_norm": 27.125,
	"learning_rate": 1.4082568807339452e-05,
	"loss": 0.855,
	"step": 308
	},
	{
	"epoch": 0.3546119638502367,
	"grad_norm": 61.5,
	"learning_rate": 1.4128440366972477e-05,
	"loss": 0.7295,
	"step": 309
	},
	{
	"epoch": 0.3557595753837326,
	"grad_norm": 56.25,
	"learning_rate": 1.4174311926605507e-05,
	"loss": 0.8013,
	"step": 310
	},
	{
	"epoch": 0.3569071869172285,
	"grad_norm": 19.375,
	"learning_rate": 1.4220183486238533e-05,
	"loss": 0.6061,
	"step": 311
	},
	{
	"epoch": 0.3580547984507244,
	"grad_norm": 22.75,
	"learning_rate": 1.4266055045871561e-05,
	"loss": 0.2982,
	"step": 312
	},
	{
	"epoch": 0.3592024099842203,
	"grad_norm": 102.0,
	"learning_rate": 1.431192660550459e-05,
	"loss": 1.1087,
	"step": 313
	},
	{
	"epoch": 0.3603500215177163,
	"grad_norm": 42.25,
	"learning_rate": 1.4357798165137616e-05,
	"loss": 0.8645,
	"step": 314
	},
	{
	"epoch": 0.3614976330512122,
	"grad_norm": 112.0,
	"learning_rate": 1.4403669724770644e-05,
	"loss": 1.2745,
	"step": 315
	},
	{
	"epoch": 0.3626452445847081,
	"grad_norm": 21.125,
	"learning_rate": 1.4449541284403672e-05,
	"loss": 0.3714,
	"step": 316
	},
	{
	"epoch": 0.363792856118204,
	"grad_norm": 87.0,
	"learning_rate": 1.4495412844036698e-05,
	"loss": 0.9653,
	"step": 317
	},
	{
	"epoch": 0.3649404676516999,
	"grad_norm": 82.0,
	"learning_rate": 1.4541284403669726e-05,
	"loss": 0.982,
	"step": 318
	},
	{
	"epoch": 0.3660880791851958,
	"grad_norm": 27.375,
	"learning_rate": 1.4587155963302753e-05,
	"loss": 0.4173,
	"step": 319
	},
	{
	"epoch": 0.3672356907186917,
	"grad_norm": 74.0,
	"learning_rate": 1.463302752293578e-05,
	"loss": 0.9199,
	"step": 320
	},
	{
	"epoch": 0.3683833022521876,
	"grad_norm": 57.0,
	"learning_rate": 1.4678899082568809e-05,
	"loss": 0.6555,
	"step": 321
	},
	{
	"epoch": 0.36953091378568353,
	"grad_norm": 40.25,
	"learning_rate": 1.4724770642201835e-05,
	"loss": 0.5512,
	"step": 322
	},
	{
	"epoch": 0.37067852531917944,
	"grad_norm": 51.0,
	"learning_rate": 1.4770642201834863e-05,
	"loss": 0.8541,
	"step": 323
	},
	{
	"epoch": 0.37182613685267535,
	"grad_norm": 112.0,
	"learning_rate": 1.4816513761467891e-05,
	"loss": 1.031,
	"step": 324
	},
	{
	"epoch": 0.37297374838617126,
	"grad_norm": 17.625,
	"learning_rate": 1.4862385321100918e-05,
	"loss": 0.448,
	"step": 325
	},
	{
	"epoch": 0.3741213599196672,
	"grad_norm": 109.0,
	"learning_rate": 1.4908256880733946e-05,
	"loss": 1.0731,
	"step": 326
	},
	{
	"epoch": 0.3752689714531631,
	"grad_norm": 76.0,
	"learning_rate": 1.4954128440366972e-05,
	"loss": 0.9293,
	"step": 327
	},
	{
	"epoch": 0.37641658298665903,
	"grad_norm": 142.0,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 1.2647,
	"step": 328
	},
	{
	"epoch": 0.37756419452015494,
	"grad_norm": 17.0,
	"learning_rate": 1.504587155963303e-05,
	"loss": 0.5858,
	"step": 329
	},
	{
	"epoch": 0.37871180605365085,
	"grad_norm": 63.5,
	"learning_rate": 1.5091743119266057e-05,
	"loss": 1.1073,
	"step": 330
	},
	{
	"epoch": 0.37985941758714675,
	"grad_norm": 23.125,
	"learning_rate": 1.5137614678899085e-05,
	"loss": 0.6616,
	"step": 331
	},
	{
	"epoch": 0.38100702912064266,
	"grad_norm": 23.5,
	"learning_rate": 1.5183486238532111e-05,
	"loss": 0.81,
	"step": 332
	},
	{
	"epoch": 0.38215464065413857,
	"grad_norm": 44.5,
	"learning_rate": 1.5229357798165139e-05,
	"loss": 0.7774,
	"step": 333
	},
	{
	"epoch": 0.3833022521876345,
	"grad_norm": 53.0,
	"learning_rate": 1.5275229357798167e-05,
	"loss": 0.7527,
	"step": 334
	},
	{
	"epoch": 0.3844498637211304,
	"grad_norm": 26.0,
	"learning_rate": 1.5321100917431192e-05,
	"loss": 0.5953,
	"step": 335
	},
	{
	"epoch": 0.3855974752546263,
	"grad_norm": 81.5,
	"learning_rate": 1.536697247706422e-05,
	"loss": 1.1549,
	"step": 336
	},
	{
	"epoch": 0.3867450867881222,
	"grad_norm": 40.25,
	"learning_rate": 1.541284403669725e-05,
	"loss": 0.6953,
	"step": 337
	},
	{
	"epoch": 0.38789269832161816,
	"grad_norm": 59.5,
	"learning_rate": 1.5458715596330276e-05,
	"loss": 0.9157,
	"step": 338
	},
	{
	"epoch": 0.38904030985511406,
	"grad_norm": 37.25,
	"learning_rate": 1.5504587155963304e-05,
	"loss": 0.6101,
	"step": 339
	},
	{
	"epoch": 0.39018792138860997,
	"grad_norm": 47.75,
	"learning_rate": 1.555045871559633e-05,
	"loss": 0.6971,
	"step": 340
	},
	{
	"epoch": 0.3913355329221059,
	"grad_norm": 35.5,
	"learning_rate": 1.559633027522936e-05,
	"loss": 0.6038,
	"step": 341
	},
	{
	"epoch": 0.3924831444556018,
	"grad_norm": 258.0,
	"learning_rate": 1.564220183486239e-05,
	"loss": 0.7838,
	"step": 342
	},
	{
	"epoch": 0.3936307559890977,
	"grad_norm": 19.625,
	"learning_rate": 1.5688073394495413e-05,
	"loss": 0.6458,
	"step": 343
	},
	{
	"epoch": 0.3947783675225936,
	"grad_norm": 78.5,
	"learning_rate": 1.573394495412844e-05,
	"loss": 0.8405,
	"step": 344
	},
	{
	"epoch": 0.3959259790560895,
	"grad_norm": 118.5,
	"learning_rate": 1.577981651376147e-05,
	"loss": 1.0364,
	"step": 345
	},
	{
	"epoch": 0.3970735905895854,
	"grad_norm": 30.0,
	"learning_rate": 1.5825688073394497e-05,
	"loss": 0.5703,
	"step": 346
	},
	{
	"epoch": 0.3982212021230813,
	"grad_norm": 60.75,
	"learning_rate": 1.5871559633027525e-05,
	"loss": 0.8595,
	"step": 347
	},
	{
	"epoch": 0.3993688136565772,
	"grad_norm": 78.5,
	"learning_rate": 1.591743119266055e-05,
	"loss": 0.8161,
	"step": 348
	},
	{
	"epoch": 0.40051642519007313,
	"grad_norm": 33.75,
	"learning_rate": 1.5963302752293578e-05,
	"loss": 0.7062,
	"step": 349
	},
	{
	"epoch": 0.4016640367235691,
	"grad_norm": 20.75,
	"learning_rate": 1.6009174311926606e-05,
	"loss": 0.825,
	"step": 350
	},
	{
	"epoch": 0.402811648257065,
	"grad_norm": 20.375,
	"learning_rate": 1.6055045871559634e-05,
	"loss": 0.5635,
	"step": 351
	},
	{
	"epoch": 0.4039592597905609,
	"grad_norm": 26.0,
	"learning_rate": 1.6100917431192662e-05,
	"loss": 0.7392,
	"step": 352
	},
	{
	"epoch": 0.4051068713240568,
	"grad_norm": 39.75,
	"learning_rate": 1.614678899082569e-05,
	"loss": 0.6261,
	"step": 353
	},
	{
	"epoch": 0.4062544828575527,
	"grad_norm": 40.0,
	"learning_rate": 1.6192660550458715e-05,
	"loss": 0.6046,
	"step": 354
	},
	{
	"epoch": 0.40740209439104863,
	"grad_norm": 106.0,
	"learning_rate": 1.6238532110091743e-05,
	"loss": 0.9682,
	"step": 355
	},
	{
	"epoch": 0.40854970592454454,
	"grad_norm": 51.25,
	"learning_rate": 1.628440366972477e-05,
	"loss": 0.7811,
	"step": 356
	},
	{
	"epoch": 0.40969731745804044,
	"grad_norm": 38.0,
	"learning_rate": 1.63302752293578e-05,
	"loss": 0.8129,
	"step": 357
	},
	{
	"epoch": 0.41084492899153635,
	"grad_norm": 25.375,
	"learning_rate": 1.6376146788990827e-05,
	"loss": 0.5273,
	"step": 358
	},
	{
	"epoch": 0.41199254052503226,
	"grad_norm": 34.0,
	"learning_rate": 1.6422018348623852e-05,
	"loss": 0.5413,
	"step": 359
	},
	{
	"epoch": 0.41314015205852817,
	"grad_norm": 19.25,
	"learning_rate": 1.6467889908256884e-05,
	"loss": 0.5278,
	"step": 360
	},
	{
	"epoch": 0.4142877635920241,
	"grad_norm": 24.0,
	"learning_rate": 1.6513761467889912e-05,
	"loss": 0.6991,
	"step": 361
	},
	{
	"epoch": 0.41543537512552003,
	"grad_norm": 180.0,
	"learning_rate": 1.6559633027522936e-05,
	"loss": 0.7462,
	"step": 362
	},
	{
	"epoch": 0.41658298665901594,
	"grad_norm": 27.125,
	"learning_rate": 1.6605504587155964e-05,
	"loss": 0.7057,
	"step": 363
	},
	{
	"epoch": 0.41773059819251185,
	"grad_norm": 75.0,
	"learning_rate": 1.6651376146788993e-05,
	"loss": 0.8487,
	"step": 364
	},
	{
	"epoch": 0.41887820972600776,
	"grad_norm": 52.5,
	"learning_rate": 1.669724770642202e-05,
	"loss": 0.83,
	"step": 365
	},
	{
	"epoch": 0.42002582125950366,
	"grad_norm": 18.5,
	"learning_rate": 1.674311926605505e-05,
	"loss": 0.4915,
	"step": 366
	},
	{
	"epoch": 0.42117343279299957,
	"grad_norm": 76.0,
	"learning_rate": 1.6788990825688073e-05,
	"loss": 0.6684,
	"step": 367
	},
	{
	"epoch": 0.4223210443264955,
	"grad_norm": 21.625,
	"learning_rate": 1.68348623853211e-05,
	"loss": 0.5262,
	"step": 368
	},
	{
	"epoch": 0.4234686558599914,
	"grad_norm": 13.375,
	"learning_rate": 1.688073394495413e-05,
	"loss": 0.5778,
	"step": 369
	},
	{
	"epoch": 0.4246162673934873,
	"grad_norm": 20.375,
	"learning_rate": 1.6926605504587158e-05,
	"loss": 0.5191,
	"step": 370
	},
	{
	"epoch": 0.4257638789269832,
	"grad_norm": 91.5,
	"learning_rate": 1.6972477064220186e-05,
	"loss": 1.0079,
	"step": 371
	},
	{
	"epoch": 0.4269114904604791,
	"grad_norm": 55.25,
	"learning_rate": 1.701834862385321e-05,
	"loss": 0.6378,
	"step": 372
	},
	{
	"epoch": 0.42805910199397507,
	"grad_norm": 39.5,
	"learning_rate": 1.706422018348624e-05,
	"loss": 0.836,
	"step": 373
	},
	{
	"epoch": 0.429206713527471,
	"grad_norm": 42.75,
	"learning_rate": 1.7110091743119267e-05,
	"loss": 0.5683,
	"step": 374
	},
	{
	"epoch": 0.4303543250609669,
	"grad_norm": 60.25,
	"learning_rate": 1.7155963302752295e-05,
	"loss": 0.4543,
	"step": 375
	},
	{
	"epoch": 0.4315019365944628,
	"grad_norm": 21.375,
	"learning_rate": 1.7201834862385323e-05,
	"loss": 0.5242,
	"step": 376
	},
	{
	"epoch": 0.4326495481279587,
	"grad_norm": 17.625,
	"learning_rate": 1.724770642201835e-05,
	"loss": 0.6393,
	"step": 377
	},
	{
	"epoch": 0.4337971596614546,
	"grad_norm": 21.875,
	"learning_rate": 1.7293577981651376e-05,
	"loss": 0.5476,
	"step": 378
	},
	{
	"epoch": 0.4349447711949505,
	"grad_norm": 56.25,
	"learning_rate": 1.7339449541284407e-05,
	"loss": 0.7973,
	"step": 379
	},
	{
	"epoch": 0.4360923827284464,
	"grad_norm": 80.0,
	"learning_rate": 1.738532110091743e-05,
	"loss": 0.8487,
	"step": 380
	},
	{
	"epoch": 0.4372399942619423,
	"grad_norm": 46.5,
	"learning_rate": 1.743119266055046e-05,
	"loss": 0.8605,
	"step": 381
	},
	{
	"epoch": 0.43838760579543823,
	"grad_norm": 65.0,
	"learning_rate": 1.7477064220183488e-05,
	"loss": 0.8858,
	"step": 382
	},
	{
	"epoch": 0.43953521732893414,
	"grad_norm": 87.0,
	"learning_rate": 1.7522935779816516e-05,
	"loss": 0.7342,
	"step": 383
	},
	{
	"epoch": 0.44068282886243004,
	"grad_norm": 108.5,
	"learning_rate": 1.7568807339449544e-05,
	"loss": 0.8372,
	"step": 384
	},
	{
	"epoch": 0.441830440395926,
	"grad_norm": 38.5,
	"learning_rate": 1.7614678899082572e-05,
	"loss": 1.0963,
	"step": 385
	},
	{
	"epoch": 0.4429780519294219,
	"grad_norm": 21.875,
	"learning_rate": 1.7660550458715597e-05,
	"loss": 0.737,
	"step": 386
	},
	{
	"epoch": 0.4441256634629178,
	"grad_norm": 34.25,
	"learning_rate": 1.7706422018348625e-05,
	"loss": 0.7902,
	"step": 387
	},
	{
	"epoch": 0.4452732749964137,
	"grad_norm": 116.0,
	"learning_rate": 1.7752293577981653e-05,
	"loss": 0.875,
	"step": 388
	},
	{
	"epoch": 0.44642088652990963,
	"grad_norm": 66.5,
	"learning_rate": 1.779816513761468e-05,
	"loss": 0.9535,
	"step": 389
	},
	{
	"epoch": 0.44756849806340554,
	"grad_norm": 46.25,
	"learning_rate": 1.784403669724771e-05,
	"loss": 0.7879,
	"step": 390
	},
	{
	"epoch": 0.44871610959690145,
	"grad_norm": 48.75,
	"learning_rate": 1.7889908256880734e-05,
	"loss": 0.6081,
	"step": 391
	},
	{
	"epoch": 0.44986372113039735,
	"grad_norm": 32.5,
	"learning_rate": 1.7935779816513762e-05,
	"loss": 0.6908,
	"step": 392
	},
	{
	"epoch": 0.45101133266389326,
	"grad_norm": 34.0,
	"learning_rate": 1.798165137614679e-05,
	"loss": 0.6664,
	"step": 393
	},
	{
	"epoch": 0.45215894419738917,
	"grad_norm": 74.5,
	"learning_rate": 1.8027522935779818e-05,
	"loss": 0.6012,
	"step": 394
	},
	{
	"epoch": 0.4533065557308851,
	"grad_norm": 33.25,
	"learning_rate": 1.8073394495412846e-05,
	"loss": 0.6278,
	"step": 395
	},
	{
	"epoch": 0.454454167264381,
	"grad_norm": 19.25,
	"learning_rate": 1.811926605504587e-05,
	"loss": 0.6279,
	"step": 396
	},
	{
	"epoch": 0.45560177879787694,
	"grad_norm": 33.5,
	"learning_rate": 1.81651376146789e-05,
	"loss": 0.689,
	"step": 397
	},
	{
	"epoch": 0.45674939033137285,
	"grad_norm": 34.25,
	"learning_rate": 1.821100917431193e-05,
	"loss": 0.4764,
	"step": 398
	},
	{
	"epoch": 0.45789700186486876,
	"grad_norm": 144.0,
	"learning_rate": 1.8256880733944955e-05,
	"loss": 1.3598,
	"step": 399
	},
	{
	"epoch": 0.45904461339836466,
	"grad_norm": 105.5,
	"learning_rate": 1.8302752293577983e-05,
	"loss": 0.9441,
	"step": 400
	},
	{
	"epoch": 0.45904461339836466,
	"eval_accuracy": 0.37,
	"eval_loss": 0.7958357334136963,
	"eval_runtime": 49.9294,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 2.003,
	"step": 400
	},
	{
	"epoch": 0.46019222493186057,
	"grad_norm": 125.5,
	"learning_rate": 1.834862385321101e-05,
	"loss": 1.1444,
	"step": 401
	},
	{
	"epoch": 0.4613398364653565,
	"grad_norm": 67.0,
	"learning_rate": 1.839449541284404e-05,
	"loss": 0.694,
	"step": 402
	},
	{
	"epoch": 0.4624874479988524,
	"grad_norm": 48.75,
	"learning_rate": 1.8440366972477067e-05,
	"loss": 0.7125,
	"step": 403
	},
	{
	"epoch": 0.4636350595323483,
	"grad_norm": 60.5,
	"learning_rate": 1.8486238532110092e-05,
	"loss": 0.6703,
	"step": 404
	},
	{
	"epoch": 0.4647826710658442,
	"grad_norm": 51.0,
	"learning_rate": 1.853211009174312e-05,
	"loss": 0.6631,
	"step": 405
	},
	{
	"epoch": 0.4659302825993401,
	"grad_norm": 51.75,
	"learning_rate": 1.8577981651376148e-05,
	"loss": 0.7814,
	"step": 406
	},
	{
	"epoch": 0.467077894132836,
	"grad_norm": 22.875,
	"learning_rate": 1.8623853211009176e-05,
	"loss": 0.5642,
	"step": 407
	},
	{
	"epoch": 0.4682255056663319,
	"grad_norm": 105.0,
	"learning_rate": 1.8669724770642204e-05,
	"loss": 0.884,
	"step": 408
	},
	{
	"epoch": 0.4693731171998279,
	"grad_norm": 48.5,
	"learning_rate": 1.8715596330275232e-05,
	"loss": 0.5543,
	"step": 409
	},
	{
	"epoch": 0.4705207287333238,
	"grad_norm": 26.875,
	"learning_rate": 1.8761467889908257e-05,
	"loss": 0.6461,
	"step": 410
	},
	{
	"epoch": 0.4716683402668197,
	"grad_norm": 23.125,
	"learning_rate": 1.8807339449541285e-05,
	"loss": 0.5786,
	"step": 411
	},
	{
	"epoch": 0.4728159518003156,
	"grad_norm": 37.75,
	"learning_rate": 1.8853211009174313e-05,
	"loss": 0.6921,
	"step": 412
	},
	{
	"epoch": 0.4739635633338115,
	"grad_norm": 23.625,
	"learning_rate": 1.889908256880734e-05,
	"loss": 0.4189,
	"step": 413
	},
	{
	"epoch": 0.4751111748673074,
	"grad_norm": 108.5,
	"learning_rate": 1.894495412844037e-05,
	"loss": 1.0126,
	"step": 414
	},
	{
	"epoch": 0.4762587864008033,
	"grad_norm": 138.0,
	"learning_rate": 1.8990825688073394e-05,
	"loss": 1.2399,
	"step": 415
	},
	{
	"epoch": 0.47740639793429923,
	"grad_norm": 31.375,
	"learning_rate": 1.9036697247706422e-05,
	"loss": 0.4347,
	"step": 416
	},
	{
	"epoch": 0.47855400946779514,
	"grad_norm": 120.5,
	"learning_rate": 1.9082568807339454e-05,
	"loss": 1.1874,
	"step": 417
	},
	{
	"epoch": 0.47970162100129105,
	"grad_norm": 25.5,
	"learning_rate": 1.912844036697248e-05,
	"loss": 0.6172,
	"step": 418
	},
	{
	"epoch": 0.48084923253478695,
	"grad_norm": 29.0,
	"learning_rate": 1.9174311926605506e-05,
	"loss": 0.7072,
	"step": 419
	},
	{
	"epoch": 0.48199684406828286,
	"grad_norm": 40.75,
	"learning_rate": 1.9220183486238534e-05,
	"loss": 0.8408,
	"step": 420
	},
	{
	"epoch": 0.4831444556017788,
	"grad_norm": 17.5,
	"learning_rate": 1.9266055045871563e-05,
	"loss": 0.6384,
	"step": 421
	},
	{
	"epoch": 0.48429206713527473,
	"grad_norm": 26.375,
	"learning_rate": 1.931192660550459e-05,
	"loss": 0.7132,
	"step": 422
	},
	{
	"epoch": 0.48543967866877064,
	"grad_norm": 41.0,
	"learning_rate": 1.9357798165137615e-05,
	"loss": 0.6823,
	"step": 423
	},
	{
	"epoch": 0.48658729020226654,
	"grad_norm": 36.0,
	"learning_rate": 1.9403669724770643e-05,
	"loss": 0.5629,
	"step": 424
	},
	{
	"epoch": 0.48773490173576245,
	"grad_norm": 93.5,
	"learning_rate": 1.944954128440367e-05,
	"loss": 1.028,
	"step": 425
	},
	{
	"epoch": 0.48888251326925836,
	"grad_norm": 70.5,
	"learning_rate": 1.94954128440367e-05,
	"loss": 0.7085,
	"step": 426
	},
	{
	"epoch": 0.49003012480275426,
	"grad_norm": 17.875,
	"learning_rate": 1.9541284403669728e-05,
	"loss": 0.5299,
	"step": 427
	},
	{
	"epoch": 0.49117773633625017,
	"grad_norm": 58.75,
	"learning_rate": 1.9587155963302752e-05,
	"loss": 0.9028,
	"step": 428
	},
	{
	"epoch": 0.4923253478697461,
	"grad_norm": 45.25,
	"learning_rate": 1.963302752293578e-05,
	"loss": 0.8021,
	"step": 429
	},
	{
	"epoch": 0.493472959403242,
	"grad_norm": 69.0,
	"learning_rate": 1.967889908256881e-05,
	"loss": 0.696,
	"step": 430
	},
	{
	"epoch": 0.4946205709367379,
	"grad_norm": 44.0,
	"learning_rate": 1.9724770642201837e-05,
	"loss": 0.5913,
	"step": 431
	},
	{
	"epoch": 0.49576818247023385,
	"grad_norm": 71.5,
	"learning_rate": 1.9770642201834865e-05,
	"loss": 0.8661,
	"step": 432
	},
	{
	"epoch": 0.49691579400372976,
	"grad_norm": 80.5,
	"learning_rate": 1.9816513761467893e-05,
	"loss": 1.109,
	"step": 433
	},
	{
	"epoch": 0.49806340553722567,
	"grad_norm": 86.0,
	"learning_rate": 1.9862385321100917e-05,
	"loss": 1.0316,
	"step": 434
	},
	{
	"epoch": 0.4992110170707216,
	"grad_norm": 30.375,
	"learning_rate": 1.9908256880733945e-05,
	"loss": 0.7336,
	"step": 435
	},
	{
	"epoch": 0.5003586286042174,
	"grad_norm": 42.75,
	"learning_rate": 1.9954128440366974e-05,
	"loss": 0.7081,
	"step": 436
	},
	{
	"epoch": 0.5015062401377134,
	"grad_norm": 20.75,
	"learning_rate": 2e-05,
	"loss": 0.5407,
	"step": 437
	},
	{
	"epoch": 0.5026538516712094,
	"grad_norm": 117.0,
	"learning_rate": 1.999490316004078e-05,
	"loss": 1.1049,
	"step": 438
	},
	{
	"epoch": 0.5038014632047052,
	"grad_norm": 126.5,
	"learning_rate": 1.998980632008155e-05,
	"loss": 1.1828,
	"step": 439
	},
	{
	"epoch": 0.5049490747382012,
	"grad_norm": 120.5,
	"learning_rate": 1.9984709480122327e-05,
	"loss": 1.3274,
	"step": 440
	},
	{
	"epoch": 0.506096686271697,
	"grad_norm": 80.0,
	"learning_rate": 1.99796126401631e-05,
	"loss": 0.9327,
	"step": 441
	},
	{
	"epoch": 0.507244297805193,
	"grad_norm": 105.0,
	"learning_rate": 1.9974515800203875e-05,
	"loss": 1.1003,
	"step": 442
	},
	{
	"epoch": 0.5083919093386888,
	"grad_norm": 106.5,
	"learning_rate": 1.9969418960244652e-05,
	"loss": 1.0261,
	"step": 443
	},
	{
	"epoch": 0.5095395208721848,
	"grad_norm": 36.5,
	"learning_rate": 1.9964322120285426e-05,
	"loss": 0.695,
	"step": 444
	},
	{
	"epoch": 0.5106871324056806,
	"grad_norm": 15.8125,
	"learning_rate": 1.99592252803262e-05,
	"loss": 0.6983,
	"step": 445
	},
	{
	"epoch": 0.5118347439391766,
	"grad_norm": 53.5,
	"learning_rate": 1.9954128440366974e-05,
	"loss": 0.7186,
	"step": 446
	},
	{
	"epoch": 0.5129823554726725,
	"grad_norm": 12.25,
	"learning_rate": 1.9949031600407747e-05,
	"loss": 0.6272,
	"step": 447
	},
	{
	"epoch": 0.5141299670061684,
	"grad_norm": 16.125,
	"learning_rate": 1.9943934760448525e-05,
	"loss": 0.5849,
	"step": 448
	},
	{
	"epoch": 0.5152775785396643,
	"grad_norm": 36.25,
	"learning_rate": 1.99388379204893e-05,
	"loss": 0.5905,
	"step": 449
	},
	{
	"epoch": 0.5164251900731602,
	"grad_norm": 24.25,
	"learning_rate": 1.9933741080530073e-05,
	"loss": 0.4751,
	"step": 450
	},
	{
	"epoch": 0.5175728016066562,
	"grad_norm": 15.9375,
	"learning_rate": 1.9928644240570846e-05,
	"loss": 0.4372,
	"step": 451
	},
	{
	"epoch": 0.518720413140152,
	"grad_norm": 18.375,
	"learning_rate": 1.9923547400611624e-05,
	"loss": 0.6552,
	"step": 452
	},
	{
	"epoch": 0.519868024673648,
	"grad_norm": 13.6875,
	"learning_rate": 1.9918450560652398e-05,
	"loss": 0.6515,
	"step": 453
	},
	{
	"epoch": 0.5210156362071439,
	"grad_norm": 13.6875,
	"learning_rate": 1.991335372069317e-05,
	"loss": 0.5219,
	"step": 454
	},
	{
	"epoch": 0.5221632477406398,
	"grad_norm": 70.0,
	"learning_rate": 1.9908256880733945e-05,
	"loss": 0.694,
	"step": 455
	},
	{
	"epoch": 0.5233108592741357,
	"grad_norm": 47.75,
	"learning_rate": 1.990316004077472e-05,
	"loss": 1.0051,
	"step": 456
	},
	{
	"epoch": 0.5244584708076316,
	"grad_norm": 98.5,
	"learning_rate": 1.9898063200815497e-05,
	"loss": 0.8809,
	"step": 457
	},
	{
	"epoch": 0.5256060823411275,
	"grad_norm": 22.875,
	"learning_rate": 1.989296636085627e-05,
	"loss": 0.6882,
	"step": 458
	},
	{
	"epoch": 0.5267536938746235,
	"grad_norm": 103.0,
	"learning_rate": 1.9887869520897044e-05,
	"loss": 0.8227,
	"step": 459
	},
	{
	"epoch": 0.5279013054081193,
	"grad_norm": 41.5,
	"learning_rate": 1.9882772680937822e-05,
	"loss": 0.5851,
	"step": 460
	},
	{
	"epoch": 0.5290489169416153,
	"grad_norm": 16.125,
	"learning_rate": 1.9877675840978596e-05,
	"loss": 0.6286,
	"step": 461
	},
	{
	"epoch": 0.5301965284751112,
	"grad_norm": 40.0,
	"learning_rate": 1.987257900101937e-05,
	"loss": 0.3909,
	"step": 462
	},
	{
	"epoch": 0.5313441400086071,
	"grad_norm": 180.0,
	"learning_rate": 1.9867482161060147e-05,
	"loss": 1.4089,
	"step": 463
	},
	{
	"epoch": 0.532491751542103,
	"grad_norm": 67.5,
	"learning_rate": 1.9862385321100917e-05,
	"loss": 0.7342,
	"step": 464
	},
	{
	"epoch": 0.5336393630755989,
	"grad_norm": 146.0,
	"learning_rate": 1.9857288481141695e-05,
	"loss": 1.1024,
	"step": 465
	},
	{
	"epoch": 0.5347869746090949,
	"grad_norm": 112.0,
	"learning_rate": 1.985219164118247e-05,
	"loss": 0.7631,
	"step": 466
	},
	{
	"epoch": 0.5359345861425907,
	"grad_norm": 51.25,
	"learning_rate": 1.9847094801223243e-05,
	"loss": 0.8592,
	"step": 467
	},
	{
	"epoch": 0.5370821976760867,
	"grad_norm": 53.5,
	"learning_rate": 1.984199796126402e-05,
	"loss": 0.772,
	"step": 468
	},
	{
	"epoch": 0.5382298092095825,
	"grad_norm": 168.0,
	"learning_rate": 1.9836901121304794e-05,
	"loss": 1.3238,
	"step": 469
	},
	{
	"epoch": 0.5393774207430785,
	"grad_norm": 56.25,
	"learning_rate": 1.9831804281345568e-05,
	"loss": 0.686,
	"step": 470
	},
	{
	"epoch": 0.5405250322765743,
	"grad_norm": 140.0,
	"learning_rate": 1.982670744138634e-05,
	"loss": 1.3487,
	"step": 471
	},
	{
	"epoch": 0.5416726438100703,
	"grad_norm": 26.25,
	"learning_rate": 1.9821610601427115e-05,
	"loss": 0.654,
	"step": 472
	},
	{
	"epoch": 0.5428202553435661,
	"grad_norm": 96.0,
	"learning_rate": 1.9816513761467893e-05,
	"loss": 0.8932,
	"step": 473
	},
	{
	"epoch": 0.5439678668770621,
	"grad_norm": 118.5,
	"learning_rate": 1.9811416921508667e-05,
	"loss": 0.9886,
	"step": 474
	},
	{
	"epoch": 0.5451154784105581,
	"grad_norm": 34.75,
	"learning_rate": 1.980632008154944e-05,
	"loss": 0.5023,
	"step": 475
	},
	{
	"epoch": 0.5462630899440539,
	"grad_norm": 28.125,
	"learning_rate": 1.9801223241590214e-05,
	"loss": 0.4678,
	"step": 476
	},
	{
	"epoch": 0.5474107014775499,
	"grad_norm": 27.875,
	"learning_rate": 1.9796126401630992e-05,
	"loss": 0.5802,
	"step": 477
	},
	{
	"epoch": 0.5485583130110457,
	"grad_norm": 9.5625,
	"learning_rate": 1.9791029561671766e-05,
	"loss": 0.3969,
	"step": 478
	},
	{
	"epoch": 0.5497059245445417,
	"grad_norm": 30.875,
	"learning_rate": 1.978593272171254e-05,
	"loss": 0.4119,
	"step": 479
	},
	{
	"epoch": 0.5508535360780376,
	"grad_norm": 17.25,
	"learning_rate": 1.9780835881753317e-05,
	"loss": 0.5645,
	"step": 480
	},
	{
	"epoch": 0.5520011476115335,
	"grad_norm": 47.75,
	"learning_rate": 1.9775739041794087e-05,
	"loss": 0.6168,
	"step": 481
	},
	{
	"epoch": 0.5531487591450294,
	"grad_norm": 14.1875,
	"learning_rate": 1.9770642201834865e-05,
	"loss": 0.5325,
	"step": 482
	},
	{
	"epoch": 0.5542963706785253,
	"grad_norm": 41.25,
	"learning_rate": 1.976554536187564e-05,
	"loss": 0.5013,
	"step": 483
	},
	{
	"epoch": 0.5554439822120212,
	"grad_norm": 18.75,
	"learning_rate": 1.9760448521916412e-05,
	"loss": 0.4441,
	"step": 484
	},
	{
	"epoch": 0.5565915937455171,
	"grad_norm": 147.0,
	"learning_rate": 1.975535168195719e-05,
	"loss": 1.585,
	"step": 485
	},
	{
	"epoch": 0.5577392052790131,
	"grad_norm": 64.0,
	"learning_rate": 1.9750254841997964e-05,
	"loss": 0.958,
	"step": 486
	},
	{
	"epoch": 0.558886816812509,
	"grad_norm": 135.0,
	"learning_rate": 1.9745158002038738e-05,
	"loss": 1.4838,
	"step": 487
	},
	{
	"epoch": 0.5600344283460049,
	"grad_norm": 141.0,
	"learning_rate": 1.974006116207951e-05,
	"loss": 1.6651,
	"step": 488
	},
	{
	"epoch": 0.5611820398795008,
	"grad_norm": 108.0,
	"learning_rate": 1.9734964322120285e-05,
	"loss": 0.9729,
	"step": 489
	},
	{
	"epoch": 0.5623296514129967,
	"grad_norm": 35.25,
	"learning_rate": 1.9729867482161063e-05,
	"loss": 0.5966,
	"step": 490
	},
	{
	"epoch": 0.5634772629464926,
	"grad_norm": 34.5,
	"learning_rate": 1.9724770642201837e-05,
	"loss": 0.7337,
	"step": 491
	},
	{
	"epoch": 0.5646248744799885,
	"grad_norm": 19.875,
	"learning_rate": 1.971967380224261e-05,
	"loss": 0.4022,
	"step": 492
	},
	{
	"epoch": 0.5657724860134844,
	"grad_norm": 29.375,
	"learning_rate": 1.9714576962283384e-05,
	"loss": 0.618,
	"step": 493
	},
	{
	"epoch": 0.5669200975469804,
	"grad_norm": 75.5,
	"learning_rate": 1.970948012232416e-05,
	"loss": 0.6627,
	"step": 494
	},
	{
	"epoch": 0.5680677090804762,
	"grad_norm": 104.5,
	"learning_rate": 1.9704383282364936e-05,
	"loss": 0.9524,
	"step": 495
	},
	{
	"epoch": 0.5692153206139722,
	"grad_norm": 91.0,
	"learning_rate": 1.969928644240571e-05,
	"loss": 0.7282,
	"step": 496
	},
	{
	"epoch": 0.570362932147468,
	"grad_norm": 95.5,
	"learning_rate": 1.9694189602446487e-05,
	"loss": 0.9184,
	"step": 497
	},
	{
	"epoch": 0.571510543680964,
	"grad_norm": 23.625,
	"learning_rate": 1.9689092762487257e-05,
	"loss": 0.6252,
	"step": 498
	},
	{
	"epoch": 0.57265815521446,
	"grad_norm": 55.25,
	"learning_rate": 1.9683995922528035e-05,
	"loss": 0.77,
	"step": 499
	},
	{
	"epoch": 0.5738057667479558,
	"grad_norm": 49.75,
	"learning_rate": 1.967889908256881e-05,
	"loss": 0.5024,
	"step": 500
	},
	{
	"epoch": 0.5738057667479558,
	"eval_accuracy": 0.56,
	"eval_loss": 0.5818310379981995,
	"eval_runtime": 49.317,
	"eval_samples_per_second": 2.028,
	"eval_steps_per_second": 2.028,
	"step": 500
	},
	{
	"epoch": 0.5749533782814518,
	"grad_norm": 72.0,
	"learning_rate": 1.9673802242609582e-05,
	"loss": 0.5565,
	"step": 501
	},
	{
	"epoch": 0.5761009898149476,
	"grad_norm": 17.0,
	"learning_rate": 1.966870540265036e-05,
	"loss": 0.5465,
	"step": 502
	},
	{
	"epoch": 0.5772486013484436,
	"grad_norm": 16.5,
	"learning_rate": 1.9663608562691134e-05,
	"loss": 0.7208,
	"step": 503
	},
	{
	"epoch": 0.5783962128819394,
	"grad_norm": 13.75,
	"learning_rate": 1.9658511722731907e-05,
	"loss": 0.5784,
	"step": 504
	},
	{
	"epoch": 0.5795438244154354,
	"grad_norm": 17.875,
	"learning_rate": 1.9653414882772685e-05,
	"loss": 0.7433,
	"step": 505
	},
	{
	"epoch": 0.5806914359489312,
	"grad_norm": 55.5,
	"learning_rate": 1.9648318042813455e-05,
	"loss": 0.5593,
	"step": 506
	},
	{
	"epoch": 0.5818390474824272,
	"grad_norm": 26.0,
	"learning_rate": 1.9643221202854233e-05,
	"loss": 0.4981,
	"step": 507
	},
	{
	"epoch": 0.5829866590159231,
	"grad_norm": 45.5,
	"learning_rate": 1.9638124362895006e-05,
	"loss": 0.6998,
	"step": 508
	},
	{
	"epoch": 0.584134270549419,
	"grad_norm": 64.5,
	"learning_rate": 1.963302752293578e-05,
	"loss": 0.331,
	"step": 509
	},
	{
	"epoch": 0.585281882082915,
	"grad_norm": 15.75,
	"learning_rate": 1.9627930682976558e-05,
	"loss": 0.5757,
	"step": 510
	},
	{
	"epoch": 0.5864294936164108,
	"grad_norm": 78.0,
	"learning_rate": 1.962283384301733e-05,
	"loss": 0.5458,
	"step": 511
	},
	{
	"epoch": 0.5875771051499068,
	"grad_norm": 12.6875,
	"learning_rate": 1.9617737003058106e-05,
	"loss": 0.4577,
	"step": 512
	},
	{
	"epoch": 0.5887247166834026,
	"grad_norm": 94.5,
	"learning_rate": 1.961264016309888e-05,
	"loss": 1.0295,
	"step": 513
	},
	{
	"epoch": 0.5898723282168986,
	"grad_norm": 62.75,
	"learning_rate": 1.9607543323139657e-05,
	"loss": 0.6586,
	"step": 514
	},
	{
	"epoch": 0.5910199397503945,
	"grad_norm": 12.8125,
	"learning_rate": 1.960244648318043e-05,
	"loss": 0.4499,
	"step": 515
	},
	{
	"epoch": 0.5921675512838904,
	"grad_norm": 41.25,
	"learning_rate": 1.9597349643221205e-05,
	"loss": 0.6115,
	"step": 516
	},
	{
	"epoch": 0.5933151628173863,
	"grad_norm": 33.5,
	"learning_rate": 1.959225280326198e-05,
	"loss": 0.6823,
	"step": 517
	},
	{
	"epoch": 0.5944627743508822,
	"grad_norm": 67.5,
	"learning_rate": 1.9587155963302752e-05,
	"loss": 0.7254,
	"step": 518
	},
	{
	"epoch": 0.5956103858843781,
	"grad_norm": 21.75,
	"learning_rate": 1.958205912334353e-05,
	"loss": 0.6258,
	"step": 519
	},
	{
	"epoch": 0.596757997417874,
	"grad_norm": 20.125,
	"learning_rate": 1.9576962283384304e-05,
	"loss": 0.782,
	"step": 520
	},
	{
	"epoch": 0.59790560895137,
	"grad_norm": 55.0,
	"learning_rate": 1.9571865443425077e-05,
	"loss": 0.6427,
	"step": 521
	},
	{
	"epoch": 0.5990532204848659,
	"grad_norm": 21.375,
	"learning_rate": 1.9566768603465855e-05,
	"loss": 0.5042,
	"step": 522
	},
	{
	"epoch": 0.6002008320183618,
	"grad_norm": 84.0,
	"learning_rate": 1.9561671763506625e-05,
	"loss": 0.7413,
	"step": 523
	},
	{
	"epoch": 0.6013484435518577,
	"grad_norm": 32.25,
	"learning_rate": 1.9556574923547403e-05,
	"loss": 0.4809,
	"step": 524
	},
	{
	"epoch": 0.6024960550853536,
	"grad_norm": 29.25,
	"learning_rate": 1.9551478083588176e-05,
	"loss": 0.5245,
	"step": 525
	},
	{
	"epoch": 0.6036436666188495,
	"grad_norm": 115.0,
	"learning_rate": 1.954638124362895e-05,
	"loss": 1.0439,
	"step": 526
	},
	{
	"epoch": 0.6047912781523455,
	"grad_norm": 155.0,
	"learning_rate": 1.9541284403669728e-05,
	"loss": 1.6477,
	"step": 527
	},
	{
	"epoch": 0.6059388896858413,
	"grad_norm": 39.25,
	"learning_rate": 1.95361875637105e-05,
	"loss": 0.555,
	"step": 528
	},
	{
	"epoch": 0.6070865012193373,
	"grad_norm": 23.0,
	"learning_rate": 1.9531090723751275e-05,
	"loss": 0.478,
	"step": 529
	},
	{
	"epoch": 0.6082341127528331,
	"grad_norm": 43.25,
	"learning_rate": 1.9525993883792053e-05,
	"loss": 0.6068,
	"step": 530
	},
	{
	"epoch": 0.6093817242863291,
	"grad_norm": 44.5,
	"learning_rate": 1.9520897043832823e-05,
	"loss": 0.248,
	"step": 531
	},
	{
	"epoch": 0.6105293358198249,
	"grad_norm": 20.75,
	"learning_rate": 1.95158002038736e-05,
	"loss": 0.4505,
	"step": 532
	},
	{
	"epoch": 0.6116769473533209,
	"grad_norm": 41.5,
	"learning_rate": 1.9510703363914374e-05,
	"loss": 0.3902,
	"step": 533
	},
	{
	"epoch": 0.6128245588868169,
	"grad_norm": 38.75,
	"learning_rate": 1.950560652395515e-05,
	"loss": 0.5029,
	"step": 534
	},
	{
	"epoch": 0.6139721704203127,
	"grad_norm": 131.0,
	"learning_rate": 1.9500509683995926e-05,
	"loss": 1.2225,
	"step": 535
	},
	{
	"epoch": 0.6151197819538087,
	"grad_norm": 85.5,
	"learning_rate": 1.94954128440367e-05,
	"loss": 0.8337,
	"step": 536
	},
	{
	"epoch": 0.6162673934873045,
	"grad_norm": 43.25,
	"learning_rate": 1.9490316004077473e-05,
	"loss": 0.5878,
	"step": 537
	},
	{
	"epoch": 0.6174150050208005,
	"grad_norm": 12.875,
	"learning_rate": 1.9485219164118247e-05,
	"loss": 0.4961,
	"step": 538
	},
	{
	"epoch": 0.6185626165542963,
	"grad_norm": 77.0,
	"learning_rate": 1.9480122324159025e-05,
	"loss": 0.9027,
	"step": 539
	},
	{
	"epoch": 0.6197102280877923,
	"grad_norm": 46.5,
	"learning_rate": 1.94750254841998e-05,
	"loss": 0.7113,
	"step": 540
	},
	{
	"epoch": 0.6208578396212882,
	"grad_norm": 77.5,
	"learning_rate": 1.9469928644240572e-05,
	"loss": 0.7001,
	"step": 541
	},
	{
	"epoch": 0.6220054511547841,
	"grad_norm": 68.5,
	"learning_rate": 1.9464831804281346e-05,
	"loss": 0.6916,
	"step": 542
	},
	{
	"epoch": 0.62315306268828,
	"grad_norm": 77.0,
	"learning_rate": 1.945973496432212e-05,
	"loss": 0.7548,
	"step": 543
	},
	{
	"epoch": 0.6243006742217759,
	"grad_norm": 85.0,
	"learning_rate": 1.9454638124362898e-05,
	"loss": 0.8164,
	"step": 544
	},
	{
	"epoch": 0.6254482857552719,
	"grad_norm": 15.0625,
	"learning_rate": 1.944954128440367e-05,
	"loss": 0.603,
	"step": 545
	},
	{
	"epoch": 0.6265958972887677,
	"grad_norm": 23.25,
	"learning_rate": 1.9444444444444445e-05,
	"loss": 0.4311,
	"step": 546
	},
	{
	"epoch": 0.6277435088222637,
	"grad_norm": 10.1875,
	"learning_rate": 1.9439347604485223e-05,
	"loss": 0.3436,
	"step": 547
	},
	{
	"epoch": 0.6288911203557596,
	"grad_norm": 75.0,
	"learning_rate": 1.9434250764525993e-05,
	"loss": 0.8814,
	"step": 548
	},
	{
	"epoch": 0.6300387318892555,
	"grad_norm": 62.0,
	"learning_rate": 1.942915392456677e-05,
	"loss": 0.939,
	"step": 549
	},
	{
	"epoch": 0.6311863434227514,
	"grad_norm": 52.0,
	"learning_rate": 1.9424057084607544e-05,
	"loss": 0.411,
	"step": 550
	},
	{
	"epoch": 0.6323339549562473,
	"grad_norm": 127.5,
	"learning_rate": 1.9418960244648318e-05,
	"loss": 1.655,
	"step": 551
	},
	{
	"epoch": 0.6334815664897432,
	"grad_norm": 96.0,
	"learning_rate": 1.9413863404689096e-05,
	"loss": 1.4065,
	"step": 552
	},
	{
	"epoch": 0.6346291780232391,
	"grad_norm": 52.5,
	"learning_rate": 1.940876656472987e-05,
	"loss": 0.7391,
	"step": 553
	},
	{
	"epoch": 0.635776789556735,
	"grad_norm": 78.0,
	"learning_rate": 1.9403669724770643e-05,
	"loss": 0.9576,
	"step": 554
	},
	{
	"epoch": 0.636924401090231,
	"grad_norm": 91.0,
	"learning_rate": 1.9398572884811417e-05,
	"loss": 1.0132,
	"step": 555
	},
	{
	"epoch": 0.6380720126237268,
	"grad_norm": 14.8125,
	"learning_rate": 1.9393476044852195e-05,
	"loss": 0.734,
	"step": 556
	},
	{
	"epoch": 0.6392196241572228,
	"grad_norm": 63.75,
	"learning_rate": 1.938837920489297e-05,
	"loss": 0.6127,
	"step": 557
	},
	{
	"epoch": 0.6403672356907187,
	"grad_norm": 19.625,
	"learning_rate": 1.9383282364933742e-05,
	"loss": 0.5999,
	"step": 558
	},
	{
	"epoch": 0.6415148472242146,
	"grad_norm": 21.625,
	"learning_rate": 1.9378185524974516e-05,
	"loss": 0.7446,
	"step": 559
	},
	{
	"epoch": 0.6426624587577106,
	"grad_norm": 26.375,
	"learning_rate": 1.937308868501529e-05,
	"loss": 0.6067,
	"step": 560
	},
	{
	"epoch": 0.6438100702912064,
	"grad_norm": 130.0,
	"learning_rate": 1.9367991845056068e-05,
	"loss": 1.0849,
	"step": 561
	},
	{
	"epoch": 0.6449576818247024,
	"grad_norm": 26.875,
	"learning_rate": 1.936289500509684e-05,
	"loss": 0.4882,
	"step": 562
	},
	{
	"epoch": 0.6461052933581982,
	"grad_norm": 13.375,
	"learning_rate": 1.9357798165137615e-05,
	"loss": 0.6071,
	"step": 563
	},
	{
	"epoch": 0.6472529048916942,
	"grad_norm": 23.625,
	"learning_rate": 1.9352701325178393e-05,
	"loss": 0.7541,
	"step": 564
	},
	{
	"epoch": 0.64840051642519,
	"grad_norm": 22.5,
	"learning_rate": 1.9347604485219163e-05,
	"loss": 0.6343,
	"step": 565
	},
	{
	"epoch": 0.649548127958686,
	"grad_norm": 37.75,
	"learning_rate": 1.934250764525994e-05,
	"loss": 0.629,
	"step": 566
	},
	{
	"epoch": 0.6506957394921818,
	"grad_norm": 33.25,
	"learning_rate": 1.9337410805300714e-05,
	"loss": 0.6112,
	"step": 567
	},
	{
	"epoch": 0.6518433510256778,
	"grad_norm": 23.625,
	"learning_rate": 1.9332313965341488e-05,
	"loss": 0.6854,
	"step": 568
	},
	{
	"epoch": 0.6529909625591738,
	"grad_norm": 25.125,
	"learning_rate": 1.9327217125382266e-05,
	"loss": 0.5574,
	"step": 569
	},
	{
	"epoch": 0.6541385740926696,
	"grad_norm": 22.125,
	"learning_rate": 1.932212028542304e-05,
	"loss": 0.4604,
	"step": 570
	},
	{
	"epoch": 0.6552861856261656,
	"grad_norm": 10.625,
	"learning_rate": 1.9317023445463813e-05,
	"loss": 0.409,
	"step": 571
	},
	{
	"epoch": 0.6564337971596614,
	"grad_norm": 11.375,
	"learning_rate": 1.931192660550459e-05,
	"loss": 0.4102,
	"step": 572
	},
	{
	"epoch": 0.6575814086931574,
	"grad_norm": 74.5,
	"learning_rate": 1.9306829765545365e-05,
	"loss": 0.5481,
	"step": 573
	},
	{
	"epoch": 0.6587290202266533,
	"grad_norm": 109.5,
	"learning_rate": 1.930173292558614e-05,
	"loss": 0.886,
	"step": 574
	},
	{
	"epoch": 0.6598766317601492,
	"grad_norm": 48.75,
	"learning_rate": 1.9296636085626912e-05,
	"loss": 0.6536,
	"step": 575
	},
	{
	"epoch": 0.6610242432936451,
	"grad_norm": 57.75,
	"learning_rate": 1.9291539245667686e-05,
	"loss": 0.902,
	"step": 576
	},
	{
	"epoch": 0.662171854827141,
	"grad_norm": 61.5,
	"learning_rate": 1.9286442405708464e-05,
	"loss": 0.7151,
	"step": 577
	},
	{
	"epoch": 0.6633194663606369,
	"grad_norm": 36.25,
	"learning_rate": 1.9281345565749237e-05,
	"loss": 0.6232,
	"step": 578
	},
	{
	"epoch": 0.6644670778941328,
	"grad_norm": 11.6875,
	"learning_rate": 1.927624872579001e-05,
	"loss": 0.3918,
	"step": 579
	},
	{
	"epoch": 0.6656146894276288,
	"grad_norm": 13.9375,
	"learning_rate": 1.9271151885830785e-05,
	"loss": 0.7175,
	"step": 580
	},
	{
	"epoch": 0.6667623009611247,
	"grad_norm": 17.875,
	"learning_rate": 1.9266055045871563e-05,
	"loss": 0.7939,
	"step": 581
	},
	{
	"epoch": 0.6679099124946206,
	"grad_norm": 13.9375,
	"learning_rate": 1.9260958205912336e-05,
	"loss": 0.6663,
	"step": 582
	},
	{
	"epoch": 0.6690575240281165,
	"grad_norm": 17.75,
	"learning_rate": 1.925586136595311e-05,
	"loss": 0.512,
	"step": 583
	},
	{
	"epoch": 0.6702051355616124,
	"grad_norm": 24.625,
	"learning_rate": 1.9250764525993884e-05,
	"loss": 0.8056,
	"step": 584
	},
	{
	"epoch": 0.6713527470951083,
	"grad_norm": 46.75,
	"learning_rate": 1.9245667686034658e-05,
	"loss": 0.6661,
	"step": 585
	},
	{
	"epoch": 0.6725003586286042,
	"grad_norm": 23.5,
	"learning_rate": 1.9240570846075435e-05,
	"loss": 0.6705,
	"step": 586
	},
	{
	"epoch": 0.6736479701621001,
	"grad_norm": 55.5,
	"learning_rate": 1.923547400611621e-05,
	"loss": 0.7411,
	"step": 587
	},
	{
	"epoch": 0.6747955816955961,
	"grad_norm": 34.25,
	"learning_rate": 1.9230377166156983e-05,
	"loss": 0.6056,
	"step": 588
	},
	{
	"epoch": 0.6759431932290919,
	"grad_norm": 107.5,
	"learning_rate": 1.922528032619776e-05,
	"loss": 0.9975,
	"step": 589
	},
	{
	"epoch": 0.6770908047625879,
	"grad_norm": 14.1875,
	"learning_rate": 1.9220183486238534e-05,
	"loss": 0.5988,
	"step": 590
	},
	{
	"epoch": 0.6782384162960837,
	"grad_norm": 132.0,
	"learning_rate": 1.921508664627931e-05,
	"loss": 1.1598,
	"step": 591
	},
	{
	"epoch": 0.6793860278295797,
	"grad_norm": 15.6875,
	"learning_rate": 1.9209989806320086e-05,
	"loss": 0.4172,
	"step": 592
	},
	{
	"epoch": 0.6805336393630756,
	"grad_norm": 38.25,
	"learning_rate": 1.9204892966360856e-05,
	"loss": 0.5714,
	"step": 593
	},
	{
	"epoch": 0.6816812508965715,
	"grad_norm": 14.0,
	"learning_rate": 1.9199796126401633e-05,
	"loss": 0.4887,
	"step": 594
	},
	{
	"epoch": 0.6828288624300675,
	"grad_norm": 41.5,
	"learning_rate": 1.9194699286442407e-05,
	"loss": 0.6648,
	"step": 595
	},
	{
	"epoch": 0.6839764739635633,
	"grad_norm": 13.875,
	"learning_rate": 1.918960244648318e-05,
	"loss": 0.6589,
	"step": 596
	},
	{
	"epoch": 0.6851240854970593,
	"grad_norm": 35.0,
	"learning_rate": 1.918450560652396e-05,
	"loss": 1.0174,
	"step": 597
	},
	{
	"epoch": 0.6862716970305551,
	"grad_norm": 27.875,
	"learning_rate": 1.9179408766564732e-05,
	"loss": 0.7711,
	"step": 598
	},
	{
	"epoch": 0.6874193085640511,
	"grad_norm": 48.25,
	"learning_rate": 1.9174311926605506e-05,
	"loss": 0.4402,
	"step": 599
	},
	{
	"epoch": 0.6885669200975469,
	"grad_norm": 49.0,
	"learning_rate": 1.916921508664628e-05,
	"loss": 0.4483,
	"step": 600
	},
	{
	"epoch": 0.6885669200975469,
	"eval_accuracy": 0.63,
	"eval_loss": 0.6301568150520325,
	"eval_runtime": 49.333,
	"eval_samples_per_second": 2.027,
	"eval_steps_per_second": 2.027,
	"step": 600
	},
	{
	"epoch": 0.6897145316310429,
	"grad_norm": 30.25,
	"learning_rate": 1.9164118246687054e-05,
	"loss": 0.4694,
	"step": 601
	},
	{
	"epoch": 0.6908621431645388,
	"grad_norm": 29.875,
	"learning_rate": 1.915902140672783e-05,
	"loss": 0.374,
	"step": 602
	},
	{
	"epoch": 0.6920097546980347,
	"grad_norm": 70.5,
	"learning_rate": 1.9153924566768605e-05,
	"loss": 0.941,
	"step": 603
	},
	{
	"epoch": 0.6931573662315307,
	"grad_norm": 87.0,
	"learning_rate": 1.914882772680938e-05,
	"loss": 0.906,
	"step": 604
	},
	{
	"epoch": 0.6943049777650265,
	"grad_norm": 14.0625,
	"learning_rate": 1.9143730886850153e-05,
	"loss": 0.406,
	"step": 605
	},
	{
	"epoch": 0.6954525892985225,
	"grad_norm": 55.25,
	"learning_rate": 1.913863404689093e-05,
	"loss": 0.779,
	"step": 606
	},
	{
	"epoch": 0.6966002008320183,
	"grad_norm": 36.5,
	"learning_rate": 1.9133537206931704e-05,
	"loss": 0.5805,
	"step": 607
	},
	{
	"epoch": 0.6977478123655143,
	"grad_norm": 23.75,
	"learning_rate": 1.912844036697248e-05,
	"loss": 0.6406,
	"step": 608
	},
	{
	"epoch": 0.6988954238990102,
	"grad_norm": 39.25,
	"learning_rate": 1.9123343527013256e-05,
	"loss": 0.4615,
	"step": 609
	},
	{
	"epoch": 0.7000430354325061,
	"grad_norm": 67.5,
	"learning_rate": 1.9118246687054026e-05,
	"loss": 0.8637,
	"step": 610
	},
	{
	"epoch": 0.701190646966002,
	"grad_norm": 22.5,
	"learning_rate": 1.9113149847094803e-05,
	"loss": 0.4727,
	"step": 611
	},
	{
	"epoch": 0.7023382584994979,
	"grad_norm": 27.125,
	"learning_rate": 1.9108053007135577e-05,
	"loss": 0.6226,
	"step": 612
	},
	{
	"epoch": 0.7034858700329938,
	"grad_norm": 62.5,
	"learning_rate": 1.910295616717635e-05,
	"loss": 0.6596,
	"step": 613
	},
	{
	"epoch": 0.7046334815664897,
	"grad_norm": 40.0,
	"learning_rate": 1.909785932721713e-05,
	"loss": 0.5424,
	"step": 614
	},
	{
	"epoch": 0.7057810930999856,
	"grad_norm": 62.5,
	"learning_rate": 1.9092762487257902e-05,
	"loss": 0.6348,
	"step": 615
	},
	{
	"epoch": 0.7069287046334816,
	"grad_norm": 80.5,
	"learning_rate": 1.9087665647298676e-05,
	"loss": 0.9329,
	"step": 616
	},
	{
	"epoch": 0.7080763161669775,
	"grad_norm": 101.5,
	"learning_rate": 1.9082568807339454e-05,
	"loss": 1.0578,
	"step": 617
	},
	{
	"epoch": 0.7092239277004734,
	"grad_norm": 23.375,
	"learning_rate": 1.9077471967380224e-05,
	"loss": 0.6725,
	"step": 618
	},
	{
	"epoch": 0.7103715392339693,
	"grad_norm": 42.0,
	"learning_rate": 1.9072375127421e-05,
	"loss": 0.6087,
	"step": 619
	},
	{
	"epoch": 0.7115191507674652,
	"grad_norm": 37.0,
	"learning_rate": 1.9067278287461775e-05,
	"loss": 0.6237,
	"step": 620
	},
	{
	"epoch": 0.7126667623009612,
	"grad_norm": 18.5,
	"learning_rate": 1.906218144750255e-05,
	"loss": 0.6327,
	"step": 621
	},
	{
	"epoch": 0.713814373834457,
	"grad_norm": 27.375,
	"learning_rate": 1.9057084607543327e-05,
	"loss": 0.7476,
	"step": 622
	},
	{
	"epoch": 0.714961985367953,
	"grad_norm": 28.25,
	"learning_rate": 1.90519877675841e-05,
	"loss": 0.7312,
	"step": 623
	},
	{
	"epoch": 0.7161095969014488,
	"grad_norm": 57.75,
	"learning_rate": 1.9046890927624874e-05,
	"loss": 0.6385,
	"step": 624
	},
	{
	"epoch": 0.7172572084349448,
	"grad_norm": 61.75,
	"learning_rate": 1.9041794087665648e-05,
	"loss": 0.3454,
	"step": 625
	},
	{
	"epoch": 0.7184048199684406,
	"grad_norm": 39.0,
	"learning_rate": 1.9036697247706422e-05,
	"loss": 0.6641,
	"step": 626
	},
	{
	"epoch": 0.7195524315019366,
	"grad_norm": 62.5,
	"learning_rate": 1.9031600407747196e-05,
	"loss": 0.8142,
	"step": 627
	},
	{
	"epoch": 0.7207000430354326,
	"grad_norm": 16.375,
	"learning_rate": 1.9026503567787973e-05,
	"loss": 0.6127,
	"step": 628
	},
	{
	"epoch": 0.7218476545689284,
	"grad_norm": 57.75,
	"learning_rate": 1.9021406727828747e-05,
	"loss": 0.7968,
	"step": 629
	},
	{
	"epoch": 0.7229952661024244,
	"grad_norm": 25.375,
	"learning_rate": 1.901630988786952e-05,
	"loss": 0.4927,
	"step": 630
	},
	{
	"epoch": 0.7241428776359202,
	"grad_norm": 48.25,
	"learning_rate": 1.90112130479103e-05,
	"loss": 0.6833,
	"step": 631
	},
	{
	"epoch": 0.7252904891694162,
	"grad_norm": 54.75,
	"learning_rate": 1.9006116207951072e-05,
	"loss": 0.6494,
	"step": 632
	},
	{
	"epoch": 0.726438100702912,
	"grad_norm": 54.5,
	"learning_rate": 1.9001019367991846e-05,
	"loss": 0.2914,
	"step": 633
	},
	{
	"epoch": 0.727585712236408,
	"grad_norm": 10.125,
	"learning_rate": 1.8995922528032624e-05,
	"loss": 0.745,
	"step": 634
	},
	{
	"epoch": 0.7287333237699039,
	"grad_norm": 45.75,
	"learning_rate": 1.8990825688073394e-05,
	"loss": 0.8078,
	"step": 635
	},
	{
	"epoch": 0.7298809353033998,
	"grad_norm": 95.0,
	"learning_rate": 1.898572884811417e-05,
	"loss": 0.9361,
	"step": 636
	},
	{
	"epoch": 0.7310285468368957,
	"grad_norm": 64.5,
	"learning_rate": 1.8980632008154945e-05,
	"loss": 0.5982,
	"step": 637
	},
	{
	"epoch": 0.7321761583703916,
	"grad_norm": 22.25,
	"learning_rate": 1.897553516819572e-05,
	"loss": 0.5722,
	"step": 638
	},
	{
	"epoch": 0.7333237699038875,
	"grad_norm": 51.5,
	"learning_rate": 1.8970438328236496e-05,
	"loss": 0.7216,
	"step": 639
	},
	{
	"epoch": 0.7344713814373834,
	"grad_norm": 18.5,
	"learning_rate": 1.896534148827727e-05,
	"loss": 0.5961,
	"step": 640
	},
	{
	"epoch": 0.7356189929708794,
	"grad_norm": 47.75,
	"learning_rate": 1.8960244648318044e-05,
	"loss": 0.6,
	"step": 641
	},
	{
	"epoch": 0.7367666045043753,
	"grad_norm": 67.0,
	"learning_rate": 1.8955147808358818e-05,
	"loss": 0.7799,
	"step": 642
	},
	{
	"epoch": 0.7379142160378712,
	"grad_norm": 90.5,
	"learning_rate": 1.8950050968399592e-05,
	"loss": 0.979,
	"step": 643
	},
	{
	"epoch": 0.7390618275713671,
	"grad_norm": 47.0,
	"learning_rate": 1.894495412844037e-05,
	"loss": 0.6637,
	"step": 644
	},
	{
	"epoch": 0.740209439104863,
	"grad_norm": 28.875,
	"learning_rate": 1.8939857288481143e-05,
	"loss": 0.7095,
	"step": 645
	},
	{
	"epoch": 0.7413570506383589,
	"grad_norm": 70.5,
	"learning_rate": 1.8934760448521917e-05,
	"loss": 0.7767,
	"step": 646
	},
	{
	"epoch": 0.7425046621718548,
	"grad_norm": 67.0,
	"learning_rate": 1.892966360856269e-05,
	"loss": 0.8117,
	"step": 647
	},
	{
	"epoch": 0.7436522737053507,
	"grad_norm": 47.0,
	"learning_rate": 1.892456676860347e-05,
	"loss": 0.7253,
	"step": 648
	},
	{
	"epoch": 0.7447998852388467,
	"grad_norm": 42.25,
	"learning_rate": 1.8919469928644242e-05,
	"loss": 0.5712,
	"step": 649
	},
	{
	"epoch": 0.7459474967723425,
	"grad_norm": 10.3125,
	"learning_rate": 1.8914373088685016e-05,
	"loss": 0.4933,
	"step": 650
	},
	{
	"epoch": 0.7470951083058385,
	"grad_norm": 17.875,
	"learning_rate": 1.8909276248725793e-05,
	"loss": 0.468,
	"step": 651
	},
	{
	"epoch": 0.7482427198393344,
	"grad_norm": 61.75,
	"learning_rate": 1.8904179408766564e-05,
	"loss": 0.7518,
	"step": 652
	},
	{
	"epoch": 0.7493903313728303,
	"grad_norm": 71.0,
	"learning_rate": 1.889908256880734e-05,
	"loss": 0.8373,
	"step": 653
	},
	{
	"epoch": 0.7505379429063262,
	"grad_norm": 26.75,
	"learning_rate": 1.8893985728848115e-05,
	"loss": 0.7643,
	"step": 654
	},
	{
	"epoch": 0.7516855544398221,
	"grad_norm": 28.25,
	"learning_rate": 1.888888888888889e-05,
	"loss": 0.5331,
	"step": 655
	},
	{
	"epoch": 0.7528331659733181,
	"grad_norm": 8.375,
	"learning_rate": 1.8883792048929666e-05,
	"loss": 0.4439,
	"step": 656
	},
	{
	"epoch": 0.7539807775068139,
	"grad_norm": 17.875,
	"learning_rate": 1.887869520897044e-05,
	"loss": 0.5831,
	"step": 657
	},
	{
	"epoch": 0.7551283890403099,
	"grad_norm": 34.25,
	"learning_rate": 1.8873598369011214e-05,
	"loss": 0.5412,
	"step": 658
	},
	{
	"epoch": 0.7562760005738057,
	"grad_norm": 50.75,
	"learning_rate": 1.886850152905199e-05,
	"loss": 0.5549,
	"step": 659
	},
	{
	"epoch": 0.7574236121073017,
	"grad_norm": 56.0,
	"learning_rate": 1.8863404689092762e-05,
	"loss": 0.4515,
	"step": 660
	},
	{
	"epoch": 0.7585712236407975,
	"grad_norm": 76.5,
	"learning_rate": 1.885830784913354e-05,
	"loss": 0.8915,
	"step": 661
	},
	{
	"epoch": 0.7597188351742935,
	"grad_norm": 88.0,
	"learning_rate": 1.8853211009174313e-05,
	"loss": 0.7725,
	"step": 662
	},
	{
	"epoch": 0.7608664467077895,
	"grad_norm": 32.0,
	"learning_rate": 1.8848114169215087e-05,
	"loss": 0.674,
	"step": 663
	},
	{
	"epoch": 0.7620140582412853,
	"grad_norm": 37.0,
	"learning_rate": 1.8843017329255864e-05,
	"loss": 0.4771,
	"step": 664
	},
	{
	"epoch": 0.7631616697747813,
	"grad_norm": 47.5,
	"learning_rate": 1.883792048929664e-05,
	"loss": 0.665,
	"step": 665
	},
	{
	"epoch": 0.7643092813082771,
	"grad_norm": 49.0,
	"learning_rate": 1.8832823649337412e-05,
	"loss": 0.5971,
	"step": 666
	},
	{
	"epoch": 0.7654568928417731,
	"grad_norm": 17.875,
	"learning_rate": 1.8827726809378186e-05,
	"loss": 0.507,
	"step": 667
	},
	{
	"epoch": 0.766604504375269,
	"grad_norm": 17.5,
	"learning_rate": 1.8822629969418963e-05,
	"loss": 0.3678,
	"step": 668
	},
	{
	"epoch": 0.7677521159087649,
	"grad_norm": 39.5,
	"learning_rate": 1.8817533129459737e-05,
	"loss": 0.5468,
	"step": 669
	},
	{
	"epoch": 0.7688997274422608,
	"grad_norm": 26.375,
	"learning_rate": 1.881243628950051e-05,
	"loss": 0.4158,
	"step": 670
	},
	{
	"epoch": 0.7700473389757567,
	"grad_norm": 70.5,
	"learning_rate": 1.8807339449541285e-05,
	"loss": 0.8145,
	"step": 671
	},
	{
	"epoch": 0.7711949505092526,
	"grad_norm": 57.0,
	"learning_rate": 1.880224260958206e-05,
	"loss": 0.5283,
	"step": 672
	},
	{
	"epoch": 0.7723425620427485,
	"grad_norm": 15.875,
	"learning_rate": 1.8797145769622836e-05,
	"loss": 0.6116,
	"step": 673
	},
	{
	"epoch": 0.7734901735762444,
	"grad_norm": 10.6875,
	"learning_rate": 1.879204892966361e-05,
	"loss": 0.6081,
	"step": 674
	},
	{
	"epoch": 0.7746377851097404,
	"grad_norm": 41.0,
	"learning_rate": 1.8786952089704384e-05,
	"loss": 0.6481,
	"step": 675
	},
	{
	"epoch": 0.7757853966432363,
	"grad_norm": 13.375,
	"learning_rate": 1.878185524974516e-05,
	"loss": 0.4866,
	"step": 676
	},
	{
	"epoch": 0.7769330081767322,
	"grad_norm": 32.75,
	"learning_rate": 1.8776758409785932e-05,
	"loss": 0.7627,
	"step": 677
	},
	{
	"epoch": 0.7780806197102281,
	"grad_norm": 83.0,
	"learning_rate": 1.877166156982671e-05,
	"loss": 0.8497,
	"step": 678
	},
	{
	"epoch": 0.779228231243724,
	"grad_norm": 46.75,
	"learning_rate": 1.8766564729867483e-05,
	"loss": 0.3555,
	"step": 679
	},
	{
	"epoch": 0.7803758427772199,
	"grad_norm": 67.0,
	"learning_rate": 1.8761467889908257e-05,
	"loss": 0.7386,
	"step": 680
	},
	{
	"epoch": 0.7815234543107158,
	"grad_norm": 98.5,
	"learning_rate": 1.8756371049949034e-05,
	"loss": 0.6743,
	"step": 681
	},
	{
	"epoch": 0.7826710658442118,
	"grad_norm": 52.25,
	"learning_rate": 1.8751274209989808e-05,
	"loss": 0.6193,
	"step": 682
	},
	{
	"epoch": 0.7838186773777076,
	"grad_norm": 18.0,
	"learning_rate": 1.8746177370030582e-05,
	"loss": 0.4905,
	"step": 683
	},
	{
	"epoch": 0.7849662889112036,
	"grad_norm": 37.75,
	"learning_rate": 1.874108053007136e-05,
	"loss": 0.4043,
	"step": 684
	},
	{
	"epoch": 0.7861139004446994,
	"grad_norm": 22.25,
	"learning_rate": 1.8735983690112133e-05,
	"loss": 0.5243,
	"step": 685
	},
	{
	"epoch": 0.7872615119781954,
	"grad_norm": 21.75,
	"learning_rate": 1.8730886850152907e-05,
	"loss": 0.4342,
	"step": 686
	},
	{
	"epoch": 0.7884091235116913,
	"grad_norm": 31.375,
	"learning_rate": 1.872579001019368e-05,
	"loss": 0.5206,
	"step": 687
	},
	{
	"epoch": 0.7895567350451872,
	"grad_norm": 21.25,
	"learning_rate": 1.8720693170234455e-05,
	"loss": 0.6048,
	"step": 688
	},
	{
	"epoch": 0.7907043465786832,
	"grad_norm": 49.0,
	"learning_rate": 1.8715596330275232e-05,
	"loss": 0.5758,
	"step": 689
	},
	{
	"epoch": 0.791851958112179,
	"grad_norm": 26.75,
	"learning_rate": 1.8710499490316006e-05,
	"loss": 0.5446,
	"step": 690
	},
	{
	"epoch": 0.792999569645675,
	"grad_norm": 28.5,
	"learning_rate": 1.870540265035678e-05,
	"loss": 0.4504,
	"step": 691
	},
	{
	"epoch": 0.7941471811791708,
	"grad_norm": 28.375,
	"learning_rate": 1.8700305810397554e-05,
	"loss": 0.7349,
	"step": 692
	},
	{
	"epoch": 0.7952947927126668,
	"grad_norm": 102.0,
	"learning_rate": 1.869520897043833e-05,
	"loss": 0.6082,
	"step": 693
	},
	{
	"epoch": 0.7964424042461626,
	"grad_norm": 87.0,
	"learning_rate": 1.8690112130479105e-05,
	"loss": 0.7548,
	"step": 694
	},
	{
	"epoch": 0.7975900157796586,
	"grad_norm": 24.875,
	"learning_rate": 1.868501529051988e-05,
	"loss": 0.7732,
	"step": 695
	},
	{
	"epoch": 0.7987376273131545,
	"grad_norm": 44.0,
	"learning_rate": 1.8679918450560653e-05,
	"loss": 0.5928,
	"step": 696
	},
	{
	"epoch": 0.7998852388466504,
	"grad_norm": 24.375,
	"learning_rate": 1.8674821610601427e-05,
	"loss": 0.5727,
	"step": 697
	},
	{
	"epoch": 0.8010328503801463,
	"grad_norm": 72.5,
	"learning_rate": 1.8669724770642204e-05,
	"loss": 0.811,
	"step": 698
	},
	{
	"epoch": 0.8021804619136422,
	"grad_norm": 13.25,
	"learning_rate": 1.8664627930682978e-05,
	"loss": 0.2618,
	"step": 699
	},
	{
	"epoch": 0.8033280734471382,
	"grad_norm": 34.5,
	"learning_rate": 1.8659531090723752e-05,
	"loss": 0.8214,
	"step": 700
	},
	{
	"epoch": 0.8033280734471382,
	"eval_accuracy": 0.61,
	"eval_loss": 0.5829592347145081,
	"eval_runtime": 49.9174,
	"eval_samples_per_second": 2.003,
	"eval_steps_per_second": 2.003,
	"step": 700
	},
	{
	"epoch": 0.804475684980634,
	"grad_norm": 25.125,
	"learning_rate": 1.865443425076453e-05,
	"loss": 0.5568,
	"step": 701
	},
	{
	"epoch": 0.80562329651413,
	"grad_norm": 14.9375,
	"learning_rate": 1.86493374108053e-05,
	"loss": 0.3704,
	"step": 702
	},
	{
	"epoch": 0.8067709080476259,
	"grad_norm": 15.8125,
	"learning_rate": 1.8644240570846077e-05,
	"loss": 0.4246,
	"step": 703
	},
	{
	"epoch": 0.8079185195811218,
	"grad_norm": 16.125,
	"learning_rate": 1.863914373088685e-05,
	"loss": 0.3896,
	"step": 704
	},
	{
	"epoch": 0.8090661311146177,
	"grad_norm": 50.5,
	"learning_rate": 1.8634046890927625e-05,
	"loss": 0.3966,
	"step": 705
	},
	{
	"epoch": 0.8102137426481136,
	"grad_norm": 45.25,
	"learning_rate": 1.8628950050968402e-05,
	"loss": 0.3742,
	"step": 706
	},
	{
	"epoch": 0.8113613541816095,
	"grad_norm": 39.75,
	"learning_rate": 1.8623853211009176e-05,
	"loss": 0.4672,
	"step": 707
	},
	{
	"epoch": 0.8125089657151054,
	"grad_norm": 39.25,
	"learning_rate": 1.861875637104995e-05,
	"loss": 0.6046,
	"step": 708
	},
	{
	"epoch": 0.8136565772486013,
	"grad_norm": 38.25,
	"learning_rate": 1.8613659531090724e-05,
	"loss": 1.0867,
	"step": 709
	},
	{
	"epoch": 0.8148041887820973,
	"grad_norm": 26.875,
	"learning_rate": 1.86085626911315e-05,
	"loss": 0.3141,
	"step": 710
	},
	{
	"epoch": 0.8159518003155932,
	"grad_norm": 53.0,
	"learning_rate": 1.8603465851172275e-05,
	"loss": 0.8153,
	"step": 711
	},
	{
	"epoch": 0.8170994118490891,
	"grad_norm": 35.0,
	"learning_rate": 1.859836901121305e-05,
	"loss": 0.7676,
	"step": 712
	},
	{
	"epoch": 0.818247023382585,
	"grad_norm": 55.75,
	"learning_rate": 1.8593272171253823e-05,
	"loss": 0.5664,
	"step": 713
	},
	{
	"epoch": 0.8193946349160809,
	"grad_norm": 14.5,
	"learning_rate": 1.8588175331294597e-05,
	"loss": 0.6436,
	"step": 714
	},
	{
	"epoch": 0.8205422464495769,
	"grad_norm": 29.0,
	"learning_rate": 1.8583078491335374e-05,
	"loss": 0.4355,
	"step": 715
	},
	{
	"epoch": 0.8216898579830727,
	"grad_norm": 82.5,
	"learning_rate": 1.8577981651376148e-05,
	"loss": 1.2766,
	"step": 716
	},
	{
	"epoch": 0.8228374695165687,
	"grad_norm": 37.5,
	"learning_rate": 1.8572884811416922e-05,
	"loss": 0.4578,
	"step": 717
	},
	{
	"epoch": 0.8239850810500645,
	"grad_norm": 16.875,
	"learning_rate": 1.85677879714577e-05,
	"loss": 0.5334,
	"step": 718
	},
	{
	"epoch": 0.8251326925835605,
	"grad_norm": 22.875,
	"learning_rate": 1.856269113149847e-05,
	"loss": 0.5546,
	"step": 719
	},
	{
	"epoch": 0.8262803041170563,
	"grad_norm": 106.0,
	"learning_rate": 1.8557594291539247e-05,
	"loss": 0.9589,
	"step": 720
	},
	{
	"epoch": 0.8274279156505523,
	"grad_norm": 21.75,
	"learning_rate": 1.855249745158002e-05,
	"loss": 0.5682,
	"step": 721
	},
	{
	"epoch": 0.8285755271840483,
	"grad_norm": 52.75,
	"learning_rate": 1.8547400611620795e-05,
	"loss": 0.4809,
	"step": 722
	},
	{
	"epoch": 0.8297231387175441,
	"grad_norm": 19.0,
	"learning_rate": 1.8542303771661572e-05,
	"loss": 0.3774,
	"step": 723
	},
	{
	"epoch": 0.8308707502510401,
	"grad_norm": 25.125,
	"learning_rate": 1.8537206931702346e-05,
	"loss": 0.4828,
	"step": 724
	},
	{
	"epoch": 0.8320183617845359,
	"grad_norm": 34.0,
	"learning_rate": 1.853211009174312e-05,
	"loss": 0.4859,
	"step": 725
	},
	{
	"epoch": 0.8331659733180319,
	"grad_norm": 48.75,
	"learning_rate": 1.8527013251783897e-05,
	"loss": 0.5612,
	"step": 726
	},
	{
	"epoch": 0.8343135848515277,
	"grad_norm": 45.5,
	"learning_rate": 1.852191641182467e-05,
	"loss": 0.5976,
	"step": 727
	},
	{
	"epoch": 0.8354611963850237,
	"grad_norm": 52.0,
	"learning_rate": 1.8516819571865445e-05,
	"loss": 0.6551,
	"step": 728
	},
	{
	"epoch": 0.8366088079185195,
	"grad_norm": 23.75,
	"learning_rate": 1.851172273190622e-05,
	"loss": 0.5022,
	"step": 729
	},
	{
	"epoch": 0.8377564194520155,
	"grad_norm": 71.5,
	"learning_rate": 1.8506625891946993e-05,
	"loss": 0.8474,
	"step": 730
	},
	{
	"epoch": 0.8389040309855114,
	"grad_norm": 67.5,
	"learning_rate": 1.850152905198777e-05,
	"loss": 0.6511,
	"step": 731
	},
	{
	"epoch": 0.8400516425190073,
	"grad_norm": 36.5,
	"learning_rate": 1.8496432212028544e-05,
	"loss": 0.5485,
	"step": 732
	},
	{
	"epoch": 0.8411992540525032,
	"grad_norm": 63.25,
	"learning_rate": 1.8491335372069318e-05,
	"loss": 0.7833,
	"step": 733
	},
	{
	"epoch": 0.8423468655859991,
	"grad_norm": 11.625,
	"learning_rate": 1.8486238532110092e-05,
	"loss": 0.5295,
	"step": 734
	},
	{
	"epoch": 0.8434944771194951,
	"grad_norm": 44.25,
	"learning_rate": 1.848114169215087e-05,
	"loss": 0.4733,
	"step": 735
	},
	{
	"epoch": 0.844642088652991,
	"grad_norm": 6.90625,
	"learning_rate": 1.8476044852191643e-05,
	"loss": 0.2207,
	"step": 736
	},
	{
	"epoch": 0.8457897001864869,
	"grad_norm": 63.0,
	"learning_rate": 1.8470948012232417e-05,
	"loss": 0.5543,
	"step": 737
	},
	{
	"epoch": 0.8469373117199828,
	"grad_norm": 19.5,
	"learning_rate": 1.846585117227319e-05,
	"loss": 0.4689,
	"step": 738
	},
	{
	"epoch": 0.8480849232534787,
	"grad_norm": 14.6875,
	"learning_rate": 1.8460754332313965e-05,
	"loss": 0.5446,
	"step": 739
	},
	{
	"epoch": 0.8492325347869746,
	"grad_norm": 68.5,
	"learning_rate": 1.8455657492354742e-05,
	"loss": 0.6652,
	"step": 740
	},
	{
	"epoch": 0.8503801463204705,
	"grad_norm": 25.0,
	"learning_rate": 1.8450560652395516e-05,
	"loss": 0.3413,
	"step": 741
	},
	{
	"epoch": 0.8515277578539664,
	"grad_norm": 43.5,
	"learning_rate": 1.844546381243629e-05,
	"loss": 0.5552,
	"step": 742
	},
	{
	"epoch": 0.8526753693874624,
	"grad_norm": 50.25,
	"learning_rate": 1.8440366972477067e-05,
	"loss": 0.5051,
	"step": 743
	},
	{
	"epoch": 0.8538229809209582,
	"grad_norm": 30.625,
	"learning_rate": 1.843527013251784e-05,
	"loss": 0.5442,
	"step": 744
	},
	{
	"epoch": 0.8549705924544542,
	"grad_norm": 21.75,
	"learning_rate": 1.8430173292558615e-05,
	"loss": 0.724,
	"step": 745
	},
	{
	"epoch": 0.8561182039879501,
	"grad_norm": 23.0,
	"learning_rate": 1.8425076452599392e-05,
	"loss": 0.6982,
	"step": 746
	},
	{
	"epoch": 0.857265815521446,
	"grad_norm": 34.5,
	"learning_rate": 1.8419979612640163e-05,
	"loss": 0.4268,
	"step": 747
	},
	{
	"epoch": 0.858413427054942,
	"grad_norm": 12.0,
	"learning_rate": 1.841488277268094e-05,
	"loss": 0.5611,
	"step": 748
	},
	{
	"epoch": 0.8595610385884378,
	"grad_norm": 20.5,
	"learning_rate": 1.8409785932721714e-05,
	"loss": 0.552,
	"step": 749
	},
	{
	"epoch": 0.8607086501219338,
	"grad_norm": 35.0,
	"learning_rate": 1.8404689092762488e-05,
	"loss": 0.5549,
	"step": 750
	},
	{
	"epoch": 0.8618562616554296,
	"grad_norm": 43.5,
	"learning_rate": 1.8399592252803265e-05,
	"loss": 0.5242,
	"step": 751
	},
	{
	"epoch": 0.8630038731889256,
	"grad_norm": 13.875,
	"learning_rate": 1.839449541284404e-05,
	"loss": 0.3858,
	"step": 752
	},
	{
	"epoch": 0.8641514847224214,
	"grad_norm": 45.25,
	"learning_rate": 1.8389398572884813e-05,
	"loss": 0.6547,
	"step": 753
	},
	{
	"epoch": 0.8652990962559174,
	"grad_norm": 66.5,
	"learning_rate": 1.8384301732925587e-05,
	"loss": 0.5999,
	"step": 754
	},
	{
	"epoch": 0.8664467077894132,
	"grad_norm": 31.25,
	"learning_rate": 1.837920489296636e-05,
	"loss": 0.6402,
	"step": 755
	},
	{
	"epoch": 0.8675943193229092,
	"grad_norm": 16.125,
	"learning_rate": 1.8374108053007138e-05,
	"loss": 0.4183,
	"step": 756
	},
	{
	"epoch": 0.868741930856405,
	"grad_norm": 34.75,
	"learning_rate": 1.8369011213047912e-05,
	"loss": 0.46,
	"step": 757
	},
	{
	"epoch": 0.869889542389901,
	"grad_norm": 11.6875,
	"learning_rate": 1.8363914373088686e-05,
	"loss": 0.5179,
	"step": 758
	},
	{
	"epoch": 0.871037153923397,
	"grad_norm": 60.0,
	"learning_rate": 1.835881753312946e-05,
	"loss": 0.5217,
	"step": 759
	},
	{
	"epoch": 0.8721847654568928,
	"grad_norm": 9.75,
	"learning_rate": 1.8353720693170237e-05,
	"loss": 0.3772,
	"step": 760
	},
	{
	"epoch": 0.8733323769903888,
	"grad_norm": 11.75,
	"learning_rate": 1.834862385321101e-05,
	"loss": 0.5367,
	"step": 761
	},
	{
	"epoch": 0.8744799885238846,
	"grad_norm": 41.5,
	"learning_rate": 1.8343527013251785e-05,
	"loss": 0.573,
	"step": 762
	},
	{
	"epoch": 0.8756276000573806,
	"grad_norm": 34.25,
	"learning_rate": 1.8338430173292562e-05,
	"loss": 0.1937,
	"step": 763
	},
	{
	"epoch": 0.8767752115908765,
	"grad_norm": 23.125,
	"learning_rate": 1.8333333333333333e-05,
	"loss": 0.4614,
	"step": 764
	},
	{
	"epoch": 0.8779228231243724,
	"grad_norm": 46.5,
	"learning_rate": 1.832823649337411e-05,
	"loss": 0.442,
	"step": 765
	},
	{
	"epoch": 0.8790704346578683,
	"grad_norm": 74.5,
	"learning_rate": 1.8323139653414884e-05,
	"loss": 0.9426,
	"step": 766
	},
	{
	"epoch": 0.8802180461913642,
	"grad_norm": 65.5,
	"learning_rate": 1.8318042813455658e-05,
	"loss": 0.8281,
	"step": 767
	},
	{
	"epoch": 0.8813656577248601,
	"grad_norm": 30.375,
	"learning_rate": 1.8312945973496435e-05,
	"loss": 0.6035,
	"step": 768
	},
	{
	"epoch": 0.882513269258356,
	"grad_norm": 89.5,
	"learning_rate": 1.830784913353721e-05,
	"loss": 0.8813,
	"step": 769
	},
	{
	"epoch": 0.883660880791852,
	"grad_norm": 71.5,
	"learning_rate": 1.8302752293577983e-05,
	"loss": 0.7809,
	"step": 770
	},
	{
	"epoch": 0.8848084923253479,
	"grad_norm": 87.5,
	"learning_rate": 1.829765545361876e-05,
	"loss": 0.9051,
	"step": 771
	},
	{
	"epoch": 0.8859561038588438,
	"grad_norm": 78.5,
	"learning_rate": 1.829255861365953e-05,
	"loss": 0.8777,
	"step": 772
	},
	{
	"epoch": 0.8871037153923397,
	"grad_norm": 38.5,
	"learning_rate": 1.8287461773700308e-05,
	"loss": 0.3393,
	"step": 773
	},
	{
	"epoch": 0.8882513269258356,
	"grad_norm": 34.0,
	"learning_rate": 1.8282364933741082e-05,
	"loss": 0.4772,
	"step": 774
	},
	{
	"epoch": 0.8893989384593315,
	"grad_norm": 42.25,
	"learning_rate": 1.8277268093781856e-05,
	"loss": 0.5136,
	"step": 775
	},
	{
	"epoch": 0.8905465499928275,
	"grad_norm": 51.25,
	"learning_rate": 1.8272171253822633e-05,
	"loss": 0.4965,
	"step": 776
	},
	{
	"epoch": 0.8916941615263233,
	"grad_norm": 23.5,
	"learning_rate": 1.8267074413863407e-05,
	"loss": 0.6667,
	"step": 777
	},
	{
	"epoch": 0.8928417730598193,
	"grad_norm": 69.0,
	"learning_rate": 1.826197757390418e-05,
	"loss": 0.7309,
	"step": 778
	},
	{
	"epoch": 0.8939893845933151,
	"grad_norm": 13.5625,
	"learning_rate": 1.8256880733944955e-05,
	"loss": 0.5041,
	"step": 779
	},
	{
	"epoch": 0.8951369961268111,
	"grad_norm": 115.0,
	"learning_rate": 1.825178389398573e-05,
	"loss": 0.9974,
	"step": 780
	},
	{
	"epoch": 0.8962846076603069,
	"grad_norm": 19.125,
	"learning_rate": 1.8246687054026503e-05,
	"loss": 0.5556,
	"step": 781
	},
	{
	"epoch": 0.8974322191938029,
	"grad_norm": 52.5,
	"learning_rate": 1.824159021406728e-05,
	"loss": 0.7631,
	"step": 782
	},
	{
	"epoch": 0.8985798307272989,
	"grad_norm": 10.4375,
	"learning_rate": 1.8236493374108054e-05,
	"loss": 0.6217,
	"step": 783
	},
	{
	"epoch": 0.8997274422607947,
	"grad_norm": 20.625,
	"learning_rate": 1.8231396534148828e-05,
	"loss": 0.4404,
	"step": 784
	},
	{
	"epoch": 0.9008750537942907,
	"grad_norm": 81.0,
	"learning_rate": 1.8226299694189605e-05,
	"loss": 0.8382,
	"step": 785
	},
	{
	"epoch": 0.9020226653277865,
	"grad_norm": 25.125,
	"learning_rate": 1.822120285423038e-05,
	"loss": 0.465,
	"step": 786
	},
	{
	"epoch": 0.9031702768612825,
	"grad_norm": 4.90625,
	"learning_rate": 1.8216106014271153e-05,
	"loss": 0.2211,
	"step": 787
	},
	{
	"epoch": 0.9043178883947783,
	"grad_norm": 18.25,
	"learning_rate": 1.821100917431193e-05,
	"loss": 0.5354,
	"step": 788
	},
	{
	"epoch": 0.9054654999282743,
	"grad_norm": 22.625,
	"learning_rate": 1.82059123343527e-05,
	"loss": 0.4656,
	"step": 789
	},
	{
	"epoch": 0.9066131114617701,
	"grad_norm": 22.125,
	"learning_rate": 1.8200815494393478e-05,
	"loss": 0.7412,
	"step": 790
	},
	{
	"epoch": 0.9077607229952661,
	"grad_norm": 18.125,
	"learning_rate": 1.8195718654434252e-05,
	"loss": 0.5085,
	"step": 791
	},
	{
	"epoch": 0.908908334528762,
	"grad_norm": 17.625,
	"learning_rate": 1.8190621814475026e-05,
	"loss": 0.4275,
	"step": 792
	},
	{
	"epoch": 0.9100559460622579,
	"grad_norm": 74.5,
	"learning_rate": 1.8185524974515803e-05,
	"loss": 0.8506,
	"step": 793
	},
	{
	"epoch": 0.9112035575957539,
	"grad_norm": 59.75,
	"learning_rate": 1.8180428134556577e-05,
	"loss": 0.5863,
	"step": 794
	},
	{
	"epoch": 0.9123511691292497,
	"grad_norm": 17.875,
	"learning_rate": 1.817533129459735e-05,
	"loss": 0.5018,
	"step": 795
	},
	{
	"epoch": 0.9134987806627457,
	"grad_norm": 73.0,
	"learning_rate": 1.8170234454638125e-05,
	"loss": 0.7539,
	"step": 796
	},
	{
	"epoch": 0.9146463921962416,
	"grad_norm": 38.0,
	"learning_rate": 1.81651376146789e-05,
	"loss": 0.6021,
	"step": 797
	},
	{
	"epoch": 0.9157940037297375,
	"grad_norm": 34.75,
	"learning_rate": 1.8160040774719676e-05,
	"loss": 0.4989,
	"step": 798
	},
	{
	"epoch": 0.9169416152632334,
	"grad_norm": 29.25,
	"learning_rate": 1.815494393476045e-05,
	"loss": 0.5503,
	"step": 799
	},
	{
	"epoch": 0.9180892267967293,
	"grad_norm": 113.0,
	"learning_rate": 1.8149847094801224e-05,
	"loss": 0.7238,
	"step": 800
	},
	{
	"epoch": 0.9180892267967293,
	"eval_accuracy": 0.67,
	"eval_loss": 0.5950115323066711,
	"eval_runtime": 49.3005,
	"eval_samples_per_second": 2.028,
	"eval_steps_per_second": 2.028,
	"step": 800
	},
	{
	"epoch": 0.9192368383302252,
	"grad_norm": 12.9375,
	"learning_rate": 1.8144750254841998e-05,
	"loss": 0.632,
	"step": 801
	},
	{
	"epoch": 0.9203844498637211,
	"grad_norm": 49.75,
	"learning_rate": 1.8139653414882775e-05,
	"loss": 0.6413,
	"step": 802
	},
	{
	"epoch": 0.921532061397217,
	"grad_norm": 13.125,
	"learning_rate": 1.813455657492355e-05,
	"loss": 0.5482,
	"step": 803
	},
	{
	"epoch": 0.922679672930713,
	"grad_norm": 20.125,
	"learning_rate": 1.8129459734964323e-05,
	"loss": 0.5773,
	"step": 804
	},
	{
	"epoch": 0.9238272844642089,
	"grad_norm": 100.0,
	"learning_rate": 1.81243628950051e-05,
	"loss": 1.35,
	"step": 805
	},
	{
	"epoch": 0.9249748959977048,
	"grad_norm": 25.75,
	"learning_rate": 1.811926605504587e-05,
	"loss": 0.5234,
	"step": 806
	},
	{
	"epoch": 0.9261225075312007,
	"grad_norm": 37.0,
	"learning_rate": 1.8114169215086648e-05,
	"loss": 0.473,
	"step": 807
	},
	{
	"epoch": 0.9272701190646966,
	"grad_norm": 29.0,
	"learning_rate": 1.8109072375127422e-05,
	"loss": 0.4716,
	"step": 808
	},
	{
	"epoch": 0.9284177305981925,
	"grad_norm": 22.0,
	"learning_rate": 1.8103975535168196e-05,
	"loss": 0.5146,
	"step": 809
	},
	{
	"epoch": 0.9295653421316884,
	"grad_norm": 11.75,
	"learning_rate": 1.8098878695208973e-05,
	"loss": 0.6532,
	"step": 810
	},
	{
	"epoch": 0.9307129536651844,
	"grad_norm": 14.375,
	"learning_rate": 1.8093781855249747e-05,
	"loss": 0.5441,
	"step": 811
	},
	{
	"epoch": 0.9318605651986802,
	"grad_norm": 42.0,
	"learning_rate": 1.808868501529052e-05,
	"loss": 0.4905,
	"step": 812
	},
	{
	"epoch": 0.9330081767321762,
	"grad_norm": 64.0,
	"learning_rate": 1.8083588175331298e-05,
	"loss": 0.8364,
	"step": 813
	},
	{
	"epoch": 0.934155788265672,
	"grad_norm": 28.875,
	"learning_rate": 1.807849133537207e-05,
	"loss": 0.414,
	"step": 814
	},
	{
	"epoch": 0.935303399799168,
	"grad_norm": 7.6875,
	"learning_rate": 1.8073394495412846e-05,
	"loss": 0.3923,
	"step": 815
	},
	{
	"epoch": 0.9364510113326638,
	"grad_norm": 32.25,
	"learning_rate": 1.806829765545362e-05,
	"loss": 0.5358,
	"step": 816
	},
	{
	"epoch": 0.9375986228661598,
	"grad_norm": 57.5,
	"learning_rate": 1.8063200815494394e-05,
	"loss": 0.4813,
	"step": 817
	},
	{
	"epoch": 0.9387462343996558,
	"grad_norm": 33.5,
	"learning_rate": 1.805810397553517e-05,
	"loss": 0.4693,
	"step": 818
	},
	{
	"epoch": 0.9398938459331516,
	"grad_norm": 35.0,
	"learning_rate": 1.8053007135575945e-05,
	"loss": 0.3321,
	"step": 819
	},
	{
	"epoch": 0.9410414574666476,
	"grad_norm": 19.75,
	"learning_rate": 1.804791029561672e-05,
	"loss": 0.5709,
	"step": 820
	},
	{
	"epoch": 0.9421890690001434,
	"grad_norm": 133.0,
	"learning_rate": 1.8042813455657493e-05,
	"loss": 1.0803,
	"step": 821
	},
	{
	"epoch": 0.9433366805336394,
	"grad_norm": 7.90625,
	"learning_rate": 1.803771661569827e-05,
	"loss": 0.5182,
	"step": 822
	},
	{
	"epoch": 0.9444842920671352,
	"grad_norm": 25.375,
	"learning_rate": 1.8032619775739044e-05,
	"loss": 0.6489,
	"step": 823
	},
	{
	"epoch": 0.9456319036006312,
	"grad_norm": 24.125,
	"learning_rate": 1.8027522935779818e-05,
	"loss": 0.5298,
	"step": 824
	},
	{
	"epoch": 0.9467795151341271,
	"grad_norm": 26.5,
	"learning_rate": 1.8022426095820592e-05,
	"loss": 0.4967,
	"step": 825
	},
	{
	"epoch": 0.947927126667623,
	"grad_norm": 55.5,
	"learning_rate": 1.8017329255861366e-05,
	"loss": 0.7623,
	"step": 826
	},
	{
	"epoch": 0.9490747382011189,
	"grad_norm": 38.75,
	"learning_rate": 1.8012232415902143e-05,
	"loss": 0.3873,
	"step": 827
	},
	{
	"epoch": 0.9502223497346148,
	"grad_norm": 36.5,
	"learning_rate": 1.8007135575942917e-05,
	"loss": 0.4885,
	"step": 828
	},
	{
	"epoch": 0.9513699612681108,
	"grad_norm": 36.75,
	"learning_rate": 1.800203873598369e-05,
	"loss": 0.4786,
	"step": 829
	},
	{
	"epoch": 0.9525175728016066,
	"grad_norm": 15.9375,
	"learning_rate": 1.7996941896024468e-05,
	"loss": 0.7344,
	"step": 830
	},
	{
	"epoch": 0.9536651843351026,
	"grad_norm": 35.75,
	"learning_rate": 1.799184505606524e-05,
	"loss": 0.4364,
	"step": 831
	},
	{
	"epoch": 0.9548127958685985,
	"grad_norm": 60.5,
	"learning_rate": 1.7986748216106016e-05,
	"loss": 0.4018,
	"step": 832
	},
	{
	"epoch": 0.9559604074020944,
	"grad_norm": 29.5,
	"learning_rate": 1.798165137614679e-05,
	"loss": 0.5492,
	"step": 833
	},
	{
	"epoch": 0.9571080189355903,
	"grad_norm": 51.75,
	"learning_rate": 1.7976554536187564e-05,
	"loss": 0.5751,
	"step": 834
	},
	{
	"epoch": 0.9582556304690862,
	"grad_norm": 27.0,
	"learning_rate": 1.797145769622834e-05,
	"loss": 0.4943,
	"step": 835
	},
	{
	"epoch": 0.9594032420025821,
	"grad_norm": 40.75,
	"learning_rate": 1.7966360856269115e-05,
	"loss": 0.6622,
	"step": 836
	},
	{
	"epoch": 0.960550853536078,
	"grad_norm": 82.0,
	"learning_rate": 1.796126401630989e-05,
	"loss": 0.6737,
	"step": 837
	},
	{
	"epoch": 0.9616984650695739,
	"grad_norm": 11.125,
	"learning_rate": 1.7956167176350666e-05,
	"loss": 0.4544,
	"step": 838
	},
	{
	"epoch": 0.9628460766030699,
	"grad_norm": 18.125,
	"learning_rate": 1.795107033639144e-05,
	"loss": 0.5389,
	"step": 839
	},
	{
	"epoch": 0.9639936881365657,
	"grad_norm": 15.9375,
	"learning_rate": 1.7945973496432214e-05,
	"loss": 0.1783,
	"step": 840
	},
	{
	"epoch": 0.9651412996700617,
	"grad_norm": 53.5,
	"learning_rate": 1.7940876656472988e-05,
	"loss": 0.3035,
	"step": 841
	},
	{
	"epoch": 0.9662889112035576,
	"grad_norm": 52.75,
	"learning_rate": 1.7935779816513762e-05,
	"loss": 0.6946,
	"step": 842
	},
	{
	"epoch": 0.9674365227370535,
	"grad_norm": 34.75,
	"learning_rate": 1.793068297655454e-05,
	"loss": 0.5466,
	"step": 843
	},
	{
	"epoch": 0.9685841342705495,
	"grad_norm": 21.875,
	"learning_rate": 1.7925586136595313e-05,
	"loss": 0.4619,
	"step": 844
	},
	{
	"epoch": 0.9697317458040453,
	"grad_norm": 50.5,
	"learning_rate": 1.7920489296636087e-05,
	"loss": 0.6513,
	"step": 845
	},
	{
	"epoch": 0.9708793573375413,
	"grad_norm": 15.125,
	"learning_rate": 1.791539245667686e-05,
	"loss": 0.379,
	"step": 846
	},
	{
	"epoch": 0.9720269688710371,
	"grad_norm": 10.625,
	"learning_rate": 1.7910295616717638e-05,
	"loss": 0.5085,
	"step": 847
	},
	{
	"epoch": 0.9731745804045331,
	"grad_norm": 12.6875,
	"learning_rate": 1.7905198776758412e-05,
	"loss": 0.5272,
	"step": 848
	},
	{
	"epoch": 0.9743221919380289,
	"grad_norm": 27.5,
	"learning_rate": 1.7900101936799186e-05,
	"loss": 1.0062,
	"step": 849
	},
	{
	"epoch": 0.9754698034715249,
	"grad_norm": 127.5,
	"learning_rate": 1.789500509683996e-05,
	"loss": 1.0798,
	"step": 850
	},
	{
	"epoch": 0.9766174150050208,
	"grad_norm": 103.5,
	"learning_rate": 1.7889908256880734e-05,
	"loss": 1.1638,
	"step": 851
	},
	{
	"epoch": 0.9777650265385167,
	"grad_norm": 69.0,
	"learning_rate": 1.788481141692151e-05,
	"loss": 0.9011,
	"step": 852
	},
	{
	"epoch": 0.9789126380720127,
	"grad_norm": 86.5,
	"learning_rate": 1.7879714576962285e-05,
	"loss": 0.8197,
	"step": 853
	},
	{
	"epoch": 0.9800602496055085,
	"grad_norm": 15.5,
	"learning_rate": 1.787461773700306e-05,
	"loss": 0.6134,
	"step": 854
	},
	{
	"epoch": 0.9812078611390045,
	"grad_norm": 110.5,
	"learning_rate": 1.7869520897043836e-05,
	"loss": 0.919,
	"step": 855
	},
	{
	"epoch": 0.9823554726725003,
	"grad_norm": 30.125,
	"learning_rate": 1.786442405708461e-05,
	"loss": 0.5746,
	"step": 856
	},
	{
	"epoch": 0.9835030842059963,
	"grad_norm": 100.0,
	"learning_rate": 1.7859327217125384e-05,
	"loss": 0.3361,
	"step": 857
	},
	{
	"epoch": 0.9846506957394922,
	"grad_norm": 60.0,
	"learning_rate": 1.7854230377166158e-05,
	"loss": 0.6782,
	"step": 858
	},
	{
	"epoch": 0.9857983072729881,
	"grad_norm": 62.5,
	"learning_rate": 1.7849133537206932e-05,
	"loss": 0.8552,
	"step": 859
	},
	{
	"epoch": 0.986945918806484,
	"grad_norm": 38.75,
	"learning_rate": 1.784403669724771e-05,
	"loss": 0.7251,
	"step": 860
	},
	{
	"epoch": 0.9880935303399799,
	"grad_norm": 84.5,
	"learning_rate": 1.7838939857288483e-05,
	"loss": 0.9825,
	"step": 861
	},
	{
	"epoch": 0.9892411418734758,
	"grad_norm": 32.75,
	"learning_rate": 1.7833843017329257e-05,
	"loss": 0.2631,
	"step": 862
	},
	{
	"epoch": 0.9903887534069717,
	"grad_norm": 101.5,
	"learning_rate": 1.782874617737003e-05,
	"loss": 1.0281,
	"step": 863
	},
	{
	"epoch": 0.9915363649404677,
	"grad_norm": 36.75,
	"learning_rate": 1.7823649337410808e-05,
	"loss": 0.6591,
	"step": 864
	},
	{
	"epoch": 0.9926839764739636,
	"grad_norm": 23.75,
	"learning_rate": 1.7818552497451582e-05,
	"loss": 0.2017,
	"step": 865
	},
	{
	"epoch": 0.9938315880074595,
	"grad_norm": 11.0625,
	"learning_rate": 1.7813455657492356e-05,
	"loss": 0.6496,
	"step": 866
	},
	{
	"epoch": 0.9949791995409554,
	"grad_norm": 52.0,
	"learning_rate": 1.780835881753313e-05,
	"loss": 0.7726,
	"step": 867
	},
	{
	"epoch": 0.9961268110744513,
	"grad_norm": 8.9375,
	"learning_rate": 1.7803261977573904e-05,
	"loss": 0.2688,
	"step": 868
	},
	{
	"epoch": 0.9972744226079472,
	"grad_norm": 29.625,
	"learning_rate": 1.779816513761468e-05,
	"loss": 0.4991,
	"step": 869
	},
	{
	"epoch": 0.9984220341414431,
	"grad_norm": 6.59375,
	"learning_rate": 1.7793068297655455e-05,
	"loss": 0.3232,
	"step": 870
	},
	{
	"epoch": 0.999569645674939,
	"grad_norm": 39.25,
	"learning_rate": 1.778797145769623e-05,
	"loss": 0.4866,
	"step": 871
	},
	{
	"epoch": 1.0,
	"grad_norm": 31.25,
	"learning_rate": 1.7782874617737006e-05,
	"loss": 0.1617,
	"step": 872
	},
	{
	"epoch": 1.0011476115334959,
	"grad_norm": 54.25,
	"learning_rate": 1.7777777777777777e-05,
	"loss": 0.5081,
	"step": 873
	},
	{
	"epoch": 1.002295223066992,
	"grad_norm": 59.5,
	"learning_rate": 1.7772680937818554e-05,
	"loss": 0.6284,
	"step": 874
	},
	{
	"epoch": 1.0034428346004878,
	"grad_norm": 62.0,
	"learning_rate": 1.7767584097859328e-05,
	"loss": 0.6364,
	"step": 875
	},
	{
	"epoch": 1.0045904461339836,
	"grad_norm": 99.5,
	"learning_rate": 1.7762487257900102e-05,
	"loss": 1.521,
	"step": 876
	},
	{
	"epoch": 1.0057380576674795,
	"grad_norm": 105.5,
	"learning_rate": 1.775739041794088e-05,
	"loss": 1.0837,
	"step": 877
	},
	{
	"epoch": 1.0068856692009756,
	"grad_norm": 117.0,
	"learning_rate": 1.7752293577981653e-05,
	"loss": 1.0871,
	"step": 878
	},
	{
	"epoch": 1.0080332807344714,
	"grad_norm": 91.5,
	"learning_rate": 1.7747196738022427e-05,
	"loss": 0.7927,
	"step": 879
	},
	{
	"epoch": 1.0091808922679673,
	"grad_norm": 68.5,
	"learning_rate": 1.7742099898063204e-05,
	"loss": 0.6309,
	"step": 880
	},
	{
	"epoch": 1.010328503801463,
	"grad_norm": 11.3125,
	"learning_rate": 1.7737003058103978e-05,
	"loss": 0.3369,
	"step": 881
	},
	{
	"epoch": 1.0114761153349592,
	"grad_norm": 11.125,
	"learning_rate": 1.7731906218144752e-05,
	"loss": 0.2181,
	"step": 882
	},
	{
	"epoch": 1.012623726868455,
	"grad_norm": 23.75,
	"learning_rate": 1.7726809378185526e-05,
	"loss": 0.4936,
	"step": 883
	},
	{
	"epoch": 1.0137713384019509,
	"grad_norm": 26.25,
	"learning_rate": 1.77217125382263e-05,
	"loss": 0.5372,
	"step": 884
	},
	{
	"epoch": 1.014918949935447,
	"grad_norm": 23.375,
	"learning_rate": 1.7716615698267077e-05,
	"loss": 0.2898,
	"step": 885
	},
	{
	"epoch": 1.0160665614689428,
	"grad_norm": 61.25,
	"learning_rate": 1.771151885830785e-05,
	"loss": 1.0463,
	"step": 886
	},
	{
	"epoch": 1.0172141730024387,
	"grad_norm": 16.125,
	"learning_rate": 1.7706422018348625e-05,
	"loss": 0.3061,
	"step": 887
	},
	{
	"epoch": 1.0183617845359345,
	"grad_norm": 83.5,
	"learning_rate": 1.77013251783894e-05,
	"loss": 0.7545,
	"step": 888
	},
	{
	"epoch": 1.0195093960694306,
	"grad_norm": 57.75,
	"learning_rate": 1.7696228338430176e-05,
	"loss": 0.7643,
	"step": 889
	},
	{
	"epoch": 1.0206570076029264,
	"grad_norm": 19.125,
	"learning_rate": 1.769113149847095e-05,
	"loss": 0.6013,
	"step": 890
	},
	{
	"epoch": 1.0218046191364223,
	"grad_norm": 12.25,
	"learning_rate": 1.7686034658511724e-05,
	"loss": 0.4579,
	"step": 891
	},
	{
	"epoch": 1.0229522306699181,
	"grad_norm": 38.25,
	"learning_rate": 1.7680937818552498e-05,
	"loss": 0.4669,
	"step": 892
	},
	{
	"epoch": 1.0240998422034142,
	"grad_norm": 68.0,
	"learning_rate": 1.767584097859327e-05,
	"loss": 0.4824,
	"step": 893
	},
	{
	"epoch": 1.02524745373691,
	"grad_norm": 10.5625,
	"learning_rate": 1.767074413863405e-05,
	"loss": 0.5689,
	"step": 894
	},
	{
	"epoch": 1.026395065270406,
	"grad_norm": 8.875,
	"learning_rate": 1.7665647298674823e-05,
	"loss": 0.3161,
	"step": 895
	},
	{
	"epoch": 1.0275426768039018,
	"grad_norm": 23.625,
	"learning_rate": 1.7660550458715597e-05,
	"loss": 0.4443,
	"step": 896
	},
	{
	"epoch": 1.0286902883373978,
	"grad_norm": 15.75,
	"learning_rate": 1.7655453618756374e-05,
	"loss": 0.2331,
	"step": 897
	},
	{
	"epoch": 1.0298378998708937,
	"grad_norm": 8.25,
	"learning_rate": 1.7650356778797148e-05,
	"loss": 0.3554,
	"step": 898
	},
	{
	"epoch": 1.0309855114043895,
	"grad_norm": 14.5,
	"learning_rate": 1.7645259938837922e-05,
	"loss": 0.6107,
	"step": 899
	},
	{
	"epoch": 1.0321331229378856,
	"grad_norm": 42.25,
	"learning_rate": 1.76401630988787e-05,
	"loss": 0.3624,
	"step": 900
	},
	{
	"epoch": 1.0321331229378856,
	"eval_accuracy": 0.64,
	"eval_loss": 0.6176496744155884,
	"eval_runtime": 49.5336,
	"eval_samples_per_second": 2.019,
	"eval_steps_per_second": 2.019,
	"step": 900
	},
	{
	"epoch": 1.0332807344713815,
	"grad_norm": 23.0,
	"learning_rate": 1.763506625891947e-05,
	"loss": 0.4606,
	"step": 901
	},
	{
	"epoch": 1.0344283460048773,
	"grad_norm": 50.75,
	"learning_rate": 1.7629969418960247e-05,
	"loss": 0.5176,
	"step": 902
	},
	{
	"epoch": 1.0355759575383732,
	"grad_norm": 58.0,
	"learning_rate": 1.762487257900102e-05,
	"loss": 0.3688,
	"step": 903
	},
	{
	"epoch": 1.0367235690718692,
	"grad_norm": 36.0,
	"learning_rate": 1.7619775739041795e-05,
	"loss": 0.7414,
	"step": 904
	},
	{
	"epoch": 1.037871180605365,
	"grad_norm": 28.5,
	"learning_rate": 1.7614678899082572e-05,
	"loss": 0.8468,
	"step": 905
	},
	{
	"epoch": 1.039018792138861,
	"grad_norm": 26.25,
	"learning_rate": 1.7609582059123346e-05,
	"loss": 0.4338,
	"step": 906
	},
	{
	"epoch": 1.040166403672357,
	"grad_norm": 122.5,
	"learning_rate": 1.760448521916412e-05,
	"loss": 0.9431,
	"step": 907
	},
	{
	"epoch": 1.0413140152058529,
	"grad_norm": 15.375,
	"learning_rate": 1.7599388379204894e-05,
	"loss": 0.5602,
	"step": 908
	},
	{
	"epoch": 1.0424616267393487,
	"grad_norm": 96.5,
	"learning_rate": 1.7594291539245668e-05,
	"loss": 0.6268,
	"step": 909
	},
	{
	"epoch": 1.0436092382728446,
	"grad_norm": 59.25,
	"learning_rate": 1.7589194699286445e-05,
	"loss": 0.404,
	"step": 910
	},
	{
	"epoch": 1.0447568498063406,
	"grad_norm": 30.5,
	"learning_rate": 1.758409785932722e-05,
	"loss": 0.5772,
	"step": 911
	},
	{
	"epoch": 1.0459044613398365,
	"grad_norm": 15.875,
	"learning_rate": 1.7579001019367993e-05,
	"loss": 0.4666,
	"step": 912
	},
	{
	"epoch": 1.0470520728733324,
	"grad_norm": 20.25,
	"learning_rate": 1.7573904179408767e-05,
	"loss": 0.4576,
	"step": 913
	},
	{
	"epoch": 1.0481996844068282,
	"grad_norm": 33.5,
	"learning_rate": 1.7568807339449544e-05,
	"loss": 0.4427,
	"step": 914
	},
	{
	"epoch": 1.0493472959403243,
	"grad_norm": 6.59375,
	"learning_rate": 1.7563710499490318e-05,
	"loss": 0.1466,
	"step": 915
	},
	{
	"epoch": 1.0504949074738201,
	"grad_norm": 44.0,
	"learning_rate": 1.7558613659531092e-05,
	"loss": 0.3564,
	"step": 916
	},
	{
	"epoch": 1.051642519007316,
	"grad_norm": 26.75,
	"learning_rate": 1.755351681957187e-05,
	"loss": 0.6648,
	"step": 917
	},
	{
	"epoch": 1.0527901305408118,
	"grad_norm": 53.5,
	"learning_rate": 1.754841997961264e-05,
	"loss": 0.5389,
	"step": 918
	},
	{
	"epoch": 1.053937742074308,
	"grad_norm": 23.875,
	"learning_rate": 1.7543323139653417e-05,
	"loss": 0.4424,
	"step": 919
	},
	{
	"epoch": 1.0550853536078038,
	"grad_norm": 34.75,
	"learning_rate": 1.753822629969419e-05,
	"loss": 0.4035,
	"step": 920
	},
	{
	"epoch": 1.0562329651412996,
	"grad_norm": 25.125,
	"learning_rate": 1.7533129459734965e-05,
	"loss": 0.5704,
	"step": 921
	},
	{
	"epoch": 1.0573805766747957,
	"grad_norm": 25.625,
	"learning_rate": 1.7528032619775742e-05,
	"loss": 0.7077,
	"step": 922
	},
	{
	"epoch": 1.0585281882082915,
	"grad_norm": 11.25,
	"learning_rate": 1.7522935779816516e-05,
	"loss": 0.228,
	"step": 923
	},
	{
	"epoch": 1.0596757997417874,
	"grad_norm": 31.125,
	"learning_rate": 1.751783893985729e-05,
	"loss": 0.5716,
	"step": 924
	},
	{
	"epoch": 1.0608234112752832,
	"grad_norm": 21.25,
	"learning_rate": 1.7512742099898067e-05,
	"loss": 0.2658,
	"step": 925
	},
	{
	"epoch": 1.0619710228087793,
	"grad_norm": 12.875,
	"learning_rate": 1.7507645259938838e-05,
	"loss": 0.2415,
	"step": 926
	},
	{
	"epoch": 1.0631186343422752,
	"grad_norm": 100.5,
	"learning_rate": 1.7502548419979615e-05,
	"loss": 1.0011,
	"step": 927
	},
	{
	"epoch": 1.064266245875771,
	"grad_norm": 67.0,
	"learning_rate": 1.749745158002039e-05,
	"loss": 0.6753,
	"step": 928
	},
	{
	"epoch": 1.0654138574092669,
	"grad_norm": 109.0,
	"learning_rate": 1.7492354740061163e-05,
	"loss": 0.8631,
	"step": 929
	},
	{
	"epoch": 1.066561468942763,
	"grad_norm": 68.5,
	"learning_rate": 1.7487257900101937e-05,
	"loss": 1.0799,
	"step": 930
	},
	{
	"epoch": 1.0677090804762588,
	"grad_norm": 74.0,
	"learning_rate": 1.7482161060142714e-05,
	"loss": 0.5419,
	"step": 931
	},
	{
	"epoch": 1.0688566920097546,
	"grad_norm": 61.25,
	"learning_rate": 1.7477064220183488e-05,
	"loss": 0.6041,
	"step": 932
	},
	{
	"epoch": 1.0700043035432507,
	"grad_norm": 32.25,
	"learning_rate": 1.7471967380224262e-05,
	"loss": 0.8215,
	"step": 933
	},
	{
	"epoch": 1.0711519150767466,
	"grad_norm": 45.25,
	"learning_rate": 1.746687054026504e-05,
	"loss": 0.5843,
	"step": 934
	},
	{
	"epoch": 1.0722995266102424,
	"grad_norm": 104.5,
	"learning_rate": 1.746177370030581e-05,
	"loss": 1.3222,
	"step": 935
	},
	{
	"epoch": 1.0734471381437383,
	"grad_norm": 56.0,
	"learning_rate": 1.7456676860346587e-05,
	"loss": 0.5504,
	"step": 936
	},
	{
	"epoch": 1.0745947496772343,
	"grad_norm": 54.0,
	"learning_rate": 1.745158002038736e-05,
	"loss": 0.8466,
	"step": 937
	},
	{
	"epoch": 1.0757423612107302,
	"grad_norm": 27.375,
	"learning_rate": 1.7446483180428135e-05,
	"loss": 0.9508,
	"step": 938
	},
	{
	"epoch": 1.076889972744226,
	"grad_norm": 14.625,
	"learning_rate": 1.7441386340468912e-05,
	"loss": 0.3969,
	"step": 939
	},
	{
	"epoch": 1.078037584277722,
	"grad_norm": 75.0,
	"learning_rate": 1.7436289500509686e-05,
	"loss": 0.9936,
	"step": 940
	},
	{
	"epoch": 1.079185195811218,
	"grad_norm": 51.75,
	"learning_rate": 1.743119266055046e-05,
	"loss": 0.5978,
	"step": 941
	},
	{
	"epoch": 1.0803328073447138,
	"grad_norm": 57.5,
	"learning_rate": 1.7426095820591237e-05,
	"loss": 0.6549,
	"step": 942
	},
	{
	"epoch": 1.0814804188782097,
	"grad_norm": 19.625,
	"learning_rate": 1.7420998980632008e-05,
	"loss": 0.4942,
	"step": 943
	},
	{
	"epoch": 1.0826280304117057,
	"grad_norm": 83.0,
	"learning_rate": 1.7415902140672785e-05,
	"loss": 0.6702,
	"step": 944
	},
	{
	"epoch": 1.0837756419452016,
	"grad_norm": 42.5,
	"learning_rate": 1.741080530071356e-05,
	"loss": 0.6299,
	"step": 945
	},
	{
	"epoch": 1.0849232534786974,
	"grad_norm": 19.25,
	"learning_rate": 1.7405708460754333e-05,
	"loss": 0.5421,
	"step": 946
	},
	{
	"epoch": 1.0860708650121933,
	"grad_norm": 34.0,
	"learning_rate": 1.740061162079511e-05,
	"loss": 0.7019,
	"step": 947
	},
	{
	"epoch": 1.0872184765456894,
	"grad_norm": 34.0,
	"learning_rate": 1.7395514780835884e-05,
	"loss": 0.5919,
	"step": 948
	},
	{
	"epoch": 1.0883660880791852,
	"grad_norm": 17.875,
	"learning_rate": 1.7390417940876658e-05,
	"loss": 0.2788,
	"step": 949
	},
	{
	"epoch": 1.089513699612681,
	"grad_norm": 16.0,
	"learning_rate": 1.738532110091743e-05,
	"loss": 0.7744,
	"step": 950
	},
	{
	"epoch": 1.090661311146177,
	"grad_norm": 61.5,
	"learning_rate": 1.7380224260958206e-05,
	"loss": 0.6198,
	"step": 951
	},
	{
	"epoch": 1.091808922679673,
	"grad_norm": 17.5,
	"learning_rate": 1.7375127420998983e-05,
	"loss": 0.5995,
	"step": 952
	},
	{
	"epoch": 1.0929565342131689,
	"grad_norm": 15.0,
	"learning_rate": 1.7370030581039757e-05,
	"loss": 0.4392,
	"step": 953
	},
	{
	"epoch": 1.0941041457466647,
	"grad_norm": 54.75,
	"learning_rate": 1.736493374108053e-05,
	"loss": 0.4673,
	"step": 954
	},
	{
	"epoch": 1.0952517572801606,
	"grad_norm": 31.5,
	"learning_rate": 1.7359836901121305e-05,
	"loss": 0.5318,
	"step": 955
	},
	{
	"epoch": 1.0963993688136566,
	"grad_norm": 35.0,
	"learning_rate": 1.7354740061162082e-05,
	"loss": 0.5184,
	"step": 956
	},
	{
	"epoch": 1.0975469803471525,
	"grad_norm": 23.75,
	"learning_rate": 1.7349643221202856e-05,
	"loss": 0.5015,
	"step": 957
	},
	{
	"epoch": 1.0986945918806483,
	"grad_norm": 54.0,
	"learning_rate": 1.734454638124363e-05,
	"loss": 0.5254,
	"step": 958
	},
	{
	"epoch": 1.0998422034141444,
	"grad_norm": 10.375,
	"learning_rate": 1.7339449541284407e-05,
	"loss": 0.4739,
	"step": 959
	},
	{
	"epoch": 1.1009898149476403,
	"grad_norm": 23.5,
	"learning_rate": 1.7334352701325177e-05,
	"loss": 0.5565,
	"step": 960
	},
	{
	"epoch": 1.102137426481136,
	"grad_norm": 11.875,
	"learning_rate": 1.7329255861365955e-05,
	"loss": 0.3887,
	"step": 961
	},
	{
	"epoch": 1.103285038014632,
	"grad_norm": 10.875,
	"learning_rate": 1.732415902140673e-05,
	"loss": 0.6166,
	"step": 962
	},
	{
	"epoch": 1.104432649548128,
	"grad_norm": 43.75,
	"learning_rate": 1.7319062181447503e-05,
	"loss": 0.9438,
	"step": 963
	},
	{
	"epoch": 1.1055802610816239,
	"grad_norm": 17.375,
	"learning_rate": 1.731396534148828e-05,
	"loss": 0.6131,
	"step": 964
	},
	{
	"epoch": 1.1067278726151197,
	"grad_norm": 36.5,
	"learning_rate": 1.7308868501529054e-05,
	"loss": 0.5897,
	"step": 965
	},
	{
	"epoch": 1.1078754841486158,
	"grad_norm": 34.25,
	"learning_rate": 1.7303771661569828e-05,
	"loss": 0.473,
	"step": 966
	},
	{
	"epoch": 1.1090230956821117,
	"grad_norm": 23.75,
	"learning_rate": 1.7298674821610605e-05,
	"loss": 0.6736,
	"step": 967
	},
	{
	"epoch": 1.1101707072156075,
	"grad_norm": 47.25,
	"learning_rate": 1.7293577981651376e-05,
	"loss": 0.4113,
	"step": 968
	},
	{
	"epoch": 1.1113183187491034,
	"grad_norm": 13.6875,
	"learning_rate": 1.7288481141692153e-05,
	"loss": 0.2634,
	"step": 969
	},
	{
	"epoch": 1.1124659302825994,
	"grad_norm": 36.75,
	"learning_rate": 1.7283384301732927e-05,
	"loss": 0.5289,
	"step": 970
	},
	{
	"epoch": 1.1136135418160953,
	"grad_norm": 28.625,
	"learning_rate": 1.72782874617737e-05,
	"loss": 0.5775,
	"step": 971
	},
	{
	"epoch": 1.1147611533495911,
	"grad_norm": 42.25,
	"learning_rate": 1.7273190621814478e-05,
	"loss": 0.7163,
	"step": 972
	},
	{
	"epoch": 1.115908764883087,
	"grad_norm": 57.0,
	"learning_rate": 1.7268093781855252e-05,
	"loss": 0.5009,
	"step": 973
	},
	{
	"epoch": 1.117056376416583,
	"grad_norm": 22.375,
	"learning_rate": 1.7262996941896026e-05,
	"loss": 0.4101,
	"step": 974
	},
	{
	"epoch": 1.118203987950079,
	"grad_norm": 41.25,
	"learning_rate": 1.72579001019368e-05,
	"loss": 0.4195,
	"step": 975
	},
	{
	"epoch": 1.1193515994835748,
	"grad_norm": 17.625,
	"learning_rate": 1.7252803261977577e-05,
	"loss": 0.4409,
	"step": 976
	},
	{
	"epoch": 1.1204992110170706,
	"grad_norm": 18.375,
	"learning_rate": 1.724770642201835e-05,
	"loss": 0.4041,
	"step": 977
	},
	{
	"epoch": 1.1216468225505667,
	"grad_norm": 39.0,
	"learning_rate": 1.7242609582059125e-05,
	"loss": 0.6333,
	"step": 978
	},
	{
	"epoch": 1.1227944340840625,
	"grad_norm": 62.25,
	"learning_rate": 1.72375127420999e-05,
	"loss": 0.648,
	"step": 979
	},
	{
	"epoch": 1.1239420456175584,
	"grad_norm": 57.0,
	"learning_rate": 1.7232415902140673e-05,
	"loss": 0.5549,
	"step": 980
	},
	{
	"epoch": 1.1250896571510545,
	"grad_norm": 17.875,
	"learning_rate": 1.722731906218145e-05,
	"loss": 0.3829,
	"step": 981
	},
	{
	"epoch": 1.1262372686845503,
	"grad_norm": 23.5,
	"learning_rate": 1.7222222222222224e-05,
	"loss": 0.3594,
	"step": 982
	},
	{
	"epoch": 1.1273848802180462,
	"grad_norm": 53.0,
	"learning_rate": 1.7217125382262998e-05,
	"loss": 0.6625,
	"step": 983
	},
	{
	"epoch": 1.128532491751542,
	"grad_norm": 49.75,
	"learning_rate": 1.7212028542303775e-05,
	"loss": 0.4887,
	"step": 984
	},
	{
	"epoch": 1.129680103285038,
	"grad_norm": 15.0,
	"learning_rate": 1.7206931702344545e-05,
	"loss": 0.5548,
	"step": 985
	},
	{
	"epoch": 1.130827714818534,
	"grad_norm": 40.5,
	"learning_rate": 1.7201834862385323e-05,
	"loss": 0.7024,
	"step": 986
	},
	{
	"epoch": 1.1319753263520298,
	"grad_norm": 58.25,
	"learning_rate": 1.7196738022426097e-05,
	"loss": 0.4027,
	"step": 987
	},
	{
	"epoch": 1.1331229378855259,
	"grad_norm": 70.5,
	"learning_rate": 1.719164118246687e-05,
	"loss": 0.6295,
	"step": 988
	},
	{
	"epoch": 1.1342705494190217,
	"grad_norm": 34.25,
	"learning_rate": 1.7186544342507648e-05,
	"loss": 0.3274,
	"step": 989
	},
	{
	"epoch": 1.1354181609525176,
	"grad_norm": 20.0,
	"learning_rate": 1.7181447502548422e-05,
	"loss": 0.1818,
	"step": 990
	},
	{
	"epoch": 1.1365657724860134,
	"grad_norm": 46.5,
	"learning_rate": 1.7176350662589196e-05,
	"loss": 0.4344,
	"step": 991
	},
	{
	"epoch": 1.1377133840195093,
	"grad_norm": 60.0,
	"learning_rate": 1.7171253822629973e-05,
	"loss": 0.3682,
	"step": 992
	},
	{
	"epoch": 1.1388609955530054,
	"grad_norm": 30.25,
	"learning_rate": 1.7166156982670747e-05,
	"loss": 0.4771,
	"step": 993
	},
	{
	"epoch": 1.1400086070865012,
	"grad_norm": 23.375,
	"learning_rate": 1.716106014271152e-05,
	"loss": 0.4939,
	"step": 994
	},
	{
	"epoch": 1.141156218619997,
	"grad_norm": 17.625,
	"learning_rate": 1.7155963302752295e-05,
	"loss": 0.6885,
	"step": 995
	},
	{
	"epoch": 1.1423038301534931,
	"grad_norm": 64.5,
	"learning_rate": 1.715086646279307e-05,
	"loss": 0.8163,
	"step": 996
	},
	{
	"epoch": 1.143451441686989,
	"grad_norm": 39.5,
	"learning_rate": 1.7145769622833846e-05,
	"loss": 0.3577,
	"step": 997
	},
	{
	"epoch": 1.1445990532204848,
	"grad_norm": 8.6875,
	"learning_rate": 1.714067278287462e-05,
	"loss": 0.202,
	"step": 998
	},
	{
	"epoch": 1.1457466647539807,
	"grad_norm": 52.0,
	"learning_rate": 1.7135575942915394e-05,
	"loss": 0.5541,
	"step": 999
	},
	{
	"epoch": 1.1468942762874768,
	"grad_norm": 22.125,
	"learning_rate": 1.7130479102956168e-05,
	"loss": 0.2125,
	"step": 1000
	},
	{
	"epoch": 1.1468942762874768,
	"eval_accuracy": 0.6,
	"eval_loss": 0.5487725734710693,
	"eval_runtime": 50.2711,
	"eval_samples_per_second": 1.989,
	"eval_steps_per_second": 1.989,
	"step": 1000
	},
	{
	"epoch": 1.1480418878209726,
	"grad_norm": 21.25,
	"learning_rate": 1.7125382262996945e-05,
	"loss": 0.3415,
	"step": 1001
	},
	{
	"epoch": 1.1491894993544685,
	"grad_norm": 39.5,
	"learning_rate": 1.712028542303772e-05,
	"loss": 0.6746,
	"step": 1002
	},
	{
	"epoch": 1.1503371108879645,
	"grad_norm": 16.875,
	"learning_rate": 1.7115188583078493e-05,
	"loss": 0.7315,
	"step": 1003
	},
	{
	"epoch": 1.1514847224214604,
	"grad_norm": 13.6875,
	"learning_rate": 1.7110091743119267e-05,
	"loss": 0.5293,
	"step": 1004
	},
	{
	"epoch": 1.1526323339549562,
	"grad_norm": 10.4375,
	"learning_rate": 1.710499490316004e-05,
	"loss": 0.4509,
	"step": 1005
	},
	{
	"epoch": 1.153779945488452,
	"grad_norm": 18.375,
	"learning_rate": 1.7099898063200818e-05,
	"loss": 0.3469,
	"step": 1006
	},
	{
	"epoch": 1.1549275570219482,
	"grad_norm": 12.375,
	"learning_rate": 1.709480122324159e-05,
	"loss": 0.4868,
	"step": 1007
	},
	{
	"epoch": 1.156075168555444,
	"grad_norm": 57.5,
	"learning_rate": 1.7089704383282366e-05,
	"loss": 0.5211,
	"step": 1008
	},
	{
	"epoch": 1.1572227800889399,
	"grad_norm": 13.875,
	"learning_rate": 1.7084607543323143e-05,
	"loss": 0.3623,
	"step": 1009
	},
	{
	"epoch": 1.1583703916224357,
	"grad_norm": 69.0,
	"learning_rate": 1.7079510703363917e-05,
	"loss": 0.274,
	"step": 1010
	},
	{
	"epoch": 1.1595180031559318,
	"grad_norm": 18.5,
	"learning_rate": 1.707441386340469e-05,
	"loss": 0.2365,
	"step": 1011
	},
	{
	"epoch": 1.1606656146894276,
	"grad_norm": 40.25,
	"learning_rate": 1.7069317023445465e-05,
	"loss": 0.2999,
	"step": 1012
	},
	{
	"epoch": 1.1618132262229235,
	"grad_norm": 57.5,
	"learning_rate": 1.706422018348624e-05,
	"loss": 0.5137,
	"step": 1013
	},
	{
	"epoch": 1.1629608377564193,
	"grad_norm": 20.875,
	"learning_rate": 1.7059123343527016e-05,
	"loss": 0.6691,
	"step": 1014
	},
	{
	"epoch": 1.1641084492899154,
	"grad_norm": 30.875,
	"learning_rate": 1.705402650356779e-05,
	"loss": 0.6642,
	"step": 1015
	},
	{
	"epoch": 1.1652560608234113,
	"grad_norm": 15.9375,
	"learning_rate": 1.7048929663608564e-05,
	"loss": 0.2695,
	"step": 1016
	},
	{
	"epoch": 1.1664036723569071,
	"grad_norm": 88.5,
	"learning_rate": 1.7043832823649338e-05,
	"loss": 0.8211,
	"step": 1017
	},
	{
	"epoch": 1.1675512838904032,
	"grad_norm": 45.5,
	"learning_rate": 1.7038735983690115e-05,
	"loss": 0.7956,
	"step": 1018
	},
	{
	"epoch": 1.168698895423899,
	"grad_norm": 80.0,
	"learning_rate": 1.703363914373089e-05,
	"loss": 0.8805,
	"step": 1019
	},
	{
	"epoch": 1.169846506957395,
	"grad_norm": 15.1875,
	"learning_rate": 1.7028542303771663e-05,
	"loss": 0.5262,
	"step": 1020
	},
	{
	"epoch": 1.1709941184908907,
	"grad_norm": 60.75,
	"learning_rate": 1.7023445463812437e-05,
	"loss": 1.1968,
	"step": 1021
	},
	{
	"epoch": 1.1721417300243868,
	"grad_norm": 31.375,
	"learning_rate": 1.701834862385321e-05,
	"loss": 0.744,
	"step": 1022
	},
	{
	"epoch": 1.1732893415578827,
	"grad_norm": 20.625,
	"learning_rate": 1.7013251783893988e-05,
	"loss": 0.3321,
	"step": 1023
	},
	{
	"epoch": 1.1744369530913785,
	"grad_norm": 19.875,
	"learning_rate": 1.700815494393476e-05,
	"loss": 0.4447,
	"step": 1024
	},
	{
	"epoch": 1.1755845646248746,
	"grad_norm": 23.625,
	"learning_rate": 1.7003058103975536e-05,
	"loss": 0.3697,
	"step": 1025
	},
	{
	"epoch": 1.1767321761583704,
	"grad_norm": 20.625,
	"learning_rate": 1.6997961264016313e-05,
	"loss": 0.2759,
	"step": 1026
	},
	{
	"epoch": 1.1778797876918663,
	"grad_norm": 58.75,
	"learning_rate": 1.6992864424057087e-05,
	"loss": 0.7182,
	"step": 1027
	},
	{
	"epoch": 1.1790273992253621,
	"grad_norm": 6.96875,
	"learning_rate": 1.698776758409786e-05,
	"loss": 0.1403,
	"step": 1028
	},
	{
	"epoch": 1.1801750107588582,
	"grad_norm": 24.875,
	"learning_rate": 1.6982670744138638e-05,
	"loss": 0.513,
	"step": 1029
	},
	{
	"epoch": 1.181322622292354,
	"grad_norm": 15.8125,
	"learning_rate": 1.697757390417941e-05,
	"loss": 0.5238,
	"step": 1030
	},
	{
	"epoch": 1.18247023382585,
	"grad_norm": 22.0,
	"learning_rate": 1.6972477064220186e-05,
	"loss": 0.445,
	"step": 1031
	},
	{
	"epoch": 1.1836178453593458,
	"grad_norm": 86.5,
	"learning_rate": 1.696738022426096e-05,
	"loss": 0.7085,
	"step": 1032
	},
	{
	"epoch": 1.1847654568928419,
	"grad_norm": 63.75,
	"learning_rate": 1.6962283384301734e-05,
	"loss": 1.0473,
	"step": 1033
	},
	{
	"epoch": 1.1859130684263377,
	"grad_norm": 63.5,
	"learning_rate": 1.695718654434251e-05,
	"loss": 0.3947,
	"step": 1034
	},
	{
	"epoch": 1.1870606799598336,
	"grad_norm": 12.375,
	"learning_rate": 1.6952089704383285e-05,
	"loss": 0.3453,
	"step": 1035
	},
	{
	"epoch": 1.1882082914933294,
	"grad_norm": 9.1875,
	"learning_rate": 1.694699286442406e-05,
	"loss": 0.2802,
	"step": 1036
	},
	{
	"epoch": 1.1893559030268255,
	"grad_norm": 29.75,
	"learning_rate": 1.6941896024464833e-05,
	"loss": 0.543,
	"step": 1037
	},
	{
	"epoch": 1.1905035145603213,
	"grad_norm": 60.75,
	"learning_rate": 1.6936799184505606e-05,
	"loss": 0.7737,
	"step": 1038
	},
	{
	"epoch": 1.1916511260938172,
	"grad_norm": 38.0,
	"learning_rate": 1.6931702344546384e-05,
	"loss": 0.7725,
	"step": 1039
	},
	{
	"epoch": 1.1927987376273133,
	"grad_norm": 9.9375,
	"learning_rate": 1.6926605504587158e-05,
	"loss": 0.2875,
	"step": 1040
	},
	{
	"epoch": 1.193946349160809,
	"grad_norm": 53.5,
	"learning_rate": 1.692150866462793e-05,
	"loss": 0.6683,
	"step": 1041
	},
	{
	"epoch": 1.195093960694305,
	"grad_norm": 58.25,
	"learning_rate": 1.6916411824668705e-05,
	"loss": 0.4406,
	"step": 1042
	},
	{
	"epoch": 1.1962415722278008,
	"grad_norm": 46.0,
	"learning_rate": 1.6911314984709483e-05,
	"loss": 0.6739,
	"step": 1043
	},
	{
	"epoch": 1.1973891837612969,
	"grad_norm": 47.25,
	"learning_rate": 1.6906218144750257e-05,
	"loss": 0.278,
	"step": 1044
	},
	{
	"epoch": 1.1985367952947927,
	"grad_norm": 42.5,
	"learning_rate": 1.690112130479103e-05,
	"loss": 0.4348,
	"step": 1045
	},
	{
	"epoch": 1.1996844068282886,
	"grad_norm": 20.0,
	"learning_rate": 1.6896024464831804e-05,
	"loss": 0.1145,
	"step": 1046
	},
	{
	"epoch": 1.2008320183617847,
	"grad_norm": 36.0,
	"learning_rate": 1.689092762487258e-05,
	"loss": 0.7542,
	"step": 1047
	},
	{
	"epoch": 1.2019796298952805,
	"grad_norm": 7.5625,
	"learning_rate": 1.6885830784913356e-05,
	"loss": 0.1475,
	"step": 1048
	},
	{
	"epoch": 1.2031272414287764,
	"grad_norm": 54.75,
	"learning_rate": 1.688073394495413e-05,
	"loss": 0.3082,
	"step": 1049
	},
	{
	"epoch": 1.2042748529622722,
	"grad_norm": 24.5,
	"learning_rate": 1.6875637104994903e-05,
	"loss": 0.8289,
	"step": 1050
	},
	{
	"epoch": 1.205422464495768,
	"grad_norm": 69.5,
	"learning_rate": 1.687054026503568e-05,
	"loss": 0.7198,
	"step": 1051
	},
	{
	"epoch": 1.2065700760292641,
	"grad_norm": 57.25,
	"learning_rate": 1.6865443425076455e-05,
	"loss": 0.3022,
	"step": 1052
	},
	{
	"epoch": 1.20771768756276,
	"grad_norm": 43.5,
	"learning_rate": 1.686034658511723e-05,
	"loss": 0.5085,
	"step": 1053
	},
	{
	"epoch": 1.2088652990962558,
	"grad_norm": 16.75,
	"learning_rate": 1.6855249745158006e-05,
	"loss": 0.4784,
	"step": 1054
	},
	{
	"epoch": 1.210012910629752,
	"grad_norm": 14.3125,
	"learning_rate": 1.6850152905198776e-05,
	"loss": 0.3837,
	"step": 1055
	},
	{
	"epoch": 1.2111605221632478,
	"grad_norm": 9.625,
	"learning_rate": 1.6845056065239554e-05,
	"loss": 0.2057,
	"step": 1056
	},
	{
	"epoch": 1.2123081336967436,
	"grad_norm": 23.625,
	"learning_rate": 1.6839959225280328e-05,
	"loss": 0.9273,
	"step": 1057
	},
	{
	"epoch": 1.2134557452302395,
	"grad_norm": 27.125,
	"learning_rate": 1.68348623853211e-05,
	"loss": 0.5371,
	"step": 1058
	},
	{
	"epoch": 1.2146033567637355,
	"grad_norm": 55.75,
	"learning_rate": 1.682976554536188e-05,
	"loss": 0.5682,
	"step": 1059
	},
	{
	"epoch": 1.2157509682972314,
	"grad_norm": 55.25,
	"learning_rate": 1.6824668705402653e-05,
	"loss": 0.4674,
	"step": 1060
	},
	{
	"epoch": 1.2168985798307272,
	"grad_norm": 18.625,
	"learning_rate": 1.6819571865443427e-05,
	"loss": 0.515,
	"step": 1061
	},
	{
	"epoch": 1.2180461913642233,
	"grad_norm": 118.5,
	"learning_rate": 1.68144750254842e-05,
	"loss": 1.1109,
	"step": 1062
	},
	{
	"epoch": 1.2191938028977192,
	"grad_norm": 45.5,
	"learning_rate": 1.6809378185524974e-05,
	"loss": 0.2941,
	"step": 1063
	},
	{
	"epoch": 1.220341414431215,
	"grad_norm": 21.0,
	"learning_rate": 1.6804281345565752e-05,
	"loss": 0.4562,
	"step": 1064
	},
	{
	"epoch": 1.2214890259647109,
	"grad_norm": 9.375,
	"learning_rate": 1.6799184505606526e-05,
	"loss": 0.1801,
	"step": 1065
	},
	{
	"epoch": 1.222636637498207,
	"grad_norm": 12.5,
	"learning_rate": 1.67940876656473e-05,
	"loss": 0.2672,
	"step": 1066
	},
	{
	"epoch": 1.2237842490317028,
	"grad_norm": 77.5,
	"learning_rate": 1.6788990825688073e-05,
	"loss": 0.6601,
	"step": 1067
	},
	{
	"epoch": 1.2249318605651986,
	"grad_norm": 12.0625,
	"learning_rate": 1.678389398572885e-05,
	"loss": 0.1519,
	"step": 1068
	},
	{
	"epoch": 1.2260794720986945,
	"grad_norm": 24.75,
	"learning_rate": 1.6778797145769625e-05,
	"loss": 0.5777,
	"step": 1069
	},
	{
	"epoch": 1.2272270836321906,
	"grad_norm": 31.125,
	"learning_rate": 1.67737003058104e-05,
	"loss": 0.7135,
	"step": 1070
	},
	{
	"epoch": 1.2283746951656864,
	"grad_norm": 63.5,
	"learning_rate": 1.6768603465851176e-05,
	"loss": 0.8834,
	"step": 1071
	},
	{
	"epoch": 1.2295223066991823,
	"grad_norm": 64.0,
	"learning_rate": 1.6763506625891946e-05,
	"loss": 0.8991,
	"step": 1072
	},
	{
	"epoch": 1.2306699182326781,
	"grad_norm": 21.375,
	"learning_rate": 1.6758409785932724e-05,
	"loss": 0.2697,
	"step": 1073
	},
	{
	"epoch": 1.2318175297661742,
	"grad_norm": 44.0,
	"learning_rate": 1.6753312945973498e-05,
	"loss": 0.4755,
	"step": 1074
	},
	{
	"epoch": 1.23296514129967,
	"grad_norm": 28.875,
	"learning_rate": 1.674821610601427e-05,
	"loss": 0.3531,
	"step": 1075
	},
	{
	"epoch": 1.234112752833166,
	"grad_norm": 33.0,
	"learning_rate": 1.674311926605505e-05,
	"loss": 0.1501,
	"step": 1076
	},
	{
	"epoch": 1.235260364366662,
	"grad_norm": 23.0,
	"learning_rate": 1.6738022426095823e-05,
	"loss": 0.7386,
	"step": 1077
	},
	{
	"epoch": 1.2364079759001578,
	"grad_norm": 18.75,
	"learning_rate": 1.6732925586136597e-05,
	"loss": 0.1371,
	"step": 1078
	},
	{
	"epoch": 1.2375555874336537,
	"grad_norm": 32.25,
	"learning_rate": 1.672782874617737e-05,
	"loss": 0.4283,
	"step": 1079
	},
	{
	"epoch": 1.2387031989671495,
	"grad_norm": 15.25,
	"learning_rate": 1.6722731906218144e-05,
	"loss": 0.221,
	"step": 1080
	},
	{
	"epoch": 1.2398508105006456,
	"grad_norm": 30.625,
	"learning_rate": 1.671763506625892e-05,
	"loss": 0.4018,
	"step": 1081
	},
	{
	"epoch": 1.2409984220341415,
	"grad_norm": 67.0,
	"learning_rate": 1.6712538226299696e-05,
	"loss": 0.9727,
	"step": 1082
	},
	{
	"epoch": 1.2421460335676373,
	"grad_norm": 31.375,
	"learning_rate": 1.670744138634047e-05,
	"loss": 0.4461,
	"step": 1083
	},
	{
	"epoch": 1.2432936451011334,
	"grad_norm": 15.9375,
	"learning_rate": 1.6702344546381243e-05,
	"loss": 0.4182,
	"step": 1084
	},
	{
	"epoch": 1.2444412566346292,
	"grad_norm": 58.25,
	"learning_rate": 1.669724770642202e-05,
	"loss": 0.6867,
	"step": 1085
	},
	{
	"epoch": 1.245588868168125,
	"grad_norm": 30.75,
	"learning_rate": 1.6692150866462795e-05,
	"loss": 0.3318,
	"step": 1086
	},
	{
	"epoch": 1.246736479701621,
	"grad_norm": 52.5,
	"learning_rate": 1.668705402650357e-05,
	"loss": 0.4148,
	"step": 1087
	},
	{
	"epoch": 1.247884091235117,
	"grad_norm": 22.125,
	"learning_rate": 1.6681957186544346e-05,
	"loss": 0.5934,
	"step": 1088
	},
	{
	"epoch": 1.2490317027686129,
	"grad_norm": 33.5,
	"learning_rate": 1.6676860346585116e-05,
	"loss": 0.2049,
	"step": 1089
	},
	{
	"epoch": 1.2501793143021087,
	"grad_norm": 37.5,
	"learning_rate": 1.6671763506625894e-05,
	"loss": 0.3963,
	"step": 1090
	},
	{
	"epoch": 1.2513269258356048,
	"grad_norm": 18.5,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.2542,
	"step": 1091
	},
	{
	"epoch": 1.2524745373691006,
	"grad_norm": 22.75,
	"learning_rate": 1.666156982670744e-05,
	"loss": 0.608,
	"step": 1092
	},
	{
	"epoch": 1.2536221489025965,
	"grad_norm": 29.625,
	"learning_rate": 1.665647298674822e-05,
	"loss": 0.6878,
	"step": 1093
	},
	{
	"epoch": 1.2547697604360923,
	"grad_norm": 30.125,
	"learning_rate": 1.6651376146788993e-05,
	"loss": 0.172,
	"step": 1094
	},
	{
	"epoch": 1.2559173719695882,
	"grad_norm": 32.75,
	"learning_rate": 1.6646279306829766e-05,
	"loss": 0.535,
	"step": 1095
	},
	{
	"epoch": 1.2570649835030843,
	"grad_norm": 53.25,
	"learning_rate": 1.6641182466870544e-05,
	"loss": 0.5492,
	"step": 1096
	},
	{
	"epoch": 1.2582125950365801,
	"grad_norm": 29.0,
	"learning_rate": 1.6636085626911314e-05,
	"loss": 0.3528,
	"step": 1097
	},
	{
	"epoch": 1.259360206570076,
	"grad_norm": 72.5,
	"learning_rate": 1.663098878695209e-05,
	"loss": 0.5466,
	"step": 1098
	},
	{
	"epoch": 1.260507818103572,
	"grad_norm": 33.25,
	"learning_rate": 1.6625891946992865e-05,
	"loss": 0.2994,
	"step": 1099
	},
	{
	"epoch": 1.261655429637068,
	"grad_norm": 44.5,
	"learning_rate": 1.662079510703364e-05,
	"loss": 0.5398,
	"step": 1100
	},
	{
	"epoch": 1.261655429637068,
	"eval_accuracy": 0.56,
	"eval_loss": 0.5154783129692078,
	"eval_runtime": 49.6732,
	"eval_samples_per_second": 2.013,
	"eval_steps_per_second": 2.013,
	"step": 1100
	},
	{
	"epoch": 1.2628030411705637,
	"grad_norm": 23.5,
	"learning_rate": 1.6615698267074417e-05,
	"loss": 0.6216,
	"step": 1101
	},
	{
	"epoch": 1.2639506527040596,
	"grad_norm": 42.0,
	"learning_rate": 1.661060142711519e-05,
	"loss": 0.2358,
	"step": 1102
	},
	{
	"epoch": 1.2650982642375557,
	"grad_norm": 32.75,
	"learning_rate": 1.6605504587155964e-05,
	"loss": 0.2636,
	"step": 1103
	},
	{
	"epoch": 1.2662458757710515,
	"grad_norm": 19.875,
	"learning_rate": 1.660040774719674e-05,
	"loss": 0.2472,
	"step": 1104
	},
	{
	"epoch": 1.2673934873045474,
	"grad_norm": 11.8125,
	"learning_rate": 1.6595310907237516e-05,
	"loss": 0.1907,
	"step": 1105
	},
	{
	"epoch": 1.2685410988380434,
	"grad_norm": 74.0,
	"learning_rate": 1.659021406727829e-05,
	"loss": 0.8738,
	"step": 1106
	},
	{
	"epoch": 1.2696887103715393,
	"grad_norm": 39.5,
	"learning_rate": 1.6585117227319063e-05,
	"loss": 0.4113,
	"step": 1107
	},
	{
	"epoch": 1.2708363219050351,
	"grad_norm": 34.25,
	"learning_rate": 1.6580020387359837e-05,
	"loss": 0.7458,
	"step": 1108
	},
	{
	"epoch": 1.271983933438531,
	"grad_norm": 130.0,
	"learning_rate": 1.657492354740061e-05,
	"loss": 1.2238,
	"step": 1109
	},
	{
	"epoch": 1.2731315449720269,
	"grad_norm": 37.5,
	"learning_rate": 1.656982670744139e-05,
	"loss": 0.6994,
	"step": 1110
	},
	{
	"epoch": 1.274279156505523,
	"grad_norm": 83.5,
	"learning_rate": 1.6564729867482163e-05,
	"loss": 1.1055,
	"step": 1111
	},
	{
	"epoch": 1.2754267680390188,
	"grad_norm": 7.15625,
	"learning_rate": 1.6559633027522936e-05,
	"loss": 0.1926,
	"step": 1112
	},
	{
	"epoch": 1.2765743795725146,
	"grad_norm": 151.0,
	"learning_rate": 1.6554536187563714e-05,
	"loss": 0.4989,
	"step": 1113
	},
	{
	"epoch": 1.2777219911060107,
	"grad_norm": 43.75,
	"learning_rate": 1.6549439347604484e-05,
	"loss": 0.4593,
	"step": 1114
	},
	{
	"epoch": 1.2788696026395066,
	"grad_norm": 23.5,
	"learning_rate": 1.654434250764526e-05,
	"loss": 0.2898,
	"step": 1115
	},
	{
	"epoch": 1.2800172141730024,
	"grad_norm": 37.5,
	"learning_rate": 1.6539245667686035e-05,
	"loss": 0.3342,
	"step": 1116
	},
	{
	"epoch": 1.2811648257064983,
	"grad_norm": 35.25,
	"learning_rate": 1.653414882772681e-05,
	"loss": 0.4059,
	"step": 1117
	},
	{
	"epoch": 1.2823124372399943,
	"grad_norm": 17.875,
	"learning_rate": 1.6529051987767587e-05,
	"loss": 0.3272,
	"step": 1118
	},
	{
	"epoch": 1.2834600487734902,
	"grad_norm": 59.25,
	"learning_rate": 1.652395514780836e-05,
	"loss": 0.5725,
	"step": 1119
	},
	{
	"epoch": 1.284607660306986,
	"grad_norm": 66.0,
	"learning_rate": 1.6518858307849134e-05,
	"loss": 0.8477,
	"step": 1120
	},
	{
	"epoch": 1.285755271840482,
	"grad_norm": 67.0,
	"learning_rate": 1.6513761467889912e-05,
	"loss": 0.5421,
	"step": 1121
	},
	{
	"epoch": 1.286902883373978,
	"grad_norm": 23.75,
	"learning_rate": 1.6508664627930682e-05,
	"loss": 0.457,
	"step": 1122
	},
	{
	"epoch": 1.2880504949074738,
	"grad_norm": 22.875,
	"learning_rate": 1.650356778797146e-05,
	"loss": 0.5799,
	"step": 1123
	},
	{
	"epoch": 1.2891981064409697,
	"grad_norm": 48.25,
	"learning_rate": 1.6498470948012233e-05,
	"loss": 0.5672,
	"step": 1124
	},
	{
	"epoch": 1.2903457179744655,
	"grad_norm": 31.625,
	"learning_rate": 1.6493374108053007e-05,
	"loss": 0.6196,
	"step": 1125
	},
	{
	"epoch": 1.2914933295079616,
	"grad_norm": 79.5,
	"learning_rate": 1.6488277268093785e-05,
	"loss": 0.6727,
	"step": 1126
	},
	{
	"epoch": 1.2926409410414574,
	"grad_norm": 55.25,
	"learning_rate": 1.648318042813456e-05,
	"loss": 0.6848,
	"step": 1127
	},
	{
	"epoch": 1.2937885525749535,
	"grad_norm": 49.5,
	"learning_rate": 1.6478083588175332e-05,
	"loss": 1.015,
	"step": 1128
	},
	{
	"epoch": 1.2949361641084494,
	"grad_norm": 30.375,
	"learning_rate": 1.6472986748216106e-05,
	"loss": 0.9048,
	"step": 1129
	},
	{
	"epoch": 1.2960837756419452,
	"grad_norm": 65.5,
	"learning_rate": 1.6467889908256884e-05,
	"loss": 0.7712,
	"step": 1130
	},
	{
	"epoch": 1.297231387175441,
	"grad_norm": 14.8125,
	"learning_rate": 1.6462793068297658e-05,
	"loss": 0.1942,
	"step": 1131
	},
	{
	"epoch": 1.298378998708937,
	"grad_norm": 57.0,
	"learning_rate": 1.645769622833843e-05,
	"loss": 0.5278,
	"step": 1132
	},
	{
	"epoch": 1.299526610242433,
	"grad_norm": 20.125,
	"learning_rate": 1.6452599388379205e-05,
	"loss": 0.3787,
	"step": 1133
	},
	{
	"epoch": 1.3006742217759288,
	"grad_norm": 20.875,
	"learning_rate": 1.644750254841998e-05,
	"loss": 0.347,
	"step": 1134
	},
	{
	"epoch": 1.3018218333094247,
	"grad_norm": 36.25,
	"learning_rate": 1.6442405708460757e-05,
	"loss": 0.613,
	"step": 1135
	},
	{
	"epoch": 1.3029694448429208,
	"grad_norm": 46.75,
	"learning_rate": 1.643730886850153e-05,
	"loss": 0.3531,
	"step": 1136
	},
	{
	"epoch": 1.3041170563764166,
	"grad_norm": 51.5,
	"learning_rate": 1.6432212028542304e-05,
	"loss": 0.4654,
	"step": 1137
	},
	{
	"epoch": 1.3052646679099125,
	"grad_norm": 59.5,
	"learning_rate": 1.642711518858308e-05,
	"loss": 0.6825,
	"step": 1138
	},
	{
	"epoch": 1.3064122794434083,
	"grad_norm": 20.125,
	"learning_rate": 1.6422018348623852e-05,
	"loss": 0.5258,
	"step": 1139
	},
	{
	"epoch": 1.3075598909769044,
	"grad_norm": 21.375,
	"learning_rate": 1.641692150866463e-05,
	"loss": 0.2334,
	"step": 1140
	},
	{
	"epoch": 1.3087075025104002,
	"grad_norm": 57.5,
	"learning_rate": 1.6411824668705403e-05,
	"loss": 0.9003,
	"step": 1141
	},
	{
	"epoch": 1.309855114043896,
	"grad_norm": 61.5,
	"learning_rate": 1.6406727828746177e-05,
	"loss": 0.6237,
	"step": 1142
	},
	{
	"epoch": 1.3110027255773922,
	"grad_norm": 20.875,
	"learning_rate": 1.6401630988786955e-05,
	"loss": 0.3164,
	"step": 1143
	},
	{
	"epoch": 1.312150337110888,
	"grad_norm": 48.5,
	"learning_rate": 1.639653414882773e-05,
	"loss": 0.4018,
	"step": 1144
	},
	{
	"epoch": 1.3132979486443839,
	"grad_norm": 56.0,
	"learning_rate": 1.6391437308868502e-05,
	"loss": 0.7092,
	"step": 1145
	},
	{
	"epoch": 1.3144455601778797,
	"grad_norm": 38.75,
	"learning_rate": 1.638634046890928e-05,
	"loss": 0.5181,
	"step": 1146
	},
	{
	"epoch": 1.3155931717113756,
	"grad_norm": 40.5,
	"learning_rate": 1.6381243628950054e-05,
	"loss": 0.3165,
	"step": 1147
	},
	{
	"epoch": 1.3167407832448716,
	"grad_norm": 32.25,
	"learning_rate": 1.6376146788990827e-05,
	"loss": 0.7836,
	"step": 1148
	},
	{
	"epoch": 1.3178883947783675,
	"grad_norm": 61.5,
	"learning_rate": 1.63710499490316e-05,
	"loss": 0.7627,
	"step": 1149
	},
	{
	"epoch": 1.3190360063118634,
	"grad_norm": 79.5,
	"learning_rate": 1.6365953109072375e-05,
	"loss": 0.9356,
	"step": 1150
	},
	{
	"epoch": 1.3201836178453594,
	"grad_norm": 189.0,
	"learning_rate": 1.6360856269113153e-05,
	"loss": 1.0391,
	"step": 1151
	},
	{
	"epoch": 1.3213312293788553,
	"grad_norm": 20.25,
	"learning_rate": 1.6355759429153926e-05,
	"loss": 0.6406,
	"step": 1152
	},
	{
	"epoch": 1.3224788409123511,
	"grad_norm": 26.375,
	"learning_rate": 1.63506625891947e-05,
	"loss": 0.3832,
	"step": 1153
	},
	{
	"epoch": 1.323626452445847,
	"grad_norm": 33.0,
	"learning_rate": 1.6345565749235474e-05,
	"loss": 0.4041,
	"step": 1154
	},
	{
	"epoch": 1.324774063979343,
	"grad_norm": 23.625,
	"learning_rate": 1.634046890927625e-05,
	"loss": 0.3527,
	"step": 1155
	},
	{
	"epoch": 1.325921675512839,
	"grad_norm": 99.5,
	"learning_rate": 1.6335372069317022e-05,
	"loss": 0.9746,
	"step": 1156
	},
	{
	"epoch": 1.3270692870463348,
	"grad_norm": 45.0,
	"learning_rate": 1.63302752293578e-05,
	"loss": 0.2891,
	"step": 1157
	},
	{
	"epoch": 1.3282168985798308,
	"grad_norm": 56.5,
	"learning_rate": 1.6325178389398573e-05,
	"loss": 0.8078,
	"step": 1158
	},
	{
	"epoch": 1.3293645101133267,
	"grad_norm": 16.125,
	"learning_rate": 1.6320081549439347e-05,
	"loss": 0.6181,
	"step": 1159
	},
	{
	"epoch": 1.3305121216468225,
	"grad_norm": 31.5,
	"learning_rate": 1.6314984709480125e-05,
	"loss": 0.3313,
	"step": 1160
	},
	{
	"epoch": 1.3316597331803184,
	"grad_norm": 11.75,
	"learning_rate": 1.63098878695209e-05,
	"loss": 0.2764,
	"step": 1161
	},
	{
	"epoch": 1.3328073447138145,
	"grad_norm": 32.0,
	"learning_rate": 1.6304791029561672e-05,
	"loss": 0.6992,
	"step": 1162
	},
	{
	"epoch": 1.3339549562473103,
	"grad_norm": 40.25,
	"learning_rate": 1.629969418960245e-05,
	"loss": 0.4695,
	"step": 1163
	},
	{
	"epoch": 1.3351025677808062,
	"grad_norm": 60.75,
	"learning_rate": 1.6294597349643224e-05,
	"loss": 0.5952,
	"step": 1164
	},
	{
	"epoch": 1.3362501793143022,
	"grad_norm": 52.75,
	"learning_rate": 1.6289500509683997e-05,
	"loss": 0.4987,
	"step": 1165
	},
	{
	"epoch": 1.337397790847798,
	"grad_norm": 28.25,
	"learning_rate": 1.628440366972477e-05,
	"loss": 0.31,
	"step": 1166
	},
	{
	"epoch": 1.338545402381294,
	"grad_norm": 21.25,
	"learning_rate": 1.6279306829765545e-05,
	"loss": 0.4244,
	"step": 1167
	},
	{
	"epoch": 1.3396930139147898,
	"grad_norm": 30.75,
	"learning_rate": 1.6274209989806323e-05,
	"loss": 0.5522,
	"step": 1168
	},
	{
	"epoch": 1.3408406254482856,
	"grad_norm": 18.5,
	"learning_rate": 1.6269113149847096e-05,
	"loss": 0.3786,
	"step": 1169
	},
	{
	"epoch": 1.3419882369817817,
	"grad_norm": 14.6875,
	"learning_rate": 1.626401630988787e-05,
	"loss": 0.0966,
	"step": 1170
	},
	{
	"epoch": 1.3431358485152776,
	"grad_norm": 50.0,
	"learning_rate": 1.6258919469928644e-05,
	"loss": 0.4607,
	"step": 1171
	},
	{
	"epoch": 1.3442834600487734,
	"grad_norm": 27.375,
	"learning_rate": 1.625382262996942e-05,
	"loss": 0.847,
	"step": 1172
	},
	{
	"epoch": 1.3454310715822695,
	"grad_norm": 13.0625,
	"learning_rate": 1.6248725790010195e-05,
	"loss": 0.4091,
	"step": 1173
	},
	{
	"epoch": 1.3465786831157653,
	"grad_norm": 16.0,
	"learning_rate": 1.624362895005097e-05,
	"loss": 0.2403,
	"step": 1174
	},
	{
	"epoch": 1.3477262946492612,
	"grad_norm": 37.25,
	"learning_rate": 1.6238532110091743e-05,
	"loss": 0.421,
	"step": 1175
	},
	{
	"epoch": 1.348873906182757,
	"grad_norm": 55.25,
	"learning_rate": 1.6233435270132517e-05,
	"loss": 0.662,
	"step": 1176
	},
	{
	"epoch": 1.3500215177162531,
	"grad_norm": 40.5,
	"learning_rate": 1.6228338430173294e-05,
	"loss": 0.4565,
	"step": 1177
	},
	{
	"epoch": 1.351169129249749,
	"grad_norm": 14.3125,
	"learning_rate": 1.622324159021407e-05,
	"loss": 0.4465,
	"step": 1178
	},
	{
	"epoch": 1.3523167407832448,
	"grad_norm": 28.625,
	"learning_rate": 1.6218144750254842e-05,
	"loss": 0.3729,
	"step": 1179
	},
	{
	"epoch": 1.353464352316741,
	"grad_norm": 55.25,
	"learning_rate": 1.621304791029562e-05,
	"loss": 0.3222,
	"step": 1180
	},
	{
	"epoch": 1.3546119638502367,
	"grad_norm": 22.875,
	"learning_rate": 1.6207951070336393e-05,
	"loss": 0.437,
	"step": 1181
	},
	{
	"epoch": 1.3557595753837326,
	"grad_norm": 38.0,
	"learning_rate": 1.6202854230377167e-05,
	"loss": 0.651,
	"step": 1182
	},
	{
	"epoch": 1.3569071869172284,
	"grad_norm": 21.625,
	"learning_rate": 1.6197757390417945e-05,
	"loss": 0.4508,
	"step": 1183
	},
	{
	"epoch": 1.3580547984507243,
	"grad_norm": 27.875,
	"learning_rate": 1.6192660550458715e-05,
	"loss": 0.3005,
	"step": 1184
	},
	{
	"epoch": 1.3592024099842204,
	"grad_norm": 42.0,
	"learning_rate": 1.6187563710499492e-05,
	"loss": 0.2964,
	"step": 1185
	},
	{
	"epoch": 1.3603500215177162,
	"grad_norm": 26.125,
	"learning_rate": 1.6182466870540266e-05,
	"loss": 0.6497,
	"step": 1186
	},
	{
	"epoch": 1.3614976330512123,
	"grad_norm": 20.375,
	"learning_rate": 1.617737003058104e-05,
	"loss": 0.3097,
	"step": 1187
	},
	{
	"epoch": 1.3626452445847081,
	"grad_norm": 56.5,
	"learning_rate": 1.6172273190621818e-05,
	"loss": 0.437,
	"step": 1188
	},
	{
	"epoch": 1.363792856118204,
	"grad_norm": 69.5,
	"learning_rate": 1.616717635066259e-05,
	"loss": 0.4491,
	"step": 1189
	},
	{
	"epoch": 1.3649404676516999,
	"grad_norm": 58.75,
	"learning_rate": 1.6162079510703365e-05,
	"loss": 0.4697,
	"step": 1190
	},
	{
	"epoch": 1.3660880791851957,
	"grad_norm": 15.0,
	"learning_rate": 1.615698267074414e-05,
	"loss": 0.2935,
	"step": 1191
	},
	{
	"epoch": 1.3672356907186918,
	"grad_norm": 69.0,
	"learning_rate": 1.6151885830784913e-05,
	"loss": 0.8532,
	"step": 1192
	},
	{
	"epoch": 1.3683833022521876,
	"grad_norm": 27.5,
	"learning_rate": 1.614678899082569e-05,
	"loss": 0.3305,
	"step": 1193
	},
	{
	"epoch": 1.3695309137856835,
	"grad_norm": 65.5,
	"learning_rate": 1.6141692150866464e-05,
	"loss": 0.6747,
	"step": 1194
	},
	{
	"epoch": 1.3706785253191796,
	"grad_norm": 39.5,
	"learning_rate": 1.6136595310907238e-05,
	"loss": 0.4378,
	"step": 1195
	},
	{
	"epoch": 1.3718261368526754,
	"grad_norm": 36.25,
	"learning_rate": 1.6131498470948012e-05,
	"loss": 0.4756,
	"step": 1196
	},
	{
	"epoch": 1.3729737483861713,
	"grad_norm": 25.75,
	"learning_rate": 1.612640163098879e-05,
	"loss": 0.2116,
	"step": 1197
	},
	{
	"epoch": 1.374121359919667,
	"grad_norm": 51.5,
	"learning_rate": 1.6121304791029563e-05,
	"loss": 0.6976,
	"step": 1198
	},
	{
	"epoch": 1.3752689714531632,
	"grad_norm": 28.25,
	"learning_rate": 1.6116207951070337e-05,
	"loss": 0.3644,
	"step": 1199
	},
	{
	"epoch": 1.376416582986659,
	"grad_norm": 21.25,
	"learning_rate": 1.6111111111111115e-05,
	"loss": 0.4288,
	"step": 1200
	},
	{
	"epoch": 1.376416582986659,
	"eval_accuracy": 0.61,
	"eval_loss": 0.5443911552429199,
	"eval_runtime": 49.3817,
	"eval_samples_per_second": 2.025,
	"eval_steps_per_second": 2.025,
	"step": 1200
	},
	{
	"epoch": 1.3775641945201549,
	"grad_norm": 16.75,
	"learning_rate": 1.6106014271151885e-05,
	"loss": 0.5041,
	"step": 1201
	},
	{
	"epoch": 1.378711806053651,
	"grad_norm": 50.25,
	"learning_rate": 1.6100917431192662e-05,
	"loss": 0.5077,
	"step": 1202
	},
	{
	"epoch": 1.3798594175871468,
	"grad_norm": 15.875,
	"learning_rate": 1.6095820591233436e-05,
	"loss": 0.2509,
	"step": 1203
	},
	{
	"epoch": 1.3810070291206427,
	"grad_norm": 52.5,
	"learning_rate": 1.609072375127421e-05,
	"loss": 0.6619,
	"step": 1204
	},
	{
	"epoch": 1.3821546406541385,
	"grad_norm": 27.0,
	"learning_rate": 1.6085626911314988e-05,
	"loss": 0.3906,
	"step": 1205
	},
	{
	"epoch": 1.3833022521876344,
	"grad_norm": 28.5,
	"learning_rate": 1.608053007135576e-05,
	"loss": 0.506,
	"step": 1206
	},
	{
	"epoch": 1.3844498637211304,
	"grad_norm": 34.25,
	"learning_rate": 1.6075433231396535e-05,
	"loss": 0.3932,
	"step": 1207
	},
	{
	"epoch": 1.3855974752546263,
	"grad_norm": 36.75,
	"learning_rate": 1.6070336391437313e-05,
	"loss": 0.5362,
	"step": 1208
	},
	{
	"epoch": 1.3867450867881221,
	"grad_norm": 52.5,
	"learning_rate": 1.6065239551478083e-05,
	"loss": 0.5699,
	"step": 1209
	},
	{
	"epoch": 1.3878926983216182,
	"grad_norm": 45.5,
	"learning_rate": 1.606014271151886e-05,
	"loss": 0.5685,
	"step": 1210
	},
	{
	"epoch": 1.389040309855114,
	"grad_norm": 60.25,
	"learning_rate": 1.6055045871559634e-05,
	"loss": 0.9313,
	"step": 1211
	},
	{
	"epoch": 1.39018792138861,
	"grad_norm": 38.0,
	"learning_rate": 1.6049949031600408e-05,
	"loss": 0.5542,
	"step": 1212
	},
	{
	"epoch": 1.3913355329221058,
	"grad_norm": 40.75,
	"learning_rate": 1.6044852191641186e-05,
	"loss": 0.8328,
	"step": 1213
	},
	{
	"epoch": 1.3924831444556018,
	"grad_norm": 42.25,
	"learning_rate": 1.603975535168196e-05,
	"loss": 0.2783,
	"step": 1214
	},
	{
	"epoch": 1.3936307559890977,
	"grad_norm": 39.5,
	"learning_rate": 1.6034658511722733e-05,
	"loss": 0.5385,
	"step": 1215
	},
	{
	"epoch": 1.3947783675225935,
	"grad_norm": 42.75,
	"learning_rate": 1.6029561671763507e-05,
	"loss": 0.5375,
	"step": 1216
	},
	{
	"epoch": 1.3959259790560896,
	"grad_norm": 22.25,
	"learning_rate": 1.602446483180428e-05,
	"loss": 0.6028,
	"step": 1217
	},
	{
	"epoch": 1.3970735905895855,
	"grad_norm": 34.0,
	"learning_rate": 1.601936799184506e-05,
	"loss": 0.5153,
	"step": 1218
	},
	{
	"epoch": 1.3982212021230813,
	"grad_norm": 79.5,
	"learning_rate": 1.6014271151885832e-05,
	"loss": 0.7959,
	"step": 1219
	},
	{
	"epoch": 1.3993688136565772,
	"grad_norm": 28.0,
	"learning_rate": 1.6009174311926606e-05,
	"loss": 0.271,
	"step": 1220
	},
	{
	"epoch": 1.400516425190073,
	"grad_norm": 76.5,
	"learning_rate": 1.600407747196738e-05,
	"loss": 0.6952,
	"step": 1221
	},
	{
	"epoch": 1.401664036723569,
	"grad_norm": 21.875,
	"learning_rate": 1.5998980632008157e-05,
	"loss": 0.452,
	"step": 1222
	},
	{
	"epoch": 1.402811648257065,
	"grad_norm": 70.5,
	"learning_rate": 1.599388379204893e-05,
	"loss": 0.5592,
	"step": 1223
	},
	{
	"epoch": 1.403959259790561,
	"grad_norm": 17.875,
	"learning_rate": 1.5988786952089705e-05,
	"loss": 0.451,
	"step": 1224
	},
	{
	"epoch": 1.4051068713240569,
	"grad_norm": 30.125,
	"learning_rate": 1.5983690112130483e-05,
	"loss": 0.4143,
	"step": 1225
	},
	{
	"epoch": 1.4062544828575527,
	"grad_norm": 25.625,
	"learning_rate": 1.5978593272171253e-05,
	"loss": 0.454,
	"step": 1226
	},
	{
	"epoch": 1.4074020943910486,
	"grad_norm": 24.625,
	"learning_rate": 1.597349643221203e-05,
	"loss": 0.4827,
	"step": 1227
	},
	{
	"epoch": 1.4085497059245444,
	"grad_norm": 14.6875,
	"learning_rate": 1.5968399592252804e-05,
	"loss": 0.1517,
	"step": 1228
	},
	{
	"epoch": 1.4096973174580405,
	"grad_norm": 12.3125,
	"learning_rate": 1.5963302752293578e-05,
	"loss": 0.4015,
	"step": 1229
	},
	{
	"epoch": 1.4108449289915364,
	"grad_norm": 59.0,
	"learning_rate": 1.5958205912334355e-05,
	"loss": 0.5366,
	"step": 1230
	},
	{
	"epoch": 1.4119925405250322,
	"grad_norm": 11.1875,
	"learning_rate": 1.595310907237513e-05,
	"loss": 0.3743,
	"step": 1231
	},
	{
	"epoch": 1.4131401520585283,
	"grad_norm": 18.75,
	"learning_rate": 1.5948012232415903e-05,
	"loss": 0.4668,
	"step": 1232
	},
	{
	"epoch": 1.4142877635920241,
	"grad_norm": 50.75,
	"learning_rate": 1.5942915392456677e-05,
	"loss": 0.3211,
	"step": 1233
	},
	{
	"epoch": 1.41543537512552,
	"grad_norm": 41.5,
	"learning_rate": 1.593781855249745e-05,
	"loss": 0.5208,
	"step": 1234
	},
	{
	"epoch": 1.4165829866590158,
	"grad_norm": 16.5,
	"learning_rate": 1.593272171253823e-05,
	"loss": 0.2334,
	"step": 1235
	},
	{
	"epoch": 1.417730598192512,
	"grad_norm": 72.0,
	"learning_rate": 1.5927624872579002e-05,
	"loss": 0.4065,
	"step": 1236
	},
	{
	"epoch": 1.4188782097260078,
	"grad_norm": 21.0,
	"learning_rate": 1.5922528032619776e-05,
	"loss": 0.4257,
	"step": 1237
	},
	{
	"epoch": 1.4200258212595036,
	"grad_norm": 18.75,
	"learning_rate": 1.591743119266055e-05,
	"loss": 0.3615,
	"step": 1238
	},
	{
	"epoch": 1.4211734327929997,
	"grad_norm": 54.5,
	"learning_rate": 1.5912334352701327e-05,
	"loss": 0.2902,
	"step": 1239
	},
	{
	"epoch": 1.4223210443264955,
	"grad_norm": 8.3125,
	"learning_rate": 1.59072375127421e-05,
	"loss": 0.1653,
	"step": 1240
	},
	{
	"epoch": 1.4234686558599914,
	"grad_norm": 18.125,
	"learning_rate": 1.5902140672782875e-05,
	"loss": 0.3842,
	"step": 1241
	},
	{
	"epoch": 1.4246162673934872,
	"grad_norm": 85.0,
	"learning_rate": 1.5897043832823652e-05,
	"loss": 0.7718,
	"step": 1242
	},
	{
	"epoch": 1.425763878926983,
	"grad_norm": 27.125,
	"learning_rate": 1.5891946992864423e-05,
	"loss": 0.195,
	"step": 1243
	},
	{
	"epoch": 1.4269114904604792,
	"grad_norm": 31.125,
	"learning_rate": 1.58868501529052e-05,
	"loss": 0.5963,
	"step": 1244
	},
	{
	"epoch": 1.428059101993975,
	"grad_norm": 67.0,
	"learning_rate": 1.5881753312945974e-05,
	"loss": 0.709,
	"step": 1245
	},
	{
	"epoch": 1.429206713527471,
	"grad_norm": 20.25,
	"learning_rate": 1.5876656472986748e-05,
	"loss": 0.3003,
	"step": 1246
	},
	{
	"epoch": 1.430354325060967,
	"grad_norm": 40.25,
	"learning_rate": 1.5871559633027525e-05,
	"loss": 0.7344,
	"step": 1247
	},
	{
	"epoch": 1.4315019365944628,
	"grad_norm": 26.75,
	"learning_rate": 1.58664627930683e-05,
	"loss": 1.0281,
	"step": 1248
	},
	{
	"epoch": 1.4326495481279586,
	"grad_norm": 49.25,
	"learning_rate": 1.5861365953109073e-05,
	"loss": 0.3,
	"step": 1249
	},
	{
	"epoch": 1.4337971596614545,
	"grad_norm": 27.125,
	"learning_rate": 1.585626911314985e-05,
	"loss": 0.5945,
	"step": 1250
	},
	{
	"epoch": 1.4349447711949506,
	"grad_norm": 41.5,
	"learning_rate": 1.585117227319062e-05,
	"loss": 0.6692,
	"step": 1251
	},
	{
	"epoch": 1.4360923827284464,
	"grad_norm": 14.375,
	"learning_rate": 1.58460754332314e-05,
	"loss": 0.3908,
	"step": 1252
	},
	{
	"epoch": 1.4372399942619423,
	"grad_norm": 77.5,
	"learning_rate": 1.5840978593272172e-05,
	"loss": 0.7376,
	"step": 1253
	},
	{
	"epoch": 1.4383876057954383,
	"grad_norm": 29.75,
	"learning_rate": 1.5835881753312946e-05,
	"loss": 0.355,
	"step": 1254
	},
	{
	"epoch": 1.4395352173289342,
	"grad_norm": 32.0,
	"learning_rate": 1.5830784913353723e-05,
	"loss": 0.7525,
	"step": 1255
	},
	{
	"epoch": 1.44068282886243,
	"grad_norm": 42.75,
	"learning_rate": 1.5825688073394497e-05,
	"loss": 0.2832,
	"step": 1256
	},
	{
	"epoch": 1.441830440395926,
	"grad_norm": 21.125,
	"learning_rate": 1.582059123343527e-05,
	"loss": 0.3375,
	"step": 1257
	},
	{
	"epoch": 1.442978051929422,
	"grad_norm": 33.25,
	"learning_rate": 1.5815494393476045e-05,
	"loss": 0.3517,
	"step": 1258
	},
	{
	"epoch": 1.4441256634629178,
	"grad_norm": 35.0,
	"learning_rate": 1.5810397553516822e-05,
	"loss": 0.382,
	"step": 1259
	},
	{
	"epoch": 1.4452732749964137,
	"grad_norm": 53.75,
	"learning_rate": 1.5805300713557596e-05,
	"loss": 0.3113,
	"step": 1260
	},
	{
	"epoch": 1.4464208865299097,
	"grad_norm": 43.75,
	"learning_rate": 1.580020387359837e-05,
	"loss": 0.3177,
	"step": 1261
	},
	{
	"epoch": 1.4475684980634056,
	"grad_norm": 35.0,
	"learning_rate": 1.5795107033639144e-05,
	"loss": 0.3791,
	"step": 1262
	},
	{
	"epoch": 1.4487161095969014,
	"grad_norm": 45.0,
	"learning_rate": 1.5790010193679918e-05,
	"loss": 0.4492,
	"step": 1263
	},
	{
	"epoch": 1.4498637211303973,
	"grad_norm": 27.875,
	"learning_rate": 1.5784913353720695e-05,
	"loss": 0.3343,
	"step": 1264
	},
	{
	"epoch": 1.4510113326638931,
	"grad_norm": 19.125,
	"learning_rate": 1.577981651376147e-05,
	"loss": 0.8559,
	"step": 1265
	},
	{
	"epoch": 1.4521589441973892,
	"grad_norm": 8.0,
	"learning_rate": 1.5774719673802243e-05,
	"loss": 0.1379,
	"step": 1266
	},
	{
	"epoch": 1.453306555730885,
	"grad_norm": 49.5,
	"learning_rate": 1.576962283384302e-05,
	"loss": 0.4941,
	"step": 1267
	},
	{
	"epoch": 1.454454167264381,
	"grad_norm": 84.5,
	"learning_rate": 1.576452599388379e-05,
	"loss": 1.4308,
	"step": 1268
	},
	{
	"epoch": 1.455601778797877,
	"grad_norm": 92.0,
	"learning_rate": 1.5759429153924568e-05,
	"loss": 0.9692,
	"step": 1269
	},
	{
	"epoch": 1.4567493903313729,
	"grad_norm": 88.0,
	"learning_rate": 1.5754332313965342e-05,
	"loss": 0.9589,
	"step": 1270
	},
	{
	"epoch": 1.4578970018648687,
	"grad_norm": 50.25,
	"learning_rate": 1.5749235474006116e-05,
	"loss": 0.5352,
	"step": 1271
	},
	{
	"epoch": 1.4590446133983646,
	"grad_norm": 42.0,
	"learning_rate": 1.5744138634046893e-05,
	"loss": 0.3708,
	"step": 1272
	},
	{
	"epoch": 1.4601922249318606,
	"grad_norm": 35.0,
	"learning_rate": 1.5739041794087667e-05,
	"loss": 0.7022,
	"step": 1273
	},
	{
	"epoch": 1.4613398364653565,
	"grad_norm": 13.375,
	"learning_rate": 1.573394495412844e-05,
	"loss": 0.3201,
	"step": 1274
	},
	{
	"epoch": 1.4624874479988523,
	"grad_norm": 87.5,
	"learning_rate": 1.572884811416922e-05,
	"loss": 0.576,
	"step": 1275
	},
	{
	"epoch": 1.4636350595323484,
	"grad_norm": 68.5,
	"learning_rate": 1.5723751274209992e-05,
	"loss": 0.5697,
	"step": 1276
	},
	{
	"epoch": 1.4647826710658443,
	"grad_norm": 31.75,
	"learning_rate": 1.5718654434250766e-05,
	"loss": 0.4631,
	"step": 1277
	},
	{
	"epoch": 1.46593028259934,
	"grad_norm": 19.5,
	"learning_rate": 1.571355759429154e-05,
	"loss": 0.4516,
	"step": 1278
	},
	{
	"epoch": 1.467077894132836,
	"grad_norm": 52.0,
	"learning_rate": 1.5708460754332314e-05,
	"loss": 0.6808,
	"step": 1279
	},
	{
	"epoch": 1.4682255056663318,
	"grad_norm": 17.875,
	"learning_rate": 1.570336391437309e-05,
	"loss": 0.3936,
	"step": 1280
	},
	{
	"epoch": 1.4693731171998279,
	"grad_norm": 24.25,
	"learning_rate": 1.5698267074413865e-05,
	"loss": 0.4196,
	"step": 1281
	},
	{
	"epoch": 1.4705207287333237,
	"grad_norm": 111.0,
	"learning_rate": 1.569317023445464e-05,
	"loss": 0.8228,
	"step": 1282
	},
	{
	"epoch": 1.4716683402668198,
	"grad_norm": 36.5,
	"learning_rate": 1.5688073394495413e-05,
	"loss": 0.5546,
	"step": 1283
	},
	{
	"epoch": 1.4728159518003157,
	"grad_norm": 40.5,
	"learning_rate": 1.568297655453619e-05,
	"loss": 0.4347,
	"step": 1284
	},
	{
	"epoch": 1.4739635633338115,
	"grad_norm": 59.75,
	"learning_rate": 1.5677879714576964e-05,
	"loss": 0.8506,
	"step": 1285
	},
	{
	"epoch": 1.4751111748673074,
	"grad_norm": 58.25,
	"learning_rate": 1.5672782874617738e-05,
	"loss": 0.4958,
	"step": 1286
	},
	{
	"epoch": 1.4762587864008032,
	"grad_norm": 41.5,
	"learning_rate": 1.5667686034658512e-05,
	"loss": 0.6571,
	"step": 1287
	},
	{
	"epoch": 1.4774063979342993,
	"grad_norm": 20.75,
	"learning_rate": 1.5662589194699286e-05,
	"loss": 0.2749,
	"step": 1288
	},
	{
	"epoch": 1.4785540094677951,
	"grad_norm": 24.875,
	"learning_rate": 1.5657492354740063e-05,
	"loss": 0.552,
	"step": 1289
	},
	{
	"epoch": 1.479701621001291,
	"grad_norm": 24.625,
	"learning_rate": 1.5652395514780837e-05,
	"loss": 0.5655,
	"step": 1290
	},
	{
	"epoch": 1.480849232534787,
	"grad_norm": 71.0,
	"learning_rate": 1.564729867482161e-05,
	"loss": 1.1072,
	"step": 1291
	},
	{
	"epoch": 1.481996844068283,
	"grad_norm": 56.5,
	"learning_rate": 1.564220183486239e-05,
	"loss": 0.9029,
	"step": 1292
	},
	{
	"epoch": 1.4831444556017788,
	"grad_norm": 75.0,
	"learning_rate": 1.563710499490316e-05,
	"loss": 0.8671,
	"step": 1293
	},
	{
	"epoch": 1.4842920671352746,
	"grad_norm": 68.5,
	"learning_rate": 1.5632008154943936e-05,
	"loss": 0.6165,
	"step": 1294
	},
	{
	"epoch": 1.4854396786687707,
	"grad_norm": 57.5,
	"learning_rate": 1.5626911314984713e-05,
	"loss": 0.4413,
	"step": 1295
	},
	{
	"epoch": 1.4865872902022665,
	"grad_norm": 38.25,
	"learning_rate": 1.5621814475025484e-05,
	"loss": 0.4508,
	"step": 1296
	},
	{
	"epoch": 1.4877349017357624,
	"grad_norm": 22.375,
	"learning_rate": 1.561671763506626e-05,
	"loss": 0.4694,
	"step": 1297
	},
	{
	"epoch": 1.4888825132692585,
	"grad_norm": 19.625,
	"learning_rate": 1.5611620795107035e-05,
	"loss": 0.4833,
	"step": 1298
	},
	{
	"epoch": 1.4900301248027543,
	"grad_norm": 74.0,
	"learning_rate": 1.560652395514781e-05,
	"loss": 0.6443,
	"step": 1299
	},
	{
	"epoch": 1.4911777363362502,
	"grad_norm": 30.25,
	"learning_rate": 1.5601427115188586e-05,
	"loss": 0.5003,
	"step": 1300
	},
	{
	"epoch": 1.4911777363362502,
	"eval_accuracy": 0.64,
	"eval_loss": 0.5184877514839172,
	"eval_runtime": 49.6613,
	"eval_samples_per_second": 2.014,
	"eval_steps_per_second": 2.014,
	"step": 1300
	},
	{
	"epoch": 1.492325347869746,
	"grad_norm": 26.5,
	"learning_rate": 1.559633027522936e-05,
	"loss": 0.4356,
	"step": 1301
	},
	{
	"epoch": 1.4934729594032419,
	"grad_norm": 93.0,
	"learning_rate": 1.5591233435270134e-05,
	"loss": 0.6945,
	"step": 1302
	},
	{
	"epoch": 1.494620570936738,
	"grad_norm": 84.0,
	"learning_rate": 1.5586136595310908e-05,
	"loss": 0.7059,
	"step": 1303
	},
	{
	"epoch": 1.4957681824702338,
	"grad_norm": 84.5,
	"learning_rate": 1.5581039755351682e-05,
	"loss": 0.8654,
	"step": 1304
	},
	{
	"epoch": 1.4969157940037299,
	"grad_norm": 79.5,
	"learning_rate": 1.5575942915392456e-05,
	"loss": 0.8112,
	"step": 1305
	},
	{
	"epoch": 1.4980634055372257,
	"grad_norm": 41.75,
	"learning_rate": 1.5570846075433233e-05,
	"loss": 1.0995,
	"step": 1306
	},
	{
	"epoch": 1.4992110170707216,
	"grad_norm": 28.625,
	"learning_rate": 1.5565749235474007e-05,
	"loss": 0.8355,
	"step": 1307
	},
	{
	"epoch": 1.5003586286042174,
	"grad_norm": 67.5,
	"learning_rate": 1.556065239551478e-05,
	"loss": 0.7727,
	"step": 1308
	},
	{
	"epoch": 1.5015062401377133,
	"grad_norm": 17.5,
	"learning_rate": 1.555555555555556e-05,
	"loss": 0.4682,
	"step": 1309
	},
	{
	"epoch": 1.5026538516712094,
	"grad_norm": 18.625,
	"learning_rate": 1.555045871559633e-05,
	"loss": 0.2126,
	"step": 1310
	},
	{
	"epoch": 1.5038014632047052,
	"grad_norm": 15.75,
	"learning_rate": 1.5545361875637106e-05,
	"loss": 0.4916,
	"step": 1311
	},
	{
	"epoch": 1.5049490747382013,
	"grad_norm": 31.625,
	"learning_rate": 1.554026503567788e-05,
	"loss": 0.2308,
	"step": 1312
	},
	{
	"epoch": 1.5060966862716971,
	"grad_norm": 51.75,
	"learning_rate": 1.5535168195718654e-05,
	"loss": 1.0898,
	"step": 1313
	},
	{
	"epoch": 1.507244297805193,
	"grad_norm": 31.75,
	"learning_rate": 1.553007135575943e-05,
	"loss": 0.4099,
	"step": 1314
	},
	{
	"epoch": 1.5083919093386888,
	"grad_norm": 88.0,
	"learning_rate": 1.5524974515800205e-05,
	"loss": 0.9649,
	"step": 1315
	},
	{
	"epoch": 1.5095395208721847,
	"grad_norm": 24.75,
	"learning_rate": 1.551987767584098e-05,
	"loss": 1.0352,
	"step": 1316
	},
	{
	"epoch": 1.5106871324056805,
	"grad_norm": 13.625,
	"learning_rate": 1.5514780835881756e-05,
	"loss": 0.3537,
	"step": 1317
	},
	{
	"epoch": 1.5118347439391766,
	"grad_norm": 94.0,
	"learning_rate": 1.550968399592253e-05,
	"loss": 0.9038,
	"step": 1318
	},
	{
	"epoch": 1.5129823554726725,
	"grad_norm": 26.0,
	"learning_rate": 1.5504587155963304e-05,
	"loss": 0.346,
	"step": 1319
	},
	{
	"epoch": 1.5141299670061685,
	"grad_norm": 44.25,
	"learning_rate": 1.5499490316004078e-05,
	"loss": 0.7941,
	"step": 1320
	},
	{
	"epoch": 1.5152775785396644,
	"grad_norm": 27.75,
	"learning_rate": 1.5494393476044852e-05,
	"loss": 0.3747,
	"step": 1321
	},
	{
	"epoch": 1.5164251900731602,
	"grad_norm": 97.5,
	"learning_rate": 1.548929663608563e-05,
	"loss": 0.9651,
	"step": 1322
	},
	{
	"epoch": 1.517572801606656,
	"grad_norm": 10.6875,
	"learning_rate": 1.5484199796126403e-05,
	"loss": 0.2523,
	"step": 1323
	},
	{
	"epoch": 1.518720413140152,
	"grad_norm": 23.25,
	"learning_rate": 1.5479102956167177e-05,
	"loss": 0.5667,
	"step": 1324
	},
	{
	"epoch": 1.519868024673648,
	"grad_norm": 22.25,
	"learning_rate": 1.547400611620795e-05,
	"loss": 0.3108,
	"step": 1325
	},
	{
	"epoch": 1.5210156362071439,
	"grad_norm": 29.125,
	"learning_rate": 1.5468909276248728e-05,
	"loss": 0.5994,
	"step": 1326
	},
	{
	"epoch": 1.52216324774064,
	"grad_norm": 37.0,
	"learning_rate": 1.5463812436289502e-05,
	"loss": 0.6835,
	"step": 1327
	},
	{
	"epoch": 1.5233108592741358,
	"grad_norm": 35.0,
	"learning_rate": 1.5458715596330276e-05,
	"loss": 0.3934,
	"step": 1328
	},
	{
	"epoch": 1.5244584708076316,
	"grad_norm": 42.5,
	"learning_rate": 1.545361875637105e-05,
	"loss": 0.4904,
	"step": 1329
	},
	{
	"epoch": 1.5256060823411275,
	"grad_norm": 79.5,
	"learning_rate": 1.5448521916411824e-05,
	"loss": 0.8999,
	"step": 1330
	},
	{
	"epoch": 1.5267536938746233,
	"grad_norm": 51.25,
	"learning_rate": 1.54434250764526e-05,
	"loss": 0.5231,
	"step": 1331
	},
	{
	"epoch": 1.5279013054081192,
	"grad_norm": 53.5,
	"learning_rate": 1.5438328236493375e-05,
	"loss": 0.6297,
	"step": 1332
	},
	{
	"epoch": 1.5290489169416153,
	"grad_norm": 65.5,
	"learning_rate": 1.543323139653415e-05,
	"loss": 0.5863,
	"step": 1333
	},
	{
	"epoch": 1.5301965284751113,
	"grad_norm": 44.0,
	"learning_rate": 1.5428134556574926e-05,
	"loss": 0.402,
	"step": 1334
	},
	{
	"epoch": 1.5313441400086072,
	"grad_norm": 54.0,
	"learning_rate": 1.54230377166157e-05,
	"loss": 0.5476,
	"step": 1335
	},
	{
	"epoch": 1.532491751542103,
	"grad_norm": 40.5,
	"learning_rate": 1.5417940876656474e-05,
	"loss": 0.4921,
	"step": 1336
	},
	{
	"epoch": 1.533639363075599,
	"grad_norm": 15.125,
	"learning_rate": 1.541284403669725e-05,
	"loss": 0.4748,
	"step": 1337
	},
	{
	"epoch": 1.5347869746090947,
	"grad_norm": 35.25,
	"learning_rate": 1.5407747196738022e-05,
	"loss": 0.5071,
	"step": 1338
	},
	{
	"epoch": 1.5359345861425906,
	"grad_norm": 26.5,
	"learning_rate": 1.54026503567788e-05,
	"loss": 0.2151,
	"step": 1339
	},
	{
	"epoch": 1.5370821976760867,
	"grad_norm": 32.5,
	"learning_rate": 1.5397553516819573e-05,
	"loss": 0.4312,
	"step": 1340
	},
	{
	"epoch": 1.5382298092095825,
	"grad_norm": 80.5,
	"learning_rate": 1.5392456676860347e-05,
	"loss": 0.6625,
	"step": 1341
	},
	{
	"epoch": 1.5393774207430786,
	"grad_norm": 46.25,
	"learning_rate": 1.5387359836901124e-05,
	"loss": 0.3488,
	"step": 1342
	},
	{
	"epoch": 1.5405250322765744,
	"grad_norm": 41.75,
	"learning_rate": 1.5382262996941898e-05,
	"loss": 0.5342,
	"step": 1343
	},
	{
	"epoch": 1.5416726438100703,
	"grad_norm": 44.0,
	"learning_rate": 1.5377166156982672e-05,
	"loss": 0.4736,
	"step": 1344
	},
	{
	"epoch": 1.5428202553435661,
	"grad_norm": 11.625,
	"learning_rate": 1.5372069317023446e-05,
	"loss": 0.3527,
	"step": 1345
	},
	{
	"epoch": 1.543967866877062,
	"grad_norm": 31.75,
	"learning_rate": 1.536697247706422e-05,
	"loss": 0.6221,
	"step": 1346
	},
	{
	"epoch": 1.545115478410558,
	"grad_norm": 47.0,
	"learning_rate": 1.5361875637104997e-05,
	"loss": 0.6081,
	"step": 1347
	},
	{
	"epoch": 1.546263089944054,
	"grad_norm": 22.5,
	"learning_rate": 1.535677879714577e-05,
	"loss": 0.4948,
	"step": 1348
	},
	{
	"epoch": 1.54741070147755,
	"grad_norm": 82.5,
	"learning_rate": 1.5351681957186545e-05,
	"loss": 0.7993,
	"step": 1349
	},
	{
	"epoch": 1.5485583130110459,
	"grad_norm": 45.5,
	"learning_rate": 1.534658511722732e-05,
	"loss": 0.6413,
	"step": 1350
	},
	{
	"epoch": 1.5497059245445417,
	"grad_norm": 14.875,
	"learning_rate": 1.5341488277268096e-05,
	"loss": 0.4485,
	"step": 1351
	},
	{
	"epoch": 1.5508535360780376,
	"grad_norm": 50.0,
	"learning_rate": 1.533639143730887e-05,
	"loss": 1.0687,
	"step": 1352
	},
	{
	"epoch": 1.5520011476115334,
	"grad_norm": 58.75,
	"learning_rate": 1.5331294597349644e-05,
	"loss": 1.0185,
	"step": 1353
	},
	{
	"epoch": 1.5531487591450293,
	"grad_norm": 43.0,
	"learning_rate": 1.532619775739042e-05,
	"loss": 0.5074,
	"step": 1354
	},
	{
	"epoch": 1.5542963706785253,
	"grad_norm": 47.25,
	"learning_rate": 1.5321100917431192e-05,
	"loss": 0.3446,
	"step": 1355
	},
	{
	"epoch": 1.5554439822120212,
	"grad_norm": 37.25,
	"learning_rate": 1.531600407747197e-05,
	"loss": 0.3883,
	"step": 1356
	},
	{
	"epoch": 1.5565915937455173,
	"grad_norm": 79.0,
	"learning_rate": 1.5310907237512743e-05,
	"loss": 0.8577,
	"step": 1357
	},
	{
	"epoch": 1.557739205279013,
	"grad_norm": 45.0,
	"learning_rate": 1.5305810397553517e-05,
	"loss": 0.5937,
	"step": 1358
	},
	{
	"epoch": 1.558886816812509,
	"grad_norm": 56.25,
	"learning_rate": 1.5300713557594294e-05,
	"loss": 0.8568,
	"step": 1359
	},
	{
	"epoch": 1.5600344283460048,
	"grad_norm": 33.25,
	"learning_rate": 1.5295616717635068e-05,
	"loss": 0.4064,
	"step": 1360
	},
	{
	"epoch": 1.5611820398795007,
	"grad_norm": 59.0,
	"learning_rate": 1.5290519877675842e-05,
	"loss": 0.6067,
	"step": 1361
	},
	{
	"epoch": 1.5623296514129967,
	"grad_norm": 11.75,
	"learning_rate": 1.528542303771662e-05,
	"loss": 0.3149,
	"step": 1362
	},
	{
	"epoch": 1.5634772629464926,
	"grad_norm": 38.0,
	"learning_rate": 1.528032619775739e-05,
	"loss": 0.5482,
	"step": 1363
	},
	{
	"epoch": 1.5646248744799887,
	"grad_norm": 43.0,
	"learning_rate": 1.5275229357798167e-05,
	"loss": 0.3758,
	"step": 1364
	},
	{
	"epoch": 1.5657724860134845,
	"grad_norm": 17.625,
	"learning_rate": 1.527013251783894e-05,
	"loss": 0.0865,
	"step": 1365
	},
	{
	"epoch": 1.5669200975469804,
	"grad_norm": 79.0,
	"learning_rate": 1.5265035677879715e-05,
	"loss": 1.07,
	"step": 1366
	},
	{
	"epoch": 1.5680677090804762,
	"grad_norm": 86.5,
	"learning_rate": 1.5259938837920492e-05,
	"loss": 1.2776,
	"step": 1367
	},
	{
	"epoch": 1.569215320613972,
	"grad_norm": 65.0,
	"learning_rate": 1.5254841997961264e-05,
	"loss": 1.0829,
	"step": 1368
	},
	{
	"epoch": 1.570362932147468,
	"grad_norm": 11.25,
	"learning_rate": 1.524974515800204e-05,
	"loss": 0.1616,
	"step": 1369
	},
	{
	"epoch": 1.571510543680964,
	"grad_norm": 175.0,
	"learning_rate": 1.5244648318042814e-05,
	"loss": 0.788,
	"step": 1370
	},
	{
	"epoch": 1.57265815521446,
	"grad_norm": 52.25,
	"learning_rate": 1.523955147808359e-05,
	"loss": 0.6801,
	"step": 1371
	},
	{
	"epoch": 1.573805766747956,
	"grad_norm": 90.0,
	"learning_rate": 1.5234454638124365e-05,
	"loss": 1.1125,
	"step": 1372
	},
	{
	"epoch": 1.5749533782814518,
	"grad_norm": 69.5,
	"learning_rate": 1.5229357798165139e-05,
	"loss": 0.7275,
	"step": 1373
	},
	{
	"epoch": 1.5761009898149476,
	"grad_norm": 21.625,
	"learning_rate": 1.5224260958205915e-05,
	"loss": 0.2809,
	"step": 1374
	},
	{
	"epoch": 1.5772486013484435,
	"grad_norm": 41.5,
	"learning_rate": 1.5219164118246687e-05,
	"loss": 1.0073,
	"step": 1375
	},
	{
	"epoch": 1.5783962128819393,
	"grad_norm": 65.5,
	"learning_rate": 1.5214067278287462e-05,
	"loss": 0.6342,
	"step": 1376
	},
	{
	"epoch": 1.5795438244154354,
	"grad_norm": 19.5,
	"learning_rate": 1.5208970438328238e-05,
	"loss": 0.2352,
	"step": 1377
	},
	{
	"epoch": 1.5806914359489312,
	"grad_norm": 17.125,
	"learning_rate": 1.5203873598369012e-05,
	"loss": 0.5829,
	"step": 1378
	},
	{
	"epoch": 1.5818390474824273,
	"grad_norm": 40.25,
	"learning_rate": 1.5198776758409788e-05,
	"loss": 0.5567,
	"step": 1379
	},
	{
	"epoch": 1.5829866590159232,
	"grad_norm": 20.0,
	"learning_rate": 1.5193679918450561e-05,
	"loss": 0.6663,
	"step": 1380
	},
	{
	"epoch": 1.584134270549419,
	"grad_norm": 84.0,
	"learning_rate": 1.5188583078491337e-05,
	"loss": 0.6399,
	"step": 1381
	},
	{
	"epoch": 1.5852818820829149,
	"grad_norm": 13.5,
	"learning_rate": 1.5183486238532111e-05,
	"loss": 0.3913,
	"step": 1382
	},
	{
	"epoch": 1.5864294936164107,
	"grad_norm": 39.75,
	"learning_rate": 1.5178389398572887e-05,
	"loss": 0.4537,
	"step": 1383
	},
	{
	"epoch": 1.5875771051499068,
	"grad_norm": 10.3125,
	"learning_rate": 1.5173292558613662e-05,
	"loss": 0.5198,
	"step": 1384
	},
	{
	"epoch": 1.5887247166834026,
	"grad_norm": 26.75,
	"learning_rate": 1.5168195718654434e-05,
	"loss": 0.4686,
	"step": 1385
	},
	{
	"epoch": 1.5898723282168987,
	"grad_norm": 57.25,
	"learning_rate": 1.516309887869521e-05,
	"loss": 0.5172,
	"step": 1386
	},
	{
	"epoch": 1.5910199397503946,
	"grad_norm": 82.0,
	"learning_rate": 1.5158002038735984e-05,
	"loss": 0.9411,
	"step": 1387
	},
	{
	"epoch": 1.5921675512838904,
	"grad_norm": 31.0,
	"learning_rate": 1.515290519877676e-05,
	"loss": 0.3182,
	"step": 1388
	},
	{
	"epoch": 1.5933151628173863,
	"grad_norm": 79.5,
	"learning_rate": 1.5147808358817535e-05,
	"loss": 0.7013,
	"step": 1389
	},
	{
	"epoch": 1.5944627743508821,
	"grad_norm": 17.875,
	"learning_rate": 1.5142711518858309e-05,
	"loss": 0.5569,
	"step": 1390
	},
	{
	"epoch": 1.595610385884378,
	"grad_norm": 23.375,
	"learning_rate": 1.5137614678899085e-05,
	"loss": 0.5306,
	"step": 1391
	},
	{
	"epoch": 1.596757997417874,
	"grad_norm": 11.5,
	"learning_rate": 1.5132517838939857e-05,
	"loss": 0.2887,
	"step": 1392
	},
	{
	"epoch": 1.5979056089513701,
	"grad_norm": 22.5,
	"learning_rate": 1.5127420998980632e-05,
	"loss": 0.5286,
	"step": 1393
	},
	{
	"epoch": 1.599053220484866,
	"grad_norm": 21.0,
	"learning_rate": 1.5122324159021408e-05,
	"loss": 0.3716,
	"step": 1394
	},
	{
	"epoch": 1.6002008320183618,
	"grad_norm": 63.25,
	"learning_rate": 1.5117227319062182e-05,
	"loss": 0.7257,
	"step": 1395
	},
	{
	"epoch": 1.6013484435518577,
	"grad_norm": 7.6875,
	"learning_rate": 1.5112130479102958e-05,
	"loss": 0.127,
	"step": 1396
	},
	{
	"epoch": 1.6024960550853535,
	"grad_norm": 17.0,
	"learning_rate": 1.5107033639143731e-05,
	"loss": 0.2272,
	"step": 1397
	},
	{
	"epoch": 1.6036436666188494,
	"grad_norm": 30.875,
	"learning_rate": 1.5101936799184507e-05,
	"loss": 0.4778,
	"step": 1398
	},
	{
	"epoch": 1.6047912781523455,
	"grad_norm": 19.5,
	"learning_rate": 1.5096839959225283e-05,
	"loss": 0.5537,
	"step": 1399
	},
	{
	"epoch": 1.6059388896858413,
	"grad_norm": 57.5,
	"learning_rate": 1.5091743119266057e-05,
	"loss": 0.6817,
	"step": 1400
	},
	{
	"epoch": 1.6059388896858413,
	"eval_accuracy": 0.63,
	"eval_loss": 0.49080872535705566,
	"eval_runtime": 49.7511,
	"eval_samples_per_second": 2.01,
	"eval_steps_per_second": 2.01,
	"step": 1400
	},
	{
	"epoch": 1.6070865012193374,
	"grad_norm": 14.125,
	"learning_rate": 1.5086646279306832e-05,
	"loss": 0.6062,
	"step": 1401
	},
	{
	"epoch": 1.6082341127528332,
	"grad_norm": 9.625,
	"learning_rate": 1.5081549439347604e-05,
	"loss": 0.2577,
	"step": 1402
	},
	{
	"epoch": 1.609381724286329,
	"grad_norm": 19.25,
	"learning_rate": 1.507645259938838e-05,
	"loss": 0.4531,
	"step": 1403
	},
	{
	"epoch": 1.610529335819825,
	"grad_norm": 41.0,
	"learning_rate": 1.5071355759429156e-05,
	"loss": 0.6092,
	"step": 1404
	},
	{
	"epoch": 1.6116769473533208,
	"grad_norm": 34.0,
	"learning_rate": 1.506625891946993e-05,
	"loss": 0.4515,
	"step": 1405
	},
	{
	"epoch": 1.6128245588868169,
	"grad_norm": 23.75,
	"learning_rate": 1.5061162079510705e-05,
	"loss": 0.5269,
	"step": 1406
	},
	{
	"epoch": 1.6139721704203127,
	"grad_norm": 31.75,
	"learning_rate": 1.5056065239551479e-05,
	"loss": 0.4641,
	"step": 1407
	},
	{
	"epoch": 1.6151197819538088,
	"grad_norm": 33.75,
	"learning_rate": 1.5050968399592255e-05,
	"loss": 0.3172,
	"step": 1408
	},
	{
	"epoch": 1.6162673934873046,
	"grad_norm": 9.9375,
	"learning_rate": 1.504587155963303e-05,
	"loss": 0.231,
	"step": 1409
	},
	{
	"epoch": 1.6174150050208005,
	"grad_norm": 10.5,
	"learning_rate": 1.5040774719673802e-05,
	"loss": 0.19,
	"step": 1410
	},
	{
	"epoch": 1.6185626165542963,
	"grad_norm": 26.375,
	"learning_rate": 1.5035677879714578e-05,
	"loss": 0.6969,
	"step": 1411
	},
	{
	"epoch": 1.6197102280877922,
	"grad_norm": 11.5625,
	"learning_rate": 1.5030581039755352e-05,
	"loss": 0.3084,
	"step": 1412
	},
	{
	"epoch": 1.620857839621288,
	"grad_norm": 33.5,
	"learning_rate": 1.5025484199796127e-05,
	"loss": 0.9029,
	"step": 1413
	},
	{
	"epoch": 1.6220054511547841,
	"grad_norm": 26.75,
	"learning_rate": 1.5020387359836903e-05,
	"loss": 0.7869,
	"step": 1414
	},
	{
	"epoch": 1.62315306268828,
	"grad_norm": 18.5,
	"learning_rate": 1.5015290519877677e-05,
	"loss": 0.555,
	"step": 1415
	},
	{
	"epoch": 1.624300674221776,
	"grad_norm": 26.25,
	"learning_rate": 1.5010193679918453e-05,
	"loss": 0.8343,
	"step": 1416
	},
	{
	"epoch": 1.625448285755272,
	"grad_norm": 18.625,
	"learning_rate": 1.5005096839959225e-05,
	"loss": 0.4117,
	"step": 1417
	},
	{
	"epoch": 1.6265958972887677,
	"grad_norm": 30.75,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.3806,
	"step": 1418
	},
	{
	"epoch": 1.6277435088222636,
	"grad_norm": 24.375,
	"learning_rate": 1.4994903160040778e-05,
	"loss": 0.4463,
	"step": 1419
	},
	{
	"epoch": 1.6288911203557594,
	"grad_norm": 14.5,
	"learning_rate": 1.498980632008155e-05,
	"loss": 0.1973,
	"step": 1420
	},
	{
	"epoch": 1.6300387318892555,
	"grad_norm": 19.25,
	"learning_rate": 1.4984709480122325e-05,
	"loss": 0.689,
	"step": 1421
	},
	{
	"epoch": 1.6311863434227514,
	"grad_norm": 21.125,
	"learning_rate": 1.49796126401631e-05,
	"loss": 0.5135,
	"step": 1422
	},
	{
	"epoch": 1.6323339549562474,
	"grad_norm": 29.5,
	"learning_rate": 1.4974515800203875e-05,
	"loss": 0.3149,
	"step": 1423
	},
	{
	"epoch": 1.6334815664897433,
	"grad_norm": 13.1875,
	"learning_rate": 1.496941896024465e-05,
	"loss": 0.2246,
	"step": 1424
	},
	{
	"epoch": 1.6346291780232391,
	"grad_norm": 76.0,
	"learning_rate": 1.4964322120285424e-05,
	"loss": 0.7469,
	"step": 1425
	},
	{
	"epoch": 1.635776789556735,
	"grad_norm": 90.5,
	"learning_rate": 1.49592252803262e-05,
	"loss": 0.8995,
	"step": 1426
	},
	{
	"epoch": 1.6369244010902309,
	"grad_norm": 23.25,
	"learning_rate": 1.4954128440366972e-05,
	"loss": 0.7444,
	"step": 1427
	},
	{
	"epoch": 1.6380720126237267,
	"grad_norm": 18.0,
	"learning_rate": 1.4949031600407748e-05,
	"loss": 0.4238,
	"step": 1428
	},
	{
	"epoch": 1.6392196241572228,
	"grad_norm": 31.25,
	"learning_rate": 1.4943934760448523e-05,
	"loss": 0.4251,
	"step": 1429
	},
	{
	"epoch": 1.6403672356907189,
	"grad_norm": 20.0,
	"learning_rate": 1.4938837920489297e-05,
	"loss": 0.6363,
	"step": 1430
	},
	{
	"epoch": 1.6415148472242147,
	"grad_norm": 42.0,
	"learning_rate": 1.4933741080530073e-05,
	"loss": 0.6076,
	"step": 1431
	},
	{
	"epoch": 1.6426624587577106,
	"grad_norm": 62.0,
	"learning_rate": 1.4928644240570847e-05,
	"loss": 0.5137,
	"step": 1432
	},
	{
	"epoch": 1.6438100702912064,
	"grad_norm": 26.125,
	"learning_rate": 1.4923547400611623e-05,
	"loss": 0.4482,
	"step": 1433
	},
	{
	"epoch": 1.6449576818247023,
	"grad_norm": 66.0,
	"learning_rate": 1.4918450560652398e-05,
	"loss": 0.9944,
	"step": 1434
	},
	{
	"epoch": 1.646105293358198,
	"grad_norm": 21.25,
	"learning_rate": 1.491335372069317e-05,
	"loss": 0.2451,
	"step": 1435
	},
	{
	"epoch": 1.6472529048916942,
	"grad_norm": 18.0,
	"learning_rate": 1.4908256880733946e-05,
	"loss": 0.699,
	"step": 1436
	},
	{
	"epoch": 1.64840051642519,
	"grad_norm": 17.125,
	"learning_rate": 1.490316004077472e-05,
	"loss": 0.4074,
	"step": 1437
	},
	{
	"epoch": 1.649548127958686,
	"grad_norm": 59.25,
	"learning_rate": 1.4898063200815495e-05,
	"loss": 0.4132,
	"step": 1438
	},
	{
	"epoch": 1.650695739492182,
	"grad_norm": 20.5,
	"learning_rate": 1.4892966360856271e-05,
	"loss": 0.339,
	"step": 1439
	},
	{
	"epoch": 1.6518433510256778,
	"grad_norm": 27.0,
	"learning_rate": 1.4887869520897045e-05,
	"loss": 0.3662,
	"step": 1440
	},
	{
	"epoch": 1.6529909625591737,
	"grad_norm": 9.5625,
	"learning_rate": 1.488277268093782e-05,
	"loss": 0.3819,
	"step": 1441
	},
	{
	"epoch": 1.6541385740926695,
	"grad_norm": 130.0,
	"learning_rate": 1.4877675840978594e-05,
	"loss": 0.4787,
	"step": 1442
	},
	{
	"epoch": 1.6552861856261656,
	"grad_norm": 29.375,
	"learning_rate": 1.487257900101937e-05,
	"loss": 0.4502,
	"step": 1443
	},
	{
	"epoch": 1.6564337971596614,
	"grad_norm": 28.125,
	"learning_rate": 1.4867482161060146e-05,
	"loss": 0.4953,
	"step": 1444
	},
	{
	"epoch": 1.6575814086931575,
	"grad_norm": 36.0,
	"learning_rate": 1.4862385321100918e-05,
	"loss": 0.9421,
	"step": 1445
	},
	{
	"epoch": 1.6587290202266534,
	"grad_norm": 35.0,
	"learning_rate": 1.4857288481141693e-05,
	"loss": 0.3018,
	"step": 1446
	},
	{
	"epoch": 1.6598766317601492,
	"grad_norm": 18.625,
	"learning_rate": 1.4852191641182467e-05,
	"loss": 0.2527,
	"step": 1447
	},
	{
	"epoch": 1.661024243293645,
	"grad_norm": 12.5,
	"learning_rate": 1.4847094801223243e-05,
	"loss": 0.3482,
	"step": 1448
	},
	{
	"epoch": 1.662171854827141,
	"grad_norm": 18.75,
	"learning_rate": 1.4841997961264019e-05,
	"loss": 0.1798,
	"step": 1449
	},
	{
	"epoch": 1.6633194663606368,
	"grad_norm": 6.34375,
	"learning_rate": 1.4836901121304792e-05,
	"loss": 0.1118,
	"step": 1450
	},
	{
	"epoch": 1.6644670778941328,
	"grad_norm": 21.375,
	"learning_rate": 1.4831804281345568e-05,
	"loss": 0.5154,
	"step": 1451
	},
	{
	"epoch": 1.665614689427629,
	"grad_norm": 57.75,
	"learning_rate": 1.482670744138634e-05,
	"loss": 0.845,
	"step": 1452
	},
	{
	"epoch": 1.6667623009611248,
	"grad_norm": 31.875,
	"learning_rate": 1.4821610601427116e-05,
	"loss": 0.6743,
	"step": 1453
	},
	{
	"epoch": 1.6679099124946206,
	"grad_norm": 30.5,
	"learning_rate": 1.4816513761467891e-05,
	"loss": 0.6286,
	"step": 1454
	},
	{
	"epoch": 1.6690575240281165,
	"grad_norm": 26.25,
	"learning_rate": 1.4811416921508665e-05,
	"loss": 0.2807,
	"step": 1455
	},
	{
	"epoch": 1.6702051355616123,
	"grad_norm": 21.25,
	"learning_rate": 1.4806320081549441e-05,
	"loss": 0.5438,
	"step": 1456
	},
	{
	"epoch": 1.6713527470951082,
	"grad_norm": 15.875,
	"learning_rate": 1.4801223241590215e-05,
	"loss": 0.4873,
	"step": 1457
	},
	{
	"epoch": 1.6725003586286042,
	"grad_norm": 12.3125,
	"learning_rate": 1.479612640163099e-05,
	"loss": 0.2455,
	"step": 1458
	},
	{
	"epoch": 1.6736479701621,
	"grad_norm": 36.25,
	"learning_rate": 1.4791029561671764e-05,
	"loss": 0.6741,
	"step": 1459
	},
	{
	"epoch": 1.6747955816955962,
	"grad_norm": 36.25,
	"learning_rate": 1.478593272171254e-05,
	"loss": 0.2113,
	"step": 1460
	},
	{
	"epoch": 1.675943193229092,
	"grad_norm": 15.0625,
	"learning_rate": 1.4780835881753316e-05,
	"loss": 0.3223,
	"step": 1461
	},
	{
	"epoch": 1.6770908047625879,
	"grad_norm": 70.5,
	"learning_rate": 1.4775739041794088e-05,
	"loss": 0.7413,
	"step": 1462
	},
	{
	"epoch": 1.6782384162960837,
	"grad_norm": 50.25,
	"learning_rate": 1.4770642201834863e-05,
	"loss": 0.5802,
	"step": 1463
	},
	{
	"epoch": 1.6793860278295796,
	"grad_norm": 13.3125,
	"learning_rate": 1.4765545361875637e-05,
	"loss": 0.3988,
	"step": 1464
	},
	{
	"epoch": 1.6805336393630756,
	"grad_norm": 22.125,
	"learning_rate": 1.4760448521916413e-05,
	"loss": 0.2763,
	"step": 1465
	},
	{
	"epoch": 1.6816812508965715,
	"grad_norm": 63.5,
	"learning_rate": 1.4755351681957188e-05,
	"loss": 0.5855,
	"step": 1466
	},
	{
	"epoch": 1.6828288624300676,
	"grad_norm": 41.75,
	"learning_rate": 1.4750254841997962e-05,
	"loss": 0.413,
	"step": 1467
	},
	{
	"epoch": 1.6839764739635634,
	"grad_norm": 75.0,
	"learning_rate": 1.4745158002038738e-05,
	"loss": 1.2905,
	"step": 1468
	},
	{
	"epoch": 1.6851240854970593,
	"grad_norm": 35.0,
	"learning_rate": 1.474006116207951e-05,
	"loss": 0.5774,
	"step": 1469
	},
	{
	"epoch": 1.6862716970305551,
	"grad_norm": 28.25,
	"learning_rate": 1.4734964322120286e-05,
	"loss": 0.8901,
	"step": 1470
	},
	{
	"epoch": 1.687419308564051,
	"grad_norm": 35.0,
	"learning_rate": 1.4729867482161061e-05,
	"loss": 0.457,
	"step": 1471
	},
	{
	"epoch": 1.6885669200975468,
	"grad_norm": 34.0,
	"learning_rate": 1.4724770642201835e-05,
	"loss": 0.4638,
	"step": 1472
	},
	{
	"epoch": 1.689714531631043,
	"grad_norm": 37.5,
	"learning_rate": 1.4719673802242611e-05,
	"loss": 0.5084,
	"step": 1473
	},
	{
	"epoch": 1.6908621431645388,
	"grad_norm": 26.625,
	"learning_rate": 1.4714576962283385e-05,
	"loss": 0.2821,
	"step": 1474
	},
	{
	"epoch": 1.6920097546980348,
	"grad_norm": 34.25,
	"learning_rate": 1.470948012232416e-05,
	"loss": 0.3812,
	"step": 1475
	},
	{
	"epoch": 1.6931573662315307,
	"grad_norm": 59.0,
	"learning_rate": 1.4704383282364936e-05,
	"loss": 0.5477,
	"step": 1476
	},
	{
	"epoch": 1.6943049777650265,
	"grad_norm": 28.25,
	"learning_rate": 1.469928644240571e-05,
	"loss": 0.6984,
	"step": 1477
	},
	{
	"epoch": 1.6954525892985224,
	"grad_norm": 69.5,
	"learning_rate": 1.4694189602446486e-05,
	"loss": 0.7855,
	"step": 1478
	},
	{
	"epoch": 1.6966002008320182,
	"grad_norm": 49.0,
	"learning_rate": 1.4689092762487258e-05,
	"loss": 0.984,
	"step": 1479
	},
	{
	"epoch": 1.6977478123655143,
	"grad_norm": 22.875,
	"learning_rate": 1.4683995922528033e-05,
	"loss": 0.6088,
	"step": 1480
	},
	{
	"epoch": 1.6988954238990102,
	"grad_norm": 17.875,
	"learning_rate": 1.4678899082568809e-05,
	"loss": 0.1793,
	"step": 1481
	},
	{
	"epoch": 1.7000430354325062,
	"grad_norm": 22.375,
	"learning_rate": 1.4673802242609583e-05,
	"loss": 0.4399,
	"step": 1482
	},
	{
	"epoch": 1.701190646966002,
	"grad_norm": 44.75,
	"learning_rate": 1.4668705402650358e-05,
	"loss": 0.8196,
	"step": 1483
	},
	{
	"epoch": 1.702338258499498,
	"grad_norm": 17.75,
	"learning_rate": 1.4663608562691132e-05,
	"loss": 0.3481,
	"step": 1484
	},
	{
	"epoch": 1.7034858700329938,
	"grad_norm": 30.75,
	"learning_rate": 1.4658511722731908e-05,
	"loss": 0.5881,
	"step": 1485
	},
	{
	"epoch": 1.7046334815664896,
	"grad_norm": 54.5,
	"learning_rate": 1.4653414882772684e-05,
	"loss": 0.9103,
	"step": 1486
	},
	{
	"epoch": 1.7057810930999855,
	"grad_norm": 22.0,
	"learning_rate": 1.4648318042813456e-05,
	"loss": 0.9757,
	"step": 1487
	},
	{
	"epoch": 1.7069287046334816,
	"grad_norm": 41.25,
	"learning_rate": 1.4643221202854231e-05,
	"loss": 0.2791,
	"step": 1488
	},
	{
	"epoch": 1.7080763161669776,
	"grad_norm": 72.5,
	"learning_rate": 1.4638124362895005e-05,
	"loss": 0.6413,
	"step": 1489
	},
	{
	"epoch": 1.7092239277004735,
	"grad_norm": 31.25,
	"learning_rate": 1.463302752293578e-05,
	"loss": 0.6097,
	"step": 1490
	},
	{
	"epoch": 1.7103715392339693,
	"grad_norm": 31.625,
	"learning_rate": 1.4627930682976556e-05,
	"loss": 0.6532,
	"step": 1491
	},
	{
	"epoch": 1.7115191507674652,
	"grad_norm": 23.75,
	"learning_rate": 1.462283384301733e-05,
	"loss": 0.5511,
	"step": 1492
	},
	{
	"epoch": 1.712666762300961,
	"grad_norm": 44.25,
	"learning_rate": 1.4617737003058106e-05,
	"loss": 0.5933,
	"step": 1493
	},
	{
	"epoch": 1.713814373834457,
	"grad_norm": 175.0,
	"learning_rate": 1.461264016309888e-05,
	"loss": 0.8476,
	"step": 1494
	},
	{
	"epoch": 1.714961985367953,
	"grad_norm": 12.0625,
	"learning_rate": 1.4607543323139655e-05,
	"loss": 0.2916,
	"step": 1495
	},
	{
	"epoch": 1.7161095969014488,
	"grad_norm": 40.0,
	"learning_rate": 1.4602446483180431e-05,
	"loss": 0.4779,
	"step": 1496
	},
	{
	"epoch": 1.717257208434945,
	"grad_norm": 19.25,
	"learning_rate": 1.4597349643221203e-05,
	"loss": 0.3403,
	"step": 1497
	},
	{
	"epoch": 1.7184048199684407,
	"grad_norm": 20.125,
	"learning_rate": 1.4592252803261979e-05,
	"loss": 0.4278,
	"step": 1498
	},
	{
	"epoch": 1.7195524315019366,
	"grad_norm": 11.125,
	"learning_rate": 1.4587155963302753e-05,
	"loss": 0.4435,
	"step": 1499
	},
	{
	"epoch": 1.7207000430354324,
	"grad_norm": 47.75,
	"learning_rate": 1.4582059123343528e-05,
	"loss": 0.6405,
	"step": 1500
	},
	{
	"epoch": 1.7207000430354324,
	"eval_accuracy": 0.64,
	"eval_loss": 0.4719592034816742,
	"eval_runtime": 49.6324,
	"eval_samples_per_second": 2.015,
	"eval_steps_per_second": 2.015,
	"step": 1500
	},
	{
	"epoch": 1.7218476545689283,
	"grad_norm": 11.5,
	"learning_rate": 1.4576962283384304e-05,
	"loss": 0.3975,
	"step": 1501
	},
	{
	"epoch": 1.7229952661024244,
	"grad_norm": 20.875,
	"learning_rate": 1.4571865443425078e-05,
	"loss": 0.3939,
	"step": 1502
	},
	{
	"epoch": 1.7241428776359202,
	"grad_norm": 44.25,
	"learning_rate": 1.4566768603465853e-05,
	"loss": 0.7124,
	"step": 1503
	},
	{
	"epoch": 1.7252904891694163,
	"grad_norm": 33.0,
	"learning_rate": 1.4561671763506626e-05,
	"loss": 0.5179,
	"step": 1504
	},
	{
	"epoch": 1.7264381007029121,
	"grad_norm": 13.9375,
	"learning_rate": 1.4556574923547401e-05,
	"loss": 0.6342,
	"step": 1505
	},
	{
	"epoch": 1.727585712236408,
	"grad_norm": 20.75,
	"learning_rate": 1.4551478083588177e-05,
	"loss": 0.397,
	"step": 1506
	},
	{
	"epoch": 1.7287333237699039,
	"grad_norm": 12.375,
	"learning_rate": 1.454638124362895e-05,
	"loss": 0.3495,
	"step": 1507
	},
	{
	"epoch": 1.7298809353033997,
	"grad_norm": 53.75,
	"learning_rate": 1.4541284403669726e-05,
	"loss": 0.5092,
	"step": 1508
	},
	{
	"epoch": 1.7310285468368956,
	"grad_norm": 14.25,
	"learning_rate": 1.45361875637105e-05,
	"loss": 0.1927,
	"step": 1509
	},
	{
	"epoch": 1.7321761583703916,
	"grad_norm": 20.875,
	"learning_rate": 1.4531090723751276e-05,
	"loss": 0.7156,
	"step": 1510
	},
	{
	"epoch": 1.7333237699038875,
	"grad_norm": 8.6875,
	"learning_rate": 1.4525993883792051e-05,
	"loss": 0.3399,
	"step": 1511
	},
	{
	"epoch": 1.7344713814373836,
	"grad_norm": 16.125,
	"learning_rate": 1.4520897043832824e-05,
	"loss": 0.5978,
	"step": 1512
	},
	{
	"epoch": 1.7356189929708794,
	"grad_norm": 42.0,
	"learning_rate": 1.45158002038736e-05,
	"loss": 0.9311,
	"step": 1513
	},
	{
	"epoch": 1.7367666045043753,
	"grad_norm": 70.5,
	"learning_rate": 1.4510703363914373e-05,
	"loss": 0.7334,
	"step": 1514
	},
	{
	"epoch": 1.737914216037871,
	"grad_norm": 16.625,
	"learning_rate": 1.4505606523955149e-05,
	"loss": 0.4106,
	"step": 1515
	},
	{
	"epoch": 1.739061827571367,
	"grad_norm": 12.0,
	"learning_rate": 1.4500509683995924e-05,
	"loss": 0.2984,
	"step": 1516
	},
	{
	"epoch": 1.740209439104863,
	"grad_norm": 27.125,
	"learning_rate": 1.4495412844036698e-05,
	"loss": 0.3245,
	"step": 1517
	},
	{
	"epoch": 1.7413570506383589,
	"grad_norm": 40.25,
	"learning_rate": 1.4490316004077474e-05,
	"loss": 0.5248,
	"step": 1518
	},
	{
	"epoch": 1.742504662171855,
	"grad_norm": 15.5,
	"learning_rate": 1.4485219164118248e-05,
	"loss": 0.3244,
	"step": 1519
	},
	{
	"epoch": 1.7436522737053508,
	"grad_norm": 70.5,
	"learning_rate": 1.4480122324159023e-05,
	"loss": 0.9236,
	"step": 1520
	},
	{
	"epoch": 1.7447998852388467,
	"grad_norm": 30.625,
	"learning_rate": 1.4475025484199799e-05,
	"loss": 0.8874,
	"step": 1521
	},
	{
	"epoch": 1.7459474967723425,
	"grad_norm": 11.6875,
	"learning_rate": 1.4469928644240571e-05,
	"loss": 0.3286,
	"step": 1522
	},
	{
	"epoch": 1.7470951083058384,
	"grad_norm": 26.875,
	"learning_rate": 1.4464831804281347e-05,
	"loss": 0.3404,
	"step": 1523
	},
	{
	"epoch": 1.7482427198393344,
	"grad_norm": 15.375,
	"learning_rate": 1.445973496432212e-05,
	"loss": 0.4482,
	"step": 1524
	},
	{
	"epoch": 1.7493903313728303,
	"grad_norm": 27.0,
	"learning_rate": 1.4454638124362896e-05,
	"loss": 0.476,
	"step": 1525
	},
	{
	"epoch": 1.7505379429063264,
	"grad_norm": 20.5,
	"learning_rate": 1.4449541284403672e-05,
	"loss": 0.3796,
	"step": 1526
	},
	{
	"epoch": 1.7516855544398222,
	"grad_norm": 47.75,
	"learning_rate": 1.4444444444444446e-05,
	"loss": 0.5618,
	"step": 1527
	},
	{
	"epoch": 1.752833165973318,
	"grad_norm": 29.5,
	"learning_rate": 1.4439347604485221e-05,
	"loss": 0.4359,
	"step": 1528
	},
	{
	"epoch": 1.753980777506814,
	"grad_norm": 52.25,
	"learning_rate": 1.4434250764525994e-05,
	"loss": 0.6163,
	"step": 1529
	},
	{
	"epoch": 1.7551283890403098,
	"grad_norm": 19.125,
	"learning_rate": 1.442915392456677e-05,
	"loss": 0.5202,
	"step": 1530
	},
	{
	"epoch": 1.7562760005738056,
	"grad_norm": 14.0,
	"learning_rate": 1.4424057084607545e-05,
	"loss": 0.3921,
	"step": 1531
	},
	{
	"epoch": 1.7574236121073017,
	"grad_norm": 64.0,
	"learning_rate": 1.4418960244648319e-05,
	"loss": 0.7896,
	"step": 1532
	},
	{
	"epoch": 1.7585712236407975,
	"grad_norm": 23.5,
	"learning_rate": 1.4413863404689094e-05,
	"loss": 0.4141,
	"step": 1533
	},
	{
	"epoch": 1.7597188351742936,
	"grad_norm": 39.75,
	"learning_rate": 1.4408766564729868e-05,
	"loss": 0.8279,
	"step": 1534
	},
	{
	"epoch": 1.7608664467077895,
	"grad_norm": 60.5,
	"learning_rate": 1.4403669724770644e-05,
	"loss": 0.6541,
	"step": 1535
	},
	{
	"epoch": 1.7620140582412853,
	"grad_norm": 22.375,
	"learning_rate": 1.4398572884811418e-05,
	"loss": 0.4579,
	"step": 1536
	},
	{
	"epoch": 1.7631616697747812,
	"grad_norm": 34.5,
	"learning_rate": 1.4393476044852193e-05,
	"loss": 0.3177,
	"step": 1537
	},
	{
	"epoch": 1.764309281308277,
	"grad_norm": 13.9375,
	"learning_rate": 1.4388379204892969e-05,
	"loss": 0.405,
	"step": 1538
	},
	{
	"epoch": 1.765456892841773,
	"grad_norm": 45.25,
	"learning_rate": 1.4383282364933741e-05,
	"loss": 0.4536,
	"step": 1539
	},
	{
	"epoch": 1.766604504375269,
	"grad_norm": 15.0,
	"learning_rate": 1.4378185524974517e-05,
	"loss": 0.658,
	"step": 1540
	},
	{
	"epoch": 1.767752115908765,
	"grad_norm": 23.125,
	"learning_rate": 1.437308868501529e-05,
	"loss": 0.5647,
	"step": 1541
	},
	{
	"epoch": 1.7688997274422609,
	"grad_norm": 49.5,
	"learning_rate": 1.4367991845056066e-05,
	"loss": 0.6544,
	"step": 1542
	},
	{
	"epoch": 1.7700473389757567,
	"grad_norm": 14.625,
	"learning_rate": 1.4362895005096842e-05,
	"loss": 0.3288,
	"step": 1543
	},
	{
	"epoch": 1.7711949505092526,
	"grad_norm": 14.875,
	"learning_rate": 1.4357798165137616e-05,
	"loss": 0.5407,
	"step": 1544
	},
	{
	"epoch": 1.7723425620427484,
	"grad_norm": 69.0,
	"learning_rate": 1.4352701325178391e-05,
	"loss": 0.4395,
	"step": 1545
	},
	{
	"epoch": 1.7734901735762443,
	"grad_norm": 32.5,
	"learning_rate": 1.4347604485219164e-05,
	"loss": 0.4165,
	"step": 1546
	},
	{
	"epoch": 1.7746377851097404,
	"grad_norm": 52.25,
	"learning_rate": 1.434250764525994e-05,
	"loss": 0.455,
	"step": 1547
	},
	{
	"epoch": 1.7757853966432364,
	"grad_norm": 26.875,
	"learning_rate": 1.4337410805300715e-05,
	"loss": 0.5133,
	"step": 1548
	},
	{
	"epoch": 1.7769330081767323,
	"grad_norm": 63.75,
	"learning_rate": 1.4332313965341489e-05,
	"loss": 0.8173,
	"step": 1549
	},
	{
	"epoch": 1.7780806197102281,
	"grad_norm": 69.5,
	"learning_rate": 1.4327217125382264e-05,
	"loss": 0.7585,
	"step": 1550
	},
	{
	"epoch": 1.779228231243724,
	"grad_norm": 12.25,
	"learning_rate": 1.4322120285423038e-05,
	"loss": 0.4586,
	"step": 1551
	},
	{
	"epoch": 1.7803758427772198,
	"grad_norm": 76.0,
	"learning_rate": 1.4317023445463814e-05,
	"loss": 0.6924,
	"step": 1552
	},
	{
	"epoch": 1.7815234543107157,
	"grad_norm": 12.4375,
	"learning_rate": 1.431192660550459e-05,
	"loss": 0.3333,
	"step": 1553
	},
	{
	"epoch": 1.7826710658442118,
	"grad_norm": 23.5,
	"learning_rate": 1.4306829765545363e-05,
	"loss": 0.7329,
	"step": 1554
	},
	{
	"epoch": 1.7838186773777076,
	"grad_norm": 22.875,
	"learning_rate": 1.4301732925586139e-05,
	"loss": 0.2949,
	"step": 1555
	},
	{
	"epoch": 1.7849662889112037,
	"grad_norm": 52.0,
	"learning_rate": 1.4296636085626911e-05,
	"loss": 0.6708,
	"step": 1556
	},
	{
	"epoch": 1.7861139004446995,
	"grad_norm": 75.0,
	"learning_rate": 1.4291539245667687e-05,
	"loss": 0.6416,
	"step": 1557
	},
	{
	"epoch": 1.7872615119781954,
	"grad_norm": 16.0,
	"learning_rate": 1.4286442405708462e-05,
	"loss": 0.1615,
	"step": 1558
	},
	{
	"epoch": 1.7884091235116912,
	"grad_norm": 13.8125,
	"learning_rate": 1.4281345565749236e-05,
	"loss": 0.2567,
	"step": 1559
	},
	{
	"epoch": 1.789556735045187,
	"grad_norm": 27.125,
	"learning_rate": 1.4276248725790012e-05,
	"loss": 0.3011,
	"step": 1560
	},
	{
	"epoch": 1.7907043465786832,
	"grad_norm": 37.5,
	"learning_rate": 1.4271151885830786e-05,
	"loss": 0.4136,
	"step": 1561
	},
	{
	"epoch": 1.791851958112179,
	"grad_norm": 64.0,
	"learning_rate": 1.4266055045871561e-05,
	"loss": 0.5132,
	"step": 1562
	},
	{
	"epoch": 1.792999569645675,
	"grad_norm": 23.5,
	"learning_rate": 1.4260958205912337e-05,
	"loss": 0.8581,
	"step": 1563
	},
	{
	"epoch": 1.794147181179171,
	"grad_norm": 35.75,
	"learning_rate": 1.4255861365953109e-05,
	"loss": 0.4336,
	"step": 1564
	},
	{
	"epoch": 1.7952947927126668,
	"grad_norm": 34.5,
	"learning_rate": 1.4250764525993885e-05,
	"loss": 0.7922,
	"step": 1565
	},
	{
	"epoch": 1.7964424042461626,
	"grad_norm": 12.375,
	"learning_rate": 1.4245667686034659e-05,
	"loss": 0.385,
	"step": 1566
	},
	{
	"epoch": 1.7975900157796585,
	"grad_norm": 22.125,
	"learning_rate": 1.4240570846075434e-05,
	"loss": 0.1375,
	"step": 1567
	},
	{
	"epoch": 1.7987376273131543,
	"grad_norm": 49.25,
	"learning_rate": 1.423547400611621e-05,
	"loss": 0.2854,
	"step": 1568
	},
	{
	"epoch": 1.7998852388466504,
	"grad_norm": 74.5,
	"learning_rate": 1.4230377166156984e-05,
	"loss": 0.8727,
	"step": 1569
	},
	{
	"epoch": 1.8010328503801463,
	"grad_norm": 5.875,
	"learning_rate": 1.422528032619776e-05,
	"loss": 0.0896,
	"step": 1570
	},
	{
	"epoch": 1.8021804619136423,
	"grad_norm": 23.0,
	"learning_rate": 1.4220183486238533e-05,
	"loss": 0.709,
	"step": 1571
	},
	{
	"epoch": 1.8033280734471382,
	"grad_norm": 8.5,
	"learning_rate": 1.4215086646279309e-05,
	"loss": 0.1583,
	"step": 1572
	},
	{
	"epoch": 1.804475684980634,
	"grad_norm": 45.25,
	"learning_rate": 1.4209989806320084e-05,
	"loss": 0.3676,
	"step": 1573
	},
	{
	"epoch": 1.80562329651413,
	"grad_norm": 14.125,
	"learning_rate": 1.4204892966360857e-05,
	"loss": 0.2197,
	"step": 1574
	},
	{
	"epoch": 1.8067709080476257,
	"grad_norm": 8.6875,
	"learning_rate": 1.4199796126401632e-05,
	"loss": 0.2591,
	"step": 1575
	},
	{
	"epoch": 1.8079185195811218,
	"grad_norm": 43.25,
	"learning_rate": 1.4194699286442406e-05,
	"loss": 0.4846,
	"step": 1576
	},
	{
	"epoch": 1.8090661311146177,
	"grad_norm": 32.0,
	"learning_rate": 1.4189602446483182e-05,
	"loss": 0.2703,
	"step": 1577
	},
	{
	"epoch": 1.8102137426481137,
	"grad_norm": 46.25,
	"learning_rate": 1.4184505606523957e-05,
	"loss": 0.6256,
	"step": 1578
	},
	{
	"epoch": 1.8113613541816096,
	"grad_norm": 38.25,
	"learning_rate": 1.4179408766564731e-05,
	"loss": 1.0764,
	"step": 1579
	},
	{
	"epoch": 1.8125089657151054,
	"grad_norm": 21.625,
	"learning_rate": 1.4174311926605507e-05,
	"loss": 0.1879,
	"step": 1580
	},
	{
	"epoch": 1.8136565772486013,
	"grad_norm": 25.375,
	"learning_rate": 1.4169215086646279e-05,
	"loss": 0.8602,
	"step": 1581
	},
	{
	"epoch": 1.8148041887820971,
	"grad_norm": 73.0,
	"learning_rate": 1.4164118246687055e-05,
	"loss": 0.6298,
	"step": 1582
	},
	{
	"epoch": 1.8159518003155932,
	"grad_norm": 33.0,
	"learning_rate": 1.415902140672783e-05,
	"loss": 0.3714,
	"step": 1583
	},
	{
	"epoch": 1.817099411849089,
	"grad_norm": 13.9375,
	"learning_rate": 1.4153924566768604e-05,
	"loss": 0.2252,
	"step": 1584
	},
	{
	"epoch": 1.8182470233825851,
	"grad_norm": 42.5,
	"learning_rate": 1.414882772680938e-05,
	"loss": 0.577,
	"step": 1585
	},
	{
	"epoch": 1.819394634916081,
	"grad_norm": 28.375,
	"learning_rate": 1.4143730886850154e-05,
	"loss": 0.5294,
	"step": 1586
	},
	{
	"epoch": 1.8205422464495769,
	"grad_norm": 29.25,
	"learning_rate": 1.413863404689093e-05,
	"loss": 0.4661,
	"step": 1587
	},
	{
	"epoch": 1.8216898579830727,
	"grad_norm": 15.6875,
	"learning_rate": 1.4133537206931705e-05,
	"loss": 0.358,
	"step": 1588
	},
	{
	"epoch": 1.8228374695165686,
	"grad_norm": 42.0,
	"learning_rate": 1.4128440366972477e-05,
	"loss": 0.5276,
	"step": 1589
	},
	{
	"epoch": 1.8239850810500644,
	"grad_norm": 98.5,
	"learning_rate": 1.4123343527013254e-05,
	"loss": 0.6566,
	"step": 1590
	},
	{
	"epoch": 1.8251326925835605,
	"grad_norm": 37.0,
	"learning_rate": 1.4118246687054027e-05,
	"loss": 0.2234,
	"step": 1591
	},
	{
	"epoch": 1.8262803041170563,
	"grad_norm": 49.5,
	"learning_rate": 1.4113149847094802e-05,
	"loss": 0.5727,
	"step": 1592
	},
	{
	"epoch": 1.8274279156505524,
	"grad_norm": 31.75,
	"learning_rate": 1.4108053007135578e-05,
	"loss": 0.7391,
	"step": 1593
	},
	{
	"epoch": 1.8285755271840483,
	"grad_norm": 81.0,
	"learning_rate": 1.4102956167176352e-05,
	"loss": 0.762,
	"step": 1594
	},
	{
	"epoch": 1.829723138717544,
	"grad_norm": 56.0,
	"learning_rate": 1.4097859327217127e-05,
	"loss": 0.371,
	"step": 1595
	},
	{
	"epoch": 1.83087075025104,
	"grad_norm": 33.75,
	"learning_rate": 1.4092762487257901e-05,
	"loss": 0.5857,
	"step": 1596
	},
	{
	"epoch": 1.8320183617845358,
	"grad_norm": 15.0625,
	"learning_rate": 1.4087665647298677e-05,
	"loss": 0.2163,
	"step": 1597
	},
	{
	"epoch": 1.8331659733180319,
	"grad_norm": 21.25,
	"learning_rate": 1.4082568807339452e-05,
	"loss": 0.4766,
	"step": 1598
	},
	{
	"epoch": 1.8343135848515277,
	"grad_norm": 49.75,
	"learning_rate": 1.4077471967380225e-05,
	"loss": 0.3923,
	"step": 1599
	},
	{
	"epoch": 1.8354611963850238,
	"grad_norm": 38.25,
	"learning_rate": 1.4072375127421e-05,
	"loss": 0.445,
	"step": 1600
	},
	{
	"epoch": 1.8354611963850238,
	"eval_accuracy": 0.69,
	"eval_loss": 0.5018435120582581,
	"eval_runtime": 49.4827,
	"eval_samples_per_second": 2.021,
	"eval_steps_per_second": 2.021,
	"step": 1600
	},
	{
	"epoch": 1.8366088079185197,
	"grad_norm": 36.25,
	"learning_rate": 1.4067278287461774e-05,
	"loss": 0.7721,
	"step": 1601
	},
	{
	"epoch": 1.8377564194520155,
	"grad_norm": 26.875,
	"learning_rate": 1.406218144750255e-05,
	"loss": 0.9496,
	"step": 1602
	},
	{
	"epoch": 1.8389040309855114,
	"grad_norm": 47.5,
	"learning_rate": 1.4057084607543325e-05,
	"loss": 0.5079,
	"step": 1603
	},
	{
	"epoch": 1.8400516425190072,
	"grad_norm": 14.0625,
	"learning_rate": 1.40519877675841e-05,
	"loss": 0.2523,
	"step": 1604
	},
	{
	"epoch": 1.841199254052503,
	"grad_norm": 36.5,
	"learning_rate": 1.4046890927624875e-05,
	"loss": 0.6013,
	"step": 1605
	},
	{
	"epoch": 1.8423468655859991,
	"grad_norm": 33.25,
	"learning_rate": 1.4041794087665647e-05,
	"loss": 0.4822,
	"step": 1606
	},
	{
	"epoch": 1.8434944771194952,
	"grad_norm": 12.6875,
	"learning_rate": 1.4036697247706423e-05,
	"loss": 0.4923,
	"step": 1607
	},
	{
	"epoch": 1.844642088652991,
	"grad_norm": 15.0625,
	"learning_rate": 1.4031600407747196e-05,
	"loss": 0.2454,
	"step": 1608
	},
	{
	"epoch": 1.845789700186487,
	"grad_norm": 20.5,
	"learning_rate": 1.4026503567787972e-05,
	"loss": 0.2125,
	"step": 1609
	},
	{
	"epoch": 1.8469373117199828,
	"grad_norm": 18.875,
	"learning_rate": 1.4021406727828748e-05,
	"loss": 0.6114,
	"step": 1610
	},
	{
	"epoch": 1.8480849232534786,
	"grad_norm": 37.25,
	"learning_rate": 1.4016309887869522e-05,
	"loss": 0.4515,
	"step": 1611
	},
	{
	"epoch": 1.8492325347869745,
	"grad_norm": 10.5,
	"learning_rate": 1.4011213047910297e-05,
	"loss": 0.2101,
	"step": 1612
	},
	{
	"epoch": 1.8503801463204705,
	"grad_norm": 33.5,
	"learning_rate": 1.4006116207951071e-05,
	"loss": 0.5889,
	"step": 1613
	},
	{
	"epoch": 1.8515277578539664,
	"grad_norm": 19.875,
	"learning_rate": 1.4001019367991847e-05,
	"loss": 0.4676,
	"step": 1614
	},
	{
	"epoch": 1.8526753693874625,
	"grad_norm": 51.0,
	"learning_rate": 1.3995922528032622e-05,
	"loss": 0.5021,
	"step": 1615
	},
	{
	"epoch": 1.8538229809209583,
	"grad_norm": 38.0,
	"learning_rate": 1.3990825688073395e-05,
	"loss": 0.6099,
	"step": 1616
	},
	{
	"epoch": 1.8549705924544542,
	"grad_norm": 49.75,
	"learning_rate": 1.398572884811417e-05,
	"loss": 0.6493,
	"step": 1617
	},
	{
	"epoch": 1.85611820398795,
	"grad_norm": 14.5625,
	"learning_rate": 1.3980632008154944e-05,
	"loss": 0.1851,
	"step": 1618
	},
	{
	"epoch": 1.8572658155214459,
	"grad_norm": 74.5,
	"learning_rate": 1.397553516819572e-05,
	"loss": 0.625,
	"step": 1619
	},
	{
	"epoch": 1.858413427054942,
	"grad_norm": 49.25,
	"learning_rate": 1.3970438328236495e-05,
	"loss": 0.4501,
	"step": 1620
	},
	{
	"epoch": 1.8595610385884378,
	"grad_norm": 36.0,
	"learning_rate": 1.3965341488277269e-05,
	"loss": 0.4769,
	"step": 1621
	},
	{
	"epoch": 1.8607086501219339,
	"grad_norm": 72.5,
	"learning_rate": 1.3960244648318045e-05,
	"loss": 0.6018,
	"step": 1622
	},
	{
	"epoch": 1.8618562616554297,
	"grad_norm": 28.75,
	"learning_rate": 1.3955147808358817e-05,
	"loss": 0.4446,
	"step": 1623
	},
	{
	"epoch": 1.8630038731889256,
	"grad_norm": 58.5,
	"learning_rate": 1.3950050968399593e-05,
	"loss": 0.7133,
	"step": 1624
	},
	{
	"epoch": 1.8641514847224214,
	"grad_norm": 14.6875,
	"learning_rate": 1.3944954128440368e-05,
	"loss": 0.2074,
	"step": 1625
	},
	{
	"epoch": 1.8652990962559173,
	"grad_norm": 54.25,
	"learning_rate": 1.3939857288481142e-05,
	"loss": 0.3376,
	"step": 1626
	},
	{
	"epoch": 1.8664467077894131,
	"grad_norm": 23.0,
	"learning_rate": 1.3934760448521918e-05,
	"loss": 0.5169,
	"step": 1627
	},
	{
	"epoch": 1.8675943193229092,
	"grad_norm": 55.5,
	"learning_rate": 1.3929663608562692e-05,
	"loss": 0.3699,
	"step": 1628
	},
	{
	"epoch": 1.868741930856405,
	"grad_norm": 18.125,
	"learning_rate": 1.3924566768603467e-05,
	"loss": 0.207,
	"step": 1629
	},
	{
	"epoch": 1.8698895423899011,
	"grad_norm": 26.5,
	"learning_rate": 1.3919469928644243e-05,
	"loss": 0.4332,
	"step": 1630
	},
	{
	"epoch": 1.871037153923397,
	"grad_norm": 22.75,
	"learning_rate": 1.3914373088685017e-05,
	"loss": 0.4837,
	"step": 1631
	},
	{
	"epoch": 1.8721847654568928,
	"grad_norm": 69.5,
	"learning_rate": 1.3909276248725792e-05,
	"loss": 0.5754,
	"step": 1632
	},
	{
	"epoch": 1.8733323769903887,
	"grad_norm": 16.25,
	"learning_rate": 1.3904179408766564e-05,
	"loss": 0.2141,
	"step": 1633
	},
	{
	"epoch": 1.8744799885238845,
	"grad_norm": 35.75,
	"learning_rate": 1.389908256880734e-05,
	"loss": 0.3208,
	"step": 1634
	},
	{
	"epoch": 1.8756276000573806,
	"grad_norm": 29.75,
	"learning_rate": 1.3893985728848116e-05,
	"loss": 0.6767,
	"step": 1635
	},
	{
	"epoch": 1.8767752115908765,
	"grad_norm": 19.375,
	"learning_rate": 1.388888888888889e-05,
	"loss": 0.1118,
	"step": 1636
	},
	{
	"epoch": 1.8779228231243725,
	"grad_norm": 15.8125,
	"learning_rate": 1.3883792048929665e-05,
	"loss": 0.1238,
	"step": 1637
	},
	{
	"epoch": 1.8790704346578684,
	"grad_norm": 31.875,
	"learning_rate": 1.3878695208970439e-05,
	"loss": 0.5031,
	"step": 1638
	},
	{
	"epoch": 1.8802180461913642,
	"grad_norm": 40.25,
	"learning_rate": 1.3873598369011215e-05,
	"loss": 0.8107,
	"step": 1639
	},
	{
	"epoch": 1.88136565772486,
	"grad_norm": 25.0,
	"learning_rate": 1.386850152905199e-05,
	"loss": 0.3873,
	"step": 1640
	},
	{
	"epoch": 1.882513269258356,
	"grad_norm": 78.0,
	"learning_rate": 1.3863404689092762e-05,
	"loss": 1.1926,
	"step": 1641
	},
	{
	"epoch": 1.883660880791852,
	"grad_norm": 34.25,
	"learning_rate": 1.3858307849133538e-05,
	"loss": 0.5274,
	"step": 1642
	},
	{
	"epoch": 1.8848084923253479,
	"grad_norm": 15.125,
	"learning_rate": 1.3853211009174312e-05,
	"loss": 0.4215,
	"step": 1643
	},
	{
	"epoch": 1.885956103858844,
	"grad_norm": 28.0,
	"learning_rate": 1.3848114169215088e-05,
	"loss": 0.2697,
	"step": 1644
	},
	{
	"epoch": 1.8871037153923398,
	"grad_norm": 34.25,
	"learning_rate": 1.3843017329255863e-05,
	"loss": 0.2025,
	"step": 1645
	},
	{
	"epoch": 1.8882513269258356,
	"grad_norm": 91.5,
	"learning_rate": 1.3837920489296637e-05,
	"loss": 0.7438,
	"step": 1646
	},
	{
	"epoch": 1.8893989384593315,
	"grad_norm": 88.0,
	"learning_rate": 1.3832823649337413e-05,
	"loss": 0.9659,
	"step": 1647
	},
	{
	"epoch": 1.8905465499928273,
	"grad_norm": 26.875,
	"learning_rate": 1.3827726809378187e-05,
	"loss": 0.2307,
	"step": 1648
	},
	{
	"epoch": 1.8916941615263232,
	"grad_norm": 13.375,
	"learning_rate": 1.3822629969418962e-05,
	"loss": 0.3359,
	"step": 1649
	},
	{
	"epoch": 1.8928417730598193,
	"grad_norm": 72.0,
	"learning_rate": 1.3817533129459738e-05,
	"loss": 0.5043,
	"step": 1650
	},
	{
	"epoch": 1.8939893845933151,
	"grad_norm": 46.75,
	"learning_rate": 1.381243628950051e-05,
	"loss": 0.4365,
	"step": 1651
	},
	{
	"epoch": 1.8951369961268112,
	"grad_norm": 27.0,
	"learning_rate": 1.3807339449541286e-05,
	"loss": 0.4578,
	"step": 1652
	},
	{
	"epoch": 1.896284607660307,
	"grad_norm": 49.75,
	"learning_rate": 1.380224260958206e-05,
	"loss": 0.645,
	"step": 1653
	},
	{
	"epoch": 1.897432219193803,
	"grad_norm": 58.25,
	"learning_rate": 1.3797145769622835e-05,
	"loss": 0.7014,
	"step": 1654
	},
	{
	"epoch": 1.8985798307272987,
	"grad_norm": 41.75,
	"learning_rate": 1.379204892966361e-05,
	"loss": 0.6419,
	"step": 1655
	},
	{
	"epoch": 1.8997274422607946,
	"grad_norm": 49.5,
	"learning_rate": 1.3786952089704385e-05,
	"loss": 0.6695,
	"step": 1656
	},
	{
	"epoch": 1.9008750537942907,
	"grad_norm": 34.5,
	"learning_rate": 1.378185524974516e-05,
	"loss": 0.324,
	"step": 1657
	},
	{
	"epoch": 1.9020226653277865,
	"grad_norm": 14.25,
	"learning_rate": 1.3776758409785932e-05,
	"loss": 0.289,
	"step": 1658
	},
	{
	"epoch": 1.9031702768612826,
	"grad_norm": 20.875,
	"learning_rate": 1.3771661569826708e-05,
	"loss": 0.2563,
	"step": 1659
	},
	{
	"epoch": 1.9043178883947784,
	"grad_norm": 26.0,
	"learning_rate": 1.3766564729867484e-05,
	"loss": 0.7482,
	"step": 1660
	},
	{
	"epoch": 1.9054654999282743,
	"grad_norm": 14.4375,
	"learning_rate": 1.3761467889908258e-05,
	"loss": 0.4048,
	"step": 1661
	},
	{
	"epoch": 1.9066131114617701,
	"grad_norm": 51.25,
	"learning_rate": 1.3756371049949033e-05,
	"loss": 0.6209,
	"step": 1662
	},
	{
	"epoch": 1.907760722995266,
	"grad_norm": 30.875,
	"learning_rate": 1.3751274209989807e-05,
	"loss": 0.7158,
	"step": 1663
	},
	{
	"epoch": 1.9089083345287619,
	"grad_norm": 9.4375,
	"learning_rate": 1.3746177370030583e-05,
	"loss": 0.1511,
	"step": 1664
	},
	{
	"epoch": 1.910055946062258,
	"grad_norm": 19.125,
	"learning_rate": 1.3741080530071358e-05,
	"loss": 0.3676,
	"step": 1665
	},
	{
	"epoch": 1.911203557595754,
	"grad_norm": 19.875,
	"learning_rate": 1.3735983690112132e-05,
	"loss": 0.3149,
	"step": 1666
	},
	{
	"epoch": 1.9123511691292499,
	"grad_norm": 22.25,
	"learning_rate": 1.3730886850152908e-05,
	"loss": 0.2507,
	"step": 1667
	},
	{
	"epoch": 1.9134987806627457,
	"grad_norm": 13.0,
	"learning_rate": 1.372579001019368e-05,
	"loss": 0.5281,
	"step": 1668
	},
	{
	"epoch": 1.9146463921962416,
	"grad_norm": 22.625,
	"learning_rate": 1.3720693170234456e-05,
	"loss": 0.3352,
	"step": 1669
	},
	{
	"epoch": 1.9157940037297374,
	"grad_norm": 25.625,
	"learning_rate": 1.3715596330275231e-05,
	"loss": 0.3003,
	"step": 1670
	},
	{
	"epoch": 1.9169416152632333,
	"grad_norm": 37.5,
	"learning_rate": 1.3710499490316005e-05,
	"loss": 0.2462,
	"step": 1671
	},
	{
	"epoch": 1.9180892267967293,
	"grad_norm": 20.75,
	"learning_rate": 1.370540265035678e-05,
	"loss": 0.6685,
	"step": 1672
	},
	{
	"epoch": 1.9192368383302252,
	"grad_norm": 30.0,
	"learning_rate": 1.3700305810397555e-05,
	"loss": 0.5793,
	"step": 1673
	},
	{
	"epoch": 1.9203844498637213,
	"grad_norm": 67.5,
	"learning_rate": 1.369520897043833e-05,
	"loss": 0.5628,
	"step": 1674
	},
	{
	"epoch": 1.921532061397217,
	"grad_norm": 68.0,
	"learning_rate": 1.3690112130479106e-05,
	"loss": 0.3445,
	"step": 1675
	},
	{
	"epoch": 1.922679672930713,
	"grad_norm": 18.375,
	"learning_rate": 1.3685015290519878e-05,
	"loss": 0.3626,
	"step": 1676
	},
	{
	"epoch": 1.9238272844642088,
	"grad_norm": 26.875,
	"learning_rate": 1.3679918450560654e-05,
	"loss": 0.8984,
	"step": 1677
	},
	{
	"epoch": 1.9249748959977047,
	"grad_norm": 27.125,
	"learning_rate": 1.3674821610601427e-05,
	"loss": 0.4586,
	"step": 1678
	},
	{
	"epoch": 1.9261225075312007,
	"grad_norm": 62.0,
	"learning_rate": 1.3669724770642203e-05,
	"loss": 0.7513,
	"step": 1679
	},
	{
	"epoch": 1.9272701190646966,
	"grad_norm": 38.25,
	"learning_rate": 1.3664627930682979e-05,
	"loss": 0.4712,
	"step": 1680
	},
	{
	"epoch": 1.9284177305981927,
	"grad_norm": 19.125,
	"learning_rate": 1.3659531090723753e-05,
	"loss": 0.2701,
	"step": 1681
	},
	{
	"epoch": 1.9295653421316885,
	"grad_norm": 16.625,
	"learning_rate": 1.3654434250764528e-05,
	"loss": 0.3847,
	"step": 1682
	},
	{
	"epoch": 1.9307129536651844,
	"grad_norm": 52.0,
	"learning_rate": 1.36493374108053e-05,
	"loss": 0.4352,
	"step": 1683
	},
	{
	"epoch": 1.9318605651986802,
	"grad_norm": 100.0,
	"learning_rate": 1.3644240570846076e-05,
	"loss": 1.0839,
	"step": 1684
	},
	{
	"epoch": 1.933008176732176,
	"grad_norm": 53.25,
	"learning_rate": 1.363914373088685e-05,
	"loss": 0.5791,
	"step": 1685
	},
	{
	"epoch": 1.934155788265672,
	"grad_norm": 55.5,
	"learning_rate": 1.3634046890927625e-05,
	"loss": 0.7248,
	"step": 1686
	},
	{
	"epoch": 1.935303399799168,
	"grad_norm": 16.5,
	"learning_rate": 1.3628950050968401e-05,
	"loss": 0.3914,
	"step": 1687
	},
	{
	"epoch": 1.9364510113326638,
	"grad_norm": 43.5,
	"learning_rate": 1.3623853211009175e-05,
	"loss": 0.348,
	"step": 1688
	},
	{
	"epoch": 1.93759862286616,
	"grad_norm": 34.25,
	"learning_rate": 1.361875637104995e-05,
	"loss": 0.4504,
	"step": 1689
	},
	{
	"epoch": 1.9387462343996558,
	"grad_norm": 32.5,
	"learning_rate": 1.3613659531090724e-05,
	"loss": 0.4256,
	"step": 1690
	},
	{
	"epoch": 1.9398938459331516,
	"grad_norm": 17.125,
	"learning_rate": 1.36085626911315e-05,
	"loss": 0.2441,
	"step": 1691
	},
	{
	"epoch": 1.9410414574666475,
	"grad_norm": 31.625,
	"learning_rate": 1.3603465851172276e-05,
	"loss": 0.5579,
	"step": 1692
	},
	{
	"epoch": 1.9421890690001433,
	"grad_norm": 29.75,
	"learning_rate": 1.3598369011213048e-05,
	"loss": 0.8088,
	"step": 1693
	},
	{
	"epoch": 1.9433366805336394,
	"grad_norm": 51.5,
	"learning_rate": 1.3593272171253823e-05,
	"loss": 0.6118,
	"step": 1694
	},
	{
	"epoch": 1.9444842920671352,
	"grad_norm": 27.875,
	"learning_rate": 1.3588175331294597e-05,
	"loss": 0.2742,
	"step": 1695
	},
	{
	"epoch": 1.9456319036006313,
	"grad_norm": 11.8125,
	"learning_rate": 1.3583078491335373e-05,
	"loss": 0.2417,
	"step": 1696
	},
	{
	"epoch": 1.9467795151341272,
	"grad_norm": 30.75,
	"learning_rate": 1.3577981651376149e-05,
	"loss": 0.236,
	"step": 1697
	},
	{
	"epoch": 1.947927126667623,
	"grad_norm": 28.5,
	"learning_rate": 1.3572884811416922e-05,
	"loss": 0.299,
	"step": 1698
	},
	{
	"epoch": 1.9490747382011189,
	"grad_norm": 15.125,
	"learning_rate": 1.3567787971457698e-05,
	"loss": 0.1027,
	"step": 1699
	},
	{
	"epoch": 1.9502223497346147,
	"grad_norm": 35.25,
	"learning_rate": 1.356269113149847e-05,
	"loss": 0.2869,
	"step": 1700
	},
	{
	"epoch": 1.9502223497346147,
	"eval_accuracy": 0.72,
	"eval_loss": 0.4552258551120758,
	"eval_runtime": 49.3148,
	"eval_samples_per_second": 2.028,
	"eval_steps_per_second": 2.028,
	"step": 1700
	},
	{
	"epoch": 1.9513699612681108,
	"grad_norm": 27.875,
	"learning_rate": 1.3557594291539246e-05,
	"loss": 0.9343,
	"step": 1701
	},
	{
	"epoch": 1.9525175728016066,
	"grad_norm": 31.25,
	"learning_rate": 1.3552497451580021e-05,
	"loss": 0.5365,
	"step": 1702
	},
	{
	"epoch": 1.9536651843351027,
	"grad_norm": 56.25,
	"learning_rate": 1.3547400611620795e-05,
	"loss": 0.6064,
	"step": 1703
	},
	{
	"epoch": 1.9548127958685986,
	"grad_norm": 8.875,
	"learning_rate": 1.3542303771661571e-05,
	"loss": 0.2503,
	"step": 1704
	},
	{
	"epoch": 1.9559604074020944,
	"grad_norm": 23.25,
	"learning_rate": 1.3537206931702345e-05,
	"loss": 0.6551,
	"step": 1705
	},
	{
	"epoch": 1.9571080189355903,
	"grad_norm": 26.75,
	"learning_rate": 1.353211009174312e-05,
	"loss": 0.4402,
	"step": 1706
	},
	{
	"epoch": 1.9582556304690861,
	"grad_norm": 19.75,
	"learning_rate": 1.3527013251783896e-05,
	"loss": 0.5219,
	"step": 1707
	},
	{
	"epoch": 1.959403242002582,
	"grad_norm": 109.0,
	"learning_rate": 1.352191641182467e-05,
	"loss": 0.698,
	"step": 1708
	},
	{
	"epoch": 1.960550853536078,
	"grad_norm": 81.5,
	"learning_rate": 1.3516819571865446e-05,
	"loss": 0.5249,
	"step": 1709
	},
	{
	"epoch": 1.961698465069574,
	"grad_norm": 29.125,
	"learning_rate": 1.3511722731906218e-05,
	"loss": 0.5226,
	"step": 1710
	},
	{
	"epoch": 1.96284607660307,
	"grad_norm": 59.75,
	"learning_rate": 1.3506625891946993e-05,
	"loss": 0.6405,
	"step": 1711
	},
	{
	"epoch": 1.9639936881365658,
	"grad_norm": 21.5,
	"learning_rate": 1.3501529051987769e-05,
	"loss": 0.4448,
	"step": 1712
	},
	{
	"epoch": 1.9651412996700617,
	"grad_norm": 34.75,
	"learning_rate": 1.3496432212028543e-05,
	"loss": 0.667,
	"step": 1713
	},
	{
	"epoch": 1.9662889112035575,
	"grad_norm": 15.125,
	"learning_rate": 1.3491335372069319e-05,
	"loss": 0.4765,
	"step": 1714
	},
	{
	"epoch": 1.9674365227370534,
	"grad_norm": 31.0,
	"learning_rate": 1.3486238532110092e-05,
	"loss": 0.2273,
	"step": 1715
	},
	{
	"epoch": 1.9685841342705495,
	"grad_norm": 20.75,
	"learning_rate": 1.3481141692150868e-05,
	"loss": 0.3604,
	"step": 1716
	},
	{
	"epoch": 1.9697317458040453,
	"grad_norm": 39.5,
	"learning_rate": 1.3476044852191644e-05,
	"loss": 0.4167,
	"step": 1717
	},
	{
	"epoch": 1.9708793573375414,
	"grad_norm": 28.5,
	"learning_rate": 1.3470948012232416e-05,
	"loss": 0.4476,
	"step": 1718
	},
	{
	"epoch": 1.9720269688710372,
	"grad_norm": 19.25,
	"learning_rate": 1.3465851172273191e-05,
	"loss": 0.5297,
	"step": 1719
	},
	{
	"epoch": 1.973174580404533,
	"grad_norm": 65.0,
	"learning_rate": 1.3460754332313965e-05,
	"loss": 0.8327,
	"step": 1720
	},
	{
	"epoch": 1.974322191938029,
	"grad_norm": 23.875,
	"learning_rate": 1.3455657492354741e-05,
	"loss": 0.1996,
	"step": 1721
	},
	{
	"epoch": 1.9754698034715248,
	"grad_norm": 23.0,
	"learning_rate": 1.3450560652395517e-05,
	"loss": 0.4416,
	"step": 1722
	},
	{
	"epoch": 1.9766174150050206,
	"grad_norm": 11.4375,
	"learning_rate": 1.344546381243629e-05,
	"loss": 0.2721,
	"step": 1723
	},
	{
	"epoch": 1.9777650265385167,
	"grad_norm": 35.0,
	"learning_rate": 1.3440366972477066e-05,
	"loss": 0.5629,
	"step": 1724
	},
	{
	"epoch": 1.9789126380720128,
	"grad_norm": 67.5,
	"learning_rate": 1.343527013251784e-05,
	"loss": 0.6305,
	"step": 1725
	},
	{
	"epoch": 1.9800602496055086,
	"grad_norm": 32.75,
	"learning_rate": 1.3430173292558616e-05,
	"loss": 0.2927,
	"step": 1726
	},
	{
	"epoch": 1.9812078611390045,
	"grad_norm": 35.25,
	"learning_rate": 1.3425076452599391e-05,
	"loss": 0.238,
	"step": 1727
	},
	{
	"epoch": 1.9823554726725003,
	"grad_norm": 20.875,
	"learning_rate": 1.3419979612640163e-05,
	"loss": 0.4392,
	"step": 1728
	},
	{
	"epoch": 1.9835030842059962,
	"grad_norm": 44.0,
	"learning_rate": 1.3414882772680939e-05,
	"loss": 0.398,
	"step": 1729
	},
	{
	"epoch": 1.984650695739492,
	"grad_norm": 26.0,
	"learning_rate": 1.3409785932721713e-05,
	"loss": 0.7501,
	"step": 1730
	},
	{
	"epoch": 1.9857983072729881,
	"grad_norm": 20.75,
	"learning_rate": 1.3404689092762488e-05,
	"loss": 0.3494,
	"step": 1731
	},
	{
	"epoch": 1.986945918806484,
	"grad_norm": 30.875,
	"learning_rate": 1.3399592252803264e-05,
	"loss": 1.1064,
	"step": 1732
	},
	{
	"epoch": 1.98809353033998,
	"grad_norm": 30.0,
	"learning_rate": 1.3394495412844038e-05,
	"loss": 0.6117,
	"step": 1733
	},
	{
	"epoch": 1.989241141873476,
	"grad_norm": 16.875,
	"learning_rate": 1.3389398572884814e-05,
	"loss": 0.3173,
	"step": 1734
	},
	{
	"epoch": 1.9903887534069717,
	"grad_norm": 15.75,
	"learning_rate": 1.3384301732925586e-05,
	"loss": 0.4467,
	"step": 1735
	},
	{
	"epoch": 1.9915363649404676,
	"grad_norm": 49.0,
	"learning_rate": 1.3379204892966361e-05,
	"loss": 0.7462,
	"step": 1736
	},
	{
	"epoch": 1.9926839764739634,
	"grad_norm": 22.25,
	"learning_rate": 1.3374108053007137e-05,
	"loss": 0.4648,
	"step": 1737
	},
	{
	"epoch": 1.9938315880074595,
	"grad_norm": 41.25,
	"learning_rate": 1.3369011213047911e-05,
	"loss": 0.2781,
	"step": 1738
	},
	{
	"epoch": 1.9949791995409554,
	"grad_norm": 22.625,
	"learning_rate": 1.3363914373088686e-05,
	"loss": 0.6798,
	"step": 1739
	},
	{
	"epoch": 1.9961268110744514,
	"grad_norm": 61.5,
	"learning_rate": 1.335881753312946e-05,
	"loss": 0.4519,
	"step": 1740
	},
	{
	"epoch": 1.9972744226079473,
	"grad_norm": 22.375,
	"learning_rate": 1.3353720693170236e-05,
	"loss": 0.7196,
	"step": 1741
	},
	{
	"epoch": 1.9984220341414431,
	"grad_norm": 9.9375,
	"learning_rate": 1.3348623853211012e-05,
	"loss": 0.2518,
	"step": 1742
	},
	{
	"epoch": 1.999569645674939,
	"grad_norm": 24.0,
	"learning_rate": 1.3343527013251785e-05,
	"loss": 0.5652,
	"step": 1743
	},
	{
	"epoch": 2.0,
	"grad_norm": 43.0,
	"learning_rate": 1.3338430173292561e-05,
	"loss": 0.2228,
	"step": 1744
	},
	{
	"epoch": 2.001147611533496,
	"grad_norm": 12.75,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.2022,
	"step": 1745
	},
	{
	"epoch": 2.0022952230669917,
	"grad_norm": 38.5,
	"learning_rate": 1.3328236493374109e-05,
	"loss": 0.5685,
	"step": 1746
	},
	{
	"epoch": 2.0034428346004876,
	"grad_norm": 17.875,
	"learning_rate": 1.3323139653414884e-05,
	"loss": 0.4231,
	"step": 1747
	},
	{
	"epoch": 2.004590446133984,
	"grad_norm": 30.125,
	"learning_rate": 1.3318042813455658e-05,
	"loss": 0.4095,
	"step": 1748
	},
	{
	"epoch": 2.0057380576674797,
	"grad_norm": 9.125,
	"learning_rate": 1.3312945973496434e-05,
	"loss": 0.2246,
	"step": 1749
	},
	{
	"epoch": 2.0068856692009756,
	"grad_norm": 13.3125,
	"learning_rate": 1.3307849133537208e-05,
	"loss": 0.3579,
	"step": 1750
	},
	{
	"epoch": 2.0080332807344714,
	"grad_norm": 43.25,
	"learning_rate": 1.3302752293577984e-05,
	"loss": 0.2611,
	"step": 1751
	},
	{
	"epoch": 2.0091808922679673,
	"grad_norm": 29.125,
	"learning_rate": 1.3297655453618759e-05,
	"loss": 0.1953,
	"step": 1752
	},
	{
	"epoch": 2.010328503801463,
	"grad_norm": 25.625,
	"learning_rate": 1.3292558613659531e-05,
	"loss": 0.3513,
	"step": 1753
	},
	{
	"epoch": 2.011476115334959,
	"grad_norm": 16.5,
	"learning_rate": 1.3287461773700307e-05,
	"loss": 0.2294,
	"step": 1754
	},
	{
	"epoch": 2.012623726868455,
	"grad_norm": 7.34375,
	"learning_rate": 1.328236493374108e-05,
	"loss": 0.1434,
	"step": 1755
	},
	{
	"epoch": 2.013771338401951,
	"grad_norm": 18.625,
	"learning_rate": 1.3277268093781856e-05,
	"loss": 0.5704,
	"step": 1756
	},
	{
	"epoch": 2.014918949935447,
	"grad_norm": 47.25,
	"learning_rate": 1.3272171253822632e-05,
	"loss": 0.4283,
	"step": 1757
	},
	{
	"epoch": 2.016066561468943,
	"grad_norm": 9.6875,
	"learning_rate": 1.3267074413863406e-05,
	"loss": 0.2391,
	"step": 1758
	},
	{
	"epoch": 2.0172141730024387,
	"grad_norm": 34.5,
	"learning_rate": 1.3261977573904182e-05,
	"loss": 0.248,
	"step": 1759
	},
	{
	"epoch": 2.0183617845359345,
	"grad_norm": 11.9375,
	"learning_rate": 1.3256880733944954e-05,
	"loss": 0.2023,
	"step": 1760
	},
	{
	"epoch": 2.0195093960694304,
	"grad_norm": 27.375,
	"learning_rate": 1.325178389398573e-05,
	"loss": 0.261,
	"step": 1761
	},
	{
	"epoch": 2.020657007602926,
	"grad_norm": 10.875,
	"learning_rate": 1.3246687054026503e-05,
	"loss": 0.224,
	"step": 1762
	},
	{
	"epoch": 2.0218046191364225,
	"grad_norm": 24.375,
	"learning_rate": 1.3241590214067279e-05,
	"loss": 0.2463,
	"step": 1763
	},
	{
	"epoch": 2.0229522306699184,
	"grad_norm": 18.5,
	"learning_rate": 1.3236493374108054e-05,
	"loss": 0.2944,
	"step": 1764
	},
	{
	"epoch": 2.024099842203414,
	"grad_norm": 24.0,
	"learning_rate": 1.3231396534148828e-05,
	"loss": 0.315,
	"step": 1765
	},
	{
	"epoch": 2.02524745373691,
	"grad_norm": 54.0,
	"learning_rate": 1.3226299694189604e-05,
	"loss": 0.3818,
	"step": 1766
	},
	{
	"epoch": 2.026395065270406,
	"grad_norm": 18.5,
	"learning_rate": 1.3221202854230378e-05,
	"loss": 0.3524,
	"step": 1767
	},
	{
	"epoch": 2.0275426768039018,
	"grad_norm": 19.75,
	"learning_rate": 1.3216106014271153e-05,
	"loss": 0.3522,
	"step": 1768
	},
	{
	"epoch": 2.0286902883373976,
	"grad_norm": 35.0,
	"learning_rate": 1.3211009174311929e-05,
	"loss": 0.3279,
	"step": 1769
	},
	{
	"epoch": 2.029837899870894,
	"grad_norm": 56.75,
	"learning_rate": 1.3205912334352701e-05,
	"loss": 1.3613,
	"step": 1770
	},
	{
	"epoch": 2.0309855114043898,
	"grad_norm": 28.0,
	"learning_rate": 1.3200815494393477e-05,
	"loss": 0.2122,
	"step": 1771
	},
	{
	"epoch": 2.0321331229378856,
	"grad_norm": 37.0,
	"learning_rate": 1.319571865443425e-05,
	"loss": 0.1997,
	"step": 1772
	},
	{
	"epoch": 2.0332807344713815,
	"grad_norm": 6.0,
	"learning_rate": 1.3190621814475026e-05,
	"loss": 0.0679,
	"step": 1773
	},
	{
	"epoch": 2.0344283460048773,
	"grad_norm": 16.75,
	"learning_rate": 1.3185524974515802e-05,
	"loss": 0.3065,
	"step": 1774
	},
	{
	"epoch": 2.035575957538373,
	"grad_norm": 33.5,
	"learning_rate": 1.3180428134556576e-05,
	"loss": 0.2069,
	"step": 1775
	},
	{
	"epoch": 2.036723569071869,
	"grad_norm": 27.25,
	"learning_rate": 1.3175331294597351e-05,
	"loss": 0.2496,
	"step": 1776
	},
	{
	"epoch": 2.037871180605365,
	"grad_norm": 29.25,
	"learning_rate": 1.3170234454638124e-05,
	"loss": 0.3496,
	"step": 1777
	},
	{
	"epoch": 2.039018792138861,
	"grad_norm": 22.375,
	"learning_rate": 1.31651376146789e-05,
	"loss": 0.302,
	"step": 1778
	},
	{
	"epoch": 2.040166403672357,
	"grad_norm": 30.375,
	"learning_rate": 1.3160040774719675e-05,
	"loss": 0.5632,
	"step": 1779
	},
	{
	"epoch": 2.041314015205853,
	"grad_norm": 61.0,
	"learning_rate": 1.3154943934760449e-05,
	"loss": 0.3705,
	"step": 1780
	},
	{
	"epoch": 2.0424616267393487,
	"grad_norm": 9.1875,
	"learning_rate": 1.3149847094801224e-05,
	"loss": 0.1027,
	"step": 1781
	},
	{
	"epoch": 2.0436092382728446,
	"grad_norm": 13.75,
	"learning_rate": 1.3144750254841998e-05,
	"loss": 0.0892,
	"step": 1782
	},
	{
	"epoch": 2.0447568498063404,
	"grad_norm": 25.0,
	"learning_rate": 1.3139653414882774e-05,
	"loss": 0.6006,
	"step": 1783
	},
	{
	"epoch": 2.0459044613398363,
	"grad_norm": 11.0625,
	"learning_rate": 1.313455657492355e-05,
	"loss": 0.1804,
	"step": 1784
	},
	{
	"epoch": 2.0470520728733326,
	"grad_norm": 32.75,
	"learning_rate": 1.3129459734964323e-05,
	"loss": 0.3527,
	"step": 1785
	},
	{
	"epoch": 2.0481996844068284,
	"grad_norm": 98.5,
	"learning_rate": 1.3124362895005099e-05,
	"loss": 0.8699,
	"step": 1786
	},
	{
	"epoch": 2.0493472959403243,
	"grad_norm": 40.5,
	"learning_rate": 1.3119266055045871e-05,
	"loss": 0.193,
	"step": 1787
	},
	{
	"epoch": 2.05049490747382,
	"grad_norm": 27.75,
	"learning_rate": 1.3114169215086647e-05,
	"loss": 0.3553,
	"step": 1788
	},
	{
	"epoch": 2.051642519007316,
	"grad_norm": 14.4375,
	"learning_rate": 1.3109072375127422e-05,
	"loss": 0.1813,
	"step": 1789
	},
	{
	"epoch": 2.052790130540812,
	"grad_norm": 17.75,
	"learning_rate": 1.3103975535168196e-05,
	"loss": 0.0898,
	"step": 1790
	},
	{
	"epoch": 2.0539377420743077,
	"grad_norm": 9.25,
	"learning_rate": 1.3098878695208972e-05,
	"loss": 0.1149,
	"step": 1791
	},
	{
	"epoch": 2.0550853536078035,
	"grad_norm": 46.0,
	"learning_rate": 1.3093781855249746e-05,
	"loss": 0.2937,
	"step": 1792
	},
	{
	"epoch": 2.0562329651413,
	"grad_norm": 17.125,
	"learning_rate": 1.3088685015290521e-05,
	"loss": 0.3886,
	"step": 1793
	},
	{
	"epoch": 2.0573805766747957,
	"grad_norm": 25.875,
	"learning_rate": 1.3083588175331297e-05,
	"loss": 0.2858,
	"step": 1794
	},
	{
	"epoch": 2.0585281882082915,
	"grad_norm": 42.5,
	"learning_rate": 1.307849133537207e-05,
	"loss": 0.6463,
	"step": 1795
	},
	{
	"epoch": 2.0596757997417874,
	"grad_norm": 97.5,
	"learning_rate": 1.3073394495412845e-05,
	"loss": 0.9309,
	"step": 1796
	},
	{
	"epoch": 2.0608234112752832,
	"grad_norm": 27.25,
	"learning_rate": 1.3068297655453619e-05,
	"loss": 0.3763,
	"step": 1797
	},
	{
	"epoch": 2.061971022808779,
	"grad_norm": 137.0,
	"learning_rate": 1.3063200815494394e-05,
	"loss": 1.1044,
	"step": 1798
	},
	{
	"epoch": 2.063118634342275,
	"grad_norm": 12.1875,
	"learning_rate": 1.305810397553517e-05,
	"loss": 0.1574,
	"step": 1799
	},
	{
	"epoch": 2.0642662458757712,
	"grad_norm": 22.875,
	"learning_rate": 1.3053007135575944e-05,
	"loss": 0.1174,
	"step": 1800
	},
	{
	"epoch": 2.0642662458757712,
	"eval_accuracy": 0.74,
	"eval_loss": 0.4835154712200165,
	"eval_runtime": 49.2987,
	"eval_samples_per_second": 2.028,
	"eval_steps_per_second": 2.028,
	"step": 1800
	}
	],
	"logging_steps": 1,
	"max_steps": 4360,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.358825065150048e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}