ViMUL / trainer_state.json

Upload folder using huggingface_hub

d48ba4d verified 10 months ago

260 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9996942830938551,
	"eval_steps": 500,
	"global_step": 1635,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 5.6230373155383,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 1.0665,
	"step": 1
	},
	{
	"epoch": 0.0,
	"grad_norm": 6.01161593196551,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 1.0829,
	"step": 2
	},
	{
	"epoch": 0.0,
	"grad_norm": 5.53722803622308,
	"learning_rate": 6.000000000000001e-07,
	"loss": 1.0876,
	"step": 3
	},
	{
	"epoch": 0.0,
	"grad_norm": 7.93426726662942,
	"learning_rate": 8.000000000000001e-07,
	"loss": 1.0719,
	"step": 4
	},
	{
	"epoch": 0.0,
	"grad_norm": 7.031649978841274,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.0572,
	"step": 5
	},
	{
	"epoch": 0.0,
	"grad_norm": 6.3575449397660835,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 1.1097,
	"step": 6
	},
	{
	"epoch": 0.0,
	"grad_norm": 6.573922198067659,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 1.1593,
	"step": 7
	},
	{
	"epoch": 0.0,
	"grad_norm": 5.564979871860141,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 1.0538,
	"step": 8
	},
	{
	"epoch": 0.01,
	"grad_norm": 6.0509131309088655,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 1.0715,
	"step": 9
	},
	{
	"epoch": 0.01,
	"grad_norm": 6.12848977059448,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.9286,
	"step": 10
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.916177727066278,
	"learning_rate": 2.2e-06,
	"loss": 0.9492,
	"step": 11
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.8581443117369405,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 1.0133,
	"step": 12
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.908502671210593,
	"learning_rate": 2.6e-06,
	"loss": 0.9243,
	"step": 13
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.034985649544406,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 1.0416,
	"step": 14
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.507758376052119,
	"learning_rate": 3e-06,
	"loss": 0.9373,
	"step": 15
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.663272180369727,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.8673,
	"step": 16
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.508069835907157,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 0.8894,
	"step": 17
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.294815456496393,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.8841,
	"step": 18
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.877754612416487,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 0.768,
	"step": 19
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.664239443889974,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.7173,
	"step": 20
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.900279841618844,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 0.7689,
	"step": 21
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.0487383417411658,
	"learning_rate": 4.4e-06,
	"loss": 0.7327,
	"step": 22
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.9928876018893447,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.8763,
	"step": 23
	},
	{
	"epoch": 0.01,
	"grad_norm": 3.031747010513625,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.812,
	"step": 24
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.5408522914684863,
	"learning_rate": 5e-06,
	"loss": 0.8598,
	"step": 25
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.7561902015944253,
	"learning_rate": 5.2e-06,
	"loss": 0.8967,
	"step": 26
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.976716291176,
	"learning_rate": 5.400000000000001e-06,
	"loss": 0.7226,
	"step": 27
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.9056079278585227,
	"learning_rate": 5.600000000000001e-06,
	"loss": 0.8096,
	"step": 28
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.4758306534625802,
	"learning_rate": 5.8e-06,
	"loss": 0.8044,
	"step": 29
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.3717118099560217,
	"learning_rate": 6e-06,
	"loss": 0.6461,
	"step": 30
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.6666631455135335,
	"learning_rate": 6.200000000000001e-06,
	"loss": 0.8049,
	"step": 31
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.8733424047344993,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 0.8736,
	"step": 32
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.6648200702201637,
	"learning_rate": 6.600000000000001e-06,
	"loss": 0.7235,
	"step": 33
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.5601473220515056,
	"learning_rate": 6.800000000000001e-06,
	"loss": 0.68,
	"step": 34
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.7840115776082466,
	"learning_rate": 7e-06,
	"loss": 0.7816,
	"step": 35
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.524287013051412,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 0.7471,
	"step": 36
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.4550748912153613,
	"learning_rate": 7.4e-06,
	"loss": 0.7719,
	"step": 37
	},
	{
	"epoch": 0.02,
	"grad_norm": 3.1526664248369936,
	"learning_rate": 7.600000000000001e-06,
	"loss": 0.8696,
	"step": 38
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.6121499364302383,
	"learning_rate": 7.800000000000002e-06,
	"loss": 0.8445,
	"step": 39
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.862520896543254,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.7393,
	"step": 40
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.4539611276002877,
	"learning_rate": 8.2e-06,
	"loss": 0.7101,
	"step": 41
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.4407347141807656,
	"learning_rate": 8.400000000000001e-06,
	"loss": 0.6975,
	"step": 42
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.2749278520807903,
	"learning_rate": 8.6e-06,
	"loss": 0.6533,
	"step": 43
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.666183851086396,
	"learning_rate": 8.8e-06,
	"loss": 0.7896,
	"step": 44
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.6380466110589214,
	"learning_rate": 9e-06,
	"loss": 0.7127,
	"step": 45
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.6229206709830577,
	"learning_rate": 9.200000000000002e-06,
	"loss": 0.8321,
	"step": 46
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.439693927487141,
	"learning_rate": 9.4e-06,
	"loss": 0.6645,
	"step": 47
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.3073039773943127,
	"learning_rate": 9.600000000000001e-06,
	"loss": 0.6964,
	"step": 48
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.4261514181880757,
	"learning_rate": 9.800000000000001e-06,
	"loss": 0.7328,
	"step": 49
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.6298961031353434,
	"learning_rate": 1e-05,
	"loss": 0.7843,
	"step": 50
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.368357019452094,
	"learning_rate": 9.999990178426327e-06,
	"loss": 0.668,
	"step": 51
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.7183273232506373,
	"learning_rate": 9.999960713743888e-06,
	"loss": 0.9064,
	"step": 52
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.4366531712753416,
	"learning_rate": 9.99991160606844e-06,
	"loss": 0.6861,
	"step": 53
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.594914984056206,
	"learning_rate": 9.999842855592912e-06,
	"loss": 0.6947,
	"step": 54
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.631921187839759,
	"learning_rate": 9.999754462587396e-06,
	"loss": 0.8039,
	"step": 55
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.5158584160059085,
	"learning_rate": 9.999646427399155e-06,
	"loss": 0.7604,
	"step": 56
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.4520389413039703,
	"learning_rate": 9.999518750452622e-06,
	"loss": 0.8429,
	"step": 57
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.511219649765081,
	"learning_rate": 9.99937143224939e-06,
	"loss": 0.6068,
	"step": 58
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.2738544213871683,
	"learning_rate": 9.999204473368218e-06,
	"loss": 0.7126,
	"step": 59
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.2995201634238365,
	"learning_rate": 9.999017874465028e-06,
	"loss": 0.7117,
	"step": 60
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.3985761980411646,
	"learning_rate": 9.998811636272893e-06,
	"loss": 0.6838,
	"step": 61
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.2586065910900595,
	"learning_rate": 9.998585759602052e-06,
	"loss": 0.6853,
	"step": 62
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.585278752939056,
	"learning_rate": 9.998340245339888e-06,
	"loss": 0.8295,
	"step": 63
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.4881456153581327,
	"learning_rate": 9.998075094450935e-06,
	"loss": 0.6653,
	"step": 64
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.2548663647589096,
	"learning_rate": 9.997790307976874e-06,
	"loss": 0.6354,
	"step": 65
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.229109711289454,
	"learning_rate": 9.997485887036524e-06,
	"loss": 0.6932,
	"step": 66
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.452224143427515,
	"learning_rate": 9.997161832825843e-06,
	"loss": 0.7654,
	"step": 67
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.2297142951513824,
	"learning_rate": 9.996818146617922e-06,
	"loss": 0.6906,
	"step": 68
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.2791022191610946,
	"learning_rate": 9.996454829762973e-06,
	"loss": 0.754,
	"step": 69
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.4219124929553515,
	"learning_rate": 9.996071883688333e-06,
	"loss": 0.6764,
	"step": 70
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.3501944220961146,
	"learning_rate": 9.99566930989846e-06,
	"loss": 0.7615,
	"step": 71
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.344366272975179,
	"learning_rate": 9.995247109974915e-06,
	"loss": 0.7134,
	"step": 72
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.2314263082377934,
	"learning_rate": 9.994805285576364e-06,
	"loss": 0.7631,
	"step": 73
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.2834194270284636,
	"learning_rate": 9.99434383843857e-06,
	"loss": 0.8618,
	"step": 74
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.1338375917815813,
	"learning_rate": 9.99386277037439e-06,
	"loss": 0.6911,
	"step": 75
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.3756649144864954,
	"learning_rate": 9.993362083273763e-06,
	"loss": 0.6907,
	"step": 76
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.243315382854752,
	"learning_rate": 9.992841779103701e-06,
	"loss": 0.7424,
	"step": 77
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.2756590145094773,
	"learning_rate": 9.992301859908289e-06,
	"loss": 0.7107,
	"step": 78
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.4499338417790324,
	"learning_rate": 9.991742327808667e-06,
	"loss": 0.6014,
	"step": 79
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.5224681026150524,
	"learning_rate": 9.991163185003028e-06,
	"loss": 0.7545,
	"step": 80
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.255631190324587,
	"learning_rate": 9.990564433766615e-06,
	"loss": 0.6931,
	"step": 81
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.3236984572992045,
	"learning_rate": 9.989946076451693e-06,
	"loss": 0.7708,
	"step": 82
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.3364421780529887,
	"learning_rate": 9.989308115487563e-06,
	"loss": 0.6633,
	"step": 83
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.4163016525364336,
	"learning_rate": 9.988650553380537e-06,
	"loss": 0.7195,
	"step": 84
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.296872674947527,
	"learning_rate": 9.987973392713932e-06,
	"loss": 0.6912,
	"step": 85
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.236387998298346,
	"learning_rate": 9.987276636148062e-06,
	"loss": 0.6737,
	"step": 86
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.277025205153288,
	"learning_rate": 9.986560286420224e-06,
	"loss": 0.7312,
	"step": 87
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.200531820532158,
	"learning_rate": 9.985824346344692e-06,
	"loss": 0.6251,
	"step": 88
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.488944948555403,
	"learning_rate": 9.9850688188127e-06,
	"loss": 0.7303,
	"step": 89
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.260371060935904,
	"learning_rate": 9.984293706792438e-06,
	"loss": 0.7546,
	"step": 90
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.4449103602612245,
	"learning_rate": 9.983499013329035e-06,
	"loss": 0.7119,
	"step": 91
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.0759253415676246,
	"learning_rate": 9.982684741544543e-06,
	"loss": 0.6844,
	"step": 92
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.387552887692122,
	"learning_rate": 9.981850894637937e-06,
	"loss": 0.6649,
	"step": 93
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.3995087357031797,
	"learning_rate": 9.980997475885092e-06,
	"loss": 0.6547,
	"step": 94
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.0904111698207495,
	"learning_rate": 9.980124488638774e-06,
	"loss": 0.6566,
	"step": 95
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.156307458383918,
	"learning_rate": 9.979231936328627e-06,
	"loss": 0.6928,
	"step": 96
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.24711153397962,
	"learning_rate": 9.978319822461156e-06,
	"loss": 0.6853,
	"step": 97
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.1649921192352317,
	"learning_rate": 9.97738815061972e-06,
	"loss": 0.7694,
	"step": 98
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.374786305390187,
	"learning_rate": 9.976436924464513e-06,
	"loss": 0.5882,
	"step": 99
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.4306832331036436,
	"learning_rate": 9.975466147732551e-06,
	"loss": 0.7988,
	"step": 100
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.407124728247618,
	"learning_rate": 9.974475824237653e-06,
	"loss": 0.7287,
	"step": 101
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.264722126370796,
	"learning_rate": 9.973465957870437e-06,
	"loss": 0.629,
	"step": 102
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.1005973714933273,
	"learning_rate": 9.972436552598287e-06,
	"loss": 0.6619,
	"step": 103
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.270262489712689,
	"learning_rate": 9.971387612465364e-06,
	"loss": 0.7143,
	"step": 104
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.265439764692705,
	"learning_rate": 9.970319141592559e-06,
	"loss": 0.7442,
	"step": 105
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.4319715531705213,
	"learning_rate": 9.9692311441775e-06,
	"loss": 0.7737,
	"step": 106
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.491658969929883,
	"learning_rate": 9.968123624494525e-06,
	"loss": 0.7946,
	"step": 107
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.027048425981043,
	"learning_rate": 9.966996586894669e-06,
	"loss": 0.6461,
	"step": 108
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.3372539030580874,
	"learning_rate": 9.965850035805647e-06,
	"loss": 0.6859,
	"step": 109
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.2435812305648057,
	"learning_rate": 9.964683975731828e-06,
	"loss": 0.7748,
	"step": 110
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.315025140176691,
	"learning_rate": 9.963498411254235e-06,
	"loss": 0.659,
	"step": 111
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.074191768339382,
	"learning_rate": 9.96229334703051e-06,
	"loss": 0.6609,
	"step": 112
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.145042227584639,
	"learning_rate": 9.961068787794905e-06,
	"loss": 0.6756,
	"step": 113
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.131588951231997,
	"learning_rate": 9.959824738358257e-06,
	"loss": 0.6334,
	"step": 114
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.069665378872537,
	"learning_rate": 9.958561203607975e-06,
	"loss": 0.6443,
	"step": 115
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.3057314770322646,
	"learning_rate": 9.957278188508023e-06,
	"loss": 0.7952,
	"step": 116
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.2378897605544474,
	"learning_rate": 9.955975698098887e-06,
	"loss": 0.7272,
	"step": 117
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.0307818678260654,
	"learning_rate": 9.954653737497573e-06,
	"loss": 0.5701,
	"step": 118
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.24162131248661,
	"learning_rate": 9.953312311897573e-06,
	"loss": 0.7793,
	"step": 119
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.3552427687921393,
	"learning_rate": 9.951951426568852e-06,
	"loss": 0.7209,
	"step": 120
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.141178442038793,
	"learning_rate": 9.950571086857821e-06,
	"loss": 0.6716,
	"step": 121
	},
	{
	"epoch": 0.07,
	"grad_norm": 2.140261901239331,
	"learning_rate": 9.949171298187328e-06,
	"loss": 0.6743,
	"step": 122
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.4084672072357907,
	"learning_rate": 9.94775206605662e-06,
	"loss": 0.7973,
	"step": 123
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.025773154875324,
	"learning_rate": 9.946313396041334e-06,
	"loss": 0.7025,
	"step": 124
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.150720688365092,
	"learning_rate": 9.944855293793477e-06,
	"loss": 0.6128,
	"step": 125
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.161613123811631,
	"learning_rate": 9.943377765041385e-06,
	"loss": 0.6306,
	"step": 126
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.593842849691437,
	"learning_rate": 9.941880815589726e-06,
	"loss": 0.5894,
	"step": 127
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.504320662466919,
	"learning_rate": 9.94036445131946e-06,
	"loss": 0.772,
	"step": 128
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.1848467219695498,
	"learning_rate": 9.938828678187816e-06,
	"loss": 0.6397,
	"step": 129
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.27661938480736,
	"learning_rate": 9.937273502228283e-06,
	"loss": 0.6975,
	"step": 130
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.3673651764999573,
	"learning_rate": 9.935698929550565e-06,
	"loss": 0.7621,
	"step": 131
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.26639915751491,
	"learning_rate": 9.934104966340582e-06,
	"loss": 0.6551,
	"step": 132
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.3961035912104927,
	"learning_rate": 9.932491618860419e-06,
	"loss": 0.7304,
	"step": 133
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.2515245018919505,
	"learning_rate": 9.93085889344832e-06,
	"loss": 0.6655,
	"step": 134
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.254087375166334,
	"learning_rate": 9.929206796518663e-06,
	"loss": 0.666,
	"step": 135
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.31262707571602,
	"learning_rate": 9.927535334561922e-06,
	"loss": 0.7362,
	"step": 136
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.443869927919863,
	"learning_rate": 9.925844514144651e-06,
	"loss": 0.6805,
	"step": 137
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.2594952238504904,
	"learning_rate": 9.924134341909459e-06,
	"loss": 0.6936,
	"step": 138
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.3645395585503013,
	"learning_rate": 9.922404824574976e-06,
	"loss": 0.6318,
	"step": 139
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.952498408951814,
	"learning_rate": 9.920655968935839e-06,
	"loss": 0.6884,
	"step": 140
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.9398379720377739,
	"learning_rate": 9.91888778186265e-06,
	"loss": 0.5678,
	"step": 141
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.213422596923249,
	"learning_rate": 9.917100270301963e-06,
	"loss": 0.6868,
	"step": 142
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.2025927290666307,
	"learning_rate": 9.915293441276246e-06,
	"loss": 0.7192,
	"step": 143
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.80775911051946,
	"learning_rate": 9.913467301883863e-06,
	"loss": 0.784,
	"step": 144
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.0925302922228175,
	"learning_rate": 9.91162185929904e-06,
	"loss": 0.7198,
	"step": 145
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.334842810434387,
	"learning_rate": 9.909757120771835e-06,
	"loss": 0.7402,
	"step": 146
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.3908201091336805,
	"learning_rate": 9.907873093628115e-06,
	"loss": 0.6787,
	"step": 147
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.0776209566634316,
	"learning_rate": 9.905969785269527e-06,
	"loss": 0.6842,
	"step": 148
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.997004958324354,
	"learning_rate": 9.904047203173462e-06,
	"loss": 0.5733,
	"step": 149
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.3139630172641508,
	"learning_rate": 9.90210535489303e-06,
	"loss": 0.6647,
	"step": 150
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.9690194811261275,
	"learning_rate": 9.90014424805704e-06,
	"loss": 0.7311,
	"step": 151
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.3995016349539617,
	"learning_rate": 9.898163890369948e-06,
	"loss": 0.7473,
	"step": 152
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.1433446483892324,
	"learning_rate": 9.896164289611849e-06,
	"loss": 0.7016,
	"step": 153
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.190153295128278,
	"learning_rate": 9.894145453638433e-06,
	"loss": 0.67,
	"step": 154
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.4110621078855394,
	"learning_rate": 9.892107390380959e-06,
	"loss": 0.6655,
	"step": 155
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.2675629481717667,
	"learning_rate": 9.890050107846219e-06,
	"loss": 0.6459,
	"step": 156
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.274763942094237,
	"learning_rate": 9.887973614116517e-06,
	"loss": 0.6077,
	"step": 157
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.4805064767185314,
	"learning_rate": 9.885877917349626e-06,
	"loss": 0.7247,
	"step": 158
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.002019535180498,
	"learning_rate": 9.883763025778766e-06,
	"loss": 0.5373,
	"step": 159
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.337028939246668,
	"learning_rate": 9.881628947712556e-06,
	"loss": 0.7776,
	"step": 160
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.1479302094948247,
	"learning_rate": 9.879475691535e-06,
	"loss": 0.6499,
	"step": 161
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.9593814752135854,
	"learning_rate": 9.87730326570545e-06,
	"loss": 0.5575,
	"step": 162
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.3120091764398714,
	"learning_rate": 9.875111678758553e-06,
	"loss": 0.8117,
	"step": 163
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.58203181614075,
	"learning_rate": 9.872900939304246e-06,
	"loss": 0.7774,
	"step": 164
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.1359404314304173,
	"learning_rate": 9.870671056027705e-06,
	"loss": 0.7738,
	"step": 165
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.0558218346618484,
	"learning_rate": 9.868422037689316e-06,
	"loss": 0.6216,
	"step": 166
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.243529236580866,
	"learning_rate": 9.866153893124638e-06,
	"loss": 0.6684,
	"step": 167
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.1145868718408316,
	"learning_rate": 9.863866631244371e-06,
	"loss": 0.6847,
	"step": 168
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.9024551152535656,
	"learning_rate": 9.861560261034319e-06,
	"loss": 0.5933,
	"step": 169
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.1434847962939396,
	"learning_rate": 9.859234791555356e-06,
	"loss": 0.6503,
	"step": 170
	},
	{
	"epoch": 0.1,
	"grad_norm": 2.1711654094618713,
	"learning_rate": 9.856890231943389e-06,
	"loss": 0.6768,
	"step": 171
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.4118520851923524,
	"learning_rate": 9.854526591409325e-06,
	"loss": 0.7787,
	"step": 172
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.0666041021999977,
	"learning_rate": 9.852143879239032e-06,
	"loss": 0.6304,
	"step": 173
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.0942561413873806,
	"learning_rate": 9.849742104793303e-06,
	"loss": 0.659,
	"step": 174
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.9464606223168837,
	"learning_rate": 9.847321277507821e-06,
	"loss": 0.5119,
	"step": 175
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.0838258311462443,
	"learning_rate": 9.844881406893118e-06,
	"loss": 0.6413,
	"step": 176
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.2413046501319136,
	"learning_rate": 9.842422502534542e-06,
	"loss": 0.6781,
	"step": 177
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.0434533347433392,
	"learning_rate": 9.839944574092215e-06,
	"loss": 0.7173,
	"step": 178
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.0756948950274956,
	"learning_rate": 9.837447631301003e-06,
	"loss": 0.691,
	"step": 179
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.096621527142799,
	"learning_rate": 9.834931683970468e-06,
	"loss": 0.6164,
	"step": 180
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.325512127795748,
	"learning_rate": 9.832396741984834e-06,
	"loss": 0.7617,
	"step": 181
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.1101717813557723,
	"learning_rate": 9.829842815302951e-06,
	"loss": 0.5708,
	"step": 182
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.1629292221166567,
	"learning_rate": 9.827269913958247e-06,
	"loss": 0.7347,
	"step": 183
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.3197439288304906,
	"learning_rate": 9.8246780480587e-06,
	"loss": 0.7264,
	"step": 184
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.1964017610148843,
	"learning_rate": 9.822067227786794e-06,
	"loss": 0.759,
	"step": 185
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.272214121168636,
	"learning_rate": 9.819437463399468e-06,
	"loss": 0.6904,
	"step": 186
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.3994827721770684,
	"learning_rate": 9.816788765228095e-06,
	"loss": 0.7399,
	"step": 187
	},
	{
	"epoch": 0.11,
	"grad_norm": 2.111638499108041,
	"learning_rate": 9.81412114367843e-06,
	"loss": 0.7612,
	"step": 188
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.9840878981791865,
	"learning_rate": 9.81143460923057e-06,
	"loss": 0.5875,
	"step": 189
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.1652359918123167,
	"learning_rate": 9.808729172438909e-06,
	"loss": 0.724,
	"step": 190
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.9395882749114965,
	"learning_rate": 9.80600484393211e-06,
	"loss": 0.5528,
	"step": 191
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.1604646292422527,
	"learning_rate": 9.803261634413049e-06,
	"loss": 0.5707,
	"step": 192
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.016941878380451,
	"learning_rate": 9.80049955465878e-06,
	"loss": 0.6385,
	"step": 193
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.532345965216657,
	"learning_rate": 9.797718615520488e-06,
	"loss": 0.6938,
	"step": 194
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.2511667943525038,
	"learning_rate": 9.794918827923458e-06,
	"loss": 0.753,
	"step": 195
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.1447413054072517,
	"learning_rate": 9.792100202867014e-06,
	"loss": 0.6697,
	"step": 196
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.189313732305628,
	"learning_rate": 9.78926275142449e-06,
	"loss": 0.616,
	"step": 197
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.268919346618177,
	"learning_rate": 9.786406484743183e-06,
	"loss": 0.7412,
	"step": 198
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.2333800757193276,
	"learning_rate": 9.783531414044304e-06,
	"loss": 0.6923,
	"step": 199
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.055136095603475,
	"learning_rate": 9.780637550622943e-06,
	"loss": 0.7031,
	"step": 200
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.226669249666592,
	"learning_rate": 9.777724905848013e-06,
	"loss": 0.7531,
	"step": 201
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.232153739326395,
	"learning_rate": 9.774793491162221e-06,
	"loss": 0.6133,
	"step": 202
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.264407351963802,
	"learning_rate": 9.771843318082008e-06,
	"loss": 0.5952,
	"step": 203
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.294784666626483,
	"learning_rate": 9.76887439819751e-06,
	"loss": 0.8448,
	"step": 204
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.1307772179440936,
	"learning_rate": 9.765886743172512e-06,
	"loss": 0.5948,
	"step": 205
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.83961485752976,
	"learning_rate": 9.762880364744404e-06,
	"loss": 0.5447,
	"step": 206
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.031812871238954,
	"learning_rate": 9.759855274724137e-06,
	"loss": 0.6538,
	"step": 207
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.0040113831634745,
	"learning_rate": 9.756811484996162e-06,
	"loss": 0.6421,
	"step": 208
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.7984932798626254,
	"learning_rate": 9.753749007518407e-06,
	"loss": 0.5157,
	"step": 209
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.0477874542114916,
	"learning_rate": 9.750667854322207e-06,
	"loss": 0.6199,
	"step": 210
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.206751428653727,
	"learning_rate": 9.747568037512274e-06,
	"loss": 0.6161,
	"step": 211
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.3285004622852767,
	"learning_rate": 9.744449569266637e-06,
	"loss": 0.7607,
	"step": 212
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.1011118330445475,
	"learning_rate": 9.741312461836606e-06,
	"loss": 0.666,
	"step": 213
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.397695659444179,
	"learning_rate": 9.738156727546711e-06,
	"loss": 0.7105,
	"step": 214
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.91331183170689,
	"learning_rate": 9.734982378794662e-06,
	"loss": 0.619,
	"step": 215
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.1362268650914125,
	"learning_rate": 9.731789428051302e-06,
	"loss": 0.7317,
	"step": 216
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.04421825962035,
	"learning_rate": 9.72857788786055e-06,
	"loss": 0.6309,
	"step": 217
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.1550284488031473,
	"learning_rate": 9.725347770839356e-06,
	"loss": 0.6768,
	"step": 218
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.049439369305375,
	"learning_rate": 9.722099089677655e-06,
	"loss": 0.6423,
	"step": 219
	},
	{
	"epoch": 0.13,
	"grad_norm": 2.122940983855365,
	"learning_rate": 9.718831857138308e-06,
	"loss": 0.6345,
	"step": 220
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.274655471484878,
	"learning_rate": 9.715546086057066e-06,
	"loss": 0.5792,
	"step": 221
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.8385884175738376,
	"learning_rate": 9.712241789342504e-06,
	"loss": 0.656,
	"step": 222
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.2460907183322933,
	"learning_rate": 9.708918979975982e-06,
	"loss": 0.6417,
	"step": 223
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.9323218121201529,
	"learning_rate": 9.705577671011579e-06,
	"loss": 0.6371,
	"step": 224
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.0382284797399293,
	"learning_rate": 9.702217875576067e-06,
	"loss": 0.591,
	"step": 225
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.0698398210796567,
	"learning_rate": 9.698839606868835e-06,
	"loss": 0.5794,
	"step": 226
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.9440879438361034,
	"learning_rate": 9.69544287816185e-06,
	"loss": 0.6745,
	"step": 227
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.9900929740524849,
	"learning_rate": 9.6920277027996e-06,
	"loss": 0.6757,
	"step": 228
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.1940921838343446,
	"learning_rate": 9.688594094199043e-06,
	"loss": 0.6472,
	"step": 229
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.1958440427756636,
	"learning_rate": 9.685142065849556e-06,
	"loss": 0.7342,
	"step": 230
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.165725186559193,
	"learning_rate": 9.681671631312876e-06,
	"loss": 0.6485,
	"step": 231
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.1894781279792443,
	"learning_rate": 9.67818280422306e-06,
	"loss": 0.6896,
	"step": 232
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.195740186965468,
	"learning_rate": 9.674675598286414e-06,
	"loss": 0.6974,
	"step": 233
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.2452322721170668,
	"learning_rate": 9.671150027281449e-06,
	"loss": 0.6163,
	"step": 234
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.326336053478045,
	"learning_rate": 9.667606105058828e-06,
	"loss": 0.6448,
	"step": 235
	},
	{
	"epoch": 0.14,
	"grad_norm": 2.0032814883659036,
	"learning_rate": 9.66404384554131e-06,
	"loss": 0.619,
	"step": 236
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.932037123804567,
	"learning_rate": 9.660463262723691e-06,
	"loss": 0.5897,
	"step": 237
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.340804976271579,
	"learning_rate": 9.656864370672757e-06,
	"loss": 0.8023,
	"step": 238
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.1022457172205327,
	"learning_rate": 9.653247183527216e-06,
	"loss": 0.7218,
	"step": 239
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.8423012822099027,
	"learning_rate": 9.649611715497662e-06,
	"loss": 0.6005,
	"step": 240
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.8546169042416565,
	"learning_rate": 9.645957980866499e-06,
	"loss": 0.5888,
	"step": 241
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.9846561311341997,
	"learning_rate": 9.642285993987895e-06,
	"loss": 0.5579,
	"step": 242
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.239777371231001,
	"learning_rate": 9.63859576928773e-06,
	"loss": 0.755,
	"step": 243
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.0594775910705083,
	"learning_rate": 9.634887321263525e-06,
	"loss": 0.6442,
	"step": 244
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.176249216011953,
	"learning_rate": 9.631160664484398e-06,
	"loss": 0.8016,
	"step": 245
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.085520659410642,
	"learning_rate": 9.627415813591007e-06,
	"loss": 0.6368,
	"step": 246
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.021294737304931,
	"learning_rate": 9.623652783295483e-06,
	"loss": 0.5614,
	"step": 247
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.231835038374354,
	"learning_rate": 9.619871588381376e-06,
	"loss": 0.7216,
	"step": 248
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.910271586943225,
	"learning_rate": 9.616072243703598e-06,
	"loss": 0.5791,
	"step": 249
	},
	{
	"epoch": 0.15,
	"grad_norm": 1.8003560124729412,
	"learning_rate": 9.612254764188368e-06,
	"loss": 0.5448,
	"step": 250
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.2007549176054404,
	"learning_rate": 9.608419164833152e-06,
	"loss": 0.7257,
	"step": 251
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.0571622186487044,
	"learning_rate": 9.604565460706592e-06,
	"loss": 0.6335,
	"step": 252
	},
	{
	"epoch": 0.15,
	"grad_norm": 2.2497466958972154,
	"learning_rate": 9.60069366694847e-06,
	"loss": 0.6597,
	"step": 253
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.9612178789599213,
	"learning_rate": 9.596803798769626e-06,
	"loss": 0.7287,
	"step": 254
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.1104419163141115,
	"learning_rate": 9.592895871451908e-06,
	"loss": 0.6671,
	"step": 255
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.0822889988204305,
	"learning_rate": 9.58896990034812e-06,
	"loss": 0.7013,
	"step": 256
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.248918383189871,
	"learning_rate": 9.585025900881944e-06,
	"loss": 0.7042,
	"step": 257
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.0495739015390857,
	"learning_rate": 9.581063888547895e-06,
	"loss": 0.6913,
	"step": 258
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.759437262151785,
	"learning_rate": 9.57708387891125e-06,
	"loss": 0.5709,
	"step": 259
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.420770662182739,
	"learning_rate": 9.573085887607991e-06,
	"loss": 0.6814,
	"step": 260
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.130894942110269,
	"learning_rate": 9.569069930344746e-06,
	"loss": 0.6187,
	"step": 261
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.9591579536191646,
	"learning_rate": 9.565036022898723e-06,
	"loss": 0.5882,
	"step": 262
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.8084671651408435,
	"learning_rate": 9.56098418111765e-06,
	"loss": 0.6313,
	"step": 263
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.1526443073933086,
	"learning_rate": 9.556914420919711e-06,
	"loss": 0.6102,
	"step": 264
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.194691833732068,
	"learning_rate": 9.552826758293487e-06,
	"loss": 0.6878,
	"step": 265
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.501846785947928,
	"learning_rate": 9.548721209297889e-06,
	"loss": 0.6596,
	"step": 266
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.0669308931128123,
	"learning_rate": 9.544597790062098e-06,
	"loss": 0.6224,
	"step": 267
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.2681106555575052,
	"learning_rate": 9.5404565167855e-06,
	"loss": 0.6786,
	"step": 268
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.0576613963336445,
	"learning_rate": 9.536297405737624e-06,
	"loss": 0.5946,
	"step": 269
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.0426855396207264,
	"learning_rate": 9.532120473258075e-06,
	"loss": 0.641,
	"step": 270
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.1061182708873973,
	"learning_rate": 9.527925735756473e-06,
	"loss": 0.6379,
	"step": 271
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.6795883204795699,
	"learning_rate": 9.52371320971239e-06,
	"loss": 0.5449,
	"step": 272
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.9653754600396853,
	"learning_rate": 9.519482911675278e-06,
	"loss": 0.6875,
	"step": 273
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.1944241074929534,
	"learning_rate": 9.51523485826441e-06,
	"loss": 0.6387,
	"step": 274
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.2621502173726418,
	"learning_rate": 9.510969066168814e-06,
	"loss": 0.7567,
	"step": 275
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.0713889312949623,
	"learning_rate": 9.506685552147208e-06,
	"loss": 0.8003,
	"step": 276
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.161082236049816,
	"learning_rate": 9.502384333027929e-06,
	"loss": 0.7317,
	"step": 277
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.099935757711094,
	"learning_rate": 9.498065425708878e-06,
	"loss": 0.6365,
	"step": 278
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.0269709971121768,
	"learning_rate": 9.493728847157436e-06,
	"loss": 0.6275,
	"step": 279
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.9361261922037705,
	"learning_rate": 9.489374614410413e-06,
	"loss": 0.6505,
	"step": 280
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.276393660154319,
	"learning_rate": 9.485002744573982e-06,
	"loss": 0.7315,
	"step": 281
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.9425800587711943,
	"learning_rate": 9.480613254823595e-06,
	"loss": 0.6143,
	"step": 282
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.2697653664784534,
	"learning_rate": 9.476206162403933e-06,
	"loss": 0.6727,
	"step": 283
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.1842308672307063,
	"learning_rate": 9.471781484628828e-06,
	"loss": 0.6416,
	"step": 284
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.9855040976893727,
	"learning_rate": 9.467339238881199e-06,
	"loss": 0.6107,
	"step": 285
	},
	{
	"epoch": 0.17,
	"grad_norm": 1.9633251460753256,
	"learning_rate": 9.462879442612984e-06,
	"loss": 0.5977,
	"step": 286
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.0847506096615094,
	"learning_rate": 9.458402113345071e-06,
	"loss": 0.5964,
	"step": 287
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.071971955099866,
	"learning_rate": 9.453907268667226e-06,
	"loss": 0.6926,
	"step": 288
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.1433436130539074,
	"learning_rate": 9.44939492623803e-06,
	"loss": 0.5979,
	"step": 289
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.262092646829491,
	"learning_rate": 9.444865103784803e-06,
	"loss": 0.6555,
	"step": 290
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.1581337027107192,
	"learning_rate": 9.440317819103542e-06,
	"loss": 0.7022,
	"step": 291
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.207365600854885,
	"learning_rate": 9.435753090058839e-06,
	"loss": 0.6298,
	"step": 292
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.9716493031373659,
	"learning_rate": 9.431170934583826e-06,
	"loss": 0.6057,
	"step": 293
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.8605748771934563,
	"learning_rate": 9.426571370680094e-06,
	"loss": 0.6488,
	"step": 294
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.101750848753291,
	"learning_rate": 9.421954416417624e-06,
	"loss": 0.6334,
	"step": 295
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.189471586472517,
	"learning_rate": 9.417320089934721e-06,
	"loss": 0.6478,
	"step": 296
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.8693406953522982,
	"learning_rate": 9.412668409437934e-06,
	"loss": 0.5423,
	"step": 297
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.1604549448326207,
	"learning_rate": 9.407999393201992e-06,
	"loss": 0.6778,
	"step": 298
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.260164616585325,
	"learning_rate": 9.403313059569729e-06,
	"loss": 0.7631,
	"step": 299
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.0264565243677652,
	"learning_rate": 9.398609426952019e-06,
	"loss": 0.6039,
	"step": 300
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.0077711587490987,
	"learning_rate": 9.393888513827686e-06,
	"loss": 0.6003,
	"step": 301
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.0401684479993563,
	"learning_rate": 9.389150338743451e-06,
	"loss": 0.6232,
	"step": 302
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.0592434888026467,
	"learning_rate": 9.384394920313847e-06,
	"loss": 0.692,
	"step": 303
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.127639974580799,
	"learning_rate": 9.379622277221152e-06,
	"loss": 0.6403,
	"step": 304
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.1637948423090596,
	"learning_rate": 9.37483242821531e-06,
	"loss": 0.7911,
	"step": 305
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.96655742278293,
	"learning_rate": 9.370025392113866e-06,
	"loss": 0.6817,
	"step": 306
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.4075353559357375,
	"learning_rate": 9.365201187801884e-06,
	"loss": 0.7468,
	"step": 307
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.170026110189212,
	"learning_rate": 9.360359834231873e-06,
	"loss": 0.7148,
	"step": 308
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.0723680052005378,
	"learning_rate": 9.355501350423717e-06,
	"loss": 0.6234,
	"step": 309
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.111461085654852,
	"learning_rate": 9.3506257554646e-06,
	"loss": 0.6659,
	"step": 310
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.2496008204864104,
	"learning_rate": 9.345733068508929e-06,
	"loss": 0.7033,
	"step": 311
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.9996970862014591,
	"learning_rate": 9.340823308778255e-06,
	"loss": 0.7255,
	"step": 312
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.8792750115155255,
	"learning_rate": 9.335896495561207e-06,
	"loss": 0.6429,
	"step": 313
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.12929524638482,
	"learning_rate": 9.33095264821341e-06,
	"loss": 0.6596,
	"step": 314
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.9025785100638457,
	"learning_rate": 9.325991786157405e-06,
	"loss": 0.6464,
	"step": 315
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.9934226422368588,
	"learning_rate": 9.321013928882583e-06,
	"loss": 0.5929,
	"step": 316
	},
	{
	"epoch": 0.19,
	"grad_norm": 2.1268235022475697,
	"learning_rate": 9.3160190959451e-06,
	"loss": 0.6511,
	"step": 317
	},
	{
	"epoch": 0.19,
	"grad_norm": 1.9740290904745004,
	"learning_rate": 9.311007306967805e-06,
	"loss": 0.5765,
	"step": 318
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.0624735759975823,
	"learning_rate": 9.305978581640157e-06,
	"loss": 0.7006,
	"step": 319
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.2850117779663144,
	"learning_rate": 9.300932939718159e-06,
	"loss": 0.6555,
	"step": 320
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.9373893589189668,
	"learning_rate": 9.295870401024266e-06,
	"loss": 0.6105,
	"step": 321
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.9939827504480299,
	"learning_rate": 9.290790985447316e-06,
	"loss": 0.574,
	"step": 322
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.518967684022752,
	"learning_rate": 9.285694712942453e-06,
	"loss": 0.737,
	"step": 323
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.061941526906131,
	"learning_rate": 9.28058160353104e-06,
	"loss": 0.6289,
	"step": 324
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.046986924521927,
	"learning_rate": 9.275451677300591e-06,
	"loss": 0.6026,
	"step": 325
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.9643917949664476,
	"learning_rate": 9.270304954404688e-06,
	"loss": 0.6726,
	"step": 326
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.030653402715337,
	"learning_rate": 9.265141455062894e-06,
	"loss": 0.6522,
	"step": 327
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.083183062824829,
	"learning_rate": 9.259961199560686e-06,
	"loss": 0.6681,
	"step": 328
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.0946830011733955,
	"learning_rate": 9.254764208249369e-06,
	"loss": 0.7092,
	"step": 329
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.1225126781820283,
	"learning_rate": 9.249550501545998e-06,
	"loss": 0.67,
	"step": 330
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.026753617785709,
	"learning_rate": 9.244320099933291e-06,
	"loss": 0.6578,
	"step": 331
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.3515094288361125,
	"learning_rate": 9.239073023959562e-06,
	"loss": 0.7187,
	"step": 332
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.1066900321641655,
	"learning_rate": 9.233809294238625e-06,
	"loss": 0.709,
	"step": 333
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.2215204725890416,
	"learning_rate": 9.228528931449724e-06,
	"loss": 0.7507,
	"step": 334
	},
	{
	"epoch": 0.2,
	"grad_norm": 2.2519794194499068,
	"learning_rate": 9.22323195633745e-06,
	"loss": 0.804,
	"step": 335
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.1625190316209792,
	"learning_rate": 9.217918389711652e-06,
	"loss": 0.7088,
	"step": 336
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.095704698093118,
	"learning_rate": 9.21258825244737e-06,
	"loss": 0.6989,
	"step": 337
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.330487081066773,
	"learning_rate": 9.207241565484733e-06,
	"loss": 0.7033,
	"step": 338
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.132239589678436,
	"learning_rate": 9.201878349828897e-06,
	"loss": 0.6656,
	"step": 339
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.158342662695929,
	"learning_rate": 9.196498626549944e-06,
	"loss": 0.5794,
	"step": 340
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.9571490668467135,
	"learning_rate": 9.191102416782819e-06,
	"loss": 0.5614,
	"step": 341
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.0828460881254154,
	"learning_rate": 9.185689741727229e-06,
	"loss": 0.7618,
	"step": 342
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.945496988662335,
	"learning_rate": 9.180260622647565e-06,
	"loss": 0.6134,
	"step": 343
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.1345490610587006,
	"learning_rate": 9.174815080872829e-06,
	"loss": 0.6491,
	"step": 344
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.888910241101656,
	"learning_rate": 9.169353137796533e-06,
	"loss": 0.5433,
	"step": 345
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.2231218683381346,
	"learning_rate": 9.163874814876632e-06,
	"loss": 0.6674,
	"step": 346
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.8397128888601602,
	"learning_rate": 9.158380133635425e-06,
	"loss": 0.5104,
	"step": 347
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.8435017185456046,
	"learning_rate": 9.152869115659474e-06,
	"loss": 0.5708,
	"step": 348
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.004371953603906,
	"learning_rate": 9.147341782599534e-06,
	"loss": 0.5923,
	"step": 349
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.1426206185002523,
	"learning_rate": 9.141798156170447e-06,
	"loss": 0.6067,
	"step": 350
	},
	{
	"epoch": 0.21,
	"grad_norm": 2.0707774939518435,
	"learning_rate": 9.136238258151063e-06,
	"loss": 0.621,
	"step": 351
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.0756065658076808,
	"learning_rate": 9.130662110384163e-06,
	"loss": 0.609,
	"step": 352
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.864542155335991,
	"learning_rate": 9.125069734776367e-06,
	"loss": 0.5795,
	"step": 353
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.247405694299018,
	"learning_rate": 9.119461153298045e-06,
	"loss": 0.6788,
	"step": 354
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.0281028236357908,
	"learning_rate": 9.113836387983239e-06,
	"loss": 0.6667,
	"step": 355
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.1739992658132126,
	"learning_rate": 9.108195460929563e-06,
	"loss": 0.6559,
	"step": 356
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.844308015715884,
	"learning_rate": 9.10253839429813e-06,
	"loss": 0.5637,
	"step": 357
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.158849134009064,
	"learning_rate": 9.096865210313461e-06,
	"loss": 0.6977,
	"step": 358
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.9857083622278322,
	"learning_rate": 9.091175931263395e-06,
	"loss": 0.7014,
	"step": 359
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.083743100705083,
	"learning_rate": 9.085470579498996e-06,
	"loss": 0.6288,
	"step": 360
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.0848589757887304,
	"learning_rate": 9.079749177434481e-06,
	"loss": 0.5892,
	"step": 361
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.2211766443468073,
	"learning_rate": 9.074011747547118e-06,
	"loss": 0.6756,
	"step": 362
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.259415733177512,
	"learning_rate": 9.068258312377143e-06,
	"loss": 0.637,
	"step": 363
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.8541880063977976,
	"learning_rate": 9.06248889452767e-06,
	"loss": 0.5564,
	"step": 364
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.043397669872696,
	"learning_rate": 9.056703516664606e-06,
	"loss": 0.5995,
	"step": 365
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.9966425012080062,
	"learning_rate": 9.050902201516555e-06,
	"loss": 0.5602,
	"step": 366
	},
	{
	"epoch": 0.22,
	"grad_norm": 2.097676942573622,
	"learning_rate": 9.045084971874738e-06,
	"loss": 0.669,
	"step": 367
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.0595811405443016,
	"learning_rate": 9.039251850592892e-06,
	"loss": 0.6529,
	"step": 368
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.0255229150761576,
	"learning_rate": 9.033402860587187e-06,
	"loss": 0.5948,
	"step": 369
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.0548212104417276,
	"learning_rate": 9.027538024836143e-06,
	"loss": 0.6584,
	"step": 370
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.2114936351325465,
	"learning_rate": 9.021657366380521e-06,
	"loss": 0.6837,
	"step": 371
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.9893474856689934,
	"learning_rate": 9.015760908323253e-06,
	"loss": 0.5977,
	"step": 372
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.9935862578665022,
	"learning_rate": 9.009848673829337e-06,
	"loss": 0.6574,
	"step": 373
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.8536984972638404,
	"learning_rate": 9.00392068612575e-06,
	"loss": 0.5571,
	"step": 374
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.07272622617217,
	"learning_rate": 8.997976968501362e-06,
	"loss": 0.6437,
	"step": 375
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.9669798106315952,
	"learning_rate": 8.992017544306834e-06,
	"loss": 0.6805,
	"step": 376
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.243741605970751,
	"learning_rate": 8.986042436954538e-06,
	"loss": 0.7328,
	"step": 377
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.011662513116711,
	"learning_rate": 8.980051669918458e-06,
	"loss": 0.6209,
	"step": 378
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.1937242214026007,
	"learning_rate": 8.974045266734094e-06,
	"loss": 0.7434,
	"step": 379
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.132031298132569,
	"learning_rate": 8.96802325099838e-06,
	"loss": 0.6832,
	"step": 380
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.7086865848142259,
	"learning_rate": 8.961985646369587e-06,
	"loss": 0.5608,
	"step": 381
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.9009692420702806,
	"learning_rate": 8.955932476567224e-06,
	"loss": 0.6121,
	"step": 382
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.9044767808035803,
	"learning_rate": 8.949863765371952e-06,
	"loss": 0.6172,
	"step": 383
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.1087095562200946,
	"learning_rate": 8.943779536625489e-06,
	"loss": 0.7064,
	"step": 384
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.17610448059507,
	"learning_rate": 8.937679814230517e-06,
	"loss": 0.6725,
	"step": 385
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.006215616453568,
	"learning_rate": 8.931564622150583e-06,
	"loss": 0.6987,
	"step": 386
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.9223795578578178,
	"learning_rate": 8.925433984410012e-06,
	"loss": 0.5192,
	"step": 387
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.8039652484819113,
	"learning_rate": 8.919287925093808e-06,
	"loss": 0.628,
	"step": 388
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.769522071377601,
	"learning_rate": 8.913126468347561e-06,
	"loss": 0.4867,
	"step": 389
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.290538985245612,
	"learning_rate": 8.906949638377352e-06,
	"loss": 0.6833,
	"step": 390
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.1791089656581764,
	"learning_rate": 8.900757459449655e-06,
	"loss": 0.76,
	"step": 391
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.0748417472498537,
	"learning_rate": 8.894549955891247e-06,
	"loss": 0.6931,
	"step": 392
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.007190815984241,
	"learning_rate": 8.888327152089112e-06,
	"loss": 0.6713,
	"step": 393
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.7418731560021379,
	"learning_rate": 8.882089072490339e-06,
	"loss": 0.5852,
	"step": 394
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.9279427627473156,
	"learning_rate": 8.875835741602031e-06,
	"loss": 0.5998,
	"step": 395
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.011804969137247,
	"learning_rate": 8.869567183991208e-06,
	"loss": 0.7047,
	"step": 396
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.0919216640489577,
	"learning_rate": 8.86328342428471e-06,
	"loss": 0.6773,
	"step": 397
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.1708903996053994,
	"learning_rate": 8.856984487169102e-06,
	"loss": 0.6511,
	"step": 398
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.0482302804600954,
	"learning_rate": 8.85067039739057e-06,
	"loss": 0.6458,
	"step": 399
	},
	{
	"epoch": 0.24,
	"grad_norm": 2.2389233691566184,
	"learning_rate": 8.84434117975484e-06,
	"loss": 0.6042,
	"step": 400
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.3238794603179365,
	"learning_rate": 8.837996859127056e-06,
	"loss": 0.6536,
	"step": 401
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.9634398094275907,
	"learning_rate": 8.831637460431708e-06,
	"loss": 0.6009,
	"step": 402
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.1849384771988167,
	"learning_rate": 8.825263008652513e-06,
	"loss": 0.6747,
	"step": 403
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.9367137201020725,
	"learning_rate": 8.818873528832334e-06,
	"loss": 0.5679,
	"step": 404
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.9444930407351348,
	"learning_rate": 8.812469046073069e-06,
	"loss": 0.5809,
	"step": 405
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.0382647745048263,
	"learning_rate": 8.806049585535554e-06,
	"loss": 0.5664,
	"step": 406
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.1047083940033944,
	"learning_rate": 8.799615172439475e-06,
	"loss": 0.5677,
	"step": 407
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.8990495481992753,
	"learning_rate": 8.793165832063254e-06,
	"loss": 0.6238,
	"step": 408
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.096972722468596,
	"learning_rate": 8.786701589743965e-06,
	"loss": 0.6452,
	"step": 409
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.8640478732019463,
	"learning_rate": 8.780222470877213e-06,
	"loss": 0.5267,
	"step": 410
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.9247739069634147,
	"learning_rate": 8.77372850091706e-06,
	"loss": 0.6142,
	"step": 411
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.087695274157492,
	"learning_rate": 8.76721970537591e-06,
	"loss": 0.6652,
	"step": 412
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.850788744558352,
	"learning_rate": 8.760696109824403e-06,
	"loss": 0.5258,
	"step": 413
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.118016145296157,
	"learning_rate": 8.754157739891332e-06,
	"loss": 0.6427,
	"step": 414
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.1471953099208525,
	"learning_rate": 8.74760462126353e-06,
	"loss": 0.6361,
	"step": 415
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.9116075357657814,
	"learning_rate": 8.741036779685771e-06,
	"loss": 0.5885,
	"step": 416
	},
	{
	"epoch": 0.25,
	"grad_norm": 2.186935678265862,
	"learning_rate": 8.734454240960672e-06,
	"loss": 0.7819,
	"step": 417
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.9329278314726581,
	"learning_rate": 8.727857030948587e-06,
	"loss": 0.6089,
	"step": 418
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.29559179529083,
	"learning_rate": 8.721245175567513e-06,
	"loss": 0.6536,
	"step": 419
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.949685346432584,
	"learning_rate": 8.714618700792975e-06,
	"loss": 0.588,
	"step": 420
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.1364335358069555,
	"learning_rate": 8.707977632657942e-06,
	"loss": 0.5693,
	"step": 421
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.1052630337837646,
	"learning_rate": 8.701321997252707e-06,
	"loss": 0.6618,
	"step": 422
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.9419341419413294,
	"learning_rate": 8.694651820724796e-06,
	"loss": 0.6432,
	"step": 423
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.1809423639777847,
	"learning_rate": 8.687967129278863e-06,
	"loss": 0.6786,
	"step": 424
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.048911015295105,
	"learning_rate": 8.68126794917658e-06,
	"loss": 0.6848,
	"step": 425
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.1090753469834076,
	"learning_rate": 8.674554306736545e-06,
	"loss": 0.6447,
	"step": 426
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.106438933355631,
	"learning_rate": 8.667826228334173e-06,
	"loss": 0.5551,
	"step": 427
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.0203947279705226,
	"learning_rate": 8.66108374040159e-06,
	"loss": 0.5717,
	"step": 428
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.0615093467875854,
	"learning_rate": 8.654326869427533e-06,
	"loss": 0.6311,
	"step": 429
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.1329704988537665,
	"learning_rate": 8.647555641957243e-06,
	"loss": 0.6243,
	"step": 430
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.8315214353591525,
	"learning_rate": 8.640770084592367e-06,
	"loss": 0.5547,
	"step": 431
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.210411556217951,
	"learning_rate": 8.633970223990841e-06,
	"loss": 0.6408,
	"step": 432
	},
	{
	"epoch": 0.26,
	"grad_norm": 2.007561414582103,
	"learning_rate": 8.627156086866804e-06,
	"loss": 0.5894,
	"step": 433
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.939162087316279,
	"learning_rate": 8.620327699990469e-06,
	"loss": 0.5772,
	"step": 434
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.1700787302690094,
	"learning_rate": 8.613485090188044e-06,
	"loss": 0.6095,
	"step": 435
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.0168885983710703,
	"learning_rate": 8.606628284341603e-06,
	"loss": 0.6537,
	"step": 436
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.9420432087459054,
	"learning_rate": 8.599757309388998e-06,
	"loss": 0.5503,
	"step": 437
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.9005641654421328,
	"learning_rate": 8.592872192323742e-06,
	"loss": 0.5285,
	"step": 438
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.310866512162385,
	"learning_rate": 8.58597296019491e-06,
	"loss": 0.6925,
	"step": 439
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.0185104038237283,
	"learning_rate": 8.57905964010703e-06,
	"loss": 0.6208,
	"step": 440
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.227534027585251,
	"learning_rate": 8.572132259219973e-06,
	"loss": 0.6722,
	"step": 441
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.972521989095671,
	"learning_rate": 8.565190844748852e-06,
	"loss": 0.6204,
	"step": 442
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.192852585817164,
	"learning_rate": 8.558235423963912e-06,
	"loss": 0.6615,
	"step": 443
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.1499672574920883,
	"learning_rate": 8.551266024190425e-06,
	"loss": 0.5939,
	"step": 444
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.0344036721852303,
	"learning_rate": 8.54428267280858e-06,
	"loss": 0.609,
	"step": 445
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.100328047808317,
	"learning_rate": 8.537285397253378e-06,
	"loss": 0.6728,
	"step": 446
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.9522804167083359,
	"learning_rate": 8.53027422501452e-06,
	"loss": 0.5963,
	"step": 447
	},
	{
	"epoch": 0.27,
	"grad_norm": 2.0276370479958663,
	"learning_rate": 8.523249183636303e-06,
	"loss": 0.6615,
	"step": 448
	},
	{
	"epoch": 0.27,
	"grad_norm": 1.969628544118802,
	"learning_rate": 8.516210300717519e-06,
	"loss": 0.6111,
	"step": 449
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.029052699494888,
	"learning_rate": 8.50915760391132e-06,
	"loss": 0.6396,
	"step": 450
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.8921377970210058,
	"learning_rate": 8.502091120925147e-06,
	"loss": 0.6135,
	"step": 451
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.905825397098304,
	"learning_rate": 8.49501087952059e-06,
	"loss": 0.6531,
	"step": 452
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.062356135135231,
	"learning_rate": 8.487916907513291e-06,
	"loss": 0.6511,
	"step": 453
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.0500672806486047,
	"learning_rate": 8.480809232772845e-06,
	"loss": 0.6973,
	"step": 454
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.9780923474909595,
	"learning_rate": 8.473687883222665e-06,
	"loss": 0.5567,
	"step": 455
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.001802531470044,
	"learning_rate": 8.4665528868399e-06,
	"loss": 0.6096,
	"step": 456
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.0486427239843343,
	"learning_rate": 8.459404271655304e-06,
	"loss": 0.7061,
	"step": 457
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.1064266393636113,
	"learning_rate": 8.452242065753138e-06,
	"loss": 0.6797,
	"step": 458
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.3915047992203,
	"learning_rate": 8.445066297271055e-06,
	"loss": 0.6238,
	"step": 459
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.0029093719066053,
	"learning_rate": 8.437876994399992e-06,
	"loss": 0.5708,
	"step": 460
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.0251422666051178,
	"learning_rate": 8.430674185384054e-06,
	"loss": 0.6305,
	"step": 461
	},
	{
	"epoch": 0.28,
	"grad_norm": 2.3215947492777222,
	"learning_rate": 8.423457898520411e-06,
	"loss": 0.6077,
	"step": 462
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.9799905222032952,
	"learning_rate": 8.416228162159178e-06,
	"loss": 0.5937,
	"step": 463
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.9919779229157657,
	"learning_rate": 8.408985004703312e-06,
	"loss": 0.6588,
	"step": 464
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.8545854124573158,
	"learning_rate": 8.401728454608495e-06,
	"loss": 0.5624,
	"step": 465
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.9951991842396126,
	"learning_rate": 8.394458540383021e-06,
	"loss": 0.6586,
	"step": 466
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.9832046641551582,
	"learning_rate": 8.387175290587692e-06,
	"loss": 0.6178,
	"step": 467
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.1705961273936456,
	"learning_rate": 8.379878733835697e-06,
	"loss": 0.6783,
	"step": 468
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.0865192960586323,
	"learning_rate": 8.372568898792504e-06,
	"loss": 0.6141,
	"step": 469
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.965297643743764,
	"learning_rate": 8.365245814175744e-06,
	"loss": 0.5656,
	"step": 470
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.994816838265779,
	"learning_rate": 8.357909508755106e-06,
	"loss": 0.5594,
	"step": 471
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.081917736412011,
	"learning_rate": 8.350560011352217e-06,
	"loss": 0.6753,
	"step": 472
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.9190310357166047,
	"learning_rate": 8.343197350840525e-06,
	"loss": 0.5778,
	"step": 473
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.9990825253769382,
	"learning_rate": 8.335821556145196e-06,
	"loss": 0.5679,
	"step": 474
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.8601731215327446,
	"learning_rate": 8.328432656242998e-06,
	"loss": 0.5376,
	"step": 475
	},
	{
	"epoch": 0.29,
	"grad_norm": 1.8011984252968534,
	"learning_rate": 8.321030680162177e-06,
	"loss": 0.5679,
	"step": 476
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.2985243811453637,
	"learning_rate": 8.313615656982354e-06,
	"loss": 0.6887,
	"step": 477
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.0168932090236624,
	"learning_rate": 8.306187615834411e-06,
	"loss": 0.6523,
	"step": 478
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.007847760050486,
	"learning_rate": 8.298746585900367e-06,
	"loss": 0.6079,
	"step": 479
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.1580333815191914,
	"learning_rate": 8.291292596413272e-06,
	"loss": 0.7007,
	"step": 480
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.0148089585758857,
	"learning_rate": 8.28382567665709e-06,
	"loss": 0.6778,
	"step": 481
	},
	{
	"epoch": 0.29,
	"grad_norm": 2.0624654834089697,
	"learning_rate": 8.276345855966579e-06,
	"loss": 0.618,
	"step": 482
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.9930903577238281,
	"learning_rate": 8.268853163727184e-06,
	"loss": 0.6011,
	"step": 483
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.9326313111875104,
	"learning_rate": 8.26134762937492e-06,
	"loss": 0.5755,
	"step": 484
	},
	{
	"epoch": 0.3,
	"grad_norm": 2.1052378837219283,
	"learning_rate": 8.253829282396246e-06,
	"loss": 0.576,
	"step": 485
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.9490986209974357,
	"learning_rate": 8.246298152327965e-06,
	"loss": 0.4944,
	"step": 486
	},
	{
	"epoch": 0.3,
	"grad_norm": 2.0980391720214002,
	"learning_rate": 8.238754268757092e-06,
	"loss": 0.7186,
	"step": 487
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.881768667514335,
	"learning_rate": 8.231197661320755e-06,
	"loss": 0.6097,
	"step": 488
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.9646616396951349,
	"learning_rate": 8.223628359706063e-06,
	"loss": 0.6717,
	"step": 489
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.9845900062528004,
	"learning_rate": 8.216046393649997e-06,
	"loss": 0.5794,
	"step": 490
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.975691200881602,
	"learning_rate": 8.20845179293929e-06,
	"loss": 0.6777,
	"step": 491
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.9790588163074925,
	"learning_rate": 8.20084458741032e-06,
	"loss": 0.5762,
	"step": 492
	},
	{
	"epoch": 0.3,
	"grad_norm": 2.033854053229917,
	"learning_rate": 8.193224806948975e-06,
	"loss": 0.6425,
	"step": 493
	},
	{
	"epoch": 0.3,
	"grad_norm": 2.0564703779289855,
	"learning_rate": 8.185592481490549e-06,
	"loss": 0.5421,
	"step": 494
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.9024282460009037,
	"learning_rate": 8.177947641019622e-06,
	"loss": 0.5416,
	"step": 495
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.8428880273743034,
	"learning_rate": 8.170290315569937e-06,
	"loss": 0.5476,
	"step": 496
	},
	{
	"epoch": 0.3,
	"grad_norm": 2.0314873709790517,
	"learning_rate": 8.16262053522429e-06,
	"loss": 0.6254,
	"step": 497
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.959747747554248,
	"learning_rate": 8.154938330114407e-06,
	"loss": 0.6715,
	"step": 498
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.9605352675210954,
	"learning_rate": 8.147243730420827e-06,
	"loss": 0.5389,
	"step": 499
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.9808533481893225,
	"learning_rate": 8.139536766372775e-06,
	"loss": 0.5917,
	"step": 500
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.124751570239496,
	"learning_rate": 8.131817468248064e-06,
	"loss": 0.646,
	"step": 501
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.9453603552598644,
	"learning_rate": 8.124085866372952e-06,
	"loss": 0.6475,
	"step": 502
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.284493964086694,
	"learning_rate": 8.116341991122038e-06,
	"loss": 0.657,
	"step": 503
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.173487845748996,
	"learning_rate": 8.108585872918142e-06,
	"loss": 0.6072,
	"step": 504
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.9740790341680636,
	"learning_rate": 8.100817542232175e-06,
	"loss": 0.6192,
	"step": 505
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.9882407145838754,
	"learning_rate": 8.09303702958303e-06,
	"loss": 0.7174,
	"step": 506
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.765767752810985,
	"learning_rate": 8.085244365537459e-06,
	"loss": 0.5659,
	"step": 507
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.0919873787965018,
	"learning_rate": 8.077439580709954e-06,
	"loss": 0.7014,
	"step": 508
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.0909317709072597,
	"learning_rate": 8.069622705762619e-06,
	"loss": 0.6553,
	"step": 509
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.0985013077972163,
	"learning_rate": 8.06179377140506e-06,
	"loss": 0.5996,
	"step": 510
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.875167456622752,
	"learning_rate": 8.05395280839426e-06,
	"loss": 0.4977,
	"step": 511
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.8642775987752205,
	"learning_rate": 8.046099847534458e-06,
	"loss": 0.516,
	"step": 512
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.8047762854038711,
	"learning_rate": 8.038234919677029e-06,
	"loss": 0.5456,
	"step": 513
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.054027103241828,
	"learning_rate": 8.030358055720355e-06,
	"loss": 0.6449,
	"step": 514
	},
	{
	"epoch": 0.31,
	"grad_norm": 1.88938224837625,
	"learning_rate": 8.02246928660972e-06,
	"loss": 0.5853,
	"step": 515
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.9949053145025524,
	"learning_rate": 8.014568643337175e-06,
	"loss": 0.6374,
	"step": 516
	},
	{
	"epoch": 0.32,
	"grad_norm": 2.181017234415942,
	"learning_rate": 8.006656156941418e-06,
	"loss": 0.6383,
	"step": 517
	},
	{
	"epoch": 0.32,
	"grad_norm": 2.1231246586306325,
	"learning_rate": 7.998731858507675e-06,
	"loss": 0.6517,
	"step": 518
	},
	{
	"epoch": 0.32,
	"grad_norm": 2.014704090337969,
	"learning_rate": 7.990795779167584e-06,
	"loss": 0.6203,
	"step": 519
	},
	{
	"epoch": 0.32,
	"grad_norm": 2.1690171263618785,
	"learning_rate": 7.982847950099055e-06,
	"loss": 0.7135,
	"step": 520
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.8051904968061352,
	"learning_rate": 7.974888402526166e-06,
	"loss": 0.5658,
	"step": 521
	},
	{
	"epoch": 0.32,
	"grad_norm": 2.0602443463430555,
	"learning_rate": 7.966917167719029e-06,
	"loss": 0.6524,
	"step": 522
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.8973152827677298,
	"learning_rate": 7.95893427699367e-06,
	"loss": 0.5758,
	"step": 523
	},
	{
	"epoch": 0.32,
	"grad_norm": 2.019571292211095,
	"learning_rate": 7.950939761711915e-06,
	"loss": 0.6241,
	"step": 524
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.8785901266881793,
	"learning_rate": 7.942933653281245e-06,
	"loss": 0.5769,
	"step": 525
	},
	{
	"epoch": 0.32,
	"grad_norm": 2.166266745685418,
	"learning_rate": 7.934915983154698e-06,
	"loss": 0.6663,
	"step": 526
	},
	{
	"epoch": 0.32,
	"grad_norm": 2.123451242286571,
	"learning_rate": 7.92688678283073e-06,
	"loss": 0.6527,
	"step": 527
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.9075717966913297,
	"learning_rate": 7.918846083853089e-06,
	"loss": 0.6569,
	"step": 528
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.9000996169691746,
	"learning_rate": 7.910793917810707e-06,
	"loss": 0.6385,
	"step": 529
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.927434736070484,
	"learning_rate": 7.902730316337556e-06,
	"loss": 0.5631,
	"step": 530
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.9790989754571544,
	"learning_rate": 7.894655311112545e-06,
	"loss": 0.6068,
	"step": 531
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.1188146600936535,
	"learning_rate": 7.886568933859372e-06,
	"loss": 0.696,
	"step": 532
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.9800997991892215,
	"learning_rate": 7.878471216346418e-06,
	"loss": 0.6283,
	"step": 533
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.8749813668837976,
	"learning_rate": 7.870362190386616e-06,
	"loss": 0.5925,
	"step": 534
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.030181629804673,
	"learning_rate": 7.862241887837322e-06,
	"loss": 0.5838,
	"step": 535
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.191116164536583,
	"learning_rate": 7.854110340600199e-06,
	"loss": 0.6621,
	"step": 536
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.1322352729861747,
	"learning_rate": 7.845967580621082e-06,
	"loss": 0.7296,
	"step": 537
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.9503331877159438,
	"learning_rate": 7.837813639889858e-06,
	"loss": 0.6131,
	"step": 538
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.0706877886034802,
	"learning_rate": 7.829648550440337e-06,
	"loss": 0.6048,
	"step": 539
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.0116116138534617,
	"learning_rate": 7.821472344350131e-06,
	"loss": 0.6343,
	"step": 540
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.9969976539512104,
	"learning_rate": 7.813285053740526e-06,
	"loss": 0.6453,
	"step": 541
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.1284306784258638,
	"learning_rate": 7.805086710776353e-06,
	"loss": 0.6498,
	"step": 542
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.9199881561880785,
	"learning_rate": 7.796877347665861e-06,
	"loss": 0.5469,
	"step": 543
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.190799717584273,
	"learning_rate": 7.788656996660596e-06,
	"loss": 0.6443,
	"step": 544
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.0667507128163525,
	"learning_rate": 7.780425690055275e-06,
	"loss": 0.6689,
	"step": 545
	},
	{
	"epoch": 0.33,
	"grad_norm": 2.0614204138949077,
	"learning_rate": 7.772183460187647e-06,
	"loss": 0.7005,
	"step": 546
	},
	{
	"epoch": 0.33,
	"grad_norm": 1.8873750448102828,
	"learning_rate": 7.763930339438383e-06,
	"loss": 0.54,
	"step": 547
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.8982868706163196,
	"learning_rate": 7.755666360230933e-06,
	"loss": 0.6,
	"step": 548
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.9491417935122528,
	"learning_rate": 7.747391555031414e-06,
	"loss": 0.5981,
	"step": 549
	},
	{
	"epoch": 0.34,
	"grad_norm": 2.082993477568864,
	"learning_rate": 7.739105956348465e-06,
	"loss": 0.6724,
	"step": 550
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.9771665196367632,
	"learning_rate": 7.730809596733136e-06,
	"loss": 0.6199,
	"step": 551
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.9910315139065318,
	"learning_rate": 7.722502508778747e-06,
	"loss": 0.6237,
	"step": 552
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.8173451465224066,
	"learning_rate": 7.71418472512077e-06,
	"loss": 0.5711,
	"step": 553
	},
	{
	"epoch": 0.34,
	"grad_norm": 2.017970082027841,
	"learning_rate": 7.705856278436696e-06,
	"loss": 0.568,
	"step": 554
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.756994616816012,
	"learning_rate": 7.697517201445906e-06,
	"loss": 0.4771,
	"step": 555
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.783316776618109,
	"learning_rate": 7.689167526909542e-06,
	"loss": 0.5154,
	"step": 556
	},
	{
	"epoch": 0.34,
	"grad_norm": 2.019720522663777,
	"learning_rate": 7.680807287630383e-06,
	"loss": 0.6041,
	"step": 557
	},
	{
	"epoch": 0.34,
	"grad_norm": 2.0783908508210622,
	"learning_rate": 7.67243651645271e-06,
	"loss": 0.5921,
	"step": 558
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.8528382833978114,
	"learning_rate": 7.664055246262183e-06,
	"loss": 0.5604,
	"step": 559
	},
	{
	"epoch": 0.34,
	"grad_norm": 2.117910334131364,
	"learning_rate": 7.655663509985707e-06,
	"loss": 0.6059,
	"step": 560
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.9758606107637775,
	"learning_rate": 7.647261340591303e-06,
	"loss": 0.6412,
	"step": 561
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.9290348907447834,
	"learning_rate": 7.638848771087982e-06,
	"loss": 0.5705,
	"step": 562
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.8960214594144043,
	"learning_rate": 7.63042583452561e-06,
	"loss": 0.6163,
	"step": 563
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.7445681487714644,
	"learning_rate": 7.621992563994789e-06,
	"loss": 0.5722,
	"step": 564
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.9279287791801931,
	"learning_rate": 7.613548992626711e-06,
	"loss": 0.5845,
	"step": 565
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.8792256339894968,
	"learning_rate": 7.605095153593038e-06,
	"loss": 0.5947,
	"step": 566
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.9849662044668719,
	"learning_rate": 7.596631080105774e-06,
	"loss": 0.6454,
	"step": 567
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.1721543557468643,
	"learning_rate": 7.588156805417126e-06,
	"loss": 0.5729,
	"step": 568
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.0849048969435136,
	"learning_rate": 7.5796723628193815e-06,
	"loss": 0.5947,
	"step": 569
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.2968962836408324,
	"learning_rate": 7.571177785644766e-06,
	"loss": 0.6569,
	"step": 570
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.9267367648655322,
	"learning_rate": 7.562673107265333e-06,
	"loss": 0.5691,
	"step": 571
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.9013543447575418,
	"learning_rate": 7.554158361092807e-06,
	"loss": 0.5434,
	"step": 572
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.82007897551597,
	"learning_rate": 7.545633580578474e-06,
	"loss": 0.6298,
	"step": 573
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.04394739282291,
	"learning_rate": 7.537098799213036e-06,
	"loss": 0.622,
	"step": 574
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.075155956099819,
	"learning_rate": 7.528554050526489e-06,
	"loss": 0.6556,
	"step": 575
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.0315943098160236,
	"learning_rate": 7.519999368087982e-06,
	"loss": 0.6453,
	"step": 576
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.0428160155679786,
	"learning_rate": 7.511434785505693e-06,
	"loss": 0.7135,
	"step": 577
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.222904873771381,
	"learning_rate": 7.502860336426696e-06,
	"loss": 0.6357,
	"step": 578
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.7822608620060818,
	"learning_rate": 7.494276054536821e-06,
	"loss": 0.5291,
	"step": 579
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.0685923305897624,
	"learning_rate": 7.485681973560532e-06,
	"loss": 0.5797,
	"step": 580
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.8859535667625311,
	"learning_rate": 7.4770781272607895e-06,
	"loss": 0.548,
	"step": 581
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.2063159373182093,
	"learning_rate": 7.468464549438916e-06,
	"loss": 0.5926,
	"step": 582
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.8937819274172978,
	"learning_rate": 7.45984127393447e-06,
	"loss": 0.6131,
	"step": 583
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.0362363463005506,
	"learning_rate": 7.4512083346251026e-06,
	"loss": 0.5862,
	"step": 584
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.2409987097836717,
	"learning_rate": 7.442565765426436e-06,
	"loss": 0.6329,
	"step": 585
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.984238720215282,
	"learning_rate": 7.433913600291921e-06,
	"loss": 0.6436,
	"step": 586
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.104431967032393,
	"learning_rate": 7.425251873212709e-06,
	"loss": 0.7334,
	"step": 587
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.1700383544690096,
	"learning_rate": 7.416580618217515e-06,
	"loss": 0.6976,
	"step": 588
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.2359253381623345,
	"learning_rate": 7.407899869372489e-06,
	"loss": 0.6529,
	"step": 589
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.207059006099314,
	"learning_rate": 7.399209660781075e-06,
	"loss": 0.6742,
	"step": 590
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.261704338275933,
	"learning_rate": 7.390510026583884e-06,
	"loss": 0.6153,
	"step": 591
	},
	{
	"epoch": 0.36,
	"grad_norm": 2.0605566199360004,
	"learning_rate": 7.381801000958554e-06,
	"loss": 0.6127,
	"step": 592
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.8448877901078287,
	"learning_rate": 7.3730826181196206e-06,
	"loss": 0.5658,
	"step": 593
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.813700393133709,
	"learning_rate": 7.364354912318379e-06,
	"loss": 0.5713,
	"step": 594
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.8851240301079237,
	"learning_rate": 7.355617917842751e-06,
	"loss": 0.551,
	"step": 595
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.7963234257752434,
	"learning_rate": 7.346871669017153e-06,
	"loss": 0.5825,
	"step": 596
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.9811136419250976,
	"learning_rate": 7.338116200202352e-06,
	"loss": 0.6257,
	"step": 597
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.113085248629396,
	"learning_rate": 7.329351545795345e-06,
	"loss": 0.6154,
	"step": 598
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.664313245894575,
	"learning_rate": 7.320577740229208e-06,
	"loss": 0.5348,
	"step": 599
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.0938115916173095,
	"learning_rate": 7.311794817972975e-06,
	"loss": 0.619,
	"step": 600
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.9914918015459053,
	"learning_rate": 7.3030028135314905e-06,
	"loss": 0.5977,
	"step": 601
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.8973404703566117,
	"learning_rate": 7.294201761445284e-06,
	"loss": 0.6016,
	"step": 602
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.686916719491371,
	"learning_rate": 7.285391696290427e-06,
	"loss": 0.5594,
	"step": 603
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.8914279547975104,
	"learning_rate": 7.276572652678403e-06,
	"loss": 0.6548,
	"step": 604
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.9045214756464477,
	"learning_rate": 7.267744665255966e-06,
	"loss": 0.5625,
	"step": 605
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.0508726477606416,
	"learning_rate": 7.258907768705006e-06,
	"loss": 0.5994,
	"step": 606
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.1572541720871206,
	"learning_rate": 7.2500619977424154e-06,
	"loss": 0.6259,
	"step": 607
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.8740105212119254,
	"learning_rate": 7.241207387119953e-06,
	"loss": 0.5498,
	"step": 608
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.11048827570066,
	"learning_rate": 7.2323439716241e-06,
	"loss": 0.6176,
	"step": 609
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.138108461906426,
	"learning_rate": 7.223471786075934e-06,
	"loss": 0.7467,
	"step": 610
	},
	{
	"epoch": 0.37,
	"grad_norm": 2.1086676582577035,
	"learning_rate": 7.214590865330984e-06,
	"loss": 0.6513,
	"step": 611
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.8758955739955738,
	"learning_rate": 7.2057012442790975e-06,
	"loss": 0.5449,
	"step": 612
	},
	{
	"epoch": 0.37,
	"grad_norm": 1.682499149886398,
	"learning_rate": 7.1968029578443e-06,
	"loss": 0.525,
	"step": 613
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.9868958931777934,
	"learning_rate": 7.187896040984661e-06,
	"loss": 0.626,
	"step": 614
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.9273119955565226,
	"learning_rate": 7.178980528692161e-06,
	"loss": 0.6012,
	"step": 615
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.0192285563021466,
	"learning_rate": 7.170056455992541e-06,
	"loss": 0.6065,
	"step": 616
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.9019456790022062,
	"learning_rate": 7.161123857945177e-06,
	"loss": 0.6329,
	"step": 617
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.024610041244123,
	"learning_rate": 7.152182769642936e-06,
	"loss": 0.6359,
	"step": 618
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.9325040211739186,
	"learning_rate": 7.143233226212042e-06,
	"loss": 0.5215,
	"step": 619
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.012751842328307,
	"learning_rate": 7.134275262811935e-06,
	"loss": 0.6432,
	"step": 620
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.7572649666598243,
	"learning_rate": 7.1253089146351325e-06,
	"loss": 0.5677,
	"step": 621
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.7788331655165412,
	"learning_rate": 7.116334216907097e-06,
	"loss": 0.5215,
	"step": 622
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.9050240439242967,
	"learning_rate": 7.107351204886088e-06,
	"loss": 0.5178,
	"step": 623
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.041894936366493,
	"learning_rate": 7.098359913863034e-06,
	"loss": 0.6043,
	"step": 624
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.0308197433902797,
	"learning_rate": 7.089360379161381e-06,
	"loss": 0.6213,
	"step": 625
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.95222686445269,
	"learning_rate": 7.08035263613697e-06,
	"loss": 0.5971,
	"step": 626
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.017912918523442,
	"learning_rate": 7.071336720177886e-06,
	"loss": 0.6046,
	"step": 627
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.166790566645372,
	"learning_rate": 7.062312666704321e-06,
	"loss": 0.5927,
	"step": 628
	},
	{
	"epoch": 0.38,
	"grad_norm": 2.2400201098243544,
	"learning_rate": 7.053280511168437e-06,
	"loss": 0.7107,
	"step": 629
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.8761384322160164,
	"learning_rate": 7.044240289054227e-06,
	"loss": 0.5877,
	"step": 630
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.8121190685789235,
	"learning_rate": 7.035192035877374e-06,
	"loss": 0.5278,
	"step": 631
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.291146349707187,
	"learning_rate": 7.026135787185113e-06,
	"loss": 0.6674,
	"step": 632
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.9115866137344344,
	"learning_rate": 7.017071578556088e-06,
	"loss": 0.6101,
	"step": 633
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.2159502369044746,
	"learning_rate": 7.007999445600216e-06,
	"loss": 0.6451,
	"step": 634
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.94968047657449,
	"learning_rate": 6.998919423958548e-06,
	"loss": 0.6115,
	"step": 635
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.0483508425325208,
	"learning_rate": 6.989831549303121e-06,
	"loss": 0.5641,
	"step": 636
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.078362428704396,
	"learning_rate": 6.980735857336831e-06,
	"loss": 0.5859,
	"step": 637
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.102194806164863,
	"learning_rate": 6.971632383793278e-06,
	"loss": 0.5956,
	"step": 638
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.1562012485508766,
	"learning_rate": 6.962521164436641e-06,
	"loss": 0.6522,
	"step": 639
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.942549118113248,
	"learning_rate": 6.953402235061519e-06,
	"loss": 0.5656,
	"step": 640
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.032598660713363,
	"learning_rate": 6.944275631492813e-06,
	"loss": 0.6328,
	"step": 641
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.120207767189764,
	"learning_rate": 6.935141389585562e-06,
	"loss": 0.6283,
	"step": 642
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.846891984881128,
	"learning_rate": 6.925999545224819e-06,
	"loss": 0.5348,
	"step": 643
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.2117072258313515,
	"learning_rate": 6.916850134325505e-06,
	"loss": 0.5428,
	"step": 644
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.9428888699888005,
	"learning_rate": 6.907693192832263e-06,
	"loss": 0.6194,
	"step": 645
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.324654552066874,
	"learning_rate": 6.898528756719325e-06,
	"loss": 0.6157,
	"step": 646
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.105488134378262,
	"learning_rate": 6.8893568619903625e-06,
	"loss": 0.6574,
	"step": 647
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.0741815083758803,
	"learning_rate": 6.8801775446783545e-06,
	"loss": 0.681,
	"step": 648
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.8599982138936229,
	"learning_rate": 6.870990840845435e-06,
	"loss": 0.532,
	"step": 649
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.8066163998362903,
	"learning_rate": 6.861796786582761e-06,
	"loss": 0.5864,
	"step": 650
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.103633090126261,
	"learning_rate": 6.852595418010364e-06,
	"loss": 0.6276,
	"step": 651
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.0271857194621994,
	"learning_rate": 6.843386771277012e-06,
	"loss": 0.6113,
	"step": 652
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.9892261757816698,
	"learning_rate": 6.834170882560066e-06,
	"loss": 0.6066,
	"step": 653
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.0920982211462142,
	"learning_rate": 6.824947788065339e-06,
	"loss": 0.6631,
	"step": 654
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.7304966407527353,
	"learning_rate": 6.8157175240269495e-06,
	"loss": 0.5458,
	"step": 655
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.9003138804763595,
	"learning_rate": 6.806480126707187e-06,
	"loss": 0.6121,
	"step": 656
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.9727053822571718,
	"learning_rate": 6.797235632396362e-06,
	"loss": 0.6235,
	"step": 657
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.1447934975774325,
	"learning_rate": 6.787984077412666e-06,
	"loss": 0.652,
	"step": 658
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.0660746773365775,
	"learning_rate": 6.7787254981020335e-06,
	"loss": 0.6679,
	"step": 659
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.0622987551332597,
	"learning_rate": 6.7694599308379895e-06,
	"loss": 0.6033,
	"step": 660
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.9723578845421632,
	"learning_rate": 6.760187412021516e-06,
	"loss": 0.6082,
	"step": 661
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.7982428478028805,
	"learning_rate": 6.750907978080902e-06,
	"loss": 0.5334,
	"step": 662
	},
	{
	"epoch": 0.41,
	"grad_norm": 2.036081125390073,
	"learning_rate": 6.741621665471607e-06,
	"loss": 0.6212,
	"step": 663
	},
	{
	"epoch": 0.41,
	"grad_norm": 2.1493033458896664,
	"learning_rate": 6.732328510676111e-06,
	"loss": 0.6751,
	"step": 664
	},
	{
	"epoch": 0.41,
	"grad_norm": 2.070635996051103,
	"learning_rate": 6.723028550203779e-06,
	"loss": 0.5758,
	"step": 665
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.9050719437104036,
	"learning_rate": 6.7137218205907036e-06,
	"loss": 0.54,
	"step": 666
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.7928377835662002,
	"learning_rate": 6.704408358399583e-06,
	"loss": 0.5676,
	"step": 667
	},
	{
	"epoch": 0.41,
	"grad_norm": 2.027588661623482,
	"learning_rate": 6.695088200219557e-06,
	"loss": 0.5546,
	"step": 668
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.9325373078264918,
	"learning_rate": 6.6857613826660714e-06,
	"loss": 0.5941,
	"step": 669
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.9172475345332523,
	"learning_rate": 6.676427942380741e-06,
	"loss": 0.5328,
	"step": 670
	},
	{
	"epoch": 0.41,
	"grad_norm": 2.1396308238670367,
	"learning_rate": 6.667087916031192e-06,
	"loss": 0.6748,
	"step": 671
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.8568393271779622,
	"learning_rate": 6.657741340310927e-06,
	"loss": 0.5975,
	"step": 672
	},
	{
	"epoch": 0.41,
	"grad_norm": 2.0294986249307394,
	"learning_rate": 6.648388251939177e-06,
	"loss": 0.6111,
	"step": 673
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.9234325700371586,
	"learning_rate": 6.639028687660766e-06,
	"loss": 0.596,
	"step": 674
	},
	{
	"epoch": 0.41,
	"grad_norm": 2.0366203200056088,
	"learning_rate": 6.629662684245949e-06,
	"loss": 0.5688,
	"step": 675
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.8958934625265222,
	"learning_rate": 6.620290278490284e-06,
	"loss": 0.5791,
	"step": 676
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.806822731262611,
	"learning_rate": 6.610911507214482e-06,
	"loss": 0.5465,
	"step": 677
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.8876652924106438,
	"learning_rate": 6.601526407264261e-06,
	"loss": 0.5537,
	"step": 678
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.0030181777961156,
	"learning_rate": 6.592135015510197e-06,
	"loss": 0.6045,
	"step": 679
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.97710315660336,
	"learning_rate": 6.5827373688475925e-06,
	"loss": 0.5725,
	"step": 680
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.01659583449962,
	"learning_rate": 6.5733335041963175e-06,
	"loss": 0.6237,
	"step": 681
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.8805423446258591,
	"learning_rate": 6.563923458500672e-06,
	"loss": 0.5479,
	"step": 682
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.7669993233431147,
	"learning_rate": 6.554507268729238e-06,
	"loss": 0.5109,
	"step": 683
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.8269014493705453,
	"learning_rate": 6.545084971874738e-06,
	"loss": 0.5462,
	"step": 684
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.0359088067386786,
	"learning_rate": 6.535656604953884e-06,
	"loss": 0.6384,
	"step": 685
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.9599189973913222,
	"learning_rate": 6.526222205007236e-06,
	"loss": 0.5452,
	"step": 686
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.7645021807661985,
	"learning_rate": 6.516781809099055e-06,
	"loss": 0.4752,
	"step": 687
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.9917551528037687,
	"learning_rate": 6.507335454317161e-06,
	"loss": 0.5545,
	"step": 688
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.026042072169137,
	"learning_rate": 6.497883177772779e-06,
	"loss": 0.627,
	"step": 689
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.8861715324088848,
	"learning_rate": 6.488425016600403e-06,
	"loss": 0.6235,
	"step": 690
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.957150362035283,
	"learning_rate": 6.4789610079576426e-06,
	"loss": 0.5386,
	"step": 691
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.1453992014090364,
	"learning_rate": 6.469491189025081e-06,
	"loss": 0.6518,
	"step": 692
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.765906720730784,
	"learning_rate": 6.46001559700613e-06,
	"loss": 0.6203,
	"step": 693
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.260525086713535,
	"learning_rate": 6.450534269126878e-06,
	"loss": 0.6806,
	"step": 694
	},
	{
	"epoch": 0.42,
	"grad_norm": 2.171042858463267,
	"learning_rate": 6.441047242635947e-06,
	"loss": 0.6542,
	"step": 695
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.9103992956138385,
	"learning_rate": 6.431554554804353e-06,
	"loss": 0.6342,
	"step": 696
	},
	{
	"epoch": 0.43,
	"grad_norm": 2.0002914383944974,
	"learning_rate": 6.422056242925347e-06,
	"loss": 0.561,
	"step": 697
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.8379292896391608,
	"learning_rate": 6.412552344314279e-06,
	"loss": 0.5599,
	"step": 698
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.9748932397312229,
	"learning_rate": 6.40304289630844e-06,
	"loss": 0.5952,
	"step": 699
	},
	{
	"epoch": 0.43,
	"grad_norm": 2.1614553712542253,
	"learning_rate": 6.3935279362669335e-06,
	"loss": 0.6412,
	"step": 700
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.9859247585151905,
	"learning_rate": 6.384007501570509e-06,
	"loss": 0.6359,
	"step": 701
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.8136261988901872,
	"learning_rate": 6.374481629621427e-06,
	"loss": 0.5893,
	"step": 702
	},
	{
	"epoch": 0.43,
	"grad_norm": 2.0161944625478574,
	"learning_rate": 6.364950357843309e-06,
	"loss": 0.5371,
	"step": 703
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.8707294403008965,
	"learning_rate": 6.355413723680991e-06,
	"loss": 0.606,
	"step": 704
	},
	{
	"epoch": 0.43,
	"grad_norm": 2.083870266773342,
	"learning_rate": 6.3458717646003746e-06,
	"loss": 0.5857,
	"step": 705
	},
	{
	"epoch": 0.43,
	"grad_norm": 2.21481293408251,
	"learning_rate": 6.33632451808828e-06,
	"loss": 0.5945,
	"step": 706
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.8209514169327161,
	"learning_rate": 6.326772021652303e-06,
	"loss": 0.561,
	"step": 707
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.7765877330909154,
	"learning_rate": 6.317214312820662e-06,
	"loss": 0.5808,
	"step": 708
	},
	{
	"epoch": 0.43,
	"grad_norm": 2.301880122628837,
	"learning_rate": 6.307651429142053e-06,
	"loss": 0.6169,
	"step": 709
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.9511858179855806,
	"learning_rate": 6.298083408185503e-06,
	"loss": 0.5485,
	"step": 710
	},
	{
	"epoch": 0.43,
	"grad_norm": 1.8733084336465669,
	"learning_rate": 6.288510287540221e-06,
	"loss": 0.5414,
	"step": 711
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.9100686536267126,
	"learning_rate": 6.278932104815453e-06,
	"loss": 0.5177,
	"step": 712
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.980724894367988,
	"learning_rate": 6.269348897640327e-06,
	"loss": 0.5847,
	"step": 713
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.4372622910469515,
	"learning_rate": 6.259760703663713e-06,
	"loss": 0.6332,
	"step": 714
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.7666399516614875,
	"learning_rate": 6.2501675605540755e-06,
	"loss": 0.4731,
	"step": 715
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.9269831431359743,
	"learning_rate": 6.240569505999317e-06,
	"loss": 0.5864,
	"step": 716
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.1889446969469306,
	"learning_rate": 6.230966577706637e-06,
	"loss": 0.6465,
	"step": 717
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.0970566330713036,
	"learning_rate": 6.221358813402383e-06,
	"loss": 0.6136,
	"step": 718
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.05054134285554,
	"learning_rate": 6.211746250831902e-06,
	"loss": 0.6313,
	"step": 719
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.997693167566272,
	"learning_rate": 6.202128927759391e-06,
	"loss": 0.5838,
	"step": 720
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.902952046522087,
	"learning_rate": 6.192506881967746e-06,
	"loss": 0.5913,
	"step": 721
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.118349972159298,
	"learning_rate": 6.182880151258422e-06,
	"loss": 0.6401,
	"step": 722
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.7923389650042116,
	"learning_rate": 6.173248773451278e-06,
	"loss": 0.4488,
	"step": 723
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.0358206659939206,
	"learning_rate": 6.163612786384426e-06,
	"loss": 0.5871,
	"step": 724
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.9373816200953502,
	"learning_rate": 6.153972227914089e-06,
	"loss": 0.6472,
	"step": 725
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.7741801403344204,
	"learning_rate": 6.144327135914452e-06,
	"loss": 0.5512,
	"step": 726
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.000681880884647,
	"learning_rate": 6.134677548277504e-06,
	"loss": 0.6792,
	"step": 727
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.030783168366151,
	"learning_rate": 6.125023502912901e-06,
	"loss": 0.6046,
	"step": 728
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.0794685094461802,
	"learning_rate": 6.1153650377478116e-06,
	"loss": 0.6356,
	"step": 729
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.0447620516144394,
	"learning_rate": 6.105702190726765e-06,
	"loss": 0.6179,
	"step": 730
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.0749186785935803,
	"learning_rate": 6.096034999811507e-06,
	"loss": 0.6269,
	"step": 731
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.099298563572386,
	"learning_rate": 6.086363502980848e-06,
	"loss": 0.5107,
	"step": 732
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.143595827433539,
	"learning_rate": 6.076687738230517e-06,
	"loss": 0.613,
	"step": 733
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.2534551834297574,
	"learning_rate": 6.067007743573007e-06,
	"loss": 0.6627,
	"step": 734
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.196821231032266,
	"learning_rate": 6.0573235570374315e-06,
	"loss": 0.6868,
	"step": 735
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.9274444301473674,
	"learning_rate": 6.04763521666937e-06,
	"loss": 0.6234,
	"step": 736
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.0827989695986906,
	"learning_rate": 6.037942760530722e-06,
	"loss": 0.5338,
	"step": 737
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.7904575978539012,
	"learning_rate": 6.028246226699559e-06,
	"loss": 0.5255,
	"step": 738
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.8597042651935416,
	"learning_rate": 6.018545653269967e-06,
	"loss": 0.5604,
	"step": 739
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.925996097217488,
	"learning_rate": 6.008841078351903e-06,
	"loss": 0.5435,
	"step": 740
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.726239669389769,
	"learning_rate": 5.9991325400710506e-06,
	"loss": 0.5033,
	"step": 741
	},
	{
	"epoch": 0.45,
	"grad_norm": 1.8668368547030405,
	"learning_rate": 5.9894200765686574e-06,
	"loss": 0.5801,
	"step": 742
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.0334452116466037,
	"learning_rate": 5.9797037260013915e-06,
	"loss": 0.6715,
	"step": 743
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.1692961748152384,
	"learning_rate": 5.969983526541197e-06,
	"loss": 0.6002,
	"step": 744
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.8242102907354445,
	"learning_rate": 5.960259516375134e-06,
	"loss": 0.5459,
	"step": 745
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.9465644945877867,
	"learning_rate": 5.950531733705237e-06,
	"loss": 0.5633,
	"step": 746
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.033416173745934,
	"learning_rate": 5.940800216748357e-06,
	"loss": 0.595,
	"step": 747
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.029664712146445,
	"learning_rate": 5.9310650037360226e-06,
	"loss": 0.636,
	"step": 748
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.949211782466542,
	"learning_rate": 5.921326132914275e-06,
	"loss": 0.5598,
	"step": 749
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.130586940499767,
	"learning_rate": 5.911583642543532e-06,
	"loss": 0.6793,
	"step": 750
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.037641386476974,
	"learning_rate": 5.901837570898425e-06,
	"loss": 0.6281,
	"step": 751
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.063158938340875,
	"learning_rate": 5.892087956267659e-06,
	"loss": 0.5975,
	"step": 752
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.0120237220111954,
	"learning_rate": 5.88233483695386e-06,
	"loss": 0.5072,
	"step": 753
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.8881476646969595,
	"learning_rate": 5.872578251273418e-06,
	"loss": 0.5661,
	"step": 754
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.8984742507906354,
	"learning_rate": 5.862818237556344e-06,
	"loss": 0.5364,
	"step": 755
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.041836701931837,
	"learning_rate": 5.8530548341461125e-06,
	"loss": 0.6654,
	"step": 756
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.9187386355732121,
	"learning_rate": 5.843288079399523e-06,
	"loss": 0.5945,
	"step": 757
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.929660691723023,
	"learning_rate": 5.833518011686531e-06,
	"loss": 0.523,
	"step": 758
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.150008834991264,
	"learning_rate": 5.823744669390115e-06,
	"loss": 0.669,
	"step": 759
	},
	{
	"epoch": 0.46,
	"grad_norm": 2.124617912097345,
	"learning_rate": 5.813968090906117e-06,
	"loss": 0.5963,
	"step": 760
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.0097512818088563,
	"learning_rate": 5.804188314643088e-06,
	"loss": 0.5946,
	"step": 761
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.7904830455893548,
	"learning_rate": 5.794405379022147e-06,
	"loss": 0.5818,
	"step": 762
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.1097636641498805,
	"learning_rate": 5.784619322476822e-06,
	"loss": 0.5711,
	"step": 763
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.1115025364007636,
	"learning_rate": 5.774830183452905e-06,
	"loss": 0.5844,
	"step": 764
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.0129995897966833,
	"learning_rate": 5.765038000408295e-06,
	"loss": 0.5759,
	"step": 765
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.9329010751228102,
	"learning_rate": 5.755242811812851e-06,
	"loss": 0.5464,
	"step": 766
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.0085429975812055,
	"learning_rate": 5.74544465614824e-06,
	"loss": 0.5751,
	"step": 767
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.9903327654676763,
	"learning_rate": 5.735643571907785e-06,
	"loss": 0.6458,
	"step": 768
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.1067344237718393,
	"learning_rate": 5.725839597596312e-06,
	"loss": 0.6115,
	"step": 769
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.9189891230884772,
	"learning_rate": 5.716032771730008e-06,
	"loss": 0.5441,
	"step": 770
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.4011718668135993,
	"learning_rate": 5.706223132836255e-06,
	"loss": 0.5773,
	"step": 771
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.072775046614376,
	"learning_rate": 5.69641071945349e-06,
	"loss": 0.6463,
	"step": 772
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.9935114006477437,
	"learning_rate": 5.686595570131048e-06,
	"loss": 0.5186,
	"step": 773
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.844020593200682,
	"learning_rate": 5.6767777234290165e-06,
	"loss": 0.5469,
	"step": 774
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.0393335340113743,
	"learning_rate": 5.666957217918076e-06,
	"loss": 0.6512,
	"step": 775
	},
	{
	"epoch": 0.47,
	"grad_norm": 1.9394154490786393,
	"learning_rate": 5.657134092179354e-06,
	"loss": 0.603,
	"step": 776
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.005329689227122,
	"learning_rate": 5.647308384804272e-06,
	"loss": 0.6182,
	"step": 777
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.170791771636413,
	"learning_rate": 5.637480134394394e-06,
	"loss": 0.6277,
	"step": 778
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.001689578136617,
	"learning_rate": 5.627649379561273e-06,
	"loss": 0.6089,
	"step": 779
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.0454235186622114,
	"learning_rate": 5.617816158926303e-06,
	"loss": 0.5878,
	"step": 780
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.8823086840222076,
	"learning_rate": 5.607980511120565e-06,
	"loss": 0.5706,
	"step": 781
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.80269943780875,
	"learning_rate": 5.598142474784671e-06,
	"loss": 0.4961,
	"step": 782
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.033336270252808,
	"learning_rate": 5.588302088568625e-06,
	"loss": 0.556,
	"step": 783
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.9778139575223732,
	"learning_rate": 5.578459391131657e-06,
	"loss": 0.5302,
	"step": 784
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.020736561300123,
	"learning_rate": 5.568614421142078e-06,
	"loss": 0.5978,
	"step": 785
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.9174222510669499,
	"learning_rate": 5.558767217277127e-06,
	"loss": 0.4907,
	"step": 786
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.8250592907674714,
	"learning_rate": 5.548917818222818e-06,
	"loss": 0.5262,
	"step": 787
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.966787711230393,
	"learning_rate": 5.539066262673793e-06,
	"loss": 0.6737,
	"step": 788
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.855643229521311,
	"learning_rate": 5.529212589333163e-06,
	"loss": 0.5955,
	"step": 789
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.1346079614371543,
	"learning_rate": 5.5193568369123576e-06,
	"loss": 0.5729,
	"step": 790
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.0515766199556706,
	"learning_rate": 5.509499044130977e-06,
	"loss": 0.5719,
	"step": 791
	},
	{
	"epoch": 0.48,
	"grad_norm": 2.0107844202744336,
	"learning_rate": 5.4996392497166375e-06,
	"loss": 0.6046,
	"step": 792
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.9275125168152694,
	"learning_rate": 5.489777492404818e-06,
	"loss": 0.5201,
	"step": 793
	},
	{
	"epoch": 0.49,
	"grad_norm": 2.0862073890728428,
	"learning_rate": 5.479913810938706e-06,
	"loss": 0.6474,
	"step": 794
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.947899506277237,
	"learning_rate": 5.470048244069055e-06,
	"loss": 0.6276,
	"step": 795
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.938490880806152,
	"learning_rate": 5.46018083055402e-06,
	"loss": 0.573,
	"step": 796
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.9073385387532762,
	"learning_rate": 5.450311609159013e-06,
	"loss": 0.5404,
	"step": 797
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.809537621124168,
	"learning_rate": 5.4404406186565465e-06,
	"loss": 0.541,
	"step": 798
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.9527437330399584,
	"learning_rate": 5.430567897826086e-06,
	"loss": 0.6258,
	"step": 799
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.7508264552185595,
	"learning_rate": 5.420693485453893e-06,
	"loss": 0.5149,
	"step": 800
	},
	{
	"epoch": 0.49,
	"grad_norm": 2.0056514367983858,
	"learning_rate": 5.410817420332876e-06,
	"loss": 0.5755,
	"step": 801
	},
	{
	"epoch": 0.49,
	"grad_norm": 2.035682132284417,
	"learning_rate": 5.400939741262434e-06,
	"loss": 0.6091,
	"step": 802
	},
	{
	"epoch": 0.49,
	"grad_norm": 2.039715629729808,
	"learning_rate": 5.39106048704831e-06,
	"loss": 0.6284,
	"step": 803
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.9509583461522269,
	"learning_rate": 5.381179696502432e-06,
	"loss": 0.6541,
	"step": 804
	},
	{
	"epoch": 0.49,
	"grad_norm": 2.101000418400194,
	"learning_rate": 5.371297408442765e-06,
	"loss": 0.719,
	"step": 805
	},
	{
	"epoch": 0.49,
	"grad_norm": 2.1274177930152187,
	"learning_rate": 5.361413661693157e-06,
	"loss": 0.6933,
	"step": 806
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.9350531172343641,
	"learning_rate": 5.351528495083187e-06,
	"loss": 0.5427,
	"step": 807
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.9236019600576935,
	"learning_rate": 5.341641947448011e-06,
	"loss": 0.5427,
	"step": 808
	},
	{
	"epoch": 0.49,
	"grad_norm": 1.896084411851985,
	"learning_rate": 5.331754057628212e-06,
	"loss": 0.5404,
	"step": 809
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.1943365136159345,
	"learning_rate": 5.321864864469646e-06,
	"loss": 0.6178,
	"step": 810
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.0214323469529307,
	"learning_rate": 5.311974406823288e-06,
	"loss": 0.5394,
	"step": 811
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.867537229859426,
	"learning_rate": 5.3020827235450815e-06,
	"loss": 0.5502,
	"step": 812
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.234343663037103,
	"learning_rate": 5.292189853495784e-06,
	"loss": 0.6277,
	"step": 813
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.013802275182187,
	"learning_rate": 5.282295835540818e-06,
	"loss": 0.6056,
	"step": 814
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.9513906655142625,
	"learning_rate": 5.272400708550114e-06,
	"loss": 0.5685,
	"step": 815
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.9338299630529332,
	"learning_rate": 5.262504511397959e-06,
	"loss": 0.592,
	"step": 816
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.7548541609411559,
	"learning_rate": 5.252607282962843e-06,
	"loss": 0.526,
	"step": 817
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.0616714683528667,
	"learning_rate": 5.2427090621273114e-06,
	"loss": 0.5529,
	"step": 818
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.7804791451461532,
	"learning_rate": 5.232809887777807e-06,
	"loss": 0.5478,
	"step": 819
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.826725496699057,
	"learning_rate": 5.222909798804515e-06,
	"loss": 0.5544,
	"step": 820
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.138811923531637,
	"learning_rate": 5.213008834101218e-06,
	"loss": 0.643,
	"step": 821
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.9873736384117076,
	"learning_rate": 5.20310703256514e-06,
	"loss": 0.6616,
	"step": 822
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.9208415386150814,
	"learning_rate": 5.193204433096787e-06,
	"loss": 0.5055,
	"step": 823
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.9813842045072931,
	"learning_rate": 5.183301074599805e-06,
	"loss": 0.6327,
	"step": 824
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.908652107185451,
	"learning_rate": 5.173396995980818e-06,
	"loss": 0.6359,
	"step": 825
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.0742468419024847,
	"learning_rate": 5.1634922361492845e-06,
	"loss": 0.6413,
	"step": 826
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.9352720515169122,
	"learning_rate": 5.153586834017333e-06,
	"loss": 0.4937,
	"step": 827
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.8636055456230387,
	"learning_rate": 5.14368082849962e-06,
	"loss": 0.5491,
	"step": 828
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.2525115422822255,
	"learning_rate": 5.133774258513168e-06,
	"loss": 0.6518,
	"step": 829
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.976929887451241,
	"learning_rate": 5.123867162977224e-06,
	"loss": 0.5955,
	"step": 830
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.1238491116296787,
	"learning_rate": 5.1139595808130915e-06,
	"loss": 0.5438,
	"step": 831
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.9460536517410532,
	"learning_rate": 5.1040515509439926e-06,
	"loss": 0.6111,
	"step": 832
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.8502322758352145,
	"learning_rate": 5.0941431122949044e-06,
	"loss": 0.5802,
	"step": 833
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.1312052237471226,
	"learning_rate": 5.08423430379241e-06,
	"loss": 0.6531,
	"step": 834
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.955948461366251,
	"learning_rate": 5.074325164364549e-06,
	"loss": 0.576,
	"step": 835
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.2603660355638016,
	"learning_rate": 5.064415732940654e-06,
	"loss": 0.6709,
	"step": 836
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.2004715834934854,
	"learning_rate": 5.054506048451214e-06,
	"loss": 0.7273,
	"step": 837
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.9625833391118874,
	"learning_rate": 5.044596149827705e-06,
	"loss": 0.5655,
	"step": 838
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.0367810488166196,
	"learning_rate": 5.034686076002447e-06,
	"loss": 0.5503,
	"step": 839
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.0781271470418865,
	"learning_rate": 5.024775865908451e-06,
	"loss": 0.5408,
	"step": 840
	},
	{
	"epoch": 0.51,
	"grad_norm": 1.8174563416303517,
	"learning_rate": 5.014865558479257e-06,
	"loss": 0.5601,
	"step": 841
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.04027597278746,
	"learning_rate": 5.004955192648791e-06,
	"loss": 0.5129,
	"step": 842
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.929086047655504,
	"learning_rate": 4.9950448073512096e-06,
	"loss": 0.6012,
	"step": 843
	},
	{
	"epoch": 0.52,
	"grad_norm": 2.0846476788174018,
	"learning_rate": 4.9851344415207455e-06,
	"loss": 0.5691,
	"step": 844
	},
	{
	"epoch": 0.52,
	"grad_norm": 2.015199227101593,
	"learning_rate": 4.975224134091551e-06,
	"loss": 0.626,
	"step": 845
	},
	{
	"epoch": 0.52,
	"grad_norm": 2.005830472801361,
	"learning_rate": 4.965313923997552e-06,
	"loss": 0.5876,
	"step": 846
	},
	{
	"epoch": 0.52,
	"grad_norm": 2.11312125492647,
	"learning_rate": 4.955403850172297e-06,
	"loss": 0.5779,
	"step": 847
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.964404887222109,
	"learning_rate": 4.945493951548788e-06,
	"loss": 0.5264,
	"step": 848
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.632455019293396,
	"learning_rate": 4.935584267059346e-06,
	"loss": 0.4701,
	"step": 849
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.9988491228675496,
	"learning_rate": 4.925674835635455e-06,
	"loss": 0.604,
	"step": 850
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.9517240575905959,
	"learning_rate": 4.915765696207591e-06,
	"loss": 0.6134,
	"step": 851
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.8771210243391112,
	"learning_rate": 4.905856887705097e-06,
	"loss": 0.5352,
	"step": 852
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.9010355843007118,
	"learning_rate": 4.895948449056008e-06,
	"loss": 0.5825,
	"step": 853
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.8640061544368143,
	"learning_rate": 4.886040419186909e-06,
	"loss": 0.536,
	"step": 854
	},
	{
	"epoch": 0.52,
	"grad_norm": 2.127850537210119,
	"learning_rate": 4.876132837022778e-06,
	"loss": 0.7484,
	"step": 855
	},
	{
	"epoch": 0.52,
	"grad_norm": 2.035416663771683,
	"learning_rate": 4.866225741486833e-06,
	"loss": 0.5556,
	"step": 856
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.8112553709887884,
	"learning_rate": 4.856319171500382e-06,
	"loss": 0.5089,
	"step": 857
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.7461261116319204,
	"learning_rate": 4.846413165982668e-06,
	"loss": 0.5798,
	"step": 858
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.8200383652508103,
	"learning_rate": 4.836507763850717e-06,
	"loss": 0.5644,
	"step": 859
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.0210685681015517,
	"learning_rate": 4.826603004019182e-06,
	"loss": 0.6028,
	"step": 860
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.0488262467671654,
	"learning_rate": 4.816698925400197e-06,
	"loss": 0.6634,
	"step": 861
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.9045043503411678,
	"learning_rate": 4.806795566903214e-06,
	"loss": 0.5246,
	"step": 862
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.903132223526836,
	"learning_rate": 4.796892967434861e-06,
	"loss": 0.5501,
	"step": 863
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.9775121455691418,
	"learning_rate": 4.7869911658987825e-06,
	"loss": 0.5821,
	"step": 864
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.134944135303822,
	"learning_rate": 4.777090201195486e-06,
	"loss": 0.5914,
	"step": 865
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.8017818510043424,
	"learning_rate": 4.767190112222196e-06,
	"loss": 0.5215,
	"step": 866
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.8986193975250871,
	"learning_rate": 4.757290937872689e-06,
	"loss": 0.5674,
	"step": 867
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.198006939268661,
	"learning_rate": 4.747392717037158e-06,
	"loss": 0.6696,
	"step": 868
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.9844558939372063,
	"learning_rate": 4.737495488602044e-06,
	"loss": 0.6495,
	"step": 869
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.8377231311260462,
	"learning_rate": 4.727599291449887e-06,
	"loss": 0.526,
	"step": 870
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.1843148217052795,
	"learning_rate": 4.717704164459182e-06,
	"loss": 0.6569,
	"step": 871
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.0731163232163525,
	"learning_rate": 4.707810146504217e-06,
	"loss": 0.6277,
	"step": 872
	},
	{
	"epoch": 0.53,
	"grad_norm": 1.8835943474176664,
	"learning_rate": 4.697917276454919e-06,
	"loss": 0.5287,
	"step": 873
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.0281931145371828,
	"learning_rate": 4.688025593176713e-06,
	"loss": 0.5604,
	"step": 874
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.9088774231682988,
	"learning_rate": 4.6781351355303555e-06,
	"loss": 0.554,
	"step": 875
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.9551048202904684,
	"learning_rate": 4.668245942371789e-06,
	"loss": 0.6467,
	"step": 876
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.067313801101298,
	"learning_rate": 4.658358052551992e-06,
	"loss": 0.5992,
	"step": 877
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.902021092998417,
	"learning_rate": 4.648471504916815e-06,
	"loss": 0.5812,
	"step": 878
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.8922807148527254,
	"learning_rate": 4.638586338306845e-06,
	"loss": 0.5374,
	"step": 879
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.884819760587392,
	"learning_rate": 4.628702591557237e-06,
	"loss": 0.5056,
	"step": 880
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.809064236289934,
	"learning_rate": 4.61882030349757e-06,
	"loss": 0.5311,
	"step": 881
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.939206185133062,
	"learning_rate": 4.60893951295169e-06,
	"loss": 0.5821,
	"step": 882
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.1796594240586518,
	"learning_rate": 4.599060258737567e-06,
	"loss": 0.6658,
	"step": 883
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.103575194199594,
	"learning_rate": 4.589182579667125e-06,
	"loss": 0.6145,
	"step": 884
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.159018112419537,
	"learning_rate": 4.579306514546107e-06,
	"loss": 0.6203,
	"step": 885
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.9460192510920176,
	"learning_rate": 4.569432102173917e-06,
	"loss": 0.5578,
	"step": 886
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.8654041708472648,
	"learning_rate": 4.559559381343455e-06,
	"loss": 0.528,
	"step": 887
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.9680995454358476,
	"learning_rate": 4.5496883908409905e-06,
	"loss": 0.6183,
	"step": 888
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.9853793075023518,
	"learning_rate": 4.539819169445982e-06,
	"loss": 0.5658,
	"step": 889
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.1272265558554695,
	"learning_rate": 4.529951755930946e-06,
	"loss": 0.6413,
	"step": 890
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.0536110493039827,
	"learning_rate": 4.5200861890612955e-06,
	"loss": 0.5394,
	"step": 891
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.9694789258484728,
	"learning_rate": 4.510222507595185e-06,
	"loss": 0.5543,
	"step": 892
	},
	{
	"epoch": 0.55,
	"grad_norm": 2.0637295858493214,
	"learning_rate": 4.500360750283363e-06,
	"loss": 0.6254,
	"step": 893
	},
	{
	"epoch": 0.55,
	"grad_norm": 2.2382680799881762,
	"learning_rate": 4.490500955869025e-06,
	"loss": 0.5594,
	"step": 894
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.9215522609744207,
	"learning_rate": 4.480643163087644e-06,
	"loss": 0.5565,
	"step": 895
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.8992138968072834,
	"learning_rate": 4.4707874106668406e-06,
	"loss": 0.5549,
	"step": 896
	},
	{
	"epoch": 0.55,
	"grad_norm": 2.053529626956222,
	"learning_rate": 4.460933737326208e-06,
	"loss": 0.5997,
	"step": 897
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.9545793745044062,
	"learning_rate": 4.4510821817771825e-06,
	"loss": 0.5397,
	"step": 898
	},
	{
	"epoch": 0.55,
	"grad_norm": 2.085152918955289,
	"learning_rate": 4.441232782722875e-06,
	"loss": 0.6005,
	"step": 899
	},
	{
	"epoch": 0.55,
	"grad_norm": 2.1202774407600926,
	"learning_rate": 4.431385578857924e-06,
	"loss": 0.5819,
	"step": 900
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.8352961154836602,
	"learning_rate": 4.421540608868344e-06,
	"loss": 0.5951,
	"step": 901
	},
	{
	"epoch": 0.55,
	"grad_norm": 2.1495914883931904,
	"learning_rate": 4.411697911431376e-06,
	"loss": 0.6428,
	"step": 902
	},
	{
	"epoch": 0.55,
	"grad_norm": 2.1564746769491876,
	"learning_rate": 4.4018575252153295e-06,
	"loss": 0.6402,
	"step": 903
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.8954514160537663,
	"learning_rate": 4.392019488879438e-06,
	"loss": 0.6072,
	"step": 904
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.8105483820540889,
	"learning_rate": 4.382183841073698e-06,
	"loss": 0.5387,
	"step": 905
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.9485751025827374,
	"learning_rate": 4.372350620438728e-06,
	"loss": 0.531,
	"step": 906
	},
	{
	"epoch": 0.55,
	"grad_norm": 1.9608862157969138,
	"learning_rate": 4.362519865605608e-06,
	"loss": 0.5402,
	"step": 907
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.9691930324266667,
	"learning_rate": 4.352691615195729e-06,
	"loss": 0.5624,
	"step": 908
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.8973081884631189,
	"learning_rate": 4.342865907820647e-06,
	"loss": 0.5595,
	"step": 909
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.9717587970990957,
	"learning_rate": 4.333042782081926e-06,
	"loss": 0.662,
	"step": 910
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.007138023783923,
	"learning_rate": 4.323222276570984e-06,
	"loss": 0.5723,
	"step": 911
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.22307977714878,
	"learning_rate": 4.313404429868952e-06,
	"loss": 0.6789,
	"step": 912
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.190452780908872,
	"learning_rate": 4.303589280546513e-06,
	"loss": 0.6045,
	"step": 913
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.9051078417596634,
	"learning_rate": 4.293776867163746e-06,
	"loss": 0.5001,
	"step": 914
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.098076895433394,
	"learning_rate": 4.283967228269993e-06,
	"loss": 0.6982,
	"step": 915
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.135564782739449,
	"learning_rate": 4.274160402403689e-06,
	"loss": 0.6086,
	"step": 916
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.322595532423094,
	"learning_rate": 4.264356428092217e-06,
	"loss": 0.6274,
	"step": 917
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.9740445661634287,
	"learning_rate": 4.254555343851762e-06,
	"loss": 0.6254,
	"step": 918
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.1042432186823965,
	"learning_rate": 4.24475718818715e-06,
	"loss": 0.4925,
	"step": 919
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.092018762885259,
	"learning_rate": 4.234961999591706e-06,
	"loss": 0.638,
	"step": 920
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.819978568221369,
	"learning_rate": 4.2251698165470965e-06,
	"loss": 0.5285,
	"step": 921
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.0575179276629685,
	"learning_rate": 4.215380677523179e-06,
	"loss": 0.5426,
	"step": 922
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.8926418567324161,
	"learning_rate": 4.205594620977854e-06,
	"loss": 0.5378,
	"step": 923
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.055749823208842,
	"learning_rate": 4.195811685356914e-06,
	"loss": 0.5888,
	"step": 924
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.0051242608320745,
	"learning_rate": 4.186031909093884e-06,
	"loss": 0.5652,
	"step": 925
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.8592910852701108,
	"learning_rate": 4.176255330609885e-06,
	"loss": 0.487,
	"step": 926
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.2411604400071674,
	"learning_rate": 4.16648198831347e-06,
	"loss": 0.6867,
	"step": 927
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.072512037016527,
	"learning_rate": 4.156711920600479e-06,
	"loss": 0.6362,
	"step": 928
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.9250096482155696,
	"learning_rate": 4.146945165853888e-06,
	"loss": 0.4271,
	"step": 929
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.1874561938184898,
	"learning_rate": 4.137181762443658e-06,
	"loss": 0.5753,
	"step": 930
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.8676645313834617,
	"learning_rate": 4.127421748726583e-06,
	"loss": 0.5137,
	"step": 931
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.211228766881823,
	"learning_rate": 4.117665163046141e-06,
	"loss": 0.6821,
	"step": 932
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.095689790428209,
	"learning_rate": 4.107912043732342e-06,
	"loss": 0.5183,
	"step": 933
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.3214361789624944,
	"learning_rate": 4.098162429101576e-06,
	"loss": 0.588,
	"step": 934
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.9276332877997406,
	"learning_rate": 4.088416357456471e-06,
	"loss": 0.5425,
	"step": 935
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.8872033903192418,
	"learning_rate": 4.0786738670857254e-06,
	"loss": 0.5275,
	"step": 936
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.173402848844034,
	"learning_rate": 4.068934996263978e-06,
	"loss": 0.6501,
	"step": 937
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.216415986512064,
	"learning_rate": 4.059199783251644e-06,
	"loss": 0.5988,
	"step": 938
	},
	{
	"epoch": 0.57,
	"grad_norm": 1.8838143839651054,
	"learning_rate": 4.049468266294765e-06,
	"loss": 0.6169,
	"step": 939
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.028659010558423,
	"learning_rate": 4.039740483624869e-06,
	"loss": 0.6277,
	"step": 940
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.0194050107448303,
	"learning_rate": 4.030016473458805e-06,
	"loss": 0.6028,
	"step": 941
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.1557586383454574,
	"learning_rate": 4.020296273998609e-06,
	"loss": 0.6176,
	"step": 942
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.8682573092015993,
	"learning_rate": 4.010579923431346e-06,
	"loss": 0.5763,
	"step": 943
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.1548920939456093,
	"learning_rate": 4.00086745992895e-06,
	"loss": 0.6331,
	"step": 944
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.267061719065842,
	"learning_rate": 3.991158921648096e-06,
	"loss": 0.7066,
	"step": 945
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.9935522203843874,
	"learning_rate": 3.981454346730036e-06,
	"loss": 0.5729,
	"step": 946
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.8026214689706248,
	"learning_rate": 3.9717537733004415e-06,
	"loss": 0.5706,
	"step": 947
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.904682640150856,
	"learning_rate": 3.9620572394692776e-06,
	"loss": 0.5683,
	"step": 948
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.136529894979737,
	"learning_rate": 3.952364783330632e-06,
	"loss": 0.651,
	"step": 949
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.233298404795316,
	"learning_rate": 3.942676442962569e-06,
	"loss": 0.5268,
	"step": 950
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.2946703794023486,
	"learning_rate": 3.932992256426995e-06,
	"loss": 0.676,
	"step": 951
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.9555055432357573,
	"learning_rate": 3.923312261769485e-06,
	"loss": 0.598,
	"step": 952
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.3078155728224212,
	"learning_rate": 3.913636497019154e-06,
	"loss": 0.6872,
	"step": 953
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.8574615796272702,
	"learning_rate": 3.903965000188495e-06,
	"loss": 0.5518,
	"step": 954
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.213864265081535,
	"learning_rate": 3.894297809273237e-06,
	"loss": 0.5652,
	"step": 955
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.8234823525571142,
	"learning_rate": 3.884634962252189e-06,
	"loss": 0.4526,
	"step": 956
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.8652657269096666,
	"learning_rate": 3.8749764970871e-06,
	"loss": 0.5418,
	"step": 957
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.0976734402107224,
	"learning_rate": 3.8653224517224965e-06,
	"loss": 0.5637,
	"step": 958
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.0254191334608826,
	"learning_rate": 3.855672864085549e-06,
	"loss": 0.5265,
	"step": 959
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.8196043256300247,
	"learning_rate": 3.846027772085912e-06,
	"loss": 0.5179,
	"step": 960
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.931679412683687,
	"learning_rate": 3.836387213615576e-06,
	"loss": 0.5646,
	"step": 961
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.9232046934900524,
	"learning_rate": 3.826751226548725e-06,
	"loss": 0.4793,
	"step": 962
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.8622914220495714,
	"learning_rate": 3.817119848741579e-06,
	"loss": 0.5253,
	"step": 963
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.294972552628036,
	"learning_rate": 3.8074931180322544e-06,
	"loss": 0.6577,
	"step": 964
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.9186117148347783,
	"learning_rate": 3.7978710722406113e-06,
	"loss": 0.5449,
	"step": 965
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.1934148088583014,
	"learning_rate": 3.7882537491680992e-06,
	"loss": 0.5944,
	"step": 966
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.0440451523844816,
	"learning_rate": 3.7786411865976167e-06,
	"loss": 0.5916,
	"step": 967
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.18697015319259,
	"learning_rate": 3.7690334222933654e-06,
	"loss": 0.5679,
	"step": 968
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.3700476225659957,
	"learning_rate": 3.7594304940006846e-06,
	"loss": 0.7297,
	"step": 969
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.032165887398491,
	"learning_rate": 3.7498324394459253e-06,
	"loss": 0.5391,
	"step": 970
	},
	{
	"epoch": 0.59,
	"grad_norm": 2.0047253114127006,
	"learning_rate": 3.7402392963362878e-06,
	"loss": 0.6912,
	"step": 971
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.925349824119937,
	"learning_rate": 3.7306511023596743e-06,
	"loss": 0.4714,
	"step": 972
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.8222273181991067,
	"learning_rate": 3.721067895184549e-06,
	"loss": 0.5714,
	"step": 973
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.8642832971234993,
	"learning_rate": 3.711489712459779e-06,
	"loss": 0.5697,
	"step": 974
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.028076998382638,
	"learning_rate": 3.7019165918144974e-06,
	"loss": 0.6216,
	"step": 975
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.272782312304872,
	"learning_rate": 3.6923485708579487e-06,
	"loss": 0.4969,
	"step": 976
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.1112583503988525,
	"learning_rate": 3.6827856871793393e-06,
	"loss": 0.5942,
	"step": 977
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.0753754185170243,
	"learning_rate": 3.673227978347698e-06,
	"loss": 0.5954,
	"step": 978
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.8568456850511224,
	"learning_rate": 3.6636754819117213e-06,
	"loss": 0.5574,
	"step": 979
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.165971383751749,
	"learning_rate": 3.6541282353996275e-06,
	"loss": 0.5837,
	"step": 980
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.9460733583421799,
	"learning_rate": 3.6445862763190104e-06,
	"loss": 0.5682,
	"step": 981
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.1328727066329525,
	"learning_rate": 3.635049642156692e-06,
	"loss": 0.6156,
	"step": 982
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.206066665837199,
	"learning_rate": 3.6255183703785735e-06,
	"loss": 0.5946,
	"step": 983
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.0007589219567854,
	"learning_rate": 3.615992498429493e-06,
	"loss": 0.5819,
	"step": 984
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.038096288010089,
	"learning_rate": 3.6064720637330673e-06,
	"loss": 0.5356,
	"step": 985
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.978722860188176,
	"learning_rate": 3.5969571036915596e-06,
	"loss": 0.5895,
	"step": 986
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.9480013936453797,
	"learning_rate": 3.587447655685724e-06,
	"loss": 0.5308,
	"step": 987
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.1945763438024453,
	"learning_rate": 3.5779437570746536e-06,
	"loss": 0.6562,
	"step": 988
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.048811833634992,
	"learning_rate": 3.568445445195647e-06,
	"loss": 0.5449,
	"step": 989
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.9036038375948279,
	"learning_rate": 3.5589527573640537e-06,
	"loss": 0.5552,
	"step": 990
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.5575371034983034,
	"learning_rate": 3.549465730873124e-06,
	"loss": 0.4615,
	"step": 991
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.981358268031162,
	"learning_rate": 3.5399844029938724e-06,
	"loss": 0.5655,
	"step": 992
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.9338027875151251,
	"learning_rate": 3.5305088109749196e-06,
	"loss": 0.4972,
	"step": 993
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.9485561300488783,
	"learning_rate": 3.5210389920423582e-06,
	"loss": 0.5759,
	"step": 994
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.860842546149849,
	"learning_rate": 3.511574983399599e-06,
	"loss": 0.5328,
	"step": 995
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.1337146376104985,
	"learning_rate": 3.5021168222272227e-06,
	"loss": 0.6441,
	"step": 996
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.041043993151766,
	"learning_rate": 3.49266454568284e-06,
	"loss": 0.543,
	"step": 997
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.9008324125548013,
	"learning_rate": 3.4832181909009467e-06,
	"loss": 0.5582,
	"step": 998
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.0009175266246113,
	"learning_rate": 3.473777794992765e-06,
	"loss": 0.5657,
	"step": 999
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.0488988575321274,
	"learning_rate": 3.4643433950461175e-06,
	"loss": 0.5898,
	"step": 1000
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.164963300418657,
	"learning_rate": 3.4549150281252635e-06,
	"loss": 0.5981,
	"step": 1001
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.9763623413542644,
	"learning_rate": 3.4454927312707633e-06,
	"loss": 0.6106,
	"step": 1002
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.9962996245557485,
	"learning_rate": 3.43607654149933e-06,
	"loss": 0.5782,
	"step": 1003
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.2151735776108,
	"learning_rate": 3.4266664958036838e-06,
	"loss": 0.5685,
	"step": 1004
	},
	{
	"epoch": 0.61,
	"grad_norm": 2.018094880353655,
	"learning_rate": 3.417262631152409e-06,
	"loss": 0.528,
	"step": 1005
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.7630000234879197,
	"learning_rate": 3.4078649844898045e-06,
	"loss": 0.5205,
	"step": 1006
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.7955549765689147,
	"learning_rate": 3.3984735927357414e-06,
	"loss": 0.4731,
	"step": 1007
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.8797578836131676,
	"learning_rate": 3.3890884927855185e-06,
	"loss": 0.5603,
	"step": 1008
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.909711782728961,
	"learning_rate": 3.3797097215097173e-06,
	"loss": 0.5129,
	"step": 1009
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.8389954494108633,
	"learning_rate": 3.3703373157540525e-06,
	"loss": 0.5193,
	"step": 1010
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.8474429582879734,
	"learning_rate": 3.3609713123392352e-06,
	"loss": 0.4737,
	"step": 1011
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.3345478444238354,
	"learning_rate": 3.3516117480608234e-06,
	"loss": 0.7071,
	"step": 1012
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.175175435777652,
	"learning_rate": 3.3422586596890742e-06,
	"loss": 0.5722,
	"step": 1013
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.1305366509524055,
	"learning_rate": 3.3329120839688102e-06,
	"loss": 0.6892,
	"step": 1014
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.0052757824888037,
	"learning_rate": 3.32357205761926e-06,
	"loss": 0.5995,
	"step": 1015
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.0159203979737668,
	"learning_rate": 3.314238617333928e-06,
	"loss": 0.6025,
	"step": 1016
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.012244600426063,
	"learning_rate": 3.304911799780445e-06,
	"loss": 0.5673,
	"step": 1017
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.9361641471312003,
	"learning_rate": 3.295591641600418e-06,
	"loss": 0.5838,
	"step": 1018
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.8304544679156056,
	"learning_rate": 3.2862781794092964e-06,
	"loss": 0.5585,
	"step": 1019
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.149167385207215,
	"learning_rate": 3.2769714497962235e-06,
	"loss": 0.5886,
	"step": 1020
	},
	{
	"epoch": 0.62,
	"grad_norm": 2.04272728052408,
	"learning_rate": 3.267671489323889e-06,
	"loss": 0.5355,
	"step": 1021
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.9965937830873703,
	"learning_rate": 3.258378334528393e-06,
	"loss": 0.5976,
	"step": 1022
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.126700139225219,
	"learning_rate": 3.249092021919099e-06,
	"loss": 0.5431,
	"step": 1023
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.8129449899934444,
	"learning_rate": 3.239812587978485e-06,
	"loss": 0.5674,
	"step": 1024
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.0383597018537865,
	"learning_rate": 3.2305400691620126e-06,
	"loss": 0.6182,
	"step": 1025
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.050473137758968,
	"learning_rate": 3.221274501897968e-06,
	"loss": 0.5404,
	"step": 1026
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.9168650695196385,
	"learning_rate": 3.212015922587335e-06,
	"loss": 0.5563,
	"step": 1027
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.98106980221109,
	"learning_rate": 3.2027643676036402e-06,
	"loss": 0.5734,
	"step": 1028
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.847757494976792,
	"learning_rate": 3.193519873292815e-06,
	"loss": 0.5501,
	"step": 1029
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.0870831968238965,
	"learning_rate": 3.1842824759730518e-06,
	"loss": 0.5744,
	"step": 1030
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.8249978023375093,
	"learning_rate": 3.1750522119346626e-06,
	"loss": 0.5438,
	"step": 1031
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.9231526649033666,
	"learning_rate": 3.165829117439935e-06,
	"loss": 0.529,
	"step": 1032
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.0472491835741873,
	"learning_rate": 3.1566132287229876e-06,
	"loss": 0.5332,
	"step": 1033
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.1920921831656375,
	"learning_rate": 3.1474045819896374e-06,
	"loss": 0.5604,
	"step": 1034
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.9909841140079707,
	"learning_rate": 3.1382032134172395e-06,
	"loss": 0.5111,
	"step": 1035
	},
	{
	"epoch": 0.63,
	"grad_norm": 1.942915636194669,
	"learning_rate": 3.129009159154567e-06,
	"loss": 0.5641,
	"step": 1036
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.11037815260772,
	"learning_rate": 3.1198224553216472e-06,
	"loss": 0.593,
	"step": 1037
	},
	{
	"epoch": 0.63,
	"grad_norm": 2.1107440825628494,
	"learning_rate": 3.1106431380096374e-06,
	"loss": 0.5313,
	"step": 1038
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.0760892689013324,
	"learning_rate": 3.101471243280677e-06,
	"loss": 0.5261,
	"step": 1039
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.9189444275549399,
	"learning_rate": 3.092306807167738e-06,
	"loss": 0.5436,
	"step": 1040
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.0604725562399913,
	"learning_rate": 3.083149865674496e-06,
	"loss": 0.6429,
	"step": 1041
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.8122634340035755,
	"learning_rate": 3.0740004547751824e-06,
	"loss": 0.5544,
	"step": 1042
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.8800400262197519,
	"learning_rate": 3.0648586104144397e-06,
	"loss": 0.5622,
	"step": 1043
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.0644669592689127,
	"learning_rate": 3.0557243685071874e-06,
	"loss": 0.6323,
	"step": 1044
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.127783852090682,
	"learning_rate": 3.0465977649384813e-06,
	"loss": 0.6729,
	"step": 1045
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.7585798179204468,
	"learning_rate": 3.03747883556336e-06,
	"loss": 0.5283,
	"step": 1046
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.122048769461784,
	"learning_rate": 3.0283676162067234e-06,
	"loss": 0.6467,
	"step": 1047
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.0797175331249282,
	"learning_rate": 3.0192641426631707e-06,
	"loss": 0.5904,
	"step": 1048
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.911144315914054,
	"learning_rate": 3.010168450696879e-06,
	"loss": 0.5504,
	"step": 1049
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.733484390437723,
	"learning_rate": 3.0010805760414544e-06,
	"loss": 0.4998,
	"step": 1050
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.102048422163863,
	"learning_rate": 2.9920005543997847e-06,
	"loss": 0.5276,
	"step": 1051
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.9804256500678663,
	"learning_rate": 2.982928421443914e-06,
	"loss": 0.4796,
	"step": 1052
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.058252604257508,
	"learning_rate": 2.9738642128148887e-06,
	"loss": 0.5238,
	"step": 1053
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.9511201686457833,
	"learning_rate": 2.9648079641226267e-06,
	"loss": 0.5746,
	"step": 1054
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.1199181959460947,
	"learning_rate": 2.955759710945773e-06,
	"loss": 0.5502,
	"step": 1055
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.3766960612858234,
	"learning_rate": 2.946719488831564e-06,
	"loss": 0.518,
	"step": 1056
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.960044833847147,
	"learning_rate": 2.93768733329568e-06,
	"loss": 0.5366,
	"step": 1057
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.1052778798118643,
	"learning_rate": 2.928663279822116e-06,
	"loss": 0.6107,
	"step": 1058
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.9902325930624214,
	"learning_rate": 2.919647363863031e-06,
	"loss": 0.5625,
	"step": 1059
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.8937657013896414,
	"learning_rate": 2.910639620838619e-06,
	"loss": 0.5431,
	"step": 1060
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.081716192850459,
	"learning_rate": 2.901640086136969e-06,
	"loss": 0.504,
	"step": 1061
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.1189522676194037,
	"learning_rate": 2.892648795113912e-06,
	"loss": 0.6598,
	"step": 1062
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.907842433021825,
	"learning_rate": 2.8836657830929048e-06,
	"loss": 0.5169,
	"step": 1063
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.9520656325829888,
	"learning_rate": 2.874691085364868e-06,
	"loss": 0.5536,
	"step": 1064
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.072673902863609,
	"learning_rate": 2.865724737188067e-06,
	"loss": 0.579,
	"step": 1065
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.0924189620942775,
	"learning_rate": 2.856766773787959e-06,
	"loss": 0.5745,
	"step": 1066
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.7781952691539604,
	"learning_rate": 2.847817230357066e-06,
	"loss": 0.5756,
	"step": 1067
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.034790297885924,
	"learning_rate": 2.838876142054825e-06,
	"loss": 0.4909,
	"step": 1068
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.17420374619433,
	"learning_rate": 2.8299435440074596e-06,
	"loss": 0.5831,
	"step": 1069
	},
	{
	"epoch": 0.65,
	"grad_norm": 1.9647837412380398,
	"learning_rate": 2.8210194713078408e-06,
	"loss": 0.5177,
	"step": 1070
	},
	{
	"epoch": 0.65,
	"grad_norm": 2.2111415620011017,
	"learning_rate": 2.81210395901534e-06,
	"loss": 0.625,
	"step": 1071
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.2292783394598406,
	"learning_rate": 2.8031970421557035e-06,
	"loss": 0.6244,
	"step": 1072
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.079126116302448,
	"learning_rate": 2.7942987557209054e-06,
	"loss": 0.5667,
	"step": 1073
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.8984066910628055,
	"learning_rate": 2.785409134669017e-06,
	"loss": 0.5423,
	"step": 1074
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.8127916497049823,
	"learning_rate": 2.776528213924068e-06,
	"loss": 0.494,
	"step": 1075
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.06245637765686,
	"learning_rate": 2.7676560283759013e-06,
	"loss": 0.5621,
	"step": 1076
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.114616000228047,
	"learning_rate": 2.7587926128800503e-06,
	"loss": 0.582,
	"step": 1077
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.8380497026526659,
	"learning_rate": 2.7499380022575862e-06,
	"loss": 0.5381,
	"step": 1078
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.898889400333682,
	"learning_rate": 2.7410922312949955e-06,
	"loss": 0.543,
	"step": 1079
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.2504985306779677,
	"learning_rate": 2.7322553347440368e-06,
	"loss": 0.5839,
	"step": 1080
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.202704207784561,
	"learning_rate": 2.723427347321598e-06,
	"loss": 0.6228,
	"step": 1081
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.0144401171881405,
	"learning_rate": 2.7146083037095726e-06,
	"loss": 0.5422,
	"step": 1082
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.736757757636721,
	"learning_rate": 2.705798238554718e-06,
	"loss": 0.5307,
	"step": 1083
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.8565795545311183,
	"learning_rate": 2.696997186468511e-06,
	"loss": 0.5413,
	"step": 1084
	},
	{
	"epoch": 0.66,
	"grad_norm": 2.2977818371394663,
	"learning_rate": 2.688205182027026e-06,
	"loss": 0.6052,
	"step": 1085
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.9308033883834883,
	"learning_rate": 2.6794222597707937e-06,
	"loss": 0.5361,
	"step": 1086
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.9086632142591924,
	"learning_rate": 2.6706484542046564e-06,
	"loss": 0.5446,
	"step": 1087
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.9880975815360458,
	"learning_rate": 2.6618837997976497e-06,
	"loss": 0.5471,
	"step": 1088
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.080617319056223,
	"learning_rate": 2.6531283309828493e-06,
	"loss": 0.6338,
	"step": 1089
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.9076523429048307,
	"learning_rate": 2.6443820821572496e-06,
	"loss": 0.5312,
	"step": 1090
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.0510429772806784,
	"learning_rate": 2.635645087681623e-06,
	"loss": 0.6337,
	"step": 1091
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.8261749722012643,
	"learning_rate": 2.626917381880381e-06,
	"loss": 0.4953,
	"step": 1092
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.9732654093784376,
	"learning_rate": 2.618198999041447e-06,
	"loss": 0.5538,
	"step": 1093
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.012868194526242,
	"learning_rate": 2.609489973416118e-06,
	"loss": 0.6014,
	"step": 1094
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.0313320710830274,
	"learning_rate": 2.600790339218926e-06,
	"loss": 0.5784,
	"step": 1095
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.1398171593710185,
	"learning_rate": 2.5921001306275116e-06,
	"loss": 0.5516,
	"step": 1096
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.120355813263771,
	"learning_rate": 2.5834193817824865e-06,
	"loss": 0.5909,
	"step": 1097
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.030214931297693,
	"learning_rate": 2.5747481267872925e-06,
	"loss": 0.5592,
	"step": 1098
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.9767602094754053,
	"learning_rate": 2.5660863997080808e-06,
	"loss": 0.5503,
	"step": 1099
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.9483830769279278,
	"learning_rate": 2.557434234573565e-06,
	"loss": 0.5671,
	"step": 1100
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.9276456895969436,
	"learning_rate": 2.548791665374898e-06,
	"loss": 0.5127,
	"step": 1101
	},
	{
	"epoch": 0.67,
	"grad_norm": 1.8090439396291618,
	"learning_rate": 2.540158726065532e-06,
	"loss": 0.5713,
	"step": 1102
	},
	{
	"epoch": 0.67,
	"grad_norm": 2.320785088443513,
	"learning_rate": 2.5315354505610847e-06,
	"loss": 0.6488,
	"step": 1103
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.9982757056307234,
	"learning_rate": 2.522921872739211e-06,
	"loss": 0.5425,
	"step": 1104
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.9334400895537176,
	"learning_rate": 2.514318026439469e-06,
	"loss": 0.6033,
	"step": 1105
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.027430128222646,
	"learning_rate": 2.50572394546318e-06,
	"loss": 0.5551,
	"step": 1106
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.212527434238601,
	"learning_rate": 2.4971396635733043e-06,
	"loss": 0.6576,
	"step": 1107
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.047142954880681,
	"learning_rate": 2.488565214494307e-06,
	"loss": 0.6133,
	"step": 1108
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.855345806040437,
	"learning_rate": 2.480000631912018e-06,
	"loss": 0.5198,
	"step": 1109
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.1075238338772895,
	"learning_rate": 2.471445949473512e-06,
	"loss": 0.5667,
	"step": 1110
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.9673428615144855,
	"learning_rate": 2.4629012007869634e-06,
	"loss": 0.5715,
	"step": 1111
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.2624688260095382,
	"learning_rate": 2.4543664194215272e-06,
	"loss": 0.7673,
	"step": 1112
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.0285948397058626,
	"learning_rate": 2.445841638907194e-06,
	"loss": 0.5768,
	"step": 1113
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.088805134401383,
	"learning_rate": 2.4373268927346678e-06,
	"loss": 0.5607,
	"step": 1114
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.7787754535359048,
	"learning_rate": 2.428822214355235e-06,
	"loss": 0.5723,
	"step": 1115
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.149439034712146,
	"learning_rate": 2.4203276371806206e-06,
	"loss": 0.6358,
	"step": 1116
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.8509674900388537,
	"learning_rate": 2.4118431945828757e-06,
	"loss": 0.5393,
	"step": 1117
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.8927674268591554,
	"learning_rate": 2.4033689198942272e-06,
	"loss": 0.5846,
	"step": 1118
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.9917147049157173,
	"learning_rate": 2.394904846406964e-06,
	"loss": 0.6189,
	"step": 1119
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.9129347000522996,
	"learning_rate": 2.3864510073732914e-06,
	"loss": 0.5045,
	"step": 1120
	},
	{
	"epoch": 0.69,
	"grad_norm": 2.050425773481486,
	"learning_rate": 2.378007436005214e-06,
	"loss": 0.5873,
	"step": 1121
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.9719631201639327,
	"learning_rate": 2.3695741654743913e-06,
	"loss": 0.5375,
	"step": 1122
	},
	{
	"epoch": 0.69,
	"grad_norm": 2.0214460337530946,
	"learning_rate": 2.3611512289120208e-06,
	"loss": 0.5548,
	"step": 1123
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.8042574192263385,
	"learning_rate": 2.3527386594087003e-06,
	"loss": 0.5189,
	"step": 1124
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.9600273923574374,
	"learning_rate": 2.344336490014295e-06,
	"loss": 0.5378,
	"step": 1125
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.9432405793477807,
	"learning_rate": 2.3359447537378173e-06,
	"loss": 0.5354,
	"step": 1126
	},
	{
	"epoch": 0.69,
	"grad_norm": 2.04898553718917,
	"learning_rate": 2.3275634835472914e-06,
	"loss": 0.6216,
	"step": 1127
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.9391818082210701,
	"learning_rate": 2.3191927123696185e-06,
	"loss": 0.5523,
	"step": 1128
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.9965210994972027,
	"learning_rate": 2.3108324730904584e-06,
	"loss": 0.5929,
	"step": 1129
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.8480997829156387,
	"learning_rate": 2.302482798554096e-06,
	"loss": 0.5467,
	"step": 1130
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.8430449159542786,
	"learning_rate": 2.2941437215633043e-06,
	"loss": 0.5267,
	"step": 1131
	},
	{
	"epoch": 0.69,
	"grad_norm": 2.0808145765908543,
	"learning_rate": 2.2858152748792316e-06,
	"loss": 0.6113,
	"step": 1132
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.8218623081262797,
	"learning_rate": 2.277497491221255e-06,
	"loss": 0.4938,
	"step": 1133
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.9041064505829883,
	"learning_rate": 2.269190403266866e-06,
	"loss": 0.5633,
	"step": 1134
	},
	{
	"epoch": 0.69,
	"grad_norm": 1.652734879699611,
	"learning_rate": 2.260894043651537e-06,
	"loss": 0.5735,
	"step": 1135
	},
	{
	"epoch": 0.69,
	"grad_norm": 2.2538231832723445,
	"learning_rate": 2.2526084449685876e-06,
	"loss": 0.6128,
	"step": 1136
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.7960651904147913,
	"learning_rate": 2.244333639769066e-06,
	"loss": 0.4856,
	"step": 1137
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.9343813745783291,
	"learning_rate": 2.236069660561619e-06,
	"loss": 0.5552,
	"step": 1138
	},
	{
	"epoch": 0.7,
	"grad_norm": 2.0101528659989025,
	"learning_rate": 2.2278165398123538e-06,
	"loss": 0.5589,
	"step": 1139
	},
	{
	"epoch": 0.7,
	"grad_norm": 2.1101574118483826,
	"learning_rate": 2.2195743099447257e-06,
	"loss": 0.5837,
	"step": 1140
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.7157523251139841,
	"learning_rate": 2.211343003339405e-06,
	"loss": 0.4769,
	"step": 1141
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.7800599491375297,
	"learning_rate": 2.203122652334141e-06,
	"loss": 0.5251,
	"step": 1142
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.9387781774592656,
	"learning_rate": 2.1949132892236495e-06,
	"loss": 0.5669,
	"step": 1143
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.9580346237978052,
	"learning_rate": 2.1867149462594745e-06,
	"loss": 0.6192,
	"step": 1144
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.8050769261944541,
	"learning_rate": 2.178527655649868e-06,
	"loss": 0.5353,
	"step": 1145
	},
	{
	"epoch": 0.7,
	"grad_norm": 2.028704396965185,
	"learning_rate": 2.1703514495596643e-06,
	"loss": 0.565,
	"step": 1146
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.8852797512232322,
	"learning_rate": 2.1621863601101434e-06,
	"loss": 0.4691,
	"step": 1147
	},
	{
	"epoch": 0.7,
	"grad_norm": 2.0307600694751566,
	"learning_rate": 2.1540324193789177e-06,
	"loss": 0.6075,
	"step": 1148
	},
	{
	"epoch": 0.7,
	"grad_norm": 2.0635630868289274,
	"learning_rate": 2.145889659399801e-06,
	"loss": 0.5713,
	"step": 1149
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.8359324107226915,
	"learning_rate": 2.137758112162678e-06,
	"loss": 0.5419,
	"step": 1150
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.9327432699880955,
	"learning_rate": 2.1296378096133863e-06,
	"loss": 0.5219,
	"step": 1151
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.9646016130657808,
	"learning_rate": 2.1215287836535836e-06,
	"loss": 0.5865,
	"step": 1152
	},
	{
	"epoch": 0.7,
	"grad_norm": 2.053237316493875,
	"learning_rate": 2.1134310661406293e-06,
	"loss": 0.5495,
	"step": 1153
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.9224877080515406,
	"learning_rate": 2.1053446888874575e-06,
	"loss": 0.57,
	"step": 1154
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.0094429579360296,
	"learning_rate": 2.097269683662444e-06,
	"loss": 0.5966,
	"step": 1155
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.214480865585653,
	"learning_rate": 2.089206082189294e-06,
	"loss": 0.6409,
	"step": 1156
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.0300256495896516,
	"learning_rate": 2.0811539161469126e-06,
	"loss": 0.5318,
	"step": 1157
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.9501820223073412,
	"learning_rate": 2.073113217169272e-06,
	"loss": 0.5289,
	"step": 1158
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.073955162988734,
	"learning_rate": 2.065084016845301e-06,
	"loss": 0.6114,
	"step": 1159
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.2617011183013505,
	"learning_rate": 2.0570663467187556e-06,
	"loss": 0.692,
	"step": 1160
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.9412567792801219,
	"learning_rate": 2.049060238288086e-06,
	"loss": 0.5781,
	"step": 1161
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.9161885318665781,
	"learning_rate": 2.0410657230063304e-06,
	"loss": 0.4698,
	"step": 1162
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.9595900836322337,
	"learning_rate": 2.0330828322809727e-06,
	"loss": 0.5868,
	"step": 1163
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.860761169455946,
	"learning_rate": 2.025111597473836e-06,
	"loss": 0.5014,
	"step": 1164
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.9607972138295733,
	"learning_rate": 2.0171520499009457e-06,
	"loss": 0.5398,
	"step": 1165
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.8911857797620755,
	"learning_rate": 2.009204220832418e-06,
	"loss": 0.5382,
	"step": 1166
	},
	{
	"epoch": 0.71,
	"grad_norm": 2.149350473430931,
	"learning_rate": 2.0012681414923254e-06,
	"loss": 0.5554,
	"step": 1167
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.8778243908792742,
	"learning_rate": 1.993343843058585e-06,
	"loss": 0.5085,
	"step": 1168
	},
	{
	"epoch": 0.71,
	"grad_norm": 1.9294134892146952,
	"learning_rate": 1.9854313566628273e-06,
	"loss": 0.5678,
	"step": 1169
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.9503939087047788,
	"learning_rate": 1.977530713390281e-06,
	"loss": 0.5656,
	"step": 1170
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.092855618928881,
	"learning_rate": 1.9696419442796474e-06,
	"loss": 0.5589,
	"step": 1171
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.0558632332328366,
	"learning_rate": 1.9617650803229736e-06,
	"loss": 0.565,
	"step": 1172
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.8074897396978709,
	"learning_rate": 1.953900152465544e-06,
	"loss": 0.5278,
	"step": 1173
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.9979141137083714,
	"learning_rate": 1.9460471916057415e-06,
	"loss": 0.542,
	"step": 1174
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.031624720114998,
	"learning_rate": 1.9382062285949416e-06,
	"loss": 0.4827,
	"step": 1175
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.109236104508361,
	"learning_rate": 1.9303772942373846e-06,
	"loss": 0.5567,
	"step": 1176
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.2956266675459576,
	"learning_rate": 1.9225604192900488e-06,
	"loss": 0.6067,
	"step": 1177
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.9743192317750047,
	"learning_rate": 1.914755634462542e-06,
	"loss": 0.4976,
	"step": 1178
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.8028667562352623,
	"learning_rate": 1.9069629704169723e-06,
	"loss": 0.509,
	"step": 1179
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.7362668980411815,
	"learning_rate": 1.8991824577678269e-06,
	"loss": 0.5544,
	"step": 1180
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.0285534879494715,
	"learning_rate": 1.8914141270818593e-06,
	"loss": 0.4984,
	"step": 1181
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.046266381772136,
	"learning_rate": 1.8836580088779628e-06,
	"loss": 0.59,
	"step": 1182
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.9988343414891951,
	"learning_rate": 1.8759141336270486e-06,
	"loss": 0.5491,
	"step": 1183
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.0240438299435968,
	"learning_rate": 1.868182531751938e-06,
	"loss": 0.5816,
	"step": 1184
	},
	{
	"epoch": 0.72,
	"grad_norm": 2.1594937237415226,
	"learning_rate": 1.8604632336272249e-06,
	"loss": 0.5865,
	"step": 1185
	},
	{
	"epoch": 0.73,
	"grad_norm": 2.0666115681553032,
	"learning_rate": 1.8527562695791746e-06,
	"loss": 0.5231,
	"step": 1186
	},
	{
	"epoch": 0.73,
	"grad_norm": 2.0866219869375064,
	"learning_rate": 1.8450616698855938e-06,
	"loss": 0.5465,
	"step": 1187
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.9640838158081952,
	"learning_rate": 1.8373794647757105e-06,
	"loss": 0.5484,
	"step": 1188
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.8827641315498593,
	"learning_rate": 1.8297096844300638e-06,
	"loss": 0.5447,
	"step": 1189
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.9270241151498686,
	"learning_rate": 1.8220523589803808e-06,
	"loss": 0.5148,
	"step": 1190
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.8983158181788506,
	"learning_rate": 1.8144075185094523e-06,
	"loss": 0.5089,
	"step": 1191
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.9391982904773535,
	"learning_rate": 1.8067751930510258e-06,
	"loss": 0.6062,
	"step": 1192
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.8572456201220782,
	"learning_rate": 1.799155412589681e-06,
	"loss": 0.4707,
	"step": 1193
	},
	{
	"epoch": 0.73,
	"grad_norm": 2.180002124115602,
	"learning_rate": 1.7915482070607094e-06,
	"loss": 0.597,
	"step": 1194
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.8462663478460364,
	"learning_rate": 1.783953606350005e-06,
	"loss": 0.5577,
	"step": 1195
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.889638886458579,
	"learning_rate": 1.7763716402939385e-06,
	"loss": 0.519,
	"step": 1196
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.726660341693367,
	"learning_rate": 1.7688023386792452e-06,
	"loss": 0.4718,
	"step": 1197
	},
	{
	"epoch": 0.73,
	"grad_norm": 2.2128024274172655,
	"learning_rate": 1.7612457312429093e-06,
	"loss": 0.6105,
	"step": 1198
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.8977444616718881,
	"learning_rate": 1.7537018476720369e-06,
	"loss": 0.5442,
	"step": 1199
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.7605812625109447,
	"learning_rate": 1.7461707176037546e-06,
	"loss": 0.4897,
	"step": 1200
	},
	{
	"epoch": 0.73,
	"grad_norm": 2.1962948774783655,
	"learning_rate": 1.738652370625082e-06,
	"loss": 0.5795,
	"step": 1201
	},
	{
	"epoch": 0.73,
	"grad_norm": 1.8753753975602796,
	"learning_rate": 1.7311468362728163e-06,
	"loss": 0.5267,
	"step": 1202
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.2401308043999877,
	"learning_rate": 1.723654144033422e-06,
	"loss": 0.5422,
	"step": 1203
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.360182834014352,
	"learning_rate": 1.7161743233429123e-06,
	"loss": 0.5932,
	"step": 1204
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.1509906603775675,
	"learning_rate": 1.7087074035867284e-06,
	"loss": 0.5336,
	"step": 1205
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.2167606816262215,
	"learning_rate": 1.7012534140996351e-06,
	"loss": 0.6204,
	"step": 1206
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.2516401026227193,
	"learning_rate": 1.69381238416559e-06,
	"loss": 0.6229,
	"step": 1207
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.040572811584935,
	"learning_rate": 1.6863843430176464e-06,
	"loss": 0.5554,
	"step": 1208
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.001470306966103,
	"learning_rate": 1.6789693198378254e-06,
	"loss": 0.5494,
	"step": 1209
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.0804007666629434,
	"learning_rate": 1.6715673437570035e-06,
	"loss": 0.6031,
	"step": 1210
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.017960337685253,
	"learning_rate": 1.6641784438548048e-06,
	"loss": 0.5567,
	"step": 1211
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.084312076747243,
	"learning_rate": 1.6568026491594763e-06,
	"loss": 0.5529,
	"step": 1212
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.016310638065491,
	"learning_rate": 1.6494399886477859e-06,
	"loss": 0.5525,
	"step": 1213
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.8351394186785017,
	"learning_rate": 1.6420904912448942e-06,
	"loss": 0.5631,
	"step": 1214
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.978522191746191,
	"learning_rate": 1.634754185824256e-06,
	"loss": 0.5075,
	"step": 1215
	},
	{
	"epoch": 0.74,
	"grad_norm": 2.223631750342603,
	"learning_rate": 1.6274311012074984e-06,
	"loss": 0.6659,
	"step": 1216
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.9821415990981424,
	"learning_rate": 1.6201212661643045e-06,
	"loss": 0.5744,
	"step": 1217
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.9744423033984106,
	"learning_rate": 1.61282470941231e-06,
	"loss": 0.6117,
	"step": 1218
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.065211898764052,
	"learning_rate": 1.6055414596169806e-06,
	"loss": 0.5691,
	"step": 1219
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.98605861724129,
	"learning_rate": 1.5982715453915082e-06,
	"loss": 0.4985,
	"step": 1220
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.04457416568264,
	"learning_rate": 1.5910149952966898e-06,
	"loss": 0.5538,
	"step": 1221
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.0121702166230895,
	"learning_rate": 1.583771837840823e-06,
	"loss": 0.5658,
	"step": 1222
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.0092606234614694,
	"learning_rate": 1.5765421014795911e-06,
	"loss": 0.5113,
	"step": 1223
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.8935411378036877,
	"learning_rate": 1.569325814615947e-06,
	"loss": 0.507,
	"step": 1224
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.34585820804892,
	"learning_rate": 1.562123005600009e-06,
	"loss": 0.5769,
	"step": 1225
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.1528289643549234,
	"learning_rate": 1.5549337027289468e-06,
	"loss": 0.5501,
	"step": 1226
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.8301608372784568,
	"learning_rate": 1.5477579342468634e-06,
	"loss": 0.5208,
	"step": 1227
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.176141189999809,
	"learning_rate": 1.5405957283446987e-06,
	"loss": 0.6609,
	"step": 1228
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.0473489032027565,
	"learning_rate": 1.5334471131601025e-06,
	"loss": 0.5715,
	"step": 1229
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.1029826913605647,
	"learning_rate": 1.526312116777336e-06,
	"loss": 0.4786,
	"step": 1230
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.9871418869111652,
	"learning_rate": 1.5191907672271582e-06,
	"loss": 0.4602,
	"step": 1231
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.9159131882394276,
	"learning_rate": 1.5120830924867098e-06,
	"loss": 0.508,
	"step": 1232
	},
	{
	"epoch": 0.75,
	"grad_norm": 2.282250060067885,
	"learning_rate": 1.5049891204794125e-06,
	"loss": 0.5567,
	"step": 1233
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.9230524058397154,
	"learning_rate": 1.4979088790748553e-06,
	"loss": 0.5514,
	"step": 1234
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.036428797678635,
	"learning_rate": 1.4908423960886808e-06,
	"loss": 0.5909,
	"step": 1235
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.1397315181807506,
	"learning_rate": 1.4837896992824835e-06,
	"loss": 0.6168,
	"step": 1236
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.197275580787461,
	"learning_rate": 1.4767508163636968e-06,
	"loss": 0.5636,
	"step": 1237
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.9450184678272302,
	"learning_rate": 1.4697257749854815e-06,
	"loss": 0.5576,
	"step": 1238
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.708185896072239,
	"learning_rate": 1.4627146027466248e-06,
	"loss": 0.5048,
	"step": 1239
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.931851292310904,
	"learning_rate": 1.4557173271914216e-06,
	"loss": 0.6003,
	"step": 1240
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.7739213428365466,
	"learning_rate": 1.4487339758095758e-06,
	"loss": 0.4847,
	"step": 1241
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.065334796741025,
	"learning_rate": 1.4417645760360899e-06,
	"loss": 0.4995,
	"step": 1242
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.9060500200669357,
	"learning_rate": 1.4348091552511496e-06,
	"loss": 0.4772,
	"step": 1243
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.8926362460364048,
	"learning_rate": 1.427867740780028e-06,
	"loss": 0.4678,
	"step": 1244
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.230768332923383,
	"learning_rate": 1.4209403598929711e-06,
	"loss": 0.5556,
	"step": 1245
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.2444577467361078,
	"learning_rate": 1.4140270398050899e-06,
	"loss": 0.6313,
	"step": 1246
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.0449648982479385,
	"learning_rate": 1.407127807676259e-06,
	"loss": 0.5457,
	"step": 1247
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.0517370766830707,
	"learning_rate": 1.4002426906110034e-06,
	"loss": 0.539,
	"step": 1248
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.0847967027851375,
	"learning_rate": 1.3933717156583975e-06,
	"loss": 0.5256,
	"step": 1249
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.1822442085414386,
	"learning_rate": 1.386514909811958e-06,
	"loss": 0.5648,
	"step": 1250
	},
	{
	"epoch": 0.76,
	"grad_norm": 2.01409537100995,
	"learning_rate": 1.3796723000095312e-06,
	"loss": 0.5878,
	"step": 1251
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.2139379142084357,
	"learning_rate": 1.3728439131331972e-06,
	"loss": 0.5724,
	"step": 1252
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.022116537133516,
	"learning_rate": 1.366029776009159e-06,
	"loss": 0.5686,
	"step": 1253
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.3703607571589265,
	"learning_rate": 1.3592299154076344e-06,
	"loss": 0.676,
	"step": 1254
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.1435846797265317,
	"learning_rate": 1.3524443580427565e-06,
	"loss": 0.6176,
	"step": 1255
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.9476892823094056,
	"learning_rate": 1.3456731305724685e-06,
	"loss": 0.5245,
	"step": 1256
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.7780892199670588,
	"learning_rate": 1.3389162595984106e-06,
	"loss": 0.4913,
	"step": 1257
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.147087917412656,
	"learning_rate": 1.3321737716658284e-06,
	"loss": 0.5712,
	"step": 1258
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.9396671940173766,
	"learning_rate": 1.3254456932634557e-06,
	"loss": 0.5236,
	"step": 1259
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.105081861677922,
	"learning_rate": 1.3187320508234208e-06,
	"loss": 0.528,
	"step": 1260
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.119521541148906,
	"learning_rate": 1.3120328707211394e-06,
	"loss": 0.5511,
	"step": 1261
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.9411630633184176,
	"learning_rate": 1.3053481792752044e-06,
	"loss": 0.5692,
	"step": 1262
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.13953797890098,
	"learning_rate": 1.298678002747294e-06,
	"loss": 0.6083,
	"step": 1263
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.696024362037954,
	"learning_rate": 1.2920223673420584e-06,
	"loss": 0.4515,
	"step": 1264
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.8867892952085517,
	"learning_rate": 1.285381299207026e-06,
	"loss": 0.5367,
	"step": 1265
	},
	{
	"epoch": 0.77,
	"grad_norm": 2.052265073795798,
	"learning_rate": 1.2787548244324888e-06,
	"loss": 0.6345,
	"step": 1266
	},
	{
	"epoch": 0.77,
	"grad_norm": 1.9697590487372725,
	"learning_rate": 1.2721429690514142e-06,
	"loss": 0.5131,
	"step": 1267
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.950928985112725,
	"learning_rate": 1.26554575903933e-06,
	"loss": 0.5065,
	"step": 1268
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.040285812654646,
	"learning_rate": 1.2589632203142316e-06,
	"loss": 0.6118,
	"step": 1269
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.0858975965094095,
	"learning_rate": 1.2523953787364723e-06,
	"loss": 0.5986,
	"step": 1270
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.96463477151841,
	"learning_rate": 1.24584226010867e-06,
	"loss": 0.5598,
	"step": 1271
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.1145952141868434,
	"learning_rate": 1.2393038901756e-06,
	"loss": 0.5922,
	"step": 1272
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.8968425608898443,
	"learning_rate": 1.232780294624093e-06,
	"loss": 0.5095,
	"step": 1273
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.0301980708684866,
	"learning_rate": 1.22627149908294e-06,
	"loss": 0.5498,
	"step": 1274
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.8270409790198994,
	"learning_rate": 1.2197775291227887e-06,
	"loss": 0.4714,
	"step": 1275
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.0963357615007703,
	"learning_rate": 1.2132984102560374e-06,
	"loss": 0.6149,
	"step": 1276
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.9801877339079816,
	"learning_rate": 1.2068341679367452e-06,
	"loss": 0.5337,
	"step": 1277
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.980282736079062,
	"learning_rate": 1.2003848275605263e-06,
	"loss": 0.5857,
	"step": 1278
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.835028289058003,
	"learning_rate": 1.1939504144644464e-06,
	"loss": 0.5959,
	"step": 1279
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.120379341814735,
	"learning_rate": 1.1875309539269332e-06,
	"loss": 0.5015,
	"step": 1280
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.93303989363275,
	"learning_rate": 1.1811264711676661e-06,
	"loss": 0.5125,
	"step": 1281
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.973773020853456,
	"learning_rate": 1.1747369913474866e-06,
	"loss": 0.5864,
	"step": 1282
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.0447822785351994,
	"learning_rate": 1.1683625395682935e-06,
	"loss": 0.572,
	"step": 1283
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.9251270954167108,
	"learning_rate": 1.1620031408729443e-06,
	"loss": 0.5745,
	"step": 1284
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.881635576782646,
	"learning_rate": 1.1556588202451613e-06,
	"loss": 0.4638,
	"step": 1285
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.7896548110439616,
	"learning_rate": 1.1493296026094302e-06,
	"loss": 0.5252,
	"step": 1286
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.9326908202122164,
	"learning_rate": 1.1430155128309e-06,
	"loss": 0.4933,
	"step": 1287
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.9844579045400434,
	"learning_rate": 1.1367165757152905e-06,
	"loss": 0.5393,
	"step": 1288
	},
	{
	"epoch": 0.79,
	"grad_norm": 2.0830711516317573,
	"learning_rate": 1.1304328160087935e-06,
	"loss": 0.6165,
	"step": 1289
	},
	{
	"epoch": 0.79,
	"grad_norm": 2.0820587210774875,
	"learning_rate": 1.12416425839797e-06,
	"loss": 0.5735,
	"step": 1290
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.9942738518131777,
	"learning_rate": 1.1179109275096628e-06,
	"loss": 0.5331,
	"step": 1291
	},
	{
	"epoch": 0.79,
	"grad_norm": 2.09146135494079,
	"learning_rate": 1.1116728479108884e-06,
	"loss": 0.4912,
	"step": 1292
	},
	{
	"epoch": 0.79,
	"grad_norm": 2.0181223861753685,
	"learning_rate": 1.105450044108753e-06,
	"loss": 0.5767,
	"step": 1293
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.7770312565830746,
	"learning_rate": 1.099242540550347e-06,
	"loss": 0.5222,
	"step": 1294
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.9504760795862741,
	"learning_rate": 1.0930503616226495e-06,
	"loss": 0.605,
	"step": 1295
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.8039286890109292,
	"learning_rate": 1.0868735316524387e-06,
	"loss": 0.439,
	"step": 1296
	},
	{
	"epoch": 0.79,
	"grad_norm": 1.8781587995004858,
	"learning_rate": 1.0807120749061923e-06,
	"loss": 0.4785,
	"step": 1297
	},
	{
	"epoch": 0.79,
	"grad_norm": 2.1386175502459466,
	"learning_rate": 1.0745660155899878e-06,
	"loss": 0.6047,
	"step": 1298
	},
	{
	"epoch": 0.79,
	"grad_norm": 2.0105202575538255,
	"learning_rate": 1.0684353778494166e-06,
	"loss": 0.6412,
	"step": 1299
	},
	{
	"epoch": 0.79,
	"grad_norm": 2.110747721557068,
	"learning_rate": 1.0623201857694837e-06,
	"loss": 0.5084,
	"step": 1300
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.0266382461097576,
	"learning_rate": 1.056220463374511e-06,
	"loss": 0.5513,
	"step": 1301
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.941131403268958,
	"learning_rate": 1.0501362346280492e-06,
	"loss": 0.5362,
	"step": 1302
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.179036766615289,
	"learning_rate": 1.0440675234327774e-06,
	"loss": 0.5566,
	"step": 1303
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.9388634477990079,
	"learning_rate": 1.0380143536304133e-06,
	"loss": 0.5316,
	"step": 1304
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.9303281784663635,
	"learning_rate": 1.0319767490016196e-06,
	"loss": 0.5194,
	"step": 1305
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.3880703426336356,
	"learning_rate": 1.0259547332659065e-06,
	"loss": 0.7486,
	"step": 1306
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.9926065703927103,
	"learning_rate": 1.0199483300815421e-06,
	"loss": 0.527,
	"step": 1307
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.9341158574219506,
	"learning_rate": 1.0139575630454618e-06,
	"loss": 0.5403,
	"step": 1308
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.8567155488677838,
	"learning_rate": 1.0079824556931655e-06,
	"loss": 0.548,
	"step": 1309
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.0404242620951436,
	"learning_rate": 1.0020230314986395e-06,
	"loss": 0.498,
	"step": 1310
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.0107577837327457,
	"learning_rate": 9.960793138742503e-07,
	"loss": 0.58,
	"step": 1311
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.764122033295333,
	"learning_rate": 9.901513261706652e-07,
	"loss": 0.4909,
	"step": 1312
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.1074644373274225,
	"learning_rate": 9.84239091676748e-07,
	"loss": 0.5358,
	"step": 1313
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.8835155965933714,
	"learning_rate": 9.783426336194807e-07,
	"loss": 0.5683,
	"step": 1314
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.9460151844862306,
	"learning_rate": 9.724619751638598e-07,
	"loss": 0.5901,
	"step": 1315
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.9960692765948507,
	"learning_rate": 9.665971394128137e-07,
	"loss": 0.5299,
	"step": 1316
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.904429551506709,
	"learning_rate": 9.607481494071107e-07,
	"loss": 0.5077,
	"step": 1317
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.0807551324391618,
	"learning_rate": 9.549150281252633e-07,
	"loss": 0.4932,
	"step": 1318
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.880996194999353,
	"learning_rate": 9.490977984834454e-07,
	"loss": 0.5256,
	"step": 1319
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.292702889415888,
	"learning_rate": 9.432964833353947e-07,
	"loss": 0.5633,
	"step": 1320
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.8157124323149034,
	"learning_rate": 9.375111054723301e-07,
	"loss": 0.5443,
	"step": 1321
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.997225759296561,
	"learning_rate": 9.317416876228591e-07,
	"loss": 0.6053,
	"step": 1322
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.2930834747649187,
	"learning_rate": 9.259882524528835e-07,
	"loss": 0.647,
	"step": 1323
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.7855930884686897,
	"learning_rate": 9.202508225655216e-07,
	"loss": 0.4861,
	"step": 1324
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.041666912419482,
	"learning_rate": 9.145294205010058e-07,
	"loss": 0.5105,
	"step": 1325
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.1259688035148496,
	"learning_rate": 9.088240687366073e-07,
	"loss": 0.6038,
	"step": 1326
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.0323306545521436,
	"learning_rate": 9.0313478968654e-07,
	"loss": 0.5853,
	"step": 1327
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.044128726826921,
	"learning_rate": 8.974616057018709e-07,
	"loss": 0.5153,
	"step": 1328
	},
	{
	"epoch": 0.81,
	"grad_norm": 1.944192337336169,
	"learning_rate": 8.918045390704383e-07,
	"loss": 0.5475,
	"step": 1329
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.062636307328745,
	"learning_rate": 8.861636120167632e-07,
	"loss": 0.5959,
	"step": 1330
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.1486851598365946,
	"learning_rate": 8.805388467019549e-07,
	"loss": 0.5959,
	"step": 1331
	},
	{
	"epoch": 0.81,
	"grad_norm": 2.2040420193997483,
	"learning_rate": 8.749302652236341e-07,
	"loss": 0.6322,
	"step": 1332
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.20406327847528,
	"learning_rate": 8.693378896158377e-07,
	"loss": 0.6114,
	"step": 1333
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.1795279212664886,
	"learning_rate": 8.637617418489386e-07,
	"loss": 0.5828,
	"step": 1334
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.041352967900095,
	"learning_rate": 8.582018438295553e-07,
	"loss": 0.5139,
	"step": 1335
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.0047043727475167,
	"learning_rate": 8.52658217400466e-07,
	"loss": 0.5492,
	"step": 1336
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.9340395107266044,
	"learning_rate": 8.471308843405252e-07,
	"loss": 0.5404,
	"step": 1337
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.9443767009288708,
	"learning_rate": 8.416198663645775e-07,
	"loss": 0.6145,
	"step": 1338
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.0047578158470385,
	"learning_rate": 8.361251851233687e-07,
	"loss": 0.5147,
	"step": 1339
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.9775796297395034,
	"learning_rate": 8.306468622034663e-07,
	"loss": 0.4914,
	"step": 1340
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.0350740385108783,
	"learning_rate": 8.251849191271727e-07,
	"loss": 0.5988,
	"step": 1341
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.810070925909079,
	"learning_rate": 8.197393773524359e-07,
	"loss": 0.4841,
	"step": 1342
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.9563215783299615,
	"learning_rate": 8.143102582727741e-07,
	"loss": 0.5356,
	"step": 1343
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.8199362899555016,
	"learning_rate": 8.088975832171819e-07,
	"loss": 0.4712,
	"step": 1344
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.309704865979389,
	"learning_rate": 8.035013734500557e-07,
	"loss": 0.6218,
	"step": 1345
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.0272627809313923,
	"learning_rate": 7.981216501711053e-07,
	"loss": 0.5838,
	"step": 1346
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.0114764889056613,
	"learning_rate": 7.927584345152672e-07,
	"loss": 0.5609,
	"step": 1347
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.9745269009451916,
	"learning_rate": 7.874117475526305e-07,
	"loss": 0.4989,
	"step": 1348
	},
	{
	"epoch": 0.82,
	"grad_norm": 2.253717109150984,
	"learning_rate": 7.820816102883477e-07,
	"loss": 0.6223,
	"step": 1349
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.098840934097801,
	"learning_rate": 7.767680436625513e-07,
	"loss": 0.5429,
	"step": 1350
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.9010834528450948,
	"learning_rate": 7.714710685502764e-07,
	"loss": 0.5055,
	"step": 1351
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.0272090911880176,
	"learning_rate": 7.661907057613766e-07,
	"loss": 0.5749,
	"step": 1352
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.1091229605800645,
	"learning_rate": 7.609269760404392e-07,
	"loss": 0.5019,
	"step": 1353
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.9509717065137873,
	"learning_rate": 7.556799000667097e-07,
	"loss": 0.4808,
	"step": 1354
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.873704324767879,
	"learning_rate": 7.504494984540033e-07,
	"loss": 0.4928,
	"step": 1355
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.987007022534763,
	"learning_rate": 7.452357917506309e-07,
	"loss": 0.5312,
	"step": 1356
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.1167223759818503,
	"learning_rate": 7.40038800439315e-07,
	"loss": 0.5532,
	"step": 1357
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.8820691821813884,
	"learning_rate": 7.348585449371076e-07,
	"loss": 0.5615,
	"step": 1358
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.9800556013383923,
	"learning_rate": 7.296950455953145e-07,
	"loss": 0.5546,
	"step": 1359
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.278698097867691,
	"learning_rate": 7.245483226994094e-07,
	"loss": 0.6373,
	"step": 1360
	},
	{
	"epoch": 0.83,
	"grad_norm": 1.8404133278696633,
	"learning_rate": 7.19418396468961e-07,
	"loss": 0.5212,
	"step": 1361
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.082478736477018,
	"learning_rate": 7.14305287057549e-07,
	"loss": 0.5405,
	"step": 1362
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.274543877989927,
	"learning_rate": 7.092090145526842e-07,
	"loss": 0.5788,
	"step": 1363
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.1975775615791284,
	"learning_rate": 7.041295989757352e-07,
	"loss": 0.5705,
	"step": 1364
	},
	{
	"epoch": 0.83,
	"grad_norm": 2.3957382130192744,
	"learning_rate": 6.990670602818412e-07,
	"loss": 0.5319,
	"step": 1365
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.9572975655214617,
	"learning_rate": 6.940214183598431e-07,
	"loss": 0.4977,
	"step": 1366
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.0343363601457796,
	"learning_rate": 6.889926930321961e-07,
	"loss": 0.5601,
	"step": 1367
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.2173297633145497,
	"learning_rate": 6.839809040549017e-07,
	"loss": 0.5652,
	"step": 1368
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.9898806046683502,
	"learning_rate": 6.789860711174184e-07,
	"loss": 0.5604,
	"step": 1369
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.755937949976552,
	"learning_rate": 6.740082138425963e-07,
	"loss": 0.5268,
	"step": 1370
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.059314359247024,
	"learning_rate": 6.690473517865925e-07,
	"loss": 0.5516,
	"step": 1371
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.921092025716401,
	"learning_rate": 6.641035044387939e-07,
	"loss": 0.5282,
	"step": 1372
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.1611589441440904,
	"learning_rate": 6.591766912217456e-07,
	"loss": 0.5721,
	"step": 1373
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.07998470722096,
	"learning_rate": 6.542669314910732e-07,
	"loss": 0.616,
	"step": 1374
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.8276327443296445,
	"learning_rate": 6.493742445354012e-07,
	"loss": 0.4733,
	"step": 1375
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.0470888106096568,
	"learning_rate": 6.44498649576285e-07,
	"loss": 0.6115,
	"step": 1376
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.930085414769607,
	"learning_rate": 6.39640165768129e-07,
	"loss": 0.5524,
	"step": 1377
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.992132029715179,
	"learning_rate": 6.347988121981175e-07,
	"loss": 0.5116,
	"step": 1378
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.9749787878274394,
	"learning_rate": 6.299746078861346e-07,
	"loss": 0.5243,
	"step": 1379
	},
	{
	"epoch": 0.84,
	"grad_norm": 2.1338239619198003,
	"learning_rate": 6.251675717846905e-07,
	"loss": 0.6601,
	"step": 1380
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.9037772081403355,
	"learning_rate": 6.203777227788493e-07,
	"loss": 0.537,
	"step": 1381
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.982734111031249,
	"learning_rate": 6.156050796861551e-07,
	"loss": 0.5447,
	"step": 1382
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.9647030662707663,
	"learning_rate": 6.108496612565507e-07,
	"loss": 0.5572,
	"step": 1383
	},
	{
	"epoch": 0.85,
	"grad_norm": 2.20503978552407,
	"learning_rate": 6.061114861723144e-07,
	"loss": 0.5847,
	"step": 1384
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.8985370142150249,
	"learning_rate": 6.013905730479824e-07,
	"loss": 0.5245,
	"step": 1385
	},
	{
	"epoch": 0.85,
	"grad_norm": 2.0108479395190204,
	"learning_rate": 5.966869404302705e-07,
	"loss": 0.4869,
	"step": 1386
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.6778892025630097,
	"learning_rate": 5.920006067980105e-07,
	"loss": 0.4713,
	"step": 1387
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.9622392449880077,
	"learning_rate": 5.873315905620685e-07,
	"loss": 0.5619,
	"step": 1388
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.8986949233718315,
	"learning_rate": 5.826799100652802e-07,
	"loss": 0.5944,
	"step": 1389
	},
	{
	"epoch": 0.85,
	"grad_norm": 2.0094350555686726,
	"learning_rate": 5.780455835823767e-07,
	"loss": 0.6029,
	"step": 1390
	},
	{
	"epoch": 0.85,
	"grad_norm": 2.01549443606308,
	"learning_rate": 5.734286293199065e-07,
	"loss": 0.5168,
	"step": 1391
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.9026568713715968,
	"learning_rate": 5.688290654161738e-07,
	"loss": 0.4661,
	"step": 1392
	},
	{
	"epoch": 0.85,
	"grad_norm": 2.090067485392997,
	"learning_rate": 5.642469099411619e-07,
	"loss": 0.5773,
	"step": 1393
	},
	{
	"epoch": 0.85,
	"grad_norm": 2.041801412484887,
	"learning_rate": 5.596821808964592e-07,
	"loss": 0.5174,
	"step": 1394
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.8047865906862048,
	"learning_rate": 5.551348962151965e-07,
	"loss": 0.5096,
	"step": 1395
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.7749522813672998,
	"learning_rate": 5.506050737619706e-07,
	"loss": 0.4149,
	"step": 1396
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.9669167109351449,
	"learning_rate": 5.460927313327746e-07,
	"loss": 0.5318,
	"step": 1397
	},
	{
	"epoch": 0.85,
	"grad_norm": 2.0851119947571397,
	"learning_rate": 5.415978866549309e-07,
	"loss": 0.5206,
	"step": 1398
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.770305337825321,
	"learning_rate": 5.371205573870169e-07,
	"loss": 0.5146,
	"step": 1399
	},
	{
	"epoch": 0.86,
	"grad_norm": 2.0529803134924793,
	"learning_rate": 5.326607611188023e-07,
	"loss": 0.5925,
	"step": 1400
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.8408476413034762,
	"learning_rate": 5.282185153711739e-07,
	"loss": 0.5419,
	"step": 1401
	},
	{
	"epoch": 0.86,
	"grad_norm": 2.1277879535451887,
	"learning_rate": 5.237938375960683e-07,
	"loss": 0.5522,
	"step": 1402
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.798009767692874,
	"learning_rate": 5.19386745176405e-07,
	"loss": 0.4908,
	"step": 1403
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.9218825894337166,
	"learning_rate": 5.149972554260191e-07,
	"loss": 0.5907,
	"step": 1404
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.7135646036349135,
	"learning_rate": 5.106253855895865e-07,
	"loss": 0.5325,
	"step": 1405
	},
	{
	"epoch": 0.86,
	"grad_norm": 2.0051336782599916,
	"learning_rate": 5.062711528425657e-07,
	"loss": 0.552,
	"step": 1406
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.823540052411061,
	"learning_rate": 5.019345742911241e-07,
	"loss": 0.5279,
	"step": 1407
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.9498421802995456,
	"learning_rate": 4.976156669720706e-07,
	"loss": 0.4684,
	"step": 1408
	},
	{
	"epoch": 0.86,
	"grad_norm": 2.0510089396163464,
	"learning_rate": 4.933144478527929e-07,
	"loss": 0.5733,
	"step": 1409
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.718921166851957,
	"learning_rate": 4.890309338311861e-07,
	"loss": 0.4503,
	"step": 1410
	},
	{
	"epoch": 0.86,
	"grad_norm": 2.066841848267666,
	"learning_rate": 4.847651417355914e-07,
	"loss": 0.5523,
	"step": 1411
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.935126073825529,
	"learning_rate": 4.805170883247228e-07,
	"loss": 0.5709,
	"step": 1412
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.7529161435960845,
	"learning_rate": 4.7628679028761114e-07,
	"loss": 0.4784,
	"step": 1413
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.9418531589165946,
	"learning_rate": 4.720742642435272e-07,
	"loss": 0.5417,
	"step": 1414
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.256822591186601,
	"learning_rate": 4.678795267419267e-07,
	"loss": 0.5787,
	"step": 1415
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.7848727741194108,
	"learning_rate": 4.63702594262378e-07,
	"loss": 0.4068,
	"step": 1416
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.1119584563313314,
	"learning_rate": 4.595434832145013e-07,
	"loss": 0.6635,
	"step": 1417
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.047030257561458,
	"learning_rate": 4.554022099379035e-07,
	"loss": 0.5171,
	"step": 1418
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.9273060718802395,
	"learning_rate": 4.5127879070211213e-07,
	"loss": 0.5597,
	"step": 1419
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.1177945388342727,
	"learning_rate": 4.471732417065144e-07,
	"loss": 0.5861,
	"step": 1420
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.1663172290104002,
	"learning_rate": 4.430855790802896e-07,
	"loss": 0.5851,
	"step": 1421
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.1902483639800887,
	"learning_rate": 4.3901581888235067e-07,
	"loss": 0.5485,
	"step": 1422
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.27940192829255,
	"learning_rate": 4.3496397710127756e-07,
	"loss": 0.5683,
	"step": 1423
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.6787266853728975,
	"learning_rate": 4.3093006965525483e-07,
	"loss": 0.4487,
	"step": 1424
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.2173461979846554,
	"learning_rate": 4.2691411239201007e-07,
	"loss": 0.6181,
	"step": 1425
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.0362219497157663,
	"learning_rate": 4.2291612108875226e-07,
	"loss": 0.5827,
	"step": 1426
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.984683976482598,
	"learning_rate": 4.189361114521062e-07,
	"loss": 0.5687,
	"step": 1427
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.010835056818883,
	"learning_rate": 4.149740991180573e-07,
	"loss": 0.5484,
	"step": 1428
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.113774248995943,
	"learning_rate": 4.1103009965188125e-07,
	"loss": 0.598,
	"step": 1429
	},
	{
	"epoch": 0.87,
	"grad_norm": 2.0151775021994385,
	"learning_rate": 4.0710412854809255e-07,
	"loss": 0.4896,
	"step": 1430
	},
	{
	"epoch": 0.87,
	"grad_norm": 1.9514989153137001,
	"learning_rate": 4.0319620123037697e-07,
	"loss": 0.5659,
	"step": 1431
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.07614867510403,
	"learning_rate": 3.9930633305153177e-07,
	"loss": 0.4641,
	"step": 1432
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.2405590611515933,
	"learning_rate": 3.9543453929340834e-07,
	"loss": 0.5112,
	"step": 1433
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.14510497102877,
	"learning_rate": 3.9158083516685043e-07,
	"loss": 0.6867,
	"step": 1434
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.8206597677309004,
	"learning_rate": 3.8774523581163236e-07,
	"loss": 0.5024,
	"step": 1435
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.9730244343440717,
	"learning_rate": 3.8392775629640275e-07,
	"loss": 0.6115,
	"step": 1436
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.0113186406624677,
	"learning_rate": 3.80128411618626e-07,
	"loss": 0.5308,
	"step": 1437
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.291565453318076,
	"learning_rate": 3.763472167045179e-07,
	"loss": 0.5849,
	"step": 1438
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.865162322112732,
	"learning_rate": 3.72584186408993e-07,
	"loss": 0.4345,
	"step": 1439
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.7806466246249277,
	"learning_rate": 3.688393355156022e-07,
	"loss": 0.4976,
	"step": 1440
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.837932154589643,
	"learning_rate": 3.6511267873647725e-07,
	"loss": 0.5382,
	"step": 1441
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.900042396349841,
	"learning_rate": 3.614042307122728e-07,
	"loss": 0.5135,
	"step": 1442
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.0377705675722435,
	"learning_rate": 3.577140060121059e-07,
	"loss": 0.6439,
	"step": 1443
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.9812798873664048,
	"learning_rate": 3.54042019133502e-07,
	"loss": 0.518,
	"step": 1444
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.9801105899864375,
	"learning_rate": 3.5038828450233874e-07,
	"loss": 0.5513,
	"step": 1445
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.787558486401592,
	"learning_rate": 3.4675281647278346e-07,
	"loss": 0.4717,
	"step": 1446
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.7350169337556531,
	"learning_rate": 3.431356293272442e-07,
	"loss": 0.4517,
	"step": 1447
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.9036391339274414,
	"learning_rate": 3.395367372763092e-07,
	"loss": 0.4952,
	"step": 1448
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.1326612564420078,
	"learning_rate": 3.3595615445869033e-07,
	"loss": 0.665,
	"step": 1449
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.9766629375982392,
	"learning_rate": 3.3239389494117316e-07,
	"loss": 0.4712,
	"step": 1450
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.085629103255329,
	"learning_rate": 3.288499727185529e-07,
	"loss": 0.5991,
	"step": 1451
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.9952308886565442,
	"learning_rate": 3.253244017135876e-07,
	"loss": 0.5492,
	"step": 1452
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.9823172713501394,
	"learning_rate": 3.218171957769411e-07,
	"loss": 0.5133,
	"step": 1453
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.243504252708836,
	"learning_rate": 3.183283686871236e-07,
	"loss": 0.5375,
	"step": 1454
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.160814779756097,
	"learning_rate": 3.1485793415044483e-07,
	"loss": 0.5441,
	"step": 1455
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.1575822253594397,
	"learning_rate": 3.1140590580095777e-07,
	"loss": 0.5261,
	"step": 1456
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.072867103693364,
	"learning_rate": 3.079722972004007e-07,
	"loss": 0.528,
	"step": 1457
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.067717194924602,
	"learning_rate": 3.0455712183815044e-07,
	"loss": 0.5705,
	"step": 1458
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.2018910614851053,
	"learning_rate": 3.011603931311652e-07,
	"loss": 0.6087,
	"step": 1459
	},
	{
	"epoch": 0.89,
	"grad_norm": 1.799733514347377,
	"learning_rate": 2.9778212442393373e-07,
	"loss": 0.3817,
	"step": 1460
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.0297829733559096,
	"learning_rate": 2.9442232898842184e-07,
	"loss": 0.5627,
	"step": 1461
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.1127229638235314,
	"learning_rate": 2.910810200240205e-07,
	"loss": 0.6539,
	"step": 1462
	},
	{
	"epoch": 0.89,
	"grad_norm": 2.2173549226318148,
	"learning_rate": 2.877582106574961e-07,
	"loss": 0.6292,
	"step": 1463
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.7665892894148392,
	"learning_rate": 2.8445391394293364e-07,
	"loss": 0.536,
	"step": 1464
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.9459724264850673,
	"learning_rate": 2.811681428616919e-07,
	"loss": 0.506,
	"step": 1465
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.055519305865498,
	"learning_rate": 2.779009103223473e-07,
	"loss": 0.5743,
	"step": 1466
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.927080536920677,
	"learning_rate": 2.746522291606463e-07,
	"loss": 0.5181,
	"step": 1467
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.04096009635488,
	"learning_rate": 2.7142211213945224e-07,
	"loss": 0.564,
	"step": 1468
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.9317429342953267,
	"learning_rate": 2.682105719486994e-07,
	"loss": 0.5655,
	"step": 1469
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.1614143475246803,
	"learning_rate": 2.65017621205339e-07,
	"loss": 0.5385,
	"step": 1470
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.9518158323053523,
	"learning_rate": 2.61843272453291e-07,
	"loss": 0.5292,
	"step": 1471
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.988402222876475,
	"learning_rate": 2.5868753816339574e-07,
	"loss": 0.4855,
	"step": 1472
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.2461460760928973,
	"learning_rate": 2.5555043073336394e-07,
	"loss": 0.545,
	"step": 1473
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.016749712197434,
	"learning_rate": 2.524319624877275e-07,
	"loss": 0.5487,
	"step": 1474
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.8374656172629769,
	"learning_rate": 2.4933214567779473e-07,
	"loss": 0.4698,
	"step": 1475
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.1647972903983224,
	"learning_rate": 2.462509924815948e-07,
	"loss": 0.6418,
	"step": 1476
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.9502593053235608,
	"learning_rate": 2.4318851500383823e-07,
	"loss": 0.5,
	"step": 1477
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.9211282369606173,
	"learning_rate": 2.4014472527586483e-07,
	"loss": 0.4927,
	"step": 1478
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.329177425501773,
	"learning_rate": 2.3711963525559544e-07,
	"loss": 0.5993,
	"step": 1479
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.225800165473701,
	"learning_rate": 2.3411325682748843e-07,
	"loss": 0.6954,
	"step": 1480
	},
	{
	"epoch": 0.91,
	"grad_norm": 2.0522726914562703,
	"learning_rate": 2.3112560180249154e-07,
	"loss": 0.5618,
	"step": 1481
	},
	{
	"epoch": 0.91,
	"grad_norm": 2.1168420702658657,
	"learning_rate": 2.2815668191799255e-07,
	"loss": 0.5674,
	"step": 1482
	},
	{
	"epoch": 0.91,
	"grad_norm": 2.032866002096309,
	"learning_rate": 2.2520650883777917e-07,
	"loss": 0.5903,
	"step": 1483
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.927079943417791,
	"learning_rate": 2.222750941519869e-07,
	"loss": 0.5379,
	"step": 1484
	},
	{
	"epoch": 0.91,
	"grad_norm": 2.230233104141958,
	"learning_rate": 2.193624493770591e-07,
	"loss": 0.5362,
	"step": 1485
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.9871866256133242,
	"learning_rate": 2.1646858595569754e-07,
	"loss": 0.5402,
	"step": 1486
	},
	{
	"epoch": 0.91,
	"grad_norm": 2.0451780616189827,
	"learning_rate": 2.135935152568186e-07,
	"loss": 0.5671,
	"step": 1487
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.9066201288251257,
	"learning_rate": 2.107372485755105e-07,
	"loss": 0.5467,
	"step": 1488
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.797950359009013,
	"learning_rate": 2.0789979713298714e-07,
	"loss": 0.5164,
	"step": 1489
	},
	{
	"epoch": 0.91,
	"grad_norm": 2.071072453128202,
	"learning_rate": 2.0508117207654276e-07,
	"loss": 0.5991,
	"step": 1490
	},
	{
	"epoch": 0.91,
	"grad_norm": 2.317654978785418,
	"learning_rate": 2.0228138447951128e-07,
	"loss": 0.6293,
	"step": 1491
	},
	{
	"epoch": 0.91,
	"grad_norm": 2.053251641022129,
	"learning_rate": 1.9950044534122138e-07,
	"loss": 0.5853,
	"step": 1492
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.971312933014048,
	"learning_rate": 1.9673836558695148e-07,
	"loss": 0.4732,
	"step": 1493
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.9713907215979547,
	"learning_rate": 1.9399515606789098e-07,
	"loss": 0.6066,
	"step": 1494
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.9568482450287366,
	"learning_rate": 1.9127082756109138e-07,
	"loss": 0.547,
	"step": 1495
	},
	{
	"epoch": 0.91,
	"grad_norm": 1.7163468064474119,
	"learning_rate": 1.8856539076943126e-07,
	"loss": 0.3999,
	"step": 1496
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.9178630187217227,
	"learning_rate": 1.858788563215702e-07,
	"loss": 0.5042,
	"step": 1497
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.127461173898097,
	"learning_rate": 1.8321123477190506e-07,
	"loss": 0.6439,
	"step": 1498
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.231384706660567,
	"learning_rate": 1.8056253660053258e-07,
	"loss": 0.5077,
	"step": 1499
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.9635997200687012,
	"learning_rate": 1.7793277221320794e-07,
	"loss": 0.5042,
	"step": 1500
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.073065458571614,
	"learning_rate": 1.7532195194129964e-07,
	"loss": 0.5212,
	"step": 1501
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.977411836335037,
	"learning_rate": 1.7273008604175301e-07,
	"loss": 0.5035,
	"step": 1502
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.9442884403854808,
	"learning_rate": 1.7015718469705066e-07,
	"loss": 0.5649,
	"step": 1503
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.9764790370004715,
	"learning_rate": 1.6760325801516597e-07,
	"loss": 0.5255,
	"step": 1504
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.9950729966418053,
	"learning_rate": 1.6506831602953298e-07,
	"loss": 0.5285,
	"step": 1505
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.876091437155584,
	"learning_rate": 1.625523686989977e-07,
	"loss": 0.4915,
	"step": 1506
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.1698152647396465,
	"learning_rate": 1.6005542590778521e-07,
	"loss": 0.6394,
	"step": 1507
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.9390084511570913,
	"learning_rate": 1.5757749746546037e-07,
	"loss": 0.5461,
	"step": 1508
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.0186157583922135,
	"learning_rate": 1.5511859310688326e-07,
	"loss": 0.5515,
	"step": 1509
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.908132809961028,
	"learning_rate": 1.5267872249217997e-07,
	"loss": 0.4557,
	"step": 1510
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.189140445691145,
	"learning_rate": 1.5025789520669688e-07,
	"loss": 0.5904,
	"step": 1511
	},
	{
	"epoch": 0.92,
	"grad_norm": 2.1203241389390257,
	"learning_rate": 1.4785612076096856e-07,
	"loss": 0.5698,
	"step": 1512
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.8864144078816145,
	"learning_rate": 1.454734085906756e-07,
	"loss": 0.5211,
	"step": 1513
	},
	{
	"epoch": 0.93,
	"grad_norm": 2.0640726129454867,
	"learning_rate": 1.4310976805661237e-07,
	"loss": 0.534,
	"step": 1514
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.9593391676293495,
	"learning_rate": 1.407652084446459e-07,
	"loss": 0.5575,
	"step": 1515
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.9956718882503213,
	"learning_rate": 1.3843973896568275e-07,
	"loss": 0.4995,
	"step": 1516
	},
	{
	"epoch": 0.93,
	"grad_norm": 2.0309484325202027,
	"learning_rate": 1.3613336875563045e-07,
	"loss": 0.5561,
	"step": 1517
	},
	{
	"epoch": 0.93,
	"grad_norm": 2.2977806815622808,
	"learning_rate": 1.338461068753627e-07,
	"loss": 0.6895,
	"step": 1518
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.9903192519492166,
	"learning_rate": 1.3157796231068497e-07,
	"loss": 0.5644,
	"step": 1519
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.9448808087386893,
	"learning_rate": 1.293289439722961e-07,
	"loss": 0.5146,
	"step": 1520
	},
	{
	"epoch": 0.93,
	"grad_norm": 2.115645901357327,
	"learning_rate": 1.2709906069575561e-07,
	"loss": 0.5702,
	"step": 1521
	},
	{
	"epoch": 0.93,
	"grad_norm": 2.1808080246002457,
	"learning_rate": 1.2488832124144923e-07,
	"loss": 0.4805,
	"step": 1522
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.8228170984929375,
	"learning_rate": 1.2269673429455287e-07,
	"loss": 0.4851,
	"step": 1523
	},
	{
	"epoch": 0.93,
	"grad_norm": 2.038456785853388,
	"learning_rate": 1.2052430846499984e-07,
	"loss": 0.5771,
	"step": 1524
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.8904101603890644,
	"learning_rate": 1.183710522874454e-07,
	"loss": 0.4813,
	"step": 1525
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.7215684414215477,
	"learning_rate": 1.1623697422123603e-07,
	"loss": 0.4418,
	"step": 1526
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.949814139587883,
	"learning_rate": 1.1412208265037417e-07,
	"loss": 0.4467,
	"step": 1527
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.989698073002338,
	"learning_rate": 1.1202638588348413e-07,
	"loss": 0.479,
	"step": 1528
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.9796631752851332,
	"learning_rate": 1.0994989215378227e-07,
	"loss": 0.6001,
	"step": 1529
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.0989381422150837,
	"learning_rate": 1.0789260961904357e-07,
	"loss": 0.5106,
	"step": 1530
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.971183598874908,
	"learning_rate": 1.0585454636156788e-07,
	"loss": 0.5654,
	"step": 1531
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.8203580247750317,
	"learning_rate": 1.0383571038815155e-07,
	"loss": 0.4136,
	"step": 1532
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.1265452345564264,
	"learning_rate": 1.0183610963005298e-07,
	"loss": 0.6466,
	"step": 1533
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.9020416641784,
	"learning_rate": 9.98557519429616e-08,
	"loss": 0.5149,
	"step": 1534
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.9565333994726395,
	"learning_rate": 9.789464510697011e-08,
	"loss": 0.6182,
	"step": 1535
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.192339437616818,
	"learning_rate": 9.595279682654002e-08,
	"loss": 0.5793,
	"step": 1536
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.752208514931023,
	"learning_rate": 9.40302147304739e-08,
	"loss": 0.4573,
	"step": 1537
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.9487144688198685,
	"learning_rate": 9.212690637188492e-08,
	"loss": 0.5045,
	"step": 1538
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.1355012550891095,
	"learning_rate": 9.024287922816566e-08,
	"loss": 0.5376,
	"step": 1539
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.830404039518353,
	"learning_rate": 8.83781407009604e-08,
	"loss": 0.5084,
	"step": 1540
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.0061575400005927,
	"learning_rate": 8.653269811613685e-08,
	"loss": 0.5405,
	"step": 1541
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.9051869282056297,
	"learning_rate": 8.4706558723755e-08,
	"loss": 0.4705,
	"step": 1542
	},
	{
	"epoch": 0.94,
	"grad_norm": 1.970236377135854,
	"learning_rate": 8.289972969803884e-08,
	"loss": 0.4761,
	"step": 1543
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.393702968269512,
	"learning_rate": 8.111221813735137e-08,
	"loss": 0.5913,
	"step": 1544
	},
	{
	"epoch": 0.94,
	"grad_norm": 2.1643166252959807,
	"learning_rate": 7.934403106416245e-08,
	"loss": 0.6399,
	"step": 1545
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.24965238428619,
	"learning_rate": 7.759517542502426e-08,
	"loss": 0.5946,
	"step": 1546
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.0038056323845663,
	"learning_rate": 7.586565809054258e-08,
	"loss": 0.5606,
	"step": 1547
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.1007936583122397,
	"learning_rate": 7.415548585534949e-08,
	"loss": 0.6222,
	"step": 1548
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.0990617623271497,
	"learning_rate": 7.246466543807951e-08,
	"loss": 0.6033,
	"step": 1549
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.235834211479321,
	"learning_rate": 7.0793203481338e-08,
	"loss": 0.5658,
	"step": 1550
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.0971634187847843,
	"learning_rate": 6.914110655168005e-08,
	"loss": 0.5197,
	"step": 1551
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.2723168272777845,
	"learning_rate": 6.750838113958381e-08,
	"loss": 0.5444,
	"step": 1552
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.14031105890706,
	"learning_rate": 6.589503365941996e-08,
	"loss": 0.5484,
	"step": 1553
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.9836284579510188,
	"learning_rate": 6.430107044943512e-08,
	"loss": 0.5281,
	"step": 1554
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.8255909265594834,
	"learning_rate": 6.272649777171902e-08,
	"loss": 0.4866,
	"step": 1555
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.107443031046224,
	"learning_rate": 6.117132181218454e-08,
	"loss": 0.5199,
	"step": 1556
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.1682405735610626,
	"learning_rate": 5.963554868054167e-08,
	"loss": 0.539,
	"step": 1557
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.24775315981034,
	"learning_rate": 5.8119184410274085e-08,
	"loss": 0.5139,
	"step": 1558
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.998700285054948,
	"learning_rate": 5.662223495861596e-08,
	"loss": 0.5518,
	"step": 1559
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.006720101430102,
	"learning_rate": 5.5144706206525235e-08,
	"loss": 0.5034,
	"step": 1560
	},
	{
	"epoch": 0.95,
	"grad_norm": 1.9240681602880376,
	"learning_rate": 5.368660395866643e-08,
	"loss": 0.5566,
	"step": 1561
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.367451906830005,
	"learning_rate": 5.2247933943382344e-08,
	"loss": 0.6171,
	"step": 1562
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.9591190023164184,
	"learning_rate": 5.0828701812674074e-08,
	"loss": 0.5367,
	"step": 1563
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.0598213561773577,
	"learning_rate": 4.94289131421799e-08,
	"loss": 0.5737,
	"step": 1564
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.0711836264717634,
	"learning_rate": 4.804857343114977e-08,
	"loss": 0.5522,
	"step": 1565
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.803888225967423,
	"learning_rate": 4.668768810242752e-08,
	"loss": 0.441,
	"step": 1566
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.0820741333254507,
	"learning_rate": 4.534626250242702e-08,
	"loss": 0.5394,
	"step": 1567
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.2847763509593477,
	"learning_rate": 4.4024301901113285e-08,
	"loss": 0.5254,
	"step": 1568
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.9411071290247621,
	"learning_rate": 4.2721811491978626e-08,
	"loss": 0.5702,
	"step": 1569
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.745037379504202,
	"learning_rate": 4.1438796392025416e-08,
	"loss": 0.4511,
	"step": 1570
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.24676269385492,
	"learning_rate": 4.017526164174501e-08,
	"loss": 0.5475,
	"step": 1571
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.8719954199651734,
	"learning_rate": 3.8931212205096655e-08,
	"loss": 0.5167,
	"step": 1572
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.1782725251581443,
	"learning_rate": 3.770665296949028e-08,
	"loss": 0.583,
	"step": 1573
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.084620351446328,
	"learning_rate": 3.650158874576537e-08,
	"loss": 0.5573,
	"step": 1574
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.9942648310254383,
	"learning_rate": 3.5316024268172713e-08,
	"loss": 0.5195,
	"step": 1575
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.9276106667007256,
	"learning_rate": 3.41499641943549e-08,
	"loss": 0.461,
	"step": 1576
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.0002769940610676,
	"learning_rate": 3.3003413105331396e-08,
	"loss": 0.5253,
	"step": 1577
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.3233564755810336,
	"learning_rate": 3.187637550547573e-08,
	"loss": 0.6343,
	"step": 1578
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.9669404121882792,
	"learning_rate": 3.076885582250111e-08,
	"loss": 0.5298,
	"step": 1579
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.160706870886176,
	"learning_rate": 2.9680858407441503e-08,
	"loss": 0.5412,
	"step": 1580
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.1010182979674363,
	"learning_rate": 2.8612387534636687e-08,
	"loss": 0.5874,
	"step": 1581
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.3185770521155464,
	"learning_rate": 2.756344740171224e-08,
	"loss": 0.5676,
	"step": 1582
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.928726797539864,
	"learning_rate": 2.653404212956512e-08,
	"loss": 0.5199,
	"step": 1583
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.374638635528354,
	"learning_rate": 2.552417576234756e-08,
	"loss": 0.5822,
	"step": 1584
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.1312842535423666,
	"learning_rate": 2.4533852267450976e-08,
	"loss": 0.5486,
	"step": 1585
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.887474697390811,
	"learning_rate": 2.3563075535487646e-08,
	"loss": 0.5318,
	"step": 1586
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.162989562166336,
	"learning_rate": 2.2611849380280715e-08,
	"loss": 0.5646,
	"step": 1587
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.8865197403491825,
	"learning_rate": 2.1680177538845882e-08,
	"loss": 0.511,
	"step": 1588
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.0221844144721084,
	"learning_rate": 2.0768063671375292e-08,
	"loss": 0.5605,
	"step": 1589
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.7341292361915335,
	"learning_rate": 1.9875511361227562e-08,
	"loss": 0.5054,
	"step": 1590
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.1625957875579194,
	"learning_rate": 1.9002524114909438e-08,
	"loss": 0.5484,
	"step": 1591
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.890787277810342,
	"learning_rate": 1.8149105362064157e-08,
	"loss": 0.4912,
	"step": 1592
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.89646065518405,
	"learning_rate": 1.731525845545812e-08,
	"loss": 0.4987,
	"step": 1593
	},
	{
	"epoch": 0.97,
	"grad_norm": 2.000138281803427,
	"learning_rate": 1.6500986670966444e-08,
	"loss": 0.5334,
	"step": 1594
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.9360765732063108,
	"learning_rate": 1.5706293207561896e-08,
	"loss": 0.5272,
	"step": 1595
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.8899446974988472,
	"learning_rate": 1.4931181187300413e-08,
	"loss": 0.5351,
	"step": 1596
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.083452401449017,
	"learning_rate": 1.4175653655309484e-08,
	"loss": 0.5654,
	"step": 1597
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.7902773793269389,
	"learning_rate": 1.3439713579777025e-08,
	"loss": 0.4598,
	"step": 1598
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.9347948196954086,
	"learning_rate": 1.2723363851939175e-08,
	"loss": 0.5546,
	"step": 1599
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.1793801518923117,
	"learning_rate": 1.2026607286068637e-08,
	"loss": 0.5184,
	"step": 1600
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.1162767261686497,
	"learning_rate": 1.1349446619463578e-08,
	"loss": 0.5576,
	"step": 1601
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.9064679554702675,
	"learning_rate": 1.0691884512437078e-08,
	"loss": 0.5593,
	"step": 1602
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.9599229582469748,
	"learning_rate": 1.0053923548307698e-08,
	"loss": 0.5226,
	"step": 1603
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.3703310743026367,
	"learning_rate": 9.435566233387261e-09,
	"loss": 0.6998,
	"step": 1604
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.8265190173903945,
	"learning_rate": 8.836814996971977e-09,
	"loss": 0.5149,
	"step": 1605
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.919991660951489,
	"learning_rate": 8.257672191334664e-09,
	"loss": 0.5058,
	"step": 1606
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.226643529735206,
	"learning_rate": 7.698140091712547e-09,
	"loss": 0.5828,
	"step": 1607
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.971584660303256,
	"learning_rate": 7.158220896298917e-09,
	"loss": 0.5688,
	"step": 1608
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.0480628954718223,
	"learning_rate": 6.637916726237592e-09,
	"loss": 0.5851,
	"step": 1609
	},
	{
	"epoch": 0.98,
	"grad_norm": 2.2325632034699905,
	"learning_rate": 6.1372296256101414e-09,
	"loss": 0.5965,
	"step": 1610
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.0574293300744557,
	"learning_rate": 5.6561615614314505e-09,
	"loss": 0.5216,
	"step": 1611
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.0626282148992625,
	"learning_rate": 5.194714423638059e-09,
	"loss": 0.5443,
	"step": 1612
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.8130730344455217,
	"learning_rate": 4.752890025086499e-09,
	"loss": 0.5109,
	"step": 1613
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.1550184229788463,
	"learning_rate": 4.330690101539969e-09,
	"loss": 0.6121,
	"step": 1614
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.795454334127577,
	"learning_rate": 3.928116311666119e-09,
	"loss": 0.4971,
	"step": 1615
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.8886493347103483,
	"learning_rate": 3.5451702370281616e-09,
	"loss": 0.4622,
	"step": 1616
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.7323735035854002,
	"learning_rate": 3.181853382079325e-09,
	"loss": 0.4841,
	"step": 1617
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.9823067756781059,
	"learning_rate": 2.8381671741567475e-09,
	"loss": 0.5521,
	"step": 1618
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.127563659134435,
	"learning_rate": 2.514112963476478e-09,
	"loss": 0.5391,
	"step": 1619
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.124869138735419,
	"learning_rate": 2.209692023126819e-09,
	"loss": 0.6062,
	"step": 1620
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.986396902793689,
	"learning_rate": 1.9249055490655477e-09,
	"loss": 0.4799,
	"step": 1621
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.9573989864120591,
	"learning_rate": 1.6597546601127001e-09,
	"loss": 0.5542,
	"step": 1622
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.8291458436134207,
	"learning_rate": 1.4142403979483522e-09,
	"loss": 0.4648,
	"step": 1623
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.0950932153675312,
	"learning_rate": 1.1883637271065118e-09,
	"loss": 0.5056,
	"step": 1624
	},
	{
	"epoch": 0.99,
	"grad_norm": 1.8233239812965405,
	"learning_rate": 9.821255349734548e-10,
	"loss": 0.5067,
	"step": 1625
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.1447666317815934,
	"learning_rate": 7.955266317821731e-10,
	"loss": 0.5142,
	"step": 1626
	},
	{
	"epoch": 0.99,
	"grad_norm": 2.0265645163369683,
	"learning_rate": 6.28567750610709e-10,
	"loss": 0.5296,
	"step": 1627
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.8561507428186768,
	"learning_rate": 4.812495473788259e-10,
	"loss": 0.5011,
	"step": 1628
	},
	{
	"epoch": 1.0,
	"grad_norm": 2.2576656272188163,
	"learning_rate": 3.5357260084523114e-10,
	"loss": 0.5452,
	"step": 1629
	},
	{
	"epoch": 1.0,
	"grad_norm": 2.224588449835144,
	"learning_rate": 2.4553741260535667e-10,
	"loss": 0.56,
	"step": 1630
	},
	{
	"epoch": 1.0,
	"grad_norm": 2.027404547376381,
	"learning_rate": 1.5714440708913815e-10,
	"loss": 0.5433,
	"step": 1631
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.9249522577325628,
	"learning_rate": 8.839393155990472e-11,
	"loss": 0.5585,
	"step": 1632
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.916155539003378,
	"learning_rate": 3.9286256113268973e-11,
	"loss": 0.5188,
	"step": 1633
	},
	{
	"epoch": 1.0,
	"grad_norm": 2.0829325561732537,
	"learning_rate": 9.821573674906326e-12,
	"loss": 0.5721,
	"step": 1634
	},
	{
	"epoch": 1.0,
	"grad_norm": 2.060500339504095,
	"learning_rate": 0.0,
	"loss": 0.5242,
	"step": 1635
	},
	{
	"epoch": 1.0,
	"step": 1635,
	"total_flos": 669628105687040.0,
	"train_loss": 0.6020827626780997,
	"train_runtime": 53189.986,
	"train_samples_per_second": 3.936,
	"train_steps_per_second": 0.031
	}
	],
	"logging_steps": 1.0,
	"max_steps": 1635,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000,
	"total_flos": 669628105687040.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}