upload model

c6555d1 over 1 year ago

350 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 19532,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005119803399549457,
	"grad_norm": 1.4939812421798706,
	"learning_rate": 7.679705099324186e-05,
	"loss": 8.8823,
	"step": 10
	},
	{
	"epoch": 0.0010239606799098914,
	"grad_norm": 1.7099491357803345,
	"learning_rate": 0.00015359410198648372,
	"loss": 8.4098,
	"step": 20
	},
	{
	"epoch": 0.0015359410198648373,
	"grad_norm": 1.341354489326477,
	"learning_rate": 0.00023039115297972558,
	"loss": 7.809,
	"step": 30
	},
	{
	"epoch": 0.0020479213598197828,
	"grad_norm": 1.2555238008499146,
	"learning_rate": 0.00030718820397296744,
	"loss": 7.2814,
	"step": 40
	},
	{
	"epoch": 0.0025599016997747285,
	"grad_norm": 1.1430288553237915,
	"learning_rate": 0.0003839852549662093,
	"loss": 6.8009,
	"step": 50
	},
	{
	"epoch": 0.0030718820397296746,
	"grad_norm": 0.7848866581916809,
	"learning_rate": 0.00046078230595945115,
	"loss": 6.4164,
	"step": 60
	},
	{
	"epoch": 0.0035838623796846203,
	"grad_norm": 1.1270220279693604,
	"learning_rate": 0.000537579356952693,
	"loss": 6.1553,
	"step": 70
	},
	{
	"epoch": 0.0040958427196395655,
	"grad_norm": 0.5496548414230347,
	"learning_rate": 0.0006143764079459349,
	"loss": 5.9572,
	"step": 80
	},
	{
	"epoch": 0.004607823059594511,
	"grad_norm": 0.8258134126663208,
	"learning_rate": 0.0006911734589391768,
	"loss": 5.7536,
	"step": 90
	},
	{
	"epoch": 0.005119803399549457,
	"grad_norm": 0.544425368309021,
	"learning_rate": 0.0007679705099324186,
	"loss": 5.6043,
	"step": 100
	},
	{
	"epoch": 0.005631783739504403,
	"grad_norm": 1.129820466041565,
	"learning_rate": 0.0008447675609256605,
	"loss": 5.3984,
	"step": 110
	},
	{
	"epoch": 0.006143764079459349,
	"grad_norm": 1.6234118938446045,
	"learning_rate": 0.0009215646119189023,
	"loss": 5.2392,
	"step": 120
	},
	{
	"epoch": 0.006655744419414295,
	"grad_norm": 0.7183708548545837,
	"learning_rate": 0.0009983616629121441,
	"loss": 5.107,
	"step": 130
	},
	{
	"epoch": 0.0071677247593692405,
	"grad_norm": 1.0296348333358765,
	"learning_rate": 0.001075158713905386,
	"loss": 4.9662,
	"step": 140
	},
	{
	"epoch": 0.007679705099324186,
	"grad_norm": 1.6978133916854858,
	"learning_rate": 0.001151955764898628,
	"loss": 4.8161,
	"step": 150
	},
	{
	"epoch": 0.008191685439279131,
	"grad_norm": 0.8946409821510315,
	"learning_rate": 0.0012287528158918697,
	"loss": 4.7119,
	"step": 160
	},
	{
	"epoch": 0.008703665779234078,
	"grad_norm": 1.0135765075683594,
	"learning_rate": 0.0013055498668851117,
	"loss": 4.6082,
	"step": 170
	},
	{
	"epoch": 0.009215646119189022,
	"grad_norm": 0.8236331343650818,
	"learning_rate": 0.0013823469178783536,
	"loss": 4.496,
	"step": 180
	},
	{
	"epoch": 0.009727626459143969,
	"grad_norm": 1.161008596420288,
	"learning_rate": 0.0014591439688715956,
	"loss": 4.4071,
	"step": 190
	},
	{
	"epoch": 0.010239606799098914,
	"grad_norm": 1.3253235816955566,
	"learning_rate": 0.0015,
	"loss": 4.3286,
	"step": 200
	},
	{
	"epoch": 0.01075158713905386,
	"grad_norm": 1.6026867628097534,
	"learning_rate": 0.0015,
	"loss": 4.2374,
	"step": 210
	},
	{
	"epoch": 0.011263567479008805,
	"grad_norm": 1.0043503046035767,
	"learning_rate": 0.0015,
	"loss": 4.1526,
	"step": 220
	},
	{
	"epoch": 0.011775547818963752,
	"grad_norm": 0.963283121585846,
	"learning_rate": 0.0015,
	"loss": 4.0709,
	"step": 230
	},
	{
	"epoch": 0.012287528158918698,
	"grad_norm": 0.8025517463684082,
	"learning_rate": 0.0015,
	"loss": 3.9997,
	"step": 240
	},
	{
	"epoch": 0.012799508498873643,
	"grad_norm": 0.7000623345375061,
	"learning_rate": 0.0015,
	"loss": 3.91,
	"step": 250
	},
	{
	"epoch": 0.01331148883882859,
	"grad_norm": 0.8964600563049316,
	"learning_rate": 0.0015,
	"loss": 3.8844,
	"step": 260
	},
	{
	"epoch": 0.013823469178783535,
	"grad_norm": 0.7321097254753113,
	"learning_rate": 0.0015,
	"loss": 3.8324,
	"step": 270
	},
	{
	"epoch": 0.014335449518738481,
	"grad_norm": 0.8242825269699097,
	"learning_rate": 0.0015,
	"loss": 3.7653,
	"step": 280
	},
	{
	"epoch": 0.014847429858693426,
	"grad_norm": 1.045832633972168,
	"learning_rate": 0.0015,
	"loss": 3.7115,
	"step": 290
	},
	{
	"epoch": 0.015359410198648372,
	"grad_norm": 1.0511783361434937,
	"learning_rate": 0.0015,
	"loss": 3.6754,
	"step": 300
	},
	{
	"epoch": 0.015871390538603317,
	"grad_norm": 0.79283607006073,
	"learning_rate": 0.0015,
	"loss": 3.615,
	"step": 310
	},
	{
	"epoch": 0.016383370878558262,
	"grad_norm": 0.7592840194702148,
	"learning_rate": 0.0015,
	"loss": 3.5692,
	"step": 320
	},
	{
	"epoch": 0.01689535121851321,
	"grad_norm": 0.6317871809005737,
	"learning_rate": 0.0015,
	"loss": 3.5581,
	"step": 330
	},
	{
	"epoch": 0.017407331558468155,
	"grad_norm": 0.8634727597236633,
	"learning_rate": 0.0015,
	"loss": 3.5035,
	"step": 340
	},
	{
	"epoch": 0.0179193118984231,
	"grad_norm": 0.9801504611968994,
	"learning_rate": 0.0015,
	"loss": 3.4543,
	"step": 350
	},
	{
	"epoch": 0.018431292238378045,
	"grad_norm": 0.9941282868385315,
	"learning_rate": 0.0015,
	"loss": 3.4323,
	"step": 360
	},
	{
	"epoch": 0.018943272578332993,
	"grad_norm": 1.1075271368026733,
	"learning_rate": 0.0015,
	"loss": 3.3992,
	"step": 370
	},
	{
	"epoch": 0.019455252918287938,
	"grad_norm": 0.9263769388198853,
	"learning_rate": 0.0015,
	"loss": 3.3484,
	"step": 380
	},
	{
	"epoch": 0.019967233258242883,
	"grad_norm": 0.6879151463508606,
	"learning_rate": 0.0015,
	"loss": 3.3255,
	"step": 390
	},
	{
	"epoch": 0.020479213598197828,
	"grad_norm": 1.0170198678970337,
	"learning_rate": 0.0015,
	"loss": 3.2744,
	"step": 400
	},
	{
	"epoch": 0.020991193938152776,
	"grad_norm": 0.9534377455711365,
	"learning_rate": 0.0015,
	"loss": 3.2513,
	"step": 410
	},
	{
	"epoch": 0.02150317427810772,
	"grad_norm": 1.1487725973129272,
	"learning_rate": 0.0015,
	"loss": 3.2043,
	"step": 420
	},
	{
	"epoch": 0.022015154618062666,
	"grad_norm": 0.8081286549568176,
	"learning_rate": 0.0015,
	"loss": 3.1891,
	"step": 430
	},
	{
	"epoch": 0.02252713495801761,
	"grad_norm": 0.8324559926986694,
	"learning_rate": 0.0015,
	"loss": 3.1025,
	"step": 440
	},
	{
	"epoch": 0.02303911529797256,
	"grad_norm": 0.9536003470420837,
	"learning_rate": 0.0015,
	"loss": 3.1029,
	"step": 450
	},
	{
	"epoch": 0.023551095637927504,
	"grad_norm": 1.3307809829711914,
	"learning_rate": 0.0015,
	"loss": 3.0508,
	"step": 460
	},
	{
	"epoch": 0.02406307597788245,
	"grad_norm": 1.237606167793274,
	"learning_rate": 0.0015,
	"loss": 3.0528,
	"step": 470
	},
	{
	"epoch": 0.024575056317837397,
	"grad_norm": 0.9293427467346191,
	"learning_rate": 0.0015,
	"loss": 2.9933,
	"step": 480
	},
	{
	"epoch": 0.02508703665779234,
	"grad_norm": 0.8388038873672485,
	"learning_rate": 0.0015,
	"loss": 2.9593,
	"step": 490
	},
	{
	"epoch": 0.025599016997747286,
	"grad_norm": 0.7568584084510803,
	"learning_rate": 0.0015,
	"loss": 2.9442,
	"step": 500
	},
	{
	"epoch": 0.02611099733770223,
	"grad_norm": 0.7443001866340637,
	"learning_rate": 0.0015,
	"loss": 2.9138,
	"step": 510
	},
	{
	"epoch": 0.02662297767765718,
	"grad_norm": 0.9567376375198364,
	"learning_rate": 0.0015,
	"loss": 2.8952,
	"step": 520
	},
	{
	"epoch": 0.027134958017612124,
	"grad_norm": 0.7521085143089294,
	"learning_rate": 0.0015,
	"loss": 2.8719,
	"step": 530
	},
	{
	"epoch": 0.02764693835756707,
	"grad_norm": 1.0200743675231934,
	"learning_rate": 0.0015,
	"loss": 2.8533,
	"step": 540
	},
	{
	"epoch": 0.028158918697522014,
	"grad_norm": 0.8097197413444519,
	"learning_rate": 0.0015,
	"loss": 2.8476,
	"step": 550
	},
	{
	"epoch": 0.028670899037476962,
	"grad_norm": 0.7335869669914246,
	"learning_rate": 0.0015,
	"loss": 2.7611,
	"step": 560
	},
	{
	"epoch": 0.029182879377431907,
	"grad_norm": 0.7385020852088928,
	"learning_rate": 0.0015,
	"loss": 2.7824,
	"step": 570
	},
	{
	"epoch": 0.029694859717386852,
	"grad_norm": 0.8730366826057434,
	"learning_rate": 0.0015,
	"loss": 2.7236,
	"step": 580
	},
	{
	"epoch": 0.030206840057341797,
	"grad_norm": 0.8042418360710144,
	"learning_rate": 0.0015,
	"loss": 2.7331,
	"step": 590
	},
	{
	"epoch": 0.030718820397296745,
	"grad_norm": 0.7750236392021179,
	"learning_rate": 0.0015,
	"loss": 2.6946,
	"step": 600
	},
	{
	"epoch": 0.03123080073725169,
	"grad_norm": 1.130753755569458,
	"learning_rate": 0.0015,
	"loss": 2.7127,
	"step": 610
	},
	{
	"epoch": 0.031742781077206635,
	"grad_norm": 0.7699748277664185,
	"learning_rate": 0.0015,
	"loss": 2.665,
	"step": 620
	},
	{
	"epoch": 0.03225476141716158,
	"grad_norm": 0.7676917314529419,
	"learning_rate": 0.0015,
	"loss": 2.6516,
	"step": 630
	},
	{
	"epoch": 0.032766741757116524,
	"grad_norm": 0.9566435217857361,
	"learning_rate": 0.0015,
	"loss": 2.6311,
	"step": 640
	},
	{
	"epoch": 0.03327872209707147,
	"grad_norm": 0.9319092631340027,
	"learning_rate": 0.0015,
	"loss": 2.6062,
	"step": 650
	},
	{
	"epoch": 0.03379070243702642,
	"grad_norm": 0.7314916849136353,
	"learning_rate": 0.0015,
	"loss": 2.5822,
	"step": 660
	},
	{
	"epoch": 0.03430268277698136,
	"grad_norm": 0.765346109867096,
	"learning_rate": 0.0015,
	"loss": 2.587,
	"step": 670
	},
	{
	"epoch": 0.03481466311693631,
	"grad_norm": 0.8714979887008667,
	"learning_rate": 0.0015,
	"loss": 2.5479,
	"step": 680
	},
	{
	"epoch": 0.03532664345689126,
	"grad_norm": 0.7182953357696533,
	"learning_rate": 0.0015,
	"loss": 2.5388,
	"step": 690
	},
	{
	"epoch": 0.0358386237968462,
	"grad_norm": 0.71555095911026,
	"learning_rate": 0.0015,
	"loss": 2.5196,
	"step": 700
	},
	{
	"epoch": 0.03635060413680115,
	"grad_norm": 0.6901549696922302,
	"learning_rate": 0.0015,
	"loss": 2.4948,
	"step": 710
	},
	{
	"epoch": 0.03686258447675609,
	"grad_norm": 0.7073848247528076,
	"learning_rate": 0.0015,
	"loss": 2.4814,
	"step": 720
	},
	{
	"epoch": 0.03737456481671104,
	"grad_norm": 0.6590971350669861,
	"learning_rate": 0.0015,
	"loss": 2.4799,
	"step": 730
	},
	{
	"epoch": 0.037886545156665986,
	"grad_norm": 0.6124588251113892,
	"learning_rate": 0.0015,
	"loss": 2.4529,
	"step": 740
	},
	{
	"epoch": 0.03839852549662093,
	"grad_norm": 0.7170097231864929,
	"learning_rate": 0.0015,
	"loss": 2.4397,
	"step": 750
	},
	{
	"epoch": 0.038910505836575876,
	"grad_norm": 0.7509459853172302,
	"learning_rate": 0.0015,
	"loss": 2.433,
	"step": 760
	},
	{
	"epoch": 0.039422486176530824,
	"grad_norm": 0.8185219168663025,
	"learning_rate": 0.0015,
	"loss": 2.4364,
	"step": 770
	},
	{
	"epoch": 0.039934466516485766,
	"grad_norm": 0.6452121734619141,
	"learning_rate": 0.0015,
	"loss": 2.4375,
	"step": 780
	},
	{
	"epoch": 0.040446446856440714,
	"grad_norm": 0.7798700928688049,
	"learning_rate": 0.0015,
	"loss": 2.4082,
	"step": 790
	},
	{
	"epoch": 0.040958427196395655,
	"grad_norm": 0.905072808265686,
	"learning_rate": 0.0015,
	"loss": 2.3811,
	"step": 800
	},
	{
	"epoch": 0.041470407536350604,
	"grad_norm": 0.7047348618507385,
	"learning_rate": 0.0015,
	"loss": 2.3955,
	"step": 810
	},
	{
	"epoch": 0.04198238787630555,
	"grad_norm": 0.6472852230072021,
	"learning_rate": 0.0015,
	"loss": 2.3776,
	"step": 820
	},
	{
	"epoch": 0.04249436821626049,
	"grad_norm": 0.729308545589447,
	"learning_rate": 0.0015,
	"loss": 2.3465,
	"step": 830
	},
	{
	"epoch": 0.04300634855621544,
	"grad_norm": 0.8292624950408936,
	"learning_rate": 0.0015,
	"loss": 2.3578,
	"step": 840
	},
	{
	"epoch": 0.04351832889617039,
	"grad_norm": 0.6298139691352844,
	"learning_rate": 0.0015,
	"loss": 2.3349,
	"step": 850
	},
	{
	"epoch": 0.04403030923612533,
	"grad_norm": 0.647214949131012,
	"learning_rate": 0.0015,
	"loss": 2.299,
	"step": 860
	},
	{
	"epoch": 0.04454228957608028,
	"grad_norm": 0.7034851312637329,
	"learning_rate": 0.0015,
	"loss": 2.2927,
	"step": 870
	},
	{
	"epoch": 0.04505426991603522,
	"grad_norm": 0.6373961567878723,
	"learning_rate": 0.0015,
	"loss": 2.2776,
	"step": 880
	},
	{
	"epoch": 0.04556625025599017,
	"grad_norm": 0.8384701609611511,
	"learning_rate": 0.0015,
	"loss": 2.2948,
	"step": 890
	},
	{
	"epoch": 0.04607823059594512,
	"grad_norm": 0.7856025695800781,
	"learning_rate": 0.0015,
	"loss": 2.3034,
	"step": 900
	},
	{
	"epoch": 0.04659021093590006,
	"grad_norm": 0.6041284799575806,
	"learning_rate": 0.0015,
	"loss": 2.2773,
	"step": 910
	},
	{
	"epoch": 0.04710219127585501,
	"grad_norm": 0.8801588416099548,
	"learning_rate": 0.0015,
	"loss": 2.2706,
	"step": 920
	},
	{
	"epoch": 0.047614171615809955,
	"grad_norm": 0.7567424178123474,
	"learning_rate": 0.0015,
	"loss": 2.2754,
	"step": 930
	},
	{
	"epoch": 0.0481261519557649,
	"grad_norm": 0.6421610713005066,
	"learning_rate": 0.0015,
	"loss": 2.2514,
	"step": 940
	},
	{
	"epoch": 0.048638132295719845,
	"grad_norm": 0.7311142683029175,
	"learning_rate": 0.0015,
	"loss": 2.2005,
	"step": 950
	},
	{
	"epoch": 0.04915011263567479,
	"grad_norm": 0.7399065494537354,
	"learning_rate": 0.0015,
	"loss": 2.2038,
	"step": 960
	},
	{
	"epoch": 0.049662092975629735,
	"grad_norm": 0.708454430103302,
	"learning_rate": 0.0015,
	"loss": 2.1758,
	"step": 970
	},
	{
	"epoch": 0.05017407331558468,
	"grad_norm": 0.6199438571929932,
	"learning_rate": 0.0015,
	"loss": 2.227,
	"step": 980
	},
	{
	"epoch": 0.050686053655539624,
	"grad_norm": 0.6159200668334961,
	"learning_rate": 0.0015,
	"loss": 2.1547,
	"step": 990
	},
	{
	"epoch": 0.05119803399549457,
	"grad_norm": 0.6560512781143188,
	"learning_rate": 0.0015,
	"loss": 2.1787,
	"step": 1000
	},
	{
	"epoch": 0.05171001433544952,
	"grad_norm": 0.6151387691497803,
	"learning_rate": 0.0015,
	"loss": 2.1776,
	"step": 1010
	},
	{
	"epoch": 0.05222199467540446,
	"grad_norm": 0.6162774562835693,
	"learning_rate": 0.0015,
	"loss": 2.1604,
	"step": 1020
	},
	{
	"epoch": 0.05273397501535941,
	"grad_norm": 0.6564657092094421,
	"learning_rate": 0.0015,
	"loss": 2.1837,
	"step": 1030
	},
	{
	"epoch": 0.05324595535531436,
	"grad_norm": 0.5790508985519409,
	"learning_rate": 0.0015,
	"loss": 2.1561,
	"step": 1040
	},
	{
	"epoch": 0.0537579356952693,
	"grad_norm": 0.6484589576721191,
	"learning_rate": 0.0015,
	"loss": 2.1676,
	"step": 1050
	},
	{
	"epoch": 0.05426991603522425,
	"grad_norm": 0.6969457268714905,
	"learning_rate": 0.0015,
	"loss": 2.1462,
	"step": 1060
	},
	{
	"epoch": 0.05478189637517919,
	"grad_norm": 0.7145557403564453,
	"learning_rate": 0.0015,
	"loss": 2.13,
	"step": 1070
	},
	{
	"epoch": 0.05529387671513414,
	"grad_norm": 0.6353093981742859,
	"learning_rate": 0.0015,
	"loss": 2.1197,
	"step": 1080
	},
	{
	"epoch": 0.055805857055089086,
	"grad_norm": 0.5896279811859131,
	"learning_rate": 0.0015,
	"loss": 2.1177,
	"step": 1090
	},
	{
	"epoch": 0.05631783739504403,
	"grad_norm": 0.6247608661651611,
	"learning_rate": 0.0015,
	"loss": 2.1123,
	"step": 1100
	},
	{
	"epoch": 0.056829817734998976,
	"grad_norm": 0.6024080514907837,
	"learning_rate": 0.0015,
	"loss": 2.0949,
	"step": 1110
	},
	{
	"epoch": 0.057341798074953924,
	"grad_norm": 0.7400630116462708,
	"learning_rate": 0.0015,
	"loss": 2.0915,
	"step": 1120
	},
	{
	"epoch": 0.057853778414908866,
	"grad_norm": 0.6276081800460815,
	"learning_rate": 0.0015,
	"loss": 2.0916,
	"step": 1130
	},
	{
	"epoch": 0.058365758754863814,
	"grad_norm": 0.7214579582214355,
	"learning_rate": 0.0015,
	"loss": 2.1027,
	"step": 1140
	},
	{
	"epoch": 0.05887773909481876,
	"grad_norm": 0.7833266258239746,
	"learning_rate": 0.0015,
	"loss": 2.0884,
	"step": 1150
	},
	{
	"epoch": 0.059389719434773704,
	"grad_norm": 0.7453588247299194,
	"learning_rate": 0.0015,
	"loss": 2.0764,
	"step": 1160
	},
	{
	"epoch": 0.05990169977472865,
	"grad_norm": 0.5965461134910583,
	"learning_rate": 0.0015,
	"loss": 2.0941,
	"step": 1170
	},
	{
	"epoch": 0.06041368011468359,
	"grad_norm": 0.6565614938735962,
	"learning_rate": 0.0015,
	"loss": 2.0396,
	"step": 1180
	},
	{
	"epoch": 0.06092566045463854,
	"grad_norm": 0.670816957950592,
	"learning_rate": 0.0015,
	"loss": 2.0629,
	"step": 1190
	},
	{
	"epoch": 0.06143764079459349,
	"grad_norm": 0.6220470666885376,
	"learning_rate": 0.0015,
	"loss": 2.064,
	"step": 1200
	},
	{
	"epoch": 0.06194962113454843,
	"grad_norm": 0.5919376015663147,
	"learning_rate": 0.0015,
	"loss": 2.0385,
	"step": 1210
	},
	{
	"epoch": 0.06246160147450338,
	"grad_norm": 0.6242793202400208,
	"learning_rate": 0.0015,
	"loss": 2.0487,
	"step": 1220
	},
	{
	"epoch": 0.06297358181445832,
	"grad_norm": 0.5903810262680054,
	"learning_rate": 0.0015,
	"loss": 2.0348,
	"step": 1230
	},
	{
	"epoch": 0.06348556215441327,
	"grad_norm": 0.6573896408081055,
	"learning_rate": 0.0015,
	"loss": 2.0186,
	"step": 1240
	},
	{
	"epoch": 0.06399754249436822,
	"grad_norm": 0.6017488241195679,
	"learning_rate": 0.0015,
	"loss": 2.0126,
	"step": 1250
	},
	{
	"epoch": 0.06450952283432317,
	"grad_norm": 0.533431351184845,
	"learning_rate": 0.0015,
	"loss": 2.026,
	"step": 1260
	},
	{
	"epoch": 0.06502150317427811,
	"grad_norm": 0.5461450815200806,
	"learning_rate": 0.0015,
	"loss": 1.9961,
	"step": 1270
	},
	{
	"epoch": 0.06553348351423305,
	"grad_norm": 0.5579766035079956,
	"learning_rate": 0.0015,
	"loss": 2.0064,
	"step": 1280
	},
	{
	"epoch": 0.066045463854188,
	"grad_norm": 0.5514289736747742,
	"learning_rate": 0.0015,
	"loss": 2.0079,
	"step": 1290
	},
	{
	"epoch": 0.06655744419414295,
	"grad_norm": 0.5938010215759277,
	"learning_rate": 0.0015,
	"loss": 1.9811,
	"step": 1300
	},
	{
	"epoch": 0.0670694245340979,
	"grad_norm": 0.703124463558197,
	"learning_rate": 0.0015,
	"loss": 1.9634,
	"step": 1310
	},
	{
	"epoch": 0.06758140487405284,
	"grad_norm": 0.545432448387146,
	"learning_rate": 0.0015,
	"loss": 1.9927,
	"step": 1320
	},
	{
	"epoch": 0.06809338521400778,
	"grad_norm": 0.5673125386238098,
	"learning_rate": 0.0015,
	"loss": 1.9911,
	"step": 1330
	},
	{
	"epoch": 0.06860536555396272,
	"grad_norm": 0.5682245492935181,
	"learning_rate": 0.0015,
	"loss": 1.9733,
	"step": 1340
	},
	{
	"epoch": 0.06911734589391767,
	"grad_norm": 0.5960274934768677,
	"learning_rate": 0.0015,
	"loss": 1.9733,
	"step": 1350
	},
	{
	"epoch": 0.06962932623387262,
	"grad_norm": 0.6102215051651001,
	"learning_rate": 0.0015,
	"loss": 1.9559,
	"step": 1360
	},
	{
	"epoch": 0.07014130657382757,
	"grad_norm": 0.5990728735923767,
	"learning_rate": 0.0015,
	"loss": 1.9463,
	"step": 1370
	},
	{
	"epoch": 0.07065328691378252,
	"grad_norm": 0.6161502003669739,
	"learning_rate": 0.0015,
	"loss": 1.978,
	"step": 1380
	},
	{
	"epoch": 0.07116526725373745,
	"grad_norm": 0.5682898759841919,
	"learning_rate": 0.0015,
	"loss": 1.9558,
	"step": 1390
	},
	{
	"epoch": 0.0716772475936924,
	"grad_norm": 0.5973048210144043,
	"learning_rate": 0.0015,
	"loss": 1.9376,
	"step": 1400
	},
	{
	"epoch": 0.07218922793364735,
	"grad_norm": 0.5553535223007202,
	"learning_rate": 0.0015,
	"loss": 1.9468,
	"step": 1410
	},
	{
	"epoch": 0.0727012082736023,
	"grad_norm": 0.5181711912155151,
	"learning_rate": 0.0015,
	"loss": 1.9188,
	"step": 1420
	},
	{
	"epoch": 0.07321318861355725,
	"grad_norm": 0.6532855033874512,
	"learning_rate": 0.0015,
	"loss": 1.9069,
	"step": 1430
	},
	{
	"epoch": 0.07372516895351218,
	"grad_norm": 0.531043291091919,
	"learning_rate": 0.0015,
	"loss": 1.9319,
	"step": 1440
	},
	{
	"epoch": 0.07423714929346713,
	"grad_norm": 0.5700235962867737,
	"learning_rate": 0.0015,
	"loss": 1.8891,
	"step": 1450
	},
	{
	"epoch": 0.07474912963342208,
	"grad_norm": 0.523414134979248,
	"learning_rate": 0.0015,
	"loss": 1.9165,
	"step": 1460
	},
	{
	"epoch": 0.07526110997337702,
	"grad_norm": 0.5649904608726501,
	"learning_rate": 0.0015,
	"loss": 1.905,
	"step": 1470
	},
	{
	"epoch": 0.07577309031333197,
	"grad_norm": 0.5912672877311707,
	"learning_rate": 0.0015,
	"loss": 1.9162,
	"step": 1480
	},
	{
	"epoch": 0.07628507065328691,
	"grad_norm": 0.5597636699676514,
	"learning_rate": 0.0015,
	"loss": 1.9158,
	"step": 1490
	},
	{
	"epoch": 0.07679705099324186,
	"grad_norm": 0.553896963596344,
	"learning_rate": 0.0015,
	"loss": 1.871,
	"step": 1500
	},
	{
	"epoch": 0.0773090313331968,
	"grad_norm": 0.5018342137336731,
	"learning_rate": 0.0015,
	"loss": 1.9119,
	"step": 1510
	},
	{
	"epoch": 0.07782101167315175,
	"grad_norm": 0.5367796421051025,
	"learning_rate": 0.0015,
	"loss": 1.8706,
	"step": 1520
	},
	{
	"epoch": 0.0783329920131067,
	"grad_norm": 0.5023203492164612,
	"learning_rate": 0.0015,
	"loss": 1.8808,
	"step": 1530
	},
	{
	"epoch": 0.07884497235306165,
	"grad_norm": 0.5962059497833252,
	"learning_rate": 0.0015,
	"loss": 1.9022,
	"step": 1540
	},
	{
	"epoch": 0.07935695269301658,
	"grad_norm": 0.5200186967849731,
	"learning_rate": 0.0015,
	"loss": 1.8728,
	"step": 1550
	},
	{
	"epoch": 0.07986893303297153,
	"grad_norm": 0.5361810922622681,
	"learning_rate": 0.0015,
	"loss": 1.8462,
	"step": 1560
	},
	{
	"epoch": 0.08038091337292648,
	"grad_norm": 0.5771626830101013,
	"learning_rate": 0.0015,
	"loss": 1.873,
	"step": 1570
	},
	{
	"epoch": 0.08089289371288143,
	"grad_norm": 0.5451227426528931,
	"learning_rate": 0.0015,
	"loss": 1.8693,
	"step": 1580
	},
	{
	"epoch": 0.08140487405283638,
	"grad_norm": 0.5574854016304016,
	"learning_rate": 0.0015,
	"loss": 1.8615,
	"step": 1590
	},
	{
	"epoch": 0.08191685439279131,
	"grad_norm": 0.574317455291748,
	"learning_rate": 0.0015,
	"loss": 1.8424,
	"step": 1600
	},
	{
	"epoch": 0.08242883473274626,
	"grad_norm": 0.545906662940979,
	"learning_rate": 0.0015,
	"loss": 1.8572,
	"step": 1610
	},
	{
	"epoch": 0.08294081507270121,
	"grad_norm": 0.5127050280570984,
	"learning_rate": 0.0015,
	"loss": 1.8391,
	"step": 1620
	},
	{
	"epoch": 0.08345279541265616,
	"grad_norm": 0.5646129250526428,
	"learning_rate": 0.0015,
	"loss": 1.8316,
	"step": 1630
	},
	{
	"epoch": 0.0839647757526111,
	"grad_norm": 0.5549367666244507,
	"learning_rate": 0.0015,
	"loss": 1.8371,
	"step": 1640
	},
	{
	"epoch": 0.08447675609256605,
	"grad_norm": 0.5479699373245239,
	"learning_rate": 0.0015,
	"loss": 1.8378,
	"step": 1650
	},
	{
	"epoch": 0.08498873643252099,
	"grad_norm": 0.5359328985214233,
	"learning_rate": 0.0015,
	"loss": 1.8372,
	"step": 1660
	},
	{
	"epoch": 0.08550071677247593,
	"grad_norm": 0.5599870085716248,
	"learning_rate": 0.0015,
	"loss": 1.8499,
	"step": 1670
	},
	{
	"epoch": 0.08601269711243088,
	"grad_norm": 0.5272551774978638,
	"learning_rate": 0.0015,
	"loss": 1.8381,
	"step": 1680
	},
	{
	"epoch": 0.08652467745238583,
	"grad_norm": 0.534377932548523,
	"learning_rate": 0.0015,
	"loss": 1.8124,
	"step": 1690
	},
	{
	"epoch": 0.08703665779234078,
	"grad_norm": 0.6432906985282898,
	"learning_rate": 0.0015,
	"loss": 1.8354,
	"step": 1700
	},
	{
	"epoch": 0.08754863813229571,
	"grad_norm": 0.5227901935577393,
	"learning_rate": 0.0015,
	"loss": 1.8091,
	"step": 1710
	},
	{
	"epoch": 0.08806061847225066,
	"grad_norm": 0.48951131105422974,
	"learning_rate": 0.0015,
	"loss": 1.7854,
	"step": 1720
	},
	{
	"epoch": 0.08857259881220561,
	"grad_norm": 0.5127034783363342,
	"learning_rate": 0.0015,
	"loss": 1.8208,
	"step": 1730
	},
	{
	"epoch": 0.08908457915216056,
	"grad_norm": 0.5147260427474976,
	"learning_rate": 0.0015,
	"loss": 1.8289,
	"step": 1740
	},
	{
	"epoch": 0.08959655949211551,
	"grad_norm": 0.536268413066864,
	"learning_rate": 0.0015,
	"loss": 1.7894,
	"step": 1750
	},
	{
	"epoch": 0.09010853983207044,
	"grad_norm": 0.537369966506958,
	"learning_rate": 0.0015,
	"loss": 1.7985,
	"step": 1760
	},
	{
	"epoch": 0.09062052017202539,
	"grad_norm": 0.5217599868774414,
	"learning_rate": 0.0015,
	"loss": 1.8196,
	"step": 1770
	},
	{
	"epoch": 0.09113250051198034,
	"grad_norm": 0.47711503505706787,
	"learning_rate": 0.0015,
	"loss": 1.7931,
	"step": 1780
	},
	{
	"epoch": 0.09164448085193529,
	"grad_norm": 0.5544558763504028,
	"learning_rate": 0.0015,
	"loss": 1.8201,
	"step": 1790
	},
	{
	"epoch": 0.09215646119189023,
	"grad_norm": 0.5024393200874329,
	"learning_rate": 0.0015,
	"loss": 1.7974,
	"step": 1800
	},
	{
	"epoch": 0.09266844153184518,
	"grad_norm": 0.5126355290412903,
	"learning_rate": 0.0015,
	"loss": 1.7874,
	"step": 1810
	},
	{
	"epoch": 0.09318042187180012,
	"grad_norm": 0.5882781744003296,
	"learning_rate": 0.0015,
	"loss": 1.791,
	"step": 1820
	},
	{
	"epoch": 0.09369240221175507,
	"grad_norm": 0.508765697479248,
	"learning_rate": 0.0015,
	"loss": 1.7819,
	"step": 1830
	},
	{
	"epoch": 0.09420438255171001,
	"grad_norm": 0.5449949502944946,
	"learning_rate": 0.0015,
	"loss": 1.7838,
	"step": 1840
	},
	{
	"epoch": 0.09471636289166496,
	"grad_norm": 0.4996667802333832,
	"learning_rate": 0.0015,
	"loss": 1.7618,
	"step": 1850
	},
	{
	"epoch": 0.09522834323161991,
	"grad_norm": 0.5014889240264893,
	"learning_rate": 0.0015,
	"loss": 1.7752,
	"step": 1860
	},
	{
	"epoch": 0.09574032357157485,
	"grad_norm": 0.5011769533157349,
	"learning_rate": 0.0015,
	"loss": 1.7768,
	"step": 1870
	},
	{
	"epoch": 0.0962523039115298,
	"grad_norm": 0.49963292479515076,
	"learning_rate": 0.0015,
	"loss": 1.778,
	"step": 1880
	},
	{
	"epoch": 0.09676428425148474,
	"grad_norm": 0.46659213304519653,
	"learning_rate": 0.0015,
	"loss": 1.7668,
	"step": 1890
	},
	{
	"epoch": 0.09727626459143969,
	"grad_norm": 0.5140760540962219,
	"learning_rate": 0.0015,
	"loss": 1.7448,
	"step": 1900
	},
	{
	"epoch": 0.09778824493139464,
	"grad_norm": 0.49709445238113403,
	"learning_rate": 0.0015,
	"loss": 1.7573,
	"step": 1910
	},
	{
	"epoch": 0.09830022527134959,
	"grad_norm": 0.464329332113266,
	"learning_rate": 0.0015,
	"loss": 1.7435,
	"step": 1920
	},
	{
	"epoch": 0.09881220561130452,
	"grad_norm": 0.4815766215324402,
	"learning_rate": 0.0015,
	"loss": 1.7533,
	"step": 1930
	},
	{
	"epoch": 0.09932418595125947,
	"grad_norm": 0.4601441025733948,
	"learning_rate": 0.0015,
	"loss": 1.7339,
	"step": 1940
	},
	{
	"epoch": 0.09983616629121442,
	"grad_norm": 0.46905994415283203,
	"learning_rate": 0.0015,
	"loss": 1.7421,
	"step": 1950
	},
	{
	"epoch": 0.10034814663116937,
	"grad_norm": 0.4927903413772583,
	"learning_rate": 0.0015,
	"loss": 1.7259,
	"step": 1960
	},
	{
	"epoch": 0.10086012697112431,
	"grad_norm": 0.4930973947048187,
	"learning_rate": 0.0015,
	"loss": 1.735,
	"step": 1970
	},
	{
	"epoch": 0.10137210731107925,
	"grad_norm": 0.4698399305343628,
	"learning_rate": 0.0015,
	"loss": 1.7478,
	"step": 1980
	},
	{
	"epoch": 0.1018840876510342,
	"grad_norm": 0.5083284974098206,
	"learning_rate": 0.0015,
	"loss": 1.7491,
	"step": 1990
	},
	{
	"epoch": 0.10239606799098915,
	"grad_norm": 0.4888325035572052,
	"learning_rate": 0.0015,
	"loss": 1.7261,
	"step": 2000
	},
	{
	"epoch": 0.1029080483309441,
	"grad_norm": 0.524994432926178,
	"learning_rate": 0.0015,
	"loss": 1.7221,
	"step": 2010
	},
	{
	"epoch": 0.10342002867089904,
	"grad_norm": 0.49820294976234436,
	"learning_rate": 0.0015,
	"loss": 1.7279,
	"step": 2020
	},
	{
	"epoch": 0.10393200901085399,
	"grad_norm": 0.49288976192474365,
	"learning_rate": 0.0015,
	"loss": 1.746,
	"step": 2030
	},
	{
	"epoch": 0.10444398935080892,
	"grad_norm": 0.4776252806186676,
	"learning_rate": 0.0015,
	"loss": 1.7384,
	"step": 2040
	},
	{
	"epoch": 0.10495596969076387,
	"grad_norm": 0.46143004298210144,
	"learning_rate": 0.0015,
	"loss": 1.7037,
	"step": 2050
	},
	{
	"epoch": 0.10546795003071882,
	"grad_norm": 0.4855809211730957,
	"learning_rate": 0.0015,
	"loss": 1.7052,
	"step": 2060
	},
	{
	"epoch": 0.10597993037067377,
	"grad_norm": 0.491964727640152,
	"learning_rate": 0.0015,
	"loss": 1.7275,
	"step": 2070
	},
	{
	"epoch": 0.10649191071062872,
	"grad_norm": 0.5072810053825378,
	"learning_rate": 0.0015,
	"loss": 1.7262,
	"step": 2080
	},
	{
	"epoch": 0.10700389105058365,
	"grad_norm": 0.5020768642425537,
	"learning_rate": 0.0015,
	"loss": 1.7106,
	"step": 2090
	},
	{
	"epoch": 0.1075158713905386,
	"grad_norm": 0.4881630837917328,
	"learning_rate": 0.0015,
	"loss": 1.7411,
	"step": 2100
	},
	{
	"epoch": 0.10802785173049355,
	"grad_norm": 0.5104793906211853,
	"learning_rate": 0.0015,
	"loss": 1.7053,
	"step": 2110
	},
	{
	"epoch": 0.1085398320704485,
	"grad_norm": 0.4574519991874695,
	"learning_rate": 0.0015,
	"loss": 1.7219,
	"step": 2120
	},
	{
	"epoch": 0.10905181241040345,
	"grad_norm": 0.4427832365036011,
	"learning_rate": 0.0015,
	"loss": 1.6966,
	"step": 2130
	},
	{
	"epoch": 0.10956379275035838,
	"grad_norm": 0.46723929047584534,
	"learning_rate": 0.0015,
	"loss": 1.7106,
	"step": 2140
	},
	{
	"epoch": 0.11007577309031333,
	"grad_norm": 0.4710049629211426,
	"learning_rate": 0.0015,
	"loss": 1.7,
	"step": 2150
	},
	{
	"epoch": 0.11058775343026828,
	"grad_norm": 0.46849745512008667,
	"learning_rate": 0.0015,
	"loss": 1.7071,
	"step": 2160
	},
	{
	"epoch": 0.11109973377022322,
	"grad_norm": 0.4712335765361786,
	"learning_rate": 0.0015,
	"loss": 1.685,
	"step": 2170
	},
	{
	"epoch": 0.11161171411017817,
	"grad_norm": 0.45318537950515747,
	"learning_rate": 0.0015,
	"loss": 1.6996,
	"step": 2180
	},
	{
	"epoch": 0.11212369445013312,
	"grad_norm": 0.4772440791130066,
	"learning_rate": 0.0015,
	"loss": 1.705,
	"step": 2190
	},
	{
	"epoch": 0.11263567479008806,
	"grad_norm": 0.4854085147380829,
	"learning_rate": 0.0015,
	"loss": 1.691,
	"step": 2200
	},
	{
	"epoch": 0.113147655130043,
	"grad_norm": 0.4931398928165436,
	"learning_rate": 0.0015,
	"loss": 1.6979,
	"step": 2210
	},
	{
	"epoch": 0.11365963546999795,
	"grad_norm": 0.4212550222873688,
	"learning_rate": 0.0015,
	"loss": 1.6792,
	"step": 2220
	},
	{
	"epoch": 0.1141716158099529,
	"grad_norm": 0.4916476905345917,
	"learning_rate": 0.0015,
	"loss": 1.682,
	"step": 2230
	},
	{
	"epoch": 0.11468359614990785,
	"grad_norm": 0.44974076747894287,
	"learning_rate": 0.0015,
	"loss": 1.6734,
	"step": 2240
	},
	{
	"epoch": 0.11519557648986278,
	"grad_norm": 0.4464137554168701,
	"learning_rate": 0.0015,
	"loss": 1.7032,
	"step": 2250
	},
	{
	"epoch": 0.11570755682981773,
	"grad_norm": 0.4473714530467987,
	"learning_rate": 0.0015,
	"loss": 1.6868,
	"step": 2260
	},
	{
	"epoch": 0.11621953716977268,
	"grad_norm": 0.4802720844745636,
	"learning_rate": 0.0015,
	"loss": 1.6805,
	"step": 2270
	},
	{
	"epoch": 0.11673151750972763,
	"grad_norm": 0.45060625672340393,
	"learning_rate": 0.0015,
	"loss": 1.6716,
	"step": 2280
	},
	{
	"epoch": 0.11724349784968258,
	"grad_norm": 0.47407498955726624,
	"learning_rate": 0.0015,
	"loss": 1.6569,
	"step": 2290
	},
	{
	"epoch": 0.11775547818963752,
	"grad_norm": 0.45615556836128235,
	"learning_rate": 0.0015,
	"loss": 1.6682,
	"step": 2300
	},
	{
	"epoch": 0.11826745852959246,
	"grad_norm": 0.4670998156070709,
	"learning_rate": 0.0015,
	"loss": 1.6785,
	"step": 2310
	},
	{
	"epoch": 0.11877943886954741,
	"grad_norm": 0.45432570576667786,
	"learning_rate": 0.0015,
	"loss": 1.674,
	"step": 2320
	},
	{
	"epoch": 0.11929141920950236,
	"grad_norm": 0.44804081320762634,
	"learning_rate": 0.0015,
	"loss": 1.6619,
	"step": 2330
	},
	{
	"epoch": 0.1198033995494573,
	"grad_norm": 0.4523905813694,
	"learning_rate": 0.0015,
	"loss": 1.6652,
	"step": 2340
	},
	{
	"epoch": 0.12031537988941225,
	"grad_norm": 0.4514728784561157,
	"learning_rate": 0.0015,
	"loss": 1.6652,
	"step": 2350
	},
	{
	"epoch": 0.12082736022936719,
	"grad_norm": 0.41209134459495544,
	"learning_rate": 0.0015,
	"loss": 1.658,
	"step": 2360
	},
	{
	"epoch": 0.12133934056932213,
	"grad_norm": 0.4219752252101898,
	"learning_rate": 0.0015,
	"loss": 1.6379,
	"step": 2370
	},
	{
	"epoch": 0.12185132090927708,
	"grad_norm": 0.47252357006073,
	"learning_rate": 0.0015,
	"loss": 1.6636,
	"step": 2380
	},
	{
	"epoch": 0.12236330124923203,
	"grad_norm": 0.4292849004268646,
	"learning_rate": 0.0015,
	"loss": 1.6528,
	"step": 2390
	},
	{
	"epoch": 0.12287528158918698,
	"grad_norm": 0.4734489917755127,
	"learning_rate": 0.0015,
	"loss": 1.6297,
	"step": 2400
	},
	{
	"epoch": 0.12338726192914191,
	"grad_norm": 0.48543623089790344,
	"learning_rate": 0.0015,
	"loss": 1.6404,
	"step": 2410
	},
	{
	"epoch": 0.12389924226909686,
	"grad_norm": 0.4184911549091339,
	"learning_rate": 0.0015,
	"loss": 1.6315,
	"step": 2420
	},
	{
	"epoch": 0.12441122260905181,
	"grad_norm": 0.42600351572036743,
	"learning_rate": 0.0015,
	"loss": 1.6502,
	"step": 2430
	},
	{
	"epoch": 0.12492320294900676,
	"grad_norm": 0.4201619029045105,
	"learning_rate": 0.0015,
	"loss": 1.6372,
	"step": 2440
	},
	{
	"epoch": 0.1254351832889617,
	"grad_norm": 0.4165250360965729,
	"learning_rate": 0.0015,
	"loss": 1.6334,
	"step": 2450
	},
	{
	"epoch": 0.12594716362891664,
	"grad_norm": 0.4470268487930298,
	"learning_rate": 0.0015,
	"loss": 1.6359,
	"step": 2460
	},
	{
	"epoch": 0.1264591439688716,
	"grad_norm": 0.4310542941093445,
	"learning_rate": 0.0015,
	"loss": 1.6439,
	"step": 2470
	},
	{
	"epoch": 0.12697112430882654,
	"grad_norm": 0.4297926425933838,
	"learning_rate": 0.0015,
	"loss": 1.6222,
	"step": 2480
	},
	{
	"epoch": 0.1274831046487815,
	"grad_norm": 0.45335137844085693,
	"learning_rate": 0.0015,
	"loss": 1.6559,
	"step": 2490
	},
	{
	"epoch": 0.12799508498873644,
	"grad_norm": 0.4176558256149292,
	"learning_rate": 0.0015,
	"loss": 1.6561,
	"step": 2500
	},
	{
	"epoch": 0.12850706532869138,
	"grad_norm": 0.4358290433883667,
	"learning_rate": 0.0015,
	"loss": 1.6241,
	"step": 2510
	},
	{
	"epoch": 0.12901904566864633,
	"grad_norm": 0.44109201431274414,
	"learning_rate": 0.0015,
	"loss": 1.6022,
	"step": 2520
	},
	{
	"epoch": 0.12953102600860128,
	"grad_norm": 0.44387978315353394,
	"learning_rate": 0.0015,
	"loss": 1.6335,
	"step": 2530
	},
	{
	"epoch": 0.13004300634855623,
	"grad_norm": 0.434861421585083,
	"learning_rate": 0.0015,
	"loss": 1.6377,
	"step": 2540
	},
	{
	"epoch": 0.13055498668851115,
	"grad_norm": 0.419826865196228,
	"learning_rate": 0.0015,
	"loss": 1.6238,
	"step": 2550
	},
	{
	"epoch": 0.1310669670284661,
	"grad_norm": 0.471110463142395,
	"learning_rate": 0.0015,
	"loss": 1.6383,
	"step": 2560
	},
	{
	"epoch": 0.13157894736842105,
	"grad_norm": 0.44935643672943115,
	"learning_rate": 0.0015,
	"loss": 1.6006,
	"step": 2570
	},
	{
	"epoch": 0.132090927708376,
	"grad_norm": 0.4497852027416229,
	"learning_rate": 0.0015,
	"loss": 1.6115,
	"step": 2580
	},
	{
	"epoch": 0.13260290804833094,
	"grad_norm": 0.45850351452827454,
	"learning_rate": 0.0015,
	"loss": 1.6194,
	"step": 2590
	},
	{
	"epoch": 0.1331148883882859,
	"grad_norm": 0.40869665145874023,
	"learning_rate": 0.0015,
	"loss": 1.6159,
	"step": 2600
	},
	{
	"epoch": 0.13362686872824084,
	"grad_norm": 0.4347962737083435,
	"learning_rate": 0.0015,
	"loss": 1.6254,
	"step": 2610
	},
	{
	"epoch": 0.1341388490681958,
	"grad_norm": 0.4899897873401642,
	"learning_rate": 0.0015,
	"loss": 1.6296,
	"step": 2620
	},
	{
	"epoch": 0.13465082940815074,
	"grad_norm": 0.44309839606285095,
	"learning_rate": 0.0015,
	"loss": 1.6179,
	"step": 2630
	},
	{
	"epoch": 0.13516280974810568,
	"grad_norm": 0.3890606164932251,
	"learning_rate": 0.0015,
	"loss": 1.6044,
	"step": 2640
	},
	{
	"epoch": 0.13567479008806063,
	"grad_norm": 0.42358025908470154,
	"learning_rate": 0.0015,
	"loss": 1.619,
	"step": 2650
	},
	{
	"epoch": 0.13618677042801555,
	"grad_norm": 0.42111581563949585,
	"learning_rate": 0.0015,
	"loss": 1.6127,
	"step": 2660
	},
	{
	"epoch": 0.1366987507679705,
	"grad_norm": 0.4441932141780853,
	"learning_rate": 0.0015,
	"loss": 1.6224,
	"step": 2670
	},
	{
	"epoch": 0.13721073110792545,
	"grad_norm": 0.4351959228515625,
	"learning_rate": 0.0015,
	"loss": 1.5957,
	"step": 2680
	},
	{
	"epoch": 0.1377227114478804,
	"grad_norm": 0.43544304370880127,
	"learning_rate": 0.0015,
	"loss": 1.5925,
	"step": 2690
	},
	{
	"epoch": 0.13823469178783535,
	"grad_norm": 0.4298728406429291,
	"learning_rate": 0.0015,
	"loss": 1.5893,
	"step": 2700
	},
	{
	"epoch": 0.1387466721277903,
	"grad_norm": 0.4463229477405548,
	"learning_rate": 0.0015,
	"loss": 1.5881,
	"step": 2710
	},
	{
	"epoch": 0.13925865246774524,
	"grad_norm": 0.43847158551216125,
	"learning_rate": 0.0015,
	"loss": 1.5982,
	"step": 2720
	},
	{
	"epoch": 0.1397706328077002,
	"grad_norm": 0.44918614625930786,
	"learning_rate": 0.0015,
	"loss": 1.6095,
	"step": 2730
	},
	{
	"epoch": 0.14028261314765514,
	"grad_norm": 0.45398586988449097,
	"learning_rate": 0.0015,
	"loss": 1.5985,
	"step": 2740
	},
	{
	"epoch": 0.1407945934876101,
	"grad_norm": 0.41213494539260864,
	"learning_rate": 0.0015,
	"loss": 1.6153,
	"step": 2750
	},
	{
	"epoch": 0.14130657382756504,
	"grad_norm": 0.41266897320747375,
	"learning_rate": 0.0015,
	"loss": 1.5919,
	"step": 2760
	},
	{
	"epoch": 0.14181855416751996,
	"grad_norm": 0.42942896485328674,
	"learning_rate": 0.0015,
	"loss": 1.5793,
	"step": 2770
	},
	{
	"epoch": 0.1423305345074749,
	"grad_norm": 0.4180223047733307,
	"learning_rate": 0.0015,
	"loss": 1.5938,
	"step": 2780
	},
	{
	"epoch": 0.14284251484742985,
	"grad_norm": 0.4204559922218323,
	"learning_rate": 0.0015,
	"loss": 1.5927,
	"step": 2790
	},
	{
	"epoch": 0.1433544951873848,
	"grad_norm": 0.43727442622184753,
	"learning_rate": 0.0015,
	"loss": 1.6018,
	"step": 2800
	},
	{
	"epoch": 0.14386647552733975,
	"grad_norm": 0.4330785870552063,
	"learning_rate": 0.0015,
	"loss": 1.6004,
	"step": 2810
	},
	{
	"epoch": 0.1443784558672947,
	"grad_norm": 0.415101021528244,
	"learning_rate": 0.0015,
	"loss": 1.5708,
	"step": 2820
	},
	{
	"epoch": 0.14489043620724965,
	"grad_norm": 0.41477903723716736,
	"learning_rate": 0.0015,
	"loss": 1.5747,
	"step": 2830
	},
	{
	"epoch": 0.1454024165472046,
	"grad_norm": 0.4343889653682709,
	"learning_rate": 0.0015,
	"loss": 1.5958,
	"step": 2840
	},
	{
	"epoch": 0.14591439688715954,
	"grad_norm": 0.4018150866031647,
	"learning_rate": 0.0015,
	"loss": 1.5589,
	"step": 2850
	},
	{
	"epoch": 0.1464263772271145,
	"grad_norm": 0.4799724817276001,
	"learning_rate": 0.0015,
	"loss": 1.5745,
	"step": 2860
	},
	{
	"epoch": 0.1469383575670694,
	"grad_norm": 0.42355528473854065,
	"learning_rate": 0.0015,
	"loss": 1.5928,
	"step": 2870
	},
	{
	"epoch": 0.14745033790702436,
	"grad_norm": 0.40638747811317444,
	"learning_rate": 0.0015,
	"loss": 1.5623,
	"step": 2880
	},
	{
	"epoch": 0.1479623182469793,
	"grad_norm": 0.39846664667129517,
	"learning_rate": 0.0015,
	"loss": 1.577,
	"step": 2890
	},
	{
	"epoch": 0.14847429858693426,
	"grad_norm": 0.4010321795940399,
	"learning_rate": 0.0015,
	"loss": 1.5821,
	"step": 2900
	},
	{
	"epoch": 0.1489862789268892,
	"grad_norm": 0.42778313159942627,
	"learning_rate": 0.0015,
	"loss": 1.5623,
	"step": 2910
	},
	{
	"epoch": 0.14949825926684415,
	"grad_norm": 0.39266425371170044,
	"learning_rate": 0.0015,
	"loss": 1.5821,
	"step": 2920
	},
	{
	"epoch": 0.1500102396067991,
	"grad_norm": 0.40784794092178345,
	"learning_rate": 0.0015,
	"loss": 1.5664,
	"step": 2930
	},
	{
	"epoch": 0.15052221994675405,
	"grad_norm": 0.43437501788139343,
	"learning_rate": 0.0015,
	"loss": 1.5658,
	"step": 2940
	},
	{
	"epoch": 0.151034200286709,
	"grad_norm": 0.4373057186603546,
	"learning_rate": 0.0015,
	"loss": 1.5591,
	"step": 2950
	},
	{
	"epoch": 0.15154618062666395,
	"grad_norm": 0.40370023250579834,
	"learning_rate": 0.0015,
	"loss": 1.555,
	"step": 2960
	},
	{
	"epoch": 0.1520581609666189,
	"grad_norm": 0.4626748263835907,
	"learning_rate": 0.0015,
	"loss": 1.5808,
	"step": 2970
	},
	{
	"epoch": 0.15257014130657381,
	"grad_norm": 0.4095107614994049,
	"learning_rate": 0.0015,
	"loss": 1.5705,
	"step": 2980
	},
	{
	"epoch": 0.15308212164652876,
	"grad_norm": 0.4343841075897217,
	"learning_rate": 0.0015,
	"loss": 1.5738,
	"step": 2990
	},
	{
	"epoch": 0.1535941019864837,
	"grad_norm": 0.42325645685195923,
	"learning_rate": 0.0015,
	"loss": 1.567,
	"step": 3000
	},
	{
	"epoch": 0.15410608232643866,
	"grad_norm": 0.39237692952156067,
	"learning_rate": 0.0015,
	"loss": 1.5748,
	"step": 3010
	},
	{
	"epoch": 0.1546180626663936,
	"grad_norm": 0.39682793617248535,
	"learning_rate": 0.0015,
	"loss": 1.5711,
	"step": 3020
	},
	{
	"epoch": 0.15513004300634856,
	"grad_norm": 0.4060477614402771,
	"learning_rate": 0.0015,
	"loss": 1.5623,
	"step": 3030
	},
	{
	"epoch": 0.1556420233463035,
	"grad_norm": 0.4088119864463806,
	"learning_rate": 0.0015,
	"loss": 1.5532,
	"step": 3040
	},
	{
	"epoch": 0.15615400368625845,
	"grad_norm": 0.39976736903190613,
	"learning_rate": 0.0015,
	"loss": 1.5436,
	"step": 3050
	},
	{
	"epoch": 0.1566659840262134,
	"grad_norm": 0.42855167388916016,
	"learning_rate": 0.0015,
	"loss": 1.5577,
	"step": 3060
	},
	{
	"epoch": 0.15717796436616835,
	"grad_norm": 0.4451335072517395,
	"learning_rate": 0.0015,
	"loss": 1.5375,
	"step": 3070
	},
	{
	"epoch": 0.1576899447061233,
	"grad_norm": 0.3867264688014984,
	"learning_rate": 0.0015,
	"loss": 1.5418,
	"step": 3080
	},
	{
	"epoch": 0.15820192504607822,
	"grad_norm": 0.4165036976337433,
	"learning_rate": 0.0015,
	"loss": 1.564,
	"step": 3090
	},
	{
	"epoch": 0.15871390538603317,
	"grad_norm": 0.3978787958621979,
	"learning_rate": 0.0015,
	"loss": 1.5408,
	"step": 3100
	},
	{
	"epoch": 0.15922588572598811,
	"grad_norm": 0.37848272919654846,
	"learning_rate": 0.0015,
	"loss": 1.5477,
	"step": 3110
	},
	{
	"epoch": 0.15973786606594306,
	"grad_norm": 0.4218755066394806,
	"learning_rate": 0.0015,
	"loss": 1.5533,
	"step": 3120
	},
	{
	"epoch": 0.160249846405898,
	"grad_norm": 0.38090386986732483,
	"learning_rate": 0.0015,
	"loss": 1.5453,
	"step": 3130
	},
	{
	"epoch": 0.16076182674585296,
	"grad_norm": 0.39693617820739746,
	"learning_rate": 0.0015,
	"loss": 1.5633,
	"step": 3140
	},
	{
	"epoch": 0.1612738070858079,
	"grad_norm": 0.3855767250061035,
	"learning_rate": 0.0015,
	"loss": 1.5381,
	"step": 3150
	},
	{
	"epoch": 0.16178578742576286,
	"grad_norm": 0.3672980070114136,
	"learning_rate": 0.0015,
	"loss": 1.5458,
	"step": 3160
	},
	{
	"epoch": 0.1622977677657178,
	"grad_norm": 0.3810063302516937,
	"learning_rate": 0.0015,
	"loss": 1.559,
	"step": 3170
	},
	{
	"epoch": 0.16280974810567275,
	"grad_norm": 0.4658653140068054,
	"learning_rate": 0.0015,
	"loss": 1.5274,
	"step": 3180
	},
	{
	"epoch": 0.1633217284456277,
	"grad_norm": 0.40785935521125793,
	"learning_rate": 0.0015,
	"loss": 1.5279,
	"step": 3190
	},
	{
	"epoch": 0.16383370878558262,
	"grad_norm": 0.40147677063941956,
	"learning_rate": 0.0015,
	"loss": 1.542,
	"step": 3200
	},
	{
	"epoch": 0.16434568912553757,
	"grad_norm": 0.39116302132606506,
	"learning_rate": 0.0015,
	"loss": 1.5148,
	"step": 3210
	},
	{
	"epoch": 0.16485766946549252,
	"grad_norm": 0.3875216245651245,
	"learning_rate": 0.0015,
	"loss": 1.5289,
	"step": 3220
	},
	{
	"epoch": 0.16536964980544747,
	"grad_norm": 0.4106022119522095,
	"learning_rate": 0.0015,
	"loss": 1.5358,
	"step": 3230
	},
	{
	"epoch": 0.16588163014540241,
	"grad_norm": 0.393637090921402,
	"learning_rate": 0.0015,
	"loss": 1.5334,
	"step": 3240
	},
	{
	"epoch": 0.16639361048535736,
	"grad_norm": 0.3800962269306183,
	"learning_rate": 0.0015,
	"loss": 1.5364,
	"step": 3250
	},
	{
	"epoch": 0.1669055908253123,
	"grad_norm": 0.3848235011100769,
	"learning_rate": 0.0015,
	"loss": 1.5411,
	"step": 3260
	},
	{
	"epoch": 0.16741757116526726,
	"grad_norm": 0.38832154870033264,
	"learning_rate": 0.0015,
	"loss": 1.5373,
	"step": 3270
	},
	{
	"epoch": 0.1679295515052222,
	"grad_norm": 0.43623119592666626,
	"learning_rate": 0.0015,
	"loss": 1.5558,
	"step": 3280
	},
	{
	"epoch": 0.16844153184517716,
	"grad_norm": 0.3507107198238373,
	"learning_rate": 0.0015,
	"loss": 1.5365,
	"step": 3290
	},
	{
	"epoch": 0.1689535121851321,
	"grad_norm": 0.38700392842292786,
	"learning_rate": 0.0015,
	"loss": 1.5383,
	"step": 3300
	},
	{
	"epoch": 0.16946549252508702,
	"grad_norm": 0.38841623067855835,
	"learning_rate": 0.0015,
	"loss": 1.5399,
	"step": 3310
	},
	{
	"epoch": 0.16997747286504197,
	"grad_norm": 0.39128798246383667,
	"learning_rate": 0.0015,
	"loss": 1.5271,
	"step": 3320
	},
	{
	"epoch": 0.17048945320499692,
	"grad_norm": 0.38994646072387695,
	"learning_rate": 0.0015,
	"loss": 1.5317,
	"step": 3330
	},
	{
	"epoch": 0.17100143354495187,
	"grad_norm": 0.37731438875198364,
	"learning_rate": 0.0015,
	"loss": 1.5251,
	"step": 3340
	},
	{
	"epoch": 0.17151341388490682,
	"grad_norm": 0.4156712293624878,
	"learning_rate": 0.0015,
	"loss": 1.5221,
	"step": 3350
	},
	{
	"epoch": 0.17202539422486177,
	"grad_norm": 0.38232874870300293,
	"learning_rate": 0.0015,
	"loss": 1.5196,
	"step": 3360
	},
	{
	"epoch": 0.17253737456481671,
	"grad_norm": 0.3940838575363159,
	"learning_rate": 0.0015,
	"loss": 1.5213,
	"step": 3370
	},
	{
	"epoch": 0.17304935490477166,
	"grad_norm": 0.4050334393978119,
	"learning_rate": 0.0015,
	"loss": 1.5159,
	"step": 3380
	},
	{
	"epoch": 0.1735613352447266,
	"grad_norm": 0.3736588954925537,
	"learning_rate": 0.0015,
	"loss": 1.5157,
	"step": 3390
	},
	{
	"epoch": 0.17407331558468156,
	"grad_norm": 0.40355414152145386,
	"learning_rate": 0.0015,
	"loss": 1.5446,
	"step": 3400
	},
	{
	"epoch": 0.1745852959246365,
	"grad_norm": 0.37198445200920105,
	"learning_rate": 0.0015,
	"loss": 1.5322,
	"step": 3410
	},
	{
	"epoch": 0.17509727626459143,
	"grad_norm": 0.35825085639953613,
	"learning_rate": 0.0015,
	"loss": 1.5136,
	"step": 3420
	},
	{
	"epoch": 0.17560925660454638,
	"grad_norm": 0.4174591302871704,
	"learning_rate": 0.0015,
	"loss": 1.5092,
	"step": 3430
	},
	{
	"epoch": 0.17612123694450132,
	"grad_norm": 0.38272011280059814,
	"learning_rate": 0.0015,
	"loss": 1.515,
	"step": 3440
	},
	{
	"epoch": 0.17663321728445627,
	"grad_norm": 0.4088602364063263,
	"learning_rate": 0.0015,
	"loss": 1.5089,
	"step": 3450
	},
	{
	"epoch": 0.17714519762441122,
	"grad_norm": 0.37706780433654785,
	"learning_rate": 0.0015,
	"loss": 1.513,
	"step": 3460
	},
	{
	"epoch": 0.17765717796436617,
	"grad_norm": 0.3772091865539551,
	"learning_rate": 0.0015,
	"loss": 1.5096,
	"step": 3470
	},
	{
	"epoch": 0.17816915830432112,
	"grad_norm": 0.3540133535861969,
	"learning_rate": 0.0015,
	"loss": 1.5099,
	"step": 3480
	},
	{
	"epoch": 0.17868113864427607,
	"grad_norm": 0.36549830436706543,
	"learning_rate": 0.0015,
	"loss": 1.511,
	"step": 3490
	},
	{
	"epoch": 0.17919311898423101,
	"grad_norm": 0.39273905754089355,
	"learning_rate": 0.0015,
	"loss": 1.5005,
	"step": 3500
	},
	{
	"epoch": 0.17970509932418596,
	"grad_norm": 0.35500046610832214,
	"learning_rate": 0.0015,
	"loss": 1.4962,
	"step": 3510
	},
	{
	"epoch": 0.18021707966414088,
	"grad_norm": 0.39818084239959717,
	"learning_rate": 0.0015,
	"loss": 1.4951,
	"step": 3520
	},
	{
	"epoch": 0.18072906000409583,
	"grad_norm": 0.3649390637874603,
	"learning_rate": 0.0015,
	"loss": 1.5038,
	"step": 3530
	},
	{
	"epoch": 0.18124104034405078,
	"grad_norm": 0.376000314950943,
	"learning_rate": 0.0015,
	"loss": 1.4945,
	"step": 3540
	},
	{
	"epoch": 0.18175302068400573,
	"grad_norm": 0.3638756573200226,
	"learning_rate": 0.0015,
	"loss": 1.5012,
	"step": 3550
	},
	{
	"epoch": 0.18226500102396068,
	"grad_norm": 0.3695107400417328,
	"learning_rate": 0.0015,
	"loss": 1.5261,
	"step": 3560
	},
	{
	"epoch": 0.18277698136391562,
	"grad_norm": 0.424125999212265,
	"learning_rate": 0.0015,
	"loss": 1.5245,
	"step": 3570
	},
	{
	"epoch": 0.18328896170387057,
	"grad_norm": 0.3683246374130249,
	"learning_rate": 0.0015,
	"loss": 1.507,
	"step": 3580
	},
	{
	"epoch": 0.18380094204382552,
	"grad_norm": 0.3763924241065979,
	"learning_rate": 0.0015,
	"loss": 1.4671,
	"step": 3590
	},
	{
	"epoch": 0.18431292238378047,
	"grad_norm": 0.3692323565483093,
	"learning_rate": 0.0015,
	"loss": 1.5182,
	"step": 3600
	},
	{
	"epoch": 0.18482490272373542,
	"grad_norm": 0.37030673027038574,
	"learning_rate": 0.0015,
	"loss": 1.5037,
	"step": 3610
	},
	{
	"epoch": 0.18533688306369037,
	"grad_norm": 0.3666503429412842,
	"learning_rate": 0.0015,
	"loss": 1.499,
	"step": 3620
	},
	{
	"epoch": 0.1858488634036453,
	"grad_norm": 0.3609069287776947,
	"learning_rate": 0.0015,
	"loss": 1.5052,
	"step": 3630
	},
	{
	"epoch": 0.18636084374360024,
	"grad_norm": 0.3748449683189392,
	"learning_rate": 0.0015,
	"loss": 1.4596,
	"step": 3640
	},
	{
	"epoch": 0.18687282408355518,
	"grad_norm": 0.4080664813518524,
	"learning_rate": 0.0015,
	"loss": 1.5051,
	"step": 3650
	},
	{
	"epoch": 0.18738480442351013,
	"grad_norm": 0.3743340075016022,
	"learning_rate": 0.0015,
	"loss": 1.4658,
	"step": 3660
	},
	{
	"epoch": 0.18789678476346508,
	"grad_norm": 0.36924538016319275,
	"learning_rate": 0.0015,
	"loss": 1.474,
	"step": 3670
	},
	{
	"epoch": 0.18840876510342003,
	"grad_norm": 0.3834936022758484,
	"learning_rate": 0.0015,
	"loss": 1.4952,
	"step": 3680
	},
	{
	"epoch": 0.18892074544337498,
	"grad_norm": 0.3493509590625763,
	"learning_rate": 0.0015,
	"loss": 1.4765,
	"step": 3690
	},
	{
	"epoch": 0.18943272578332992,
	"grad_norm": 0.3550162613391876,
	"learning_rate": 0.0015,
	"loss": 1.4928,
	"step": 3700
	},
	{
	"epoch": 0.18994470612328487,
	"grad_norm": 0.3747323155403137,
	"learning_rate": 0.0015,
	"loss": 1.4872,
	"step": 3710
	},
	{
	"epoch": 0.19045668646323982,
	"grad_norm": 0.3649948835372925,
	"learning_rate": 0.0015,
	"loss": 1.5015,
	"step": 3720
	},
	{
	"epoch": 0.19096866680319477,
	"grad_norm": 0.37357765436172485,
	"learning_rate": 0.0015,
	"loss": 1.4828,
	"step": 3730
	},
	{
	"epoch": 0.1914806471431497,
	"grad_norm": 0.36136525869369507,
	"learning_rate": 0.0015,
	"loss": 1.5063,
	"step": 3740
	},
	{
	"epoch": 0.19199262748310464,
	"grad_norm": 0.35555464029312134,
	"learning_rate": 0.0015,
	"loss": 1.4797,
	"step": 3750
	},
	{
	"epoch": 0.1925046078230596,
	"grad_norm": 0.3460323214530945,
	"learning_rate": 0.0015,
	"loss": 1.4913,
	"step": 3760
	},
	{
	"epoch": 0.19301658816301454,
	"grad_norm": 0.35079696774482727,
	"learning_rate": 0.0015,
	"loss": 1.4714,
	"step": 3770
	},
	{
	"epoch": 0.19352856850296948,
	"grad_norm": 0.3562418818473816,
	"learning_rate": 0.0015,
	"loss": 1.4816,
	"step": 3780
	},
	{
	"epoch": 0.19404054884292443,
	"grad_norm": 0.3714292049407959,
	"learning_rate": 0.0015,
	"loss": 1.496,
	"step": 3790
	},
	{
	"epoch": 0.19455252918287938,
	"grad_norm": 0.37646958231925964,
	"learning_rate": 0.0015,
	"loss": 1.4814,
	"step": 3800
	},
	{
	"epoch": 0.19506450952283433,
	"grad_norm": 0.37127116322517395,
	"learning_rate": 0.0015,
	"loss": 1.4902,
	"step": 3810
	},
	{
	"epoch": 0.19557648986278928,
	"grad_norm": 0.3644818961620331,
	"learning_rate": 0.0015,
	"loss": 1.4811,
	"step": 3820
	},
	{
	"epoch": 0.19608847020274423,
	"grad_norm": 0.38677945733070374,
	"learning_rate": 0.0015,
	"loss": 1.5001,
	"step": 3830
	},
	{
	"epoch": 0.19660045054269917,
	"grad_norm": 0.379823237657547,
	"learning_rate": 0.0015,
	"loss": 1.4665,
	"step": 3840
	},
	{
	"epoch": 0.1971124308826541,
	"grad_norm": 0.37844884395599365,
	"learning_rate": 0.0015,
	"loss": 1.4783,
	"step": 3850
	},
	{
	"epoch": 0.19762441122260904,
	"grad_norm": 0.36030471324920654,
	"learning_rate": 0.0015,
	"loss": 1.4883,
	"step": 3860
	},
	{
	"epoch": 0.198136391562564,
	"grad_norm": 0.3515039384365082,
	"learning_rate": 0.0015,
	"loss": 1.4614,
	"step": 3870
	},
	{
	"epoch": 0.19864837190251894,
	"grad_norm": 0.3469856381416321,
	"learning_rate": 0.0015,
	"loss": 1.4669,
	"step": 3880
	},
	{
	"epoch": 0.1991603522424739,
	"grad_norm": 0.3526422381401062,
	"learning_rate": 0.0015,
	"loss": 1.4568,
	"step": 3890
	},
	{
	"epoch": 0.19967233258242884,
	"grad_norm": 0.34970229864120483,
	"learning_rate": 0.0015,
	"loss": 1.4467,
	"step": 3900
	},
	{
	"epoch": 0.20018431292238378,
	"grad_norm": 0.35208991169929504,
	"learning_rate": 0.0015,
	"loss": 1.5057,
	"step": 3910
	},
	{
	"epoch": 0.20069629326233873,
	"grad_norm": 0.35446539521217346,
	"learning_rate": 0.0015,
	"loss": 1.4677,
	"step": 3920
	},
	{
	"epoch": 0.20120827360229368,
	"grad_norm": 0.32680749893188477,
	"learning_rate": 0.0015,
	"loss": 1.4577,
	"step": 3930
	},
	{
	"epoch": 0.20172025394224863,
	"grad_norm": 0.3479768931865692,
	"learning_rate": 0.0015,
	"loss": 1.4679,
	"step": 3940
	},
	{
	"epoch": 0.20223223428220358,
	"grad_norm": 0.3349073529243469,
	"learning_rate": 0.0015,
	"loss": 1.4497,
	"step": 3950
	},
	{
	"epoch": 0.2027442146221585,
	"grad_norm": 0.35016781091690063,
	"learning_rate": 0.0015,
	"loss": 1.449,
	"step": 3960
	},
	{
	"epoch": 0.20325619496211345,
	"grad_norm": 0.349086195230484,
	"learning_rate": 0.0015,
	"loss": 1.4751,
	"step": 3970
	},
	{
	"epoch": 0.2037681753020684,
	"grad_norm": 0.36575040221214294,
	"learning_rate": 0.0015,
	"loss": 1.4653,
	"step": 3980
	},
	{
	"epoch": 0.20428015564202334,
	"grad_norm": 0.34002363681793213,
	"learning_rate": 0.0015,
	"loss": 1.4826,
	"step": 3990
	},
	{
	"epoch": 0.2047921359819783,
	"grad_norm": 0.36541834473609924,
	"learning_rate": 0.0015,
	"loss": 1.4485,
	"step": 4000
	},
	{
	"epoch": 0.20530411632193324,
	"grad_norm": 0.3874847888946533,
	"learning_rate": 0.0015,
	"loss": 1.478,
	"step": 4010
	},
	{
	"epoch": 0.2058160966618882,
	"grad_norm": 0.36418798565864563,
	"learning_rate": 0.0015,
	"loss": 1.4629,
	"step": 4020
	},
	{
	"epoch": 0.20632807700184314,
	"grad_norm": 0.34188389778137207,
	"learning_rate": 0.0015,
	"loss": 1.4784,
	"step": 4030
	},
	{
	"epoch": 0.20684005734179808,
	"grad_norm": 0.35976287722587585,
	"learning_rate": 0.0015,
	"loss": 1.458,
	"step": 4040
	},
	{
	"epoch": 0.20735203768175303,
	"grad_norm": 0.37284791469573975,
	"learning_rate": 0.0015,
	"loss": 1.471,
	"step": 4050
	},
	{
	"epoch": 0.20786401802170798,
	"grad_norm": 0.3462198078632355,
	"learning_rate": 0.0015,
	"loss": 1.4748,
	"step": 4060
	},
	{
	"epoch": 0.2083759983616629,
	"grad_norm": 0.3988822102546692,
	"learning_rate": 0.0015,
	"loss": 1.4576,
	"step": 4070
	},
	{
	"epoch": 0.20888797870161785,
	"grad_norm": 0.361892431974411,
	"learning_rate": 0.0015,
	"loss": 1.4516,
	"step": 4080
	},
	{
	"epoch": 0.2093999590415728,
	"grad_norm": 0.3648587763309479,
	"learning_rate": 0.0015,
	"loss": 1.4537,
	"step": 4090
	},
	{
	"epoch": 0.20991193938152775,
	"grad_norm": 0.35592299699783325,
	"learning_rate": 0.0015,
	"loss": 1.4346,
	"step": 4100
	},
	{
	"epoch": 0.2104239197214827,
	"grad_norm": 0.3457651138305664,
	"learning_rate": 0.0015,
	"loss": 1.4455,
	"step": 4110
	},
	{
	"epoch": 0.21093590006143764,
	"grad_norm": 0.3580280542373657,
	"learning_rate": 0.0015,
	"loss": 1.452,
	"step": 4120
	},
	{
	"epoch": 0.2114478804013926,
	"grad_norm": 0.3704809844493866,
	"learning_rate": 0.0015,
	"loss": 1.4655,
	"step": 4130
	},
	{
	"epoch": 0.21195986074134754,
	"grad_norm": 0.37433552742004395,
	"learning_rate": 0.0015,
	"loss": 1.4526,
	"step": 4140
	},
	{
	"epoch": 0.2124718410813025,
	"grad_norm": 0.35324522852897644,
	"learning_rate": 0.0015,
	"loss": 1.4651,
	"step": 4150
	},
	{
	"epoch": 0.21298382142125744,
	"grad_norm": 0.34257858991622925,
	"learning_rate": 0.0015,
	"loss": 1.4454,
	"step": 4160
	},
	{
	"epoch": 0.21349580176121236,
	"grad_norm": 0.34159529209136963,
	"learning_rate": 0.0015,
	"loss": 1.4561,
	"step": 4170
	},
	{
	"epoch": 0.2140077821011673,
	"grad_norm": 0.3691791296005249,
	"learning_rate": 0.0015,
	"loss": 1.4496,
	"step": 4180
	},
	{
	"epoch": 0.21451976244112225,
	"grad_norm": 0.3290902078151703,
	"learning_rate": 0.0015,
	"loss": 1.4477,
	"step": 4190
	},
	{
	"epoch": 0.2150317427810772,
	"grad_norm": 0.35127583146095276,
	"learning_rate": 0.0015,
	"loss": 1.4389,
	"step": 4200
	},
	{
	"epoch": 0.21554372312103215,
	"grad_norm": 0.3416004776954651,
	"learning_rate": 0.0015,
	"loss": 1.4569,
	"step": 4210
	},
	{
	"epoch": 0.2160557034609871,
	"grad_norm": 0.33589133620262146,
	"learning_rate": 0.0015,
	"loss": 1.4536,
	"step": 4220
	},
	{
	"epoch": 0.21656768380094205,
	"grad_norm": 0.3249707818031311,
	"learning_rate": 0.0015,
	"loss": 1.4421,
	"step": 4230
	},
	{
	"epoch": 0.217079664140897,
	"grad_norm": 0.3269306719303131,
	"learning_rate": 0.0015,
	"loss": 1.4644,
	"step": 4240
	},
	{
	"epoch": 0.21759164448085194,
	"grad_norm": 0.34012100100517273,
	"learning_rate": 0.0015,
	"loss": 1.4419,
	"step": 4250
	},
	{
	"epoch": 0.2181036248208069,
	"grad_norm": 0.3248611390590668,
	"learning_rate": 0.0015,
	"loss": 1.4321,
	"step": 4260
	},
	{
	"epoch": 0.21861560516076184,
	"grad_norm": 0.33508434891700745,
	"learning_rate": 0.0015,
	"loss": 1.4547,
	"step": 4270
	},
	{
	"epoch": 0.21912758550071676,
	"grad_norm": 0.3807787597179413,
	"learning_rate": 0.0015,
	"loss": 1.441,
	"step": 4280
	},
	{
	"epoch": 0.2196395658406717,
	"grad_norm": 0.34403491020202637,
	"learning_rate": 0.0015,
	"loss": 1.4309,
	"step": 4290
	},
	{
	"epoch": 0.22015154618062666,
	"grad_norm": 0.339507520198822,
	"learning_rate": 0.0015,
	"loss": 1.4408,
	"step": 4300
	},
	{
	"epoch": 0.2206635265205816,
	"grad_norm": 0.34783267974853516,
	"learning_rate": 0.0015,
	"loss": 1.4362,
	"step": 4310
	},
	{
	"epoch": 0.22117550686053655,
	"grad_norm": 0.3477760851383209,
	"learning_rate": 0.0015,
	"loss": 1.4743,
	"step": 4320
	},
	{
	"epoch": 0.2216874872004915,
	"grad_norm": 0.33150288462638855,
	"learning_rate": 0.0015,
	"loss": 1.4338,
	"step": 4330
	},
	{
	"epoch": 0.22219946754044645,
	"grad_norm": 0.3353327810764313,
	"learning_rate": 0.0015,
	"loss": 1.4389,
	"step": 4340
	},
	{
	"epoch": 0.2227114478804014,
	"grad_norm": 0.35436680912971497,
	"learning_rate": 0.0015,
	"loss": 1.4221,
	"step": 4350
	},
	{
	"epoch": 0.22322342822035635,
	"grad_norm": 0.35052821040153503,
	"learning_rate": 0.0015,
	"loss": 1.4463,
	"step": 4360
	},
	{
	"epoch": 0.2237354085603113,
	"grad_norm": 0.3383365273475647,
	"learning_rate": 0.0015,
	"loss": 1.4438,
	"step": 4370
	},
	{
	"epoch": 0.22424738890026624,
	"grad_norm": 0.33028966188430786,
	"learning_rate": 0.0015,
	"loss": 1.4365,
	"step": 4380
	},
	{
	"epoch": 0.22475936924022116,
	"grad_norm": 0.3439690172672272,
	"learning_rate": 0.0015,
	"loss": 1.434,
	"step": 4390
	},
	{
	"epoch": 0.2252713495801761,
	"grad_norm": 0.3257237374782562,
	"learning_rate": 0.0015,
	"loss": 1.4268,
	"step": 4400
	},
	{
	"epoch": 0.22578332992013106,
	"grad_norm": 0.34487271308898926,
	"learning_rate": 0.0015,
	"loss": 1.419,
	"step": 4410
	},
	{
	"epoch": 0.226295310260086,
	"grad_norm": 0.3513702154159546,
	"learning_rate": 0.0015,
	"loss": 1.416,
	"step": 4420
	},
	{
	"epoch": 0.22680729060004096,
	"grad_norm": 0.32178881764411926,
	"learning_rate": 0.0015,
	"loss": 1.4267,
	"step": 4430
	},
	{
	"epoch": 0.2273192709399959,
	"grad_norm": 0.32011663913726807,
	"learning_rate": 0.0015,
	"loss": 1.4269,
	"step": 4440
	},
	{
	"epoch": 0.22783125127995085,
	"grad_norm": 0.3356774151325226,
	"learning_rate": 0.0015,
	"loss": 1.4253,
	"step": 4450
	},
	{
	"epoch": 0.2283432316199058,
	"grad_norm": 0.33938485383987427,
	"learning_rate": 0.0015,
	"loss": 1.4137,
	"step": 4460
	},
	{
	"epoch": 0.22885521195986075,
	"grad_norm": 0.3313305675983429,
	"learning_rate": 0.0015,
	"loss": 1.4178,
	"step": 4470
	},
	{
	"epoch": 0.2293671922998157,
	"grad_norm": 0.31967252492904663,
	"learning_rate": 0.0015,
	"loss": 1.4421,
	"step": 4480
	},
	{
	"epoch": 0.22987917263977065,
	"grad_norm": 0.3485276401042938,
	"learning_rate": 0.0015,
	"loss": 1.4202,
	"step": 4490
	},
	{
	"epoch": 0.23039115297972557,
	"grad_norm": 0.3465486764907837,
	"learning_rate": 0.0015,
	"loss": 1.4364,
	"step": 4500
	},
	{
	"epoch": 0.23090313331968051,
	"grad_norm": 0.3443972170352936,
	"learning_rate": 0.0015,
	"loss": 1.4326,
	"step": 4510
	},
	{
	"epoch": 0.23141511365963546,
	"grad_norm": 0.33160969614982605,
	"learning_rate": 0.0015,
	"loss": 1.4147,
	"step": 4520
	},
	{
	"epoch": 0.2319270939995904,
	"grad_norm": 0.3427571952342987,
	"learning_rate": 0.0015,
	"loss": 1.4316,
	"step": 4530
	},
	{
	"epoch": 0.23243907433954536,
	"grad_norm": 0.3282462954521179,
	"learning_rate": 0.0015,
	"loss": 1.3933,
	"step": 4540
	},
	{
	"epoch": 0.2329510546795003,
	"grad_norm": 0.3840288519859314,
	"learning_rate": 0.0015,
	"loss": 1.4206,
	"step": 4550
	},
	{
	"epoch": 0.23346303501945526,
	"grad_norm": 0.34188082814216614,
	"learning_rate": 0.0015,
	"loss": 1.4286,
	"step": 4560
	},
	{
	"epoch": 0.2339750153594102,
	"grad_norm": 0.32480111718177795,
	"learning_rate": 0.0015,
	"loss": 1.4191,
	"step": 4570
	},
	{
	"epoch": 0.23448699569936515,
	"grad_norm": 0.3416594862937927,
	"learning_rate": 0.0015,
	"loss": 1.432,
	"step": 4580
	},
	{
	"epoch": 0.2349989760393201,
	"grad_norm": 0.32898756861686707,
	"learning_rate": 0.0015,
	"loss": 1.414,
	"step": 4590
	},
	{
	"epoch": 0.23551095637927505,
	"grad_norm": 0.3290642499923706,
	"learning_rate": 0.0015,
	"loss": 1.4272,
	"step": 4600
	},
	{
	"epoch": 0.23602293671922997,
	"grad_norm": 0.333150178194046,
	"learning_rate": 0.0015,
	"loss": 1.4254,
	"step": 4610
	},
	{
	"epoch": 0.23653491705918492,
	"grad_norm": 0.30599096417427063,
	"learning_rate": 0.0015,
	"loss": 1.4255,
	"step": 4620
	},
	{
	"epoch": 0.23704689739913987,
	"grad_norm": 0.34288567304611206,
	"learning_rate": 0.0015,
	"loss": 1.4027,
	"step": 4630
	},
	{
	"epoch": 0.23755887773909481,
	"grad_norm": 0.36715662479400635,
	"learning_rate": 0.0015,
	"loss": 1.4155,
	"step": 4640
	},
	{
	"epoch": 0.23807085807904976,
	"grad_norm": 0.32257118821144104,
	"learning_rate": 0.0015,
	"loss": 1.4178,
	"step": 4650
	},
	{
	"epoch": 0.2385828384190047,
	"grad_norm": 0.3298852741718292,
	"learning_rate": 0.0015,
	"loss": 1.4149,
	"step": 4660
	},
	{
	"epoch": 0.23909481875895966,
	"grad_norm": 0.32268422842025757,
	"learning_rate": 0.0015,
	"loss": 1.4384,
	"step": 4670
	},
	{
	"epoch": 0.2396067990989146,
	"grad_norm": 0.33715546131134033,
	"learning_rate": 0.0015,
	"loss": 1.4014,
	"step": 4680
	},
	{
	"epoch": 0.24011877943886956,
	"grad_norm": 0.3131064772605896,
	"learning_rate": 0.0015,
	"loss": 1.4163,
	"step": 4690
	},
	{
	"epoch": 0.2406307597788245,
	"grad_norm": 0.3470405042171478,
	"learning_rate": 0.0015,
	"loss": 1.4186,
	"step": 4700
	},
	{
	"epoch": 0.24114274011877943,
	"grad_norm": 0.35475459694862366,
	"learning_rate": 0.0015,
	"loss": 1.417,
	"step": 4710
	},
	{
	"epoch": 0.24165472045873437,
	"grad_norm": 0.3337201178073883,
	"learning_rate": 0.0015,
	"loss": 1.4271,
	"step": 4720
	},
	{
	"epoch": 0.24216670079868932,
	"grad_norm": 0.3554363548755646,
	"learning_rate": 0.0015,
	"loss": 1.4182,
	"step": 4730
	},
	{
	"epoch": 0.24267868113864427,
	"grad_norm": 0.32346460223197937,
	"learning_rate": 0.0015,
	"loss": 1.421,
	"step": 4740
	},
	{
	"epoch": 0.24319066147859922,
	"grad_norm": 0.3117121756076813,
	"learning_rate": 0.0015,
	"loss": 1.4278,
	"step": 4750
	},
	{
	"epoch": 0.24370264181855417,
	"grad_norm": 0.3506932556629181,
	"learning_rate": 0.0015,
	"loss": 1.3881,
	"step": 4760
	},
	{
	"epoch": 0.24421462215850911,
	"grad_norm": 0.3424610495567322,
	"learning_rate": 0.0015,
	"loss": 1.4236,
	"step": 4770
	},
	{
	"epoch": 0.24472660249846406,
	"grad_norm": 0.3284012973308563,
	"learning_rate": 0.0015,
	"loss": 1.4147,
	"step": 4780
	},
	{
	"epoch": 0.245238582838419,
	"grad_norm": 0.3341637849807739,
	"learning_rate": 0.0015,
	"loss": 1.4109,
	"step": 4790
	},
	{
	"epoch": 0.24575056317837396,
	"grad_norm": 0.32382500171661377,
	"learning_rate": 0.0015,
	"loss": 1.4063,
	"step": 4800
	},
	{
	"epoch": 0.2462625435183289,
	"grad_norm": 0.3269002437591553,
	"learning_rate": 0.0015,
	"loss": 1.42,
	"step": 4810
	},
	{
	"epoch": 0.24677452385828383,
	"grad_norm": 0.33705347776412964,
	"learning_rate": 0.0015,
	"loss": 1.4108,
	"step": 4820
	},
	{
	"epoch": 0.24728650419823878,
	"grad_norm": 0.32141435146331787,
	"learning_rate": 0.0015,
	"loss": 1.4012,
	"step": 4830
	},
	{
	"epoch": 0.24779848453819373,
	"grad_norm": 0.32620713114738464,
	"learning_rate": 0.0015,
	"loss": 1.3946,
	"step": 4840
	},
	{
	"epoch": 0.24831046487814867,
	"grad_norm": 0.3150465488433838,
	"learning_rate": 0.0015,
	"loss": 1.4239,
	"step": 4850
	},
	{
	"epoch": 0.24882244521810362,
	"grad_norm": 0.3141099214553833,
	"learning_rate": 0.0015,
	"loss": 1.4248,
	"step": 4860
	},
	{
	"epoch": 0.24933442555805857,
	"grad_norm": 0.31802797317504883,
	"learning_rate": 0.0015,
	"loss": 1.3965,
	"step": 4870
	},
	{
	"epoch": 0.24984640589801352,
	"grad_norm": 0.31748947501182556,
	"learning_rate": 0.0015,
	"loss": 1.4222,
	"step": 4880
	},
	{
	"epoch": 0.25035838623796847,
	"grad_norm": 0.30938032269477844,
	"learning_rate": 0.0015,
	"loss": 1.4001,
	"step": 4890
	},
	{
	"epoch": 0.2508703665779234,
	"grad_norm": 0.3129180371761322,
	"learning_rate": 0.0015,
	"loss": 1.3958,
	"step": 4900
	},
	{
	"epoch": 0.25138234691787836,
	"grad_norm": 0.31602999567985535,
	"learning_rate": 0.0015,
	"loss": 1.4114,
	"step": 4910
	},
	{
	"epoch": 0.2518943272578333,
	"grad_norm": 0.3049462139606476,
	"learning_rate": 0.0015,
	"loss": 1.3868,
	"step": 4920
	},
	{
	"epoch": 0.25240630759778826,
	"grad_norm": 0.3103995621204376,
	"learning_rate": 0.0015,
	"loss": 1.401,
	"step": 4930
	},
	{
	"epoch": 0.2529182879377432,
	"grad_norm": 0.30271056294441223,
	"learning_rate": 0.0015,
	"loss": 1.4046,
	"step": 4940
	},
	{
	"epoch": 0.25343026827769816,
	"grad_norm": 0.32372725009918213,
	"learning_rate": 0.0015,
	"loss": 1.3719,
	"step": 4950
	},
	{
	"epoch": 0.2539422486176531,
	"grad_norm": 0.3129730224609375,
	"learning_rate": 0.0015,
	"loss": 1.3797,
	"step": 4960
	},
	{
	"epoch": 0.25445422895760805,
	"grad_norm": 0.3240148425102234,
	"learning_rate": 0.0015,
	"loss": 1.4134,
	"step": 4970
	},
	{
	"epoch": 0.254966209297563,
	"grad_norm": 0.30317404866218567,
	"learning_rate": 0.0015,
	"loss": 1.3894,
	"step": 4980
	},
	{
	"epoch": 0.2554781896375179,
	"grad_norm": 0.33288583159446716,
	"learning_rate": 0.0015,
	"loss": 1.4132,
	"step": 4990
	},
	{
	"epoch": 0.25599016997747287,
	"grad_norm": 0.3233846127986908,
	"learning_rate": 0.0015,
	"loss": 1.3762,
	"step": 5000
	},
	{
	"epoch": 0.2565021503174278,
	"grad_norm": 0.30729755759239197,
	"learning_rate": 0.0015,
	"loss": 1.3975,
	"step": 5010
	},
	{
	"epoch": 0.25701413065738277,
	"grad_norm": 0.3006018400192261,
	"learning_rate": 0.0015,
	"loss": 1.4047,
	"step": 5020
	},
	{
	"epoch": 0.2575261109973377,
	"grad_norm": 0.3207467794418335,
	"learning_rate": 0.0015,
	"loss": 1.4084,
	"step": 5030
	},
	{
	"epoch": 0.25803809133729266,
	"grad_norm": 0.3039129674434662,
	"learning_rate": 0.0015,
	"loss": 1.4209,
	"step": 5040
	},
	{
	"epoch": 0.2585500716772476,
	"grad_norm": 0.29750290513038635,
	"learning_rate": 0.0015,
	"loss": 1.4156,
	"step": 5050
	},
	{
	"epoch": 0.25906205201720256,
	"grad_norm": 0.314507395029068,
	"learning_rate": 0.0015,
	"loss": 1.3685,
	"step": 5060
	},
	{
	"epoch": 0.2595740323571575,
	"grad_norm": 0.3176608681678772,
	"learning_rate": 0.0015,
	"loss": 1.3701,
	"step": 5070
	},
	{
	"epoch": 0.26008601269711246,
	"grad_norm": 0.3273438513278961,
	"learning_rate": 0.0015,
	"loss": 1.3841,
	"step": 5080
	},
	{
	"epoch": 0.2605979930370674,
	"grad_norm": 0.3173183798789978,
	"learning_rate": 0.0015,
	"loss": 1.3732,
	"step": 5090
	},
	{
	"epoch": 0.2611099733770223,
	"grad_norm": 0.33317986130714417,
	"learning_rate": 0.0015,
	"loss": 1.3815,
	"step": 5100
	},
	{
	"epoch": 0.2616219537169773,
	"grad_norm": 0.3045515716075897,
	"learning_rate": 0.0015,
	"loss": 1.4042,
	"step": 5110
	},
	{
	"epoch": 0.2621339340569322,
	"grad_norm": 0.3056975305080414,
	"learning_rate": 0.0015,
	"loss": 1.4156,
	"step": 5120
	},
	{
	"epoch": 0.26264591439688717,
	"grad_norm": 0.3231489956378937,
	"learning_rate": 0.0015,
	"loss": 1.4076,
	"step": 5130
	},
	{
	"epoch": 0.2631578947368421,
	"grad_norm": 0.3215503990650177,
	"learning_rate": 0.0015,
	"loss": 1.3712,
	"step": 5140
	},
	{
	"epoch": 0.26366987507679707,
	"grad_norm": 0.30379393696784973,
	"learning_rate": 0.0015,
	"loss": 1.3648,
	"step": 5150
	},
	{
	"epoch": 0.264181855416752,
	"grad_norm": 0.2987072765827179,
	"learning_rate": 0.0015,
	"loss": 1.3859,
	"step": 5160
	},
	{
	"epoch": 0.26469383575670696,
	"grad_norm": 0.3293174207210541,
	"learning_rate": 0.0015,
	"loss": 1.3974,
	"step": 5170
	},
	{
	"epoch": 0.2652058160966619,
	"grad_norm": 0.34920957684516907,
	"learning_rate": 0.0015,
	"loss": 1.3868,
	"step": 5180
	},
	{
	"epoch": 0.26571779643661686,
	"grad_norm": 0.3054308295249939,
	"learning_rate": 0.0015,
	"loss": 1.3838,
	"step": 5190
	},
	{
	"epoch": 0.2662297767765718,
	"grad_norm": 0.3131832182407379,
	"learning_rate": 0.0015,
	"loss": 1.377,
	"step": 5200
	},
	{
	"epoch": 0.2667417571165267,
	"grad_norm": 0.30868205428123474,
	"learning_rate": 0.0015,
	"loss": 1.3999,
	"step": 5210
	},
	{
	"epoch": 0.2672537374564817,
	"grad_norm": 0.3193263113498688,
	"learning_rate": 0.0015,
	"loss": 1.3789,
	"step": 5220
	},
	{
	"epoch": 0.2677657177964366,
	"grad_norm": 0.3142963945865631,
	"learning_rate": 0.0015,
	"loss": 1.3993,
	"step": 5230
	},
	{
	"epoch": 0.2682776981363916,
	"grad_norm": 0.3012097179889679,
	"learning_rate": 0.0015,
	"loss": 1.3959,
	"step": 5240
	},
	{
	"epoch": 0.2687896784763465,
	"grad_norm": 0.30580368638038635,
	"learning_rate": 0.0015,
	"loss": 1.4106,
	"step": 5250
	},
	{
	"epoch": 0.26930165881630147,
	"grad_norm": 0.2862599790096283,
	"learning_rate": 0.0015,
	"loss": 1.3873,
	"step": 5260
	},
	{
	"epoch": 0.2698136391562564,
	"grad_norm": 0.3221125602722168,
	"learning_rate": 0.0015,
	"loss": 1.3997,
	"step": 5270
	},
	{
	"epoch": 0.27032561949621137,
	"grad_norm": 0.29167062044143677,
	"learning_rate": 0.0015,
	"loss": 1.3707,
	"step": 5280
	},
	{
	"epoch": 0.2708375998361663,
	"grad_norm": 0.3372457027435303,
	"learning_rate": 0.0015,
	"loss": 1.3767,
	"step": 5290
	},
	{
	"epoch": 0.27134958017612126,
	"grad_norm": 0.308940589427948,
	"learning_rate": 0.0015,
	"loss": 1.377,
	"step": 5300
	},
	{
	"epoch": 0.2718615605160762,
	"grad_norm": 0.2946240305900574,
	"learning_rate": 0.0015,
	"loss": 1.3811,
	"step": 5310
	},
	{
	"epoch": 0.2723735408560311,
	"grad_norm": 0.30118903517723083,
	"learning_rate": 0.0015,
	"loss": 1.3991,
	"step": 5320
	},
	{
	"epoch": 0.2728855211959861,
	"grad_norm": 0.3128001093864441,
	"learning_rate": 0.0015,
	"loss": 1.3806,
	"step": 5330
	},
	{
	"epoch": 0.273397501535941,
	"grad_norm": 0.3355924189090729,
	"learning_rate": 0.0015,
	"loss": 1.378,
	"step": 5340
	},
	{
	"epoch": 0.273909481875896,
	"grad_norm": 0.29809674620628357,
	"learning_rate": 0.0015,
	"loss": 1.365,
	"step": 5350
	},
	{
	"epoch": 0.2744214622158509,
	"grad_norm": 0.2897878885269165,
	"learning_rate": 0.0015,
	"loss": 1.3796,
	"step": 5360
	},
	{
	"epoch": 0.2749334425558059,
	"grad_norm": 0.33131879568099976,
	"learning_rate": 0.0015,
	"loss": 1.3789,
	"step": 5370
	},
	{
	"epoch": 0.2754454228957608,
	"grad_norm": 0.3270549476146698,
	"learning_rate": 0.0015,
	"loss": 1.3877,
	"step": 5380
	},
	{
	"epoch": 0.27595740323571577,
	"grad_norm": 0.3001706898212433,
	"learning_rate": 0.0015,
	"loss": 1.376,
	"step": 5390
	},
	{
	"epoch": 0.2764693835756707,
	"grad_norm": 0.3149849772453308,
	"learning_rate": 0.0015,
	"loss": 1.3815,
	"step": 5400
	},
	{
	"epoch": 0.27698136391562567,
	"grad_norm": 0.28992435336112976,
	"learning_rate": 0.0015,
	"loss": 1.3731,
	"step": 5410
	},
	{
	"epoch": 0.2774933442555806,
	"grad_norm": 0.295311838388443,
	"learning_rate": 0.0015,
	"loss": 1.3958,
	"step": 5420
	},
	{
	"epoch": 0.2780053245955355,
	"grad_norm": 0.2988681495189667,
	"learning_rate": 0.0015,
	"loss": 1.3946,
	"step": 5430
	},
	{
	"epoch": 0.2785173049354905,
	"grad_norm": 0.3085227608680725,
	"learning_rate": 0.0015,
	"loss": 1.3776,
	"step": 5440
	},
	{
	"epoch": 0.2790292852754454,
	"grad_norm": 0.30014750361442566,
	"learning_rate": 0.0015,
	"loss": 1.3772,
	"step": 5450
	},
	{
	"epoch": 0.2795412656154004,
	"grad_norm": 0.3058876693248749,
	"learning_rate": 0.0015,
	"loss": 1.3637,
	"step": 5460
	},
	{
	"epoch": 0.2800532459553553,
	"grad_norm": 0.2952674925327301,
	"learning_rate": 0.0015,
	"loss": 1.3888,
	"step": 5470
	},
	{
	"epoch": 0.2805652262953103,
	"grad_norm": 0.3016969561576843,
	"learning_rate": 0.0015,
	"loss": 1.3874,
	"step": 5480
	},
	{
	"epoch": 0.2810772066352652,
	"grad_norm": 0.30375874042510986,
	"learning_rate": 0.0015,
	"loss": 1.3652,
	"step": 5490
	},
	{
	"epoch": 0.2815891869752202,
	"grad_norm": 0.29380300641059875,
	"learning_rate": 0.0015,
	"loss": 1.3768,
	"step": 5500
	},
	{
	"epoch": 0.2821011673151751,
	"grad_norm": 0.2994033992290497,
	"learning_rate": 0.0015,
	"loss": 1.376,
	"step": 5510
	},
	{
	"epoch": 0.28261314765513007,
	"grad_norm": 0.3174065053462982,
	"learning_rate": 0.0015,
	"loss": 1.3873,
	"step": 5520
	},
	{
	"epoch": 0.283125127995085,
	"grad_norm": 0.3069535791873932,
	"learning_rate": 0.0015,
	"loss": 1.3636,
	"step": 5530
	},
	{
	"epoch": 0.2836371083350399,
	"grad_norm": 0.2826645076274872,
	"learning_rate": 0.0015,
	"loss": 1.3567,
	"step": 5540
	},
	{
	"epoch": 0.2841490886749949,
	"grad_norm": 0.295926034450531,
	"learning_rate": 0.0015,
	"loss": 1.361,
	"step": 5550
	},
	{
	"epoch": 0.2846610690149498,
	"grad_norm": 0.29257112741470337,
	"learning_rate": 0.0015,
	"loss": 1.3699,
	"step": 5560
	},
	{
	"epoch": 0.2851730493549048,
	"grad_norm": 0.28169023990631104,
	"learning_rate": 0.0015,
	"loss": 1.353,
	"step": 5570
	},
	{
	"epoch": 0.2856850296948597,
	"grad_norm": 0.31054553389549255,
	"learning_rate": 0.0015,
	"loss": 1.3955,
	"step": 5580
	},
	{
	"epoch": 0.2861970100348147,
	"grad_norm": 0.28373947739601135,
	"learning_rate": 0.0015,
	"loss": 1.3843,
	"step": 5590
	},
	{
	"epoch": 0.2867089903747696,
	"grad_norm": 0.29920247197151184,
	"learning_rate": 0.0015,
	"loss": 1.3588,
	"step": 5600
	},
	{
	"epoch": 0.2872209707147246,
	"grad_norm": 0.2981637120246887,
	"learning_rate": 0.0015,
	"loss": 1.376,
	"step": 5610
	},
	{
	"epoch": 0.2877329510546795,
	"grad_norm": 0.269811749458313,
	"learning_rate": 0.0015,
	"loss": 1.3733,
	"step": 5620
	},
	{
	"epoch": 0.2882449313946345,
	"grad_norm": 0.28365617990493774,
	"learning_rate": 0.0015,
	"loss": 1.3376,
	"step": 5630
	},
	{
	"epoch": 0.2887569117345894,
	"grad_norm": 0.2953552305698395,
	"learning_rate": 0.0015,
	"loss": 1.367,
	"step": 5640
	},
	{
	"epoch": 0.2892688920745443,
	"grad_norm": 0.2910911440849304,
	"learning_rate": 0.0015,
	"loss": 1.3708,
	"step": 5650
	},
	{
	"epoch": 0.2897808724144993,
	"grad_norm": 0.2998880445957184,
	"learning_rate": 0.0015,
	"loss": 1.3917,
	"step": 5660
	},
	{
	"epoch": 0.2902928527544542,
	"grad_norm": 0.3000008165836334,
	"learning_rate": 0.0015,
	"loss": 1.3597,
	"step": 5670
	},
	{
	"epoch": 0.2908048330944092,
	"grad_norm": 0.3019564747810364,
	"learning_rate": 0.0015,
	"loss": 1.3641,
	"step": 5680
	},
	{
	"epoch": 0.2913168134343641,
	"grad_norm": 0.28087547421455383,
	"learning_rate": 0.0015,
	"loss": 1.3427,
	"step": 5690
	},
	{
	"epoch": 0.2918287937743191,
	"grad_norm": 0.32179591059684753,
	"learning_rate": 0.0015,
	"loss": 1.3576,
	"step": 5700
	},
	{
	"epoch": 0.292340774114274,
	"grad_norm": 0.30196836590766907,
	"learning_rate": 0.0015,
	"loss": 1.3866,
	"step": 5710
	},
	{
	"epoch": 0.292852754454229,
	"grad_norm": 0.29928138852119446,
	"learning_rate": 0.0015,
	"loss": 1.3711,
	"step": 5720
	},
	{
	"epoch": 0.2933647347941839,
	"grad_norm": 0.30917906761169434,
	"learning_rate": 0.0015,
	"loss": 1.3481,
	"step": 5730
	},
	{
	"epoch": 0.2938767151341388,
	"grad_norm": 0.32579630613327026,
	"learning_rate": 0.0015,
	"loss": 1.3713,
	"step": 5740
	},
	{
	"epoch": 0.2943886954740938,
	"grad_norm": 0.3042047321796417,
	"learning_rate": 0.0015,
	"loss": 1.3758,
	"step": 5750
	},
	{
	"epoch": 0.2949006758140487,
	"grad_norm": 0.2910909354686737,
	"learning_rate": 0.0015,
	"loss": 1.3675,
	"step": 5760
	},
	{
	"epoch": 0.2954126561540037,
	"grad_norm": 0.29718905687332153,
	"learning_rate": 0.0015,
	"loss": 1.3576,
	"step": 5770
	},
	{
	"epoch": 0.2959246364939586,
	"grad_norm": 0.28392040729522705,
	"learning_rate": 0.0015,
	"loss": 1.3779,
	"step": 5780
	},
	{
	"epoch": 0.2964366168339136,
	"grad_norm": 0.2852902114391327,
	"learning_rate": 0.0015,
	"loss": 1.3709,
	"step": 5790
	},
	{
	"epoch": 0.2969485971738685,
	"grad_norm": 0.29683250188827515,
	"learning_rate": 0.0015,
	"loss": 1.3757,
	"step": 5800
	},
	{
	"epoch": 0.2974605775138235,
	"grad_norm": 0.2882269620895386,
	"learning_rate": 0.0015,
	"loss": 1.3706,
	"step": 5810
	},
	{
	"epoch": 0.2979725578537784,
	"grad_norm": 0.3086804449558258,
	"learning_rate": 0.0015,
	"loss": 1.3506,
	"step": 5820
	},
	{
	"epoch": 0.2984845381937334,
	"grad_norm": 0.2780090868473053,
	"learning_rate": 0.0015,
	"loss": 1.3565,
	"step": 5830
	},
	{
	"epoch": 0.2989965185336883,
	"grad_norm": 0.30415329337120056,
	"learning_rate": 0.0015,
	"loss": 1.3593,
	"step": 5840
	},
	{
	"epoch": 0.2995084988736432,
	"grad_norm": 0.2865590751171112,
	"learning_rate": 0.0015,
	"loss": 1.3873,
	"step": 5850
	},
	{
	"epoch": 0.3000204792135982,
	"grad_norm": 0.2798267900943756,
	"learning_rate": 0.0015,
	"loss": 1.3439,
	"step": 5860
	},
	{
	"epoch": 0.3005324595535531,
	"grad_norm": 0.29937195777893066,
	"learning_rate": 0.0015,
	"loss": 1.3483,
	"step": 5870
	},
	{
	"epoch": 0.3010444398935081,
	"grad_norm": 0.27708205580711365,
	"learning_rate": 0.0015,
	"loss": 1.3207,
	"step": 5880
	},
	{
	"epoch": 0.301556420233463,
	"grad_norm": 0.2955605983734131,
	"learning_rate": 0.0015,
	"loss": 1.3524,
	"step": 5890
	},
	{
	"epoch": 0.302068400573418,
	"grad_norm": 0.3226946294307709,
	"learning_rate": 0.0015,
	"loss": 1.3545,
	"step": 5900
	},
	{
	"epoch": 0.3025803809133729,
	"grad_norm": 0.2925417721271515,
	"learning_rate": 0.0015,
	"loss": 1.3435,
	"step": 5910
	},
	{
	"epoch": 0.3030923612533279,
	"grad_norm": 0.3087621331214905,
	"learning_rate": 0.0015,
	"loss": 1.3275,
	"step": 5920
	},
	{
	"epoch": 0.3036043415932828,
	"grad_norm": 0.2996879518032074,
	"learning_rate": 0.0015,
	"loss": 1.3514,
	"step": 5930
	},
	{
	"epoch": 0.3041163219332378,
	"grad_norm": 0.3085525333881378,
	"learning_rate": 0.0015,
	"loss": 1.3539,
	"step": 5940
	},
	{
	"epoch": 0.3046283022731927,
	"grad_norm": 0.28985559940338135,
	"learning_rate": 0.0015,
	"loss": 1.3661,
	"step": 5950
	},
	{
	"epoch": 0.30514028261314763,
	"grad_norm": 0.2889237701892853,
	"learning_rate": 0.0015,
	"loss": 1.3622,
	"step": 5960
	},
	{
	"epoch": 0.3056522629531026,
	"grad_norm": 0.3278009593486786,
	"learning_rate": 0.0015,
	"loss": 1.3438,
	"step": 5970
	},
	{
	"epoch": 0.3061642432930575,
	"grad_norm": 0.2967126965522766,
	"learning_rate": 0.0015,
	"loss": 1.3752,
	"step": 5980
	},
	{
	"epoch": 0.3066762236330125,
	"grad_norm": 0.2810833752155304,
	"learning_rate": 0.0015,
	"loss": 1.3673,
	"step": 5990
	},
	{
	"epoch": 0.3071882039729674,
	"grad_norm": 0.2842026650905609,
	"learning_rate": 0.0015,
	"loss": 1.3315,
	"step": 6000
	},
	{
	"epoch": 0.3077001843129224,
	"grad_norm": 0.2904771864414215,
	"learning_rate": 0.0015,
	"loss": 1.3551,
	"step": 6010
	},
	{
	"epoch": 0.3082121646528773,
	"grad_norm": 0.2798822224140167,
	"learning_rate": 0.0015,
	"loss": 1.374,
	"step": 6020
	},
	{
	"epoch": 0.3087241449928323,
	"grad_norm": 0.2831931412220001,
	"learning_rate": 0.0015,
	"loss": 1.3449,
	"step": 6030
	},
	{
	"epoch": 0.3092361253327872,
	"grad_norm": 0.27797648310661316,
	"learning_rate": 0.0015,
	"loss": 1.3427,
	"step": 6040
	},
	{
	"epoch": 0.3097481056727422,
	"grad_norm": 0.2972757816314697,
	"learning_rate": 0.0015,
	"loss": 1.3498,
	"step": 6050
	},
	{
	"epoch": 0.3102600860126971,
	"grad_norm": 0.2661411166191101,
	"learning_rate": 0.0015,
	"loss": 1.3391,
	"step": 6060
	},
	{
	"epoch": 0.31077206635265203,
	"grad_norm": 0.2736954689025879,
	"learning_rate": 0.0015,
	"loss": 1.3637,
	"step": 6070
	},
	{
	"epoch": 0.311284046692607,
	"grad_norm": 0.27739083766937256,
	"learning_rate": 0.0015,
	"loss": 1.3432,
	"step": 6080
	},
	{
	"epoch": 0.31179602703256193,
	"grad_norm": 0.275734543800354,
	"learning_rate": 0.0015,
	"loss": 1.3523,
	"step": 6090
	},
	{
	"epoch": 0.3123080073725169,
	"grad_norm": 0.29389500617980957,
	"learning_rate": 0.0015,
	"loss": 1.3566,
	"step": 6100
	},
	{
	"epoch": 0.3128199877124718,
	"grad_norm": 0.3517824113368988,
	"learning_rate": 0.0015,
	"loss": 1.3401,
	"step": 6110
	},
	{
	"epoch": 0.3133319680524268,
	"grad_norm": 0.2847048342227936,
	"learning_rate": 0.0015,
	"loss": 1.3345,
	"step": 6120
	},
	{
	"epoch": 0.3138439483923817,
	"grad_norm": 0.2781658470630646,
	"learning_rate": 0.0015,
	"loss": 1.3165,
	"step": 6130
	},
	{
	"epoch": 0.3143559287323367,
	"grad_norm": 0.27928218245506287,
	"learning_rate": 0.0015,
	"loss": 1.3419,
	"step": 6140
	},
	{
	"epoch": 0.3148679090722916,
	"grad_norm": 0.29375484585762024,
	"learning_rate": 0.0015,
	"loss": 1.3424,
	"step": 6150
	},
	{
	"epoch": 0.3153798894122466,
	"grad_norm": 0.2773997187614441,
	"learning_rate": 0.0015,
	"loss": 1.3153,
	"step": 6160
	},
	{
	"epoch": 0.3158918697522015,
	"grad_norm": 0.2810317277908325,
	"learning_rate": 0.0015,
	"loss": 1.3633,
	"step": 6170
	},
	{
	"epoch": 0.31640385009215644,
	"grad_norm": 0.2810805141925812,
	"learning_rate": 0.0015,
	"loss": 1.3388,
	"step": 6180
	},
	{
	"epoch": 0.3169158304321114,
	"grad_norm": 0.27900010347366333,
	"learning_rate": 0.0015,
	"loss": 1.3494,
	"step": 6190
	},
	{
	"epoch": 0.31742781077206633,
	"grad_norm": 0.2763247787952423,
	"learning_rate": 0.0015,
	"loss": 1.347,
	"step": 6200
	},
	{
	"epoch": 0.3179397911120213,
	"grad_norm": 0.27593132853507996,
	"learning_rate": 0.0015,
	"loss": 1.3286,
	"step": 6210
	},
	{
	"epoch": 0.31845177145197623,
	"grad_norm": 0.2928100526332855,
	"learning_rate": 0.0015,
	"loss": 1.3485,
	"step": 6220
	},
	{
	"epoch": 0.3189637517919312,
	"grad_norm": 0.2809889316558838,
	"learning_rate": 0.0015,
	"loss": 1.3318,
	"step": 6230
	},
	{
	"epoch": 0.3194757321318861,
	"grad_norm": 0.2984907329082489,
	"learning_rate": 0.0015,
	"loss": 1.3474,
	"step": 6240
	},
	{
	"epoch": 0.3199877124718411,
	"grad_norm": 0.2861260771751404,
	"learning_rate": 0.0015,
	"loss": 1.3308,
	"step": 6250
	},
	{
	"epoch": 0.320499692811796,
	"grad_norm": 0.30209678411483765,
	"learning_rate": 0.0015,
	"loss": 1.3438,
	"step": 6260
	},
	{
	"epoch": 0.321011673151751,
	"grad_norm": 0.27839919924736023,
	"learning_rate": 0.0015,
	"loss": 1.3606,
	"step": 6270
	},
	{
	"epoch": 0.3215236534917059,
	"grad_norm": 0.27120068669319153,
	"learning_rate": 0.0015,
	"loss": 1.3291,
	"step": 6280
	},
	{
	"epoch": 0.32203563383166084,
	"grad_norm": 0.2891988158226013,
	"learning_rate": 0.0015,
	"loss": 1.3483,
	"step": 6290
	},
	{
	"epoch": 0.3225476141716158,
	"grad_norm": 0.3099561929702759,
	"learning_rate": 0.0015,
	"loss": 1.3538,
	"step": 6300
	},
	{
	"epoch": 0.32305959451157074,
	"grad_norm": 0.28136762976646423,
	"learning_rate": 0.0015,
	"loss": 1.344,
	"step": 6310
	},
	{
	"epoch": 0.3235715748515257,
	"grad_norm": 0.27209803462028503,
	"learning_rate": 0.0015,
	"loss": 1.3395,
	"step": 6320
	},
	{
	"epoch": 0.32408355519148063,
	"grad_norm": 0.2847345173358917,
	"learning_rate": 0.0015,
	"loss": 1.3278,
	"step": 6330
	},
	{
	"epoch": 0.3245955355314356,
	"grad_norm": 0.29409244656562805,
	"learning_rate": 0.0015,
	"loss": 1.352,
	"step": 6340
	},
	{
	"epoch": 0.32510751587139053,
	"grad_norm": 0.26782944798469543,
	"learning_rate": 0.0015,
	"loss": 1.3211,
	"step": 6350
	},
	{
	"epoch": 0.3256194962113455,
	"grad_norm": 0.27680841088294983,
	"learning_rate": 0.0015,
	"loss": 1.3168,
	"step": 6360
	},
	{
	"epoch": 0.3261314765513004,
	"grad_norm": 0.28913265466690063,
	"learning_rate": 0.0015,
	"loss": 1.3412,
	"step": 6370
	},
	{
	"epoch": 0.3266434568912554,
	"grad_norm": 0.2598094046115875,
	"learning_rate": 0.0015,
	"loss": 1.3235,
	"step": 6380
	},
	{
	"epoch": 0.3271554372312103,
	"grad_norm": 0.2622967064380646,
	"learning_rate": 0.0015,
	"loss": 1.3353,
	"step": 6390
	},
	{
	"epoch": 0.32766741757116524,
	"grad_norm": 0.2802422046661377,
	"learning_rate": 0.0015,
	"loss": 1.3278,
	"step": 6400
	},
	{
	"epoch": 0.3281793979111202,
	"grad_norm": 0.2863336503505707,
	"learning_rate": 0.0015,
	"loss": 1.3421,
	"step": 6410
	},
	{
	"epoch": 0.32869137825107514,
	"grad_norm": 0.28782033920288086,
	"learning_rate": 0.0015,
	"loss": 1.3395,
	"step": 6420
	},
	{
	"epoch": 0.3292033585910301,
	"grad_norm": 0.2650611698627472,
	"learning_rate": 0.0015,
	"loss": 1.3461,
	"step": 6430
	},
	{
	"epoch": 0.32971533893098504,
	"grad_norm": 0.28210777044296265,
	"learning_rate": 0.0015,
	"loss": 1.3452,
	"step": 6440
	},
	{
	"epoch": 0.33022731927094,
	"grad_norm": 0.29541024565696716,
	"learning_rate": 0.0015,
	"loss": 1.3304,
	"step": 6450
	},
	{
	"epoch": 0.33073929961089493,
	"grad_norm": 0.27473190426826477,
	"learning_rate": 0.0015,
	"loss": 1.3277,
	"step": 6460
	},
	{
	"epoch": 0.3312512799508499,
	"grad_norm": 0.2899293005466461,
	"learning_rate": 0.0015,
	"loss": 1.3193,
	"step": 6470
	},
	{
	"epoch": 0.33176326029080483,
	"grad_norm": 0.2961236834526062,
	"learning_rate": 0.0015,
	"loss": 1.3252,
	"step": 6480
	},
	{
	"epoch": 0.3322752406307598,
	"grad_norm": 0.2859441637992859,
	"learning_rate": 0.0015,
	"loss": 1.3327,
	"step": 6490
	},
	{
	"epoch": 0.3327872209707147,
	"grad_norm": 0.26721256971359253,
	"learning_rate": 0.0015,
	"loss": 1.344,
	"step": 6500
	},
	{
	"epoch": 0.33329920131066965,
	"grad_norm": 0.27258962392807007,
	"learning_rate": 0.0015,
	"loss": 1.3291,
	"step": 6510
	},
	{
	"epoch": 0.3338111816506246,
	"grad_norm": 0.2868225872516632,
	"learning_rate": 0.0015,
	"loss": 1.3542,
	"step": 6520
	},
	{
	"epoch": 0.33432316199057954,
	"grad_norm": 0.27058276534080505,
	"learning_rate": 0.0015,
	"loss": 1.3428,
	"step": 6530
	},
	{
	"epoch": 0.3348351423305345,
	"grad_norm": 0.2648937404155731,
	"learning_rate": 0.0015,
	"loss": 1.3345,
	"step": 6540
	},
	{
	"epoch": 0.33534712267048944,
	"grad_norm": 0.2588028609752655,
	"learning_rate": 0.0015,
	"loss": 1.3163,
	"step": 6550
	},
	{
	"epoch": 0.3358591030104444,
	"grad_norm": 0.2773786783218384,
	"learning_rate": 0.0015,
	"loss": 1.3353,
	"step": 6560
	},
	{
	"epoch": 0.33637108335039934,
	"grad_norm": 0.2635444402694702,
	"learning_rate": 0.0015,
	"loss": 1.3073,
	"step": 6570
	},
	{
	"epoch": 0.3368830636903543,
	"grad_norm": 0.28633764386177063,
	"learning_rate": 0.0015,
	"loss": 1.3085,
	"step": 6580
	},
	{
	"epoch": 0.33739504403030923,
	"grad_norm": 0.29486966133117676,
	"learning_rate": 0.0015,
	"loss": 1.3316,
	"step": 6590
	},
	{
	"epoch": 0.3379070243702642,
	"grad_norm": 0.2629407048225403,
	"learning_rate": 0.0015,
	"loss": 1.3319,
	"step": 6600
	},
	{
	"epoch": 0.33841900471021913,
	"grad_norm": 0.2779609262943268,
	"learning_rate": 0.0015,
	"loss": 1.3043,
	"step": 6610
	},
	{
	"epoch": 0.33893098505017405,
	"grad_norm": 0.2911774218082428,
	"learning_rate": 0.0015,
	"loss": 1.361,
	"step": 6620
	},
	{
	"epoch": 0.339442965390129,
	"grad_norm": 0.26540687680244446,
	"learning_rate": 0.0015,
	"loss": 1.3095,
	"step": 6630
	},
	{
	"epoch": 0.33995494573008395,
	"grad_norm": 0.27710777521133423,
	"learning_rate": 0.0015,
	"loss": 1.3173,
	"step": 6640
	},
	{
	"epoch": 0.3404669260700389,
	"grad_norm": 0.2614011764526367,
	"learning_rate": 0.0015,
	"loss": 1.3178,
	"step": 6650
	},
	{
	"epoch": 0.34097890640999384,
	"grad_norm": 0.2797437906265259,
	"learning_rate": 0.0015,
	"loss": 1.3287,
	"step": 6660
	},
	{
	"epoch": 0.3414908867499488,
	"grad_norm": 0.28846311569213867,
	"learning_rate": 0.0015,
	"loss": 1.3222,
	"step": 6670
	},
	{
	"epoch": 0.34200286708990374,
	"grad_norm": 0.2507641911506653,
	"learning_rate": 0.0015,
	"loss": 1.3297,
	"step": 6680
	},
	{
	"epoch": 0.3425148474298587,
	"grad_norm": 0.277458518743515,
	"learning_rate": 0.0015,
	"loss": 1.3092,
	"step": 6690
	},
	{
	"epoch": 0.34302682776981364,
	"grad_norm": 0.28139162063598633,
	"learning_rate": 0.0015,
	"loss": 1.3509,
	"step": 6700
	},
	{
	"epoch": 0.3435388081097686,
	"grad_norm": 0.26460030674934387,
	"learning_rate": 0.0015,
	"loss": 1.3357,
	"step": 6710
	},
	{
	"epoch": 0.34405078844972353,
	"grad_norm": 0.2602977752685547,
	"learning_rate": 0.0015,
	"loss": 1.3375,
	"step": 6720
	},
	{
	"epoch": 0.34456276878967845,
	"grad_norm": 0.3062650263309479,
	"learning_rate": 0.0015,
	"loss": 1.3225,
	"step": 6730
	},
	{
	"epoch": 0.34507474912963343,
	"grad_norm": 0.27152612805366516,
	"learning_rate": 0.0015,
	"loss": 1.3326,
	"step": 6740
	},
	{
	"epoch": 0.34558672946958835,
	"grad_norm": 0.2585943341255188,
	"learning_rate": 0.0015,
	"loss": 1.3275,
	"step": 6750
	},
	{
	"epoch": 0.3460987098095433,
	"grad_norm": 0.2826108932495117,
	"learning_rate": 0.0015,
	"loss": 1.3143,
	"step": 6760
	},
	{
	"epoch": 0.34661069014949825,
	"grad_norm": 0.2719128131866455,
	"learning_rate": 0.0015,
	"loss": 1.3136,
	"step": 6770
	},
	{
	"epoch": 0.3471226704894532,
	"grad_norm": 0.2605542540550232,
	"learning_rate": 0.0015,
	"loss": 1.3207,
	"step": 6780
	},
	{
	"epoch": 0.34763465082940814,
	"grad_norm": 0.26649779081344604,
	"learning_rate": 0.0015,
	"loss": 1.304,
	"step": 6790
	},
	{
	"epoch": 0.3481466311693631,
	"grad_norm": 0.28349971771240234,
	"learning_rate": 0.0015,
	"loss": 1.3176,
	"step": 6800
	},
	{
	"epoch": 0.34865861150931804,
	"grad_norm": 0.27145761251449585,
	"learning_rate": 0.0015,
	"loss": 1.3294,
	"step": 6810
	},
	{
	"epoch": 0.349170591849273,
	"grad_norm": 0.26513341069221497,
	"learning_rate": 0.0015,
	"loss": 1.3299,
	"step": 6820
	},
	{
	"epoch": 0.34968257218922794,
	"grad_norm": 0.2701232135295868,
	"learning_rate": 0.0015,
	"loss": 1.3028,
	"step": 6830
	},
	{
	"epoch": 0.35019455252918286,
	"grad_norm": 0.27336186170578003,
	"learning_rate": 0.0015,
	"loss": 1.3253,
	"step": 6840
	},
	{
	"epoch": 0.35070653286913783,
	"grad_norm": 0.26006847620010376,
	"learning_rate": 0.0015,
	"loss": 1.3097,
	"step": 6850
	},
	{
	"epoch": 0.35121851320909275,
	"grad_norm": 0.2867346405982971,
	"learning_rate": 0.0015,
	"loss": 1.3489,
	"step": 6860
	},
	{
	"epoch": 0.35173049354904773,
	"grad_norm": 0.2665490210056305,
	"learning_rate": 0.0015,
	"loss": 1.3029,
	"step": 6870
	},
	{
	"epoch": 0.35224247388900265,
	"grad_norm": 0.26250341534614563,
	"learning_rate": 0.0015,
	"loss": 1.324,
	"step": 6880
	},
	{
	"epoch": 0.3527544542289576,
	"grad_norm": 0.27404358983039856,
	"learning_rate": 0.0015,
	"loss": 1.3222,
	"step": 6890
	},
	{
	"epoch": 0.35326643456891255,
	"grad_norm": 0.271932989358902,
	"learning_rate": 0.0015,
	"loss": 1.3068,
	"step": 6900
	},
	{
	"epoch": 0.3537784149088675,
	"grad_norm": 0.25479060411453247,
	"learning_rate": 0.0015,
	"loss": 1.3143,
	"step": 6910
	},
	{
	"epoch": 0.35429039524882244,
	"grad_norm": 0.2571351230144501,
	"learning_rate": 0.0015,
	"loss": 1.2886,
	"step": 6920
	},
	{
	"epoch": 0.35480237558877736,
	"grad_norm": 0.2612917125225067,
	"learning_rate": 0.0015,
	"loss": 1.3199,
	"step": 6930
	},
	{
	"epoch": 0.35531435592873234,
	"grad_norm": 0.2573522925376892,
	"learning_rate": 0.0015,
	"loss": 1.3143,
	"step": 6940
	},
	{
	"epoch": 0.35582633626868726,
	"grad_norm": 0.2598212659358978,
	"learning_rate": 0.0015,
	"loss": 1.3039,
	"step": 6950
	},
	{
	"epoch": 0.35633831660864224,
	"grad_norm": 0.2575034201145172,
	"learning_rate": 0.0015,
	"loss": 1.3095,
	"step": 6960
	},
	{
	"epoch": 0.35685029694859716,
	"grad_norm": 0.2559545636177063,
	"learning_rate": 0.0015,
	"loss": 1.2971,
	"step": 6970
	},
	{
	"epoch": 0.35736227728855213,
	"grad_norm": 0.26087066531181335,
	"learning_rate": 0.0015,
	"loss": 1.3023,
	"step": 6980
	},
	{
	"epoch": 0.35787425762850705,
	"grad_norm": 0.2606737017631531,
	"learning_rate": 0.0015,
	"loss": 1.3098,
	"step": 6990
	},
	{
	"epoch": 0.35838623796846203,
	"grad_norm": 0.27495986223220825,
	"learning_rate": 0.0015,
	"loss": 1.3249,
	"step": 7000
	},
	{
	"epoch": 0.35889821830841695,
	"grad_norm": 0.25473734736442566,
	"learning_rate": 0.0015,
	"loss": 1.3253,
	"step": 7010
	},
	{
	"epoch": 0.3594101986483719,
	"grad_norm": 0.2764824330806732,
	"learning_rate": 0.0015,
	"loss": 1.3101,
	"step": 7020
	},
	{
	"epoch": 0.35992217898832685,
	"grad_norm": 0.27935823798179626,
	"learning_rate": 0.0015,
	"loss": 1.3268,
	"step": 7030
	},
	{
	"epoch": 0.36043415932828177,
	"grad_norm": 0.26057881116867065,
	"learning_rate": 0.0015,
	"loss": 1.2999,
	"step": 7040
	},
	{
	"epoch": 0.36094613966823674,
	"grad_norm": 0.27014756202697754,
	"learning_rate": 0.0015,
	"loss": 1.3083,
	"step": 7050
	},
	{
	"epoch": 0.36145812000819166,
	"grad_norm": 0.26150983572006226,
	"learning_rate": 0.0015,
	"loss": 1.3059,
	"step": 7060
	},
	{
	"epoch": 0.36197010034814664,
	"grad_norm": 0.2634667158126831,
	"learning_rate": 0.0015,
	"loss": 1.3325,
	"step": 7070
	},
	{
	"epoch": 0.36248208068810156,
	"grad_norm": 0.2591879665851593,
	"learning_rate": 0.0015,
	"loss": 1.3004,
	"step": 7080
	},
	{
	"epoch": 0.36299406102805654,
	"grad_norm": 0.27941566705703735,
	"learning_rate": 0.0015,
	"loss": 1.3216,
	"step": 7090
	},
	{
	"epoch": 0.36350604136801146,
	"grad_norm": 0.2634701430797577,
	"learning_rate": 0.0015,
	"loss": 1.3043,
	"step": 7100
	},
	{
	"epoch": 0.36401802170796643,
	"grad_norm": 0.2601988613605499,
	"learning_rate": 0.0015,
	"loss": 1.3128,
	"step": 7110
	},
	{
	"epoch": 0.36453000204792135,
	"grad_norm": 0.2701079249382019,
	"learning_rate": 0.0015,
	"loss": 1.2908,
	"step": 7120
	},
	{
	"epoch": 0.36504198238787633,
	"grad_norm": 0.2694578170776367,
	"learning_rate": 0.0015,
	"loss": 1.303,
	"step": 7130
	},
	{
	"epoch": 0.36555396272783125,
	"grad_norm": 0.2465587705373764,
	"learning_rate": 0.0015,
	"loss": 1.3177,
	"step": 7140
	},
	{
	"epoch": 0.36606594306778617,
	"grad_norm": 0.26136472821235657,
	"learning_rate": 0.0015,
	"loss": 1.3112,
	"step": 7150
	},
	{
	"epoch": 0.36657792340774115,
	"grad_norm": 0.2548895478248596,
	"learning_rate": 0.0015,
	"loss": 1.3114,
	"step": 7160
	},
	{
	"epoch": 0.36708990374769607,
	"grad_norm": 0.2586556673049927,
	"learning_rate": 0.0015,
	"loss": 1.3076,
	"step": 7170
	},
	{
	"epoch": 0.36760188408765104,
	"grad_norm": 0.25887277722358704,
	"learning_rate": 0.0015,
	"loss": 1.3217,
	"step": 7180
	},
	{
	"epoch": 0.36811386442760596,
	"grad_norm": 0.2628803253173828,
	"learning_rate": 0.0015,
	"loss": 1.3012,
	"step": 7190
	},
	{
	"epoch": 0.36862584476756094,
	"grad_norm": 0.2630269527435303,
	"learning_rate": 0.0015,
	"loss": 1.3187,
	"step": 7200
	},
	{
	"epoch": 0.36913782510751586,
	"grad_norm": 0.2589748501777649,
	"learning_rate": 0.0015,
	"loss": 1.2885,
	"step": 7210
	},
	{
	"epoch": 0.36964980544747084,
	"grad_norm": 0.262361615896225,
	"learning_rate": 0.0015,
	"loss": 1.2962,
	"step": 7220
	},
	{
	"epoch": 0.37016178578742576,
	"grad_norm": 0.24950037896633148,
	"learning_rate": 0.0015,
	"loss": 1.3026,
	"step": 7230
	},
	{
	"epoch": 0.37067376612738073,
	"grad_norm": 0.2537461817264557,
	"learning_rate": 0.0015,
	"loss": 1.2971,
	"step": 7240
	},
	{
	"epoch": 0.37118574646733565,
	"grad_norm": 0.25920331478118896,
	"learning_rate": 0.0015,
	"loss": 1.2951,
	"step": 7250
	},
	{
	"epoch": 0.3716977268072906,
	"grad_norm": 0.2526357173919678,
	"learning_rate": 0.0015,
	"loss": 1.2989,
	"step": 7260
	},
	{
	"epoch": 0.37220970714724555,
	"grad_norm": 0.28876397013664246,
	"learning_rate": 0.0015,
	"loss": 1.3063,
	"step": 7270
	},
	{
	"epoch": 0.37272168748720047,
	"grad_norm": 0.27300864458084106,
	"learning_rate": 0.0015,
	"loss": 1.2954,
	"step": 7280
	},
	{
	"epoch": 0.37323366782715545,
	"grad_norm": 0.26332223415374756,
	"learning_rate": 0.0015,
	"loss": 1.3329,
	"step": 7290
	},
	{
	"epoch": 0.37374564816711037,
	"grad_norm": 0.26332515478134155,
	"learning_rate": 0.0015,
	"loss": 1.2908,
	"step": 7300
	},
	{
	"epoch": 0.37425762850706534,
	"grad_norm": 0.2604503631591797,
	"learning_rate": 0.0015,
	"loss": 1.3002,
	"step": 7310
	},
	{
	"epoch": 0.37476960884702026,
	"grad_norm": 0.25917840003967285,
	"learning_rate": 0.0015,
	"loss": 1.2983,
	"step": 7320
	},
	{
	"epoch": 0.37528158918697524,
	"grad_norm": 0.26824817061424255,
	"learning_rate": 0.0015,
	"loss": 1.3183,
	"step": 7330
	},
	{
	"epoch": 0.37579356952693016,
	"grad_norm": 0.2575696110725403,
	"learning_rate": 0.0015,
	"loss": 1.318,
	"step": 7340
	},
	{
	"epoch": 0.37630554986688514,
	"grad_norm": 0.2578194737434387,
	"learning_rate": 0.0015,
	"loss": 1.2833,
	"step": 7350
	},
	{
	"epoch": 0.37681753020684006,
	"grad_norm": 0.2768312096595764,
	"learning_rate": 0.0015,
	"loss": 1.2948,
	"step": 7360
	},
	{
	"epoch": 0.377329510546795,
	"grad_norm": 0.2382088154554367,
	"learning_rate": 0.0015,
	"loss": 1.3,
	"step": 7370
	},
	{
	"epoch": 0.37784149088674995,
	"grad_norm": 0.2637539803981781,
	"learning_rate": 0.0015,
	"loss": 1.2792,
	"step": 7380
	},
	{
	"epoch": 0.3783534712267049,
	"grad_norm": 0.2832081615924835,
	"learning_rate": 0.0015,
	"loss": 1.3097,
	"step": 7390
	},
	{
	"epoch": 0.37886545156665985,
	"grad_norm": 0.2672945261001587,
	"learning_rate": 0.0015,
	"loss": 1.2989,
	"step": 7400
	},
	{
	"epoch": 0.37937743190661477,
	"grad_norm": 0.24696801602840424,
	"learning_rate": 0.0015,
	"loss": 1.3174,
	"step": 7410
	},
	{
	"epoch": 0.37988941224656975,
	"grad_norm": 0.2638930082321167,
	"learning_rate": 0.0015,
	"loss": 1.295,
	"step": 7420
	},
	{
	"epoch": 0.38040139258652467,
	"grad_norm": 0.2714937925338745,
	"learning_rate": 0.0015,
	"loss": 1.2917,
	"step": 7430
	},
	{
	"epoch": 0.38091337292647964,
	"grad_norm": 0.2469353824853897,
	"learning_rate": 0.0015,
	"loss": 1.2919,
	"step": 7440
	},
	{
	"epoch": 0.38142535326643456,
	"grad_norm": 0.25035470724105835,
	"learning_rate": 0.0015,
	"loss": 1.2896,
	"step": 7450
	},
	{
	"epoch": 0.38193733360638954,
	"grad_norm": 0.26178446412086487,
	"learning_rate": 0.0015,
	"loss": 1.2891,
	"step": 7460
	},
	{
	"epoch": 0.38244931394634446,
	"grad_norm": 0.26942870020866394,
	"learning_rate": 0.0015,
	"loss": 1.2723,
	"step": 7470
	},
	{
	"epoch": 0.3829612942862994,
	"grad_norm": 0.26943838596343994,
	"learning_rate": 0.0015,
	"loss": 1.284,
	"step": 7480
	},
	{
	"epoch": 0.38347327462625436,
	"grad_norm": 0.25865715742111206,
	"learning_rate": 0.0015,
	"loss": 1.3063,
	"step": 7490
	},
	{
	"epoch": 0.3839852549662093,
	"grad_norm": 0.27455562353134155,
	"learning_rate": 0.0015,
	"loss": 1.2988,
	"step": 7500
	},
	{
	"epoch": 0.38449723530616425,
	"grad_norm": 0.2636263370513916,
	"learning_rate": 0.0015,
	"loss": 1.2739,
	"step": 7510
	},
	{
	"epoch": 0.3850092156461192,
	"grad_norm": 0.26559826731681824,
	"learning_rate": 0.0015,
	"loss": 1.2958,
	"step": 7520
	},
	{
	"epoch": 0.38552119598607415,
	"grad_norm": 0.2592698335647583,
	"learning_rate": 0.0015,
	"loss": 1.2981,
	"step": 7530
	},
	{
	"epoch": 0.38603317632602907,
	"grad_norm": 0.25872740149497986,
	"learning_rate": 0.0015,
	"loss": 1.3005,
	"step": 7540
	},
	{
	"epoch": 0.38654515666598405,
	"grad_norm": 0.26369425654411316,
	"learning_rate": 0.0015,
	"loss": 1.3021,
	"step": 7550
	},
	{
	"epoch": 0.38705713700593897,
	"grad_norm": 0.25757378339767456,
	"learning_rate": 0.0015,
	"loss": 1.302,
	"step": 7560
	},
	{
	"epoch": 0.38756911734589394,
	"grad_norm": 0.27320241928100586,
	"learning_rate": 0.0015,
	"loss": 1.2802,
	"step": 7570
	},
	{
	"epoch": 0.38808109768584886,
	"grad_norm": 0.2795805335044861,
	"learning_rate": 0.0015,
	"loss": 1.295,
	"step": 7580
	},
	{
	"epoch": 0.3885930780258038,
	"grad_norm": 0.26023516058921814,
	"learning_rate": 0.0015,
	"loss": 1.2889,
	"step": 7590
	},
	{
	"epoch": 0.38910505836575876,
	"grad_norm": 0.2582970857620239,
	"learning_rate": 0.0015,
	"loss": 1.302,
	"step": 7600
	},
	{
	"epoch": 0.3896170387057137,
	"grad_norm": 0.2473934441804886,
	"learning_rate": 0.0015,
	"loss": 1.3023,
	"step": 7610
	},
	{
	"epoch": 0.39012901904566866,
	"grad_norm": 0.2547856271266937,
	"learning_rate": 0.0015,
	"loss": 1.29,
	"step": 7620
	},
	{
	"epoch": 0.3906409993856236,
	"grad_norm": 0.26764586567878723,
	"learning_rate": 0.0015,
	"loss": 1.2905,
	"step": 7630
	},
	{
	"epoch": 0.39115297972557855,
	"grad_norm": 0.2481442391872406,
	"learning_rate": 0.0015,
	"loss": 1.3164,
	"step": 7640
	},
	{
	"epoch": 0.3916649600655335,
	"grad_norm": 0.25532233715057373,
	"learning_rate": 0.0015,
	"loss": 1.2958,
	"step": 7650
	},
	{
	"epoch": 0.39217694040548845,
	"grad_norm": 0.24001578986644745,
	"learning_rate": 0.0015,
	"loss": 1.2827,
	"step": 7660
	},
	{
	"epoch": 0.39268892074544337,
	"grad_norm": 0.2489776611328125,
	"learning_rate": 0.0015,
	"loss": 1.2742,
	"step": 7670
	},
	{
	"epoch": 0.39320090108539835,
	"grad_norm": 0.23535743355751038,
	"learning_rate": 0.0015,
	"loss": 1.2855,
	"step": 7680
	},
	{
	"epoch": 0.39371288142535327,
	"grad_norm": 0.25811052322387695,
	"learning_rate": 0.0015,
	"loss": 1.2971,
	"step": 7690
	},
	{
	"epoch": 0.3942248617653082,
	"grad_norm": 0.24241647124290466,
	"learning_rate": 0.0015,
	"loss": 1.2968,
	"step": 7700
	},
	{
	"epoch": 0.39473684210526316,
	"grad_norm": 0.25648635625839233,
	"learning_rate": 0.0015,
	"loss": 1.2916,
	"step": 7710
	},
	{
	"epoch": 0.3952488224452181,
	"grad_norm": 0.2703993618488312,
	"learning_rate": 0.0015,
	"loss": 1.2909,
	"step": 7720
	},
	{
	"epoch": 0.39576080278517306,
	"grad_norm": 0.2558510899543762,
	"learning_rate": 0.0015,
	"loss": 1.2913,
	"step": 7730
	},
	{
	"epoch": 0.396272783125128,
	"grad_norm": 0.2394089698791504,
	"learning_rate": 0.0015,
	"loss": 1.2968,
	"step": 7740
	},
	{
	"epoch": 0.39678476346508296,
	"grad_norm": 0.2338177114725113,
	"learning_rate": 0.0015,
	"loss": 1.2894,
	"step": 7750
	},
	{
	"epoch": 0.3972967438050379,
	"grad_norm": 0.25422418117523193,
	"learning_rate": 0.0015,
	"loss": 1.2958,
	"step": 7760
	},
	{
	"epoch": 0.39780872414499285,
	"grad_norm": 0.2437313348054886,
	"learning_rate": 0.0015,
	"loss": 1.2878,
	"step": 7770
	},
	{
	"epoch": 0.3983207044849478,
	"grad_norm": 0.26623979210853577,
	"learning_rate": 0.0015,
	"loss": 1.2915,
	"step": 7780
	},
	{
	"epoch": 0.39883268482490275,
	"grad_norm": 0.24698524177074432,
	"learning_rate": 0.0015,
	"loss": 1.2949,
	"step": 7790
	},
	{
	"epoch": 0.39934466516485767,
	"grad_norm": 0.23496921360492706,
	"learning_rate": 0.0015,
	"loss": 1.3069,
	"step": 7800
	},
	{
	"epoch": 0.3998566455048126,
	"grad_norm": 0.2393864393234253,
	"learning_rate": 0.0015,
	"loss": 1.2913,
	"step": 7810
	},
	{
	"epoch": 0.40036862584476757,
	"grad_norm": 0.24716414511203766,
	"learning_rate": 0.0015,
	"loss": 1.2829,
	"step": 7820
	},
	{
	"epoch": 0.4008806061847225,
	"grad_norm": 0.24985013902187347,
	"learning_rate": 0.0015,
	"loss": 1.2773,
	"step": 7830
	},
	{
	"epoch": 0.40139258652467746,
	"grad_norm": 0.24895814061164856,
	"learning_rate": 0.0015,
	"loss": 1.2889,
	"step": 7840
	},
	{
	"epoch": 0.4019045668646324,
	"grad_norm": 0.2497827261686325,
	"learning_rate": 0.0015,
	"loss": 1.2747,
	"step": 7850
	},
	{
	"epoch": 0.40241654720458736,
	"grad_norm": 0.23879243433475494,
	"learning_rate": 0.0015,
	"loss": 1.3071,
	"step": 7860
	},
	{
	"epoch": 0.4029285275445423,
	"grad_norm": 0.24402157962322235,
	"learning_rate": 0.0015,
	"loss": 1.2924,
	"step": 7870
	},
	{
	"epoch": 0.40344050788449726,
	"grad_norm": 0.24736930429935455,
	"learning_rate": 0.0015,
	"loss": 1.2643,
	"step": 7880
	},
	{
	"epoch": 0.4039524882244522,
	"grad_norm": 0.2525321841239929,
	"learning_rate": 0.0015,
	"loss": 1.3014,
	"step": 7890
	},
	{
	"epoch": 0.40446446856440715,
	"grad_norm": 0.2575211226940155,
	"learning_rate": 0.0015,
	"loss": 1.2625,
	"step": 7900
	},
	{
	"epoch": 0.4049764489043621,
	"grad_norm": 0.24405083060264587,
	"learning_rate": 0.0015,
	"loss": 1.2834,
	"step": 7910
	},
	{
	"epoch": 0.405488429244317,
	"grad_norm": 0.28250402212142944,
	"learning_rate": 0.0015,
	"loss": 1.2814,
	"step": 7920
	},
	{
	"epoch": 0.40600040958427197,
	"grad_norm": 0.2795003056526184,
	"learning_rate": 0.0015,
	"loss": 1.3154,
	"step": 7930
	},
	{
	"epoch": 0.4065123899242269,
	"grad_norm": 0.24883300065994263,
	"learning_rate": 0.0015,
	"loss": 1.2887,
	"step": 7940
	},
	{
	"epoch": 0.40702437026418187,
	"grad_norm": 0.2502342164516449,
	"learning_rate": 0.0015,
	"loss": 1.3033,
	"step": 7950
	},
	{
	"epoch": 0.4075363506041368,
	"grad_norm": 0.24973638355731964,
	"learning_rate": 0.0015,
	"loss": 1.2947,
	"step": 7960
	},
	{
	"epoch": 0.40804833094409176,
	"grad_norm": 0.24371185898780823,
	"learning_rate": 0.0015,
	"loss": 1.2908,
	"step": 7970
	},
	{
	"epoch": 0.4085603112840467,
	"grad_norm": 0.24570930004119873,
	"learning_rate": 0.0015,
	"loss": 1.2879,
	"step": 7980
	},
	{
	"epoch": 0.40907229162400166,
	"grad_norm": 0.23717066645622253,
	"learning_rate": 0.0015,
	"loss": 1.2928,
	"step": 7990
	},
	{
	"epoch": 0.4095842719639566,
	"grad_norm": 0.24726137518882751,
	"learning_rate": 0.0015,
	"loss": 1.2915,
	"step": 8000
	},
	{
	"epoch": 0.41009625230391156,
	"grad_norm": 0.2352866679430008,
	"learning_rate": 0.0015,
	"loss": 1.2817,
	"step": 8010
	},
	{
	"epoch": 0.4106082326438665,
	"grad_norm": 0.251365065574646,
	"learning_rate": 0.0015,
	"loss": 1.2979,
	"step": 8020
	},
	{
	"epoch": 0.4111202129838214,
	"grad_norm": 0.22410385310649872,
	"learning_rate": 0.0015,
	"loss": 1.2749,
	"step": 8030
	},
	{
	"epoch": 0.4116321933237764,
	"grad_norm": 0.25029605627059937,
	"learning_rate": 0.0015,
	"loss": 1.2862,
	"step": 8040
	},
	{
	"epoch": 0.4121441736637313,
	"grad_norm": 0.25629550218582153,
	"learning_rate": 0.0015,
	"loss": 1.2749,
	"step": 8050
	},
	{
	"epoch": 0.41265615400368627,
	"grad_norm": 0.23836827278137207,
	"learning_rate": 0.0015,
	"loss": 1.28,
	"step": 8060
	},
	{
	"epoch": 0.4131681343436412,
	"grad_norm": 0.23752672970294952,
	"learning_rate": 0.0015,
	"loss": 1.2916,
	"step": 8070
	},
	{
	"epoch": 0.41368011468359617,
	"grad_norm": 0.26047077775001526,
	"learning_rate": 0.0015,
	"loss": 1.2718,
	"step": 8080
	},
	{
	"epoch": 0.4141920950235511,
	"grad_norm": 0.24297983944416046,
	"learning_rate": 0.0015,
	"loss": 1.2961,
	"step": 8090
	},
	{
	"epoch": 0.41470407536350606,
	"grad_norm": 0.24528458714485168,
	"learning_rate": 0.0015,
	"loss": 1.2591,
	"step": 8100
	},
	{
	"epoch": 0.415216055703461,
	"grad_norm": 0.24459367990493774,
	"learning_rate": 0.0015,
	"loss": 1.2754,
	"step": 8110
	},
	{
	"epoch": 0.41572803604341596,
	"grad_norm": 0.24630287289619446,
	"learning_rate": 0.0015,
	"loss": 1.2864,
	"step": 8120
	},
	{
	"epoch": 0.4162400163833709,
	"grad_norm": 0.2514908015727997,
	"learning_rate": 0.0015,
	"loss": 1.2847,
	"step": 8130
	},
	{
	"epoch": 0.4167519967233258,
	"grad_norm": 0.227911576628685,
	"learning_rate": 0.0015,
	"loss": 1.2798,
	"step": 8140
	},
	{
	"epoch": 0.4172639770632808,
	"grad_norm": 0.2512179911136627,
	"learning_rate": 0.0015,
	"loss": 1.2817,
	"step": 8150
	},
	{
	"epoch": 0.4177759574032357,
	"grad_norm": 0.24971604347229004,
	"learning_rate": 0.0015,
	"loss": 1.2856,
	"step": 8160
	},
	{
	"epoch": 0.4182879377431907,
	"grad_norm": 0.24980546534061432,
	"learning_rate": 0.0015,
	"loss": 1.2932,
	"step": 8170
	},
	{
	"epoch": 0.4187999180831456,
	"grad_norm": 0.2510388493537903,
	"learning_rate": 0.0015,
	"loss": 1.2849,
	"step": 8180
	},
	{
	"epoch": 0.41931189842310057,
	"grad_norm": 0.23916485905647278,
	"learning_rate": 0.0015,
	"loss": 1.2787,
	"step": 8190
	},
	{
	"epoch": 0.4198238787630555,
	"grad_norm": 0.2525003254413605,
	"learning_rate": 0.0015,
	"loss": 1.2856,
	"step": 8200
	},
	{
	"epoch": 0.42033585910301047,
	"grad_norm": 0.25865113735198975,
	"learning_rate": 0.0015,
	"loss": 1.2473,
	"step": 8210
	},
	{
	"epoch": 0.4208478394429654,
	"grad_norm": 0.24689891934394836,
	"learning_rate": 0.0015,
	"loss": 1.2663,
	"step": 8220
	},
	{
	"epoch": 0.4213598197829203,
	"grad_norm": 0.2257513701915741,
	"learning_rate": 0.0015,
	"loss": 1.2576,
	"step": 8230
	},
	{
	"epoch": 0.4218718001228753,
	"grad_norm": 0.2339119166135788,
	"learning_rate": 0.0015,
	"loss": 1.3053,
	"step": 8240
	},
	{
	"epoch": 0.4223837804628302,
	"grad_norm": 0.2590661942958832,
	"learning_rate": 0.0015,
	"loss": 1.2698,
	"step": 8250
	},
	{
	"epoch": 0.4228957608027852,
	"grad_norm": 0.2483995407819748,
	"learning_rate": 0.0015,
	"loss": 1.2728,
	"step": 8260
	},
	{
	"epoch": 0.4234077411427401,
	"grad_norm": 0.23534591495990753,
	"learning_rate": 0.0015,
	"loss": 1.2867,
	"step": 8270
	},
	{
	"epoch": 0.4239197214826951,
	"grad_norm": 0.22678501904010773,
	"learning_rate": 0.0015,
	"loss": 1.2775,
	"step": 8280
	},
	{
	"epoch": 0.42443170182265,
	"grad_norm": 0.2298179715871811,
	"learning_rate": 0.0015,
	"loss": 1.2866,
	"step": 8290
	},
	{
	"epoch": 0.424943682162605,
	"grad_norm": 0.2495158165693283,
	"learning_rate": 0.0015,
	"loss": 1.2762,
	"step": 8300
	},
	{
	"epoch": 0.4254556625025599,
	"grad_norm": 0.22808024287223816,
	"learning_rate": 0.0015,
	"loss": 1.269,
	"step": 8310
	},
	{
	"epoch": 0.42596764284251487,
	"grad_norm": 0.24249188601970673,
	"learning_rate": 0.0015,
	"loss": 1.2881,
	"step": 8320
	},
	{
	"epoch": 0.4264796231824698,
	"grad_norm": 0.2539406418800354,
	"learning_rate": 0.0015,
	"loss": 1.2618,
	"step": 8330
	},
	{
	"epoch": 0.4269916035224247,
	"grad_norm": 0.2367791384458542,
	"learning_rate": 0.0015,
	"loss": 1.2762,
	"step": 8340
	},
	{
	"epoch": 0.4275035838623797,
	"grad_norm": 0.2301592379808426,
	"learning_rate": 0.0015,
	"loss": 1.2724,
	"step": 8350
	},
	{
	"epoch": 0.4280155642023346,
	"grad_norm": 0.24136430025100708,
	"learning_rate": 0.0015,
	"loss": 1.2629,
	"step": 8360
	},
	{
	"epoch": 0.4285275445422896,
	"grad_norm": 0.23719066381454468,
	"learning_rate": 0.0015,
	"loss": 1.2624,
	"step": 8370
	},
	{
	"epoch": 0.4290395248822445,
	"grad_norm": 0.2514694631099701,
	"learning_rate": 0.0015,
	"loss": 1.2686,
	"step": 8380
	},
	{
	"epoch": 0.4295515052221995,
	"grad_norm": 0.24186182022094727,
	"learning_rate": 0.0015,
	"loss": 1.2823,
	"step": 8390
	},
	{
	"epoch": 0.4300634855621544,
	"grad_norm": 0.23494115471839905,
	"learning_rate": 0.0015,
	"loss": 1.2534,
	"step": 8400
	},
	{
	"epoch": 0.4305754659021094,
	"grad_norm": 0.2518327534198761,
	"learning_rate": 0.0015,
	"loss": 1.2913,
	"step": 8410
	},
	{
	"epoch": 0.4310874462420643,
	"grad_norm": 0.23622803390026093,
	"learning_rate": 0.0015,
	"loss": 1.2652,
	"step": 8420
	},
	{
	"epoch": 0.4315994265820193,
	"grad_norm": 0.22990188002586365,
	"learning_rate": 0.0015,
	"loss": 1.277,
	"step": 8430
	},
	{
	"epoch": 0.4321114069219742,
	"grad_norm": 0.23679761588573456,
	"learning_rate": 0.0015,
	"loss": 1.2839,
	"step": 8440
	},
	{
	"epoch": 0.4326233872619291,
	"grad_norm": 0.25512683391571045,
	"learning_rate": 0.0015,
	"loss": 1.2818,
	"step": 8450
	},
	{
	"epoch": 0.4331353676018841,
	"grad_norm": 0.24284730851650238,
	"learning_rate": 0.0015,
	"loss": 1.2882,
	"step": 8460
	},
	{
	"epoch": 0.433647347941839,
	"grad_norm": 0.24152646958827972,
	"learning_rate": 0.0015,
	"loss": 1.2727,
	"step": 8470
	},
	{
	"epoch": 0.434159328281794,
	"grad_norm": 0.24133774638175964,
	"learning_rate": 0.0015,
	"loss": 1.2743,
	"step": 8480
	},
	{
	"epoch": 0.4346713086217489,
	"grad_norm": 0.23270800709724426,
	"learning_rate": 0.0015,
	"loss": 1.2651,
	"step": 8490
	},
	{
	"epoch": 0.4351832889617039,
	"grad_norm": 0.2446971833705902,
	"learning_rate": 0.0015,
	"loss": 1.268,
	"step": 8500
	},
	{
	"epoch": 0.4356952693016588,
	"grad_norm": 0.23358875513076782,
	"learning_rate": 0.0015,
	"loss": 1.2774,
	"step": 8510
	},
	{
	"epoch": 0.4362072496416138,
	"grad_norm": 0.22265927493572235,
	"learning_rate": 0.0015,
	"loss": 1.2602,
	"step": 8520
	},
	{
	"epoch": 0.4367192299815687,
	"grad_norm": 0.22781646251678467,
	"learning_rate": 0.0015,
	"loss": 1.2724,
	"step": 8530
	},
	{
	"epoch": 0.4372312103215237,
	"grad_norm": 0.23868761956691742,
	"learning_rate": 0.0015,
	"loss": 1.2581,
	"step": 8540
	},
	{
	"epoch": 0.4377431906614786,
	"grad_norm": 0.2235594540834427,
	"learning_rate": 0.0015,
	"loss": 1.2741,
	"step": 8550
	},
	{
	"epoch": 0.4382551710014335,
	"grad_norm": 0.2419920712709427,
	"learning_rate": 0.0015,
	"loss": 1.2765,
	"step": 8560
	},
	{
	"epoch": 0.4387671513413885,
	"grad_norm": 0.27400338649749756,
	"learning_rate": 0.0015,
	"loss": 1.2635,
	"step": 8570
	},
	{
	"epoch": 0.4392791316813434,
	"grad_norm": 0.23386618494987488,
	"learning_rate": 0.0015,
	"loss": 1.2806,
	"step": 8580
	},
	{
	"epoch": 0.4397911120212984,
	"grad_norm": 0.24642907083034515,
	"learning_rate": 0.0015,
	"loss": 1.2739,
	"step": 8590
	},
	{
	"epoch": 0.4403030923612533,
	"grad_norm": 0.2347201406955719,
	"learning_rate": 0.0015,
	"loss": 1.2581,
	"step": 8600
	},
	{
	"epoch": 0.4408150727012083,
	"grad_norm": 0.22591201961040497,
	"learning_rate": 0.0015,
	"loss": 1.2882,
	"step": 8610
	},
	{
	"epoch": 0.4413270530411632,
	"grad_norm": 0.2508542537689209,
	"learning_rate": 0.0015,
	"loss": 1.2699,
	"step": 8620
	},
	{
	"epoch": 0.4418390333811182,
	"grad_norm": 0.2366652637720108,
	"learning_rate": 0.0015,
	"loss": 1.2522,
	"step": 8630
	},
	{
	"epoch": 0.4423510137210731,
	"grad_norm": 0.22938509285449982,
	"learning_rate": 0.0015,
	"loss": 1.2676,
	"step": 8640
	},
	{
	"epoch": 0.4428629940610281,
	"grad_norm": 0.22820281982421875,
	"learning_rate": 0.0015,
	"loss": 1.2712,
	"step": 8650
	},
	{
	"epoch": 0.443374974400983,
	"grad_norm": 0.22258944809436798,
	"learning_rate": 0.0015,
	"loss": 1.2721,
	"step": 8660
	},
	{
	"epoch": 0.4438869547409379,
	"grad_norm": 0.23942533135414124,
	"learning_rate": 0.0015,
	"loss": 1.2659,
	"step": 8670
	},
	{
	"epoch": 0.4443989350808929,
	"grad_norm": 0.23312713205814362,
	"learning_rate": 0.0015,
	"loss": 1.2755,
	"step": 8680
	},
	{
	"epoch": 0.4449109154208478,
	"grad_norm": 0.2283553183078766,
	"learning_rate": 0.0015,
	"loss": 1.2537,
	"step": 8690
	},
	{
	"epoch": 0.4454228957608028,
	"grad_norm": 0.23631595075130463,
	"learning_rate": 0.0015,
	"loss": 1.2487,
	"step": 8700
	},
	{
	"epoch": 0.4459348761007577,
	"grad_norm": 0.2447190135717392,
	"learning_rate": 0.0015,
	"loss": 1.2529,
	"step": 8710
	},
	{
	"epoch": 0.4464468564407127,
	"grad_norm": 0.24584966897964478,
	"learning_rate": 0.0015,
	"loss": 1.2738,
	"step": 8720
	},
	{
	"epoch": 0.4469588367806676,
	"grad_norm": 0.2374550849199295,
	"learning_rate": 0.0015,
	"loss": 1.2791,
	"step": 8730
	},
	{
	"epoch": 0.4474708171206226,
	"grad_norm": 0.240436390042305,
	"learning_rate": 0.0015,
	"loss": 1.2518,
	"step": 8740
	},
	{
	"epoch": 0.4479827974605775,
	"grad_norm": 0.23341523110866547,
	"learning_rate": 0.0015,
	"loss": 1.2688,
	"step": 8750
	},
	{
	"epoch": 0.4484947778005325,
	"grad_norm": 0.24230003356933594,
	"learning_rate": 0.0015,
	"loss": 1.2379,
	"step": 8760
	},
	{
	"epoch": 0.4490067581404874,
	"grad_norm": 0.2401583343744278,
	"learning_rate": 0.0015,
	"loss": 1.2699,
	"step": 8770
	},
	{
	"epoch": 0.4495187384804423,
	"grad_norm": 0.22647708654403687,
	"learning_rate": 0.0015,
	"loss": 1.2656,
	"step": 8780
	},
	{
	"epoch": 0.4500307188203973,
	"grad_norm": 0.24045558273792267,
	"learning_rate": 0.0015,
	"loss": 1.2531,
	"step": 8790
	},
	{
	"epoch": 0.4505426991603522,
	"grad_norm": 0.2597295045852661,
	"learning_rate": 0.0015,
	"loss": 1.2568,
	"step": 8800
	},
	{
	"epoch": 0.4510546795003072,
	"grad_norm": 0.22485364973545074,
	"learning_rate": 0.0015,
	"loss": 1.2478,
	"step": 8810
	},
	{
	"epoch": 0.4515666598402621,
	"grad_norm": 0.23133698105812073,
	"learning_rate": 0.0015,
	"loss": 1.2688,
	"step": 8820
	},
	{
	"epoch": 0.4520786401802171,
	"grad_norm": 0.22866465151309967,
	"learning_rate": 0.0015,
	"loss": 1.2516,
	"step": 8830
	},
	{
	"epoch": 0.452590620520172,
	"grad_norm": 0.2258300632238388,
	"learning_rate": 0.0015,
	"loss": 1.2571,
	"step": 8840
	},
	{
	"epoch": 0.453102600860127,
	"grad_norm": 0.23454922437667847,
	"learning_rate": 0.0015,
	"loss": 1.2413,
	"step": 8850
	},
	{
	"epoch": 0.4536145812000819,
	"grad_norm": 0.22673968970775604,
	"learning_rate": 0.0015,
	"loss": 1.2504,
	"step": 8860
	},
	{
	"epoch": 0.4541265615400369,
	"grad_norm": 0.24363909661769867,
	"learning_rate": 0.0015,
	"loss": 1.2511,
	"step": 8870
	},
	{
	"epoch": 0.4546385418799918,
	"grad_norm": 0.25056564807891846,
	"learning_rate": 0.0015,
	"loss": 1.2423,
	"step": 8880
	},
	{
	"epoch": 0.45515052221994673,
	"grad_norm": 0.2318125218153,
	"learning_rate": 0.0015,
	"loss": 1.2753,
	"step": 8890
	},
	{
	"epoch": 0.4556625025599017,
	"grad_norm": 0.22525230050086975,
	"learning_rate": 0.0015,
	"loss": 1.2389,
	"step": 8900
	},
	{
	"epoch": 0.4561744828998566,
	"grad_norm": 0.23389683663845062,
	"learning_rate": 0.0015,
	"loss": 1.2457,
	"step": 8910
	},
	{
	"epoch": 0.4566864632398116,
	"grad_norm": 0.23282834887504578,
	"learning_rate": 0.0015,
	"loss": 1.2628,
	"step": 8920
	},
	{
	"epoch": 0.4571984435797665,
	"grad_norm": 0.24000655114650726,
	"learning_rate": 0.0015,
	"loss": 1.2637,
	"step": 8930
	},
	{
	"epoch": 0.4577104239197215,
	"grad_norm": 0.22707650065422058,
	"learning_rate": 0.0015,
	"loss": 1.2651,
	"step": 8940
	},
	{
	"epoch": 0.4582224042596764,
	"grad_norm": 0.24544113874435425,
	"learning_rate": 0.0015,
	"loss": 1.2597,
	"step": 8950
	},
	{
	"epoch": 0.4587343845996314,
	"grad_norm": 0.2471536099910736,
	"learning_rate": 0.0015,
	"loss": 1.2583,
	"step": 8960
	},
	{
	"epoch": 0.4592463649395863,
	"grad_norm": 0.2399998903274536,
	"learning_rate": 0.0015,
	"loss": 1.2587,
	"step": 8970
	},
	{
	"epoch": 0.4597583452795413,
	"grad_norm": 0.239053875207901,
	"learning_rate": 0.0015,
	"loss": 1.2604,
	"step": 8980
	},
	{
	"epoch": 0.4602703256194962,
	"grad_norm": 0.23578478395938873,
	"learning_rate": 0.0015,
	"loss": 1.251,
	"step": 8990
	},
	{
	"epoch": 0.46078230595945113,
	"grad_norm": 0.22768492996692657,
	"learning_rate": 0.0015,
	"loss": 1.2584,
	"step": 9000
	},
	{
	"epoch": 0.4612942862994061,
	"grad_norm": 0.2407897710800171,
	"learning_rate": 0.0015,
	"loss": 1.2551,
	"step": 9010
	},
	{
	"epoch": 0.46180626663936103,
	"grad_norm": 0.24113765358924866,
	"learning_rate": 0.0015,
	"loss": 1.2686,
	"step": 9020
	},
	{
	"epoch": 0.462318246979316,
	"grad_norm": 0.23086939752101898,
	"learning_rate": 0.0015,
	"loss": 1.2521,
	"step": 9030
	},
	{
	"epoch": 0.4628302273192709,
	"grad_norm": 0.2428579032421112,
	"learning_rate": 0.0015,
	"loss": 1.2539,
	"step": 9040
	},
	{
	"epoch": 0.4633422076592259,
	"grad_norm": 0.23166462779045105,
	"learning_rate": 0.0015,
	"loss": 1.2452,
	"step": 9050
	},
	{
	"epoch": 0.4638541879991808,
	"grad_norm": 0.23648124933242798,
	"learning_rate": 0.0015,
	"loss": 1.2522,
	"step": 9060
	},
	{
	"epoch": 0.4643661683391358,
	"grad_norm": 0.23984448611736298,
	"learning_rate": 0.0015,
	"loss": 1.2556,
	"step": 9070
	},
	{
	"epoch": 0.4648781486790907,
	"grad_norm": 0.22623547911643982,
	"learning_rate": 0.0015,
	"loss": 1.2496,
	"step": 9080
	},
	{
	"epoch": 0.4653901290190457,
	"grad_norm": 0.23154547810554504,
	"learning_rate": 0.0015,
	"loss": 1.2688,
	"step": 9090
	},
	{
	"epoch": 0.4659021093590006,
	"grad_norm": 0.24457304179668427,
	"learning_rate": 0.0015,
	"loss": 1.2457,
	"step": 9100
	},
	{
	"epoch": 0.46641408969895554,
	"grad_norm": 0.22743169963359833,
	"learning_rate": 0.0015,
	"loss": 1.2533,
	"step": 9110
	},
	{
	"epoch": 0.4669260700389105,
	"grad_norm": 0.23356840014457703,
	"learning_rate": 0.0015,
	"loss": 1.2529,
	"step": 9120
	},
	{
	"epoch": 0.46743805037886543,
	"grad_norm": 0.23355025053024292,
	"learning_rate": 0.0015,
	"loss": 1.2595,
	"step": 9130
	},
	{
	"epoch": 0.4679500307188204,
	"grad_norm": 0.21895302832126617,
	"learning_rate": 0.0015,
	"loss": 1.2613,
	"step": 9140
	},
	{
	"epoch": 0.46846201105877533,
	"grad_norm": 0.23437921702861786,
	"learning_rate": 0.0015,
	"loss": 1.2631,
	"step": 9150
	},
	{
	"epoch": 0.4689739913987303,
	"grad_norm": 0.22628231346607208,
	"learning_rate": 0.0015,
	"loss": 1.2634,
	"step": 9160
	},
	{
	"epoch": 0.4694859717386852,
	"grad_norm": 0.2286689728498459,
	"learning_rate": 0.0015,
	"loss": 1.2412,
	"step": 9170
	},
	{
	"epoch": 0.4699979520786402,
	"grad_norm": 0.21830707788467407,
	"learning_rate": 0.0015,
	"loss": 1.2714,
	"step": 9180
	},
	{
	"epoch": 0.4705099324185951,
	"grad_norm": 0.2502080500125885,
	"learning_rate": 0.0015,
	"loss": 1.2419,
	"step": 9190
	},
	{
	"epoch": 0.4710219127585501,
	"grad_norm": 0.21958868205547333,
	"learning_rate": 0.0015,
	"loss": 1.2406,
	"step": 9200
	},
	{
	"epoch": 0.471533893098505,
	"grad_norm": 0.22988547384738922,
	"learning_rate": 0.0015,
	"loss": 1.2802,
	"step": 9210
	},
	{
	"epoch": 0.47204587343845994,
	"grad_norm": 0.22131182253360748,
	"learning_rate": 0.0015,
	"loss": 1.2496,
	"step": 9220
	},
	{
	"epoch": 0.4725578537784149,
	"grad_norm": 0.24254952371120453,
	"learning_rate": 0.0015,
	"loss": 1.2702,
	"step": 9230
	},
	{
	"epoch": 0.47306983411836984,
	"grad_norm": 0.22780196368694305,
	"learning_rate": 0.0015,
	"loss": 1.2452,
	"step": 9240
	},
	{
	"epoch": 0.4735818144583248,
	"grad_norm": 0.22993087768554688,
	"learning_rate": 0.0015,
	"loss": 1.2475,
	"step": 9250
	},
	{
	"epoch": 0.47409379479827973,
	"grad_norm": 0.21792259812355042,
	"learning_rate": 0.0015,
	"loss": 1.2532,
	"step": 9260
	},
	{
	"epoch": 0.4746057751382347,
	"grad_norm": 0.22392146289348602,
	"learning_rate": 0.0015,
	"loss": 1.2451,
	"step": 9270
	},
	{
	"epoch": 0.47511775547818963,
	"grad_norm": 0.24879144132137299,
	"learning_rate": 0.0015,
	"loss": 1.2492,
	"step": 9280
	},
	{
	"epoch": 0.4756297358181446,
	"grad_norm": 0.21757066249847412,
	"learning_rate": 0.0015,
	"loss": 1.2508,
	"step": 9290
	},
	{
	"epoch": 0.4761417161580995,
	"grad_norm": 0.23313356935977936,
	"learning_rate": 0.0015,
	"loss": 1.2532,
	"step": 9300
	},
	{
	"epoch": 0.4766536964980545,
	"grad_norm": 0.25208523869514465,
	"learning_rate": 0.0015,
	"loss": 1.2286,
	"step": 9310
	},
	{
	"epoch": 0.4771656768380094,
	"grad_norm": 0.2262171059846878,
	"learning_rate": 0.0015,
	"loss": 1.2398,
	"step": 9320
	},
	{
	"epoch": 0.47767765717796434,
	"grad_norm": 0.2252594530582428,
	"learning_rate": 0.0015,
	"loss": 1.2525,
	"step": 9330
	},
	{
	"epoch": 0.4781896375179193,
	"grad_norm": 0.2281142771244049,
	"learning_rate": 0.0015,
	"loss": 1.2453,
	"step": 9340
	},
	{
	"epoch": 0.47870161785787424,
	"grad_norm": 0.22341011464595795,
	"learning_rate": 0.0015,
	"loss": 1.2628,
	"step": 9350
	},
	{
	"epoch": 0.4792135981978292,
	"grad_norm": 0.22117526829242706,
	"learning_rate": 0.0015,
	"loss": 1.2597,
	"step": 9360
	},
	{
	"epoch": 0.47972557853778414,
	"grad_norm": 0.2359929233789444,
	"learning_rate": 0.0015,
	"loss": 1.2504,
	"step": 9370
	},
	{
	"epoch": 0.4802375588777391,
	"grad_norm": 0.2348971962928772,
	"learning_rate": 0.0015,
	"loss": 1.2352,
	"step": 9380
	},
	{
	"epoch": 0.48074953921769403,
	"grad_norm": 0.23461927473545074,
	"learning_rate": 0.0015,
	"loss": 1.2383,
	"step": 9390
	},
	{
	"epoch": 0.481261519557649,
	"grad_norm": 0.2463158220052719,
	"learning_rate": 0.0015,
	"loss": 1.2329,
	"step": 9400
	},
	{
	"epoch": 0.48177349989760393,
	"grad_norm": 0.240493506193161,
	"learning_rate": 0.0015,
	"loss": 1.2614,
	"step": 9410
	},
	{
	"epoch": 0.48228548023755885,
	"grad_norm": 0.22357292473316193,
	"learning_rate": 0.0015,
	"loss": 1.2553,
	"step": 9420
	},
	{
	"epoch": 0.4827974605775138,
	"grad_norm": 0.2223501205444336,
	"learning_rate": 0.0015,
	"loss": 1.245,
	"step": 9430
	},
	{
	"epoch": 0.48330944091746875,
	"grad_norm": 0.2278713434934616,
	"learning_rate": 0.0015,
	"loss": 1.2544,
	"step": 9440
	},
	{
	"epoch": 0.4838214212574237,
	"grad_norm": 0.23052051663398743,
	"learning_rate": 0.0015,
	"loss": 1.2614,
	"step": 9450
	},
	{
	"epoch": 0.48433340159737864,
	"grad_norm": 0.22685429453849792,
	"learning_rate": 0.0015,
	"loss": 1.2613,
	"step": 9460
	},
	{
	"epoch": 0.4848453819373336,
	"grad_norm": 0.22306014597415924,
	"learning_rate": 0.0015,
	"loss": 1.2289,
	"step": 9470
	},
	{
	"epoch": 0.48535736227728854,
	"grad_norm": 0.22385765612125397,
	"learning_rate": 0.0015,
	"loss": 1.2452,
	"step": 9480
	},
	{
	"epoch": 0.4858693426172435,
	"grad_norm": 0.22245322167873383,
	"learning_rate": 0.0015,
	"loss": 1.2541,
	"step": 9490
	},
	{
	"epoch": 0.48638132295719844,
	"grad_norm": 0.2279806137084961,
	"learning_rate": 0.0015,
	"loss": 1.2557,
	"step": 9500
	},
	{
	"epoch": 0.4868933032971534,
	"grad_norm": 0.2449760138988495,
	"learning_rate": 0.0015,
	"loss": 1.2358,
	"step": 9510
	},
	{
	"epoch": 0.48740528363710833,
	"grad_norm": 0.22621648013591766,
	"learning_rate": 0.0015,
	"loss": 1.2466,
	"step": 9520
	},
	{
	"epoch": 0.48791726397706325,
	"grad_norm": 0.22223225235939026,
	"learning_rate": 0.0015,
	"loss": 1.2522,
	"step": 9530
	},
	{
	"epoch": 0.48842924431701823,
	"grad_norm": 0.23512163758277893,
	"learning_rate": 0.0015,
	"loss": 1.2542,
	"step": 9540
	},
	{
	"epoch": 0.48894122465697315,
	"grad_norm": 0.21729685366153717,
	"learning_rate": 0.0015,
	"loss": 1.224,
	"step": 9550
	},
	{
	"epoch": 0.4894532049969281,
	"grad_norm": 0.22177568078041077,
	"learning_rate": 0.0015,
	"loss": 1.2624,
	"step": 9560
	},
	{
	"epoch": 0.48996518533688305,
	"grad_norm": 0.22674211859703064,
	"learning_rate": 0.0015,
	"loss": 1.2191,
	"step": 9570
	},
	{
	"epoch": 0.490477165676838,
	"grad_norm": 0.25243934988975525,
	"learning_rate": 0.0015,
	"loss": 1.2327,
	"step": 9580
	},
	{
	"epoch": 0.49098914601679294,
	"grad_norm": 0.22206014394760132,
	"learning_rate": 0.0015,
	"loss": 1.2369,
	"step": 9590
	},
	{
	"epoch": 0.4915011263567479,
	"grad_norm": 0.21915268898010254,
	"learning_rate": 0.0015,
	"loss": 1.2475,
	"step": 9600
	},
	{
	"epoch": 0.49201310669670284,
	"grad_norm": 0.219084694981575,
	"learning_rate": 0.0015,
	"loss": 1.2469,
	"step": 9610
	},
	{
	"epoch": 0.4925250870366578,
	"grad_norm": 0.21210044622421265,
	"learning_rate": 0.0015,
	"loss": 1.2385,
	"step": 9620
	},
	{
	"epoch": 0.49303706737661274,
	"grad_norm": 0.22252093255519867,
	"learning_rate": 0.0015,
	"loss": 1.2652,
	"step": 9630
	},
	{
	"epoch": 0.49354904771656766,
	"grad_norm": 0.2407660186290741,
	"learning_rate": 0.0015,
	"loss": 1.2436,
	"step": 9640
	},
	{
	"epoch": 0.49406102805652263,
	"grad_norm": 0.22691743075847626,
	"learning_rate": 0.0015,
	"loss": 1.2254,
	"step": 9650
	},
	{
	"epoch": 0.49457300839647755,
	"grad_norm": 0.23666201531887054,
	"learning_rate": 0.0015,
	"loss": 1.2297,
	"step": 9660
	},
	{
	"epoch": 0.49508498873643253,
	"grad_norm": 0.21549946069717407,
	"learning_rate": 0.0015,
	"loss": 1.238,
	"step": 9670
	},
	{
	"epoch": 0.49559696907638745,
	"grad_norm": 0.22083760797977448,
	"learning_rate": 0.0015,
	"loss": 1.2531,
	"step": 9680
	},
	{
	"epoch": 0.4961089494163424,
	"grad_norm": 0.23391181230545044,
	"learning_rate": 0.0015,
	"loss": 1.1973,
	"step": 9690
	},
	{
	"epoch": 0.49662092975629735,
	"grad_norm": 0.21990463137626648,
	"learning_rate": 0.0015,
	"loss": 1.2357,
	"step": 9700
	},
	{
	"epoch": 0.4971329100962523,
	"grad_norm": 0.22842243313789368,
	"learning_rate": 0.0015,
	"loss": 1.2566,
	"step": 9710
	},
	{
	"epoch": 0.49764489043620724,
	"grad_norm": 0.2154964953660965,
	"learning_rate": 0.0015,
	"loss": 1.2489,
	"step": 9720
	},
	{
	"epoch": 0.4981568707761622,
	"grad_norm": 0.23381535708904266,
	"learning_rate": 0.0015,
	"loss": 1.2379,
	"step": 9730
	},
	{
	"epoch": 0.49866885111611714,
	"grad_norm": 0.23405200242996216,
	"learning_rate": 0.0015,
	"loss": 1.251,
	"step": 9740
	},
	{
	"epoch": 0.49918083145607206,
	"grad_norm": 0.24905334413051605,
	"learning_rate": 0.0015,
	"loss": 1.2247,
	"step": 9750
	},
	{
	"epoch": 0.49969281179602704,
	"grad_norm": 0.22687901556491852,
	"learning_rate": 0.0015,
	"loss": 1.2362,
	"step": 9760
	},
	{
	"epoch": 0.500204792135982,
	"grad_norm": 0.21950958669185638,
	"learning_rate": 0.0015,
	"loss": 1.2304,
	"step": 9770
	},
	{
	"epoch": 0.5007167724759369,
	"grad_norm": 0.24343635141849518,
	"learning_rate": 0.0015,
	"loss": 1.2313,
	"step": 9780
	},
	{
	"epoch": 0.5012287528158919,
	"grad_norm": 0.2238016575574875,
	"learning_rate": 0.0015,
	"loss": 1.2504,
	"step": 9790
	},
	{
	"epoch": 0.5017407331558468,
	"grad_norm": 0.22162608802318573,
	"learning_rate": 0.0015,
	"loss": 1.2242,
	"step": 9800
	},
	{
	"epoch": 0.5022527134958018,
	"grad_norm": 0.2090781331062317,
	"learning_rate": 0.0015,
	"loss": 1.2214,
	"step": 9810
	},
	{
	"epoch": 0.5027646938357567,
	"grad_norm": 0.23861265182495117,
	"learning_rate": 0.0015,
	"loss": 1.2554,
	"step": 9820
	},
	{
	"epoch": 0.5032766741757116,
	"grad_norm": 0.24569468200206757,
	"learning_rate": 0.0015,
	"loss": 1.2525,
	"step": 9830
	},
	{
	"epoch": 0.5037886545156666,
	"grad_norm": 0.22713309526443481,
	"learning_rate": 0.0015,
	"loss": 1.2513,
	"step": 9840
	},
	{
	"epoch": 0.5043006348556216,
	"grad_norm": 0.22980822622776031,
	"learning_rate": 0.0015,
	"loss": 1.2493,
	"step": 9850
	},
	{
	"epoch": 0.5048126151955765,
	"grad_norm": 0.23609554767608643,
	"learning_rate": 0.0015,
	"loss": 1.2366,
	"step": 9860
	},
	{
	"epoch": 0.5053245955355314,
	"grad_norm": 0.2115827053785324,
	"learning_rate": 0.0015,
	"loss": 1.2558,
	"step": 9870
	},
	{
	"epoch": 0.5058365758754864,
	"grad_norm": 0.20506598055362701,
	"learning_rate": 0.0015,
	"loss": 1.2421,
	"step": 9880
	},
	{
	"epoch": 0.5063485562154413,
	"grad_norm": 0.21842671930789948,
	"learning_rate": 0.0015,
	"loss": 1.2328,
	"step": 9890
	},
	{
	"epoch": 0.5068605365553963,
	"grad_norm": 0.2390349954366684,
	"learning_rate": 0.0015,
	"loss": 1.2494,
	"step": 9900
	},
	{
	"epoch": 0.5073725168953512,
	"grad_norm": 0.21842844784259796,
	"learning_rate": 0.0015,
	"loss": 1.243,
	"step": 9910
	},
	{
	"epoch": 0.5078844972353062,
	"grad_norm": 0.21210695803165436,
	"learning_rate": 0.0015,
	"loss": 1.2438,
	"step": 9920
	},
	{
	"epoch": 0.5083964775752611,
	"grad_norm": 0.21826642751693726,
	"learning_rate": 0.0015,
	"loss": 1.2402,
	"step": 9930
	},
	{
	"epoch": 0.5089084579152161,
	"grad_norm": 0.21249307692050934,
	"learning_rate": 0.0015,
	"loss": 1.2168,
	"step": 9940
	},
	{
	"epoch": 0.509420438255171,
	"grad_norm": 0.22593854367733002,
	"learning_rate": 0.0015,
	"loss": 1.222,
	"step": 9950
	},
	{
	"epoch": 0.509932418595126,
	"grad_norm": 0.22972868382930756,
	"learning_rate": 0.0015,
	"loss": 1.2577,
	"step": 9960
	},
	{
	"epoch": 0.5104443989350809,
	"grad_norm": 0.21808108687400818,
	"learning_rate": 0.0015,
	"loss": 1.2301,
	"step": 9970
	},
	{
	"epoch": 0.5109563792750358,
	"grad_norm": 0.21525093913078308,
	"learning_rate": 0.0015,
	"loss": 1.2412,
	"step": 9980
	},
	{
	"epoch": 0.5114683596149908,
	"grad_norm": 0.22222475707530975,
	"learning_rate": 0.0015,
	"loss": 1.237,
	"step": 9990
	},
	{
	"epoch": 0.5119803399549457,
	"grad_norm": 0.23491185903549194,
	"learning_rate": 0.0015,
	"loss": 1.2436,
	"step": 10000
	},
	{
	"epoch": 0.5124923202949007,
	"grad_norm": 0.23327389359474182,
	"learning_rate": 0.0015,
	"loss": 1.223,
	"step": 10010
	},
	{
	"epoch": 0.5130043006348556,
	"grad_norm": 0.21225926280021667,
	"learning_rate": 0.0015,
	"loss": 1.2215,
	"step": 10020
	},
	{
	"epoch": 0.5135162809748106,
	"grad_norm": 0.21181495487689972,
	"learning_rate": 0.0015,
	"loss": 1.2297,
	"step": 10030
	},
	{
	"epoch": 0.5140282613147655,
	"grad_norm": 0.21177121996879578,
	"learning_rate": 0.0015,
	"loss": 1.2228,
	"step": 10040
	},
	{
	"epoch": 0.5145402416547205,
	"grad_norm": 0.22206859290599823,
	"learning_rate": 0.0015,
	"loss": 1.2579,
	"step": 10050
	},
	{
	"epoch": 0.5150522219946754,
	"grad_norm": 0.21502964198589325,
	"learning_rate": 0.0015,
	"loss": 1.2298,
	"step": 10060
	},
	{
	"epoch": 0.5155642023346303,
	"grad_norm": 0.22302408516407013,
	"learning_rate": 0.0015,
	"loss": 1.2226,
	"step": 10070
	},
	{
	"epoch": 0.5160761826745853,
	"grad_norm": 0.21490171551704407,
	"learning_rate": 0.0015,
	"loss": 1.2554,
	"step": 10080
	},
	{
	"epoch": 0.5165881630145402,
	"grad_norm": 0.22137999534606934,
	"learning_rate": 0.0015,
	"loss": 1.2189,
	"step": 10090
	},
	{
	"epoch": 0.5171001433544952,
	"grad_norm": 0.21363165974617004,
	"learning_rate": 0.0015,
	"loss": 1.2533,
	"step": 10100
	},
	{
	"epoch": 0.5176121236944501,
	"grad_norm": 0.23033399879932404,
	"learning_rate": 0.0015,
	"loss": 1.2406,
	"step": 10110
	},
	{
	"epoch": 0.5181241040344051,
	"grad_norm": 0.22692923247814178,
	"learning_rate": 0.0015,
	"loss": 1.2294,
	"step": 10120
	},
	{
	"epoch": 0.51863608437436,
	"grad_norm": 0.23053601384162903,
	"learning_rate": 0.0015,
	"loss": 1.2351,
	"step": 10130
	},
	{
	"epoch": 0.519148064714315,
	"grad_norm": 0.21180744469165802,
	"learning_rate": 0.0015,
	"loss": 1.2518,
	"step": 10140
	},
	{
	"epoch": 0.5196600450542699,
	"grad_norm": 0.2388363927602768,
	"learning_rate": 0.0015,
	"loss": 1.2188,
	"step": 10150
	},
	{
	"epoch": 0.5201720253942249,
	"grad_norm": 0.22531351447105408,
	"learning_rate": 0.0015,
	"loss": 1.2242,
	"step": 10160
	},
	{
	"epoch": 0.5206840057341798,
	"grad_norm": 0.2166026532649994,
	"learning_rate": 0.0015,
	"loss": 1.2122,
	"step": 10170
	},
	{
	"epoch": 0.5211959860741348,
	"grad_norm": 0.23231609165668488,
	"learning_rate": 0.0015,
	"loss": 1.2078,
	"step": 10180
	},
	{
	"epoch": 0.5217079664140897,
	"grad_norm": 0.2189248949289322,
	"learning_rate": 0.0015,
	"loss": 1.2392,
	"step": 10190
	},
	{
	"epoch": 0.5222199467540446,
	"grad_norm": 0.21036341786384583,
	"learning_rate": 0.0015,
	"loss": 1.2325,
	"step": 10200
	},
	{
	"epoch": 0.5227319270939996,
	"grad_norm": 0.21162335574626923,
	"learning_rate": 0.0015,
	"loss": 1.2348,
	"step": 10210
	},
	{
	"epoch": 0.5232439074339545,
	"grad_norm": 0.21558861434459686,
	"learning_rate": 0.0015,
	"loss": 1.2343,
	"step": 10220
	},
	{
	"epoch": 0.5237558877739095,
	"grad_norm": 0.22100234031677246,
	"learning_rate": 0.0015,
	"loss": 1.2373,
	"step": 10230
	},
	{
	"epoch": 0.5242678681138644,
	"grad_norm": 0.225110724568367,
	"learning_rate": 0.0015,
	"loss": 1.2368,
	"step": 10240
	},
	{
	"epoch": 0.5247798484538194,
	"grad_norm": 0.21674303710460663,
	"learning_rate": 0.0015,
	"loss": 1.2365,
	"step": 10250
	},
	{
	"epoch": 0.5252918287937743,
	"grad_norm": 0.23076364398002625,
	"learning_rate": 0.0015,
	"loss": 1.2202,
	"step": 10260
	},
	{
	"epoch": 0.5258038091337293,
	"grad_norm": 0.23180685937404633,
	"learning_rate": 0.0015,
	"loss": 1.234,
	"step": 10270
	},
	{
	"epoch": 0.5263157894736842,
	"grad_norm": 0.21580268442630768,
	"learning_rate": 0.0015,
	"loss": 1.2372,
	"step": 10280
	},
	{
	"epoch": 0.5268277698136391,
	"grad_norm": 0.2099384069442749,
	"learning_rate": 0.0015,
	"loss": 1.2118,
	"step": 10290
	},
	{
	"epoch": 0.5273397501535941,
	"grad_norm": 0.23586790263652802,
	"learning_rate": 0.0015,
	"loss": 1.2482,
	"step": 10300
	},
	{
	"epoch": 0.527851730493549,
	"grad_norm": 0.2149907946586609,
	"learning_rate": 0.0015,
	"loss": 1.2469,
	"step": 10310
	},
	{
	"epoch": 0.528363710833504,
	"grad_norm": 0.21271546185016632,
	"learning_rate": 0.0015,
	"loss": 1.2325,
	"step": 10320
	},
	{
	"epoch": 0.5288756911734589,
	"grad_norm": 0.20998185873031616,
	"learning_rate": 0.0015,
	"loss": 1.247,
	"step": 10330
	},
	{
	"epoch": 0.5293876715134139,
	"grad_norm": 0.23234112560749054,
	"learning_rate": 0.0015,
	"loss": 1.2395,
	"step": 10340
	},
	{
	"epoch": 0.5298996518533688,
	"grad_norm": 0.2261328250169754,
	"learning_rate": 0.0015,
	"loss": 1.2244,
	"step": 10350
	},
	{
	"epoch": 0.5304116321933238,
	"grad_norm": 0.2102995663881302,
	"learning_rate": 0.0015,
	"loss": 1.2307,
	"step": 10360
	},
	{
	"epoch": 0.5309236125332787,
	"grad_norm": 0.21107365190982819,
	"learning_rate": 0.0015,
	"loss": 1.2195,
	"step": 10370
	},
	{
	"epoch": 0.5314355928732337,
	"grad_norm": 0.2249820977449417,
	"learning_rate": 0.0015,
	"loss": 1.2499,
	"step": 10380
	},
	{
	"epoch": 0.5319475732131886,
	"grad_norm": 0.2142641544342041,
	"learning_rate": 0.0015,
	"loss": 1.2329,
	"step": 10390
	},
	{
	"epoch": 0.5324595535531436,
	"grad_norm": 0.2172004133462906,
	"learning_rate": 0.0015,
	"loss": 1.2098,
	"step": 10400
	},
	{
	"epoch": 0.5329715338930985,
	"grad_norm": 0.19984416663646698,
	"learning_rate": 0.0015,
	"loss": 1.2135,
	"step": 10410
	},
	{
	"epoch": 0.5334835142330534,
	"grad_norm": 0.22618216276168823,
	"learning_rate": 0.0015,
	"loss": 1.2173,
	"step": 10420
	},
	{
	"epoch": 0.5339954945730084,
	"grad_norm": 0.22356146574020386,
	"learning_rate": 0.0015,
	"loss": 1.2423,
	"step": 10430
	},
	{
	"epoch": 0.5345074749129634,
	"grad_norm": 0.2300511598587036,
	"learning_rate": 0.0015,
	"loss": 1.2308,
	"step": 10440
	},
	{
	"epoch": 0.5350194552529183,
	"grad_norm": 0.22442519664764404,
	"learning_rate": 0.0015,
	"loss": 1.2435,
	"step": 10450
	},
	{
	"epoch": 0.5355314355928732,
	"grad_norm": 0.21556325256824493,
	"learning_rate": 0.0015,
	"loss": 1.2499,
	"step": 10460
	},
	{
	"epoch": 0.5360434159328282,
	"grad_norm": 0.21608006954193115,
	"learning_rate": 0.0015,
	"loss": 1.2367,
	"step": 10470
	},
	{
	"epoch": 0.5365553962727831,
	"grad_norm": 0.22256320714950562,
	"learning_rate": 0.0015,
	"loss": 1.2325,
	"step": 10480
	},
	{
	"epoch": 0.5370673766127381,
	"grad_norm": 0.22661398351192474,
	"learning_rate": 0.0015,
	"loss": 1.2253,
	"step": 10490
	},
	{
	"epoch": 0.537579356952693,
	"grad_norm": 0.21327906847000122,
	"learning_rate": 0.0015,
	"loss": 1.215,
	"step": 10500
	},
	{
	"epoch": 0.5380913372926479,
	"grad_norm": 0.21695594489574432,
	"learning_rate": 0.0015,
	"loss": 1.2372,
	"step": 10510
	},
	{
	"epoch": 0.5386033176326029,
	"grad_norm": 0.20584948360919952,
	"learning_rate": 0.0015,
	"loss": 1.2491,
	"step": 10520
	},
	{
	"epoch": 0.5391152979725579,
	"grad_norm": 0.2212359756231308,
	"learning_rate": 0.0015,
	"loss": 1.2415,
	"step": 10530
	},
	{
	"epoch": 0.5396272783125128,
	"grad_norm": 0.2696838974952698,
	"learning_rate": 0.0015,
	"loss": 1.2254,
	"step": 10540
	},
	{
	"epoch": 0.5401392586524677,
	"grad_norm": 0.21417804062366486,
	"learning_rate": 0.0015,
	"loss": 1.2307,
	"step": 10550
	},
	{
	"epoch": 0.5406512389924227,
	"grad_norm": 0.2126997709274292,
	"learning_rate": 0.0015,
	"loss": 1.2134,
	"step": 10560
	},
	{
	"epoch": 0.5411632193323777,
	"grad_norm": 0.21690891683101654,
	"learning_rate": 0.0015,
	"loss": 1.2136,
	"step": 10570
	},
	{
	"epoch": 0.5416751996723326,
	"grad_norm": 0.21153941750526428,
	"learning_rate": 0.0015,
	"loss": 1.2157,
	"step": 10580
	},
	{
	"epoch": 0.5421871800122875,
	"grad_norm": 0.21089473366737366,
	"learning_rate": 0.0015,
	"loss": 1.2272,
	"step": 10590
	},
	{
	"epoch": 0.5426991603522425,
	"grad_norm": 0.2564721703529358,
	"learning_rate": 0.0015,
	"loss": 1.2026,
	"step": 10600
	},
	{
	"epoch": 0.5432111406921974,
	"grad_norm": 0.2235645204782486,
	"learning_rate": 0.0015,
	"loss": 1.2373,
	"step": 10610
	},
	{
	"epoch": 0.5437231210321524,
	"grad_norm": 0.21624423563480377,
	"learning_rate": 0.0015,
	"loss": 1.2208,
	"step": 10620
	},
	{
	"epoch": 0.5442351013721073,
	"grad_norm": 0.22423268854618073,
	"learning_rate": 0.0015,
	"loss": 1.2246,
	"step": 10630
	},
	{
	"epoch": 0.5447470817120622,
	"grad_norm": 0.20781590044498444,
	"learning_rate": 0.0015,
	"loss": 1.2197,
	"step": 10640
	},
	{
	"epoch": 0.5452590620520172,
	"grad_norm": 0.21837033331394196,
	"learning_rate": 0.0015,
	"loss": 1.2195,
	"step": 10650
	},
	{
	"epoch": 0.5457710423919722,
	"grad_norm": 0.23481489717960358,
	"learning_rate": 0.0015,
	"loss": 1.2221,
	"step": 10660
	},
	{
	"epoch": 0.5462830227319271,
	"grad_norm": 0.20522017776966095,
	"learning_rate": 0.0015,
	"loss": 1.2119,
	"step": 10670
	},
	{
	"epoch": 0.546795003071882,
	"grad_norm": 0.24082933366298676,
	"learning_rate": 0.0015,
	"loss": 1.2115,
	"step": 10680
	},
	{
	"epoch": 0.547306983411837,
	"grad_norm": 0.21289277076721191,
	"learning_rate": 0.0015,
	"loss": 1.2386,
	"step": 10690
	},
	{
	"epoch": 0.547818963751792,
	"grad_norm": 0.21003836393356323,
	"learning_rate": 0.0015,
	"loss": 1.2107,
	"step": 10700
	},
	{
	"epoch": 0.5483309440917469,
	"grad_norm": 0.21242666244506836,
	"learning_rate": 0.0015,
	"loss": 1.2429,
	"step": 10710
	},
	{
	"epoch": 0.5488429244317018,
	"grad_norm": 0.2271721065044403,
	"learning_rate": 0.0015,
	"loss": 1.2314,
	"step": 10720
	},
	{
	"epoch": 0.5493549047716567,
	"grad_norm": 0.21104945242404938,
	"learning_rate": 0.0015,
	"loss": 1.2342,
	"step": 10730
	},
	{
	"epoch": 0.5498668851116117,
	"grad_norm": 0.2085346132516861,
	"learning_rate": 0.0015,
	"loss": 1.2271,
	"step": 10740
	},
	{
	"epoch": 0.5503788654515667,
	"grad_norm": 0.22231942415237427,
	"learning_rate": 0.0015,
	"loss": 1.2306,
	"step": 10750
	},
	{
	"epoch": 0.5508908457915216,
	"grad_norm": 0.21245570480823517,
	"learning_rate": 0.0015,
	"loss": 1.2258,
	"step": 10760
	},
	{
	"epoch": 0.5514028261314765,
	"grad_norm": 0.19826675951480865,
	"learning_rate": 0.0015,
	"loss": 1.2163,
	"step": 10770
	},
	{
	"epoch": 0.5519148064714315,
	"grad_norm": 0.22163072228431702,
	"learning_rate": 0.0015,
	"loss": 1.229,
	"step": 10780
	},
	{
	"epoch": 0.5524267868113865,
	"grad_norm": 0.21903766691684723,
	"learning_rate": 0.0015,
	"loss": 1.2139,
	"step": 10790
	},
	{
	"epoch": 0.5529387671513414,
	"grad_norm": 0.2075222283601761,
	"learning_rate": 0.0015,
	"loss": 1.2129,
	"step": 10800
	},
	{
	"epoch": 0.5534507474912963,
	"grad_norm": 0.21938522160053253,
	"learning_rate": 0.0015,
	"loss": 1.2232,
	"step": 10810
	},
	{
	"epoch": 0.5539627278312513,
	"grad_norm": 0.21770595014095306,
	"learning_rate": 0.0015,
	"loss": 1.2465,
	"step": 10820
	},
	{
	"epoch": 0.5544747081712063,
	"grad_norm": 0.20712700486183167,
	"learning_rate": 0.0015,
	"loss": 1.2183,
	"step": 10830
	},
	{
	"epoch": 0.5549866885111612,
	"grad_norm": 0.22477000951766968,
	"learning_rate": 0.0015,
	"loss": 1.2186,
	"step": 10840
	},
	{
	"epoch": 0.5554986688511161,
	"grad_norm": 0.21939463913440704,
	"learning_rate": 0.0015,
	"loss": 1.2355,
	"step": 10850
	},
	{
	"epoch": 0.556010649191071,
	"grad_norm": 0.2524956464767456,
	"learning_rate": 0.0015,
	"loss": 1.2092,
	"step": 10860
	},
	{
	"epoch": 0.556522629531026,
	"grad_norm": 0.2115110456943512,
	"learning_rate": 0.0015,
	"loss": 1.2137,
	"step": 10870
	},
	{
	"epoch": 0.557034609870981,
	"grad_norm": 0.20509475469589233,
	"learning_rate": 0.0015,
	"loss": 1.2234,
	"step": 10880
	},
	{
	"epoch": 0.5575465902109359,
	"grad_norm": 0.21247826516628265,
	"learning_rate": 0.0015,
	"loss": 1.2234,
	"step": 10890
	},
	{
	"epoch": 0.5580585705508908,
	"grad_norm": 0.21064293384552002,
	"learning_rate": 0.0015,
	"loss": 1.2289,
	"step": 10900
	},
	{
	"epoch": 0.5585705508908458,
	"grad_norm": 0.21902692317962646,
	"learning_rate": 0.0015,
	"loss": 1.2085,
	"step": 10910
	},
	{
	"epoch": 0.5590825312308008,
	"grad_norm": 0.21347709000110626,
	"learning_rate": 0.0015,
	"loss": 1.2151,
	"step": 10920
	},
	{
	"epoch": 0.5595945115707557,
	"grad_norm": 0.20034797489643097,
	"learning_rate": 0.0015,
	"loss": 1.218,
	"step": 10930
	},
	{
	"epoch": 0.5601064919107106,
	"grad_norm": 0.20223546028137207,
	"learning_rate": 0.0015,
	"loss": 1.2176,
	"step": 10940
	},
	{
	"epoch": 0.5606184722506655,
	"grad_norm": 0.23771893978118896,
	"learning_rate": 0.0015,
	"loss": 1.2297,
	"step": 10950
	},
	{
	"epoch": 0.5611304525906206,
	"grad_norm": 0.24617038667201996,
	"learning_rate": 0.0015,
	"loss": 1.2331,
	"step": 10960
	},
	{
	"epoch": 0.5616424329305755,
	"grad_norm": 0.2169172167778015,
	"learning_rate": 0.0015,
	"loss": 1.2319,
	"step": 10970
	},
	{
	"epoch": 0.5621544132705304,
	"grad_norm": 0.21281367540359497,
	"learning_rate": 0.0015,
	"loss": 1.2205,
	"step": 10980
	},
	{
	"epoch": 0.5626663936104853,
	"grad_norm": 0.21705804765224457,
	"learning_rate": 0.0015,
	"loss": 1.2138,
	"step": 10990
	},
	{
	"epoch": 0.5631783739504403,
	"grad_norm": 0.19822140038013458,
	"learning_rate": 0.0015,
	"loss": 1.2339,
	"step": 11000
	},
	{
	"epoch": 0.5636903542903953,
	"grad_norm": 0.20427508652210236,
	"learning_rate": 0.0015,
	"loss": 1.2195,
	"step": 11010
	},
	{
	"epoch": 0.5642023346303502,
	"grad_norm": 0.2140669971704483,
	"learning_rate": 0.0015,
	"loss": 1.1975,
	"step": 11020
	},
	{
	"epoch": 0.5647143149703051,
	"grad_norm": 0.20858561992645264,
	"learning_rate": 0.0015,
	"loss": 1.208,
	"step": 11030
	},
	{
	"epoch": 0.5652262953102601,
	"grad_norm": 0.21723324060440063,
	"learning_rate": 0.0015,
	"loss": 1.2193,
	"step": 11040
	},
	{
	"epoch": 0.5657382756502151,
	"grad_norm": 0.21611307561397552,
	"learning_rate": 0.0015,
	"loss": 1.2199,
	"step": 11050
	},
	{
	"epoch": 0.56625025599017,
	"grad_norm": 0.21373584866523743,
	"learning_rate": 0.0015,
	"loss": 1.2065,
	"step": 11060
	},
	{
	"epoch": 0.5667622363301249,
	"grad_norm": 0.2058737874031067,
	"learning_rate": 0.0015,
	"loss": 1.2019,
	"step": 11070
	},
	{
	"epoch": 0.5672742166700798,
	"grad_norm": 0.22086186707019806,
	"learning_rate": 0.0015,
	"loss": 1.2108,
	"step": 11080
	},
	{
	"epoch": 0.5677861970100349,
	"grad_norm": 0.21599149703979492,
	"learning_rate": 0.0015,
	"loss": 1.209,
	"step": 11090
	},
	{
	"epoch": 0.5682981773499898,
	"grad_norm": 0.22241829335689545,
	"learning_rate": 0.0015,
	"loss": 1.2054,
	"step": 11100
	},
	{
	"epoch": 0.5688101576899447,
	"grad_norm": 0.19618919491767883,
	"learning_rate": 0.0015,
	"loss": 1.2293,
	"step": 11110
	},
	{
	"epoch": 0.5693221380298996,
	"grad_norm": 0.19986511766910553,
	"learning_rate": 0.0015,
	"loss": 1.1945,
	"step": 11120
	},
	{
	"epoch": 0.5698341183698546,
	"grad_norm": 0.20131878554821014,
	"learning_rate": 0.0015,
	"loss": 1.2082,
	"step": 11130
	},
	{
	"epoch": 0.5703460987098096,
	"grad_norm": 0.20655354857444763,
	"learning_rate": 0.0015,
	"loss": 1.2111,
	"step": 11140
	},
	{
	"epoch": 0.5708580790497645,
	"grad_norm": 0.2156609296798706,
	"learning_rate": 0.0015,
	"loss": 1.2288,
	"step": 11150
	},
	{
	"epoch": 0.5713700593897194,
	"grad_norm": 0.20367379486560822,
	"learning_rate": 0.0015,
	"loss": 1.2229,
	"step": 11160
	},
	{
	"epoch": 0.5718820397296743,
	"grad_norm": 0.20256848633289337,
	"learning_rate": 0.0015,
	"loss": 1.2236,
	"step": 11170
	},
	{
	"epoch": 0.5723940200696294,
	"grad_norm": 0.20862998068332672,
	"learning_rate": 0.0015,
	"loss": 1.2153,
	"step": 11180
	},
	{
	"epoch": 0.5729060004095843,
	"grad_norm": 0.21000482141971588,
	"learning_rate": 0.0015,
	"loss": 1.2164,
	"step": 11190
	},
	{
	"epoch": 0.5734179807495392,
	"grad_norm": 0.21778449416160583,
	"learning_rate": 0.0015,
	"loss": 1.2221,
	"step": 11200
	},
	{
	"epoch": 0.5739299610894941,
	"grad_norm": 0.20954222977161407,
	"learning_rate": 0.0015,
	"loss": 1.2257,
	"step": 11210
	},
	{
	"epoch": 0.5744419414294492,
	"grad_norm": 0.21105293929576874,
	"learning_rate": 0.0015,
	"loss": 1.2218,
	"step": 11220
	},
	{
	"epoch": 0.5749539217694041,
	"grad_norm": 0.2167726457118988,
	"learning_rate": 0.0015,
	"loss": 1.2193,
	"step": 11230
	},
	{
	"epoch": 0.575465902109359,
	"grad_norm": 0.20207858085632324,
	"learning_rate": 0.0015,
	"loss": 1.2243,
	"step": 11240
	},
	{
	"epoch": 0.5759778824493139,
	"grad_norm": 0.21475255489349365,
	"learning_rate": 0.0015,
	"loss": 1.2222,
	"step": 11250
	},
	{
	"epoch": 0.576489862789269,
	"grad_norm": 0.22506240010261536,
	"learning_rate": 0.0015,
	"loss": 1.2255,
	"step": 11260
	},
	{
	"epoch": 0.5770018431292239,
	"grad_norm": 0.23033161461353302,
	"learning_rate": 0.0015,
	"loss": 1.2287,
	"step": 11270
	},
	{
	"epoch": 0.5775138234691788,
	"grad_norm": 0.20455433428287506,
	"learning_rate": 0.0015,
	"loss": 1.2141,
	"step": 11280
	},
	{
	"epoch": 0.5780258038091337,
	"grad_norm": 0.22457818686962128,
	"learning_rate": 0.0015,
	"loss": 1.2329,
	"step": 11290
	},
	{
	"epoch": 0.5785377841490886,
	"grad_norm": 0.2011692076921463,
	"learning_rate": 0.0015,
	"loss": 1.213,
	"step": 11300
	},
	{
	"epoch": 0.5790497644890437,
	"grad_norm": 0.20488318800926208,
	"learning_rate": 0.0015,
	"loss": 1.2224,
	"step": 11310
	},
	{
	"epoch": 0.5795617448289986,
	"grad_norm": 0.22065885365009308,
	"learning_rate": 0.0015,
	"loss": 1.231,
	"step": 11320
	},
	{
	"epoch": 0.5800737251689535,
	"grad_norm": 0.20532485842704773,
	"learning_rate": 0.0015,
	"loss": 1.2051,
	"step": 11330
	},
	{
	"epoch": 0.5805857055089084,
	"grad_norm": 0.20642031729221344,
	"learning_rate": 0.0015,
	"loss": 1.215,
	"step": 11340
	},
	{
	"epoch": 0.5810976858488635,
	"grad_norm": 0.20660312473773956,
	"learning_rate": 0.0015,
	"loss": 1.2191,
	"step": 11350
	},
	{
	"epoch": 0.5816096661888184,
	"grad_norm": 0.21046073734760284,
	"learning_rate": 0.0015,
	"loss": 1.2142,
	"step": 11360
	},
	{
	"epoch": 0.5821216465287733,
	"grad_norm": 0.21846343576908112,
	"learning_rate": 0.0015,
	"loss": 1.2205,
	"step": 11370
	},
	{
	"epoch": 0.5826336268687282,
	"grad_norm": 0.20589517056941986,
	"learning_rate": 0.0015,
	"loss": 1.2057,
	"step": 11380
	},
	{
	"epoch": 0.5831456072086831,
	"grad_norm": 0.20691034197807312,
	"learning_rate": 0.0015,
	"loss": 1.2064,
	"step": 11390
	},
	{
	"epoch": 0.5836575875486382,
	"grad_norm": 0.21649305522441864,
	"learning_rate": 0.0015,
	"loss": 1.2032,
	"step": 11400
	},
	{
	"epoch": 0.5841695678885931,
	"grad_norm": 0.2329801321029663,
	"learning_rate": 0.0015,
	"loss": 1.2196,
	"step": 11410
	},
	{
	"epoch": 0.584681548228548,
	"grad_norm": 0.23256272077560425,
	"learning_rate": 0.0015,
	"loss": 1.2124,
	"step": 11420
	},
	{
	"epoch": 0.5851935285685029,
	"grad_norm": 0.2036832720041275,
	"learning_rate": 0.0015,
	"loss": 1.2098,
	"step": 11430
	},
	{
	"epoch": 0.585705508908458,
	"grad_norm": 0.21199576556682587,
	"learning_rate": 0.0015,
	"loss": 1.2266,
	"step": 11440
	},
	{
	"epoch": 0.5862174892484129,
	"grad_norm": 0.2015303373336792,
	"learning_rate": 0.0015,
	"loss": 1.1916,
	"step": 11450
	},
	{
	"epoch": 0.5867294695883678,
	"grad_norm": 0.2176617681980133,
	"learning_rate": 0.0015,
	"loss": 1.1888,
	"step": 11460
	},
	{
	"epoch": 0.5872414499283227,
	"grad_norm": 0.21515142917633057,
	"learning_rate": 0.0015,
	"loss": 1.2096,
	"step": 11470
	},
	{
	"epoch": 0.5877534302682776,
	"grad_norm": 0.21731404960155487,
	"learning_rate": 0.0015,
	"loss": 1.2077,
	"step": 11480
	},
	{
	"epoch": 0.5882654106082327,
	"grad_norm": 0.20664644241333008,
	"learning_rate": 0.0015,
	"loss": 1.2027,
	"step": 11490
	},
	{
	"epoch": 0.5887773909481876,
	"grad_norm": 0.20170624554157257,
	"learning_rate": 0.0015,
	"loss": 1.233,
	"step": 11500
	},
	{
	"epoch": 0.5892893712881425,
	"grad_norm": 0.2092912346124649,
	"learning_rate": 0.0015,
	"loss": 1.2004,
	"step": 11510
	},
	{
	"epoch": 0.5898013516280974,
	"grad_norm": 0.204396590590477,
	"learning_rate": 0.0015,
	"loss": 1.2052,
	"step": 11520
	},
	{
	"epoch": 0.5903133319680525,
	"grad_norm": 0.2075720578432083,
	"learning_rate": 0.0015,
	"loss": 1.2042,
	"step": 11530
	},
	{
	"epoch": 0.5908253123080074,
	"grad_norm": 0.19743815064430237,
	"learning_rate": 0.0015,
	"loss": 1.1974,
	"step": 11540
	},
	{
	"epoch": 0.5913372926479623,
	"grad_norm": 0.19972637295722961,
	"learning_rate": 0.0015,
	"loss": 1.2021,
	"step": 11550
	},
	{
	"epoch": 0.5918492729879172,
	"grad_norm": 0.20364214479923248,
	"learning_rate": 0.0015,
	"loss": 1.2149,
	"step": 11560
	},
	{
	"epoch": 0.5923612533278723,
	"grad_norm": 0.20440620183944702,
	"learning_rate": 0.0015,
	"loss": 1.1855,
	"step": 11570
	},
	{
	"epoch": 0.5928732336678272,
	"grad_norm": 0.21338412165641785,
	"learning_rate": 0.0015,
	"loss": 1.2022,
	"step": 11580
	},
	{
	"epoch": 0.5933852140077821,
	"grad_norm": 0.2067076861858368,
	"learning_rate": 0.0015,
	"loss": 1.2109,
	"step": 11590
	},
	{
	"epoch": 0.593897194347737,
	"grad_norm": 0.20598556101322174,
	"learning_rate": 0.0015,
	"loss": 1.2132,
	"step": 11600
	},
	{
	"epoch": 0.5944091746876919,
	"grad_norm": 0.21331733465194702,
	"learning_rate": 0.0015,
	"loss": 1.2021,
	"step": 11610
	},
	{
	"epoch": 0.594921155027647,
	"grad_norm": 0.23132279515266418,
	"learning_rate": 0.0015,
	"loss": 1.1954,
	"step": 11620
	},
	{
	"epoch": 0.5954331353676019,
	"grad_norm": 0.2226603478193283,
	"learning_rate": 0.0015,
	"loss": 1.2055,
	"step": 11630
	},
	{
	"epoch": 0.5959451157075568,
	"grad_norm": 0.19999723136425018,
	"learning_rate": 0.0015,
	"loss": 1.1961,
	"step": 11640
	},
	{
	"epoch": 0.5964570960475117,
	"grad_norm": 0.19226787984371185,
	"learning_rate": 0.0015,
	"loss": 1.2056,
	"step": 11650
	},
	{
	"epoch": 0.5969690763874668,
	"grad_norm": 0.20891976356506348,
	"learning_rate": 0.0015,
	"loss": 1.2023,
	"step": 11660
	},
	{
	"epoch": 0.5974810567274217,
	"grad_norm": 0.19218876957893372,
	"learning_rate": 0.0015,
	"loss": 1.2027,
	"step": 11670
	},
	{
	"epoch": 0.5979930370673766,
	"grad_norm": 0.20928075909614563,
	"learning_rate": 0.0015,
	"loss": 1.2176,
	"step": 11680
	},
	{
	"epoch": 0.5985050174073315,
	"grad_norm": 0.204718217253685,
	"learning_rate": 0.0015,
	"loss": 1.2014,
	"step": 11690
	},
	{
	"epoch": 0.5990169977472865,
	"grad_norm": 0.22869887948036194,
	"learning_rate": 0.0015,
	"loss": 1.1888,
	"step": 11700
	},
	{
	"epoch": 0.5995289780872415,
	"grad_norm": 0.19692908227443695,
	"learning_rate": 0.0015,
	"loss": 1.2161,
	"step": 11710
	},
	{
	"epoch": 0.6000409584271964,
	"grad_norm": 0.2099919617176056,
	"learning_rate": 0.0015,
	"loss": 1.1968,
	"step": 11720
	},
	{
	"epoch": 0.6005529387671513,
	"grad_norm": 0.20044675469398499,
	"learning_rate": 0.0015,
	"loss": 1.2071,
	"step": 11730
	},
	{
	"epoch": 0.6010649191071062,
	"grad_norm": 0.20645897090435028,
	"learning_rate": 0.0015,
	"loss": 1.2142,
	"step": 11740
	},
	{
	"epoch": 0.6015768994470613,
	"grad_norm": 0.20446518063545227,
	"learning_rate": 0.0015,
	"loss": 1.1907,
	"step": 11750
	},
	{
	"epoch": 0.6020888797870162,
	"grad_norm": 0.19793803989887238,
	"learning_rate": 0.0015,
	"loss": 1.2237,
	"step": 11760
	},
	{
	"epoch": 0.6026008601269711,
	"grad_norm": 0.23807552456855774,
	"learning_rate": 0.0015,
	"loss": 1.2072,
	"step": 11770
	},
	{
	"epoch": 0.603112840466926,
	"grad_norm": 0.20290285348892212,
	"learning_rate": 0.0015,
	"loss": 1.2048,
	"step": 11780
	},
	{
	"epoch": 0.6036248208068811,
	"grad_norm": 0.21725532412528992,
	"learning_rate": 0.0015,
	"loss": 1.1961,
	"step": 11790
	},
	{
	"epoch": 0.604136801146836,
	"grad_norm": 0.20467454195022583,
	"learning_rate": 0.0015,
	"loss": 1.2301,
	"step": 11800
	},
	{
	"epoch": 0.6046487814867909,
	"grad_norm": 0.20618268847465515,
	"learning_rate": 0.0015,
	"loss": 1.2026,
	"step": 11810
	},
	{
	"epoch": 0.6051607618267458,
	"grad_norm": 0.2097761183977127,
	"learning_rate": 0.0015,
	"loss": 1.1992,
	"step": 11820
	},
	{
	"epoch": 0.6056727421667008,
	"grad_norm": 0.21861404180526733,
	"learning_rate": 0.0015,
	"loss": 1.2047,
	"step": 11830
	},
	{
	"epoch": 0.6061847225066558,
	"grad_norm": 0.2066473513841629,
	"learning_rate": 0.0015,
	"loss": 1.2022,
	"step": 11840
	},
	{
	"epoch": 0.6066967028466107,
	"grad_norm": 0.203571155667305,
	"learning_rate": 0.0015,
	"loss": 1.1729,
	"step": 11850
	},
	{
	"epoch": 0.6072086831865656,
	"grad_norm": 0.20523090660572052,
	"learning_rate": 0.0015,
	"loss": 1.222,
	"step": 11860
	},
	{
	"epoch": 0.6077206635265205,
	"grad_norm": 0.2021731734275818,
	"learning_rate": 0.0015,
	"loss": 1.1983,
	"step": 11870
	},
	{
	"epoch": 0.6082326438664756,
	"grad_norm": 0.20643019676208496,
	"learning_rate": 0.0015,
	"loss": 1.2147,
	"step": 11880
	},
	{
	"epoch": 0.6087446242064305,
	"grad_norm": 0.21817174553871155,
	"learning_rate": 0.0015,
	"loss": 1.1988,
	"step": 11890
	},
	{
	"epoch": 0.6092566045463854,
	"grad_norm": 0.21849657595157623,
	"learning_rate": 0.0015,
	"loss": 1.1908,
	"step": 11900
	},
	{
	"epoch": 0.6097685848863403,
	"grad_norm": 0.21117383241653442,
	"learning_rate": 0.0015,
	"loss": 1.2318,
	"step": 11910
	},
	{
	"epoch": 0.6102805652262953,
	"grad_norm": 0.2120293378829956,
	"learning_rate": 0.0015,
	"loss": 1.2071,
	"step": 11920
	},
	{
	"epoch": 0.6107925455662503,
	"grad_norm": 0.20229868590831757,
	"learning_rate": 0.0015,
	"loss": 1.191,
	"step": 11930
	},
	{
	"epoch": 0.6113045259062052,
	"grad_norm": 0.19626636803150177,
	"learning_rate": 0.0015,
	"loss": 1.2172,
	"step": 11940
	},
	{
	"epoch": 0.6118165062461601,
	"grad_norm": 0.21968694031238556,
	"learning_rate": 0.0015,
	"loss": 1.1901,
	"step": 11950
	},
	{
	"epoch": 0.612328486586115,
	"grad_norm": 0.22982917726039886,
	"learning_rate": 0.0015,
	"loss": 1.2023,
	"step": 11960
	},
	{
	"epoch": 0.6128404669260701,
	"grad_norm": 0.20328094065189362,
	"learning_rate": 0.0015,
	"loss": 1.193,
	"step": 11970
	},
	{
	"epoch": 0.613352447266025,
	"grad_norm": 0.20781250298023224,
	"learning_rate": 0.0015,
	"loss": 1.1871,
	"step": 11980
	},
	{
	"epoch": 0.6138644276059799,
	"grad_norm": 0.1945171356201172,
	"learning_rate": 0.0015,
	"loss": 1.1954,
	"step": 11990
	},
	{
	"epoch": 0.6143764079459348,
	"grad_norm": 0.2018270492553711,
	"learning_rate": 0.0015,
	"loss": 1.1848,
	"step": 12000
	},
	{
	"epoch": 0.6148883882858899,
	"grad_norm": 0.20180918276309967,
	"learning_rate": 0.0015,
	"loss": 1.2081,
	"step": 12010
	},
	{
	"epoch": 0.6154003686258448,
	"grad_norm": 0.20221208035945892,
	"learning_rate": 0.0015,
	"loss": 1.2076,
	"step": 12020
	},
	{
	"epoch": 0.6159123489657997,
	"grad_norm": 0.2013401836156845,
	"learning_rate": 0.0015,
	"loss": 1.2211,
	"step": 12030
	},
	{
	"epoch": 0.6164243293057546,
	"grad_norm": 0.20016033947467804,
	"learning_rate": 0.0015,
	"loss": 1.2037,
	"step": 12040
	},
	{
	"epoch": 0.6169363096457096,
	"grad_norm": 0.20722372829914093,
	"learning_rate": 0.0015,
	"loss": 1.2052,
	"step": 12050
	},
	{
	"epoch": 0.6174482899856646,
	"grad_norm": 0.21285022795200348,
	"learning_rate": 0.0015,
	"loss": 1.2066,
	"step": 12060
	},
	{
	"epoch": 0.6179602703256195,
	"grad_norm": 0.21281997859477997,
	"learning_rate": 0.0015,
	"loss": 1.1955,
	"step": 12070
	},
	{
	"epoch": 0.6184722506655744,
	"grad_norm": 0.19675594568252563,
	"learning_rate": 0.0015,
	"loss": 1.2088,
	"step": 12080
	},
	{
	"epoch": 0.6189842310055294,
	"grad_norm": 0.21459296345710754,
	"learning_rate": 0.0015,
	"loss": 1.2255,
	"step": 12090
	},
	{
	"epoch": 0.6194962113454844,
	"grad_norm": 0.20511606335639954,
	"learning_rate": 0.0015,
	"loss": 1.2,
	"step": 12100
	},
	{
	"epoch": 0.6200081916854393,
	"grad_norm": 0.20228254795074463,
	"learning_rate": 0.0015,
	"loss": 1.1906,
	"step": 12110
	},
	{
	"epoch": 0.6205201720253942,
	"grad_norm": 0.1966087371110916,
	"learning_rate": 0.0015,
	"loss": 1.1771,
	"step": 12120
	},
	{
	"epoch": 0.6210321523653491,
	"grad_norm": 0.2050897479057312,
	"learning_rate": 0.0015,
	"loss": 1.1931,
	"step": 12130
	},
	{
	"epoch": 0.6215441327053041,
	"grad_norm": 0.20761296153068542,
	"learning_rate": 0.0015,
	"loss": 1.1796,
	"step": 12140
	},
	{
	"epoch": 0.6220561130452591,
	"grad_norm": 0.19282642006874084,
	"learning_rate": 0.0015,
	"loss": 1.2022,
	"step": 12150
	},
	{
	"epoch": 0.622568093385214,
	"grad_norm": 0.2018144577741623,
	"learning_rate": 0.0015,
	"loss": 1.2151,
	"step": 12160
	},
	{
	"epoch": 0.6230800737251689,
	"grad_norm": 0.19583159685134888,
	"learning_rate": 0.0015,
	"loss": 1.2027,
	"step": 12170
	},
	{
	"epoch": 0.6235920540651239,
	"grad_norm": 0.22334228456020355,
	"learning_rate": 0.0015,
	"loss": 1.2158,
	"step": 12180
	},
	{
	"epoch": 0.6241040344050789,
	"grad_norm": 0.2306404560804367,
	"learning_rate": 0.0015,
	"loss": 1.1856,
	"step": 12190
	},
	{
	"epoch": 0.6246160147450338,
	"grad_norm": 0.21355292201042175,
	"learning_rate": 0.0015,
	"loss": 1.1723,
	"step": 12200
	},
	{
	"epoch": 0.6251279950849887,
	"grad_norm": 0.19845044612884521,
	"learning_rate": 0.0015,
	"loss": 1.2052,
	"step": 12210
	},
	{
	"epoch": 0.6256399754249437,
	"grad_norm": 0.2062026709318161,
	"learning_rate": 0.0015,
	"loss": 1.2093,
	"step": 12220
	},
	{
	"epoch": 0.6261519557648987,
	"grad_norm": 0.20521892607212067,
	"learning_rate": 0.0015,
	"loss": 1.1888,
	"step": 12230
	},
	{
	"epoch": 0.6266639361048536,
	"grad_norm": 0.20746907591819763,
	"learning_rate": 0.0015,
	"loss": 1.2038,
	"step": 12240
	},
	{
	"epoch": 0.6271759164448085,
	"grad_norm": 0.19719459116458893,
	"learning_rate": 0.0015,
	"loss": 1.1995,
	"step": 12250
	},
	{
	"epoch": 0.6276878967847634,
	"grad_norm": 0.20681564509868622,
	"learning_rate": 0.0015,
	"loss": 1.2157,
	"step": 12260
	},
	{
	"epoch": 0.6281998771247184,
	"grad_norm": 0.20236019790172577,
	"learning_rate": 0.0015,
	"loss": 1.1859,
	"step": 12270
	},
	{
	"epoch": 0.6287118574646734,
	"grad_norm": 0.22654055058956146,
	"learning_rate": 0.0015,
	"loss": 1.1961,
	"step": 12280
	},
	{
	"epoch": 0.6292238378046283,
	"grad_norm": 0.1928294599056244,
	"learning_rate": 0.0015,
	"loss": 1.1932,
	"step": 12290
	},
	{
	"epoch": 0.6297358181445832,
	"grad_norm": 0.21249711513519287,
	"learning_rate": 0.0015,
	"loss": 1.2018,
	"step": 12300
	},
	{
	"epoch": 0.6302477984845382,
	"grad_norm": 0.19809094071388245,
	"learning_rate": 0.0015,
	"loss": 1.1806,
	"step": 12310
	},
	{
	"epoch": 0.6307597788244932,
	"grad_norm": 0.1965721845626831,
	"learning_rate": 0.0015,
	"loss": 1.1956,
	"step": 12320
	},
	{
	"epoch": 0.6312717591644481,
	"grad_norm": 0.20646794140338898,
	"learning_rate": 0.0015,
	"loss": 1.1907,
	"step": 12330
	},
	{
	"epoch": 0.631783739504403,
	"grad_norm": 0.19848330318927765,
	"learning_rate": 0.0015,
	"loss": 1.2049,
	"step": 12340
	},
	{
	"epoch": 0.632295719844358,
	"grad_norm": 0.19884952902793884,
	"learning_rate": 0.0015,
	"loss": 1.1886,
	"step": 12350
	},
	{
	"epoch": 0.6328077001843129,
	"grad_norm": 0.21490252017974854,
	"learning_rate": 0.0015,
	"loss": 1.2033,
	"step": 12360
	},
	{
	"epoch": 0.6333196805242679,
	"grad_norm": 0.21076445281505585,
	"learning_rate": 0.0015,
	"loss": 1.1725,
	"step": 12370
	},
	{
	"epoch": 0.6338316608642228,
	"grad_norm": 0.20743723213672638,
	"learning_rate": 0.0015,
	"loss": 1.2118,
	"step": 12380
	},
	{
	"epoch": 0.6343436412041777,
	"grad_norm": 0.2091572880744934,
	"learning_rate": 0.0015,
	"loss": 1.2058,
	"step": 12390
	},
	{
	"epoch": 0.6348556215441327,
	"grad_norm": 0.19593819975852966,
	"learning_rate": 0.0015,
	"loss": 1.1789,
	"step": 12400
	},
	{
	"epoch": 0.6353676018840877,
	"grad_norm": 0.21120460331439972,
	"learning_rate": 0.0015,
	"loss": 1.199,
	"step": 12410
	},
	{
	"epoch": 0.6358795822240426,
	"grad_norm": 0.19703616201877594,
	"learning_rate": 0.0015,
	"loss": 1.2062,
	"step": 12420
	},
	{
	"epoch": 0.6363915625639975,
	"grad_norm": 0.2228432148694992,
	"learning_rate": 0.0015,
	"loss": 1.2046,
	"step": 12430
	},
	{
	"epoch": 0.6369035429039525,
	"grad_norm": 0.19556592404842377,
	"learning_rate": 0.0015,
	"loss": 1.1958,
	"step": 12440
	},
	{
	"epoch": 0.6374155232439075,
	"grad_norm": 0.2118174135684967,
	"learning_rate": 0.0015,
	"loss": 1.2158,
	"step": 12450
	},
	{
	"epoch": 0.6379275035838624,
	"grad_norm": 0.19802866876125336,
	"learning_rate": 0.0015,
	"loss": 1.1889,
	"step": 12460
	},
	{
	"epoch": 0.6384394839238173,
	"grad_norm": 0.2045314460992813,
	"learning_rate": 0.0015,
	"loss": 1.2052,
	"step": 12470
	},
	{
	"epoch": 0.6389514642637723,
	"grad_norm": 0.20061345398426056,
	"learning_rate": 0.0015,
	"loss": 1.1859,
	"step": 12480
	},
	{
	"epoch": 0.6394634446037272,
	"grad_norm": 0.19872547686100006,
	"learning_rate": 0.0015,
	"loss": 1.2002,
	"step": 12490
	},
	{
	"epoch": 0.6399754249436822,
	"grad_norm": 0.2001519650220871,
	"learning_rate": 0.0015,
	"loss": 1.192,
	"step": 12500
	},
	{
	"epoch": 0.6404874052836371,
	"grad_norm": 0.20049947500228882,
	"learning_rate": 0.0015,
	"loss": 1.1919,
	"step": 12510
	},
	{
	"epoch": 0.640999385623592,
	"grad_norm": 0.20143716037273407,
	"learning_rate": 0.0015,
	"loss": 1.1821,
	"step": 12520
	},
	{
	"epoch": 0.641511365963547,
	"grad_norm": 0.19347570836544037,
	"learning_rate": 0.0015,
	"loss": 1.2135,
	"step": 12530
	},
	{
	"epoch": 0.642023346303502,
	"grad_norm": 0.19492658972740173,
	"learning_rate": 0.0015,
	"loss": 1.1891,
	"step": 12540
	},
	{
	"epoch": 0.6425353266434569,
	"grad_norm": 0.19527223706245422,
	"learning_rate": 0.0015,
	"loss": 1.2102,
	"step": 12550
	},
	{
	"epoch": 0.6430473069834118,
	"grad_norm": 0.1927892118692398,
	"learning_rate": 0.0015,
	"loss": 1.1714,
	"step": 12560
	},
	{
	"epoch": 0.6435592873233668,
	"grad_norm": 0.2009015530347824,
	"learning_rate": 0.0015,
	"loss": 1.2035,
	"step": 12570
	},
	{
	"epoch": 0.6440712676633217,
	"grad_norm": 0.21776844561100006,
	"learning_rate": 0.0015,
	"loss": 1.1777,
	"step": 12580
	},
	{
	"epoch": 0.6445832480032767,
	"grad_norm": 0.19154374301433563,
	"learning_rate": 0.0015,
	"loss": 1.1906,
	"step": 12590
	},
	{
	"epoch": 0.6450952283432316,
	"grad_norm": 0.19381144642829895,
	"learning_rate": 0.0015,
	"loss": 1.1778,
	"step": 12600
	},
	{
	"epoch": 0.6456072086831866,
	"grad_norm": 0.19017955660820007,
	"learning_rate": 0.0015,
	"loss": 1.1967,
	"step": 12610
	},
	{
	"epoch": 0.6461191890231415,
	"grad_norm": 0.21785299479961395,
	"learning_rate": 0.0015,
	"loss": 1.2088,
	"step": 12620
	},
	{
	"epoch": 0.6466311693630965,
	"grad_norm": 0.2039538025856018,
	"learning_rate": 0.0015,
	"loss": 1.1663,
	"step": 12630
	},
	{
	"epoch": 0.6471431497030514,
	"grad_norm": 0.19732427597045898,
	"learning_rate": 0.0015,
	"loss": 1.1913,
	"step": 12640
	},
	{
	"epoch": 0.6476551300430063,
	"grad_norm": 0.1911800503730774,
	"learning_rate": 0.0015,
	"loss": 1.2052,
	"step": 12650
	},
	{
	"epoch": 0.6481671103829613,
	"grad_norm": 0.19413244724273682,
	"learning_rate": 0.0015,
	"loss": 1.1804,
	"step": 12660
	},
	{
	"epoch": 0.6486790907229162,
	"grad_norm": 0.1838771104812622,
	"learning_rate": 0.0015,
	"loss": 1.1911,
	"step": 12670
	},
	{
	"epoch": 0.6491910710628712,
	"grad_norm": 0.1838536560535431,
	"learning_rate": 0.0015,
	"loss": 1.1991,
	"step": 12680
	},
	{
	"epoch": 0.6497030514028261,
	"grad_norm": 0.20453278720378876,
	"learning_rate": 0.0015,
	"loss": 1.1992,
	"step": 12690
	},
	{
	"epoch": 0.6502150317427811,
	"grad_norm": 0.21677398681640625,
	"learning_rate": 0.0015,
	"loss": 1.1811,
	"step": 12700
	},
	{
	"epoch": 0.650727012082736,
	"grad_norm": 0.19484928250312805,
	"learning_rate": 0.0015,
	"loss": 1.1924,
	"step": 12710
	},
	{
	"epoch": 0.651238992422691,
	"grad_norm": 0.1887393295764923,
	"learning_rate": 0.0015,
	"loss": 1.1978,
	"step": 12720
	},
	{
	"epoch": 0.6517509727626459,
	"grad_norm": 0.19239051640033722,
	"learning_rate": 0.0015,
	"loss": 1.2051,
	"step": 12730
	},
	{
	"epoch": 0.6522629531026009,
	"grad_norm": 0.20435065031051636,
	"learning_rate": 0.0015,
	"loss": 1.153,
	"step": 12740
	},
	{
	"epoch": 0.6527749334425558,
	"grad_norm": 0.2020270824432373,
	"learning_rate": 0.0015,
	"loss": 1.2096,
	"step": 12750
	},
	{
	"epoch": 0.6532869137825108,
	"grad_norm": 0.21720841526985168,
	"learning_rate": 0.0015,
	"loss": 1.1776,
	"step": 12760
	},
	{
	"epoch": 0.6537988941224657,
	"grad_norm": 0.19210828840732574,
	"learning_rate": 0.0015,
	"loss": 1.1894,
	"step": 12770
	},
	{
	"epoch": 0.6543108744624206,
	"grad_norm": 0.19044719636440277,
	"learning_rate": 0.0015,
	"loss": 1.1894,
	"step": 12780
	},
	{
	"epoch": 0.6548228548023756,
	"grad_norm": 0.20893365144729614,
	"learning_rate": 0.0015,
	"loss": 1.1916,
	"step": 12790
	},
	{
	"epoch": 0.6553348351423305,
	"grad_norm": 0.20288752019405365,
	"learning_rate": 0.0015,
	"loss": 1.2018,
	"step": 12800
	},
	{
	"epoch": 0.6558468154822855,
	"grad_norm": 0.1970445066690445,
	"learning_rate": 0.0015,
	"loss": 1.1728,
	"step": 12810
	},
	{
	"epoch": 0.6563587958222404,
	"grad_norm": 0.19928324222564697,
	"learning_rate": 0.0015,
	"loss": 1.1959,
	"step": 12820
	},
	{
	"epoch": 0.6568707761621954,
	"grad_norm": 0.1929846554994583,
	"learning_rate": 0.0015,
	"loss": 1.1885,
	"step": 12830
	},
	{
	"epoch": 0.6573827565021503,
	"grad_norm": 0.20633605122566223,
	"learning_rate": 0.0015,
	"loss": 1.2145,
	"step": 12840
	},
	{
	"epoch": 0.6578947368421053,
	"grad_norm": 0.19971442222595215,
	"learning_rate": 0.0015,
	"loss": 1.188,
	"step": 12850
	},
	{
	"epoch": 0.6584067171820602,
	"grad_norm": 0.18677356839179993,
	"learning_rate": 0.0015,
	"loss": 1.1943,
	"step": 12860
	},
	{
	"epoch": 0.6589186975220152,
	"grad_norm": 0.1940857172012329,
	"learning_rate": 0.0015,
	"loss": 1.1921,
	"step": 12870
	},
	{
	"epoch": 0.6594306778619701,
	"grad_norm": 0.20788009464740753,
	"learning_rate": 0.0015,
	"loss": 1.1922,
	"step": 12880
	},
	{
	"epoch": 0.659942658201925,
	"grad_norm": 0.20371931791305542,
	"learning_rate": 0.0015,
	"loss": 1.1963,
	"step": 12890
	},
	{
	"epoch": 0.66045463854188,
	"grad_norm": 0.19461549818515778,
	"learning_rate": 0.0015,
	"loss": 1.1639,
	"step": 12900
	},
	{
	"epoch": 0.6609666188818349,
	"grad_norm": 0.19904249906539917,
	"learning_rate": 0.0015,
	"loss": 1.1708,
	"step": 12910
	},
	{
	"epoch": 0.6614785992217899,
	"grad_norm": 0.2062397003173828,
	"learning_rate": 0.0015,
	"loss": 1.1937,
	"step": 12920
	},
	{
	"epoch": 0.6619905795617448,
	"grad_norm": 0.20642533898353577,
	"learning_rate": 0.0015,
	"loss": 1.1929,
	"step": 12930
	},
	{
	"epoch": 0.6625025599016998,
	"grad_norm": 0.19433195888996124,
	"learning_rate": 0.0015,
	"loss": 1.1886,
	"step": 12940
	},
	{
	"epoch": 0.6630145402416547,
	"grad_norm": 0.1951138973236084,
	"learning_rate": 0.0015,
	"loss": 1.1847,
	"step": 12950
	},
	{
	"epoch": 0.6635265205816097,
	"grad_norm": 0.19220565259456635,
	"learning_rate": 0.0015,
	"loss": 1.1847,
	"step": 12960
	},
	{
	"epoch": 0.6640385009215646,
	"grad_norm": 0.1887965053319931,
	"learning_rate": 0.0015,
	"loss": 1.1791,
	"step": 12970
	},
	{
	"epoch": 0.6645504812615196,
	"grad_norm": 0.18562547862529755,
	"learning_rate": 0.0015,
	"loss": 1.1677,
	"step": 12980
	},
	{
	"epoch": 0.6650624616014745,
	"grad_norm": 0.1826203167438507,
	"learning_rate": 0.0015,
	"loss": 1.1796,
	"step": 12990
	},
	{
	"epoch": 0.6655744419414295,
	"grad_norm": 0.18740873038768768,
	"learning_rate": 0.0015,
	"loss": 1.1797,
	"step": 13000
	},
	{
	"epoch": 0.6660864222813844,
	"grad_norm": 0.1979881227016449,
	"learning_rate": 0.0015,
	"loss": 1.198,
	"step": 13010
	},
	{
	"epoch": 0.6665984026213393,
	"grad_norm": 0.20608335733413696,
	"learning_rate": 0.0015,
	"loss": 1.1926,
	"step": 13020
	},
	{
	"epoch": 0.6671103829612943,
	"grad_norm": 0.21441541612148285,
	"learning_rate": 0.0015,
	"loss": 1.2049,
	"step": 13030
	},
	{
	"epoch": 0.6676223633012492,
	"grad_norm": 0.22678618133068085,
	"learning_rate": 0.0015,
	"loss": 1.1917,
	"step": 13040
	},
	{
	"epoch": 0.6681343436412042,
	"grad_norm": 0.19718590378761292,
	"learning_rate": 0.0015,
	"loss": 1.1968,
	"step": 13050
	},
	{
	"epoch": 0.6686463239811591,
	"grad_norm": 0.19607524573802948,
	"learning_rate": 0.0015,
	"loss": 1.1721,
	"step": 13060
	},
	{
	"epoch": 0.6691583043211141,
	"grad_norm": 0.19298435747623444,
	"learning_rate": 0.0015,
	"loss": 1.1979,
	"step": 13070
	},
	{
	"epoch": 0.669670284661069,
	"grad_norm": 0.19610482454299927,
	"learning_rate": 0.0015,
	"loss": 1.1919,
	"step": 13080
	},
	{
	"epoch": 0.670182265001024,
	"grad_norm": 0.19872240722179413,
	"learning_rate": 0.0015,
	"loss": 1.183,
	"step": 13090
	},
	{
	"epoch": 0.6706942453409789,
	"grad_norm": 0.1863928586244583,
	"learning_rate": 0.0015,
	"loss": 1.1868,
	"step": 13100
	},
	{
	"epoch": 0.6712062256809338,
	"grad_norm": 0.19495519995689392,
	"learning_rate": 0.0015,
	"loss": 1.2084,
	"step": 13110
	},
	{
	"epoch": 0.6717182060208888,
	"grad_norm": 0.19348977506160736,
	"learning_rate": 0.0015,
	"loss": 1.1981,
	"step": 13120
	},
	{
	"epoch": 0.6722301863608438,
	"grad_norm": 0.19418825209140778,
	"learning_rate": 0.0015,
	"loss": 1.2081,
	"step": 13130
	},
	{
	"epoch": 0.6727421667007987,
	"grad_norm": 0.19263537228107452,
	"learning_rate": 0.0015,
	"loss": 1.181,
	"step": 13140
	},
	{
	"epoch": 0.6732541470407536,
	"grad_norm": 0.19272197782993317,
	"learning_rate": 0.0015,
	"loss": 1.1908,
	"step": 13150
	},
	{
	"epoch": 0.6737661273807086,
	"grad_norm": 0.19103066623210907,
	"learning_rate": 0.0015,
	"loss": 1.164,
	"step": 13160
	},
	{
	"epoch": 0.6742781077206635,
	"grad_norm": 0.19996246695518494,
	"learning_rate": 0.0015,
	"loss": 1.1951,
	"step": 13170
	},
	{
	"epoch": 0.6747900880606185,
	"grad_norm": 0.2288653403520584,
	"learning_rate": 0.0015,
	"loss": 1.2188,
	"step": 13180
	},
	{
	"epoch": 0.6753020684005734,
	"grad_norm": 0.1978132575750351,
	"learning_rate": 0.0015,
	"loss": 1.177,
	"step": 13190
	},
	{
	"epoch": 0.6758140487405284,
	"grad_norm": 0.2042623907327652,
	"learning_rate": 0.0015,
	"loss": 1.1833,
	"step": 13200
	},
	{
	"epoch": 0.6763260290804833,
	"grad_norm": 0.1838945895433426,
	"learning_rate": 0.0015,
	"loss": 1.1638,
	"step": 13210
	},
	{
	"epoch": 0.6768380094204383,
	"grad_norm": 0.18537567555904388,
	"learning_rate": 0.0015,
	"loss": 1.1879,
	"step": 13220
	},
	{
	"epoch": 0.6773499897603932,
	"grad_norm": 0.19888518750667572,
	"learning_rate": 0.0015,
	"loss": 1.1648,
	"step": 13230
	},
	{
	"epoch": 0.6778619701003481,
	"grad_norm": 0.20373912155628204,
	"learning_rate": 0.0015,
	"loss": 1.2043,
	"step": 13240
	},
	{
	"epoch": 0.6783739504403031,
	"grad_norm": 0.19218416512012482,
	"learning_rate": 0.0015,
	"loss": 1.1553,
	"step": 13250
	},
	{
	"epoch": 0.678885930780258,
	"grad_norm": 0.1989835649728775,
	"learning_rate": 0.0015,
	"loss": 1.1679,
	"step": 13260
	},
	{
	"epoch": 0.679397911120213,
	"grad_norm": 0.20067016780376434,
	"learning_rate": 0.0015,
	"loss": 1.1827,
	"step": 13270
	},
	{
	"epoch": 0.6799098914601679,
	"grad_norm": 0.19568151235580444,
	"learning_rate": 0.0015,
	"loss": 1.1839,
	"step": 13280
	},
	{
	"epoch": 0.6804218718001229,
	"grad_norm": 0.2029784619808197,
	"learning_rate": 0.0015,
	"loss": 1.1787,
	"step": 13290
	},
	{
	"epoch": 0.6809338521400778,
	"grad_norm": 0.19807346165180206,
	"learning_rate": 0.0015,
	"loss": 1.1763,
	"step": 13300
	},
	{
	"epoch": 0.6814458324800328,
	"grad_norm": 0.1898653358221054,
	"learning_rate": 0.0015,
	"loss": 1.2075,
	"step": 13310
	},
	{
	"epoch": 0.6819578128199877,
	"grad_norm": 0.2038862705230713,
	"learning_rate": 0.0015,
	"loss": 1.1773,
	"step": 13320
	},
	{
	"epoch": 0.6824697931599426,
	"grad_norm": 0.18675602972507477,
	"learning_rate": 0.0015,
	"loss": 1.1888,
	"step": 13330
	},
	{
	"epoch": 0.6829817734998976,
	"grad_norm": 0.20663636922836304,
	"learning_rate": 0.0015,
	"loss": 1.169,
	"step": 13340
	},
	{
	"epoch": 0.6834937538398526,
	"grad_norm": 0.1998421996831894,
	"learning_rate": 0.0015,
	"loss": 1.1725,
	"step": 13350
	},
	{
	"epoch": 0.6840057341798075,
	"grad_norm": 0.20095355808734894,
	"learning_rate": 0.0015,
	"loss": 1.1727,
	"step": 13360
	},
	{
	"epoch": 0.6845177145197624,
	"grad_norm": 0.19053997099399567,
	"learning_rate": 0.0015,
	"loss": 1.1759,
	"step": 13370
	},
	{
	"epoch": 0.6850296948597174,
	"grad_norm": 0.20177049934864044,
	"learning_rate": 0.0015,
	"loss": 1.1845,
	"step": 13380
	},
	{
	"epoch": 0.6855416751996724,
	"grad_norm": 0.19868339598178864,
	"learning_rate": 0.0015,
	"loss": 1.178,
	"step": 13390
	},
	{
	"epoch": 0.6860536555396273,
	"grad_norm": 0.1922164112329483,
	"learning_rate": 0.0015,
	"loss": 1.1536,
	"step": 13400
	},
	{
	"epoch": 0.6865656358795822,
	"grad_norm": 0.2025415003299713,
	"learning_rate": 0.0015,
	"loss": 1.1849,
	"step": 13410
	},
	{
	"epoch": 0.6870776162195372,
	"grad_norm": 0.19813013076782227,
	"learning_rate": 0.0015,
	"loss": 1.1803,
	"step": 13420
	},
	{
	"epoch": 0.6875895965594921,
	"grad_norm": 0.18536531925201416,
	"learning_rate": 0.0015,
	"loss": 1.1686,
	"step": 13430
	},
	{
	"epoch": 0.6881015768994471,
	"grad_norm": 0.1998080015182495,
	"learning_rate": 0.0015,
	"loss": 1.1949,
	"step": 13440
	},
	{
	"epoch": 0.688613557239402,
	"grad_norm": 0.1955641508102417,
	"learning_rate": 0.0015,
	"loss": 1.1758,
	"step": 13450
	},
	{
	"epoch": 0.6891255375793569,
	"grad_norm": 0.19140900671482086,
	"learning_rate": 0.0015,
	"loss": 1.1675,
	"step": 13460
	},
	{
	"epoch": 0.6896375179193119,
	"grad_norm": 0.20261794328689575,
	"learning_rate": 0.0015,
	"loss": 1.1802,
	"step": 13470
	},
	{
	"epoch": 0.6901494982592669,
	"grad_norm": 0.19682539999485016,
	"learning_rate": 0.0015,
	"loss": 1.1798,
	"step": 13480
	},
	{
	"epoch": 0.6906614785992218,
	"grad_norm": 0.2020127922296524,
	"learning_rate": 0.0015,
	"loss": 1.172,
	"step": 13490
	},
	{
	"epoch": 0.6911734589391767,
	"grad_norm": 0.19824573397636414,
	"learning_rate": 0.0015,
	"loss": 1.1888,
	"step": 13500
	},
	{
	"epoch": 0.6916854392791317,
	"grad_norm": 0.20089636743068695,
	"learning_rate": 0.0015,
	"loss": 1.1865,
	"step": 13510
	},
	{
	"epoch": 0.6921974196190867,
	"grad_norm": 0.1954367458820343,
	"learning_rate": 0.0015,
	"loss": 1.1734,
	"step": 13520
	},
	{
	"epoch": 0.6927093999590416,
	"grad_norm": 0.1989155411720276,
	"learning_rate": 0.0015,
	"loss": 1.1676,
	"step": 13530
	},
	{
	"epoch": 0.6932213802989965,
	"grad_norm": 0.20354506373405457,
	"learning_rate": 0.0015,
	"loss": 1.1638,
	"step": 13540
	},
	{
	"epoch": 0.6937333606389514,
	"grad_norm": 0.18505001068115234,
	"learning_rate": 0.0015,
	"loss": 1.1623,
	"step": 13550
	},
	{
	"epoch": 0.6942453409789064,
	"grad_norm": 0.19758115708827972,
	"learning_rate": 0.0015,
	"loss": 1.1715,
	"step": 13560
	},
	{
	"epoch": 0.6947573213188614,
	"grad_norm": 0.19761599600315094,
	"learning_rate": 0.0015,
	"loss": 1.1892,
	"step": 13570
	},
	{
	"epoch": 0.6952693016588163,
	"grad_norm": 0.2028966248035431,
	"learning_rate": 0.0015,
	"loss": 1.1779,
	"step": 13580
	},
	{
	"epoch": 0.6957812819987712,
	"grad_norm": 0.1852991133928299,
	"learning_rate": 0.0015,
	"loss": 1.1756,
	"step": 13590
	},
	{
	"epoch": 0.6962932623387262,
	"grad_norm": 0.18972176313400269,
	"learning_rate": 0.0015,
	"loss": 1.1583,
	"step": 13600
	},
	{
	"epoch": 0.6968052426786812,
	"grad_norm": 0.18746834993362427,
	"learning_rate": 0.0015,
	"loss": 1.1758,
	"step": 13610
	},
	{
	"epoch": 0.6973172230186361,
	"grad_norm": 0.1831192672252655,
	"learning_rate": 0.0015,
	"loss": 1.1904,
	"step": 13620
	},
	{
	"epoch": 0.697829203358591,
	"grad_norm": 0.21230356395244598,
	"learning_rate": 0.0015,
	"loss": 1.1673,
	"step": 13630
	},
	{
	"epoch": 0.698341183698546,
	"grad_norm": 0.2109021544456482,
	"learning_rate": 0.0015,
	"loss": 1.176,
	"step": 13640
	},
	{
	"epoch": 0.698853164038501,
	"grad_norm": 0.18572686612606049,
	"learning_rate": 0.0015,
	"loss": 1.195,
	"step": 13650
	},
	{
	"epoch": 0.6993651443784559,
	"grad_norm": 0.19169217348098755,
	"learning_rate": 0.0015,
	"loss": 1.1865,
	"step": 13660
	},
	{
	"epoch": 0.6998771247184108,
	"grad_norm": 0.18918085098266602,
	"learning_rate": 0.0015,
	"loss": 1.1788,
	"step": 13670
	},
	{
	"epoch": 0.7003891050583657,
	"grad_norm": 0.19315798580646515,
	"learning_rate": 0.0014955269451601939,
	"loss": 1.1739,
	"step": 13680
	},
	{
	"epoch": 0.7009010853983207,
	"grad_norm": 0.18943412601947784,
	"learning_rate": 0.0014896616625957439,
	"loss": 1.1649,
	"step": 13690
	},
	{
	"epoch": 0.7014130657382757,
	"grad_norm": 0.19846367835998535,
	"learning_rate": 0.001483819382986655,
	"loss": 1.1883,
	"step": 13700
	},
	{
	"epoch": 0.7019250460782306,
	"grad_norm": 0.19269226491451263,
	"learning_rate": 0.001478000016118014,
	"loss": 1.1775,
	"step": 13710
	},
	{
	"epoch": 0.7024370264181855,
	"grad_norm": 0.19260330498218536,
	"learning_rate": 0.0014722034721287212,
	"loss": 1.169,
	"step": 13720
	},
	{
	"epoch": 0.7029490067581405,
	"grad_norm": 0.19868920743465424,
	"learning_rate": 0.0014664296615101004,
	"loss": 1.1671,
	"step": 13730
	},
	{
	"epoch": 0.7034609870980955,
	"grad_norm": 0.1958989053964615,
	"learning_rate": 0.0014606784951045186,
	"loss": 1.2049,
	"step": 13740
	},
	{
	"epoch": 0.7039729674380504,
	"grad_norm": 0.194174125790596,
	"learning_rate": 0.0014549498841040086,
	"loss": 1.1703,
	"step": 13750
	},
	{
	"epoch": 0.7044849477780053,
	"grad_norm": 0.19567228853702545,
	"learning_rate": 0.0014492437400488976,
	"loss": 1.1649,
	"step": 13760
	},
	{
	"epoch": 0.7049969281179602,
	"grad_norm": 0.191901296377182,
	"learning_rate": 0.0014435599748264416,
	"loss": 1.169,
	"step": 13770
	},
	{
	"epoch": 0.7055089084579153,
	"grad_norm": 0.1933002918958664,
	"learning_rate": 0.0014378985006694644,
	"loss": 1.1873,
	"step": 13780
	},
	{
	"epoch": 0.7060208887978702,
	"grad_norm": 0.20665253698825836,
	"learning_rate": 0.0014322592301550022,
	"loss": 1.1773,
	"step": 13790
	},
	{
	"epoch": 0.7065328691378251,
	"grad_norm": 0.19543762505054474,
	"learning_rate": 0.0014266420762029542,
	"loss": 1.1738,
	"step": 13800
	},
	{
	"epoch": 0.70704484947778,
	"grad_norm": 0.186002716422081,
	"learning_rate": 0.0014210469520747377,
	"loss": 1.1783,
	"step": 13810
	},
	{
	"epoch": 0.707556829817735,
	"grad_norm": 0.1872335523366928,
	"learning_rate": 0.0014154737713719476,
	"loss": 1.1918,
	"step": 13820
	},
	{
	"epoch": 0.70806881015769,
	"grad_norm": 0.1909414827823639,
	"learning_rate": 0.0014099224480350252,
	"loss": 1.1587,
	"step": 13830
	},
	{
	"epoch": 0.7085807904976449,
	"grad_norm": 0.1957162618637085,
	"learning_rate": 0.0014043928963419256,
	"loss": 1.1783,
	"step": 13840
	},
	{
	"epoch": 0.7090927708375998,
	"grad_norm": 0.1931842565536499,
	"learning_rate": 0.0013988850309067965,
	"loss": 1.1749,
	"step": 13850
	},
	{
	"epoch": 0.7096047511775547,
	"grad_norm": 0.2018897980451584,
	"learning_rate": 0.0013933987666786593,
	"loss": 1.1457,
	"step": 13860
	},
	{
	"epoch": 0.7101167315175098,
	"grad_norm": 0.1824326366186142,
	"learning_rate": 0.0013879340189400947,
	"loss": 1.1861,
	"step": 13870
	},
	{
	"epoch": 0.7106287118574647,
	"grad_norm": 0.19200804829597473,
	"learning_rate": 0.0013824907033059355,
	"loss": 1.1669,
	"step": 13880
	},
	{
	"epoch": 0.7111406921974196,
	"grad_norm": 0.18873439729213715,
	"learning_rate": 0.001377068735721964,
	"loss": 1.1555,
	"step": 13890
	},
	{
	"epoch": 0.7116526725373745,
	"grad_norm": 0.19836601614952087,
	"learning_rate": 0.0013716680324636122,
	"loss": 1.1536,
	"step": 13900
	},
	{
	"epoch": 0.7121646528773296,
	"grad_norm": 0.2006756067276001,
	"learning_rate": 0.001366288510134671,
	"loss": 1.1595,
	"step": 13910
	},
	{
	"epoch": 0.7126766332172845,
	"grad_norm": 0.18679478764533997,
	"learning_rate": 0.0013609300856660014,
	"loss": 1.1762,
	"step": 13920
	},
	{
	"epoch": 0.7131886135572394,
	"grad_norm": 0.19826917350292206,
	"learning_rate": 0.001355592676314251,
	"loss": 1.1752,
	"step": 13930
	},
	{
	"epoch": 0.7137005938971943,
	"grad_norm": 0.18885891139507294,
	"learning_rate": 0.0013502761996605787,
	"loss": 1.1731,
	"step": 13940
	},
	{
	"epoch": 0.7142125742371493,
	"grad_norm": 0.1888403594493866,
	"learning_rate": 0.0013449805736093791,
	"loss": 1.1536,
	"step": 13950
	},
	{
	"epoch": 0.7147245545771043,
	"grad_norm": 0.20078985393047333,
	"learning_rate": 0.0013397057163870173,
	"loss": 1.1545,
	"step": 13960
	},
	{
	"epoch": 0.7152365349170592,
	"grad_norm": 0.19156110286712646,
	"learning_rate": 0.001334451546540564,
	"loss": 1.148,
	"step": 13970
	},
	{
	"epoch": 0.7157485152570141,
	"grad_norm": 0.19765546917915344,
	"learning_rate": 0.0013292179829365398,
	"loss": 1.1776,
	"step": 13980
	},
	{
	"epoch": 0.716260495596969,
	"grad_norm": 0.1948610097169876,
	"learning_rate": 0.001324004944759661,
	"loss": 1.1597,
	"step": 13990
	},
	{
	"epoch": 0.7167724759369241,
	"grad_norm": 0.1816781461238861,
	"learning_rate": 0.0013188123515115915,
	"loss": 1.1484,
	"step": 14000
	},
	{
	"epoch": 0.717284456276879,
	"grad_norm": 0.2072591632604599,
	"learning_rate": 0.0013136401230097012,
	"loss": 1.1678,
	"step": 14010
	},
	{
	"epoch": 0.7177964366168339,
	"grad_norm": 0.19381676614284515,
	"learning_rate": 0.0013084881793858267,
	"loss": 1.1714,
	"step": 14020
	},
	{
	"epoch": 0.7183084169567888,
	"grad_norm": 0.178278848528862,
	"learning_rate": 0.0013033564410850373,
	"loss": 1.162,
	"step": 14030
	},
	{
	"epoch": 0.7188203972967439,
	"grad_norm": 0.18733732402324677,
	"learning_rate": 0.001298244828864409,
	"loss": 1.1565,
	"step": 14040
	},
	{
	"epoch": 0.7193323776366988,
	"grad_norm": 0.18614625930786133,
	"learning_rate": 0.0012931532637917983,
	"loss": 1.1678,
	"step": 14050
	},
	{
	"epoch": 0.7198443579766537,
	"grad_norm": 0.17618735134601593,
	"learning_rate": 0.0012880816672446245,
	"loss": 1.1723,
	"step": 14060
	},
	{
	"epoch": 0.7203563383166086,
	"grad_norm": 0.17765553295612335,
	"learning_rate": 0.0012830299609086558,
	"loss": 1.1511,
	"step": 14070
	},
	{
	"epoch": 0.7208683186565635,
	"grad_norm": 0.19092194736003876,
	"learning_rate": 0.0012779980667767994,
	"loss": 1.1679,
	"step": 14080
	},
	{
	"epoch": 0.7213802989965186,
	"grad_norm": 0.18768686056137085,
	"learning_rate": 0.0012729859071478975,
	"loss": 1.1668,
	"step": 14090
	},
	{
	"epoch": 0.7218922793364735,
	"grad_norm": 0.18770349025726318,
	"learning_rate": 0.0012679934046255271,
	"loss": 1.1749,
	"step": 14100
	},
	{
	"epoch": 0.7224042596764284,
	"grad_norm": 0.1935562640428543,
	"learning_rate": 0.0012630204821168047,
	"loss": 1.1535,
	"step": 14110
	},
	{
	"epoch": 0.7229162400163833,
	"grad_norm": 0.17887477576732635,
	"learning_rate": 0.0012580670628311967,
	"loss": 1.1541,
	"step": 14120
	},
	{
	"epoch": 0.7234282203563384,
	"grad_norm": 0.18734948337078094,
	"learning_rate": 0.0012531330702793323,
	"loss": 1.1669,
	"step": 14130
	},
	{
	"epoch": 0.7239402006962933,
	"grad_norm": 0.17879174649715424,
	"learning_rate": 0.0012482184282718238,
	"loss": 1.1905,
	"step": 14140
	},
	{
	"epoch": 0.7244521810362482,
	"grad_norm": 0.1950501948595047,
	"learning_rate": 0.0012433230609180889,
	"loss": 1.1446,
	"step": 14150
	},
	{
	"epoch": 0.7249641613762031,
	"grad_norm": 0.1801559329032898,
	"learning_rate": 0.0012384468926251798,
	"loss": 1.1367,
	"step": 14160
	},
	{
	"epoch": 0.7254761417161582,
	"grad_norm": 0.17999699711799622,
	"learning_rate": 0.0012335898480966146,
	"loss": 1.1402,
	"step": 14170
	},
	{
	"epoch": 0.7259881220561131,
	"grad_norm": 0.18279437720775604,
	"learning_rate": 0.0012287518523312166,
	"loss": 1.1597,
	"step": 14180
	},
	{
	"epoch": 0.726500102396068,
	"grad_norm": 0.19126516580581665,
	"learning_rate": 0.001223932830621954,
	"loss": 1.1604,
	"step": 14190
	},
	{
	"epoch": 0.7270120827360229,
	"grad_norm": 0.18581058084964752,
	"learning_rate": 0.0012191327085547877,
	"loss": 1.1532,
	"step": 14200
	},
	{
	"epoch": 0.7275240630759778,
	"grad_norm": 0.20243413746356964,
	"learning_rate": 0.0012143514120075223,
	"loss": 1.1495,
	"step": 14210
	},
	{
	"epoch": 0.7280360434159329,
	"grad_norm": 0.19404320418834686,
	"learning_rate": 0.0012095888671486597,
	"loss": 1.1567,
	"step": 14220
	},
	{
	"epoch": 0.7285480237558878,
	"grad_norm": 0.18503792583942413,
	"learning_rate": 0.0012048450004362614,
	"loss": 1.128,
	"step": 14230
	},
	{
	"epoch": 0.7290600040958427,
	"grad_norm": 0.19073212146759033,
	"learning_rate": 0.0012001197386168117,
	"loss": 1.1458,
	"step": 14240
	},
	{
	"epoch": 0.7295719844357976,
	"grad_norm": 0.2037813812494278,
	"learning_rate": 0.0011954130087240865,
	"loss": 1.1741,
	"step": 14250
	},
	{
	"epoch": 0.7300839647757527,
	"grad_norm": 0.18591246008872986,
	"learning_rate": 0.0011907247380780264,
	"loss": 1.1458,
	"step": 14260
	},
	{
	"epoch": 0.7305959451157076,
	"grad_norm": 0.18210938572883606,
	"learning_rate": 0.0011860548542836156,
	"loss": 1.1695,
	"step": 14270
	},
	{
	"epoch": 0.7311079254556625,
	"grad_norm": 0.18794593214988708,
	"learning_rate": 0.0011814032852297623,
	"loss": 1.1458,
	"step": 14280
	},
	{
	"epoch": 0.7316199057956174,
	"grad_norm": 0.1834757775068283,
	"learning_rate": 0.001176769959088186,
	"loss": 1.1485,
	"step": 14290
	},
	{
	"epoch": 0.7321318861355723,
	"grad_norm": 0.1770770400762558,
	"learning_rate": 0.0011721548043123092,
	"loss": 1.1473,
	"step": 14300
	},
	{
	"epoch": 0.7326438664755274,
	"grad_norm": 0.19540582597255707,
	"learning_rate": 0.0011675577496361507,
	"loss": 1.14,
	"step": 14310
	},
	{
	"epoch": 0.7331558468154823,
	"grad_norm": 0.18834899365901947,
	"learning_rate": 0.0011629787240732272,
	"loss": 1.1326,
	"step": 14320
	},
	{
	"epoch": 0.7336678271554372,
	"grad_norm": 0.18618904054164886,
	"learning_rate": 0.0011584176569154553,
	"loss": 1.1388,
	"step": 14330
	},
	{
	"epoch": 0.7341798074953921,
	"grad_norm": 0.1807902604341507,
	"learning_rate": 0.0011538744777320608,
	"loss": 1.1448,
	"step": 14340
	},
	{
	"epoch": 0.7346917878353472,
	"grad_norm": 0.18239812552928925,
	"learning_rate": 0.0011493491163684908,
	"loss": 1.1355,
	"step": 14350
	},
	{
	"epoch": 0.7352037681753021,
	"grad_norm": 0.18156401813030243,
	"learning_rate": 0.0011448415029453305,
	"loss": 1.1309,
	"step": 14360
	},
	{
	"epoch": 0.735715748515257,
	"grad_norm": 0.1813691258430481,
	"learning_rate": 0.0011403515678572234,
	"loss": 1.134,
	"step": 14370
	},
	{
	"epoch": 0.7362277288552119,
	"grad_norm": 0.18241450190544128,
	"learning_rate": 0.0011358792417717981,
	"loss": 1.1378,
	"step": 14380
	},
	{
	"epoch": 0.736739709195167,
	"grad_norm": 0.18394464254379272,
	"learning_rate": 0.001131424455628596,
	"loss": 1.1497,
	"step": 14390
	},
	{
	"epoch": 0.7372516895351219,
	"grad_norm": 0.18612609803676605,
	"learning_rate": 0.0011269871406380059,
	"loss": 1.1669,
	"step": 14400
	},
	{
	"epoch": 0.7377636698750768,
	"grad_norm": 0.18373136222362518,
	"learning_rate": 0.001122567228280201,
	"loss": 1.1453,
	"step": 14410
	},
	{
	"epoch": 0.7382756502150317,
	"grad_norm": 0.193937748670578,
	"learning_rate": 0.001118164650304082,
	"loss": 1.1357,
	"step": 14420
	},
	{
	"epoch": 0.7387876305549866,
	"grad_norm": 0.18261444568634033,
	"learning_rate": 0.0011137793387262216,
	"loss": 1.169,
	"step": 14430
	},
	{
	"epoch": 0.7392996108949417,
	"grad_norm": 0.19592134654521942,
	"learning_rate": 0.0011094112258298167,
	"loss": 1.1518,
	"step": 14440
	},
	{
	"epoch": 0.7398115912348966,
	"grad_norm": 0.17495043575763702,
	"learning_rate": 0.0011050602441636402,
	"loss": 1.1481,
	"step": 14450
	},
	{
	"epoch": 0.7403235715748515,
	"grad_norm": 0.18108507990837097,
	"learning_rate": 0.001100726326541002,
	"loss": 1.1327,
	"step": 14460
	},
	{
	"epoch": 0.7408355519148064,
	"grad_norm": 0.1797986775636673,
	"learning_rate": 0.00109640940603871,
	"loss": 1.1394,
	"step": 14470
	},
	{
	"epoch": 0.7413475322547615,
	"grad_norm": 0.18484458327293396,
	"learning_rate": 0.001092109415996037,
	"loss": 1.1188,
	"step": 14480
	},
	{
	"epoch": 0.7418595125947164,
	"grad_norm": 0.1784062534570694,
	"learning_rate": 0.0010878262900136915,
	"loss": 1.125,
	"step": 14490
	},
	{
	"epoch": 0.7423714929346713,
	"grad_norm": 0.1869814693927765,
	"learning_rate": 0.0010835599619527924,
	"loss": 1.1417,
	"step": 14500
	},
	{
	"epoch": 0.7428834732746262,
	"grad_norm": 0.18346761167049408,
	"learning_rate": 0.0010793103659338475,
	"loss": 1.1182,
	"step": 14510
	},
	{
	"epoch": 0.7433954536145811,
	"grad_norm": 0.188985213637352,
	"learning_rate": 0.0010750774363357356,
	"loss": 1.1412,
	"step": 14520
	},
	{
	"epoch": 0.7439074339545362,
	"grad_norm": 0.1802164912223816,
	"learning_rate": 0.0010708611077946955,
	"loss": 1.1338,
	"step": 14530
	},
	{
	"epoch": 0.7444194142944911,
	"grad_norm": 0.17940784990787506,
	"learning_rate": 0.0010666613152033133,
	"loss": 1.1477,
	"step": 14540
	},
	{
	"epoch": 0.744931394634446,
	"grad_norm": 0.19481126964092255,
	"learning_rate": 0.00106247799370952,
	"loss": 1.1306,
	"step": 14550
	},
	{
	"epoch": 0.7454433749744009,
	"grad_norm": 0.17663590610027313,
	"learning_rate": 0.0010583110787155889,
	"loss": 1.1395,
	"step": 14560
	},
	{
	"epoch": 0.745955355314356,
	"grad_norm": 0.18392081558704376,
	"learning_rate": 0.001054160505877137,
	"loss": 1.1339,
	"step": 14570
	},
	{
	"epoch": 0.7464673356543109,
	"grad_norm": 0.1872582733631134,
	"learning_rate": 0.0010500262111021333,
	"loss": 1.1271,
	"step": 14580
	},
	{
	"epoch": 0.7469793159942658,
	"grad_norm": 0.18514196574687958,
	"learning_rate": 0.0010459081305499078,
	"loss": 1.1561,
	"step": 14590
	},
	{
	"epoch": 0.7474912963342207,
	"grad_norm": 0.18902930617332458,
	"learning_rate": 0.0010418062006301674,
	"loss": 1.1402,
	"step": 14600
	},
	{
	"epoch": 0.7480032766741758,
	"grad_norm": 0.1824546903371811,
	"learning_rate": 0.0010377203580020109,
	"loss": 1.1439,
	"step": 14610
	},
	{
	"epoch": 0.7485152570141307,
	"grad_norm": 0.1803770363330841,
	"learning_rate": 0.001033650539572954,
	"loss": 1.1313,
	"step": 14620
	},
	{
	"epoch": 0.7490272373540856,
	"grad_norm": 0.19267936050891876,
	"learning_rate": 0.0010295966824979534,
	"loss": 1.1082,
	"step": 14630
	},
	{
	"epoch": 0.7495392176940405,
	"grad_norm": 0.19047097861766815,
	"learning_rate": 0.0010255587241784366,
	"loss": 1.122,
	"step": 14640
	},
	{
	"epoch": 0.7500511980339954,
	"grad_norm": 0.1689426302909851,
	"learning_rate": 0.0010215366022613358,
	"loss": 1.1172,
	"step": 14650
	},
	{
	"epoch": 0.7505631783739505,
	"grad_norm": 0.18644796311855316,
	"learning_rate": 0.0010175302546381246,
	"loss": 1.146,
	"step": 14660
	},
	{
	"epoch": 0.7510751587139054,
	"grad_norm": 0.18672852218151093,
	"learning_rate": 0.0010135396194438586,
	"loss": 1.1386,
	"step": 14670
	},
	{
	"epoch": 0.7515871390538603,
	"grad_norm": 0.19166767597198486,
	"learning_rate": 0.0010095646350562206,
	"loss": 1.1365,
	"step": 14680
	},
	{
	"epoch": 0.7520991193938152,
	"grad_norm": 0.18109376728534698,
	"learning_rate": 0.0010056052400945696,
	"loss": 1.113,
	"step": 14690
	},
	{
	"epoch": 0.7526110997337703,
	"grad_norm": 0.17950654029846191,
	"learning_rate": 0.0010016613734189915,
	"loss": 1.1474,
	"step": 14700
	},
	{
	"epoch": 0.7531230800737252,
	"grad_norm": 0.184305801987648,
	"learning_rate": 0.0009977329741293565,
	"loss": 1.1199,
	"step": 14710
	},
	{
	"epoch": 0.7536350604136801,
	"grad_norm": 0.18768514692783356,
	"learning_rate": 0.0009938199815643773,
	"loss": 1.1451,
	"step": 14720
	},
	{
	"epoch": 0.754147040753635,
	"grad_norm": 0.17981773614883423,
	"learning_rate": 0.0009899223353006738,
	"loss": 1.1423,
	"step": 14730
	},
	{
	"epoch": 0.75465902109359,
	"grad_norm": 0.17722870409488678,
	"learning_rate": 0.0009860399751518388,
	"loss": 1.1208,
	"step": 14740
	},
	{
	"epoch": 0.755171001433545,
	"grad_norm": 0.18367789685726166,
	"learning_rate": 0.0009821728411675095,
	"loss": 1.148,
	"step": 14750
	},
	{
	"epoch": 0.7556829817734999,
	"grad_norm": 0.18441089987754822,
	"learning_rate": 0.0009783208736324418,
	"loss": 1.1112,
	"step": 14760
	},
	{
	"epoch": 0.7561949621134548,
	"grad_norm": 0.1897488385438919,
	"learning_rate": 0.000974484013065587,
	"loss": 1.1231,
	"step": 14770
	},
	{
	"epoch": 0.7567069424534097,
	"grad_norm": 0.18716907501220703,
	"learning_rate": 0.0009706622002191746,
	"loss": 1.1018,
	"step": 14780
	},
	{
	"epoch": 0.7572189227933648,
	"grad_norm": 0.18121209740638733,
	"learning_rate": 0.0009668553760777972,
	"loss": 1.1225,
	"step": 14790
	},
	{
	"epoch": 0.7577309031333197,
	"grad_norm": 0.19911837577819824,
	"learning_rate": 0.0009630634818574985,
	"loss": 1.1266,
	"step": 14800
	},
	{
	"epoch": 0.7582428834732746,
	"grad_norm": 0.169275164604187,
	"learning_rate": 0.0009592864590048661,
	"loss": 1.1152,
	"step": 14810
	},
	{
	"epoch": 0.7587548638132295,
	"grad_norm": 0.1855994015932083,
	"learning_rate": 0.0009555242491961278,
	"loss": 1.1318,
	"step": 14820
	},
	{
	"epoch": 0.7592668441531846,
	"grad_norm": 0.17527516186237335,
	"learning_rate": 0.0009517767943362495,
	"loss": 1.0988,
	"step": 14830
	},
	{
	"epoch": 0.7597788244931395,
	"grad_norm": 0.18066614866256714,
	"learning_rate": 0.0009480440365580401,
	"loss": 1.1097,
	"step": 14840
	},
	{
	"epoch": 0.7602908048330944,
	"grad_norm": 0.17801222205162048,
	"learning_rate": 0.000944325918221256,
	"loss": 1.1196,
	"step": 14850
	},
	{
	"epoch": 0.7608027851730493,
	"grad_norm": 0.19464291632175446,
	"learning_rate": 0.0009406223819117125,
	"loss": 1.1319,
	"step": 14860
	},
	{
	"epoch": 0.7613147655130043,
	"grad_norm": 0.1878882348537445,
	"learning_rate": 0.0009369333704403964,
	"loss": 1.13,
	"step": 14870
	},
	{
	"epoch": 0.7618267458529593,
	"grad_norm": 0.17626269161701202,
	"learning_rate": 0.0009332588268425832,
	"loss": 1.1181,
	"step": 14880
	},
	{
	"epoch": 0.7623387261929142,
	"grad_norm": 0.1895529329776764,
	"learning_rate": 0.0009295986943769574,
	"loss": 1.1333,
	"step": 14890
	},
	{
	"epoch": 0.7628507065328691,
	"grad_norm": 0.1784052848815918,
	"learning_rate": 0.0009259529165247364,
	"loss": 1.1242,
	"step": 14900
	},
	{
	"epoch": 0.763362686872824,
	"grad_norm": 0.17965124547481537,
	"learning_rate": 0.0009223214369887976,
	"loss": 1.1258,
	"step": 14910
	},
	{
	"epoch": 0.7638746672127791,
	"grad_norm": 0.17978616058826447,
	"learning_rate": 0.0009187041996928093,
	"loss": 1.1125,
	"step": 14920
	},
	{
	"epoch": 0.764386647552734,
	"grad_norm": 0.18885265290737152,
	"learning_rate": 0.0009151011487803643,
	"loss": 1.1061,
	"step": 14930
	},
	{
	"epoch": 0.7648986278926889,
	"grad_norm": 0.18489712476730347,
	"learning_rate": 0.0009115122286141184,
	"loss": 1.127,
	"step": 14940
	},
	{
	"epoch": 0.7654106082326438,
	"grad_norm": 0.17437365651130676,
	"learning_rate": 0.0009079373837749296,
	"loss": 1.1148,
	"step": 14950
	},
	{
	"epoch": 0.7659225885725988,
	"grad_norm": 0.18147113919258118,
	"learning_rate": 0.0009043765590610044,
	"loss": 1.1014,
	"step": 14960
	},
	{
	"epoch": 0.7664345689125538,
	"grad_norm": 0.17263419926166534,
	"learning_rate": 0.0009008296994870436,
	"loss": 1.1118,
	"step": 14970
	},
	{
	"epoch": 0.7669465492525087,
	"grad_norm": 0.17921820282936096,
	"learning_rate": 0.000897296750283394,
	"loss": 1.1245,
	"step": 14980
	},
	{
	"epoch": 0.7674585295924636,
	"grad_norm": 0.17663663625717163,
	"learning_rate": 0.0008937776568952028,
	"loss": 1.1078,
	"step": 14990
	},
	{
	"epoch": 0.7679705099324186,
	"grad_norm": 0.17961500585079193,
	"learning_rate": 0.0008902723649815751,
	"loss": 1.0977,
	"step": 15000
	},
	{
	"epoch": 0.7684824902723736,
	"grad_norm": 0.18368123471736908,
	"learning_rate": 0.0008867808204147341,
	"loss": 1.103,
	"step": 15010
	},
	{
	"epoch": 0.7689944706123285,
	"grad_norm": 0.18269400298595428,
	"learning_rate": 0.0008833029692791867,
	"loss": 1.108,
	"step": 15020
	},
	{
	"epoch": 0.7695064509522834,
	"grad_norm": 0.1727774292230606,
	"learning_rate": 0.0008798387578708893,
	"loss": 1.1033,
	"step": 15030
	},
	{
	"epoch": 0.7700184312922383,
	"grad_norm": 0.18222136795520782,
	"learning_rate": 0.0008763881326964195,
	"loss": 1.1089,
	"step": 15040
	},
	{
	"epoch": 0.7705304116321933,
	"grad_norm": 0.1899970918893814,
	"learning_rate": 0.0008729510404721502,
	"loss": 1.1039,
	"step": 15050
	},
	{
	"epoch": 0.7710423919721483,
	"grad_norm": 0.18128469586372375,
	"learning_rate": 0.0008695274281234262,
	"loss": 1.1078,
	"step": 15060
	},
	{
	"epoch": 0.7715543723121032,
	"grad_norm": 0.18401475250720978,
	"learning_rate": 0.0008661172427837451,
	"loss": 1.1023,
	"step": 15070
	},
	{
	"epoch": 0.7720663526520581,
	"grad_norm": 0.18456844985485077,
	"learning_rate": 0.0008627204317939403,
	"loss": 1.1187,
	"step": 15080
	},
	{
	"epoch": 0.7725783329920131,
	"grad_norm": 0.18838796019554138,
	"learning_rate": 0.0008593369427013692,
	"loss": 1.0908,
	"step": 15090
	},
	{
	"epoch": 0.7730903133319681,
	"grad_norm": 0.18515382707118988,
	"learning_rate": 0.0008559667232591014,
	"loss": 1.1099,
	"step": 15100
	},
	{
	"epoch": 0.773602293671923,
	"grad_norm": 0.18746817111968994,
	"learning_rate": 0.0008526097214251135,
	"loss": 1.1073,
	"step": 15110
	},
	{
	"epoch": 0.7741142740118779,
	"grad_norm": 0.18683654069900513,
	"learning_rate": 0.0008492658853614846,
	"loss": 1.1195,
	"step": 15120
	},
	{
	"epoch": 0.7746262543518329,
	"grad_norm": 0.17560458183288574,
	"learning_rate": 0.0008459351634335962,
	"loss": 1.0919,
	"step": 15130
	},
	{
	"epoch": 0.7751382346917879,
	"grad_norm": 0.17539164423942566,
	"learning_rate": 0.0008426175042093346,
	"loss": 1.1082,
	"step": 15140
	},
	{
	"epoch": 0.7756502150317428,
	"grad_norm": 0.17442087829113007,
	"learning_rate": 0.0008393128564582973,
	"loss": 1.1077,
	"step": 15150
	},
	{
	"epoch": 0.7761621953716977,
	"grad_norm": 0.17610372602939606,
	"learning_rate": 0.0008360211691510009,
	"loss": 1.0976,
	"step": 15160
	},
	{
	"epoch": 0.7766741757116526,
	"grad_norm": 0.18700052797794342,
	"learning_rate": 0.0008327423914580938,
	"loss": 1.1116,
	"step": 15170
	},
	{
	"epoch": 0.7771861560516076,
	"grad_norm": 0.18908992409706116,
	"learning_rate": 0.0008294764727495717,
	"loss": 1.1266,
	"step": 15180
	},
	{
	"epoch": 0.7776981363915626,
	"grad_norm": 0.17554494738578796,
	"learning_rate": 0.0008262233625939947,
	"loss": 1.1228,
	"step": 15190
	},
	{
	"epoch": 0.7782101167315175,
	"grad_norm": 0.1848273128271103,
	"learning_rate": 0.0008229830107577095,
	"loss": 1.1032,
	"step": 15200
	},
	{
	"epoch": 0.7787220970714724,
	"grad_norm": 0.1751490831375122,
	"learning_rate": 0.0008197553672040732,
	"loss": 1.1022,
	"step": 15210
	},
	{
	"epoch": 0.7792340774114274,
	"grad_norm": 0.19107986986637115,
	"learning_rate": 0.0008165403820926805,
	"loss": 1.1107,
	"step": 15220
	},
	{
	"epoch": 0.7797460577513824,
	"grad_norm": 0.17038871347904205,
	"learning_rate": 0.000813338005778595,
	"loss": 1.0906,
	"step": 15230
	},
	{
	"epoch": 0.7802580380913373,
	"grad_norm": 0.17573246359825134,
	"learning_rate": 0.0008101481888115815,
	"loss": 1.1185,
	"step": 15240
	},
	{
	"epoch": 0.7807700184312922,
	"grad_norm": 0.18138054013252258,
	"learning_rate": 0.000806970881935343,
	"loss": 1.1068,
	"step": 15250
	},
	{
	"epoch": 0.7812819987712472,
	"grad_norm": 0.18504558503627777,
	"learning_rate": 0.00080380603608676,
	"loss": 1.1187,
	"step": 15260
	},
	{
	"epoch": 0.7817939791112021,
	"grad_norm": 0.1914263665676117,
	"learning_rate": 0.0008006536023951326,
	"loss": 1.1028,
	"step": 15270
	},
	{
	"epoch": 0.7823059594511571,
	"grad_norm": 0.17930828034877777,
	"learning_rate": 0.0007975135321814267,
	"loss": 1.12,
	"step": 15280
	},
	{
	"epoch": 0.782817939791112,
	"grad_norm": 0.18710237741470337,
	"learning_rate": 0.0007943857769575209,
	"loss": 1.0943,
	"step": 15290
	},
	{
	"epoch": 0.783329920131067,
	"grad_norm": 0.18522420525550842,
	"learning_rate": 0.0007912702884254589,
	"loss": 1.1125,
	"step": 15300
	},
	{
	"epoch": 0.7838419004710219,
	"grad_norm": 0.17634257674217224,
	"learning_rate": 0.0007881670184767039,
	"loss": 1.0855,
	"step": 15310
	},
	{
	"epoch": 0.7843538808109769,
	"grad_norm": 0.1925361305475235,
	"learning_rate": 0.0007850759191913941,
	"loss": 1.0957,
	"step": 15320
	},
	{
	"epoch": 0.7848658611509318,
	"grad_norm": 0.18163706362247467,
	"learning_rate": 0.0007819969428376047,
	"loss": 1.0994,
	"step": 15330
	},
	{
	"epoch": 0.7853778414908867,
	"grad_norm": 0.1802321821451187,
	"learning_rate": 0.0007789300418706098,
	"loss": 1.1043,
	"step": 15340
	},
	{
	"epoch": 0.7858898218308417,
	"grad_norm": 0.20434251427650452,
	"learning_rate": 0.0007758751689321484,
	"loss": 1.0943,
	"step": 15350
	},
	{
	"epoch": 0.7864018021707967,
	"grad_norm": 0.1818198412656784,
	"learning_rate": 0.0007728322768496924,
	"loss": 1.0916,
	"step": 15360
	},
	{
	"epoch": 0.7869137825107516,
	"grad_norm": 0.18060991168022156,
	"learning_rate": 0.0007698013186357197,
	"loss": 1.1122,
	"step": 15370
	},
	{
	"epoch": 0.7874257628507065,
	"grad_norm": 0.18546059727668762,
	"learning_rate": 0.0007667822474869874,
	"loss": 1.1075,
	"step": 15380
	},
	{
	"epoch": 0.7879377431906615,
	"grad_norm": 0.18823228776454926,
	"learning_rate": 0.0007637750167838097,
	"loss": 1.1197,
	"step": 15390
	},
	{
	"epoch": 0.7884497235306164,
	"grad_norm": 0.17590127885341644,
	"learning_rate": 0.0007607795800893374,
	"loss": 1.0865,
	"step": 15400
	},
	{
	"epoch": 0.7889617038705714,
	"grad_norm": 0.18602034449577332,
	"learning_rate": 0.000757795891148842,
	"loss": 1.1,
	"step": 15410
	},
	{
	"epoch": 0.7894736842105263,
	"grad_norm": 0.19357922673225403,
	"learning_rate": 0.0007548239038889995,
	"loss": 1.1015,
	"step": 15420
	},
	{
	"epoch": 0.7899856645504812,
	"grad_norm": 0.17590965330600739,
	"learning_rate": 0.000751863572417181,
	"loss": 1.1113,
	"step": 15430
	},
	{
	"epoch": 0.7904976448904362,
	"grad_norm": 0.1751716434955597,
	"learning_rate": 0.0007489148510207429,
	"loss": 1.0898,
	"step": 15440
	},
	{
	"epoch": 0.7910096252303912,
	"grad_norm": 0.17589299380779266,
	"learning_rate": 0.000745977694166321,
	"loss": 1.0931,
	"step": 15450
	},
	{
	"epoch": 0.7915216055703461,
	"grad_norm": 0.17544785141944885,
	"learning_rate": 0.0007430520564991282,
	"loss": 1.0914,
	"step": 15460
	},
	{
	"epoch": 0.792033585910301,
	"grad_norm": 0.18367989361286163,
	"learning_rate": 0.0007401378928422531,
	"loss": 1.1043,
	"step": 15470
	},
	{
	"epoch": 0.792545566250256,
	"grad_norm": 0.17736022174358368,
	"learning_rate": 0.0007372351581959634,
	"loss": 1.1252,
	"step": 15480
	},
	{
	"epoch": 0.7930575465902109,
	"grad_norm": 0.18722687661647797,
	"learning_rate": 0.0007343438077370098,
	"loss": 1.095,
	"step": 15490
	},
	{
	"epoch": 0.7935695269301659,
	"grad_norm": 0.1756405234336853,
	"learning_rate": 0.0007314637968179351,
	"loss": 1.1017,
	"step": 15500
	},
	{
	"epoch": 0.7940815072701208,
	"grad_norm": 0.17875617742538452,
	"learning_rate": 0.0007285950809663841,
	"loss": 1.0979,
	"step": 15510
	},
	{
	"epoch": 0.7945934876100758,
	"grad_norm": 0.17093615233898163,
	"learning_rate": 0.0007257376158844169,
	"loss": 1.0886,
	"step": 15520
	},
	{
	"epoch": 0.7951054679500307,
	"grad_norm": 0.18361063301563263,
	"learning_rate": 0.0007228913574478252,
	"loss": 1.1089,
	"step": 15530
	},
	{
	"epoch": 0.7956174482899857,
	"grad_norm": 0.1857183277606964,
	"learning_rate": 0.0007200562617054503,
	"loss": 1.0806,
	"step": 15540
	},
	{
	"epoch": 0.7961294286299406,
	"grad_norm": 0.1974077820777893,
	"learning_rate": 0.0007172322848785056,
	"loss": 1.088,
	"step": 15550
	},
	{
	"epoch": 0.7966414089698955,
	"grad_norm": 0.173116534948349,
	"learning_rate": 0.0007144193833598987,
	"loss": 1.0921,
	"step": 15560
	},
	{
	"epoch": 0.7971533893098505,
	"grad_norm": 0.17753879725933075,
	"learning_rate": 0.0007116175137135599,
	"loss": 1.0846,
	"step": 15570
	},
	{
	"epoch": 0.7976653696498055,
	"grad_norm": 0.1796150505542755,
	"learning_rate": 0.0007088266326737707,
	"loss": 1.0816,
	"step": 15580
	},
	{
	"epoch": 0.7981773499897604,
	"grad_norm": 0.17271041870117188,
	"learning_rate": 0.0007060466971444953,
	"loss": 1.0875,
	"step": 15590
	},
	{
	"epoch": 0.7986893303297153,
	"grad_norm": 0.1766566038131714,
	"learning_rate": 0.0007032776641987162,
	"loss": 1.085,
	"step": 15600
	},
	{
	"epoch": 0.7992013106696703,
	"grad_norm": 0.17464908957481384,
	"learning_rate": 0.0007005194910777697,
	"loss": 1.0669,
	"step": 15610
	},
	{
	"epoch": 0.7997132910096252,
	"grad_norm": 0.18235880136489868,
	"learning_rate": 0.0006977721351906876,
	"loss": 1.0983,
	"step": 15620
	},
	{
	"epoch": 0.8002252713495802,
	"grad_norm": 0.17582911252975464,
	"learning_rate": 0.0006950355541135377,
	"loss": 1.0748,
	"step": 15630
	},
	{
	"epoch": 0.8007372516895351,
	"grad_norm": 0.18529601395130157,
	"learning_rate": 0.0006923097055887701,
	"loss": 1.082,
	"step": 15640
	},
	{
	"epoch": 0.80124923202949,
	"grad_norm": 0.18771891295909882,
	"learning_rate": 0.000689594547524564,
	"loss": 1.0792,
	"step": 15650
	},
	{
	"epoch": 0.801761212369445,
	"grad_norm": 0.18567664921283722,
	"learning_rate": 0.0006868900379941773,
	"loss": 1.0929,
	"step": 15660
	},
	{
	"epoch": 0.8022731927094,
	"grad_norm": 0.18062008917331696,
	"learning_rate": 0.0006841961352353004,
	"loss": 1.0952,
	"step": 15670
	},
	{
	"epoch": 0.8027851730493549,
	"grad_norm": 0.17383413016796112,
	"learning_rate": 0.0006815127976494104,
	"loss": 1.1029,
	"step": 15680
	},
	{
	"epoch": 0.8032971533893098,
	"grad_norm": 0.17971891164779663,
	"learning_rate": 0.0006788399838011287,
	"loss": 1.1032,
	"step": 15690
	},
	{
	"epoch": 0.8038091337292648,
	"grad_norm": 0.17936407029628754,
	"learning_rate": 0.0006761776524175815,
	"loss": 1.1001,
	"step": 15700
	},
	{
	"epoch": 0.8043211140692197,
	"grad_norm": 0.18222102522850037,
	"learning_rate": 0.0006735257623877627,
	"loss": 1.0872,
	"step": 15710
	},
	{
	"epoch": 0.8048330944091747,
	"grad_norm": 0.18015074729919434,
	"learning_rate": 0.0006708842727618985,
	"loss": 1.0991,
	"step": 15720
	},
	{
	"epoch": 0.8053450747491296,
	"grad_norm": 0.17375022172927856,
	"learning_rate": 0.0006682531427508156,
	"loss": 1.0623,
	"step": 15730
	},
	{
	"epoch": 0.8058570550890846,
	"grad_norm": 0.1764671802520752,
	"learning_rate": 0.0006656323317253108,
	"loss": 1.0984,
	"step": 15740
	},
	{
	"epoch": 0.8063690354290395,
	"grad_norm": 0.1692001074552536,
	"learning_rate": 0.0006630217992155241,
	"loss": 1.0859,
	"step": 15750
	},
	{
	"epoch": 0.8068810157689945,
	"grad_norm": 0.17819392681121826,
	"learning_rate": 0.0006604215049103134,
	"loss": 1.0899,
	"step": 15760
	},
	{
	"epoch": 0.8073929961089494,
	"grad_norm": 0.17758633196353912,
	"learning_rate": 0.0006578314086566325,
	"loss": 1.0826,
	"step": 15770
	},
	{
	"epoch": 0.8079049764489044,
	"grad_norm": 0.17600396275520325,
	"learning_rate": 0.0006552514704589104,
	"loss": 1.0912,
	"step": 15780
	},
	{
	"epoch": 0.8084169567888593,
	"grad_norm": 0.177523672580719,
	"learning_rate": 0.0006526816504784343,
	"loss": 1.0814,
	"step": 15790
	},
	{
	"epoch": 0.8089289371288143,
	"grad_norm": 0.17935074865818024,
	"learning_rate": 0.0006501219090327343,
	"loss": 1.0859,
	"step": 15800
	},
	{
	"epoch": 0.8094409174687692,
	"grad_norm": 0.18292473256587982,
	"learning_rate": 0.0006475722065949703,
	"loss": 1.0716,
	"step": 15810
	},
	{
	"epoch": 0.8099528978087241,
	"grad_norm": 0.18235322833061218,
	"learning_rate": 0.000645032503793322,
	"loss": 1.085,
	"step": 15820
	},
	{
	"epoch": 0.8104648781486791,
	"grad_norm": 0.18412081897258759,
	"learning_rate": 0.0006425027614103806,
	"loss": 1.0872,
	"step": 15830
	},
	{
	"epoch": 0.810976858488634,
	"grad_norm": 0.17389538884162903,
	"learning_rate": 0.0006399829403825436,
	"loss": 1.0935,
	"step": 15840
	},
	{
	"epoch": 0.811488838828589,
	"grad_norm": 0.17470002174377441,
	"learning_rate": 0.0006374730017994116,
	"loss": 1.0603,
	"step": 15850
	},
	{
	"epoch": 0.8120008191685439,
	"grad_norm": 0.17814920842647552,
	"learning_rate": 0.0006349729069031867,
	"loss": 1.1096,
	"step": 15860
	},
	{
	"epoch": 0.8125127995084989,
	"grad_norm": 0.18193413317203522,
	"learning_rate": 0.000632482617088075,
	"loss": 1.076,
	"step": 15870
	},
	{
	"epoch": 0.8130247798484538,
	"grad_norm": 0.18022698163986206,
	"learning_rate": 0.0006300020938996901,
	"loss": 1.0868,
	"step": 15880
	},
	{
	"epoch": 0.8135367601884088,
	"grad_norm": 0.16944915056228638,
	"learning_rate": 0.0006275312990344587,
	"loss": 1.0857,
	"step": 15890
	},
	{
	"epoch": 0.8140487405283637,
	"grad_norm": 0.17860791087150574,
	"learning_rate": 0.0006250701943390303,
	"loss": 1.0885,
	"step": 15900
	},
	{
	"epoch": 0.8145607208683187,
	"grad_norm": 0.169233039021492,
	"learning_rate": 0.0006226187418096868,
	"loss": 1.0701,
	"step": 15910
	},
	{
	"epoch": 0.8150727012082736,
	"grad_norm": 0.18404126167297363,
	"learning_rate": 0.0006201769035917569,
	"loss": 1.0862,
	"step": 15920
	},
	{
	"epoch": 0.8155846815482285,
	"grad_norm": 0.1732415407896042,
	"learning_rate": 0.0006177446419790303,
	"loss": 1.0552,
	"step": 15930
	},
	{
	"epoch": 0.8160966618881835,
	"grad_norm": 0.17680327594280243,
	"learning_rate": 0.0006153219194131765,
	"loss": 1.0839,
	"step": 15940
	},
	{
	"epoch": 0.8166086422281384,
	"grad_norm": 0.168556347489357,
	"learning_rate": 0.000612908698483164,
	"loss": 1.0628,
	"step": 15950
	},
	{
	"epoch": 0.8171206225680934,
	"grad_norm": 0.1826118528842926,
	"learning_rate": 0.0006105049419246835,
	"loss": 1.0855,
	"step": 15960
	},
	{
	"epoch": 0.8176326029080483,
	"grad_norm": 0.17182965576648712,
	"learning_rate": 0.0006081106126195717,
	"loss": 1.0669,
	"step": 15970
	},
	{
	"epoch": 0.8181445832480033,
	"grad_norm": 0.16935127973556519,
	"learning_rate": 0.0006057256735952383,
	"loss": 1.083,
	"step": 15980
	},
	{
	"epoch": 0.8186565635879582,
	"grad_norm": 0.17464590072631836,
	"learning_rate": 0.0006033500880240954,
	"loss": 1.0671,
	"step": 15990
	},
	{
	"epoch": 0.8191685439279132,
	"grad_norm": 0.17747105658054352,
	"learning_rate": 0.0006009838192229885,
	"loss": 1.0678,
	"step": 16000
	},
	{
	"epoch": 0.8196805242678681,
	"grad_norm": 0.17449192702770233,
	"learning_rate": 0.0005986268306526304,
	"loss": 1.0796,
	"step": 16010
	},
	{
	"epoch": 0.8201925046078231,
	"grad_norm": 0.17097654938697815,
	"learning_rate": 0.0005962790859170364,
	"loss": 1.0778,
	"step": 16020
	},
	{
	"epoch": 0.820704484947778,
	"grad_norm": 0.16904379427433014,
	"learning_rate": 0.0005939405487629626,
	"loss": 1.0843,
	"step": 16030
	},
	{
	"epoch": 0.821216465287733,
	"grad_norm": 0.17497345805168152,
	"learning_rate": 0.0005916111830793466,
	"loss": 1.101,
	"step": 16040
	},
	{
	"epoch": 0.8217284456276879,
	"grad_norm": 0.1789994090795517,
	"learning_rate": 0.0005892909528967487,
	"loss": 1.0845,
	"step": 16050
	},
	{
	"epoch": 0.8222404259676428,
	"grad_norm": 0.1678200364112854,
	"learning_rate": 0.0005869798223867978,
	"loss": 1.0606,
	"step": 16060
	},
	{
	"epoch": 0.8227524063075978,
	"grad_norm": 0.17383365333080292,
	"learning_rate": 0.000584677755861637,
	"loss": 1.0674,
	"step": 16070
	},
	{
	"epoch": 0.8232643866475527,
	"grad_norm": 0.17335745692253113,
	"learning_rate": 0.0005823847177733732,
	"loss": 1.0965,
	"step": 16080
	},
	{
	"epoch": 0.8237763669875077,
	"grad_norm": 0.16967058181762695,
	"learning_rate": 0.0005801006727135282,
	"loss": 1.0677,
	"step": 16090
	},
	{
	"epoch": 0.8242883473274626,
	"grad_norm": 0.16847650706768036,
	"learning_rate": 0.0005778255854124912,
	"loss": 1.0791,
	"step": 16100
	},
	{
	"epoch": 0.8248003276674176,
	"grad_norm": 0.17251423001289368,
	"learning_rate": 0.0005755594207389755,
	"loss": 1.0806,
	"step": 16110
	},
	{
	"epoch": 0.8253123080073725,
	"grad_norm": 0.17555896937847137,
	"learning_rate": 0.0005733021436994743,
	"loss": 1.066,
	"step": 16120
	},
	{
	"epoch": 0.8258242883473275,
	"grad_norm": 0.16997992992401123,
	"learning_rate": 0.000571053719437722,
	"loss": 1.0876,
	"step": 16130
	},
	{
	"epoch": 0.8263362686872824,
	"grad_norm": 0.17845116555690765,
	"learning_rate": 0.0005688141132341551,
	"loss": 1.085,
	"step": 16140
	},
	{
	"epoch": 0.8268482490272373,
	"grad_norm": 0.1836511194705963,
	"learning_rate": 0.0005665832905053756,
	"loss": 1.0769,
	"step": 16150
	},
	{
	"epoch": 0.8273602293671923,
	"grad_norm": 0.1753719449043274,
	"learning_rate": 0.0005643612168036182,
	"loss": 1.0742,
	"step": 16160
	},
	{
	"epoch": 0.8278722097071473,
	"grad_norm": 0.17152993381023407,
	"learning_rate": 0.0005621478578162176,
	"loss": 1.0761,
	"step": 16170
	},
	{
	"epoch": 0.8283841900471022,
	"grad_norm": 0.18273817002773285,
	"learning_rate": 0.0005599431793650786,
	"loss": 1.0803,
	"step": 16180
	},
	{
	"epoch": 0.8288961703870571,
	"grad_norm": 0.1865053027868271,
	"learning_rate": 0.0005577471474061485,
	"loss": 1.0695,
	"step": 16190
	},
	{
	"epoch": 0.8294081507270121,
	"grad_norm": 0.16600672900676727,
	"learning_rate": 0.0005555597280288918,
	"loss": 1.0844,
	"step": 16200
	},
	{
	"epoch": 0.829920131066967,
	"grad_norm": 0.1850479394197464,
	"learning_rate": 0.0005533808874557656,
	"loss": 1.0658,
	"step": 16210
	},
	{
	"epoch": 0.830432111406922,
	"grad_norm": 0.17687514424324036,
	"learning_rate": 0.000551210592041699,
	"loss": 1.072,
	"step": 16220
	},
	{
	"epoch": 0.8309440917468769,
	"grad_norm": 0.1833869218826294,
	"learning_rate": 0.000549048808273573,
	"loss": 1.0739,
	"step": 16230
	},
	{
	"epoch": 0.8314560720868319,
	"grad_norm": 0.1750813126564026,
	"learning_rate": 0.0005468955027697031,
	"loss": 1.0851,
	"step": 16240
	},
	{
	"epoch": 0.8319680524267868,
	"grad_norm": 0.18595030903816223,
	"learning_rate": 0.0005447506422793241,
	"loss": 1.0615,
	"step": 16250
	},
	{
	"epoch": 0.8324800327667418,
	"grad_norm": 0.1711542159318924,
	"learning_rate": 0.0005426141936820762,
	"loss": 1.0689,
	"step": 16260
	},
	{
	"epoch": 0.8329920131066967,
	"grad_norm": 0.18596914410591125,
	"learning_rate": 0.000540486123987494,
	"loss": 1.0574,
	"step": 16270
	},
	{
	"epoch": 0.8335039934466516,
	"grad_norm": 0.17115946114063263,
	"learning_rate": 0.0005383664003344964,
	"loss": 1.0703,
	"step": 16280
	},
	{
	"epoch": 0.8340159737866066,
	"grad_norm": 0.1802951842546463,
	"learning_rate": 0.0005362549899908805,
	"loss": 1.074,
	"step": 16290
	},
	{
	"epoch": 0.8345279541265616,
	"grad_norm": 0.18504950404167175,
	"learning_rate": 0.0005341518603528143,
	"loss": 1.0747,
	"step": 16300
	},
	{
	"epoch": 0.8350399344665165,
	"grad_norm": 0.17508040368556976,
	"learning_rate": 0.000532056978944335,
	"loss": 1.0784,
	"step": 16310
	},
	{
	"epoch": 0.8355519148064714,
	"grad_norm": 0.1866855025291443,
	"learning_rate": 0.0005299703134168463,
	"loss": 1.0799,
	"step": 16320
	},
	{
	"epoch": 0.8360638951464264,
	"grad_norm": 0.16678877174854279,
	"learning_rate": 0.0005278918315486196,
	"loss": 1.0531,
	"step": 16330
	},
	{
	"epoch": 0.8365758754863813,
	"grad_norm": 0.1872544288635254,
	"learning_rate": 0.000525821501244296,
	"loss": 1.0768,
	"step": 16340
	},
	{
	"epoch": 0.8370878558263363,
	"grad_norm": 0.17887745797634125,
	"learning_rate": 0.0005237592905343908,
	"loss": 1.0552,
	"step": 16350
	},
	{
	"epoch": 0.8375998361662912,
	"grad_norm": 0.1764066219329834,
	"learning_rate": 0.0005217051675748001,
	"loss": 1.0511,
	"step": 16360
	},
	{
	"epoch": 0.8381118165062461,
	"grad_norm": 0.17765092849731445,
	"learning_rate": 0.0005196591006463087,
	"loss": 1.0645,
	"step": 16370
	},
	{
	"epoch": 0.8386237968462011,
	"grad_norm": 0.17197942733764648,
	"learning_rate": 0.0005176210581541006,
	"loss": 1.0561,
	"step": 16380
	},
	{
	"epoch": 0.8391357771861561,
	"grad_norm": 0.1778382807970047,
	"learning_rate": 0.0005155910086272709,
	"loss": 1.0818,
	"step": 16390
	},
	{
	"epoch": 0.839647757526111,
	"grad_norm": 0.1758384257555008,
	"learning_rate": 0.00051356892071834,
	"loss": 1.0755,
	"step": 16400
	},
	{
	"epoch": 0.8401597378660659,
	"grad_norm": 0.17765450477600098,
	"learning_rate": 0.0005115547632027694,
	"loss": 1.0622,
	"step": 16410
	},
	{
	"epoch": 0.8406717182060209,
	"grad_norm": 0.1722906529903412,
	"learning_rate": 0.0005095485049784797,
	"loss": 1.0562,
	"step": 16420
	},
	{
	"epoch": 0.8411836985459759,
	"grad_norm": 0.18041284382343292,
	"learning_rate": 0.0005075501150653699,
	"loss": 1.0563,
	"step": 16430
	},
	{
	"epoch": 0.8416956788859308,
	"grad_norm": 0.1721327304840088,
	"learning_rate": 0.0005055595626048399,
	"loss": 1.0872,
	"step": 16440
	},
	{
	"epoch": 0.8422076592258857,
	"grad_norm": 0.17623233795166016,
	"learning_rate": 0.000503576816859313,
	"loss": 1.0768,
	"step": 16450
	},
	{
	"epoch": 0.8427196395658406,
	"grad_norm": 0.1824178546667099,
	"learning_rate": 0.000501601847211762,
	"loss": 1.0773,
	"step": 16460
	},
	{
	"epoch": 0.8432316199057956,
	"grad_norm": 0.17492622137069702,
	"learning_rate": 0.0004996346231652357,
	"loss": 1.0751,
	"step": 16470
	},
	{
	"epoch": 0.8437436002457506,
	"grad_norm": 0.19331291317939758,
	"learning_rate": 0.0004976751143423888,
	"loss": 1.0522,
	"step": 16480
	},
	{
	"epoch": 0.8442555805857055,
	"grad_norm": 0.17318172752857208,
	"learning_rate": 0.0004957232904850122,
	"loss": 1.0611,
	"step": 16490
	},
	{
	"epoch": 0.8447675609256604,
	"grad_norm": 0.18951846659183502,
	"learning_rate": 0.0004937791214535661,
	"loss": 1.0584,
	"step": 16500
	},
	{
	"epoch": 0.8452795412656154,
	"grad_norm": 0.17713989317417145,
	"learning_rate": 0.0004918425772267145,
	"loss": 1.0542,
	"step": 16510
	},
	{
	"epoch": 0.8457915216055704,
	"grad_norm": 0.16759324073791504,
	"learning_rate": 0.0004899136279008613,
	"loss": 1.0689,
	"step": 16520
	},
	{
	"epoch": 0.8463035019455253,
	"grad_norm": 0.18664461374282837,
	"learning_rate": 0.000487992243689689,
	"loss": 1.0732,
	"step": 16530
	},
	{
	"epoch": 0.8468154822854802,
	"grad_norm": 0.17348751425743103,
	"learning_rate": 0.00048607839492369886,
	"loss": 1.0762,
	"step": 16540
	},
	{
	"epoch": 0.8473274626254352,
	"grad_norm": 0.17233343422412872,
	"learning_rate": 0.0004841720520497518,
	"loss": 1.0579,
	"step": 16550
	},
	{
	"epoch": 0.8478394429653902,
	"grad_norm": 0.18232837319374084,
	"learning_rate": 0.0004822731856306133,
	"loss": 1.0576,
	"step": 16560
	},
	{
	"epoch": 0.8483514233053451,
	"grad_norm": 0.17330168187618256,
	"learning_rate": 0.000480381766344498,
	"loss": 1.044,
	"step": 16570
	},
	{
	"epoch": 0.8488634036453,
	"grad_norm": 0.1745171695947647,
	"learning_rate": 0.00047849776498461725,
	"loss": 1.07,
	"step": 16580
	},
	{
	"epoch": 0.8493753839852549,
	"grad_norm": 0.1749190390110016,
	"learning_rate": 0.00047662115245872787,
	"loss": 1.0666,
	"step": 16590
	},
	{
	"epoch": 0.84988736432521,
	"grad_norm": 0.17629800736904144,
	"learning_rate": 0.0004747518997886834,
	"loss": 1.0694,
	"step": 16600
	},
	{
	"epoch": 0.8503993446651649,
	"grad_norm": 0.17141848802566528,
	"learning_rate": 0.00047288997810998585,
	"loss": 1.0752,
	"step": 16610
	},
	{
	"epoch": 0.8509113250051198,
	"grad_norm": 0.16317421197891235,
	"learning_rate": 0.00047103535867134064,
	"loss": 1.0575,
	"step": 16620
	},
	{
	"epoch": 0.8514233053450747,
	"grad_norm": 0.1698952317237854,
	"learning_rate": 0.0004691880128342126,
	"loss": 1.054,
	"step": 16630
	},
	{
	"epoch": 0.8519352856850297,
	"grad_norm": 0.17862023413181305,
	"learning_rate": 0.00046734791207238334,
	"loss": 1.0578,
	"step": 16640
	},
	{
	"epoch": 0.8524472660249847,
	"grad_norm": 0.17291221022605896,
	"learning_rate": 0.0004655150279715109,
	"loss": 1.0614,
	"step": 16650
	},
	{
	"epoch": 0.8529592463649396,
	"grad_norm": 0.18683776259422302,
	"learning_rate": 0.0004636893322286915,
	"loss": 1.0587,
	"step": 16660
	},
	{
	"epoch": 0.8534712267048945,
	"grad_norm": 0.17157678306102753,
	"learning_rate": 0.00046187079665202144,
	"loss": 1.0876,
	"step": 16670
	},
	{
	"epoch": 0.8539832070448494,
	"grad_norm": 0.16680538654327393,
	"learning_rate": 0.0004600593931601628,
	"loss": 1.0608,
	"step": 16680
	},
	{
	"epoch": 0.8544951873848045,
	"grad_norm": 0.17904032766819,
	"learning_rate": 0.00045825509378190934,
	"loss": 1.0622,
	"step": 16690
	},
	{
	"epoch": 0.8550071677247594,
	"grad_norm": 0.17377473413944244,
	"learning_rate": 0.0004564578706557547,
	"loss": 1.0761,
	"step": 16700
	},
	{
	"epoch": 0.8555191480647143,
	"grad_norm": 0.17606638371944427,
	"learning_rate": 0.0004546676960294617,
	"loss": 1.0627,
	"step": 16710
	},
	{
	"epoch": 0.8560311284046692,
	"grad_norm": 0.1655128300189972,
	"learning_rate": 0.0004528845422596346,
	"loss": 1.0579,
	"step": 16720
	},
	{
	"epoch": 0.8565431087446242,
	"grad_norm": 0.185993954539299,
	"learning_rate": 0.0004511083818112919,
	"loss": 1.0604,
	"step": 16730
	},
	{
	"epoch": 0.8570550890845792,
	"grad_norm": 0.18218767642974854,
	"learning_rate": 0.00044933918725744066,
	"loss": 1.0595,
	"step": 16740
	},
	{
	"epoch": 0.8575670694245341,
	"grad_norm": 0.16947178542613983,
	"learning_rate": 0.000447576931278654,
	"loss": 1.0494,
	"step": 16750
	},
	{
	"epoch": 0.858079049764489,
	"grad_norm": 0.17753495275974274,
	"learning_rate": 0.00044582158666264793,
	"loss": 1.0522,
	"step": 16760
	},
	{
	"epoch": 0.858591030104444,
	"grad_norm": 0.1756090372800827,
	"learning_rate": 0.0004440731263038627,
	"loss": 1.074,
	"step": 16770
	},
	{
	"epoch": 0.859103010444399,
	"grad_norm": 0.18287988007068634,
	"learning_rate": 0.00044233152320304276,
	"loss": 1.0883,
	"step": 16780
	},
	{
	"epoch": 0.8596149907843539,
	"grad_norm": 0.18234935402870178,
	"learning_rate": 0.0004405967504668205,
	"loss": 1.0481,
	"step": 16790
	},
	{
	"epoch": 0.8601269711243088,
	"grad_norm": 0.17408689856529236,
	"learning_rate": 0.0004388687813073016,
	"loss": 1.0672,
	"step": 16800
	},
	{
	"epoch": 0.8606389514642637,
	"grad_norm": 0.1746188998222351,
	"learning_rate": 0.00043714758904165,
	"loss": 1.0581,
	"step": 16810
	},
	{
	"epoch": 0.8611509318042188,
	"grad_norm": 0.17414236068725586,
	"learning_rate": 0.0004354331470916772,
	"loss": 1.0296,
	"step": 16820
	},
	{
	"epoch": 0.8616629121441737,
	"grad_norm": 0.17176198959350586,
	"learning_rate": 0.00043372542898343074,
	"loss": 1.048,
	"step": 16830
	},
	{
	"epoch": 0.8621748924841286,
	"grad_norm": 0.17366254329681396,
	"learning_rate": 0.0004320244083467865,
	"loss": 1.0584,
	"step": 16840
	},
	{
	"epoch": 0.8626868728240835,
	"grad_norm": 0.17431634664535522,
	"learning_rate": 0.0004303300589150403,
	"loss": 1.0747,
	"step": 16850
	},
	{
	"epoch": 0.8631988531640385,
	"grad_norm": 0.17983673512935638,
	"learning_rate": 0.0004286423545245033,
	"loss": 1.0477,
	"step": 16860
	},
	{
	"epoch": 0.8637108335039935,
	"grad_norm": 0.17973174154758453,
	"learning_rate": 0.00042696126911409766,
	"loss": 1.0733,
	"step": 16870
	},
	{
	"epoch": 0.8642228138439484,
	"grad_norm": 0.17209124565124512,
	"learning_rate": 0.0004252867767249536,
	"loss": 1.0553,
	"step": 16880
	},
	{
	"epoch": 0.8647347941839033,
	"grad_norm": 0.17548377811908722,
	"learning_rate": 0.0004236188515000098,
	"loss": 1.0317,
	"step": 16890
	},
	{
	"epoch": 0.8652467745238582,
	"grad_norm": 0.1856032758951187,
	"learning_rate": 0.0004219574676836124,
	"loss": 1.0645,
	"step": 16900
	},
	{
	"epoch": 0.8657587548638133,
	"grad_norm": 0.171828031539917,
	"learning_rate": 0.0004203025996211187,
	"loss": 1.0468,
	"step": 16910
	},
	{
	"epoch": 0.8662707352037682,
	"grad_norm": 0.1737641543149948,
	"learning_rate": 0.00041865422175850074,
	"loss": 1.0593,
	"step": 16920
	},
	{
	"epoch": 0.8667827155437231,
	"grad_norm": 0.17497050762176514,
	"learning_rate": 0.00041701230864194997,
	"loss": 1.0558,
	"step": 16930
	},
	{
	"epoch": 0.867294695883678,
	"grad_norm": 0.1742735356092453,
	"learning_rate": 0.00041537683491748515,
	"loss": 1.0524,
	"step": 16940
	},
	{
	"epoch": 0.8678066762236331,
	"grad_norm": 0.16955190896987915,
	"learning_rate": 0.00041374777533055996,
	"loss": 1.0734,
	"step": 16950
	},
	{
	"epoch": 0.868318656563588,
	"grad_norm": 0.17131267488002777,
	"learning_rate": 0.00041212510472567404,
	"loss": 1.047,
	"step": 16960
	},
	{
	"epoch": 0.8688306369035429,
	"grad_norm": 0.18686212599277496,
	"learning_rate": 0.00041050879804598354,
	"loss": 1.0628,
	"step": 16970
	},
	{
	"epoch": 0.8693426172434978,
	"grad_norm": 0.18018223345279694,
	"learning_rate": 0.0004088988303329146,
	"loss": 1.0727,
	"step": 16980
	},
	{
	"epoch": 0.8698545975834528,
	"grad_norm": 0.17378225922584534,
	"learning_rate": 0.00040729517672577834,
	"loss": 1.0608,
	"step": 16990
	},
	{
	"epoch": 0.8703665779234078,
	"grad_norm": 0.17299434542655945,
	"learning_rate": 0.0004056978124613862,
	"loss": 1.0572,
	"step": 17000
	},
	{
	"epoch": 0.8708785582633627,
	"grad_norm": 0.17272843420505524,
	"learning_rate": 0.0004041067128736684,
	"loss": 1.068,
	"step": 17010
	},
	{
	"epoch": 0.8713905386033176,
	"grad_norm": 0.17482733726501465,
	"learning_rate": 0.0004025218533932921,
	"loss": 1.0434,
	"step": 17020
	},
	{
	"epoch": 0.8719025189432725,
	"grad_norm": 0.17604181170463562,
	"learning_rate": 0.00040094320954728313,
	"loss": 1.0473,
	"step": 17030
	},
	{
	"epoch": 0.8724144992832276,
	"grad_norm": 0.17563997209072113,
	"learning_rate": 0.000399370756958647,
	"loss": 1.0326,
	"step": 17040
	},
	{
	"epoch": 0.8729264796231825,
	"grad_norm": 0.17245963215827942,
	"learning_rate": 0.00039780447134599286,
	"loss": 1.0473,
	"step": 17050
	},
	{
	"epoch": 0.8734384599631374,
	"grad_norm": 0.1761290282011032,
	"learning_rate": 0.00039624432852315933,
	"loss": 1.0521,
	"step": 17060
	},
	{
	"epoch": 0.8739504403030923,
	"grad_norm": 0.17559461295604706,
	"learning_rate": 0.0003946903043988396,
	"loss": 1.0499,
	"step": 17070
	},
	{
	"epoch": 0.8744624206430474,
	"grad_norm": 0.16970165073871613,
	"learning_rate": 0.00039314237497621053,
	"loss": 1.0653,
	"step": 17080
	},
	{
	"epoch": 0.8749744009830023,
	"grad_norm": 0.1792786717414856,
	"learning_rate": 0.00039160051635256165,
	"loss": 1.0554,
	"step": 17090
	},
	{
	"epoch": 0.8754863813229572,
	"grad_norm": 0.16863805055618286,
	"learning_rate": 0.0003900647047189262,
	"loss": 1.0524,
	"step": 17100
	},
	{
	"epoch": 0.8759983616629121,
	"grad_norm": 0.1794777661561966,
	"learning_rate": 0.0003885349163597133,
	"loss": 1.0741,
	"step": 17110
	},
	{
	"epoch": 0.876510342002867,
	"grad_norm": 0.1949402540922165,
	"learning_rate": 0.0003870111276523419,
	"loss": 1.0458,
	"step": 17120
	},
	{
	"epoch": 0.8770223223428221,
	"grad_norm": 0.17837046086788177,
	"learning_rate": 0.0003854933150668761,
	"loss": 1.0484,
	"step": 17130
	},
	{
	"epoch": 0.877534302682777,
	"grad_norm": 0.16682222485542297,
	"learning_rate": 0.00038398145516566133,
	"loss": 1.0643,
	"step": 17140
	},
	{
	"epoch": 0.8780462830227319,
	"grad_norm": 0.17241717875003815,
	"learning_rate": 0.00038247552460296324,
	"loss": 1.0561,
	"step": 17150
	},
	{
	"epoch": 0.8785582633626868,
	"grad_norm": 0.16557161509990692,
	"learning_rate": 0.00038097550012460626,
	"loss": 1.0614,
	"step": 17160
	},
	{
	"epoch": 0.8790702437026419,
	"grad_norm": 0.17597849667072296,
	"learning_rate": 0.00037948135856761536,
	"loss": 1.0541,
	"step": 17170
	},
	{
	"epoch": 0.8795822240425968,
	"grad_norm": 0.17368751764297485,
	"learning_rate": 0.00037799307685985786,
	"loss": 1.0482,
	"step": 17180
	},
	{
	"epoch": 0.8800942043825517,
	"grad_norm": 0.17278683185577393,
	"learning_rate": 0.00037651063201968706,
	"loss": 1.0493,
	"step": 17190
	},
	{
	"epoch": 0.8806061847225066,
	"grad_norm": 0.17373493313789368,
	"learning_rate": 0.00037503400115558816,
	"loss": 1.0547,
	"step": 17200
	},
	{
	"epoch": 0.8811181650624617,
	"grad_norm": 0.1761094480752945,
	"learning_rate": 0.0003735631614658236,
	"loss": 1.0476,
	"step": 17210
	},
	{
	"epoch": 0.8816301454024166,
	"grad_norm": 0.1749420464038849,
	"learning_rate": 0.00037209809023808216,
	"loss": 1.0313,
	"step": 17220
	},
	{
	"epoch": 0.8821421257423715,
	"grad_norm": 0.1756523847579956,
	"learning_rate": 0.0003706387648491272,
	"loss": 1.0551,
	"step": 17230
	},
	{
	"epoch": 0.8826541060823264,
	"grad_norm": 0.1767933964729309,
	"learning_rate": 0.0003691851627644478,
	"loss": 1.0385,
	"step": 17240
	},
	{
	"epoch": 0.8831660864222813,
	"grad_norm": 0.17991852760314941,
	"learning_rate": 0.00036773726153791126,
	"loss": 1.0534,
	"step": 17250
	},
	{
	"epoch": 0.8836780667622364,
	"grad_norm": 0.17097926139831543,
	"learning_rate": 0.00036629503881141533,
	"loss": 1.0424,
	"step": 17260
	},
	{
	"epoch": 0.8841900471021913,
	"grad_norm": 0.1836550533771515,
	"learning_rate": 0.00036485847231454427,
	"loss": 1.0627,
	"step": 17270
	},
	{
	"epoch": 0.8847020274421462,
	"grad_norm": 0.18745499849319458,
	"learning_rate": 0.00036342753986422373,
	"loss": 1.0475,
	"step": 17280
	},
	{
	"epoch": 0.8852140077821011,
	"grad_norm": 0.17117556929588318,
	"learning_rate": 0.00036200221936437925,
	"loss": 1.0457,
	"step": 17290
	},
	{
	"epoch": 0.8857259881220562,
	"grad_norm": 0.17555800080299377,
	"learning_rate": 0.0003605824888055944,
	"loss": 1.0505,
	"step": 17300
	},
	{
	"epoch": 0.8862379684620111,
	"grad_norm": 0.17367680370807648,
	"learning_rate": 0.00035916832626477105,
	"loss": 1.0433,
	"step": 17310
	},
	{
	"epoch": 0.886749948801966,
	"grad_norm": 0.16771985590457916,
	"learning_rate": 0.0003577597099047911,
	"loss": 1.0405,
	"step": 17320
	},
	{
	"epoch": 0.8872619291419209,
	"grad_norm": 0.17749017477035522,
	"learning_rate": 0.00035635661797417894,
	"loss": 1.0326,
	"step": 17330
	},
	{
	"epoch": 0.8877739094818758,
	"grad_norm": 0.1756659597158432,
	"learning_rate": 0.0003549590288067658,
	"loss": 1.0481,
	"step": 17340
	},
	{
	"epoch": 0.8882858898218309,
	"grad_norm": 0.17804957926273346,
	"learning_rate": 0.00035356692082135497,
	"loss": 1.0348,
	"step": 17350
	},
	{
	"epoch": 0.8887978701617858,
	"grad_norm": 0.17013497650623322,
	"learning_rate": 0.000352180272521389,
	"loss": 1.0444,
	"step": 17360
	},
	{
	"epoch": 0.8893098505017407,
	"grad_norm": 0.16462627053260803,
	"learning_rate": 0.000350799062494617,
	"loss": 1.0473,
	"step": 17370
	},
	{
	"epoch": 0.8898218308416956,
	"grad_norm": 0.18292909860610962,
	"learning_rate": 0.00034942326941276463,
	"loss": 1.0548,
	"step": 17380
	},
	{
	"epoch": 0.8903338111816507,
	"grad_norm": 0.16778182983398438,
	"learning_rate": 0.00034805287203120474,
	"loss": 1.0486,
	"step": 17390
	},
	{
	"epoch": 0.8908457915216056,
	"grad_norm": 0.17783689498901367,
	"learning_rate": 0.0003466878491886288,
	"loss": 1.0422,
	"step": 17400
	},
	{
	"epoch": 0.8913577718615605,
	"grad_norm": 0.17219282686710358,
	"learning_rate": 0.0003453281798067208,
	"loss": 1.036,
	"step": 17410
	},
	{
	"epoch": 0.8918697522015154,
	"grad_norm": 0.17862632870674133,
	"learning_rate": 0.00034397384288983114,
	"loss": 1.0441,
	"step": 17420
	},
	{
	"epoch": 0.8923817325414705,
	"grad_norm": 0.17450949549674988,
	"learning_rate": 0.00034262481752465293,
	"loss": 1.0629,
	"step": 17430
	},
	{
	"epoch": 0.8928937128814254,
	"grad_norm": 0.17378470301628113,
	"learning_rate": 0.00034128108287989866,
	"loss": 1.0322,
	"step": 17440
	},
	{
	"epoch": 0.8934056932213803,
	"grad_norm": 0.17379970848560333,
	"learning_rate": 0.00033994261820597885,
	"loss": 1.0553,
	"step": 17450
	},
	{
	"epoch": 0.8939176735613352,
	"grad_norm": 0.17971958220005035,
	"learning_rate": 0.00033860940283468143,
	"loss": 1.0532,
	"step": 17460
	},
	{
	"epoch": 0.8944296539012901,
	"grad_norm": 0.17435471713542938,
	"learning_rate": 0.0003372814161788526,
	"loss": 1.0289,
	"step": 17470
	},
	{
	"epoch": 0.8949416342412452,
	"grad_norm": 0.17900234460830688,
	"learning_rate": 0.00033595863773207914,
	"loss": 1.0407,
	"step": 17480
	},
	{
	"epoch": 0.8954536145812001,
	"grad_norm": 0.1703522503376007,
	"learning_rate": 0.00033464104706837144,
	"loss": 1.0505,
	"step": 17490
	},
	{
	"epoch": 0.895965594921155,
	"grad_norm": 0.1772749274969101,
	"learning_rate": 0.00033332862384184833,
	"loss": 1.0504,
	"step": 17500
	},
	{
	"epoch": 0.8964775752611099,
	"grad_norm": 0.19156505167484283,
	"learning_rate": 0.0003320213477864227,
	"loss": 1.0537,
	"step": 17510
	},
	{
	"epoch": 0.896989555601065,
	"grad_norm": 0.17889319360256195,
	"learning_rate": 0.00033071919871548877,
	"loss": 1.0371,
	"step": 17520
	},
	{
	"epoch": 0.8975015359410199,
	"grad_norm": 0.17776621878147125,
	"learning_rate": 0.0003294221565216104,
	"loss": 1.0498,
	"step": 17530
	},
	{
	"epoch": 0.8980135162809748,
	"grad_norm": 0.1731380671262741,
	"learning_rate": 0.0003281302011762101,
	"loss": 1.048,
	"step": 17540
	},
	{
	"epoch": 0.8985254966209297,
	"grad_norm": 0.17784886062145233,
	"learning_rate": 0.0003268433127292607,
	"loss": 1.0477,
	"step": 17550
	},
	{
	"epoch": 0.8990374769608847,
	"grad_norm": 0.17313584685325623,
	"learning_rate": 0.00032556147130897615,
	"loss": 1.0323,
	"step": 17560
	},
	{
	"epoch": 0.8995494573008397,
	"grad_norm": 0.17907077074050903,
	"learning_rate": 0.00032428465712150536,
	"loss": 1.0527,
	"step": 17570
	},
	{
	"epoch": 0.9000614376407946,
	"grad_norm": 0.1737951934337616,
	"learning_rate": 0.0003230128504506268,
	"loss": 1.036,
	"step": 17580
	},
	{
	"epoch": 0.9005734179807495,
	"grad_norm": 0.17653332650661469,
	"learning_rate": 0.00032174603165744314,
	"loss": 1.0478,
	"step": 17590
	},
	{
	"epoch": 0.9010853983207044,
	"grad_norm": 0.16936801373958588,
	"learning_rate": 0.00032048418118007897,
	"loss": 1.0452,
	"step": 17600
	},
	{
	"epoch": 0.9015973786606595,
	"grad_norm": 0.17044688761234283,
	"learning_rate": 0.00031922727953337794,
	"loss": 1.0433,
	"step": 17610
	},
	{
	"epoch": 0.9021093590006144,
	"grad_norm": 0.16897530853748322,
	"learning_rate": 0.0003179753073086024,
	"loss": 1.041,
	"step": 17620
	},
	{
	"epoch": 0.9026213393405693,
	"grad_norm": 0.17904484272003174,
	"learning_rate": 0.00031672824517313354,
	"loss": 1.0562,
	"step": 17630
	},
	{
	"epoch": 0.9031333196805242,
	"grad_norm": 0.1729121208190918,
	"learning_rate": 0.0003154860738701725,
	"loss": 1.0345,
	"step": 17640
	},
	{
	"epoch": 0.9036453000204792,
	"grad_norm": 0.17275741696357727,
	"learning_rate": 0.00031424877421844385,
	"loss": 1.0494,
	"step": 17650
	},
	{
	"epoch": 0.9041572803604342,
	"grad_norm": 0.16756050288677216,
	"learning_rate": 0.0003130163271118985,
	"loss": 1.0305,
	"step": 17660
	},
	{
	"epoch": 0.9046692607003891,
	"grad_norm": 0.17867998778820038,
	"learning_rate": 0.00031178871351941924,
	"loss": 1.045,
	"step": 17670
	},
	{
	"epoch": 0.905181241040344,
	"grad_norm": 0.17364557087421417,
	"learning_rate": 0.00031056591448452663,
	"loss": 1.0407,
	"step": 17680
	},
	{
	"epoch": 0.905693221380299,
	"grad_norm": 0.18060193955898285,
	"learning_rate": 0.0003093479111250863,
	"loss": 1.0404,
	"step": 17690
	},
	{
	"epoch": 0.906205201720254,
	"grad_norm": 0.17321224510669708,
	"learning_rate": 0.0003081346846330176,
	"loss": 1.0338,
	"step": 17700
	},
	{
	"epoch": 0.9067171820602089,
	"grad_norm": 0.1827027052640915,
	"learning_rate": 0.0003069262162740026,
	"loss": 1.0513,
	"step": 17710
	},
	{
	"epoch": 0.9072291624001638,
	"grad_norm": 0.17330406606197357,
	"learning_rate": 0.0003057224873871977,
	"loss": 1.0537,
	"step": 17720
	},
	{
	"epoch": 0.9077411427401187,
	"grad_norm": 0.1664852797985077,
	"learning_rate": 0.00030452347938494435,
	"loss": 1.0385,
	"step": 17730
	},
	{
	"epoch": 0.9082531230800738,
	"grad_norm": 0.1791536808013916,
	"learning_rate": 0.00030332917375248324,
	"loss": 1.0205,
	"step": 17740
	},
	{
	"epoch": 0.9087651034200287,
	"grad_norm": 0.168918177485466,
	"learning_rate": 0.0003021395520476674,
	"loss": 1.0278,
	"step": 17750
	},
	{
	"epoch": 0.9092770837599836,
	"grad_norm": 0.17502665519714355,
	"learning_rate": 0.00030095459590067796,
	"loss": 1.0533,
	"step": 17760
	},
	{
	"epoch": 0.9097890640999385,
	"grad_norm": 0.17242580652236938,
	"learning_rate": 0.00029977428701374024,
	"loss": 1.0465,
	"step": 17770
	},
	{
	"epoch": 0.9103010444398935,
	"grad_norm": 0.16884900629520416,
	"learning_rate": 0.0002985986071608414,
	"loss": 1.0553,
	"step": 17780
	},
	{
	"epoch": 0.9108130247798485,
	"grad_norm": 0.17999139428138733,
	"learning_rate": 0.00029742753818744894,
	"loss": 1.052,
	"step": 17790
	},
	{
	"epoch": 0.9113250051198034,
	"grad_norm": 0.19205188751220703,
	"learning_rate": 0.0002962610620102301,
	"loss": 1.0386,
	"step": 17800
	},
	{
	"epoch": 0.9118369854597583,
	"grad_norm": 0.17089873552322388,
	"learning_rate": 0.00029509916061677314,
	"loss": 1.0519,
	"step": 17810
	},
	{
	"epoch": 0.9123489657997133,
	"grad_norm": 0.1669624298810959,
	"learning_rate": 0.0002939418160653087,
	"loss": 1.045,
	"step": 17820
	},
	{
	"epoch": 0.9128609461396683,
	"grad_norm": 0.1757606416940689,
	"learning_rate": 0.000292789010484433,
	"loss": 1.0311,
	"step": 17830
	},
	{
	"epoch": 0.9133729264796232,
	"grad_norm": 0.1726016104221344,
	"learning_rate": 0.00029164072607283187,
	"loss": 1.0302,
	"step": 17840
	},
	{
	"epoch": 0.9138849068195781,
	"grad_norm": 0.17893843352794647,
	"learning_rate": 0.0002904969450990057,
	"loss": 1.0236,
	"step": 17850
	},
	{
	"epoch": 0.914396887159533,
	"grad_norm": 0.17613349854946136,
	"learning_rate": 0.00028935764990099594,
	"loss": 1.0467,
	"step": 17860
	},
	{
	"epoch": 0.914908867499488,
	"grad_norm": 0.1762663722038269,
	"learning_rate": 0.00028822282288611204,
	"loss": 1.0143,
	"step": 17870
	},
	{
	"epoch": 0.915420847839443,
	"grad_norm": 0.17385472357273102,
	"learning_rate": 0.00028709244653066,
	"loss": 1.0373,
	"step": 17880
	},
	{
	"epoch": 0.9159328281793979,
	"grad_norm": 0.173353374004364,
	"learning_rate": 0.0002859665033796716,
	"loss": 1.0231,
	"step": 17890
	},
	{
	"epoch": 0.9164448085193528,
	"grad_norm": 0.1739385724067688,
	"learning_rate": 0.0002848449760466353,
	"loss": 1.0174,
	"step": 17900
	},
	{
	"epoch": 0.9169567888593078,
	"grad_norm": 0.17758533358573914,
	"learning_rate": 0.000283727847213227,
	"loss": 1.0271,
	"step": 17910
	},
	{
	"epoch": 0.9174687691992628,
	"grad_norm": 0.17424450814723969,
	"learning_rate": 0.00028261509962904325,
	"loss": 1.0464,
	"step": 17920
	},
	{
	"epoch": 0.9179807495392177,
	"grad_norm": 0.18018485605716705,
	"learning_rate": 0.0002815067161113347,
	"loss": 1.0379,
	"step": 17930
	},
	{
	"epoch": 0.9184927298791726,
	"grad_norm": 0.18166567385196686,
	"learning_rate": 0.0002804026795447407,
	"loss": 1.0364,
	"step": 17940
	},
	{
	"epoch": 0.9190047102191276,
	"grad_norm": 0.17235900461673737,
	"learning_rate": 0.00027930297288102513,
	"loss": 1.052,
	"step": 17950
	},
	{
	"epoch": 0.9195166905590826,
	"grad_norm": 0.17493902146816254,
	"learning_rate": 0.000278207579138813,
	"loss": 1.0377,
	"step": 17960
	},
	{
	"epoch": 0.9200286708990375,
	"grad_norm": 0.17957419157028198,
	"learning_rate": 0.0002771164814033282,
	"loss": 1.0392,
	"step": 17970
	},
	{
	"epoch": 0.9205406512389924,
	"grad_norm": 0.178439199924469,
	"learning_rate": 0.00027602966282613264,
	"loss": 1.0333,
	"step": 17980
	},
	{
	"epoch": 0.9210526315789473,
	"grad_norm": 0.17528565227985382,
	"learning_rate": 0.0002749471066248655,
	"loss": 1.035,
	"step": 17990
	},
	{
	"epoch": 0.9215646119189023,
	"grad_norm": 0.18786676228046417,
	"learning_rate": 0.0002738687960829849,
	"loss": 1.0263,
	"step": 18000
	},
	{
	"epoch": 0.9220765922588573,
	"grad_norm": 0.18565250933170319,
	"learning_rate": 0.00027279471454950873,
	"loss": 1.0266,
	"step": 18010
	},
	{
	"epoch": 0.9225885725988122,
	"grad_norm": 0.17576780915260315,
	"learning_rate": 0.00027172484543875865,
	"loss": 1.0472,
	"step": 18020
	},
	{
	"epoch": 0.9231005529387671,
	"grad_norm": 0.17549046874046326,
	"learning_rate": 0.00027065917223010303,
	"loss": 1.0357,
	"step": 18030
	},
	{
	"epoch": 0.9236125332787221,
	"grad_norm": 0.17524850368499756,
	"learning_rate": 0.00026959767846770227,
	"loss": 1.0194,
	"step": 18040
	},
	{
	"epoch": 0.9241245136186771,
	"grad_norm": 0.18681474030017853,
	"learning_rate": 0.00026854034776025495,
	"loss": 1.0406,
	"step": 18050
	},
	{
	"epoch": 0.924636493958632,
	"grad_norm": 0.1830626130104065,
	"learning_rate": 0.000267487163780744,
	"loss": 1.0445,
	"step": 18060
	},
	{
	"epoch": 0.9251484742985869,
	"grad_norm": 0.1787140816450119,
	"learning_rate": 0.00026643811026618537,
	"loss": 1.0365,
	"step": 18070
	},
	{
	"epoch": 0.9256604546385419,
	"grad_norm": 0.1781841665506363,
	"learning_rate": 0.00026539317101737637,
	"loss": 1.0278,
	"step": 18080
	},
	{
	"epoch": 0.9261724349784968,
	"grad_norm": 0.18114568293094635,
	"learning_rate": 0.00026435232989864576,
	"loss": 1.0273,
	"step": 18090
	},
	{
	"epoch": 0.9266844153184518,
	"grad_norm": 0.18065612018108368,
	"learning_rate": 0.0002633155708376045,
	"loss": 1.0435,
	"step": 18100
	},
	{
	"epoch": 0.9271963956584067,
	"grad_norm": 0.17828424274921417,
	"learning_rate": 0.0002622828778248974,
	"loss": 1.0103,
	"step": 18110
	},
	{
	"epoch": 0.9277083759983616,
	"grad_norm": 0.17807289958000183,
	"learning_rate": 0.0002612542349139565,
	"loss": 1.0437,
	"step": 18120
	},
	{
	"epoch": 0.9282203563383166,
	"grad_norm": 0.17496445775032043,
	"learning_rate": 0.0002602296262207541,
	"loss": 1.0219,
	"step": 18130
	},
	{
	"epoch": 0.9287323366782716,
	"grad_norm": 0.17806415259838104,
	"learning_rate": 0.00025920903592355785,
	"loss": 1.0256,
	"step": 18140
	},
	{
	"epoch": 0.9292443170182265,
	"grad_norm": 0.17231720685958862,
	"learning_rate": 0.00025819244826268654,
	"loss": 1.0487,
	"step": 18150
	},
	{
	"epoch": 0.9297562973581814,
	"grad_norm": 0.18158575892448425,
	"learning_rate": 0.00025717984754026655,
	"loss": 1.0258,
	"step": 18160
	},
	{
	"epoch": 0.9302682776981364,
	"grad_norm": 0.17217537760734558,
	"learning_rate": 0.0002561712181199894,
	"loss": 1.012,
	"step": 18170
	},
	{
	"epoch": 0.9307802580380914,
	"grad_norm": 0.16844135522842407,
	"learning_rate": 0.0002551665444268703,
	"loss": 1.0449,
	"step": 18180
	},
	{
	"epoch": 0.9312922383780463,
	"grad_norm": 0.17478111386299133,
	"learning_rate": 0.0002541658109470081,
	"loss": 1.0357,
	"step": 18190
	},
	{
	"epoch": 0.9318042187180012,
	"grad_norm": 0.17291343212127686,
	"learning_rate": 0.00025316900222734496,
	"loss": 1.0406,
	"step": 18200
	},
	{
	"epoch": 0.9323161990579562,
	"grad_norm": 0.17205969989299774,
	"learning_rate": 0.00025217610287542845,
	"loss": 1.0263,
	"step": 18210
	},
	{
	"epoch": 0.9328281793979111,
	"grad_norm": 0.17579463124275208,
	"learning_rate": 0.0002511870975591733,
	"loss": 1.0487,
	"step": 18220
	},
	{
	"epoch": 0.9333401597378661,
	"grad_norm": 0.185591459274292,
	"learning_rate": 0.00025020197100662507,
	"loss": 1.0289,
	"step": 18230
	},
	{
	"epoch": 0.933852140077821,
	"grad_norm": 0.18697933852672577,
	"learning_rate": 0.0002492207080057241,
	"loss": 1.0445,
	"step": 18240
	},
	{
	"epoch": 0.934364120417776,
	"grad_norm": 0.1702352613210678,
	"learning_rate": 0.00024824329340407056,
	"loss": 1.017,
	"step": 18250
	},
	{
	"epoch": 0.9348761007577309,
	"grad_norm": 0.17386525869369507,
	"learning_rate": 0.0002472697121086907,
	"loss": 1.0265,
	"step": 18260
	},
	{
	"epoch": 0.9353880810976859,
	"grad_norm": 0.17194058001041412,
	"learning_rate": 0.0002462999490858035,
	"loss": 1.0305,
	"step": 18270
	},
	{
	"epoch": 0.9359000614376408,
	"grad_norm": 0.17600733041763306,
	"learning_rate": 0.00024533398936058893,
	"loss": 1.0161,
	"step": 18280
	},
	{
	"epoch": 0.9364120417775957,
	"grad_norm": 0.17031820118427277,
	"learning_rate": 0.0002443718180169563,
	"loss": 1.0435,
	"step": 18290
	},
	{
	"epoch": 0.9369240221175507,
	"grad_norm": 0.17277632653713226,
	"learning_rate": 0.00024341342019731398,
	"loss": 1.0321,
	"step": 18300
	},
	{
	"epoch": 0.9374360024575056,
	"grad_norm": 0.17314958572387695,
	"learning_rate": 0.00024245878110234033,
	"loss": 1.0419,
	"step": 18310
	},
	{
	"epoch": 0.9379479827974606,
	"grad_norm": 0.17943693697452545,
	"learning_rate": 0.0002415078859907547,
	"loss": 1.0455,
	"step": 18320
	},
	{
	"epoch": 0.9384599631374155,
	"grad_norm": 0.17218518257141113,
	"learning_rate": 0.00024056072017909026,
	"loss": 1.0174,
	"step": 18330
	},
	{
	"epoch": 0.9389719434773705,
	"grad_norm": 0.1672009378671646,
	"learning_rate": 0.0002396172690414667,
	"loss": 1.0304,
	"step": 18340
	},
	{
	"epoch": 0.9394839238173254,
	"grad_norm": 0.16872192919254303,
	"learning_rate": 0.00023867751800936513,
	"loss": 1.0334,
	"step": 18350
	},
	{
	"epoch": 0.9399959041572804,
	"grad_norm": 0.17709334194660187,
	"learning_rate": 0.0002377414525714023,
	"loss": 1.043,
	"step": 18360
	},
	{
	"epoch": 0.9405078844972353,
	"grad_norm": 0.17235656082630157,
	"learning_rate": 0.00023680905827310717,
	"loss": 1.0296,
	"step": 18370
	},
	{
	"epoch": 0.9410198648371902,
	"grad_norm": 0.17677216231822968,
	"learning_rate": 0.0002358803207166974,
	"loss": 1.0304,
	"step": 18380
	},
	{
	"epoch": 0.9415318451771452,
	"grad_norm": 0.17921361327171326,
	"learning_rate": 0.00023495522556085693,
	"loss": 1.0287,
	"step": 18390
	},
	{
	"epoch": 0.9420438255171002,
	"grad_norm": 0.18774552643299103,
	"learning_rate": 0.0002340337585205149,
	"loss": 1.0303,
	"step": 18400
	},
	{
	"epoch": 0.9425558058570551,
	"grad_norm": 0.1885557323694229,
	"learning_rate": 0.00023311590536662463,
	"loss": 1.0225,
	"step": 18410
	},
	{
	"epoch": 0.94306778619701,
	"grad_norm": 0.17091277241706848,
	"learning_rate": 0.00023220165192594432,
	"loss": 1.0216,
	"step": 18420
	},
	{
	"epoch": 0.943579766536965,
	"grad_norm": 0.17530862987041473,
	"learning_rate": 0.00023129098408081777,
	"loss": 1.0303,
	"step": 18430
	},
	{
	"epoch": 0.9440917468769199,
	"grad_norm": 0.17937549948692322,
	"learning_rate": 0.00023038388776895662,
	"loss": 1.0234,
	"step": 18440
	},
	{
	"epoch": 0.9446037272168749,
	"grad_norm": 0.1720314472913742,
	"learning_rate": 0.00022948034898322335,
	"loss": 1.0304,
	"step": 18450
	},
	{
	"epoch": 0.9451157075568298,
	"grad_norm": 0.1731894463300705,
	"learning_rate": 0.00022858035377141452,
	"loss": 1.021,
	"step": 18460
	},
	{
	"epoch": 0.9456276878967848,
	"grad_norm": 0.17468558251857758,
	"learning_rate": 0.00022768388823604584,
	"loss": 1.0224,
	"step": 18470
	},
	{
	"epoch": 0.9461396682367397,
	"grad_norm": 0.17135438323020935,
	"learning_rate": 0.00022679093853413717,
	"loss": 1.0392,
	"step": 18480
	},
	{
	"epoch": 0.9466516485766947,
	"grad_norm": 0.1784532517194748,
	"learning_rate": 0.00022590149087699918,
	"loss": 1.0183,
	"step": 18490
	},
	{
	"epoch": 0.9471636289166496,
	"grad_norm": 0.18522332608699799,
	"learning_rate": 0.00022501553153001985,
	"loss": 1.0361,
	"step": 18500
	},
	{
	"epoch": 0.9476756092566045,
	"grad_norm": 0.18401268124580383,
	"learning_rate": 0.00022413304681245284,
	"loss": 1.0329,
	"step": 18510
	},
	{
	"epoch": 0.9481875895965595,
	"grad_norm": 0.16760528087615967,
	"learning_rate": 0.00022325402309720624,
	"loss": 1.0199,
	"step": 18520
	},
	{
	"epoch": 0.9486995699365144,
	"grad_norm": 0.18120263516902924,
	"learning_rate": 0.00022237844681063175,
	"loss": 1.0252,
	"step": 18530
	},
	{
	"epoch": 0.9492115502764694,
	"grad_norm": 0.1899506002664566,
	"learning_rate": 0.00022150630443231562,
	"loss": 1.0064,
	"step": 18540
	},
	{
	"epoch": 0.9497235306164243,
	"grad_norm": 0.1819719672203064,
	"learning_rate": 0.00022063758249486932,
	"loss": 1.0246,
	"step": 18550
	},
	{
	"epoch": 0.9502355109563793,
	"grad_norm": 0.17660754919052124,
	"learning_rate": 0.00021977226758372213,
	"loss": 1.0305,
	"step": 18560
	},
	{
	"epoch": 0.9507474912963342,
	"grad_norm": 0.17415086925029755,
	"learning_rate": 0.00021891034633691347,
	"loss": 1.0369,
	"step": 18570
	},
	{
	"epoch": 0.9512594716362892,
	"grad_norm": 0.17310403287410736,
	"learning_rate": 0.00021805180544488684,
	"loss": 1.0272,
	"step": 18580
	},
	{
	"epoch": 0.9517714519762441,
	"grad_norm": 0.17484420537948608,
	"learning_rate": 0.0002171966316502845,
	"loss": 1.028,
	"step": 18590
	},
	{
	"epoch": 0.952283432316199,
	"grad_norm": 0.18543212115764618,
	"learning_rate": 0.00021634481174774217,
	"loss": 1.0296,
	"step": 18600
	},
	{
	"epoch": 0.952795412656154,
	"grad_norm": 0.1763850450515747,
	"learning_rate": 0.00021549633258368582,
	"loss": 1.0307,
	"step": 18610
	},
	{
	"epoch": 0.953307392996109,
	"grad_norm": 0.16824059188365936,
	"learning_rate": 0.00021465118105612805,
	"loss": 1.0206,
	"step": 18620
	},
	{
	"epoch": 0.9538193733360639,
	"grad_norm": 0.17931176722049713,
	"learning_rate": 0.00021380934411446574,
	"loss": 1.016,
	"step": 18630
	},
	{
	"epoch": 0.9543313536760188,
	"grad_norm": 0.18147091567516327,
	"learning_rate": 0.00021297080875927913,
	"loss": 1.0211,
	"step": 18640
	},
	{
	"epoch": 0.9548433340159738,
	"grad_norm": 0.18163631856441498,
	"learning_rate": 0.00021213556204213033,
	"loss": 1.0263,
	"step": 18650
	},
	{
	"epoch": 0.9553553143559287,
	"grad_norm": 0.17591601610183716,
	"learning_rate": 0.00021130359106536384,
	"loss": 1.0417,
	"step": 18660
	},
	{
	"epoch": 0.9558672946958837,
	"grad_norm": 0.17677730321884155,
	"learning_rate": 0.00021047488298190723,
	"loss": 1.0299,
	"step": 18670
	},
	{
	"epoch": 0.9563792750358386,
	"grad_norm": 0.17326125502586365,
	"learning_rate": 0.0002096494249950729,
	"loss": 1.0268,
	"step": 18680
	},
	{
	"epoch": 0.9568912553757936,
	"grad_norm": 0.1793946474790573,
	"learning_rate": 0.00020882720435836026,
	"loss": 1.0355,
	"step": 18690
	},
	{
	"epoch": 0.9574032357157485,
	"grad_norm": 0.1703524887561798,
	"learning_rate": 0.00020800820837525892,
	"loss": 1.005,
	"step": 18700
	},
	{
	"epoch": 0.9579152160557035,
	"grad_norm": 0.17965586483478546,
	"learning_rate": 0.000207192424399053,
	"loss": 1.0182,
	"step": 18710
	},
	{
	"epoch": 0.9584271963956584,
	"grad_norm": 0.16650822758674622,
	"learning_rate": 0.00020637983983262526,
	"loss": 1.0304,
	"step": 18720
	},
	{
	"epoch": 0.9589391767356134,
	"grad_norm": 0.1700984239578247,
	"learning_rate": 0.00020557044212826323,
	"loss": 1.0103,
	"step": 18730
	},
	{
	"epoch": 0.9594511570755683,
	"grad_norm": 0.18094299733638763,
	"learning_rate": 0.0002047642187874647,
	"loss": 1.0247,
	"step": 18740
	},
	{
	"epoch": 0.9599631374155232,
	"grad_norm": 0.16972561180591583,
	"learning_rate": 0.0002039611573607455,
	"loss": 1.0328,
	"step": 18750
	},
	{
	"epoch": 0.9604751177554782,
	"grad_norm": 0.1718764752149582,
	"learning_rate": 0.0002031612454474467,
	"loss": 1.0015,
	"step": 18760
	},
	{
	"epoch": 0.9609870980954331,
	"grad_norm": 0.17211291193962097,
	"learning_rate": 0.00020236447069554324,
	"loss": 1.0485,
	"step": 18770
	},
	{
	"epoch": 0.9614990784353881,
	"grad_norm": 0.17325459420681,
	"learning_rate": 0.00020157082080145356,
	"loss": 1.0122,
	"step": 18780
	},
	{
	"epoch": 0.962011058775343,
	"grad_norm": 0.1677115559577942,
	"learning_rate": 0.00020078028350984888,
	"loss": 1.0144,
	"step": 18790
	},
	{
	"epoch": 0.962523039115298,
	"grad_norm": 0.17302511632442474,
	"learning_rate": 0.00019999284661346487,
	"loss": 1.0247,
	"step": 18800
	},
	{
	"epoch": 0.9630350194552529,
	"grad_norm": 0.1713932901620865,
	"learning_rate": 0.00019920849795291223,
	"loss": 1.0135,
	"step": 18810
	},
	{
	"epoch": 0.9635469997952079,
	"grad_norm": 0.1779249906539917,
	"learning_rate": 0.00019842722541648977,
	"loss": 1.0166,
	"step": 18820
	},
	{
	"epoch": 0.9640589801351628,
	"grad_norm": 0.17072229087352753,
	"learning_rate": 0.00019764901693999665,
	"loss": 1.0214,
	"step": 18830
	},
	{
	"epoch": 0.9645709604751177,
	"grad_norm": 0.17682915925979614,
	"learning_rate": 0.00019687386050654655,
	"loss": 1.0412,
	"step": 18840
	},
	{
	"epoch": 0.9650829408150727,
	"grad_norm": 0.17209376394748688,
	"learning_rate": 0.00019610174414638203,
	"loss": 1.0139,
	"step": 18850
	},
	{
	"epoch": 0.9655949211550277,
	"grad_norm": 0.16988667845726013,
	"learning_rate": 0.0001953326559366896,
	"loss": 1.03,
	"step": 18860
	},
	{
	"epoch": 0.9661069014949826,
	"grad_norm": 0.17056208848953247,
	"learning_rate": 0.0001945665840014157,
	"loss": 1.0335,
	"step": 18870
	},
	{
	"epoch": 0.9666188818349375,
	"grad_norm": 0.17054276168346405,
	"learning_rate": 0.0001938035165110831,
	"loss": 1.0281,
	"step": 18880
	},
	{
	"epoch": 0.9671308621748925,
	"grad_norm": 0.17490647733211517,
	"learning_rate": 0.00019304344168260865,
	"loss": 1.0401,
	"step": 18890
	},
	{
	"epoch": 0.9676428425148474,
	"grad_norm": 0.17823657393455505,
	"learning_rate": 0.00019228634777912089,
	"loss": 1.0225,
	"step": 18900
	},
	{
	"epoch": 0.9681548228548024,
	"grad_norm": 0.1651022583246231,
	"learning_rate": 0.00019153222310977906,
	"loss": 1.0088,
	"step": 18910
	},
	{
	"epoch": 0.9686668031947573,
	"grad_norm": 0.18135780096054077,
	"learning_rate": 0.00019078105602959264,
	"loss": 1.0289,
	"step": 18920
	},
	{
	"epoch": 0.9691787835347123,
	"grad_norm": 0.17016355693340302,
	"learning_rate": 0.00019003283493924117,
	"loss": 1.0111,
	"step": 18930
	},
	{
	"epoch": 0.9696907638746672,
	"grad_norm": 0.17754383385181427,
	"learning_rate": 0.00018928754828489555,
	"loss": 1.0291,
	"step": 18940
	},
	{
	"epoch": 0.9702027442146222,
	"grad_norm": 0.16962246596813202,
	"learning_rate": 0.00018854518455803946,
	"loss": 1.0228,
	"step": 18950
	},
	{
	"epoch": 0.9707147245545771,
	"grad_norm": 0.17820075154304504,
	"learning_rate": 0.00018780573229529142,
	"loss": 1.0231,
	"step": 18960
	},
	{
	"epoch": 0.971226704894532,
	"grad_norm": 0.16597416996955872,
	"learning_rate": 0.00018706918007822834,
	"loss": 1.0327,
	"step": 18970
	},
	{
	"epoch": 0.971738685234487,
	"grad_norm": 0.17721499502658844,
	"learning_rate": 0.00018633551653320852,
	"loss": 1.0084,
	"step": 18980
	},
	{
	"epoch": 0.972250665574442,
	"grad_norm": 0.17141114175319672,
	"learning_rate": 0.0001856047303311967,
	"loss": 1.0361,
	"step": 18990
	},
	{
	"epoch": 0.9727626459143969,
	"grad_norm": 0.17473644018173218,
	"learning_rate": 0.0001848768101875884,
	"loss": 1.0051,
	"step": 19000
	},
	{
	"epoch": 0.9732746262543518,
	"grad_norm": 0.17746561765670776,
	"learning_rate": 0.00018415174486203638,
	"loss": 1.0266,
	"step": 19010
	},
	{
	"epoch": 0.9737866065943068,
	"grad_norm": 0.16750702261924744,
	"learning_rate": 0.00018342952315827656,
	"loss": 1.0282,
	"step": 19020
	},
	{
	"epoch": 0.9742985869342617,
	"grad_norm": 0.1748443841934204,
	"learning_rate": 0.00018271013392395522,
	"loss": 1.0183,
	"step": 19030
	},
	{
	"epoch": 0.9748105672742167,
	"grad_norm": 0.17715822160243988,
	"learning_rate": 0.0001819935660504572,
	"loss": 1.0145,
	"step": 19040
	},
	{
	"epoch": 0.9753225476141716,
	"grad_norm": 0.17972363531589508,
	"learning_rate": 0.0001812798084727336,
	"loss": 1.0069,
	"step": 19050
	},
	{
	"epoch": 0.9758345279541265,
	"grad_norm": 0.17496472597122192,
	"learning_rate": 0.00018056885016913175,
	"loss": 1.0074,
	"step": 19060
	},
	{
	"epoch": 0.9763465082940815,
	"grad_norm": 0.18323951959609985,
	"learning_rate": 0.00017986068016122433,
	"loss": 1.0487,
	"step": 19070
	},
	{
	"epoch": 0.9768584886340365,
	"grad_norm": 0.16890741884708405,
	"learning_rate": 0.00017915528751364033,
	"loss": 1.0153,
	"step": 19080
	},
	{
	"epoch": 0.9773704689739914,
	"grad_norm": 0.17116831243038177,
	"learning_rate": 0.0001784526613338959,
	"loss": 1.0132,
	"step": 19090
	},
	{
	"epoch": 0.9778824493139463,
	"grad_norm": 0.17036503553390503,
	"learning_rate": 0.00017775279077222617,
	"loss": 1.0228,
	"step": 19100
	},
	{
	"epoch": 0.9783944296539013,
	"grad_norm": 0.17859075963497162,
	"learning_rate": 0.00017705566502141802,
	"loss": 1.0123,
	"step": 19110
	},
	{
	"epoch": 0.9789064099938563,
	"grad_norm": 0.17719532549381256,
	"learning_rate": 0.00017636127331664266,
	"loss": 1.0385,
	"step": 19120
	},
	{
	"epoch": 0.9794183903338112,
	"grad_norm": 0.17673194408416748,
	"learning_rate": 0.00017566960493528995,
	"loss": 1.0224,
	"step": 19130
	},
	{
	"epoch": 0.9799303706737661,
	"grad_norm": 0.1806950718164444,
	"learning_rate": 0.00017498064919680242,
	"loss": 1.0111,
	"step": 19140
	},
	{
	"epoch": 0.9804423510137211,
	"grad_norm": 0.16843082010746002,
	"learning_rate": 0.00017429439546251066,
	"loss": 1.0059,
	"step": 19150
	},
	{
	"epoch": 0.980954331353676,
	"grad_norm": 0.17275168001651764,
	"learning_rate": 0.00017361083313546875,
	"loss": 1.037,
	"step": 19160
	},
	{
	"epoch": 0.981466311693631,
	"grad_norm": 0.17250047624111176,
	"learning_rate": 0.0001729299516602907,
	"loss": 1.0193,
	"step": 19170
	},
	{
	"epoch": 0.9819782920335859,
	"grad_norm": 0.17009197175502777,
	"learning_rate": 0.00017225174052298777,
	"loss": 1.0412,
	"step": 19180
	},
	{
	"epoch": 0.9824902723735408,
	"grad_norm": 0.16845643520355225,
	"learning_rate": 0.0001715761892508056,
	"loss": 1.0268,
	"step": 19190
	},
	{
	"epoch": 0.9830022527134958,
	"grad_norm": 0.16763417422771454,
	"learning_rate": 0.0001709032874120629,
	"loss": 1.0425,
	"step": 19200
	},
	{
	"epoch": 0.9835142330534508,
	"grad_norm": 0.1747148334980011,
	"learning_rate": 0.00017023302461599015,
	"loss": 1.0228,
	"step": 19210
	},
	{
	"epoch": 0.9840262133934057,
	"grad_norm": 0.17626087367534637,
	"learning_rate": 0.0001695653905125693,
	"loss": 1.0142,
	"step": 19220
	},
	{
	"epoch": 0.9845381937333606,
	"grad_norm": 0.17711155116558075,
	"learning_rate": 0.00016890037479237377,
	"loss": 1.0238,
	"step": 19230
	},
	{
	"epoch": 0.9850501740733156,
	"grad_norm": 0.1858174353837967,
	"learning_rate": 0.00016823796718640937,
	"loss": 1.033,
	"step": 19240
	},
	{
	"epoch": 0.9855621544132706,
	"grad_norm": 0.1855236142873764,
	"learning_rate": 0.0001675781574659558,
	"loss": 1.0276,
	"step": 19250
	},
	{
	"epoch": 0.9860741347532255,
	"grad_norm": 0.16916634142398834,
	"learning_rate": 0.0001669209354424084,
	"loss": 1.0208,
	"step": 19260
	},
	{
	"epoch": 0.9865861150931804,
	"grad_norm": 0.18142545223236084,
	"learning_rate": 0.00016626629096712137,
	"loss": 1.0302,
	"step": 19270
	},
	{
	"epoch": 0.9870980954331353,
	"grad_norm": 0.16748617589473724,
	"learning_rate": 0.00016561421393125036,
	"loss": 1.0244,
	"step": 19280
	},
	{
	"epoch": 0.9876100757730903,
	"grad_norm": 0.180519700050354,
	"learning_rate": 0.000164964694265597,
	"loss": 1.0009,
	"step": 19290
	},
	{
	"epoch": 0.9881220561130453,
	"grad_norm": 0.16856172680854797,
	"learning_rate": 0.00016431772194045298,
	"loss": 1.009,
	"step": 19300
	},
	{
	"epoch": 0.9886340364530002,
	"grad_norm": 0.17907920479774475,
	"learning_rate": 0.00016367328696544536,
	"loss": 1.0182,
	"step": 19310
	},
	{
	"epoch": 0.9891460167929551,
	"grad_norm": 0.18012414872646332,
	"learning_rate": 0.00016303137938938238,
	"loss": 1.0238,
	"step": 19320
	},
	{
	"epoch": 0.9896579971329101,
	"grad_norm": 0.17940422892570496,
	"learning_rate": 0.0001623919893000996,
	"loss": 1.035,
	"step": 19330
	},
	{
	"epoch": 0.9901699774728651,
	"grad_norm": 0.17534732818603516,
	"learning_rate": 0.00016175510682430694,
	"loss": 1.0282,
	"step": 19340
	},
	{
	"epoch": 0.99068195781282,
	"grad_norm": 0.17742076516151428,
	"learning_rate": 0.0001611207221274363,
	"loss": 1.0308,
	"step": 19350
	},
	{
	"epoch": 0.9911939381527749,
	"grad_norm": 0.174584299325943,
	"learning_rate": 0.00016048882541348943,
	"loss": 1.0433,
	"step": 19360
	},
	{
	"epoch": 0.9917059184927299,
	"grad_norm": 0.17817029356956482,
	"learning_rate": 0.00015985940692488709,
	"loss": 1.0088,
	"step": 19370
	},
	{
	"epoch": 0.9922178988326849,
	"grad_norm": 0.1764860898256302,
	"learning_rate": 0.00015923245694231792,
	"loss": 1.0051,
	"step": 19380
	},
	{
	"epoch": 0.9927298791726398,
	"grad_norm": 0.1679990142583847,
	"learning_rate": 0.00015860796578458873,
	"loss": 1.0383,
	"step": 19390
	},
	{
	"epoch": 0.9932418595125947,
	"grad_norm": 0.17141203582286835,
	"learning_rate": 0.00015798592380847468,
	"loss": 1.0367,
	"step": 19400
	},
	{
	"epoch": 0.9937538398525496,
	"grad_norm": 0.17301303148269653,
	"learning_rate": 0.00015736632140857067,
	"loss": 1.0227,
	"step": 19410
	},
	{
	"epoch": 0.9942658201925046,
	"grad_norm": 0.17585515975952148,
	"learning_rate": 0.00015674914901714278,
	"loss": 1.0373,
	"step": 19420
	},
	{
	"epoch": 0.9947778005324596,
	"grad_norm": 0.17036980390548706,
	"learning_rate": 0.0001561343971039807,
	"loss": 1.0025,
	"step": 19430
	},
	{
	"epoch": 0.9952897808724145,
	"grad_norm": 0.1802191138267517,
	"learning_rate": 0.00015552205617625053,
	"loss": 1.0378,
	"step": 19440
	},
	{
	"epoch": 0.9958017612123694,
	"grad_norm": 0.17641904950141907,
	"learning_rate": 0.000154912116778348,
	"loss": 1.0317,
	"step": 19450
	},
	{
	"epoch": 0.9963137415523244,
	"grad_norm": 0.18595443665981293,
	"learning_rate": 0.0001543045694917528,
	"loss": 1.0081,
	"step": 19460
	},
	{
	"epoch": 0.9968257218922794,
	"grad_norm": 0.17444072663784027,
	"learning_rate": 0.0001536994049348828,
	"loss": 1.0242,
	"step": 19470
	},
	{
	"epoch": 0.9973377022322343,
	"grad_norm": 0.17894035577774048,
	"learning_rate": 0.00015309661376294953,
	"loss": 1.0269,
	"step": 19480
	},
	{
	"epoch": 0.9978496825721892,
	"grad_norm": 0.17125560343265533,
	"learning_rate": 0.00015249618666781352,
	"loss": 1.0189,
	"step": 19490
	},
	{
	"epoch": 0.9983616629121441,
	"grad_norm": 0.1681634485721588,
	"learning_rate": 0.0001518981143778408,
	"loss": 1.0014,
	"step": 19500
	},
	{
	"epoch": 0.9988736432520992,
	"grad_norm": 0.17360231280326843,
	"learning_rate": 0.0001513023876577597,
	"loss": 1.0033,
	"step": 19510
	},
	{
	"epoch": 0.9993856235920541,
	"grad_norm": 0.17242667078971863,
	"learning_rate": 0.00015070899730851815,
	"loss": 1.0236,
	"step": 19520
	},
	{
	"epoch": 0.999897603932009,
	"grad_norm": 0.16095665097236633,
	"learning_rate": 0.0001501179341671418,
	"loss": 1.0393,
	"step": 19530
	}
	],
	"logging_steps": 10,
	"max_steps": 19532,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.8288897328545792e+17,
	"train_batch_size": 512,
	"trial_name": null,
	"trial_params": null
	}